Análisis de Trafalgar de Benito Pérez Galdós

Índice

Información General

Título:Trafalgar
Autor:Benito Pérez Galdós
Idioma:Castellano
#Palabras total:51168
#Palabras distintas:8450
Type-Token ratio:16.51%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1023503
2046859
30691236
40921516
51151787
61382052
71612279
81842489
92072694
102302939
112533177
122763382
132993559
143223735
153453910
163684105
173914290
184144486
194374640
204604794
214834979
225065187
235295379
245525534
255755667
265985818
276215938
286446091
296676210
306906338
317136467
327366599
337596726
347826836
358056947
368287059
378517168
388747259
398977389
409207474
419437549
429667658
439897772
450127892
460357984
470588069
480818137
491048241
501278339
511508449
511688450
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 4.327 b = 0.704

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de2559
2que1881
3la1705
4y1656
5a1321
6el1297
7en1114
8no745
9los718
10se684
11con625
12por511
13me465
14un452
15su446
16mi441
17las415
18del414
19al376
20para330
21como321
22más300
23lo293
24una251
25yo241
26le212
27era212
28si210
29pero209
30había178
31es165
32nos161
33sus160
34cuando158
35tan153
36sin139
37todos129
38o120
39pues116
40ni110
41amo109
42muy108
43todo105
44después104
45aquel104
46mis103
47qué101
48ya99
49d97
50dijo95
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Trafalgar de Benito Pérez Galdós) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraTrafalgar de Benito Pérez Galdós(51168)Resto (1749738)Dunning -2log(lambda)
marcial8813550.065
escuadra828530.588
ingleses7424419.398
malespina570406.008
navío8049401.382
cádiz6513393.462
navíos588364.841
combate6114363.107
buque438262.424
bordo393256.340
alonso5133252.603
barcos417252.552
mi4416359242.975
trinidad3810222.107
don105091220.397
gravina300213.673
marineros3711212.495
amo109645190.575
tripulación250178.058
francisca4774177.366
Mostrar todo