Análisis de Complete Works de William Shakespeare

Índice

Información General

Título:Complete Works
Autor:William Shakespeare
Idioma:Inglés
#Palabras total:910657
#Palabras distintas:23514
Type-Token ratio:2.58%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
182133132
364264740
546395898
728526940
910657779
1092788464
1274919207
1457049792
16391710373
18213011067
20034311770
21855612454
23676912952
25498213425
27319514118
29140814738
30962115177
32783415559
34604715883
36426016133
38247316427
40068616710
41889916994
43711217222
45532517597
47353817963
49175118393
50996418717
52817718960
54639019233
56460319512
58281619841
60102920057
61924220259
63745520525
65566820705
67388120868
69209420981
71030721198
72852021408
74673321643
76494621866
78315922061
80137222254
81958522492
83779822735
85601122961
87422423108
89243723273
91065023514
91065723514
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 25.839 b = 0.500

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1the27377
2and26084
3i22538
4to19771
5of17481
6a14725
7you13826
8my12489
9that11318
10in11112
11is9319
12d8960
13not8512
14with7791
15me7777
16it7725
17s7721
18for7655
19be6897
20his6859
21he6679
22your6657
23this6608
24but6277
25have5902
26as5749
27thou5549
28him5205
29so5058
30will5008
31what4808
32thy4034
33all3960
34her3850
35do3828
36no3797
37by3793
38we3614
39shall3600
40if3511
41are3446
42on3188
43thee3181
44lord3094
45our3061
46o3053
47king3042
48good2834
49now2792
50sir2764
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Complete Works de William Shakespeare) (conjunto 1) contra el resto de textos en el mismo idioma (Inglés) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraComplete Works de William Shakespeare(910657)Resto (413057)Dunning -2log(lambda)
don4828746254.029
d8960526210.878
said38326154096.364
the27377210693347.055
you1382623032507.969
was224933902003.012
of17481125211509.199
o30531301503.148
lord30941401490.252
king30421361471.694
enter2357391457.224
sir2764981444.163
and26084171101411.958
he667958811347.016
my1248928031316.183
to19771134121287.994
had142821531270.313
hath1942291219.218
who129618971078.246
i2253866361052.644
Mostrar todo