Análisis de Don Quixote de Miguel de Cervantes

Índice

Información General

Título:Don Quixote
Autor:Miguel de Cervantes
Idioma:Inglés
#Palabras total:413057
#Palabras distintas:14810
Type-Token ratio:3.59%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
82612188
165223135
247833840
330444525
413055188
495665664
578276154
660886498
743496880
826107233
908717505
991327790
1073938001
1156548210
1239158480
1321768718
1404378910
1486989176
1569599442
1652209598
1734819757
1817429956
19000310199
19826410497
20652510789
21478611006
22304711212
23130811416
23956911606
24783011786
25609111973
26435212209
27261312372
28087412540
28913512698
29739612844
30565713009
31391813182
32217913305
33044013498
33870113667
34696213791
35522313904
36348414030
37174514171
38000614309
38826714458
39652814551
40478914694
41305014810
41305714810
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 32.002 b = 0.476

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1the21069
2and17110
3to13412
4of12521
5that7705
6in6863
7a6744
8i6636
9he5881
10it5394
11for4992
12his4378
13as4294
14is3621
15with3593
16not3519
17him3428
18was3390
19be3212
20don2874
21my2803
22they2675
23this2671
24all2638
25said2615
26have2505
27me2496
28so2366
29on2323
30you2303
31quixote2193
32sancho2169
33had2153
34but2153
35her2117
36or2104
37by2098
38at1972
39what1918
40which1898
41who1897
42if1780
43them1717
44will1641
45s1641
46one1591
47from1506
48your1358
49are1336
50there1310
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Don Quixote de Miguel de Cervantes) (conjunto 1) contra el resto de textos en el mismo idioma (Inglés) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraDon Quixote de Miguel de Cervantes(413057)Resto (910657)Dunning -2log(lambda)
don2874486254.029
d5289606210.878
quixote219305116.013
sancho216905059.937
said26153834096.364
the21069273773347.055
you2303138262507.969
was339022492003.012
of12521174811509.199
o13030531503.148
lord14030941490.252
king13630421471.694
enter3923571457.224
sir9827641444.163
and17110260841411.958
he588166791347.016
my2803124891316.183
to13412197711287.994
had215314281270.313
hath2919421219.218
Mostrar todo