Análisis de Don Quijote de la Mancha de Miguel de Cervantes

Índice

Información General

Título:Don Quijote de la Mancha
Autor:Miguel de Cervantes
Idioma:Castellano
#Palabras total:381216
#Palabras distintas:22935
Type-Token ratio:6.02%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
76242284
152483484
228724380
304965317
381206187
457446860
533687577
609928125
686168700
762409236
838649726
9148810210
9911210584
10673610988
11436011415
12198411765
12960812093
13723212464
14485612932
15248013263
16010413572
16772813909
17535214296
18297614723
19060015199
19822415575
20584815961
21347216323
22109616671
22872017022
23634417360
24396817809
25159218169
25921618475
26684018801
27446419043
28208819353
28971219714
29733620059
30496020372
31258420658
32020820906
32783221160
33545621444
34308021711
35070421962
35832822215
36595222426
37357622714
38120022935
38121622935
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 12.991 b = 0.582

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1que20628
2de18213
3y18189
4la10363
5a9824
6en8242
7el8210
8no6335
9los4748
10se4691
11con4202
12por3940
13las3468
14lo3461
15le3398
16su3352
17don2647
18del2491
19me2345
20como2264
21quijote2175
22sancho2148
23es2142
24yo2077
25más2044
26si1966
27un1938
28dijo1808
29al1737
30mi1705
31para1463
32porque1395
33ni1376
34una1329
35él1278
36tan1243
37o1213
38todo1180
39sin1156
40así1065
41señor1063
42respondió1063
43ser1056
44ha1052
45bien1050
46sus1049
47había1034
48pero1014
49merced900
50esto886
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Don Quijote de la Mancha de Miguel de Cervantes) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraDon Quijote de la Mancha de Miguel de Cervantes(381216)Resto (1419690)Dunning -2log(lambda)
quijote2175236519.335
sancho21482665130.886
respondió10631792363.935
don264724542331.278
y18189448432149.194
merced9001272088.271
que20628540521826.146
vuestra8521651823.794
caballero6612581084.967
panza32910936.470
dulcinea2821863.063
e722623808.484
dijo18082931709.951
rocinante2060639.792
escudero24218629.320
un193812558592.473
andante1976560.610
así10651494543.551
mesmo21924534.916
duquesa18910512.438
Mostrar todo