Análisis de la obra de Miguel de Cervantes

Índice

Información General

Escritor:Miguel de Cervantes
Idioma:Castellano
#Palabras total:439939
#Palabras distintas:25294
Type-Token ratio:5.75%

Relación de obras consideradas:

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
87982519
175963770
263944765
351925873
439906699
527887525
615868166
703848832
791829453
879809993
9677810457
10557610926
11437411415
12317211830
13197012200
14076812713
14956613123
15836413514
16716213858
17596014323
18475814796
19355615345
20235415793
21115216220
21995016612
22874817025
23754617419
24634417931
25514218298
26394018662
27273818984
28153619326
29033419736
29913220130
30793020465
31672820811
32552621085
33432421415
34312221711
35192022004
36071822274
36951622570
37831422838
38711223193
39591023523
40470823755
41350624112
42230424484
43110224876
43990025290
43993925294
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 12.977 b = 0.582

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1que23551
2de20997
3y20980
4la12187
5a11342
6en9598
7el9593
8no7124
9los5582
10se5347
11con4951
12por4563
13las4034
14lo3875
15su3814
16le3804
17del2863
18don2715
19me2683
20como2574
21es2440
22más2325
23un2319
24yo2317
25si2245
26quijote2175
27sancho2155
28al2018
29dijo1990
30mi1942
31para1654
32una1582
33porque1549
34ni1526
35él1438
36tan1430
37o1367
38todo1324
39sin1312
40ser1239
41sus1231
42señor1207
43así1188
44bien1181
45había1179
46ha1170
47pero1142
48respondió1131
49esto1006
50pues998
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (la obra de Miguel de Cervantes) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraObra de Miguel de Cervantes(439939)Resto (1360967)Dunning -2log(lambda)
quijote2175235896.391
sancho21552594581.581
y20980420522594.333
respondió11311112504.438
merced935922069.121
que23551511292017.233
don271523861945.962
vuestra8891281809.120
caballero6912281046.472
e872608938.647
panza32910843.005
dulcinea2821782.316
dijo19902749703.935
vuesa2311638.909
d71242629.214
un231912177617.070
non101246609.866
os567335596.205
escudero24515584.416
así11881371583.300
Mostrar todo