Análisis de Novelas y teatro de Miguel de Cervantes

Índice

Información General

Título:Novelas y teatro
Autor:Miguel de Cervantes
Idioma:Castellano
#Palabras total:58723
#Palabras distintas:8472
Type-Token ratio:14.43%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1174497
2348822
35221149
46961426
58701648
70441941
82182172
93922370
105662567
117402730
129142891
140883102
152623264
164363431
176103583
187843713
199583863
211323976
223064086
234804171
246544284
258284469
270024632
281764801
293504952
305245120
316985262
328725384
340465547
352205702
363945846
375685990
387426145
399166297
410906452
422646604
434386741
446126864
457866981
469607106
481347249
493087381
504827542
516567673
528307835
540047983
551788128
563528238
575268357
587008470
587238472
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 3.518 b = 0.707

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1que2923
2y2791
3de2784
4la1824
5a1518
6el1383
7en1356
8los834
9no789
10con749
11se656
12por623
13las566
14su462
15lo414
16le406
17un381
18del372
19me338
20como310
21es298
22más281
23al281
24si279
25una253
26yo240
27mi237
28para191
29tan187
30ser183
31sus182
32dijo182
33él160
34sin156
35porque154
36o154
37nos151
38ni150
39dos147
40había145
41todo144
42señor144
43ya141
44ella135
45pues133
46bien131
47pero128
48te126
49esta125
50cuando125
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Novelas y teatro de Miguel de Cervantes) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraNovelas y teatro de Miguel de Cervantes(58723)Resto (1742183)Dunning -2log(lambda)
preciosa11436617.765
corregidor688415.016
costanza490335.515
andrés7057308.379
avendaño410280.731
carriazo390267.036
cipión424260.664
y279160241255.386
berganza351230.572
gitana364220.751
numancia377215.246
alc300205.408
benito349189.273
gitanos293178.847
chanfalla260178.018
cip250171.171
tomás4350169.342
fué78327158.908
romanos3012155.948
asturiano254148.167
Mostrar todo