Análisis de El Lazarillo de Tormes de Anónimo

Índice

Información General

Título:El Lazarillo de Tormes
Autor:Anónimo
Idioma:Castellano
#Palabras total:20073
#Palabras distintas:3718
Type-Token ratio:18.52%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1000468
2000788
30001062
40001292
50001505
60001712
70001896
80002084
90002225
100002370
110002537
120002690
130002824
140002930
150003085
160003226
170003357
180003495
190003603
200003710
200733718
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 4.539 b = 0.679

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1y1144
2que901
3de753
4la527
5a484
6el463
7en429
8no343
9por283
10con281
11me258
12lo214
13yo211
14mi198
15un164
16se160
17los158
18le147
19como146
20las139
21del129
22él123
23más117
24su114
25al98
26mas92
27porque89
28había89
29para83
30si80
31bien79
32amo77
33dios76
3471
35muy69
36una67
37señor67
38es67
39cual59
40pues58
41ni58
42era58
43ser55
44casa55
45tan54
46fue54
47tenía52
48día52
49sin49
50qué49
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (El Lazarillo de Tormes de Anónimo) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraEl Lazarillo de Tormes de Anónimo(20073)Resto (1780833)Dunning -2log(lambda)
y114461888246.034
lázaro263214.637
amo77677210.682
ansí42135186.859
mas921293179.973
pero27153141.914
mi1986602138.840
bula173136.060
dije43307132.867
alguacil2121131.128
ciego37245119.092
yo2118009115.759
me25811007109.202
arca1716107.542
don2509997.069
jarro172596.770
arcaz10089.938
longaniza11287.815
bulas10279.170
llave208878.358
Mostrar todo