Análisis de El Libro del Buen Amor de El Arcipreste de Hita

Índice

Información General

Título:El Libro del Buen Amor
Autor:El Arcipreste de Hita
Idioma:Castellano
#Palabras total:60948
#Palabras distintas:11479
Type-Token ratio:18.83%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1218550
2436936
36541237
48721588
60901972
73082232
85262561
97442861
109623171
121803414
133983693
146163996
158344260
170524509
182704741
194885031
207065249
219245515
231425755
243605959
255786175
267966374
280146543
292326727
304506897
316687131
328867321
341047470
353227636
365407838
377588036
389768268
401948475
414128680
426308912
438489092
450669299
462849558
475029749
487209936
4993810118
5115610260
5237410411
5359210560
5481010698
5602810872
5724611032
5846411160
5968211301
6090011475
6094811479
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 2.203 b = 0.779

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de2043
2que1886
3la1751
4é1663
5el1473
6non1228
7en1167
8á863
9por820
10con752
11los611
12las546
13lo497
14es480
15su474
16del426
17al395
18se325
19más325
20me304
21y298
22vos293
23a282
24yo274
25mi272
26como253
27tu249
28nin247
29un238
30e233
31te225
32grand214
33le212
34muy207
35bien202
36dios201
37mucho199
38sus178
39amor177
40todo175
41mal169
42fué167
43ome164
44él160
45sy155
46todos150
47l149
48una145
49para144
50dueña144
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (El Libro del Buen Amor de El Arcipreste de Hita) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraEl Libro del Buen Amor de El Arcipreste de Hita(60948)Resto (1739958)Dunning -2log(lambda)
é16634110922.289
non1228288073.671
á86305856.142
y298627342610.724
nin24721650.520
a282426761475.183
no109305841411.731
grand21461395.300
vos2933701100.783
ome16411098.906
sy15501050.049
diz1400948.398
byen1340907.739
l14921883.704
syn1020690.914
dueña14491668.033
qu940636.713
dixo10718622.988
fué167238598.782
ó880596.063
Mostrar todo