Comparativa: El Libro del Buen Amor contra La Celestina

Índice

Información General

Título:El Libro del Buen Amor
Autor:El Arcipreste de Hita
Idioma:Castellano
#Palabras total:60948
#Palabras distintas:11479
Type-Token ratio:18.83%
Título:La Celestina
Autor:Fernando de Rojas
Idioma:Castellano
#Palabras total:68450
#Palabras distintas:9189
Type-Token ratio:13.42%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

Buen_AmorCelestina
#Palabras:#Palabras distintas:
1218550
2436936
36541237
48721588
60901972
73082232
85262561
97442861
109623171
121803414
133983693
146163996
158344260
170524509
182704741
194885031
207065249
219245515
231425755
243605959
255786175
267966374
280146543
292326727
304506897
316687131
328867321
341047470
353227636
365407838
377588036
389768268
401948475
414128680
426308912
438489092
450669299
462849558
475029749
487209936
4993810118
5115610260
5237410411
5359210560
5481010698
5602810872
5724611032
5846411160
5968211301
6090011475
6094811479
#Palabras:#Palabras distintas:
1369637
27381043
41071479
54761845
68452185
82142499
95832876
109523126
123213356
136903549
150593822
164284070
177974318
191664483
205354663
219044827
232734980
246425115
260115299
273805451
287495615
301185744
314875870
328565996
342256120
355946257
369636410
383326538
397016733
410706851
424396953
438087063
451777173
465467268
479157407
492847521
506537644
520227760
533917872
547608014
561298121
574988229
588678338
602368423
616058546
629748654
643438755
657128880
670819015
684509189
Ajuste por mínimos cuadrados de los datos a K*n^b:
Buen_Amor Celestina
K = 2.203 K = 7.093
b = 0.779 b = 0.647

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

Buen_AmorCelestina Ilustración del principio de mínimo esfuerzo:
RankPalabraFrec
1de2043
2que1886
3la1751
4é1663
5el1473
6non1228
7en1167
8á863
9por820
10con752
11los611
12las546
13lo497
14es480
15su474
16del426
17al395
18se325
19más325
20me304
21y298
22vos293
23a282
24yo274
25mi272
26como253
27tu249
28nin247
29un238
30e233
31te225
32grand214
33le212
34muy207
35bien202
36dios201
37mucho199
38sus178
39amor177
40todo175
41mal169
42fué167
43ome164
44él160
45sy155
46todos150
47l149
48una145
49para144
50dueña144
RankPalabraFrec
1que3639
2de2604
3e2067
4la1474
5no1454
6a1336
7en1229
8el1075
9mi934
10por848
11me802
12con744
13tu723
14es680
15lo657
16los590
17mas579
18su562
19se543
20como508
21te504
22yo475
23si471
24o471
25las441
26para338
27pues313
28quien293
29cel280
30ni256
31esta256
32porque255
33le254
34del249
35dios233
36cal225
37semp212
38sus205
39tan196
40vn195
41bien195
42y192
43senora191
44sin190
45todo186
46al181
47ya177
48ha172
49assi169
50parm161
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.
En este caso lo utilizaremos para encontrar palabras distintivas de cada uno de los conjuntos que estamos comparando frente al otro.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará un conjunto (Buen_Amor) (conjunto 1) contra el otro (Celestina) (conjunto 2) y viceversa.

A continuación se muestra una lista de todas las palabras presentes en los textos, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál de ellos son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraBuen_Amor (60948)Celestina (68450)Dunning -2log(lambda)
é166302528.381
non122811847.300
e23320671497.625
á86301305.966
no10914541237.503
a2821336636.312
más3250490.286
o27471431.946
vos2931429.835
que18863639397.659
nin2470372.449
cel0280357.143
mas92579341.125
un2382338.266
mi272934314.231
grand2145281.298
semp0212270.308
cal3225259.466
fué1670251.702
vn0195248.610
Mostrar todo