Comparativa: Quevedo contra Góngora

Índice

Información General

Título:*
Autor:Francisco de Quevedo
Idioma:Castellano
#Palabras total:21711
#Palabras distintas:5385
Type-Token ratio:24.80%
Título:*
Autor:Luis de Góngora
Idioma:Castellano
#Palabras total:20168
#Palabras distintas:5030
Type-Token ratio:24.94%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

QuevedoGóngora
#Palabras:#Palabras distintas:
1000497
2000895
30001248
40001568
50001883
60002079
70002275
80002477
90002712
100002980
110003284
120003510
130003786
140003984
150004200
160004396
170004570
180004753
190004929
200005118
210005273
217115385
#Palabras:#Palabras distintas:
1000507
2000804
30001142
40001425
50001658
60001975
70002269
80002533
90002784
100003021
110003239
120003476
130003692
140003913
150004116
160004298
170004499
180004672
190004837
200005001
201685030
Ajuste por mínimos cuadrados de los datos a K*n^b:
Quevedo Góngora
K = 2.677 K = 2.167
b = 0.764 b = 0.784

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

QuevedoGóngora Ilustración del principio de mínimo esfuerzo:
RankPalabraFrec
1y956
2de860
3que855
4la650
5el589
6en577
7a390
8no304
9con279
10los273
11las255
12su215
13por195
14al195
15del188
16es168
17si152
18se146
19mi144
20lo125
21un117
22me116
23más111
24pues103
25tu100
26qué97
27le89
28te77
29sus75
30yo71
31ya71
32amor69
33para67
34son66
35sin65
36muerte65
37mis62
38vida60
39una60
40tan58
41ser57
42quien55
43ni55
44sol48
45ha47
46como46
47día43
48porque40
49cuando40
50alma39
RankPalabraFrec
1de977
2que675
3la621
4el606
5y433
6en432
7a412
8no308
9al286
10del249
11su230
12las230
13los219
14con153
15más147
16sus130
17un122
18si114
19es114
20lo104
21o97
22se92
23ya91
24por91
25le83
26tadeo81
27mi66
28pues65
29dos58
30tu54
31fabio54
32una53
33cuando51
34camilo51
35bien51
36mar49
37tan45
38mas42
39me41
40donde41
41para40
42viento38
43sol38
44sin38
45dulce38
46día38
47son37
48entre37
49oh36
50menos36
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.
En este caso lo utilizaremos para encontrar palabras distintivas de cada uno de los conjuntos que estamos comparando frente al otro.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará un conjunto (Quevedo) (conjunto 1) contra el otro (Góngora) (conjunto 2) y viceversa.

A continuación se muestra una lista de todas las palabras presentes en los textos, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál de ellos son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraQuevedo (21711)Góngora (20168)Dunning -2log(lambda)
y956433170.699
tadeo081118.540
camilo05174.597
fabio25464.356
marcelo03551.180
muerte65846.701
vida60744.262
dinero29038.123
o339737.931
violante02536.550
ahora02435.088
aparte12934.945
himeneo02333.625
me1164132.132
por1959131.631
qué973229.772
don28129.568
con27915328.880
soy33327.111
hijo01826.313
Mostrar todo