Análisis de la obra de Luis de Góngora

Índice

Información General

Escritor:Luis de Góngora
Idioma:Castellano
#Palabras total:20168
#Palabras distintas:5030
Type-Token ratio:24.94%

Relación de obras consideradas:

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1000507
2000804
30001142
40001425
50001658
60001975
70002269
80002533
90002784
100003021
110003239
120003476
130003692
140003913
150004116
160004298
170004499
180004672
190004837
200005001
201685030
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 2.167 b = 0.784

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de977
2que675
3la621
4el606
5y433
6en432
7a412
8no308
9al286
10del249
11su230
12las230
13los219
14con153
15más147
16sus130
17un122
18si114
19es114
20lo104
21o97
22se92
23ya91
24por91
25le83
26tadeo81
27mi66
28pues65
29dos58
30tu54
31fabio54
32una53
33cuando51
34camilo51
35bien51
36mar49
37tan45
38mas42
39me41
40donde41
41para40
42viento38
43sol38
44sin38
45dulce38
46día38
47son37
48entre37
49oh36
50menos36
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (la obra de Luis de Góngora) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraObra de Luis de Góngora(20168)Resto (1729570)Dunning -2log(lambda)
tadeo810723.348
camilo510455.366
fabio545448.031
marcelo350312.479
violante250223.187
himeneo231197.039
ondas2924186.457
al2869891176.675
mar49301160.992
plumas2845153.811
se9222719151.410
octavio172139.020
breve32107138.176
viento38191137.869
aparte2981133.876
y43360943128.883
dulce38250120.376
bella2459115.793
escollo131108.868
don15090108.042
Mostrar todo