Análisis de Polifemo y Galatea de Luis de Góngora

Índice

Información General

Título:Polifemo y Galatea
Autor:Luis de Góngora
Idioma:Castellano
#Palabras total:3240
#Palabras distintas:1330
Type-Token ratio:41.05%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1000537
2000912
30001251
32401330
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 2.608 b = 0.771

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de170
2la123
3el113
4que91
5en72
6y67
7al57
8su55
9a54
10no45
11del39
12los37
13las36
14más28
15sus27
16un25
17o23
18es23
19si21
20lo18
21con16
22ya13
23se13
24una12
25por12
26mar12
27dulce11
28cuando11
29sueño10
30mas10
31galatea10
32amor10
33sin9
34ninfa9
35le9
36bien9
37son8
38pie8
39mi8
40fue8
41dos8
42día8
43cuanto8
44cuantas8
45cristal8
46sobre7
47sea7
48roca7
49fiero7
50entre7
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Polifemo y Galatea de Luis de Góngora) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraPolifemo y Galatea de Luis de Góngora(3240)Resto (1797666)Dunning -2log(lambda)
galatea104109.703
ninfa91186.307
acis6075.857
roca71958.280
cristal86650.688
al571049649.887
fiero74148.769
cuantas88247.449
dulce1127946.528
polifemo4145.568
mar1239844.769
sueño1027340.921
süave4637.130
bella67832.908
nieve68132.482
cupido41431.550
cíclope3231.203
unió3329.619
jayán3329.619
garzón3329.619
Mostrar todo