Análisis de Soledades 2 de Luis de Góngora

Índice

Información General

Título:Soledades 2
Autor:Luis de Góngora
Idioma:Castellano
#Palabras total:5405
#Palabras distintas:2064
Type-Token ratio:38.19%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1000566
2000983
30001336
40001631
50001951
54052064
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 2.932 b = 0.763

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de258
2el179
3la161
4que154
5en122
6a106
7y92
8no86
9al82
10las78
11del77
12su61
13los54
14si38
15más37
16sus35
17con34
18un31
19ya28
20por27
21o27
22mar24
23lo23
24pues21
25se20
26mi19
27dos19
28le18
29ondas17
30cuando17
31viento16
32menos16
33donde15
34breve15
35quien13
36mis13
37duro13
38mas12
39fin12
40es12
41cuanto12
42bien12
43verde11
44una11
45sin11
46siempre11
47entre11
48día11
49aun11
50tanto10
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Soledades 2 de Luis de Góngora) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraSoledades 2 de Luis de Góngora(5405)Resto (1795501)Dunning -2log(lambda)
ondas1737130.499
mar2438698.440
breve1512679.493
micón6069.711
lícidas6069.711
viento1623468.412
y926294063.663
duro1316359.276
redes82258.288
leño71256.395
cáñamo71256.395
al821047156.069
rocas71355.511
playa82854.981
se202347551.213
escollo6850.638
plumas96550.181
verde1118444.298
peregrino73444.058
luciente61743.411
Mostrar todo