Análisis de Soledades 1 de Luis de Góngora

Índice

Información General

Título:Soledades 1
Autor:Luis de Góngora
Idioma:Castellano
#Palabras total:6189
#Palabras distintas:2285
Type-Token ratio:36.92%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1000541
2000965
30001326
40001646
50001948
60002240
61892285
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 2.396 b = 0.787

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de315
2la213
3el212
4que211
5en127
6y125
7a119
8del98
9al98
10no82
11los74
12su73
13las73
14con44
15sus39
16más37
17un31
18ya26
19ven25
20o25
21le25
22lo24
23pues22
24himeneo22
25sol21
26se21
27si20
28es18
29cuando18
30por17
31fue14
32dulce14
33cual14
34aun14
35una13
36mar13
37donde13
38viento12
39tu12
40sin12
41dos12
42día12
43cuantos12
44verde11
45tal11
46sobre11
47siempre11
48rayos11
49oro11
50menos11
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Soledades 1 de Luis de Góngora) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraSoledades 1 de Luis de Góngora(6189)Resto (1794717)Dunning -2log(lambda)
himeneo222235.948
ven25234120.966
al981045572.358
sol2143171.393
se212347463.659
como11014260.912
rayos117958.535
me31126256.402
plumas106455.309
del981235152.763
bella107452.666
dulce1427648.603
breve1113048.487
y1256290747.316
cuantos1218347.279
errantes5346.172
canoro5346.172
por171791845.915
ondas84645.795
aves85044.588
Mostrar todo