Análisis de Sonetos de Francisco de Quevedo

Índice

Información General

Título:Sonetos
Autor:Francisco de Quevedo
Idioma:Castellano
#Palabras total:9011
#Palabras distintas:2796
Type-Token ratio:31.03%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1000512
2000893
30001245
40001522
50001796
60002058
70002297
80002574
90002794
90112796
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 2.621 b = 0.766

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1y419
2de360
3que309
4la287
5en261
6el255
7a161
8con120
9no119
10del105
11su104
12los91
13al87
14mi82
15las81
16es69
17si67
18tu64
19por58
20lo50
21un48
22se47
23muerte44
24me43
25amor42
26más38
27vida36
28te36
29pues36
30mis36
31le32
32son28
33día28
34sus27
35sin26
36fuego26
37ya25
38una25
39qué25
40sol22
41tus21
42quien21
43todo20
44oro20
45ni20
46cuando20
47ardiente20
48ojos19
49amante19
50yo18
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Sonetos de Francisco de Quevedo) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraSonetos de Francisco de Quevedo(9011)Resto (1791895)Dunning -2log(lambda)
muerte44650145.015
lisi130137.756
tu642314112.612
ardiente2088109.329
amante1911094.613
amor42115093.138
fuego2635389.576
llanto148468.813
mis36131562.677
sol2243061.544
nieve127558.103
oro2037557.406
se472344855.714
érase6352.148
había1602951.766
fría118449.297
mi82671848.909
tus2154148.705
venas82548.465
púrpura71844.705
Mostrar todo