Análisis de Romances de Francisco de Quevedo

Índice

Información General

Título:Romances
Autor:Francisco de Quevedo
Idioma:Castellano
#Palabras total:12700
#Palabras distintas:3713
Type-Token ratio:29.24%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1000497
2000895
30001248
40001568
50001883
60002079
70002275
80002477
90002712
100002980
110003284
120003510
127003713
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 2.598 b = 0.767

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1que546
2y537
3de500
4la363
5el334
6en316
7a229
8no185
9los182
10las174
11con159
12por137
13su111
14al108
15se99
16es99
17si85
18del83
19lo75
20me73
21más73
22qué72
23un69
24pues67
25mi62
26le57
27yo53
28para49
29sus48
30ya46
31tan46
32te41
33sin39
34ser39
35son38
36tu36
37una35
38ni35
39quien34
40como34
41porque32
42dar30
43bien30
44ha29
45dinero28
46amor27
47sol26
48mis26
49os25
50o25
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Romances de Francisco de Quevedo) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraRomances de Francisco de Quevedo(12700)Resto (1788206)Dunning -2log(lambda)
letrilla10099.097
galán187289.331
malhaya10482.402
satírica8173.011
consiente122572.645
dinero2846868.767
sol2642664.737
había3602763.523
dama1820656.018
era8645247.612
pues67362745.278
poderoso117245.092
dijo4473542.108
luz2251341.786
nadadores4039.637
madrugas4039.637
digasmé4039.637
cantas5339.004
estrellas1110937.018
vuelas4134.647
Mostrar todo