Análisis de El Buscón de Francisco de Quevedo

Índice

Información General

Título:El Buscón
Autor:Francisco de Quevedo
Idioma:Castellano
#Palabras total:42981
#Palabras distintas:7172
Type-Token ratio:16.69%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1000462
2000789
30001072
40001329
50001585
60001810
70002014
80002210
90002381
100002546
110002720
120002880
130003056
140003200
150003350
160003521
170003709
180003872
190004017
200004169
210004307
220004446
230004614
240004755
250004904
260005026
270005154
280005288
290005433
300005577
310005708
320005829
330005970
340006073
350006182
360006267
370006395
380006516
390006616
400006746
410006854
420007017
429817172
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 3.486 b = 0.715

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1y2313
2que2093
3de1979
4la1159
5a1143
6en1025
7el891
8no735
9con626
10los575
11por532
12me487
13yo436
14las436
15se412
16un405
17lo405
18le271
19mi260
20al258
21una248
22como236
23era234
24para232
25había207
26más203
27del194
28si184
29porque170
30él168
31su167
32dijo160
33es150
34esto138
35todos134
36casa126
37dos119
38tenía118
39todo108
40nos104
41tan102
42102
43otro97
44bien97
45v95
46estaba94
47otros93
48don92
49ya91
50uno91
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (El Buscón de Francisco de Quevedo) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraEl Buscón de Francisco de Quevedo(42981)Resto (1757925)Dunning -2log(lambda)
md860642.637
v95128411.838
y231360719399.672
diego5669249.820
yo4367784225.365
dije74276205.169
su16716099164.916
me48710778147.857
diciendo78570133.845
te184425114.193
vi53314108.091
otros931024103.947
traía44217102.427
capa3312192.365
tu3237591.172
pero65709087.822
fuime14485.716
filipe11082.179
comencé161281.872
decía90117979.624
Mostrar todo