Análisis de Misericordia de Benito Pérez Galdós

Índice

Información General

Título:Misericordia
Autor:Benito Pérez Galdós
Idioma:Castellano
#Palabras total:83883
#Palabras distintas:12799
Type-Token ratio:15.26%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1677750
33541307
50311764
67082152
83852559
100623002
117393347
134163731
150934130
167704480
184474736
201245009
218015252
234785506
251555760
268326097
285096361
301866658
318636958
335407253
352177473
368947689
385717918
402488127
419258350
436028536
452798699
469568933
486339133
503109342
519879520
536649769
553419952
5701810161
5869510343
6037210512
6204910700
6372610858
6540311064
6708011184
6875711364
7043411524
7211111689
7378811855
7546512029
7714212167
7881912309
8049612475
8217312648
8385012793
8388312799
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 4.247 b = 0.710

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de4272
2que3256
3y3161
4la3088
5a1934
6en1872
7el1638
8no1614
9se1197
10con1097
11los894
12por881
13su827
14las825
15un778
16lo686
17le675
18del574
19para565
20una514
21al501
22me500
23como474
24más444
25es409
26yo402
27si379
28pero326
29qué315
30benina313
31usted299
32ya291
33sus269
34o269
35había256
36era254
37casa250
38te245
39señora244
40pues231
41sin223
42todo215
43dijo202
44dos197
45doña195
46191
47ella188
48porque177
49él173
50d173
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Misericordia de Benito Pérez Galdós) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraMisericordia de Benito Pérez Galdós(83883)Resto (1717023)Dunning -2log(lambda)
benina31301920.820
nina1171706.308
almudena1130693.202
frasquito1189659.747
ponte11714630.020
paca11727581.335
romualdo780478.462
don125089390.479
juliana561333.524
francisca6655243.346
anciana416216.154
obdulia87195203.765
señora2441702189.864
ciego81201177.819
e132682171.116
d1731076159.039
migo250153.338
zapata240147.204
señá3216136.696
amri220134.937
Mostrar todo