Análisis de Marianela de Benito Pérez Galdós

Índice

Información General

Título:Marianela
Autor:Benito Pérez Galdós
Idioma:Castellano
#Palabras total:50983
#Palabras distintas:8217
Type-Token ratio:16.12%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1000516
2000862
30001181
40001420
50001697
60001887
70002123
80002356
90002627
100002870
110003135
120003370
130003525
140003654
150003827
160003971
170004121
180004263
190004395
200004593
210004746
220004905
230005043
240005208
250005346
260005491
270005628
280005745
290005851
300005974
310006126
320006263
330006361
340006470
350006573
360006692
370006796
380006907
390007013
400007106
410007196
420007296
430007400
440007505
450007580
460007688
470007785
480007885
490007964
500008051
509838217
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 4.640 b = 0.694

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de2495
2la1883
3que1796
4y1519
5a1124
6el1026
7en993
8no978
9los582
10se574
11las517
12un515
13su502
14con500
15por453
16una443
17me432
18es364
19lo360
20nela341
21yo325
22como318
23más314
24al304
25para297
26del291
27qué260
28mi237
29te214
30dijo206
31pero203
32sus198
33le194
34ha173
35si172
36era148
37había140
38138
39ni134
40cuando134
41133
42todo129
43después128
44ya126
45teodoro114
46ojos112
47dios111
48florentina110
49esto109
50sin108
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Marianela de Benito Pérez Galdós) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraMarianela de Benito Pérez Galdós(50983)Resto (1749923)Dunning -2log(lambda)
nela34102433.246
teodoro1140812.966
florentina1106737.550
golfín1000713.101
sofía474307.298
penáguilas370263.803
aldeacorba370263.803
pablo76161253.779
celipín340242.412
minas4118220.775
choto281190.988
ciego69213190.399
socartes260185.370
marianela260185.370
don205081173.148
señana230163.980
señorita53154151.219
lili210149.720
e32692129.314
centeno214127.966
Mostrar todo