Análisis de Doña Perfecta de Benito Pérez Galdós

Índice

Información General

Título:Doña Perfecta
Autor:Benito Pérez Galdós
Idioma:Castellano
#Palabras total:65009
#Palabras distintas:10455
Type-Token ratio:16.08%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1300602
26001034
39001381
52001740
65002104
78002401
91002691
104003006
117003317
130003588
143003798
156004058
169004292
182004541
195004750
208004975
221005194
234005426
247005612
260005820
273006023
286006192
299006362
312006537
325006765
338006956
351007096
364007311
377007467
390007641
403007771
416007928
429008085
442008203
455008339
468008490
481008651
494008769
507008966
520009087
533009238
546009370
559009514
572009641
585009746
598009889
611009993
6240010133
6370010317
6500010455
6500910455
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 3.906 b = 0.716

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de3143
2que2290
3la2151
4y1919
5el1472
6a1411
7en1345
8no1238
9se772
10los709
11con670
12un631
13su625
14las574
15por551
16es534
17una477
18lo463
19me461
20del432
21usted415
22al353
23yo343
24le333
25pero325
26mi320
27para318
28más312
29dijo295
30como286
31qué275
32si263
33señora211
34d203
35te202
36ha197
37sus189
38perfecta188
39pepe188
40ni170
41casa170
42todo169
43doña169
44esta160
45ya158
46sin157
47rey153
48aquí151
49cuando150
50bien150
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Doña Perfecta de Benito Pérez Galdós) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraDoña Perfecta de Benito Pérez Galdós(65009)Resto (1735897)Dunning -2log(lambda)
perfecta188471017.673
pepe18884919.298
orbajosa1350897.081
sr145133588.440
rosario10747524.943
inocencio720478.376
caballuco720478.376
rosarito510338.834
usted4153706338.448
penitenciario543335.482
licurgo544329.950
rey153541324.269
d2031046317.133
remedios5514296.834
repuso6445280.744
ramos5530257.244
josé80143250.940
pinzón360239.169
sobrino77143237.229
ingeniero4414229.242
Mostrar todo