Análisis de la obra de Leopoldo Alas Clarín

Índice

Información General

Escritor:Leopoldo Alas Clarín
Idioma:Castellano
#Palabras total:308254
#Palabras distintas:22907
Type-Token ratio:7.43%

Relación de obras consideradas:

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
61652271
123303791
184954953
246605904
308256760
369907547
431558247
493208872
554859606
6165010139
6781510711
7398011235
8014511782
8631012283
9247512770
9864013211
10480513627
11097014110
11713514532
12330014951
12946515322
13563015644
14179515987
14796016358
15412516712
16029017052
16645517290
17262017613
17878517904
18495018254
19111518547
19728018859
20344519141
20961019458
21577519748
22194019993
22810520309
23427020503
24043520676
24660020921
25276521135
25893021405
26509521645
27126021842
27742522023
28359022213
28975522389
29592022595
30208522760
30825022907
30825422907
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 20.142 b = 0.561

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de16580
2la11489
3que9901
4y9457
5el8268
6a7535
7en7137
8no4999
9se4779
10los4033
11con3202
12un3121
13su3084
14del3016
15las2939
16por2879
17le2436
18lo2335
19era2301
20había2212
21una2206
22al2168
23pero1914
24como1866
25don1798
26más1733
27para1377
28él1208
29es1193
30si1173
31sin1097
32qué1097
33ella1021
34sus1018
35todo917
36ya906
37ana898
38usted822
39magistral769
40aquella764
41aquel735
42estaba731
43yo712
44677
45ni672
46me638
47o635
48tenía610
49muy555
50sobre508
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (la obra de Leopoldo Alas Clarín) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraObra de Leopoldo Alas Clarín(308254)Resto (1335890)Dunning -2log(lambda)
ana898322743.446
magistral76962508.450
vetusta47101577.541
víctor49071570.527
regenta47831565.795
álvaro490211474.728
me63895461336.509
había221233801308.564
era230136801267.063
mesía37301249.209
fermín35041129.999
mi29157791041.053
quintanar30621001.461
sancho12413988.570
que990158787941.261
quijote22196887.238
don17983253796.535
petra2412784.692
e462605772.367
frígilis2110706.567
Mostrar todo