Análisis de la obra de Leopoldo Alas Clarín (lematizado)

Índice

Información General

Escritor:Leopoldo Alas Clarín (lematizado)
Idioma:Castellano (lematizado)
#Palabras total:308922
#Palabras distintas:11595
Type-Token ratio:3.75%

Relación de obras consideradas:

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
61781747
123562775
185343494
247124048
308904515
370684931
432465286
494245581
556025962
617806210
679586492
741366739
803146963
864927199
926707426
988487629
1050267847
1112048069
1173828260
1235608429
1297388588
1359168723
1420948860
1482729028
1544509169
1606289310
1668069392
1729849533
1791629645
1853409797
1915189922
19769610067
20387410173
21005210285
21623010397
22240810487
22858610622
23476410697
24094210756
24712010858
25329810945
25947611053
26565411159
27183211223
27801011294
28418811353
29036611429
29654411490
30272211534
30890011595
30892211595
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 43.718 b = 0.446

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1el29227
2de19493
3que9866
4a9542
5y9435
6lo7613
7en7123
8se6093
9un5272
10no4979
11ser4157
12su4081
13haber3872
14con3199
15por2872
16pero1908
17aquel1882
18don1791
19todo1770
20como1751
21más1725
22estar1438
23tener1431
24decir1398
25para1365
26si1165
27él1112
28qué1109
29sin1096
30poder1039
31ella1007
32hacer999
33otro944
34ver920
35ya902
36ana896
37saber867
38querer865
39usted806
40ir781
41me774
42magistral769
43este745
44yo696
45dar693
46671
47ni671
48era669
49mucho659
50hablar636
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (la obra de Leopoldo Alas Clarín (lematizado)) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano (lematizado)) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraObra de Leopoldo Alas Clarín (lematizado)(308922)Resto (393844)Dunning -2log(lambda)
don1791752407.437
ana89601474.366
me77436131376.319
magistral76921239.709
te2861792882.742
víctor4900805.932
regenta4680769.729
vetusta4430728.591
mesía3720611.771
fermín3490573.932
quintanar3040499.904
el2922731365490.005
de1949320458399.475
petra2412375.410
lo761312622343.828
frígilis2070340.359
obdulia1940318.979
anita1890310.756
que986615596294.061
paula1730284.444
Mostrar todo