Análisis de Fígaro - Artículos selectos de Mariano José de Larra

Índice

Información General

Título:Fígaro - Artículos selectos
Autor:Mariano José de Larra
Idioma:Castellano
#Palabras total:89571
#Palabras distintas:12085
Type-Token ratio:13.49%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1791711
35821215
53731647
71642078
89552487
107462908
125373220
143283596
161193894
179104181
197014436
214924712
232834988
250745276
268655589
286565784
304476004
322386198
340296414
358206627
376116879
394027148
411937393
429847636
447757835
465668072
483578251
501488416
519398648
537308879
555219053
573129237
591039380
608949573
626859716
644769874
6626710050
6805810260
6984910414
7164010594
7343110747
7522210868
7701311013
7880411171
8059511325
8238611466
8417711615
8596811776
8775911938
8955012084
8957112085
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 3.943 b = 0.707

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de4435
2que3537
3y2765
4la2408
5el2357
6en2189
7a2130
8no1831
9se1281
10los1247
11es1151
12un1111
13por899
14las873
15una759
16con644
17más622
18para621
19lo619
20su587
21usted586
22del579
23al524
24me506
25como493
26si473
27le428
28ha396
29qué393
30mi372
31pero352
32ni335
33o321
34yo317
35hay275
36ya260
37todo255
38sus251
39sin248
40hombre246
41porque236
42todos209
43ser203
44este195
45cuando186
46él184
47aquí174
48bien173
49nos171
50son166
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Fígaro - Artículos selectos de Mariano José de Larra) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraFígaro - Artículos selectos de Mariano José de Larra(89571)Resto (1711335)Dunning -2log(lambda)
es11519601574.577
usted5863535509.146
cuasi823466.586
calavera6710343.738
país94100305.722
fígaro532301.158
artículo6327270.967
sancho32411218.028
quijote22196204.195
álbum362200.620
hay2751890195.367
un111113385193.713
timoteo290174.068
ha3963497173.681
hombre2461706172.151
doña11753168.013
sociedad71152162.657
periódico4436157.679
público67142154.450
hombres121540152.167
Mostrar todo