Análisis de Zalacaín el aventurero de Pío Baroja

Índice

Información General

Título:Zalacaín el aventurero
Autor:Pío Baroja
Idioma:Castellano
#Palabras total:44613
#Palabras distintas:7326
Type-Token ratio:16.42%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1000487
2000852
30001161
40001439
50001727
60001979
70002205
80002433
90002641
100002831
110003015
120003193
130003371
140003569
150003789
160004033
170004184
180004356
190004544
200004693
210004807
220004919
230005027
240005155
250005287
260005388
270005484
280005611
290005724
300005823
310005959
320006036
330006148
340006226
350006314
360006415
370006521
380006615
390006722
400006813
410006926
420007009
430007115
440007221
446137326
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 4.733 b = 0.691

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de2269
2y1774
3la1651
4a1334
5el1294
6que1054
7en1019
8se783
9los619
10un587
11no585
12martín535
13con468
14por462
15una437
16le421
17al410
18las396
19su360
20del336
21lo242
22dijo228
23era205
24usted202
25bautista193
26pero183
27para178
28es175
29como165
30si149
31más138
32qué135
33dos131
34sus124
35había123
36zalacaín118
37yo118
38117
39cuando116
40él99
41me92
42estaba92
43catalina91
44tellagorri90
45casa90
46hombre88
47preguntó84
48ya83
49sin83
50entre82
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Zalacaín el aventurero de Pío Baroja) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraZalacaín el aventurero de Pío Baroja(44613)Resto (1756293)Dunning -2log(lambda)
martín535203791.955
bautista19371367.915
zalacaín1180873.037
tellagorri900665.821
catalina911662.238
que105473626429.836
ohando580429.044
briones450332.866
carlos81204269.214
carlistas4313258.034
domador372258.006
extranjero5562248.178
urbia330244.093
capistun320236.696
joshé290214.504
estella290214.504
preguntó84380201.547
ignacia270199.709
carlista3312192.502
cracasch260192.312
Mostrar todo