Análisis de Las firmezas de Isabela de Luis de Góngora

Índice

Información General

Título:Las firmezas de Isabela
Autor:Luis de Góngora
Idioma:Castellano
#Palabras total:5334
#Palabras distintas:1733
Type-Token ratio:32.49%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1000507
2000804
30001142
40001425
50001658
53341733
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 2.873 b = 0.746

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de234
2que219
3y149
4a133
5la124
6en111
7el102
8no95
9tadeo81
10es61
11con59
12los54
13fabio54
14camilo51
15al49
16más45
17las43
18su41
19lo39
20se38
21mi36
22un35
23si35
24por35
25marcelo35
26del35
27yo31
28me31
29le31
30tu29
31sus29
32aparte29
33qué27
34para26
35violante25
36tan25
37ya24
38o22
39porque20
40bien20
41pues19
42dos19
43como18
44una17
45octavio17
46te16
47oh16
48son15
49muy15
50este15
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Las firmezas de Isabela de Luis de Góngora) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraLas firmezas de Isabela de Luis de Góngora(5334)Resto (1795572)Dunning -2log(lambda)
tadeo810944.388
fabio545595.101
camilo510594.326
marcelo350407.766
violante250291.214
aparte2982210.803
octavio172185.225
lelio120139.754
isabela9198.314
galeazo6069.870
emilio5249.860
oh1663939.739
mercader62539.556
tu29234938.464
cajero4337.036
toledo811035.310
tajo51635.266
singularidades3034.933
secreto918333.238
vuélvese3130.441
Mostrar todo