Análisis de la obra de Lope de Vega

Índice

Información General

Escritor:Lope de Vega
Idioma:Castellano
#Palabras total:38483
#Palabras distintas:6110
Type-Token ratio:15.88%

Relación de obras consideradas:

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1000458
2000807
30001069
40001276
50001438
60001620
70001785
80001945
90002129
100002303
110002440
120002627
130002770
140002906
150003018
160003101
170003241
180003389
190003502
200003603
210003700
220003806
230003931
240004046
250004177
260004270
270004358
280004432
290004534
300004614
310004805
320004994
330005219
340005367
350005536
360005703
370005868
380006045
384836110
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 4.493 b = 0.677

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1que1749
2de1422
3y1188
4la934
5a835
6el802
7en777
8no669
9es399
10por350
11me340
12mi331
13los331
14con316
15nuño308
16su259
17sancho253
18si242
19yo223
20del199
21te198
22lo198
23qué195
24se194
25narv193
26señor183
27las183
28al174
29pelayo171
30tu170
31rey170
32un167
33pues164
34más161
35jarifa160
36le152
37ha152
38bien146
39ya145
40abind145
41como137
42d133
43tan131
44elvira124
45amor124
46tell122
47aquí114
48o110
49ser109
50os107
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (la obra de Lope de Vega) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraObra de Lope de Vega(38483)Resto (1605661)Dunning -2log(lambda)
nuño30802315.345
narv19301450.284
pelayo17191213.830
jarifa16011190.064
abind14501089.414
elvira1240931.571
tell1220916.539
rey170466560.873
celio690518.278
tello600450.662
alara540405.588
sancho2532161383.437
narváez545371.580
abindarráez453315.678
arr420315.445
felic410307.933
lope5740298.541
d133846261.125
se19421274254.780
moro5063223.367
Mostrar todo