Análisis de la obra de Fernando de Rojas

Índice

Información General

Escritor:Fernando de Rojas
Idioma:Castellano
#Palabras total:68450
#Palabras distintas:9189
Type-Token ratio:13.42%

Relación de obras consideradas:

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1369637
27381043
41071479
54761845
68452185
82142499
95832876
109523126
123213356
136903549
150593822
164284070
177974318
191664483
205354663
219044827
232734980
246425115
260115299
273805451
287495615
301185744
314875870
328565996
342256120
355946257
369636410
383326538
397016733
410706851
424396953
438087063
451777173
465467268
479157407
492847521
506537644
520227760
533917872
547608014
561298121
574988229
588678338
602368423
616058546
629748654
643438755
657128880
670819015
684509189
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 7.093 b = 0.647

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1que3639
2de2604
3e2067
4la1474
5no1454
6a1336
7en1229
8el1075
9mi934
10por848
11me802
12con744
13tu723
14es680
15lo657
16los590
17mas579
18su562
19se543
20como508
21te504
22yo475
23si471
24o471
25las441
26para338
27pues313
28quien293
29cel280
30ni256
31esta256
32porque255
33le254
34del249
35dios233
36cal225
37semp212
38sus205
39tan196
40vn195
41bien195
42y192
43senora191
44sin190
45todo186
46al181
47ya177
48ha172
49assi169
50parm161
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (la obra de Fernando de Rojas) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraObra de Fernando de Rojas(68450)Resto (1151750)Dunning -2log(lambda)
e20675179439.548
y192432273712.430
tu72312001763.603
mas5796511714.093
cel28001614.256
semp21201222.023
cal225101215.441
vn19501123.985
senora19101100.918
un289821014.905
mi9344242990.450
assi1691961.909
parm1610927.932
calisto1600922.167
senor1521864.102
melibea1490858.745
vna1440829.918
sempronio1350778.031
una16134696.406
melib1170674.265
Mostrar todo