Análisis de La Celestina de Fernando de Rojas

Índice

Información General

Título:La Celestina
Autor:Fernando de Rojas
Idioma:Castellano
#Palabras total:68450
#Palabras distintas:9189
Type-Token ratio:13.42%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
1369637
27381043
41071479
54761845
68452185
82142499
95832876
109523126
123213356
136903549
150593822
164284070
177974318
191664483
205354663
219044827
232734980
246425115
260115299
273805451
287495615
301185744
314875870
328565996
342256120
355946257
369636410
383326538
397016733
410706851
424396953
438087063
451777173
465467268
479157407
492847521
506537644
520227760
533917872
547608014
561298121
574988229
588678338
602368423
616058546
629748654
643438755
657128880
670819015
684509189
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 7.093 b = 0.647

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1que3639
2de2604
3e2067
4la1474
5no1454
6a1336
7en1229
8el1075
9mi934
10por848
11me802
12con744
13tu723
14es680
15lo657
16los590
17mas579
18su562
19se543
20como508
21te504
22yo475
23si471
24o471
25las441
26para338
27pues313
28quien293
29cel280
30ni256
31esta256
32porque255
33le254
34del249
35dios233
36cal225
37semp212
38sus205
39tan196
40vn195
41bien195
42y192
43senora191
44sin190
45todo186
46al181
47ya177
48ha172
49assi169
50parm161
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (La Celestina de Fernando de Rojas) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraLa Celestina de Fernando de Rojas(68450)Resto (1732456)Dunning -2log(lambda)
e206762810699.600
y192628403593.087
mas5798061970.634
tu72316551941.347
cel28001832.271
semp21201387.088
cal225141366.657
vn19501275.812
senora19101249.631
mi93458661128.088
un2144941101.408
assi16911093.454
parm16101053.286
calisto16001046.741
senor1521982.410
melibea1490974.755
vna1440942.035
sempronio1350883.141
una110215780.022
melib1170765.359
Mostrar todo