Comparativa: Literatura española contra literatura inglesa

Índice

Información General

Título:*
Autor:*
Idioma:Castellano
#Palabras total:1800906
#Palabras distintas:76810
Type-Token ratio:4.27%
Título:*
Autor:*
Idioma:Inglés
#Palabras total:1323714
#Palabras distintas:28903
Type-Token ratio:2.18%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

CastellanoInglés
#Palabras:#Palabras distintas:
360185706
7203611046
10805414561
14407217696
18009020200
21610821997
25212623464
28814424611
32416225754
36018027048
39619828321
43221629474
46823430611
50425231605
54027032583
57628834920
61230636999
64832438836
68434240455
72036041950
75637843172
79239644394
82841445454
86443246436
90045047394
93646848173
97248650942
100850452746
104452254236
108054055220
111655856054
115257656826
118859457533
122461258207
126063058817
129664859339
133266660002
136868460926
140470261908
144072065447
147673868505
151275669268
154877470229
158479271196
162081071937
165682872696
169284673642
172886474555
176488275449
180090076810
180090676810
#Palabras:#Palabras distintas:
264743967
529485917
794227099
1058967964
1323708728
1588449468
18531810064
21179210928
23826611577
26474012214
29121412727
31768813241
34416213764
37063614146
39711014572
42358415237
45005816085
47653216923
50300617544
52948018110
55595418664
58242819148
60890219847
63537620541
66185021042
68832421698
71479822294
74127222702
76774622999
79422023299
82069423573
84716823841
87364224255
90011624715
92659025059
95306425366
97953825674
100601226025
103248626261
105896026519
108543426745
111190826900
113838227158
116485627413
119133027656
121780427896
124427828178
127075228475
129722628666
132370028903
132371428903
Ajuste por mínimos cuadrados de los datos a K*n^b:
Castellano Inglés
K = 10.669 K = 18.351
b = 0.615 b = 0.524

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

CastellanoInglés Ilustración del principio de mínimo esfuerzo:
RankPalabraFrec
1de85641
2que74680
3y63032
4la58241
5a42958
6el40763
7en38512
8no30693
9se23495
10los21071
11con19945
12por17935
13las16539
14su16266
15lo15101
16un14496
17le13745
18del12449
19me11265
20es10752
21al10553
22una10216
23como10143
24más9589
25para8633
26si8463
27yo8220
28pero7155
29mi6800
30era6460
31había6030
32qué5858
33sus5244
34don5101
35él4823
36o4797
37sin4745
38dijo4739
39ya4738
40todo4713
41porque4609
42te4443
43ni4443
44tan4236
45usted4121
46bien3933
47ha3893
48ella3837
49pues3694
50cuando3603
RankPalabraFrec
1the48446
2and43194
3to33183
4of30002
5i29174
6a21469
7that19023
8in17975
9you16129
10my15292
11it13119
12is12940
13for12647
14he12560
15not12031
16with11384
17his11237
18me10273
19be10109
20as10043
21s9362
22this9279
23d9012
24him8633
25but8430
26have8407
27your8015
28so7424
29thou6778
30what6726
31will6649
32all6598
33her5967
34by5891
35was5639
36on5511
37if5291
38they5206
39no5036
40are4782
41do4687
42thy4571
43we4554
44or4533
45at4488
46which4219
47from4153
48shall4024
49thee3945
50good3706
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.
En este caso lo utilizaremos para encontrar palabras distintivas de cada uno de los conjuntos que estamos comparando frente al otro.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará un conjunto (Castellano) (conjunto 1) contra el otro (Inglés) (conjunto 2) y viceversa.

A continuación se muestra una lista de todas las palabras presentes en los textos, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál de ellos son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.


En este caso no tiene sentido aplicar el test de Dunning ya que los textos están en idiomas distintos.