EAOSNR-LIDUCT
Los linotipistas ingleses se
valen de las palabras cabalísticas ETAOIN SHRDLU, formadas por las letras
estadísticamente más abundantes en un escrito típico, para recordar de qué
tipos deben estar más abundantemente provistos.
¿Cuáles serían las palabras
equivalentes en el castellano? La informática nos permite, mediante un fácil
programa, determinar nuestras propias frecuencias de aparición de las distintas
letras. Hemos efectuado un conteo tomando como material de experimentación el
Capítulo I de EL INGENIOSO HIDALGO DON QUIJOTE DE LA MANCHA, llegando a
interesantes resultados.
Sobre un total de 8151
letras y 1876 palabras (longitud media: 4,34 letras/palabra) se ha construido
la tabla adjunta. Las dos últimas columnas son un promedio entre ambas
estadísticas, y podrá ser adoptado como el de distribución media de las
distintas legras y longitudes d epalabras en un texto
castellano medio.
|
TRATAMIENTO DE TEXTOS |
||||||||
|
Miguel de Cervantes:
El Ingenioso Hidalgo don Quijote de la Mancha, Cap.
I |
Julio Cortázar:
Rayuela, Cap. 2 |
|
|
|||||
|
En un lugar de la
Mancha… a sus cosas había puesto. |
Aquí había sido
primero co… a, la cosquilla, la ética. |
|
|
|||||
|
Longitud total: 10359
espacios. |
Longitud total: 9337
espacios. |
|
|
|||||
|
No. de letras: 8195 |
|
No. de letras: 7499 |
|
|
|
|||
|
No. de palabras: 1886 |
|
No. de palabras: 1646 |
|
|
|
|||
|
Longitud media por
palabra: 4,35 letras |
Longitud media por
palabra: 4,56 letras |
|
|
|||||
|
Distribución de
letras |
|
Distribución de
letras |
|
Promedio |
||||
|
Letra |
N |
% |
Letra |
N |
% |
Letra |
% |
|
|
E |
1099 |
13.41% |
A |
1051 |
14.02% |
A |
13,4 |
|
|
A |
1055 |
12.87% |
E |
1026 |
13.68% |
B |
2,1 |
|
|
O |
796 |
9.71% |
O |
675 |
9.00% |
C |
4,0 |
|
|
S |
569 |
6.94% |
N |
487 |
6.49% |
D |
5,2 |
|
|
N |
550 |
6.71% |
S |
485 |
6.47% |
E |
13,5 |
|
|
R |
516 |
6.30% |
R |
470 |
6.27% |
F |
0,5 |
|
|
L |
503 |
6.14% |
I |
462 |
6.16% |
G |
1,1 |
|
|
I |
460 |
5.61% |
L |
414 |
5.52% |
H |
1,0 |
|
|
DE |
430 |
5.25% |
DE |
384 |
5.12% |
I |
5,9 |
|
|
U |
401 |
4.89% |
C |
310 |
4.13% |
J |
0,4 |
|
|
C |
314 |
3.83% |
U |
305 |
4.07% |
K |
0,0 |
|
|
T |
273 |
3.33% |
T |
300 |
4.00% |
L |
5,8 |
|
|
M |
238 |
2.90% |
M |
282 |
3.76% |
M |
3,3 |
|
|
B |
179 |
2.18% |
P |
196 |
2.61% |
N |
6,6 |
|
|
P |
155 |
1.89% |
B |
157 |
2.09% |
Ñ |
0,2 |
|
|
Q |
141 |
1.72% |
G |
88 |
1.17% |
O |
9,4 |
|
|
Y |
128 |
1.56% |
Q |
83 |
1.11% |
P |
2,3 |
|
|
H |
94 |
1.15% |
y |
75 |
1.00% |
Q |
1,4 |
|
|
G |
86 |
1.05% |
V |
69 |
0.92% |
R |
6,3 |
|
|
V |
68 |
0.83% |
H |
62 |
0.83% |
S |
6,7 |
|
|
F |
50 |
0.61% |
J |
35 |
0.47% |
T |
3,7 |
|
|
J |
34 |
0.41% |
Z |
34 |
0.45% |
U |
4,5 |
|
|
Z |
34 |
0.41% |
F |
33 |
0.44% |
V |
0,9 |
|
|
Ñ |
18 |
0.22% |
Ñ |
6 |
0.08% |
W |
0,0 |
|
|
X |
4 |
0.05% |
X |
5 |
0.07% |
X |
0,1 |
|
|
K |
0 |
0.00% |
W |
3 |
0.04% |
Y |
1,3 |
|
|
W |
0 |
0.00% |
K |
2 |
0.03% |
Z |
0,4 |
|
|
Distribución de
letras por palabra |
Distribución de
letras por palabra |
|
|
|||||
|
Letras |
No. pal. |
% |
Letras |
No. pal. |
% |
|
|
|
|
1 |
155 |
8.22% |
1 |
115 |
6.99% |
1 |
7,6 |
|
|
2 |
429 |
22.75% |
2 |
409 |
24.85% |
2 |
23,9 |
|
|
3 |
307 |
16.28% |
3 |
229 |
13.91% |
3 |
15,1 |
|
|
4 |
183 |
9.70% |
4 |
161 |
9.78% |
4 |
9,8 |
|
|
5 |
227 |
12.04% |
5 |
167 |
10.15% |
5 |
11,1 |
|
|
6 |
198 |
10.50% |
6 |
145 |
8.81% |
6 |
9,7 |
|
|
7 |
151 |
8.01% |
7 |
127 |
7.72% |
7 |
7,9 |
|
|
8 |
75 |
3.98% |
8 |
114 |
6.93% |
8 |
5,5 |
|
|
9 |
69 |
3.66% |
9 |
76 |
4.62% |
9 |
4,2 |
|
|
10 |
48 |
2.55% |
10 |
55 |
3.34% |
10 |
3,0 |
|
|
11 |
23 |
1.22% |
11 |
17 |
1.03% |
11 |
1,1 |
|
|
12 |
8 |
0.42% |
12 |
12 |
0.73% |
12 |
0,6 |
|
|
13 |
5 |
0.27% |
13 |
3 |
0.18% |
13 |
0,2 |
|
|
14 |
2 |
0.11% |
14 |
2 |
0.12% |
14 |
0,1 |
|
|
15 |
0 |
0.00% |
15 |
4 |
0.24% |
15 |
0,1 |
|
|
|
|
|
16 |
2 |
0.12% |
16 |
0,1 |
|
|
Distribución
vocales/consonantes |
Distribución
vocales/consonantes |
|
|
|||||
|
Vocales: 46,5 % |
|
Vocales: 46,93 % |
|
V: |
46,7 |
|||
|
Consonantes: 53,5 % |
|
Consonantes: 53,07 % |
|
C: |
53,3 |
|||
Las tablas anteriores
permiten instaurar las palabras EAOSNR LIDUCT como propias del castellano. La E
se revela como letra más abundante (13,45 % del total) seguida a poca distancia
de la A (12,89 %). La K y la W ni siquiera figuran, como corresponde a un texto
clásico.
Pero estos valores presentan
cierta dispersión, ciertamente no despreciable. Partiendo el capítulo en dos
partes, QUIJ-1a y QUIJ-1b, aproximadamente iguales con
4223 y 3928 letras, respectivamente), las subfrecuencias
obtenidas difieren significativamente. De hecho, los cocientes entre las
frecuencias del segundo trozo respecto a las del primero llegan a alcanzar
valores entre 0,80 y 1,20, sin contar aquellas letras sujetas, por su escasa
frecuencia, a fluctuaciones extremas, lo que justifica haber tomado sólo un
decimal en los promedios. Las palabras cabalísticas varían ligeramente: en el
primer subcapítulo son EAOSLN RIDUCT, mientras que en
el segundo son EAONSR LIUDCM.
Resulta también interesante
constatar las frecuencias de distribución de las palabras según su longitud.
Las más abundantes son las de 2 letras, que representan casi la cuarta parte
del total (23,19 %). Es curioso que las de cinco y seis letras abunden más que
las de cuatro. También este extremo registra importantes fluctuaciones según la
primera o la segunda mitad del capítulo.
Las doce letras cabalísticas
suponen un 85,04 % del total de letras empleadas.
Es interesante comparar la
estadística anterior con la de las letras iniciales de palabras, en las
contenidas en el DRAE:
|
DRAE |
||
|
a |
12642 |
13,12% |
|
b |
4001 |
4,15% |
|
c |
13451 |
13,96% |
|
d |
6643 |
6,90% |
|
e |
8149 |
8,46% |
|
f |
3242 |
3,37% |
|
g |
3053 |
3,17% |
|
h |
2429 |
2,52% |
|
i |
3613 |
3,75% |
|
j |
907 |
0,94% |
|
k |
55 |
0,06% |
|
l |
2655 |
2,76% |
|
m |
5662 |
5,88% |
|
n |
1430 |
1,48% |
|
ñ |
61 |
0,06% |
|
o |
1572 |
1,63% |
|
p |
7816 |
8,11% |
|
q |
495 |
0,51% |
|
r |
4802 |
4,98% |
|
s |
4901 |
5,09% |
|
t |
5061 |
5,25% |
|
u |
516 |
0,54% |
|
v |
2139 |
2,22% |
|
w |
18 |
0,02% |
|
x |
39 |
0,04% |
|
y |
215 |
0,22% |
|
z |
772 |
0,80% |
|
|
96339 |
100,00% |
Josep M. Albaigès
Barcelona, octubre 1990