EAOSNR-LIDUCT
Los linotipistas ingleses se
valen de las palabras cabalísticas ETAOIN SHRDLU, formadas por las letras
estadísticamente más abundantes en un escrito típico, para recordar de qué
tipos deben estar más abundantemente provistos.
¿Cuáles serían las palabras
equivalentes en el castellano? La informática nos permite, mediante un fácil
programa, determinar nuestras propias frecuencias de aparición de las distintas
letras. Hemos efectuado un conteo tomando como material de experimentación el
Capítulo I de EL INGENIOSO HIDALGO DON QUIJOTE DE LA MANCHA, llegando a
interesantes resultados.
Sobre un total de 8151
letras y 1876 palabras (longitud media: 4,34 letras/palabra) se ha construido
la tabla adjunta. Las dos últimas columnas son un promedio entre ambas
estadísticas, y podrá ser adoptado como el de distribución media de las
distintas legras y longitudes d epalabras en un texto
castellano medio.
|
TRATAMIENTO DE TEXTOS |
||||||||
|
Miguel de Cervantes:
El Ingenioso Hidalgo don Quijote de la Mancha, Cap.
I |
Julio Cortázar:
Rayuela, Cap. 2 |
|
|
|||||
|
En un lugar de la
Mancha… a sus cosas había puesto. |
Aquí había sido
primero co… a, la cosquilla, la ética. |
|
|
|||||
|
Longitud total: 10359
espacios. |
Longitud total: 9337
espacios. |
|
|
|||||
|
No. de letras: 8195 |
|
No. de letras: 7499 |
|
|
|
|||
|
No. de palabras: 1886 |
|
No. de palabras: 1646 |
|
|
|
|||
|
Longitud media por
palabra: 4,35 letras |
Longitud media por
palabra: 4,56 letras |
|
|
|||||
|
Distribución de
letras |
|
Distribución de
letras |
|
Promedio |
||||
|
Letra |
N |
% |
Letra |
N |
% |
Letra |
% |
|
|
E |
1099 |
13.41% |
A |
1051 |
14.02% |
A |
13,4 |
|
|
A |
1055 |
12.87% |
E |
1026 |
13.68% |
B |
2,1 |
|
|
O |
796 |
9.71% |
O |
675 |
9.00% |
C |
4,0 |
|
|
S |
569 |
6.94% |
N |
487 |
6.49% |
D |
5,2 |
|
|
N |
550 |
6.71% |
S |
485 |
6.47% |
E |
13,5 |
|
|
R |
516 |
6.30% |
R |
470 |
6.27% |
F |
0,5 |
|
|
L |
503 |
6.14% |
I |
462 |
6.16% |
G |
1,1 |
|
|
I |
460 |
5.61% |
L |
414 |
5.52% |
H |
1,0 |
|
|
DE |
430 |
5.25% |
DE |
384 |
5.12% |
I |
5,9 |
|
|
U |
401 |
4.89% |
C |
310 |
4.13% |
J |
0,4 |
|
|
C |
314 |
3.83% |
U |
305 |
4.07% |
K |
0,0 |
|
|
T |
273 |
3.33% |
T |
300 |
4.00% |
L |
5,8 |
|
|
M |
238 |
2.90% |
M |
282 |
3.76% |
M |
3,3 |
|
|
B |
179 |
2.18% |
P |
196 |
2.61% |
N |
6,6 |
|
|
P |
155 |
1.89% |
B |
157 |
2.09% |
Ñ |
0,2 |
|
|
Q |
141 |
1.72% |
G |
88 |
1.17% |
O |
9,4 |
|
|
Y |
128 |
1.56% |
Q |
83 |
1.11% |
P |
2,3 |
|
|
H |
94 |
1.15% |
y |
75 |
1.00% |
Q |
1,4 |
|
|
G |
86 |
1.05% |
V |
69 |
0.92% |
R |
6,3 |
|
|
V |
68 |
0.83% |
H |
62 |
0.83% |
S |
6,7 |
|
|
F |
50 |
0.61% |
J |
35 |
0.47% |
T |
3,7 |
|
|
J |
34 |
0.41% |
Z |
34 |
0.45% |
U |
4,5 |
|
|
Z |
34 |
0.41% |
F |
33 |
0.44% |
V |
0,9 |
|
|
Ñ |
18 |
0.22% |
Ñ |
6 |
0.08% |
W |
0,0 |
|
|
X |
4 |
0.05% |
X |
5 |
0.07% |
X |
0,1 |
|
|
K |
0 |
0.00% |
W |
3 |
0.04% |
Y |
1,3 |
|
|
W |
0 |
0.00% |
K |
2 |
0.03% |
Z |
0,4 |
|
|
Distribución de
letras por palabra |
Distribución de
letras por palabra |
|
|
|||||
|
Letras |
No. pal. |
% |
Letras |
No. pal. |
% |
|
|
|
|
1 |
155 |
8.22% |
1 |
115 |
6.99% |
1 |
7,6 |
|
|
2 |
429 |
22.75% |
2 |
409 |
24.85% |
2 |
23,9 |
|
|
3 |
307 |
16.28% |
3 |
229 |
13.91% |
3 |
15,1 |
|
|
4 |
183 |
9.70% |
4 |
161 |
9.78% |
4 |
9,8 |
|
|
5 |
227 |
12.04% |
5 |
167 |
10.15% |
5 |
11,1 |
|
|
6 |
198 |
10.50% |
6 |
145 |
8.81% |
6 |
9,7 |
|
|
7 |
151 |
8.01% |
7 |
127 |
7.72% |
7 |
||