EAOSNR-LIDUCT

 

Los linotipistas ingleses se valen de las palabras cabalísticas ETAOIN SHRDLU, formadas por las letras estadísticamente más abundantes en un escrito típico, para recordar de qué tipos deben estar más abundantemente provistos.

¿Cuáles serían las palabras equivalentes en el castellano? La informática nos permite, mediante un fácil programa, determinar nuestras propias frecuencias de aparición de las distintas letras. Hemos efectuado un conteo tomando como material de experimentación el Capítulo I de EL INGENIOSO HIDALGO DON QUIJOTE DE LA MANCHA, llegando a interesantes resultados.

Sobre un total de 8151 letras y 1876 palabras (longitud media: 4,34 letras/palabra) se ha construido la tabla adjunta. Las dos últimas columnas son un promedio entre ambas estadísticas, y podrá ser adoptado como el de distribución media de las distintas legras y longitudes d epalabras en un texto castellano medio.

 

TRATAMIENTO DE TEXTOS

Miguel de Cervantes: El Ingenioso Hidalgo don Quijote de la Mancha, Cap. I

Julio Cortázar: Rayuela, Cap. 2

 

 

En un lugar de la Mancha… a sus cosas había puesto.

Aquí había sido primero co… a, la cosquilla, la ética.

 

 

Longitud total: 10359 espacios.

Longitud total: 9337 espacios.

 

 

No. de letras: 8195

 

No. de letras: 7499

 

 

 

No. de palabras: 1886

 

No. de palabras: 1646

 

 

 

Longitud media por palabra: 4,35 letras

Longitud media por palabra: 4,56 letras

 

 

Distribución de letras

 

Distribución de letras

 

Promedio

Letra

N

%

Letra

N

%

Letra

%

E

1099

13.41%

A

1051

14.02%

A

13,4

A

1055

12.87%

E

1026

13.68%

B

2,1

O

796

9.71%

O

675

9.00%

C

4,0

S

569

6.94%

N

487

6.49%

D

5,2

N

550

6.71%

S

485

6.47%

E

13,5

R

516

6.30%

R

470

6.27%

F

0,5

L

503

6.14%

I

462

6.16%

G

1,1

I

460

5.61%

L

414

5.52%

H

1,0

DE

430

5.25%

DE

384

5.12%

I

5,9

U

401

4.89%

C

310

4.13%

J

0,4

C

314

3.83%

U

305

4.07%

K

0,0

T

273

3.33%

T

300

4.00%

L

5,8

M

238

2.90%

M

282

3.76%

M

3,3

B

179

2.18%

P

196

2.61%

N

6,6

P

155

1.89%

B

157

2.09%

Ñ

0,2

Q

141

1.72%

G

88

1.17%

O

9,4

Y

128

1.56%

Q

83

1.11%

P

2,3

H

94

1.15%

y

75

1.00%

Q

1,4

G

86

1.05%

V

69

0.92%

R

6,3

V

68

0.83%

H

62

0.83%

S

6,7

F

50

0.61%

J

35

0.47%

T

3,7

J

34

0.41%

Z

34

0.45%

U

4,5

Z

34

0.41%

F

33

0.44%

V

0,9

Ñ

18

0.22%

Ñ

6

0.08%

W

0,0

X

4

0.05%

X

5

0.07%

X

0,1

K

0

0.00%

W

3

0.04%

Y

1,3

W

0

0.00%

K

2

0.03%

Z

0,4

Distribución de letras por palabra

Distribución de letras por palabra

 

 

Letras

No. pal.

%

Letras

No. pal.

%

 

 

1

155

8.22%

1

115

6.99%

1

7,6

2

429

22.75%

2

409

24.85%

2

23,9

3

307

16.28%

3

229

13.91%

3

15,1

4

183

9.70%

4

161

9.78%

4

9,8

5

227

12.04%

5

167

10.15%

5

11,1

6

198

10.50%

6

145

8.81%

6

9,7

7

151

8.01%

7

127

7.72%

7

7,9

8

75

3.98%

8

114

6.93%

8

5,5

9

69

3.66%

9

76

4.62%

9

4,2

10

48

2.55%

10

55

3.34%

10

3,0

11

23

1.22%

11

17

1.03%

11

1,1

12

8

0.42%

12

12

0.73%

12

0,6

13

5

0.27%

13

3

0.18%

13

0,2

14

2

0.11%

14

2

0.12%

14

0,1

15

0

0.00%

15

4

0.24%

15

0,1

 

 

 

16

2

0.12%

16

0,1

Distribución vocales/consonantes

Distribución vocales/consonantes

 

 

Vocales: 46,5 %

 

Vocales: 46,93 %

 

V:

46,7

Consonantes: 53,5 %

 

Consonantes: 53,07 %

 

C:

53,3

 

Las tablas anteriores permiten instaurar las palabras EAOSNR LIDUCT como propias del castellano. La E se revela como letra más abundante (13,45 % del total) seguida a poca distancia de la A (12,89 %). La K y la W ni siquiera figuran, como corresponde a un texto clásico.

Pero estos valores presentan cierta dispersión, ciertamente no despreciable. Partiendo el capítulo en dos partes, QUIJ-1a y QUIJ-1b, aproximadamente iguales con 4223 y 3928 letras, respectivamente), las subfrecuencias obtenidas difieren significativamente. De hecho, los cocientes entre las frecuencias del segundo trozo respecto a las del primero llegan a alcanzar valores entre 0,80 y 1,20, sin contar aquellas letras sujetas, por su escasa frecuencia, a fluctuaciones extremas, lo que justifica haber tomado sólo un decimal en los promedios. Las palabras cabalísticas varían ligeramente: en el primer subcapítulo son EAOSLN RIDUCT, mientras que en el segundo son EAONSR LIUDCM.

Resulta también interesante constatar las frecuencias de distribución de las palabras según su longitud. Las más abundantes son las de 2 letras, que representan casi la cuarta parte del total (23,19 %). Es curioso que las de cinco y seis letras abunden más que las de cuatro. También este extremo registra importantes fluctuaciones según la primera o la segunda mitad del capítulo.

Las doce letras cabalísticas suponen un 85,04 % del total de letras empleadas.

 

Es interesante comparar la estadística anterior con la de las letras iniciales de palabras, en las contenidas en el DRAE:

 

DRAE

a

12642

13,12%

b

4001

4,15%

c

13451

13,96%

d

6643

6,90%

e

8149

8,46%

f

3242

3,37%

g

3053

3,17%

h

2429

2,52%

i

3613

3,75%

j

907

0,94%

k

55

0,06%

l

2655

2,76%

m

5662

5,88%

n

1430

1,48%

ñ

61

0,06%

o

1572

1,63%

p

7816

8,11%

q

495

0,51%

r

4802

4,98%

s

4901

5,09%

t

5061

5,25%

u

516

0,54%

v

2139

2,22%

w

18

0,02%

x

39

0,04%

y

215

0,22%

z

772

0,80%

 

96339

100,00%

 

Josep M. Albaigès

Barcelona, octubre 1990