LOS CUMPLEAÑOS REPETIDOS
Aprovechemos la
circunstancia de que para su cena anual se han reunido los treinta y seis
socios de MENSA en Cataluña Para Preguntarles si creen probable que dos al
menos de entre ellos celebren sus respectivos cumpleaños en el mismo día.
Los no versados
en cálculos estadísticos tenderán a afirmar que la probabilidad de que esto
ocurra es francamente pequeña. Algunos
incluso se aventurarán a estimar para ella un valor cercano al 10 %.
Por ello, si
proponemos una apuesta a la par sobre esta circunstancia seremos tenidos por
incautos. Sólo la confrontación de los
respectivos carnets de identidad llevará a constatar que, sorprendentemente, se
producen coincidencias (a menudo más de una).
Alguien
afirmará que ha sido casualidad. Muy
bien: repítase la apuesta con otro grupo de personas. ¿Por qué no con los
presidentes de USA? Hay 40 hasta Reagan:
Polk y Harding nacieron un 2 de noviembre. ¿O incluso con los Soberanos
españoles desde los Reyes Católicos? De
un total de sólo 19 monarcas coinciden Carlos II con Carlos IV (11 de
noviembre) y José I con Juan Carlos I (5 de enero).
De hecho, y
como veremos, la probabilidad de que se produjera al menos una coincidencia, en
el club MENSA, era 83,2 %: ¡cinco contra uno! Con 23 personas la apuesta sería
ya equilibrada: en uno de cada dos encuentros de fútbol las personas presentes
en el campo registran alguna coincidencia.
Esta paradoja
reviste otras formas. Con una de ellas
he ganado varias apuestas de una cerveza: esperar si se repiten las dos últimas
cifras de la matrícula en quince automóviles anotados al azar. La probabilidad es ahora de 0,67: ganaré dos
de cada tres veces, pero ganaría, como antes, en cinco de cada seis tomando
diecinueve matrículas en vez de quince.
La explicación
de estas "sorprendentes" recurrencias está en que un análisis
superficial asume que quince coches es una fracción demasiado pequeña del
posible número de matrículas distintas (100) para esperar repeticiones. Y así
sería si esperáramos la repetición de una matrícula dada. La probabilidad de que aparezca algún 00, por
ejemplo, sería 0,14 solamente (¡no 0,15! ¿Por qué?). Pero las repeticiones, en
el caso supuesto, pueden darse entre dos
matrículas cualesquiera, con lo que éstas pueden combinarse entre sí de un
número de formas que aumenta rápidamente con el número de elementos a
considerar.
Así, entre dos
matrículas M1 y M2 sólo cabe una posibilidad de repetición: que Ml=M2. Pero con tres ya hay tres posibilidades
(Ml=M2; Ml=M3; M2=M3) con cuatro ya habría seis, y así sucesivamente.
De hecho, el
procedimiento más cómodo para calcular la probabilidad de repetición es considerando la contraria.
La probabilidad de no repetición entre dos matrículas, según el teorema
de las probabilidades compuestas, será:
p2 = 99/100
Ya que la
segunda matrícula puede "optar" entre 99 casos favorables sobre 100
para no repetirse. En el caso de tres
matrículas se tendría:
![]()
Y así
sucesivamente. Para las 15 matrículas se
tendría:
![]()
De donde, por
diferencia con la unidad, sacamos la probabilidad complementaria, es decir, de
que haya al menos una repetición: q15
= 1 - 0,3313 = 0,6687.
Para un número
mayor de repeticiones, la probabilidad aumenta rápidamente. Así:
q20 = 0,87
q25 = 0,96
q30 = 0,99
Es decir, que
un número de matrículas igual al cuarto de las posibles garantiza prácticamente
la repetición.
*****
Hasta aquí todo
es relativamente conocido. Pero esta
paradoja tiene un aspecto poco estudiado hasta hora: cuanto mayor es el número
de casos posibles considerados, menor es en términos relativos el número de
elementos que hay que comparar entre sí para garantizar repeticiones
Por ejemplo, y
para fijar las ideas: el número de matrículas que habría que ir cotejando para
que la probabilidad de alguna repetición fuera al menos 0,50 (¡el punto donde
la apuesta de la cerveza sería equitativa!), sería 13, lo que supone un 13 %
del número de matrículas posibles,
Sin embargo,
para el caso del cumpleaños, ya vimos que esta probabilidad se alcanzaba para
23 personas, lo que, respecto a las 365 fechas posibles, supone sólo un 6,3 %.
Los ordenadores
permiten efectuar con comodidad unos cálculos impensables hace pocos años para
un matemático de a pie. Con su ayuda
hemos confeccionado la tabla del número de elementos n que es preciso tomar de
una población de m posibilidades
distintas para que la probabilidad de que se registre alguna repetición sea
igual o superior a 0,50.
REPETICIONES PARA q > 0,50
m n n/Öm
10 5 1,581
100 13 1,300
1000 38 1,202
10000 119 1,190
100000 373 1,180
1000000 1178 1,178
Es obvia la
sospecha de una convergencia entre los valores de n y los de Öm. En efecto, el cálculo
justifica ésta para cualquier valor de la probabilidad. La expresión algebraica generadora de los
anteriores valores puede expresarse, de acuerdo con lo dicho hasta ahora, de la
siguiente forma:
![]()
Es conveniente
simplificar esta expresión con ayuda de la fórmula de Stirling:
(q<1)
Con su ayuda,
resulta:

Donde q1,
q2 son valores menores que 1. Simplificando resulta:
![]()
Hallemos ahora
el límite de esta expresión para m y n tendiendo simultáneamente a infinito,
pero manteniendo la relación n =kÖm. El producto anterior
quedará descompuesto en el de tres límites:

El límite del
primer corchete lo podemos hallar observando que:
![]()
O sea,
desarrollando en serie:

En cuanto al
segundo límite, por la propia definición de la base de los logaritmos
neperianos, vale:
![]()
Y el tercero es la unidad. Por lo
tanto, el valor final buscado es:
![]()
Obtenemos así
la curva límite a que tienden todas las de la expresión, que es precisamente la
campana de Gauss. El valor límite de la
tabla anterior era el que hacía:
![]()
O sea ![]()
EPÍLOGO MORALIZANTE
Queda, a estas
alturas, una cosa por dilucidar: ¿Era honesta mi apuesta de una cerveza? Si yo sé que mi probabilidad de ganar es muy
superior a la del contrario, ¿no estoy estafándole al proponerle un juego
aparentemente ventajoso para él, pero que en realidad es una ganancia casi
segura para mí? No le engaño,
ciertamente, pues él tiene toda la "información exterior" sobre el
mismo que posee un jugador de lotería, pero mis conocimientos de estadística me
permiten frustrarle. Mi apuesta es como
si yo desafiara a un adversario disponiendo, sin él saberlo, de armas más
eficaces. ¿Es lícito?
Contesten los
moralistas, si pueden ... y apliquen la misma
filosofía a las ventas de un producto, a las votaciones y a tantos casos de
nuestra vida diaria.
Josep Maria
Albaigès i Olivart
Barcelona, 1980
OTRO EPÍLOGO (ESPEREMOS QUE DEFINITIVO)
Varios años
después de escrito este artículo, y con ocasión de un comentario del mismo,
Douglas Stevens, de Victoria, Canadá, realizó el siguiente experimento: tomar
un diccionario biográfico y anotar cuántos personajes correlativos tardaba en
producirse una coincidencia. Y
preguntaba: "¿Cuántos deben ser contados por término medio para que esto
ocurra?"
El problema,
planteado así, es algo más difícil. Y, sobre todo, tan farragoso de cálculo,
que ha exigido inexcusablemente otra vez el empleo de ordenadores.
Llamemos esta
vez p'i a la probabilidad
de que se dé la primera coincidencia precisamente en el personaje i-ésimo (no,
como antes, en que a estas alturas se haya dado ya alguna coincidencia). La
probabilidad que se tenía de llegar a este personaje sin coincidencias
anteriores será, por definición,
. Llegados a este punto, existen i-1 fechas distintas entre los personajes escrutados, de manera que
el i-ésimo puede "elegir" entre todas ellas. Con lo que:
![]()
Por ejemplo:
p’1 = 0 (1)
p’2 = 1/365 = 0,00274
![]()
![]()
Las
probabilidades crecen hasta i=20, en que alcanzan su máximo valor, p’20
= 0,0332. A partir de ahí decrecen. La media de esta distribución estadística se
produce para
![]()
Éste será,
pues, el número de personajes que habrá que chequear por término medio para que
se produzca una coincidencia. Pero
apresurémonos a observar que los valores reales fluctuarán bastante en torno a
este valor. Una medida de este grado de
irregularidad sería la desviación típica de la distribución. Por análogo procedimiento que antes
obtendríamos el momento de segundo orden de la distribución:
![]()
Y de ahí la desviación típica:
![]()
![]()
La serie es, pues, bastante
dispersa. Es fácil demostrar que en el
68,17 % de los experimentos se obtendrán resultados en el intervalo m±s. En otras palabras, que la primera
coincidencia se producirá al cabo de un número de chequeos comprendido entre 13
y 37 en los 2/3 de las ocasiones, aproximadamente.
El mismo
ordenador utilizado nos permite, con ayuda de las fórmulas anteriores, trazar
el adjunto diagrama de masa de las probabilidades.
Como en el caso
tratado en 1980, podríamos tantear la existencia de una función asintótica para
valores crecientes del número de casos posibles (al que llamaremos n a partir
de ahora). Nos inducen a sospechar la
existencia de esta función las sucesivas determinaciones del valor de n en que
se alcanza el máximo (moda), así como las medias respectivas:
n moda p(moda) media
10 5 0,201600 4,66
100 12 0,062187
13,21
1000 34 0,019355
40,30
10000 102 0,006085 126,00
100000 318 0,001920 397,00
1000000 1002 0,000607 1253,98
Es inmediata la
sospecha de que tanto la media como la moda son proporcionales aÖn.
Y en efecto: la
ecuación (1), que genera la distribución en el campo discontinuo, se
transformaría al ser transferida al límite continuo en la siguiente:

Que equivale a la ecuación diferencial:
nxy’ - y(x2 - n) = 0
Cuya solución es:
![]()
Donde se ha
ajustado la constante de integración de forma que la masa total de la
distribución valga la unidad, o sea:
. Operando con esta ecuación obtenemos sin gran
esfuerzo los parámetros característicos de la distribución, cuyas expresiones
nos confirman las conjeturas antes emitidas.
Moda:
![]()
![]()
![]()
![]()
Media:

Observemos que
la abscisa de la media y la de la moda se hallan en la relación ![]()
Josep Maria
Albaigès i Olivart
Barcelona,
septiembre 1985