LOS CUMPLEAÑOS REPETIDOS

 

Aprovechemos la circunstancia de que para su cena anual se han reunido los treinta y seis socios de MENSA en Cataluña Para Preguntarles si creen probable que dos al menos de entre ellos celebren sus respecti­vos cumpleaños en el mismo día.

Los no versados en cálculos estadísticos tenderán a afirmar que la probabilidad de que esto ocurra es francamente pequeña.  Algunos incluso se aventurarán a estimar para ella un valor cercano al 10 %.

Por ello, si proponemos una apuesta a la par sobre esta circunstancia seremos tenidos por incautos.  Sólo la confrontación de los respectivos carnets de identidad llevará a constatar que, sorprendentemente, se producen coincidencias (a menudo más de una).

Alguien afirmará que ha sido casualidad.  Muy bien: repítase la apuesta con otro grupo de personas. ¿Por qué no con los presidentes de USA?  Hay 40 hasta Reagan: Polk y Harding nacieron un 2 de noviembre. ¿O incluso con los Soberanos españoles desde los Reyes Católicos?  De un total de sólo 19 monarcas coinciden Carlos II con Carlos IV (11 de noviembre) y José I con Juan Carlos I (5 de enero).

De hecho, y como veremos, la probabilidad de que se produjera al menos una coincidencia, en el club MENSA, era 83,2 %: ¡cinco contra uno! Con 23 personas la apuesta sería ya equilibrada: en uno de cada dos encuentros de fútbol las personas presentes en el campo registran alguna coincidencia.

Esta paradoja reviste otras formas.  Con una de ellas he ganado varias apuestas de una cerveza: esperar si se repiten las dos últimas cifras de la matrícula en quince automóviles anotados al azar.  La probabilidad es ahora de 0,67: ganaré dos de cada tres veces, pero ganaría, como antes, en cinco de cada seis tomando diecinueve matrículas en vez de quince.

La explicación de estas "sorprendentes" recurrencias está en que un análisis superficial asume que quince coches es una fracción demasiado pequeña del posible número de matrículas distintas (100) para esperar repeticiones.  Y así sería si esperáramos la repetición de una matrícula dada.  La probabilidad de que aparezca algún 00, por ejemplo, sería 0,14 solamente (¡no 0,15! ¿Por qué?). Pero las repeticiones, en el caso supuesto, pueden darse entre dos matrículas cualesquiera, con lo que éstas pueden combinarse entre sí de un número de formas que aumenta rápidamente con el número de elementos a considerar.

Así, entre dos matrículas M1 y M2 sólo cabe una posibilidad de repetición: que Ml=M2.  Pero con tres ya hay tres posibilidades (Ml=M2; Ml=M3; M2=M3) con cuatro ya habría seis, y así sucesivamente.

De hecho, el procedimiento más cómodo para calcular la probabilidad de repetición es considerando la contraria.  La probabilidad de no repe­tición entre dos matrículas, según el teorema de las probabilidades compuestas, será:

 

p2 = 99/100

 

Ya que la segunda matrícula puede "optar" entre 99 casos favorables sobre 100 para no repetirse.  En el caso de tres matrículas se tendría:

 

 

Y así sucesivamente.  Para las 15 matrículas se tendría:

 

 

De donde, por diferencia con la unidad, sacamos la probabilidad complementaria, es decir, de que haya al menos una repetición: q15 = 1 - 0,3313 = 0,6687.

Para un número mayor de repeticiones, la probabilidad aumenta rápidamen­te. Así:

 

q20 = 0,87

q25 = 0,96

q30 = 0,99

Es decir, que un número de matrículas igual al cuarto de las posibles garantiza prácticamente la repetición.

 

*****

 

Hasta aquí todo es relativamente conocido.  Pero esta paradoja tiene un aspecto poco estudiado hasta hora: cuanto mayor es el número de casos posibles considerados, menor es en términos relativos el número de elementos que hay que comparar entre sí para garantizar repeticiones

Por ejemplo, y para fijar las ideas: el número de matrículas que habría que ir cotejando para que la probabilidad de alguna repetición fuera al menos 0,50 (¡el punto donde la apuesta de la cerveza sería equitati­va!), sería 13, lo que supone un 13 % del número de matrículas posibles,

Sin embargo, para el caso del cumpleaños, ya vimos que esta probabilidad se alcanzaba para 23 personas, lo que, respecto a las 365 fechas posi­bles, supone sólo un 6,3 %.

Los ordenadores permiten efectuar con comodidad unos cálculos impensables hace pocos años para un matemático de a pie.  Con su ayuda hemos confeccionado la tabla del número de elementos n que es preciso tomar de una población de m posibilidades distintas para que la probabilidad de que se registre alguna repetición sea igual o superior a 0,50.

 

REPETICIONES PARA q > 0,50

 

m                                     n            n/Öm

 

10                                    5            1,581

100                                13            1,300

1000                              38            1,202

10000                                            119      1,190

100000                        373            1,180

1000000                    1178            1,178

 

Es obvia la sospecha de una convergencia entre los valores de n y los de Öm.  En efecto, el cálculo justifica ésta para cualquier valor de la probabilidad.  La expresión algebraica generadora de los anteriores valores puede expresarse, de acuerdo con lo dicho hasta ahora, de la siguiente forma:

 

 

Es conveniente simplificar esta expresión con ayuda de la fórmula de Stirling:

 

 

                           (q<1)

 

Con su ayuda, resulta:

 

 

Donde q1, q2 son valores menores que 1. Simplificando resulta:

 

 

Hallemos ahora el límite de esta expresión para m y n tendiendo simul­táneamente a infinito, pero manteniendo la relación n =kÖm.  El producto anterior quedará descompuesto en el de tres límites:

 

 

El límite del primer corchete lo podemos hallar observando que:

 

 

O sea, desarrollando en serie:

 

 

En cuanto al segundo límite, por la propia definición de la base de los logaritmos neperianos, vale:

 

Y el tercero es la unidad.  Por lo tanto, el valor final buscado es:

 

Obtenemos así la curva límite a que tienden todas las de la expresión, que es precisamente la campana de Gauss.  El valor límite de la tabla anterior era el que hacía:

 

 

O sea

 

EPÍLOGO MORALIZANTE

Queda, a estas alturas, una cosa por dilucidar: ¿Era honesta mi apuesta de una cerveza?  Si yo sé que mi probabilidad de ganar es muy superior a la del contrario, ¿no estoy estafándole al proponerle un juego aparentemente ventajoso para él, pero que en realidad es una ganancia casi segura para mí?  No le engaño, ciertamente, pues él tiene toda la "infor­mación exterior" sobre el mismo que posee un jugador de lotería, pero mis conocimientos de estadística me permiten frustrarle.  Mi apuesta es como si yo desafiara a un adversario disponiendo, sin él saberlo, de armas más eficaces. ¿Es lícito?

Contesten los moralistas, si pueden ... y apliquen la misma filosofía a las ventas de un producto, a las votaciones y a tantos casos de nues­tra vida diaria.

 

Josep Maria Albaigès i Olivart

 Barcelona, 1980

 

 

OTRO EPÍLOGO (ESPEREMOS QUE DEFINITIVO)

 

Varios años después de escrito este artículo, y con ocasión de un comentario del mismo, Douglas Stevens, de Victoria, Canadá, realizó el siguiente experimento: tomar un diccionario biográfico y anotar cuántos personajes correlativos tardaba en producirse una coinciden­cia.  Y preguntaba: "¿Cuántos deben ser contados por término medio para que esto ocurra?"

El problema, planteado así, es algo más difícil. Y, sobre todo, tan farragoso de cálculo, que ha exigido inexcusablemente otra vez el empleo de ordenadores.

 

Llamemos esta vez p'i a la probabilidad de que se dé la primera coincidencia precisamente en el personaje i-ésimo (no, como antes, en que a estas alturas se haya dado ya alguna coincidencia).  La probabilidad que se tenía de llegar a este personaje sin coincidencias anteriores será, por definición, . Llegados a este punto, existen i-1 fechas distintas entre los personajes escrutados, de manera que el i-ésimo puede "elegir" entre todas ellas.  Con lo que:

 

Por ejemplo:

p’1 = 0                                        (1)

p’2 = 1/365 = 0,00274

Las probabilidades crecen hasta i=20, en que alcanzan su máximo valor,  p’20 = 0,0332.  A partir de ahí decrecen.  La media de esta distribución estadística se produce para

 

 

Éste será, pues, el número de personajes que habrá que chequear por término medio para que se produzca una coincidencia.  Pero apresuré­monos a observar que los valores reales fluctuarán bastante en torno a este valor.  Una medida de este grado de irregularidad sería la des­viación típica de la distribución.  Por análogo procedimiento que antes obtendríamos el momento de segundo orden de la distribución:

 

 

Y de ahí la desviación típica:

 

Cuadro de texto:  La serie es, pues, bastante dispersa.  Es fácil demostrar que en el 68,17 % de los experimentos se obtendrán resultados en el intervalo m±s.  En otras palabras, que la primera coincidencia se producirá al cabo de un número de chequeos comprendido entre 13 y 37 en los 2/3 de las ocasiones, aproximadamente.

El mismo ordenador utilizado nos permite, con ayuda de las fórmulas anteriores, trazar el adjunto diagrama de masa de las probabilidades.

Como en el caso tratado en 1980, podríamos tantear la existencia de una función asintótica para valores crecientes del número de casos posibles (al que llamaremos n a partir de ahora).  Nos inducen a sospe­char la existencia de esta función las sucesivas determinaciones del valor de n en que se alcanza el máximo (moda), así como las medias respectivas:

 

n            moda      p(moda)            media

 

10                5    0,201600            4,66                             

100            12    0,062187            13,21

1000          34    0,019355            40,30

10000      102    0,006085          126,00

100000    318    0,001920          397,00

1000000 1002    0,000607       1253,98

 

Es inmediata la sospecha de que tanto la media como la moda son propor­cionales aÖn.

Y en efecto: la ecuación (1), que genera la distribución en el campo discontinuo, se transformaría al ser transferida al límite continuo en la siguiente:

 

 

Que equivale a la ecuación diferencial:

nxy’ - y(x2 -  n) = 0

Cuya solución es:

 

Donde se ha ajustado la constante de integración de forma que la masa total de la distribución valga la unidad, o sea: . Operando con esta ecuación obtenemos sin gran esfuerzo los parámetros característicos de la distribución, cuyas expresiones nos confirman las conje­turas antes emitidas.

 

Moda:

 

Media:

 

Observemos que la abscisa de la media y la de la moda se hallan en la relación

 

Josep Maria Albaigès i Olivart

Barcelona, septiembre 1985