La probabilidad de los números

unobenfordUna tarde platicando con mi hijo de 12 casi 13, me hizo un comentario que me hizo sonreír…”Papa cada vez que veo un número este empieza con 1 (uno)”;  Le explique que no siempre los números empiezan con 1, pero que no se desanimara, ya que había descubierto la Ley de Benford.

La ley de Benford (Wikipedia)  también conocida como la ley del primer dígito, asegura que, en los números que existen en la vida real, la primera cifra es 1 con mucha más frecuencia que el resto de los números. Además, según crece este primer dígito, más improbable es que se encuentre en la primera posición. Esta ley se puede aplicar a hechos relacionados con el mundo natural o con elementos sociales

Claro como buen papá tuve que contarle un poco de historia de este hecho. Cierta persona de nombre Simon Newcombal, al percatarse que las páginas de los primeros dígitos en las tablas de logaritmos estaban más desgastadas que las páginas de los últimos dígitos,  descubrió  que los dígitos iniciales significativos de los números (i. e. excluyendo el cero) no se distribuían de manera uniforme. Dado que estas tablas eran utilizadas por científicos de diferentes disciplinas, Newcomb conjeturó que este fenómeno debía estar presente en bases de datos provenientes de distintos ámbitos de la vida. Pero fue hasta 1938, cuando el físico Frank Benford redescubrió el fenómeno en 20 muestras de diferentes fuentes, que se aportó evidencia rigurosa sobre la presencia recurrente de la distribución logarítmica de los dígitos.

Entre las bases de datos que mostraban esta frecuencia relativa se encontraban las siguientes: cuentas de electricidad, área de los ríos, peso atómico de los elementos químicos, números de los inmuebles en las calles, número de habitantes en las poblaciones, estadísticas de la liga americana de béisbol, número de defunciones en desastres.

Claro para este momento ya estaba platicando solo…en fin.

Veamos el modelo de este hecho

Resulta muy sencillo establecer la distribución teórica para el dígito ubicado en la k-ésima posición (de izquierda a derecha) de números generados de acuerdo con un cierto proceso estadístico. En particular, la frecuencia relativa que caracteriza a la ley de Benford para el primer dígito significativo se describe de la siguiente manera:

Prob(d_{2})=\log_{10}\left(1+\displaystyle\frac{1}{d_{1}}\right)\qquad d_{1}=1,2,3,\ldots,9

tablabenford

de esta manera, el dígito 1 tiene una probabilidad de 0.301 mientras que el dígito 9 tiene una probabilidad de sólo 0.0458.

De igual forma, la distribución teórica que caracteriza a la ley de Benford para el segundo dígito viene dada por la siguiente expresión:

Prob(d_{2})=\displaystyle\sum_{k=1}^{9}\log_{10}\left(1+\displaystyle\frac{1}{10k+d_{2}}\right)\qquad d_{2}=0,1,2,3,\ldots,9

cabe notar que para la distribución para el segundo dígito existe una probabilidad positiva para el dígito 0, que es igual a 0.11968, dado que el cero sí puede presentarse en la segunda posición inicial de un número. Finalmente, la ley del dígito-significativo con que se generaliza la ley de Benford en términos de una densidad conjunta de los dígitos en las primeras k posiciones iniciales se define de la siguiente manera:

Prob(D_{1}=d_{1},D_{2}=d_{2},\ldots,D_{k}=d_{k})=\log_{10}\left(1+\left(\displaystyle\sum_{i=1}^{k} d_{i}10^{k-1}\right)^{-1}\right)

También se puede demostrar que la distribución del k-ésimo dígito significativo D_{k} se aproxima muy rápidamente a una distribución uniforme cuando la k-ésima posición se mueve hacia la derecha . Por medio de histogramas es fácil visualizar la presencia de distribuciones no-uniformes para la primera y segunda posición pero no así para las demás posiciones. De hecho, cuando k\geq 3 las distribuciones asociadas tienen un valor medio muy cercano a 4.5 y una varianza cercana a 8.25, valores que coinciden con los de una distribución uniforme.

Si bien resulta claramente interesante para la comunidad matemática, lo cierto es que esta ley tiene múltiples aplicaciones prácticas.

De hecho, el análisis de frecuencia digital que corresponde justamente a estudiar la frecuencia de aparición de los dígitos en conjuntos de datos ha surgido en los últimos años como una potente herramienta analítica en la detección de irregularidades y fraudes. Este análisis es cada vez más utilizado por las Direcciones de Auditoría Interna más modernas, en su lucha contra el fraude.

Por ejemplo, si alguien trata de falsificar su declaración fiscal, irremediablemente tendrá que inventar algún dato. Al hacer esto la tendencia es utilizar demasiados números que comienzan por dígitos a mitad de la escala, 5, 6, 7 y pocos que empiezan por 1. Esto causaría una violación a la Ley de Benford, que de por sí no implica fraude, pero sí un buen indicio para justificar una inspección más detallada.

El Departamento de Hacienda de EE.UU determinó que si una cifra empieza por tres y aparece el 40% de las veces, en vez de un 12,5% que es lo habitual hay motivos para investigar el fraude fiscal.

Hay ideas para utilizar esto mismo en mejores sistemas de almacenamiento de datos en computadores, irregularidades en casos clínicos y modelos demográficos.

Una de las aplicaciones más polémicas de esta ley se denomina “forénsica eleccionaria” y es liderada por el profesor de Ciencias Políticas en la Universidad de Michigan Walter Mebane.

MAHT

 

REFERENCIAS

Zhipeng, Li, Ling, Cong and Huajia, Wang (2004); “Discussion on Benford’s Law
and its Applications”;

http://arxiv.org/abs/math/0408057

 

 

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s