Los seguidores de Manolo

Sobre Probabilidad

In Probabilidad y Estadística on Martes 20, enero, 2009 at 3:36 pm

por Pablo Lessa

Un Problema de Dados

Para empezar quiero plantear un problema para los que les cuelgue pensarlo.  ¿Es posible cargar 2 dados para que, al tirarlos, las 11 posibles sumas (del 2 al 12) sean equiprobables?

¿Que significa “probabilidad”?

Quiero aprovechar ahora para hablar un poco de la probabilidad en su interpretación cotidiana y de la teoría matemática.

La teoría matemática de probabilidad es obviamente, al igual que la geometría plana, una abstracción de ciertos hechos que observamos.  En lugar de ser sobre trazados en la tierra, las observaciones básicamente vienen de los juegos de azar y son las siguientes:

  1. Es imposible predecir el resultado de tirar un dado (excepto que va quedar con un número del 1 al 6 en la cara superior claro está).
  2. Sin embargo la frecuencia con la que sale un número dado en una secuencia larga de tiradas parece estabilizarse en un valor que depende únicamente del dado en cuestión.

Estas observaciones son la base de la llamada interpretación frecuentista de la probabilidad.  La probabilidad de un evento es la frecuencia con la que este evento ocurriría si repetimos el experimento muchas veces (por ejemplo en un dado bien fabricado podemos pensar que la probabilidad de que salga cualquier número es cercana a 1 en 6).

Sin embargo hay gente que habla de la probabilidad de lluvia por ejemplo.  O de la probabilidad de que un meteorito impacte con la tierra.  En esos casos es dificil pensar que se pueda repetir el experimento (y no está muy claro cual es el experimento en cuestión).  Para esta gente (o este tipo de uso) hay una interpretación subjetiva de la probabilidad que mucha gente llama “la interpretación bayesiana”.  En esta interpretación la probabilidad de un evento es el nivel de creencia que una persona tiene en que este evento va a ocurrir.  De modo que para cada persona puede ser distinto.

Yo me voy a ocupar solamente de la interpretación frecuentista de aquí en más.  Hay una observación experimental adicional que es la siguiente:

  • Si dos eventos son independientes (por ejemplo que salga un 1 en una cierta tirada de dado y un 4 en otra) la frecuencia con la que ambos eventos ocurran es el producto de las frecuencias.

Cuando dos cosas son independientes es obviamente una cuestión subjetiva ya que estamos hablando del lado experimental de la probabilidad.  Sin embargo lo anterior se utilizará como definición de independencia en la teoría matemática.

Modelos Probabilísticos

¿Como se modela el experimento de tirar un dado muchas veces en la teoría matemática de la probabilidad?

Desde Kolmogorov, una secuencia de tiradas de dados se modela como una suceción de funciones medibles X_1,\cdots,X_n con dominio en un espacio de probabilidad (\Omega,A,P).

El espacio \Omega representa todos los posibles resultados de los experimentos que estamos intentando modelar (en este caso la secuencia de tiradas de dados).

Si tiramos entonces 5 dados y observamos 1,3,4,6,3.  En el modelo se piensa que hemos observado X_1(\omega) = 1, X_2(\omega) = 3, \cdots, X_5(\omega) = 3 para un cierto \omega \in \Omega que desconocemos.  La idea es que podemos asociar una probabilidad a este evento (explícitamente P(X_1 = 1, \cdots, X_5 = 3) donde se usa X_n = k para denotar el conjunto \{\omega \in \Omega: X_n(\omega) = k\}).

La medida de probabilidad en \mathbb{R} definida por \mu(A) = P(X_n \in A) se llama la distribución de X_n.  Para modelar el problema de tirar un mismo dado muchas veces podriamos asumir que las variables X_1, \cdots, X_n, \ldots todas tienen la misma distribución.

Otra hipótesis razonable es asumir que las tiradas son independientes.  Matemáticamente esto significa que la medida en \mathbb{R}^k (llamada la distribución conjunta) generada por cualquier k-upla de las variables (i.e. \mu(A) = P( (X_{i1},\ldots,X_{ik}) \in A)) es la medida producto.

En particular P(X_1 \in A, X_2 \in B) = P(X_1 \in A)P(X_2 \in B) para cualquier par de conjuntos A,B \subset \mathbb{R}.

Si pensamos que las variables toman solamente los valores del 1 al 6 se tiene que hay sólamente 6 parámetros en el modelo que determinarían todas las distribuciones conjuntas (y por lo tanto toda la información relevante para calcular la probabilidad de cualquier evento en el modelo).

Inferencia Estadística

Hace unos cuantos años un flaco le sacó una torta de guita al casino de Montecarlo.  El loco contrató gente para anotar todos los resultados de ruleta.  Encontró que en una ruleta la frecuencia con la que salía cierto  conjunto de 9 números era más alta que la de los demás y se pasó apostando a ellos, ganando un montón de plata (hasta que lo calaron, desarmaron las maquinas, las volvieron a armar y ahi ya no pudo hacer más guita con eso: ver http://en.wikipedia.org/wiki/Joseph_Jagger).

Esta es una aplicación de lo que se llama inferencia estadística.  En general hay dos tipos de razonamientos involucrados.

En primer lugar, podemos asumir un modelo que depende de ciertos parámetros (como el anterior en el cual desconocíamos las probabilidades de los números del 1 al 6) y luego a partir de un juego de datos estimar estos parámetros asumiendo que el modelo es verdadero (Jagger en el caso famoso intento estimar las probabilidades de cada resultado en las ruletas de Montecarlo).

Por ejemplo si tiramos mil veces un dado, y asumimos que las tiradas son independientes, la ley de grandes números (un teorema) nos dice que las frecuencias con las que ocurrió cada número deberían estar cerca de las probabilidades (es decir un sexto).  Podemos utilizar estas frecuencias como estimación de las probabilidades (ajustar el modelo a los datos).  Incluso hay versiones cuantitativas del teorema que nos dirán con que probabilidad estaremos cerca de los valores verdaderos (es decir el modelo nos dice cuanto confiar en nuestro ajuste, asumiendo que todo lo demás es verdad).

En esa aplicación el resultado será del tipo, “si las hipotesis del modelo son ciertas entonces con probabilidad 95% se tiene que P(X_1 = 1) \in [0.15,0.16]“.

Otro tipo de aplicación consiste en fijar un modelo y luego calcular para cuantificar que tan bien se ajusta a los datos.  Estos son los llamados “test de hipótesis”.  Se toman algúna parte de los datos observados por ejemplo, el promedio de mil tiradas de dado, y se ve si son compatibles con el modelo.  Por ejemplo si tomamos mil tiradas de un dado y el promedio da 4 es razonable concluir que el modelo de que las tiradas son variables independientes, idénticamente distribuidas, con distribución uniforme en \{1,\ldots,6\} no es muy realista para este dado en particular.  La teoría permite cuantificar que tan poco probable es bajo el modelo que el promedio esté tan lejos de 3.5.

Esas aplicaciones forman parte de un tema al que llaman “Inferencia Estadística” (que también incluye algunas cosas sobre como sacar conlusiónes de un juego de datos de forma no matemática… a los matemáticos les gusta distinguirse y decir que hacen Estadística Matemática).

(Por Fin) Teoremas

Lo que distingue a la Teoría de la Probabilidad de la Teoría de Medida es el concepto de independencia que juega un papel básicamente en todos los resultados.

Los teoremas básicos de probabilidad que entran en juego en cualquier parte de la inferencia estadística son 2.  El primero es el siguiente:

Ley de Grandes Números

Si X_1,\ldots,X_n,\ldots son variables independientes e idénticamente distribuidas y tales que existe E(|X_1|) (la E se usa para denotar “esperanza” que es simplemente la integral de Lesbesge respecto a la medida P en \Omega… por lo tanto la hipótesis es que las X_n están en L^1(\Omega)), entonces,

\frac{1}{n}(X_1(\omega) + \cdots + X_n(\omega)) \to E(X_1) para casi todo \omega \in \Omega (es decir para un conjunto de medida total).

Esto más que un gran teorema es el primer ingrediente necesario para la teoría.  Si no fuera verdad habría que armar otra teoría en la que lo fuera, porque esto representa un hecho experimental (al menos en la interpretación frecuentista) de lo que intenta modelar esta teoría.  Sería como que en la geometría de euclides dos puntos no determinaran una recta.  Podría haber sido un axioma (después manejate para armar lo demás en forma coherente)… en fin, menos mal que se puede demostrar.

Para aquellos que se están rascando la cabeza sobre como esto implica que la frecuencia de veces que sale 1 en el dado tiende a la probabilidad, simplemente compongan cada variable X_n con la función que vale 1 en 1 y 0 en el resto, y apliquen el teorema (pueden hacer lo mismo componiendo con la función característica de cualquier conjunto).

Respecto a la hipótesis de integrabilidad, si estamos modelando tiradas de dados se va cumplir trivialmente (cualquier distribución acotada también funca).  Pero está claro que uno puede definir distribuciones (medidas de probabilidad en \mathbb{R}) donde la función f(x) = x no tiene integral finita (estoy usando que si \mu es la distribución de X se tiene que \int_{\Omega} X \mathrm{d}P = \int_\mathbb{R} x\mathrm{d}\mu).  La clásica es encajar una densidad multiplo de \frac{1}{1 + x^2} y lo que se obtiene es la llamada distribución de Cauchy que parece tener un centro en cero, pero sin embargo los promedios de repreticiones independientes se van oscilando al re carajo (lo cual se puede demostrar y todo).  La existencia de estas distribuciones no contradice lo que se observa experimentalmente (que en el fondo siempre son cosas acotadas) pero en general no intervienen en los modelos que la gente hace.

Ta, ley de grandes números dice, si sumas independientes idénticamente distribuidas y dividis entre n tiende a la media.

El siguiente teorema es bastante más sutil aunque también se corresponde con observaciones expermentales de diverso tipo.  Dice básicamente que la suma de variables independientes idénticamente distribuidas tiene una distribución acampanada.  Por ejemplo, para la suma de dos tiradas independientes de un dado justo se tiene que las probabilidades de las sumas del 2 al 12 son:

1/36 , 2/36 , 3/36 , 4/36 , 5/36 , 7/36 , 5/36 , 4/36 , 3/36 , 2/36 , 1/36

Pasamos de todos iguales, a una carpita sumando solo 2 dados.  Al sumar 4 dados independientes ya se obtiene un campanita: ver http://www.statisticalengineering.com/central_limit_theorem.htm

Lo más místico y extraño es que la distribución de una suma de variables no se acerca a una con densidad en forma de campana cualquiera sino (normalizada correctamente) a una campana de la forma de e^{-x^2}.

En particular la distribución normal estandard es aquella con densidad \frac{1}{\sqrt{2\pi}}e^{\frac{-1}{2}x^2}

y el teorema es el siguiente:

Teorema Central del Límite

Si X_1,\ldots,X_n,\ldots son variables independientes e idénticamente distribuidas y tales que existe E(X_1^2) (notemos que esto implica que E(X_1) también existe,  asumiremos que E(X_1^2) = 1 y E(X_1) = 0 simplifica el enunciado) entonces:

Z_n = \frac{1}{\sqrt{n}}(X_1 + \cdots + X_n)

tiende a tener distribución normal.  La convergencia es en el sentido de la convergencia debil de medidas que en general es un poco complicada (aunque linda en mi opinión).  Sin embargo en este caso es equivalente a decir que para todo intervalo se tiene que:

P(Z_n \in [a,b]) \to \int_a^b \frac{1}{\sqrt{2\pi}}e^{\frac{-1}{2}x^2}\mathrm{d}x

Resumiendo, ambos teoremas hablan de sucesiones de variables independientes e idénticamente distribuidas, y dicen:

  1. El promedio tiende al valor esperado
  2. Si, luego de restar el valor esperado a cada variable, dividis entre \sqrt{n} (en lugar de n) tiende a una normal

Este segundo teorema es el gran concepto que explora el problemita que planteamos al principio.  Si asumimos que los dados son independientes entre si (lo cual es razonable, salvo que se comuniquen magnéticamente o algo) la pregunta es si la suma de dos variables independientes puede tener distribución uniforme.  El teorema central dice que sumando muchas, la distribución se empieza a parecer a una campana, pero ¿sumando solo dos?

  1. Tremendo!.
    Bo, no deberias poner el articulo en alguna categoria?? asi se organiza un poco mas.

  2. Buena idea.
    Metí una categoría “Probabilidad y Estadística” en la cual encaje este artículo.

  3. […] anterior esta motivado como modelo en este artículo.  Básicamente la filosofía es que el azar determina un cierto que no conocemos y nuestra plata […]

  4. hola
    necesito ayuda con las probabilidades y las tiradas de dados. Si me quieres ayudar, estaria muy agradecido.
    un saludo

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: