Los seguidores de Manolo

Esperanza Condicional

In Probabilidad y Estadística on Domingo 19, abril, 2009 at 6:53 pm

por Pablo Lessa

Este artículo es el primero de una serie que voy a escribir a pedido del sambita.  La idea es llegar a entender el clásico teorema de convergencia de martingalas.  Luego el sambita se encargaría de utilizarlo para ayudar a demostrar algunos resultados en teoría de grupos.

En esta primera entrega el tema que nos ocupa es la definición formal e intuición, detrás del concepto de esperanza condicional.

Esperanza Condicional Respecto a una Variable

La herramienta para formalizar la definición de martingala es la esperanza condicional E(X|Y) donde X,Y son variables aleatorias con esperanza finita.

La esperanza condicional es una nueva variable aleatoria de la forma g(Y) que intenta aproximar X en promedio, lo mejor posible.  Veamos algunos ejemplos:

  • Si X,Y son dados independientes (lo cual significa que la pareja (X,Y) toma el valor (i,j) con probabilidad \frac{1}{36} para todo (i,j) \in \{1,2,3,4,5,6\}^2).  Se tiene que E(X|Y) = 3,5.  La función g en este caso es constante lo cual dice de alguna manera que conocer Y no sirve para predecir X.
  • Si X,Y son iguales… obvio que E(X|Y) = X, lo mismo pasa si X = g(Y) para alguna funcion medible g: \mathbb{R} \to \mathbb{R}.
  • Sean Y,Z dos dados independientes y definimos X = Y + Z en este caso E(X|Y) = Y + 3,5.
  • Si X e Y son independientes:  E((X + Y)^2 | Y) = E(X^2) + 2E(X) Y + Y^2.  En este caso g es un polinomio de grado dos.

Para la definición hay que digerir un pequeño tecnisismo respecto a \sigma-álgebras y medibilidad que es el siguiente:

  • Toda variable aleatoria X: \Omega \to \mathbb{R} determina una \sigma-álgebra en \Omega que está formada por las preimagenes de los conjuntos borelianos.
  • Si X,Y son dos variables aleatorias y X es medible en la \sigma-álgebra generada por Y entonces dado que debe ser constante en los conjuntos de la forma \{\omega\in \Omega: Y(\omega) = c\} se tiene que existe al menos una función g: \mathbb{R}\to \mathbb{R} de modo que X = g(Y).

Sin más zanata aquí esta la definición formal de esperanza condicional de una variable respecto a otra (la notación 1_A denota la función que vale 1 en el conjunto A y cero en el complemento):

Esperanza Condicional respecto a una Variable:

Si X,Y \in L^1(\Omega,\mathcal{F},P) entonces E(X|Y) es la única (a menos de cambios en conjuntos de medida nula) variable aleatoria medible respecto a la \sigma-álgebra generada por Y que cumple:

E(X1_A) = E( E(X|Y)1_A)

para todo conjunto A en la sigma álgebra generada por Y.

Esperanza Condicional Respecto a una variable Discreta

Supongamos que Y es una variable discreta (su distribución se concentra en un conjunto numerable) que toma los valores y_1, y_2, \ldots con probabilidades p_1, p_2, \ldots (los p_i se asumen distintos de cero).  En este caso tomando A_i = \{Y = y_i\} se tiene:

E(X1_{A_i}) = E( E(X|Y)1_{A_i}) = C_i P(A_i)

donde C_i es el valor de E(X|Y) en A_i que debe ser constante.  Despejando se obtiene:

C_i = \frac{E(X1_A)}{P(Y = y_i)}

de modo que C_i es el valor promedio de X en el conjunto en el que Y vale y_i.  Usando la notación para las indicatrices se obtiene:

E(X|Y) = \sum_i C_i 1_{A_i}

Esperanza Condicional entre Variables Continuas

Si la variable Y no es discreta la fórmula anterior deja de tener sentido porque las probabilidades en el denominador son cero.  En el caso en que la distribución conjunta de X,Y es absolutamente continua respecto a la medida de Lebesgue en \mathbb{R}^2 se puede obtener una formula análoga.

Lo primero es observar que hay una densidad conjunta p(x,y) que cumple:

P(X \in A, Y \in B) = \int_{A \times B} p(x,y)\mathrm{d}x\mathrm{d}y

para todo par de borelianos A,B \subset \mathbb{R}.

De esto se obtiene que Y tiene una densidad que es:

p(y) = \int_\mathbb{R} p(x,y)\mathrm{d}y

Y definiendo

g(y) = \frac{\int_\mathbb{R} x p(x,y)\mathrm{d}x}{p(y)}

que juega el papel análogo a las C_i en el caso discreto que se discutió anteriormente.  En este caso se tiene:

E(X|Y) = g(Y)

Un Teorema de Existencia

Teorema (existencia de la esperanza condicional).

Sean X,Y \in L^1(\Omega,\mathcal{F},P) y sea \mathcal{F}_Y \subset \mathcal{F} la \sigma-álgebra generada por Y.

Existe Z \in L^1(\Omega, \mathcal{F}_Y, P) de modo que E(Z1_A) =E(X1_A) para todo A \in \mathcal{F}_Y.

Además se puede tomar Z = g(Y) donde g: \mathbb{R} \to \mathbb{R} es medible.

Demostración.

Sea P_Y la distribución de Y (i.e. la medida en \mathbb{R} que cumple P(Y \in A) = P_Y(A) para todo boreliano A \subset \mathbb{R}).

Definamos también para todo boreliano A \subset \mathbb{R} la función \mu dada por:

\mu(A) = E(X1_{\{Y \in A\}})

Se tiene \mu es una medida signada en los borelianos de \mathbb{R} y además es absolutamente continua respecto a P_Y de modo que por el teorema de Radon-Nikodym existe una función medible  g: \mathbb{R} \to \mathbb{R} que cumple:

\mu(A) = \int_A g(y) \mathrm{d}P_Y(y)

para todo boreliano A \subset \mathbb{R}.

El lado izquierdo es E(X1_B) donde B = \{Y \in A\} por definición.  Si mostramos que el lado derecho es E(g(Y)1_B) se obtendría el teorema tomando Z = g(Y).

Dado que P_Y es la distribución de Y se tiene:

\int f(y)\mathrm{d}P_Y(y) = E(f(Y))

para toda función f \in L^1(\mathbb{R},\mathcal{B}, P_Y) (se cumple para funciones características, combinaciones lineales y límites monótonos).  Esto en particular muestra que el lado derecho es:

E(g(Y)1_B)

que era lo que se buscaba\Box

Esperanza Condicional en General

En la sección anterior definimos la esperanza condicional de una variable en L^1 respecto a otra.  Esto se generaliza de dos maneras:

  • Si se tiene un conjunto de variables X, Y_1, \ldots, Y_n \in L^1(\Omega,\mathcal{F},P) se puede definir E(X| Y_1, \ldots, Y_n) considerando la \sigma-álgebra generada por todas las Y_k.  El resultado es una cierta función medible de varias variables g: \mathbb{R}^n \to \mathbb{R} que cumple: E(X1_A) = E(g(Y_1, \ldots, Y_n)1_A) para todo conjunto A en dicha \sigma-álgebra.
  • Pequeña molestía técnica:  En general si X \in L^1(\Omega,\mathcal{F}, P) y se tiene \mathcal{F}_0 \subset \mathcal{F} una sub-\sigma-álgebra se puede definir E(X|\mathcal{F}).  En este caso se pierde la linda interpretación como función de —.  Lo bueno es que abarca los otros casos, y la función g no se utiliza para demostrar ninguna de las propiedades asi que no complica mucho.

Los teoremas de existencia de la esperanza condicional (y de la función g en el primer caso) se demuestran utilizando Radon-Nikodym o bien en \mathbb{R}^n (en el caso de esperanza respecto a un conjunto de variables aleatorias) o directamente en \Omega (en el caso de tomar esperanza respecto a una \sigma-álgebra).

Algunas propiedades de la esperanza condicional son:

  • Linealidad
  • Preserva esperanzas:  E(X) = E( E(X|\mathcal{F}_0) ) sea cual sea \mathcal{F}_0.
  • Monotonía (si X \le Y c.t.p.) se tiene que E(X|\mathcal{F}_0) \le E(Y|\mathcal{F}_0) c.t.p. (la prueba se hace utilizando la definición y el hecho de que una función positiva que integra cero en todo conjunto medible debe ser cero c.t.p.).
  • Propiedad del valor absoluto:  |E(X|\mathcal{F}_0)| \le E(|X||\mathcal{F}_0) c.t.p. (utilizar que |x| es mas grande que x y que -x, y la monotonía).
  • Continuidad en L^1.  Si E(|X_n - X|) \to 0 entonces E(|E(X_n|\mathcal{F}_0) - E(X|\mathcal{F}_0)|) \to 0 (sale con la propiedad del valor absoluto).

La propiedad del valor absoluto se generaliza a funciones que son el supremos de un conjunto numerable de funciones lineales… es decir a las funciones convexas.  En ese caso se llama la desigualdad de Jensen.

Desigualdad de Jensen.

Si f: \mathbb{R} \to \mathbb{R} es convexa entonces:

f(E(X|\mathcal{F}_0)) \le E(f(X) | \mathcal{F}_0)

Esta propiedad no la pienso demostrar de nuevo.   Es importante entre otras cosas porque implica la continuidad en L^p(\Omega, \mathcal{F}, P) de la esperanza condicional. La intuición para la desigualdad se obtiene mirando la gráfica de x \mapsto x^2 y notando que “el promedio al cuadrado es menor al promedio de los cuadrados” cuando se toman dos puntos cualquiera.

Un punto de vista:  Eligiendo un cierto L^p(\Omega,\mathcal{F},P) y una \sigma-álgebra \mathcal{F}_0 \subset \mathcal{F}.  La esperanza condicional nos da un cierto operador lineal acotado:

T: L^p(\Omega,\mathcal{F}, P) \to L^p(\Omega, \mathcal{F}, P)

cuya imágen está contenida en el subespacio de variables \mathcal{F}_0 medibles.

El caso p = 2 se entiende super bien.  En ese caso el operador T  es simplemente la proyección ortogonal (lo cual justifica la noción de que E(X|Y) aproxima lo mejor posible a X en el subespacio de variables que son funciones medibles de Y).

Otro caso en el que la esperanza condicional se entiende bien de bien, es cuando la \sigma-álgebra en cuestión es una partición en numerables conjuntos de probabilidad positiva.  En este caso se obtiene que el operador esperanza condicional cambia la variable en cada bloque de la partición, por su promedio en el bloque.

Por último hay que decir algo sobre el caso independiente y el caso medible:

  • Si X_1, \ldots, X_n son independientes entonces E(X_n| X_1, \ldots, X_{n-1}) = E(X_n) c.t.p.  Esto se demuestra simplemente verificando que E(X_n) cumple la propiedad que define la esperanza condicional.
  • Si X es medible respecto a \mathcal{F}_0 entonces para cualquier Y se tiene E(XY|\mathcal{F}_0) = XE(Y|\mathcal{F}_0).  Esto se demuestra empezando por las indicatrices de conjuntos, y haciendo la clásica inducción mediante combinaciones lineales y límites monótonos.

Estas últimas dos propiedades sirven para dar una demostración alternativa de que la esperanza del producto de dos variables independientes es igual al producto de las esperanzas (cosa que es un caso muy particular del Teorema de Fubini).  La prueba es el siguiente renglón:

E(XY) = E( E(XY|Y) ) = E(E(X|Y)Y) = E(E(X)Y) = E(X)E(Y)

Aparición Espontánea de la Esperanza Condicional

Si se tiene T: X \to X una transformación que preserva una medida de probabilidad \mu.  Y se toma una función f: X \to \mathbb{R} integrable respecto a \mu se tiene que:

\frac{1}{n}\sum_{k = 0}^{n-1} f(T^k(x)) \to E(f|\mathcal{F})(x)

para casi todo x \in X, donde \mathcal{F} es la \sigma-álgebra de los conjuntos casi-invariantes (difieren de su preimagen en un conjunto de medida nula).

Esto es el clásico teorema ergódico de Birkhoff, cuya motivación y demostración no tiene nada que ver con martingalas.

  1. […] By pablolessa Este artículo es la continuación de este otro sobre esperanza […]

  2. […] By pablolessa Este es el último de lo que resultó ser una serie de 3 artículos sobre esperanza condicional y […]

  3. […] que voy a decir ahora está muy relacionado con la Esperanza Condicional aunque estaría bueno comprender un poco más en profundidad dicha […]

  4. […] la geometría a los grupos. Por Andrés Sambarino Como muy bien dijo el Lessa en artículo Esperanza condicional, nos dirigimos a probar un resultado de superrigidez debido a Margulis entre este y futuros […]

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: