Los seguidores de Manolo

El Teorema Ergódico Medio

In Probabilidad y Estadística, Sistemas Dinámicos on Miércoles 25, marzo, 2009 at 12:55 pm

por Pablo Lessa

En este artículo me dedico a hacer la prueba de la versión debil del teorema ergódico de Birkhoff. También intento traducir bien los conceptos desde el enfoque probabilístico al enfoque de transformaciones que preservan medida.

El teorema ergódio puede verse como una generalización de la ley de grandes números (la versión de Von Neumann corresponde a la ley débil, y la de Birkhoff a la ley fuerte).

Por ejemplo, supongamos que tenemos X_1, \ldots, X_n, \ldots variables aleatorias independientes e idénticamente distribuidas, todas en L^1(\Omega) (pongamosle E(X_n) = \mu). La ley de grandes números garantiza que:

\frac{1}{n}S_n \to \mu

con probabilidad 1, donde S_n = X_1 + \cdots + X_n.

Ahora si tomamos Y_n = X_n + X_{n+1}, es razonable suponer que los promedios de estas nuevas variables tiendan a 2\mu. Sin embargo dado que Y_n no es independiente de Y_{n+1} esa conclusión no se obtiene directo del teorema.

Generalizando lo anterior, si definimos Y_n = f(X_n, \ldots, X_{n+k}) para cierta función f, se obtiene una sucesión de variables con idéntica distribución pero no independientes. El teorema de Birkhoff garantizará la convergencia del promedio de estas variables.

Como última observación previa notamos que el siguiente enunciado es FALSO:

FALSO.

Si X_1, \ldots, X_n, \ldots son variables idénticamente distribuidas entonces con probabilidad 1 existe el límite de \frac{1}{n}S_n cuando n \to +\infty.

Contraejemplo. Tomamos x_1, \ldots, x_n, \ldots una sucesión de ceros y unos tal que la sucesión

\frac{1}{n}s_n = \frac{1}{n}(x_1 + \cdots + x_n)

no tiene limite.

Ahora se toma X_1 una variable aleatoria que vale cero o uno con probabilidad \frac{1}{2} en cada caso. Y se define:

X_n = \left\{     \begin{array}{lr} x_n & :X_1 = 0\\ 1-x_n & : X_1 = 1\end{array}\right.

las X_n son idénticamente distribuidas, pero no cumplen la tesis\Box

Procesos Estacionarios

Como siempre tenemos \Omega un espacio de probabilidad, con una probabilidad P. Si T: \Omega \to \Omega es medible y se cumple que P(T^{-1}(A)) = P(A) se dice que T preserva la medida P.

Si tenemos X una variable aleatoria en L^1(\Omega) las variables definidas mediante:

X_n = X\circ T^n

son idénticamente distribuidas con la misma distribución que X como puede verificarse mediante:

P(X_n \in A) = P(X\circ T^n \in A) = P(T^n \in X^{-1}A) = P(X^{-1}A) = P(X \in A)

Como hemos visto esto no alcanza para que la sucesión de promedios tenga un límite. Sin embargo las variables X\circ T^n cumplen una propiedad mucho más fuerte.

Definicion (Proceso Estacionario).

Una sucesión de variables aleatorias X_1, \ldots, X_n, \ldots se dice que forman un proceso estacionario si para cualquier elección de índices k,n, n_1, \ldots, n_k \in \mathbb{N} se tiene que la distribución conjunta de:

X_{n_1}, \ldots, X_{n_k} es la misma que la de X_{n_1+n}, \ldots, X_{n_k+n}.

Para un proceso estacionario se deduce inmediamente que las variables tienen la misma distribución pero además se tienen igualdades del estilo:

P(X_1 \in A, X_2 \in B) = P (X_{100} \in A, X_{101} \in B)

para A,B \subset \mathbb{R} borelianos cualesquiera.

Miremos ahora unos ejemplos:

  • Si tomamos una variable X y definimos X_n = X para todo n se obtiene un proceso estacionario.
  • Si tomamos una variable X y una función medible f: \mathbb{R} \to \mathbb{R} que preserva la distribución de X (es decir P(f(X) \in A) = P(X \in A) para todo A \subset \mathbb{R} boreliano). Se obtiene un proceso estacionario definiendo X_n = f^n(X).
  • Una sucesón de variables independientes e idénticamente distribuidas es obviamente un proceso estacionario.
  • Si T: \Omega \to \Omega es una función que preserva la probabilidad, y X es una variable aleatoria cualquiera, entonces X_n = X\circ T^n es un proceso estacionario.

Hay que notar que los procesos estacionarios pueden ser ultra dependientes (predecibles incluso, como lo primeros dos ejemplos) o recontra independientes (como el tercer ejemplo). En estos dos casos extremos, el motivo por el cual existe el límite de la sucesión de promedios es distinto. Esto se ve reflejado en las demostraciones que básicamente tratan los dos casos por separado y luego aproximan un proceso general como suma de los casos.

Simplificando groseramente, el siguiente teorema muestra que el último ejemplo es el más general, y uno puede restringirse sin remordimientos a estudiar el shift en las sucesiones de números reales y sus medidas invariantes.

Teorema (Todo proceso estacionario es equivalente a uno obtenido a partir de una transformación que preserva medida).

Si X_1, \ldots, X_n, \ldots es un proceso estacionario en un cierto espacio de probabilidad, existe otro espacio de probabilidad dotado con una transformación T que preserva medida y una variable aleatoria Y de modo que el proceso:

Y_n = Y\circ T^n

es equivalente al proceso X_n en el sentido de que dado cualquier conjunto de índices finito n_1, \ldots, n_k la distribución de:

X_{n_1}, \ldots, X_{n_k}

es igual a la distribución de

Y_{n_1},\ldots, Y_{n_k}

El teorema anterior nos dice que en particular cualquier probabilidad que se quiera calcular respecto al proceso X_n se va poder calcular en el proceso Y_n (ya que tienen igual distribución) que proviene de una transformación que preserva medida.

En particular dice que teorema de Birkhoff para transformaciones que preservan medida implica el teorema para procesos estacionarios.

Demostración. Se toma el espacio \mathbb{R}^\mathbb{N} de sucesiones reales con la topología de la convergencia puntual. La función:

\omega \mapsto (X_1(\omega), \ldots, X_n(\omega), \ldots)

es medible respecto a la sigma-álgebra de borel en este espacio. Por lo tanto si A \subset \mathbb{R}^\mathbb{N} es un boreliano, está bien definido:

P((X_1, \ldots, X_n,\dots) \in A)

y nos da una medida en \mathbb{R}^\mathbb{N}.

Esta medida resulta ser invariante bajo el shift:

T(x_1, x_2, \ldots) = (x_2, x_2, \ldots)

Y tomando Y:\mathbb{R}^\mathbb{N} \to \mathbb{R} la función que da la primer coordenada se obtiene el teorema\Box

Es un ejercicio interesante tratar de mostrar que el conjunto de sucesiones que tienen límite es un boreliano. Esto se puede hacer reescribiendo la condición de que una sucesión sea de Cauchy (tomando solo numerables \epsilon al hacerlo) como intersecciones y uniones de conjuntos abiertos en \mathbb{R}^\mathbb{N}.

Esperanza Condicional.

Supongamos a partir de ahora X \in L^1(\Omega) y T: \Omega \to \Omega una transformación que preserva medida. Además definamos:

X_n = X \circ T^n

S_n = X_0 + \cdots + X_{n-1}

¿Cual es el candidato a límite de \frac{1}{n}S_n?

Lo primero a observar es que si \frac{1}{n}S_n \to Y con probabilidad 1 entonces se tiene Y\circ T = Y también con probabilidad 1.

Además si la convergencia resultara ser en L^1(\Omega) se tendría:

E(Y) = E(X)

Lo anterior debería ser cierto para conjuntos invariantes, o casi invariantes (T^{-1}A y A difieren en un conjunto de medida nula). Específicamente, si A \subset \Omega es casi-invariante y 1_A es su función característica, se debería tener:

E(Y1_A) = E(X1_A)

Los subconjuntos casi invariantes bajo T forman una \sigma-álgebra que llamaremos \mathcal{F}. Una función es invariante en un conjunto de probabilidad 1 si y solo si es \mathcal{F}-medible.

Por lo tanto tenemos las siguiente propiedades de Y:

  • Y es \mathcal{F}-medible
  • E(X1_A) = E(Y1_A) para todo A \in \mathcal{F}

Una tal función existe. Es la derivada de Radón-Nikodym respecto a P de la medida:

\nu(A) = E(X1_A)

definida en la \sigma-álgebra \mathcal{F}.

Y además es única a menos de modificaciones en conjuntos de probabilidad nula.

Esta construcción es bien conocida para los probabilistas, le llaman la esperanza condicional de la variable X respecto a la \sigma-álgebra \mathcal{F}. En el caso de que \mathcal{F} provenga de una partición numerable de \Omega, la esperanza condicional E(X|\mathcal{F}) se define en cada bloque A de la partición como \frac{1}{P(A)}E(X1_A).

En el libro de Mañe de teoría ergódica se demuestra que la esperanza condicional puede obtenerse como límite de esperanzas condicionales en particiones en el caso de que la \sigma-álgebra en \Omega tenga un generador numerable.

La propiedad fundamental que usaremos de la esperanza condicional es la siguiente:

Continuidad de la Esperanza Condicional

El mapa X \mapsto E(X|\mathcal{F}) es un operador lineal continuo en L^p(\Omega) para todo p \in [1,+\infty].

Idea de la Demostración. A partir de la definición se ve que si X \le Y para casi todo punto entonces E(X|\mathcal{F}) \le E(Y|\mathcal{F}) también en casi todo punto. Con esto se tiene que si -\epsilon < X -Y < \epsilon casi todo punto entonces:

-\epsilon < E(X - Y|\mathcal{F}) < \epsilon

también para casi todo punto. Lo cual da la continuidad de la esperanza condicional en L^\infty(\Omega).

Ahora fijado p \in [1,+\infty) existen númerables rectas x \mapsto a_nx +b_n de modo que para todo x \ge 0 se tiene:

x^p = sup_n\{a_nx + b_n\}

Utilizando la linealidad y monotonía de E(X|\mathcal{F}) se obtiene la famosa desigualdad de Jensen:

|E(X|\mathcal{F})|^p \le E(|X|^p|\mathcal{F})

Por lo tanto:

E(|E(X|\mathcal{F}) - E(Y|\mathcal{F})|^p) \le E(E(|X-Y|^p|\mathcal{F})) = E(|X-Y|^p)

Lo cual demuestra la continuidad en los casos restantes\Box

Teoremas Ergódicos Medios

Mostraremos ahora los llamados “Teoremas Ergódicos Medios” que aseguran la convergencia en L^p(\Omega) de \frac{1}{n}S_n a E(X|\mathcal{F}).

Para esto necesitaremos el siguiente lema (para ver lo que dice, lo mejor es pensar en el shift a derecha en las sucesiónes reales de cuadrado sumable).

Lema.

Sea H un espacio de Hilbert y U: H \to H una isometría lineal posiblemente no sobreyectiva.

Si H_0 es el subespacio cerrado formado por los puntos fijos de U se tiene que la clausura del subespacio:

(I-U)H

es el complemento ortogonal de H_o.

Demostración. Es fácil verificar que (I-U)H es ortogonal a H_0. Para ver que es denso en H_0^\perp tomememos un vector v perpendicular a H_0 y a (I-U)H. Se tiene que:

\langle(I-U)v, (I-U)v\rangle = \langle v - Uv, -Uv\rangle = \langle v,-Uv\rangle + \langle Uv, Uv\rangle = \langle v,-Uv\rangle + \langle v,v\rangle = \langle v, v - Uv\rangle = 0

Esto implica que v - Uv = 0 o sea v \in H_0 por lo tanto v = 0\Box

Dado un espacio de probabilidad, y una transformación que preserva medida T, podemos definir un operador en L^p(\Omega) (p \in [1,+\infty]) mediante:

UX = X\circ T

La invariancia de P bajo T nos da que U es una isometría en cualquier L^p(\Omega).

El siguiente teorema debido a Von Neumann es el precursor del teorema de Birkhoff.

Teorema Ergódico de Von Neumann.

Si X \in L^2(\Omega) entonces

\frac{1}{n}S_n \to E(X|\mathcal{F})

en la norma de L^2(\Omega).

Demostración. Definimos H_0 el subespacio cerrado de funciones U-invariantes (que coincide con las \mathcal{F}-medibles).

Si X \in H_0 se tiene E(X|\mathcal{F}) = X ya que X es \mathcal{F}-medible. Además:

\frac{1}{n}S_n= X

para todo n y por lo tanto se cumple la tesis.

Ahora supongamos que X es perpendicular a H_0. Su producto interno con las funciones características de conjuntos casi-invariantes debe ser cero. De esto se obtiene que integra cero en cada conjunto casi invariante y por lo tanto E(X|\mathcal{F}) = 0.

Además si X = Y - UY para cierto Y se tiene:

\frac{1}{n}(X + \cdots + U^{n-1}X) = \frac{1}{n}(Y - U^nY)

que tiene norma menor o igual que \frac{2}{n}\|Y\| \to 0. Esto por el lema, muestra que se cumple la tesis en un subconjunto denso del subespacio ortogonal a H_0.

Ahora, como U es una isometría, se tiene que si \|X - Y\| < \epsilon entonces:

\|\frac{1}{n}(X + \cdots + U^{n-1}X) -\frac{1}{n}(Y + \cdots + U^{n-1}Y)\| < \epsilon

para todo n. Por lo tanto hemos mostrado que se cumple la tesis en todo el subespacio ortogonal a H_0.

Todo X \in H se escribe como X = Y + Z donde Y \in H_0 y Z \perp H_0. Además se tiene E(X|\mathcal{F}) = E(Y|\mathcal{F}) + E(Z|\mathcal{F}) = Y. Por lo anterior:

\frac{1}{n}(X + \cdots + U^{n-1}X) \to Y

lo cual demuestra el teorema\Box

Es importante notar que dado que el espacio es de probabilidad se tiene L^2(\Omega) \subset L^1(\Omega) y en general los L^p están incluidos unos en otros a medida que p varia siendo L^1(\Omega) el más grande de todos.

Probaremos ahora la convergencia en L^p donde 1 \le p < +\infty.

Teorema Ergódico Medio.

Si X \in L^p(\Omega) para algún p \in [1,+\infty) entonces

\frac{1}{n}S_n \to E(X|\mathcal{F})

en la norma de L^p(\Omega).

Demostración. Supongamos primero que X \in L^p(\Omega) está escencialmente acotada (es decir X está acotada en un conjunto de probabilidad total, o X \in L^\infty). En este caso:

\|\frac{1}{n}(X + \cdots + U^{n-1}X)\|_\infty \le \|X\|_\infty

y por lo tanto |\frac{1}{n}S_n - E(X|\mathcal{F})| \le 2\|X\|_\infty en casi todo punto. Además la convergencia en norma 2 implica que:

P(|\frac{1}{n}S_n - E(X|\mathcal{F})|^2 > \epsilon) \to 0

para todo \epsilon > 0.

Llamemosle A_n al conjunto en el cual |\frac{1}{n}S_n - E(X|\mathcal{F})| > \epsilon. Tenemos la siguiente desigualdad:

E(|\frac{1}{n}S_n - E(X|\mathcal{F})|^p) \le \epsilon^p + 2\|X\|_\infty^p P(A_n)

Lo cual demuestra la convergencia en norma p en caso de variables acotadas.

Dado cualquier X \in L^p(\Omega) podemos obtenerlo como límite en L^p de funciones acotadas X_n. Utilizando que U es una isometría en L^p(\Omega) (por lo cual los promedios para X y X_n se mantienen cercanos) y que E(X_n|\mathcal{F}) \to E(X|\mathcal{F}) se obtiene el resultado\Box

  1. bo, de mas el artículo, especialemente lo de las probabilidades condicionales que nunca entiendo una mierda.

  2. […] propiedad no la pienso demostrar de nuevo.   Es importante entre otras cosas porque implica la continuidad en de la esperanza condicional. […]

  3. […] siguiente lema trata de sucesiones estacionarias de variables aleatorias, cosa definida en este artículo.  Hablando mal y pronto se puede pensar donde preserva una medida de probabilidad y es medible […]

  4. […] como se ver rápidamente al ver los enunciados del Teorema de Recurrencia de Poincare o el Teorema Ergódico de Birkhoff (una prueba de este último bastante simple se encuentra en este link de este mismo […]

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: