Archivo de la etiqueta: probabilidad

Probabilidad I: Varianza de una Variable Aleatoria

Por Octavio Daniel Ríos García

Introducción

En esta entrada veremos un concepto que se relaciona cercanamente con el valor esperado: la varianza. Así como el valor esperado, la varianza será una cantidad numérica que tiene la intención de resumir numéricamente otro aspecto del comportamiento probabilístico de una variable aleatoria. En este caso, lo que intentaremos resumir será la variabilidad respecto al valor esperado. Es decir, en promedio, ¿qué tanto se aleja una variable aleatoria del «centro» de su distribución?

Además, con las herramientas que tenemos hasta ahora, podemos desarrollar algunas propiedades de la varianza, que no serán difíciles de demostrar utilizando las herramientas de las últimas entradas sobre valor esperado.

Motivación y definición

Dada una v.a. \(X\colon\Omega\to\RR\), vimos que el valor esperado de \(X\), \(\Esp{X}\), es el valor promedio (a la larga) de \(X\). Es decir, que si observamos muchas veces a \(X\), el promedio de esas observaciones debe de acercarse a \(\Esp{X}\). Además, gracias a la ley del estadístico inconsciente, podemos calcular \(\Esp{g(X)}\), que es el valor promedio de \(g(X)\).

La varianza de una v.a. \(X\) se define como el valor esperado de una transformación particular de \(X\), y lo que busca cuantificar la dispersión promedio que tiene \(X\) con respecto a su valor esperado. Por ello, se propone la transformación \(v\colon\RR\to\RR\) dada por

\begin{align*} v(x) &= {\left(x − \Esp{X}\right)}^{2} & \text{para cada \(x\in\RR\).} \end{align*}

Así, observa que \(v(X) = {\left(X − \Esp{X}\right)}^{2}\) es una v.a. cuyo valor tiene un significado especial: \(v(X)\) es la distancia entre \(X\) y su valor esperado, elevada al cuadrado. Por ello, \(\Esp{v(X)}\) es la distancia cuadrada promedio entre \(X\) y su valor esperado. Esta discusión da lugar a la definición de varianza.


Definición. Sea \(X\) una variable aleatoria. La varianza de \(X\), denotada con \( \mathrm{Var}(X) \), se define como sigue:

\begin{align*} \mathrm{Var}(X) &= \Esp{{\left(X − \Esp{X} \right)}^{2}},\end{align*}

siempre que \({\left(X − \Esp{X} \right)}^{2}\) sea una v.a. con valor esperado finito. En tal caso, se dice que \(X\) tiene varianza finita.


Definiciones para el caso discreto y el caso continuo

Debido a la distinción entre valores esperados de v.a.’s discretas y continuas, la varianza tiene dos formas de calcularse directamente. Sin embargo, veremos más adelante en esta entrada que no es necesario hacer el cálculo directo, y puede hacerse mediante una expresión más sencilla.


Varianza (Caso discreto). Si \(X\) es una v.a. discreta, entonces la varianza de \(X\) tiene la siguiente expresión:

\begin{align*} \mathrm{Var}(X) &= \sum_{x\in X[\Omega]} (x − \Esp{X})^{2} \Prob{X = x}, \end{align*}

siempre que esta serie sea absolutamente convergente.


Varianza (Caso continuo). Si \(X\) es una v.a. continua con función de densidad \(f_{X}\), entonces la varianza de \(X\) puede escribirse de la siguiente manera:

\begin{align*} \mathrm{Var}(X) &= \int_{-\infty}^{\infty} (x − \Esp{X})^{2} f_{X}(x) \, \mathrm{d}x.\end{align*}


Es importante observar que, independientemente del caso en el que nos encontremos, para calcular la varianza de \(X\) es necesario conocer el valor esperado de \(X\).

Terminología y notación usual

Existe cierta notación especial para la varianza que encontrarás en la literatura referente a probabilidad y estadística. Si \(X\) es una v.a., entonces suele denotarse a la varianza de \(X\) con \(\sigma^{2}\), o con \(\sigma_{X}^{2}\), en caso de que sea necesario saber qué v.a. es la varianza. Además, a la raíz cuadrada (positiva) de la varianza (que bajo esta notación sería \(\sigma\) o \(\sigma_{X}\)) se le conoce como desviación estándar. En resumen, si \(X\) es una v.a., entonces podrías encontrarte con fuentes que adoptan la siguiente notación:

  • \(\sigma_{X}^{2} := \mathrm{Var}(X)\) para denotar a la varianza.
  • \(\sigma_{X} := \sqrt{\mathrm{Var}(X)}\) para denotar a la desviación estándar.

Nostros no adoptaremos esta notación en general, pero hay una distribución de probabilidad en particular en la que sí la utilizaremos.

Propiedades de la varianza

Debido a que la varianza se define como un valor esperado, tiene algunas propiedades que son consecuencia de lo que hemos estudiado en las últimas entradas.

La primera propiedad es muy elemental, y establece que la varianza de cualquier v.a. es no-negativa.


Propiedad 1. Sea \(X\) una variable aleatoria. Entonces se cumple que

\begin{align*} \mathrm{Var}(X) \geq 0. \end{align*}


Demostración. Te la dejamos como tarea moral.

$\square$

Por su parte, la siguiente propiedad establece que la varianza de una constante debe de ser \(0\).


Propiedad 2. Sea \(c\in\RR\) y \(f_{c}\) la v.a. constante igual a \(c\). Entonces se cumple que

\begin{align*} \mathrm{Var}(f_{c}) &= 0. \end{align*}

Si abusamos un poco de la notación, lo anterior quiere decir que si \(c\in\RR\) es un valor constante, entonces \( \mathrm{Var}(c) = 0\).


Demostración. Sea \(v\colon\RR\to\RR\) la transformación que define a la varianza (en este caso, para cada \(x\in\RR\), \(v(x) = x − \Esp{f_{c}}\)). Como \(\Esp{f_{c}} = c\), entonces se tiene que \(v(x) = x − c\). Así, \(v(f_{c})\) es la v.a. dada por

\begin{align*} v(f_{c}(\omega)) &= f_{c}(\omega) − c & \text{para cada \(\omega\in\Omega\).} \end{align*}

Además, como \(f_{c}(\omega) = c\) para cualquier \(\omega\in\Omega\), entonces se tiene que \(v(f_{c})\) es la v.a. constante igual a \(0\). En consecuencia,

\begin{align*} \mathrm{Var}(f_{c}) &= \Esp{v(f_{c})} = \Esp{0} = 0, \end{align*}

que es justamente lo que queríamos demostrar.

$\square$

La propiedad 2 tiene sentido, pues la dispersión promedio de una v.a. que puede tomar un único valor debe de ser \(0\).

La propiedad siguiente nos dice que la varianza es invariante ante traslaciones.


Propiedad 3. Sean \(X\) una variable aleatoria y \(c \in \RR\). Entonces

\begin{align*} \mathrm{Var}(X + c) &= \mathrm{Var}(X) . \end{align*}


Demostración. Podemos obtener este resultado directamente desarrollando la expresión de la varianza de \(X + c\), recordando que \(\Esp{X + c} = \Esp{X} + c\):

\begin{align*} \mathrm{Var}(X + c) &= \Esp{(X + c − \Esp{X + c})^{2}} \\[1em] &= \Esp{(X + c − (\Esp{X} + c))^{2}} \\[1em] &= \Esp{(X + c − \Esp{X} − c))^{2}} \\[1em] &= \Esp{(X − \Esp{X})^{2}} \\[1em] &= \mathrm{Var}(X) ,\end{align*}

que es precisamente lo que queríamos demostrar.

\(\square\)

La propiedad 3 quiere decir que si trasladamos una v.a. sumándole una constante, su dispersión promedio no se ve afectada, pues el comportamiento probabilístico sigue siendo el mismo, lo único que se cambia es el «centro» de la distribución. Es decir, la v.a. trasladada tiene el mismo comportamiento, pero centrado alrededor de un valor distinto, por lo que su variabilidad con respecto a ese nuevo centro será la misma.

La propiedad que sigue establece que la varianza saca constantes multiplicando al cuadrado.


Propiedad 4. Sean \(X\) una variable aleatoria y \(c\in\RR\). Entonces

\begin{align*} \mathrm{Var}(cX) &= c^{2} \mathrm{Var}(X). \end{align*}


Demostración. Al igual que la propiedad 1, te dejamos esta como tarea moral.

\(\square\)

La siguiente propiedad establece una expresión más sencilla para el cálculo de la varianza de una v.a. \(X\).


Propiedad 5. Sea \(X\) una variable aleatoria con varianza finita. Entonces se cumple que

\begin{align*} \mathrm{Var}(X) &= \Esp{X^{2}} − {\left(\Esp{X}\right)}^{2}.\end{align*}


Demostración. Podemos hacer el siguiente desarrollo de la expresión que vimos en la definición de la varianza.

\begin{align*} \mathrm{Var}(X) &= \Esp{{\left(X − \Esp{X}\right)}^{2}} \\[0.5em] &= \Esp{X^{2} − 2 X \Esp{X} + {\left(\Esp{X}\right)}^{2}} \\[0.5em] &= \Esp{X^{2}} + \Esp{−2 X \Esp{X}} + \Esp{\left(\Esp{X}\right)^{2}} \tag{\(*\)} \\[0.5em] &= \Esp{X^{2}} − 2\Esp{X}\Esp{X} + {\left(\Esp{X}\right)}^{2} \tag{\(**\)} \\[0.5em] &= \Esp{X^{2}} − 2{\left(\Esp{X}\right)}^{2} + {\left(\Esp{X}\right)}^{2} \\[0.5em] &= \Esp{X^{2}} − {\left(\Esp{X}\right)}^{2}.\end{align*}

Observa que al pasar de \((*)\) a \((**)\) usamos que \(−2\Esp{X} \in \RR\) es constante, por lo que «sale multiplicando».

$\square$

La propiedad 5 nos otorga una manera alternativa de calcular la varianza de una v.a. que nos será muy útil más adelante, en especial cuando hayamos visto el tema de la entrada siguiente.

¿La varianza «abre» la suma? ¡No siempre!

Como una última «propiedad», vamos a demostrar que, en general, la varianza no es lineal respecto a la suma. Esto es, en general se tiene que

\begin{align*} \mathrm{Var}(X + Y) &\neq \mathrm{Var}(X) + \mathrm{Var}(Y) . \end{align*}

Para confirmarlo, veamos la siguiente proposición.


Proposición 1. Sean \(X\), \(Y\) variables aleatorias. Entonces se tiene que

\begin{align*} \mathrm{Var}({X + Y}) &= \mathrm{Var}({X}) + \mathrm{Var}({Y}) + 2\Esp{(X − \Esp{X})(Y − \Esp{Y})}.\end{align*}


Demostración. Podemos desarrollar la varianza de \(X + Y\) directamente para obtener el resultado:

\begin{align*} \mathrm{Var}(X + Y) &= \Esp{(X + Y − \Esp{X + Y})^{2}} \\[1em] &= \Esp{(X + Y − (\Esp{X} + \Esp{Y}))^{2}} \\[1em] &= \Esp{(X + Y − \Esp{X} − \Esp{Y})^{2}} \\[1em] &= \Esp{((X − \Esp{X}) + (Y − \Esp{Y}))^{2}} \\[1em] &= \Esp{(X − \Esp{X})^{2} − 2(X − \Esp{X})(Y − \Esp{Y}) + (Y − \Esp{Y})^{2}} \\[1em] &= \Esp{(X − \Esp{X})^{2}} + 2\Esp{(X − \Esp{X})(Y − \Esp{Y})} + \Esp{(Y − \Esp{Y})^{2}} \\[1em] &= \Esp{(X − \Esp{X})^{2}} + \Esp{(Y − \Esp{Y})^{2}} + 2\Esp{(X − \Esp{X})(Y − \Esp{Y})} \\[1em] &= \mathrm{Var}(X) + \mathrm{Var}(Y) + 2\Esp{(X − \Esp{X})(Y − \Esp{Y})}, \end{align*}

lo cual concluye la demostración.

\(\square\)

Con lo anterior, es evidente que no siempre \(\mathrm{Var}(X+Y) = \mathrm{Var}(X) + \mathrm{Var}(Y)\), pues hay muchas v.a.’s para las cuales el valor \(\Esp{(X − \Esp{X})(Y − \Esp{Y})}\) es distinto de \(0\). Sin embargo, un caso en el que sí se cumple que la varianza abre la suma es cuando \(X\) y \(Y\) son independientes. En tal caso, basta con demostrar que si \(X\) y \(Y\) son independientes, entonces

\begin{align*} \Esp{(X − \Esp{X})(Y − \Esp{Y})} &= 0. \end{align*}

De hecho, en el futuro verás que el valor \( \Esp{(X − \Esp{X})(Y − \Esp{Y})}\) es conocido como la covarianza entre \(X\) y \(Y\), que generalmente se denota con \(\mathrm{Cov}(X,Y)\), y busca cuantificar la relación que existe entre \(X\) y \(Y\). De este modo, el resultado de la Proposición 1 puede reescribirse como sigue:

\begin{align*} \mathrm{Var}({X + Y}) &= \mathrm{Var}({X}) + \mathrm{Var}({Y}) + 2\mathrm{Cov}(X,Y).\end{align*}

Compendio de propiedades de la varianza

Antes de terminar, incluimos una lista de las propiedades vistas (y demostradas) en esta entrada. Todas estarán disponibles para que las uses en tus tareas y exámenes, a menos que tu profesor o profesora indique lo contrario.


Propiedades de la Varianza. Sean \(X\) y \(Y\) variables aleatorias con varianza finita, y sea \(c\in\RR\). Entonces se cumplen las siguientes propiedades:

  1. La varianza es no-negativa: \begin{align*}\mathrm{Var}(X) \geq 0,\end{align*}
  2. La varianza de una constante es \(0\): \begin{align*}\mathrm{Var}(c) = 0,\end{align*}
  3. Es invariante ante traslaciones: \begin{align*}\mathrm{Var}(X+c) = \mathrm{Var}{X},\end{align*}
  4. Saca constantes multiplicando al cuadrado: \begin{align*}\mathrm{Var}(cX) = c^{2}\mathrm{Var}(X),\end{align*}
  5. Expresión alternativa para la varianza: \begin{align*}\mathrm{Var}(X) = \Esp{X^{2}} − {\left(\Esp{X}\right)}^{2},\end{align*}
  6. Varianza de la suma de dos v.a.’s:\begin{align*}\mathrm{Var}({X + Y}) &= \mathrm{Var}({X}) + \mathrm{Var}({Y}) + 2\Esp{(X − \Esp{X})(Y − \Esp{Y})}.\end{align*}

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Demuestra la Propiedad 1 de la varianza.
  2. Demuestra también la Propiedad 4 de la varianza.
  3. Usando la Proposición 1, demuestra que si \(X\) y \(Y\) son v.a.’s independientes, entonces\begin{align*} \mathrm{Var}({X + Y}) &= \mathrm{Var}({X}) + \mathrm{Var}({Y}). \end{align*}Sugerencia: En la entrada pasada vimos que cuando \(X\) y \(Y\) son independientes, \(\Esp{XY}\) se puede «abrir». Utilíza eso para ver que \(\Esp{(X − \Esp{X})(Y − \Esp{Y})} = 0\).

Más adelante…

Así como el valor esperado, la varianza es un concepto ubicuo en la probabilidad y la estadística. En conjunto, el valor esperado y la varianza son valores numéricos que resumen dos características del comportamiento de una variable aleatoria: la tendencia central y la variabilidad respecto a esa tendencia central. Por ello, incluso sin visualizar la densidad o masa de probabilidad de una v.a., estas cantidades pueden utilizarse para «darse una idea» de su aspecto y de su comportamiento.

En la entrada que sigue veremos un conjunto de valores asociados a la distribución de una variable aleatoria, conocidos como momentos.

Entradas relacionadas

Probabilidad I: Interacciones Entre Variables Aleatorias

Por Octavio Daniel Ríos García

Introducción

En esta entrada veremos una breve introducción a las interacciones básicas entre dos v.a.’s. En una entrada previa vimos cómo se interpretaban las operaciones con eventos, y después vimos algunos conceptos asociados a la interacción entre eventos, como es el caso de la definición de independencia. De manera similar, es razonable que definamos ciertos conceptos para describir el comportamiento probabilístico de dos variables aleatorias de manera conjunta.

Primero, un poco de notación

Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad y sean $X\colon\Omega\to\RR$, $Y\colon\Omega\to\RR$ dos variables aleatorias. Aquí estamos siendo muy explícitos con el hecho de que el dominio de ambas v.a.’s debe de ser el mismo. Esto es importante porque los eventos que involucran a $X$ y a $Y$ deben de ser elementos del mismo σ-álgebra. Además, las operaciones entre v.a.’s están bien definidas siempre y cuando estas tengan el mismo dominio, pues se definen puntualmente.

Primero, demos un poco de notación. Sean $A$ y $B \in \mathscr{B}(\RR)$. Para denotar la probabilidad del evento en el que $X \in A$ y $Y \in B$ se sigue la siguiente notación:

\begin{align*} \Prob{X \in A, Y \in B} &= \Prob{(X \in A)\cap(Y \in B)}. \end{align*}

Es decir, $(X \in A, Y \in B)$ es la notación para expresar el evento $(X \in A) \cap (Y \in B)$. Observa que este conjunto sí es un evento, pues $X$ y $Y$ son v.a.’s, así que tanto $(X \in A)$ como $(Y \in B)$ son elementos de $\mathscr{F}$, así que también su intersección lo es.

De este modo, podemos expresar muchas probabilidades de intersecciones de eventos de forma más compacta. Por ejemplo:

\begin{align*} \Prob{X = x, Y = y} &= \Prob{(X = x) \cap (Y = y)}, \\[1em] \Prob{X \leq x, Y \leq y} &= \Prob{(X \leq x) \cap (Y \leq y)}, \end{align*}

etcétera.

Independencia de variables aleatorias

En la Unidad 1 de este curso hablamos sobre la independencia de eventos. El paso que sigue ahora es definir la noción de independencia de variables aleatorias. De manera similar a los eventos, que $X$ y $Y$ sean variables aleatorias independientes significa que un evento que involucra a $X$ no afecta las probabilidades de $Y$. Por ello, la noción de independencia se dará en términos de eventos.


Definición 1. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad y sean $X\colon\Omega\to\RR$ y $Y\colon\Omega\to\RR$ variables aleatorias. Diremos que $X$ y $Y$ son independientes si y sólamente si para todo $A$, $B \in \mathscr{B}(\RR)$ se cumple

\begin{align*} \Prob{X \in A, X \in B} &= \Prob{X \in A} \Prob{X \in B}. \end{align*}


También es posible caracterizar la independencia de v.a.’s mediante sus funciones de distribución. Para ello, es necesario definir el concepto de función de distribución conjunta de dos v.a.’s. Esta se define como sigue:


Definición 2. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad y sean $X\colon\Omega\to\RR$ y $Y\colon\Omega\to\RR$ variables aleatorias. Se define la función de distribución conjunta de $X$ y $Y$, $F_{X,Y}\colon\RR^{2}\to\RR$, como sigue:

\begin{align*} F_{X,Y}(x,y) &= \Prob{X \leq x, Y \leq y}, & \text{para cada $(x,y) \in \RR^{2}$}. \end{align*}


Esta es una «generalización» multidimensional de la función de distribución de una variable aleatoria. Es decir, sabemos que \(\Prob{X \leq x}\) es la probabilidad de que la v.a. \(X\) tome un valor dentro del intervalo \((-\infty, x]\). De manera similar, \(\Prob{X \leq x, Y \leq y}\) es la probabilidad de que las v.a.’s \(X\) y \(Y\) tomen un valor dentro del intervalo \((-\infty, x]\) y \((-\infty, y]\), respectivamente. Esto es, si pensamos a \((X, Y)\) como un punto aleatorio en \(\RR^{2}\), entonces \(\Prob{X \leq x, Y \leq y}\) es la probabilidad de que \((X,Y)\) sea un punto dentro del rectángulo \((-\infty, x] \times (-\infty, y]\).

El siguiente teorema nos brinda un criterio de independencia más sencillo que el de la Definición 1:


Teorema 1. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad y sean $X\colon\Omega\to\RR$ y $Y\colon\Omega\to\RR$ variables aleatorias. Las siguientes proposiciones son equivalentes:

  1. $X$ y $Y$ son independientes.
  2. Para cualesquiera $x$, $y \in \RR$ se cumple \begin{align*} F_{XY}(x,y) &= F_{X}(x) F_{Y}(y). \end{align*}

Demostrar que 1. implica a 2. no es complicado, y lo dejamos como tarea moral. Por otro lado, demostrar 2. implica a 1. rebasa los contenidos de este curso, por lo que omitiremos esta parte de la demostración.

Este teorema hace más sencillo verificar si dos v.a.’s son independientes o no lo son. Primero, porque el trabajo se reduce a trabajar con las funciones de distribución. Además, a continuación veremos que es posible recuperar las funciones de probabilidad (masa y densidad) a partir de las funciones de probabilidad conjunta. Por ello, podremos verificar si dos v.a.’s son independientes comparando su distribución conjunta con el producto de sus distribuciones univariadas, gracias al Teorema 1.

Funciones de probabilidad conjunta para v.a.’s discretas

Al haber definido la función de distribución conjunta, se desprenden dos casos importantes: el caso discreto y el caso continuo. En el caso en el que $X$ y $Y$ son v.a.’s discretas, es posible definir la función de masa de probabilidad conjunta de $X$ y $Y$. Esta se define como sigue.


Definición 3. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad y sean $X\colon\Omega\to\RR$ y $Y\colon\Omega\to\RR$ v.a.’s discretas. Se define la función de masa de probabilidad conjunta de $X$ y $Y$, $p_{X,Y}\colon\RR^{2}\to\RR$ como sigue:

\begin{align*} p_{X,Y}(x, y) &= \Prob{X = x, Y = y}, & \text{para cada $(x,y) \in \RR^{2}$}. \end{align*}


Es decir, el valor $p_{X,Y}(x,y)$ es la probabilidad de que $X$ tome el valor $x$ y $Y$ tome el valor $y$. Ahora, antes de seguir, es recomendable que recuerdes el teorema de probabilidad total que vimos en una entrada previa. Sabemos que $Y[\Omega]$ es un conjunto a lo más infinito numerable, pues $Y$ es una v.a. discreta. Por ello, podemos ver a $Y[\Omega]$ como una unión numerable de conjuntos, donde cada uno de estos conjuntos tiene un único elemento. Es decir, tomamos los conjuntos $\{y\}$, para cada $y \in Y[\Omega]$, y los unimos a todos:

\begin{align*} Y[\Omega] &= \bigcup_{y \in Y[\Omega]} \{ y \}. \end{align*}

De este modo,

\begin{align*} Y^{-1}[Y[\Omega]] &= Y^{-1}{\left[\bigcup_{y \in Y[\Omega]} \{ y \} \right]} \\[1em] &= \bigcup_{y \in Y[\Omega]} Y^{-1}{\left[ \{ y \} \right]} \\[1em] &= \bigcup_{y \in Y[\Omega]} (Y = y). \tag{$\triangle$} \end{align*}

Observa que esta es una unión de conjuntos ajenos, pues para cada $y_{1}$, $y_{2} \in Y[\Omega]$ se cumple que si $y_{1} \neq y_{2}$, entonces $\{ y_{1} \} \cap \{ y_{2} \} = \emptyset$. Además,

\begin{align*} Y^{-1}[ \{ y_{1} \} \cap \{ y_{2} \} ] &= Y^{-1}[ \{ y_{1} \}] \cap Y^{-1}[\{ y_{2} \} ], \tag{$*$} \\[1em] Y^{-1}[ { y_{1} } \cap { y_{2} } ] &= Y^{-1}[\emptyset] = \emptyset, \tag{$**$}\end{align*}

así que por $(*)$ y $(**)$ podemos concluir que $Y^{-1}[\{ y_{1} ] \cap Y^{-1}[ \{ y_{2} \} ] = \emptyset$. Por lo tanto, la unión

\begin{align*} \bigcup_{y \in Y[\Omega]} (Y = y) \end{align*}

es una unión de eventos ajenos. Además, por propiedades de la imagen inversa, sabemos que

\begin{align*} \Omega \subseteq Y^{-1}[Y[\Omega]]. \end{align*}

Por otro lado, como el dominio de $Y$ es $\Omega$, también sabemos que $Y^{-1}[Y[\Omega]] \subseteq \Omega$, así que $\Omega = Y^{-1}[Y[\Omega]]$. Finalmente, por $(\triangle)$ se tiene que

\begin{align*} \Omega &= \bigcup_{y \in Y[\Omega]} (Y = y). \end{align*}

Es decir, $\{ \, (Y = y) \mid y \in Y[\Omega] \,\}$ forma una partición de $\Omega$. Sea $x \in X[\Omega]$. Como lo anterior nos da una partición de $\Omega$, podemos aplicar el teorema de probabilidad total para obtener que

\begin{align*} \Prob{X = x} &= \sum_{y \in Y[\Omega]} \Prob{X = x, Y = y}. \end{align*}

Análogamente, para cada $y \in Y[\Omega]$ se tiene que

\begin{align*} \Prob{Y = y} &= \sum_{x \in X[\Omega]} \Prob{X = x, Y = y}. \end{align*}

En términos de las funciones de masa de probabilidad, lo anterior quiere decir que podemos recuperar la masa de probabilidad de $X$ y de $Y$ a partir de la función de masa de probabilidad conjunta, como sigue:

\begin{align*} p_{X}(x) &= \sum_{y \in Y[\Omega]} p_{X,Y}(x, y) & \text{para cada $x \in X[\Omega]$}, \\[1em] p_{Y}(y) &= \sum_{x \in X[\Omega]} p_{X,Y}(x, y) & \text{para cada $y \in Y[\Omega]$}. \end{align*}

Este procedimiento de obtener la función de masa de probabilidad de una v.a. a partir de la masa de probabilidad conjunta se conoce como marginalización, y las funciones resultantes son conocidas como las funciones de masa de probabilidad marginales.

Ejemplo 1. Sean $X$ y $Y$ dos v.a.’s discretas con función de masa de probabilidad conjunta $p_{X,Y}\colon\RR^{2}\to\RR$ dada por:

\begin{align*} p_{X,Y} &= \begin{cases} 0.05 & \text{si $(x, y) = (0,3)$ o $(x,y) = (1,1)$ o $(x, y) = (2,4)$}, \\[1em] 0.1 & \text{si $(x,y)=(0,2)$ o $(x,y) = (1,3)$ o $(x,y) = (2,1)$}, \\[1em] 0.15 & \text{si $(x,y) = (2,2)$}, \\[1em] 0.2 & \text{si $(x,y) = (0,1)$ o $(x,y) = (1,4)$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Una buena manera de organizar la información contenida en esta función es mediante una tabla como la siguiente:

Valores posibles de $X$
012
Valores posibles de $Y$10.20.050.1
20.100.15
30.050.10
400.20.05

De este modo, $\Prob{X = 0, Y = 1} = 0.2$, y $\Prob{X=0, Y =3} = 0.05$. A partir de las probabilidades de la tabla podemos calcular la función de masa de probabilidad de $X$, $p_{X}\colon\RR\to\RR$. Para ello, simplemente debemos de marginalizar sobre cada uno de los valores que toma $X$. De este modo, obtenemos que

\begin{align*} p_{X}(0) &= p_{X,Y}(0,1) + p_{X,Y}(0,2) + p_{X,Y}(0,3) + p_{X,Y}(0,4) = 0.2 + 0.1 + 0.05 + 0 = 0.35, \\[1em] p_{X}(1) &= p_{X,Y}(1,1) + p_{X,Y}(1,2) + p_{X,Y}(1,3) + p_{X,Y}(1,4) = 0.05 + 0 + 0.1 + 0.2 = 0.35, \\[1em] p_{X}(2) &= p_{X,Y}(2,1) + p_{X,Y}(2,2) + p_{X,Y}(2,3) + p_{X,Y}(2,4) = 0.1 + 0.15 + 0 + 0.05 = 0.3, \end{align*}

por lo que la función de masa de probabilidad de $X$ nos queda

\begin{align*} p_{X}(x) &= \begin{cases} 0.35 & \text{si $x = 0$ o $x = 1$}, \\[1em] 0.3 & \text{si $x = 2$}. \end{cases} \end{align*}

Sin embargo, observa que el uso de una tabla sólo tiene sentido si $X[\Omega]$ y $Y[\Omega]$ son conjuntos finitos. De otro modo, sería una «tabla» infinita, y nunca acabaríamos de escribirla…

Independencia en el caso discreto

Una consecuencia (casi inmediata) del Teorema 1 es el siguiente criterio de independencia para v.a.’s discretas.


Proposición 1. Sean \(X\), \(Y\) variables aleatorias. Si \(X\) y \(Y\) son discretas, entonces \(X\) y \(Y\) son independientes si y sólamente si

\begin{align*} \Prob{X = x, Y = y} &= \Prob{X = x} \Prob{Y = y}, & \text{para cualesquiera \(x,y \in \RR\).} \end{align*}


Por ejemplo, retomemos las v.a.’s del Ejemplo 1. Sumando los valores en el renglón donde \(Y = 1\), obtenemos que

\begin{align*} \Prob{Y = 1} = 0.35, \end{align*}

y nosotros calculamos que \(\Prob{X = 1} = 0.35\). En consecuencia,

\begin{align} \label{eq:prod} \Prob{X = 1}\Prob{Y = 1} &= 0.1225.\end{align}

Sin embargo, de acuerdo con la tabla, \(\Prob{X = 1, Y = 1} = 0.05\), que no coincide con el valor en \eqref{eq:prod}. Por ello, podemos concluir que las v.a.’s del Ejemplo 1 no son independientes.

Función de densidad conjunta para v.a.’s continuas

Como de costumbre, el caso para las v.a.’s continuas es distinto. En este caso, lo que tendremos es una función de densidad conjunta, que juega el mismo papel que una función de densidad univariada, pero para \(2\) v.a.’s conjuntamente. Esto da lugar a la siguiente definición.


Definición. Sean \(X\) y \(Y\) v.a.’s continuas, y \(F_{X,Y}\colon\RR^{2}\to\RR\) su función de distribución conjunta. Entonces \(F_{X,Y}\) puede expresarse como sigue:

\begin{align*} F_{X,Y}(x,y) &= \int_{-\infty}^{x}\int_{-\infty}^{y} f_{X,Y}(u,v) \, \mathrm{d}v \, \mathrm{d}u, & \text{para cada \((x, y) \in \RR^{2}\).} \end{align*}

De este modo, \(f_{X,Y}\colon\RR^{2}\to\RR\) es llamada la función de densidad conjunta de \(X\) y \(Y\).


De igual forma que con las función de distribución conjunta, la función de densidad conjunta es una generalización multivariada de la función de densidad. Además, también existen técnicas de marginalización que son análogas al caso discreto. Primero, recuerda que integrar la función de densidad sobre un intervalo es nuestra forma de sumar continuamente las probabilidades de cada punto en el intervalo. Esto es:

\begin{align*} \Prob{X \in (a,b]} &= \int_{a}^{b} f_{X}(x) \, \mathrm{d}x. \end{align*}

Si tomamos la idea del teorema de probabilidad total, pero integramos sobre todo el conjunto de valores de una de las v.a.’s (en vez de sumar, como hicimos en el caso discreto), podemos expresar la función de densidad marginal de \(X\) como

\begin{align*} f_{X}(x) &= \int_{-\infty}^{\infty} f_{X,Y}(x, y) \, \mathrm{d}y, & \text{para cada \(x\in\RR\).}\end{align*}

Es decir, integramos sobre todo el dominio de la v.a. que queremos quitar, que en este caso es \(Y\). Análogamente, para \(Y\) se tiene que

\begin{align*} f_{Y}(y) &= \int_{-\infty}^{\infty} f_{X,Y}(x, y) \, \mathrm{d}x, & \text{para cada \(y\in\RR\).}\end{align*}

Este es el proceso de marginalización para el caso continuo. Observa que las funciones resultantes son las funciones de densidad marginales. Como tal, los valores que toman estas funciones no son probabilidades, por lo que la marginalización es más sutil que en el caso discreto (ya que el teorema de probabilidad total se usa para probabilidades, y para particiones a lo más numerables).

Ejemplo 2. Sean \(X\) y \(Y\) dos v.a.’s tales que su función de densidad conjunta es \(f_{X,Y}\) dada por

\begin{align*} f_{X,Y}(x,y) &= \begin{cases} y{\left( \dfrac{1}{2} − x\right)} + x &\text{si \(x \in (0,1)\) y \(y \in (0,2)\),} \\[1em] 0 & \text{en otro caso.}\end{cases}\end{align*}

La gráfica de esta función se ve como sigue:

Gráfica de la densidad conjunta de 'X' y 'Y'.
Figura. Gráfica de la función de densidad conjunta de \(X\) y \(Y\). Como el dominio de \(f_{X,Y}\) es \(\RR^{2}\), la gráfica de esta función es un lugar geométrico en \(\RR^{3}\).

Sin embargo, hay un detallito que quizás tengas en la cabeza: ¿cómo se interpreta que esta función sea «de densidad», en un sentido vibariado? A grandes rasgos, debe de cumplir lo mismo que una función de densidad univariada. En particular, el valor de la integral sobre su dominio debe de ser \(1\). En este caso, esto significa que se debe de cumplir que

\begin{align*} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, \mathrm{d}x \, \mathrm{d}y &= 1. \end{align*}

Como muy probablemente no conoces métodos (ni teoría) de integración bivariada, simplemente te diremos que \(f_{X,Y}\) sí es una función de densidad bivariada, y que sí cumple la condición anterior.

Por otro lado, algo que podemos hacer con los conocimientos que posees hasta ahora es obtener las marginales. Obtengamos la densidad marginal de \(X\), para lo cual hay que integrar \(f_{X,Y}\) sobre todo el dominio de \(Y\):

\begin{align*} \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, \mathrm{d}y &= \int_{0}^{2} {\left[ y{\left( \dfrac{1}{2} − x\right)} + x \right]} \, \mathrm{d}y, \end{align*}

en donde \(x \in (0,1)\), pues es donde la densidad conjunta no vale \(0\). Como esta integral es con respecto a \(y\), podemos pensar que \(x\) es una constante respecto a la variable de integración. Por ello, la integral anterior puede resolverse de manera directa con herramientas de Cálculo II:

\begin{align*} \int_{0}^{2} {\left[ y{\left( \dfrac{1}{2} − x\right)} + x \right]} \, \mathrm{d}y &= \int_{0}^{2} {\left( \dfrac{1}{2} − x\right)}y \, \mathrm{d}y + \int_{0}^{2} x \mathrm{d}y \\[1em] &= {\left( \dfrac{1}{2} − x\right)} \int_{0}^{2} y \, \mathrm{d}y + x \int_{0}^{2} 1 \, \mathrm{d}y \\[1em] &= {\left(\frac{1}{2} − x\right)}{\left( \frac{y^{2}}{2} \right)}\Bigg|_{y=0}^{2} + x(2 − 0) \\[1em] &= {\left(\frac{1}{2} − x\right)} {\left( \frac{4 − 0}{2} \right)} + 2x \\[1em] &= 2{\left( \frac{1}{2} − x \right)} + 2x \\[1em] &= 1 + 2x − 2x \\[1em] &= 1, \end{align*}

para cada \(x \in (0,1)\). En consecuencia, la densidad marginal de \(X\) es \(f_{X}\) dada por

\begin{align*} f_{X}(x) &= \begin{cases} 1 & \text{si \(x \in (0,1)\),} \\[1em] 0 & \text{en otro caso.} \end{cases} \end{align*}

Así, llegamos a que \(X\) sigue una distribución uniforme en el intervalo \((0,1)\).


Independencia en el caso continuo

De manera similar al caso discreto, además del criterio dado por el Teorema 1, podemos dar la siguiente criterio de independencia para dos v.a.’s continuas.


Proposición 2. Sean \(X\), \(Y\) variables aleatorias. Si \(X\) y \(Y\) son continuas, entonces \(X\) y \(Y\) son independientes si y sólamente si

\begin{align*} f_{X,Y}(x,y) &= f_{X}(x) f_{Y}(y), & \text{para cualesquiera \(x,y \in \RR\),} \end{align*}

donde \(f_{X,Y}\) es la función de densidad conjunta de \(X\) y \(Y\), y \(f_{X}\) y \(f_{Y}\) son las funciones de densidad marginales.


Es decir, dos v.a.’s continuas son independientes si su función de densidad conjunta es el producto de sus funciones de densidad (marginales).

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Demuestra que 1. implica a 2. en el Teorema 1.
  2. En el Ejemplo 1:
    1. Verifica que la función $p_{X}\colon\RR\to\RR$ que obtuvimos es una función de masa de probabilidad.
    2. Encuentra $p_{Y}\colon\RR\to\RR$, la función de masa de probabilidad de $Y$.
  3. En el Ejemplo 2:
    1. Encuentra la función de densidad marginal de \(Y\).
    2. ¿Son independientes \(X\) y \(Y\)?

Más adelante…

Usaremos los temas que vimos en esta entrada en la próxima entrada, ya que serán necesarios algunos detallitos de probabilidad multivariada para entender las propiedades del valor esperado que veremos a continuación. Por el momento sólo es importante que sepas que existen estos temas de probabilidad multivariada, y entiendas lo que significan los conceptos vistos en esta entrada.

En un curso de Probabilidad II verás con muchísimo detalle los temas que presentamos en esta entrada, así que no te preocupes si los temas que vimos aquí no te quedaron completamente claros.

Entradas relacionadas

Probabilidad I: Propiedades del Valor Esperado

Por Octavio Daniel Ríos García

Introducción

Continuando con lo visto en la entrada anterior, en esta entrada presentaremos algunas propiedades fundamentales del valor esperado. Lo primero que veremos será el valor esperado de una constante, que será una propiedad muy básica pero de uso muy frecuente en la teoría que veremos.

Por otro lado, veremos un teorema muy importante desde los puntos de vista teórico y práctico, conocido como la ley del estadístico inconsciente. A grandes rasgos, este teorema hará posible obtener el valor esperado de \(g(X)\), donde \(X\) es una v.a. y \(g\) es una función.

Valor esperado de una función constante

La primera propiedad importante es que el valor esperado de una constante es la constante misma. Esto tiene sentido, pues si una v.a. toma un único valor $a \in \RR$, entonces se espera que su promedio a la larga sea $a$.


Propiedad. Sea $a \in \RR$ y $f_{a}\colon\Omega\to\RR$ la función constante $a$, de tal modo que $f_{a}(\omega) = a$ para cada $\omega \in \Omega$. Entonces se tiene que

\begin{align*} \Esp{f_{a}} &= a. \end{align*}

Abusando un poco de la notación, lo anterior significa que para cualquier valor constante $a \in \RR$ se cumple que $\Esp{a} = a$.


Demostración. Sea $a \in \RR$ y sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Se define la función constante $a$ $f_{a}\colon\Omega\to\RR$ como sigue: para cada $\omega\in\Omega$, $f_{a}(\omega) = a$. Se sigue inmediatamente que $f_{a}[\Omega] = \{ a \}$, por lo que $f_{a}$ es una v.a. discreta. De este modo,

\begin{align*} \Esp{f_{a}} &= \sum_{x\in f_{a}[\Omega]} x \Prob{f_{a} = x} \\[1em] &= \sum_{x\in\{a\}} x \Prob{f_{a} = x} \\[1em] &= a \Prob{f_{a} = a} \end{align*}

Ahora, como $f_{a}[\Omega] = \{ a \}$, entonces $f_{a}^{-1}[f_{a}[\Omega]] = f_{a}^{-1}[\{a\}]$, por lo que $\Omega = f_{a}^{-1}[\{ a \}]$. En consecuencia, se tiene que $(f_{a} = a) = \Omega$. Así, llegamos a que

\begin{align*} a \Prob{f_{a} = a} &= a \Prob{ \Omega } = a \cdot 1 = a, \end{align*}

por lo que podemos concluir que

\begin{align*} \Esp{f_{a}} &= a, \end{align*}

que es justamente lo que queríamos demostrar.

$\square$

Valor esperado de la transformación de una v.a.

Otra propiedad importante del valor esperado surge cuando queremos calcular el valor esperado de la transformación de una v.a. Para hacerlo, aparentemente necesitaríamos obtener la densidad o la masa de probabilidad de la transformación para luego calcular su valor esperado. Afortunadamente, esto no será necesario.

Si $X\colon\Omega\to\RR$ es una v.a. y $g\colon\RR\to\RR$ es una función tal que $g(X)$ es una v.a., hay que recordar que la distribución de $g(X)$ puede obtenerse en términos de la de $X$, por lo que el comportamiento probabilístico de $g(X)$ puede expresarse en términos del de $X$. Debido a esto, ¡también el valor esperado de $g(X)$ puede obtenerse usando la densidad o la masa de probabilidad de $X$!

La ley del estadístico inconsciente

De acuerdo con la discusión anterior, presentamos un teorema que posibilita el cálculo del valor esperado de una v.a. $g(X)$ conociendo únicamente la densidad de $X$. Este resultado es conocido como la ley del estadístico inconsciente. ¡Advertencia! La teoría con la que contamos hasta el momento hace necesario dividir la demostración en dos casos: uno para v.a.’s discretas y otro para v.a.’s continuas. En particular, la demostración para el caso discreto es clara y puedes centrar tu atención en ella, ya que te puede brindar una intuición firme de lo que pasa también en el caso continuo. Por el contrario, la demostración del caso continuo es un poco más técnica, e incluso requiere el uso de herramientas que quizás no hayas visto hasta ahora. Durante la demostración te comentaremos cuáles son estas herramientas, y las materias posteriores de la carrera en donde posiblemente las veas.


Teorema. Sea $X\colon\Omega\to\RR$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible.

  1. Si $X$ es una v.a. discreta, entonces \begin{align*} \Esp{g(X)} &= \sum_{x \in X[\Omega]} g(x) \Prob{X = x}, \end{align*}siempre que esta suma sea absolutamente convergente.
  2. Si $X$ y $g(X)$ son v.a.’s continuas, entonces \begin{align*} \Esp{g(X)} &= \int_{-\infty}^{\infty} g(x) f_{X}(x) \, \mathrm{d}x, \end{align*} siempre que esta integral sea absolutamente convergente, y donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$.

Demostración. 1. El caso discreto sirve para ilustrar la intuición, pues para cada $x \in X[\Omega]$ se tiene que $g(x) \in (g \circ X)[\Omega]$. Además, ya sabemos que para cada $y \in (g \circ X)[\Omega]$ se cumple que

\begin{align*} \Prob{g(X) = y} &= \Prob{X \in g^{-1}[\{ y \}]} = \sum_{x \in g^{-1}[\{y\}]} \Prob{X = x} \end{align*}

por lo que el valor esperado de $g(X)$ cumple que

\begin{align*} \Esp{g(X)} = \sum_{y \in (g \circ X)[\Omega]} y \Prob{g(X) = y} &= \sum_{y \in (g \circ X)[\Omega]} y \Prob{X \in g^{-1}[\{ y \}]} \\[1em] &= \sum_{y \in (g \circ X)[\Omega]} y {\left( \sum_{x \in g^{-1}[\{y\}]} \Prob{X = x} \right)} \\[1em] &= \sum_{y \in (g \circ X)[\Omega]} \sum_{x \in g^{-1}[\{y\}]} y \Prob{X = x}, \end{align*}

y como $x \in g^{-1}[\{y \}]$ si y sólamente si $g(x) = y$, se sigue que

\begin{align*} \sum_{y \in (g \circ X)[\Omega]} \sum_{x \in g^{-1}[\{y\}]} y \Prob{X = x} &= \sum_{y \in (g \circ X)[\Omega]} \sum_{x \in g^{-1}[\{y\}]} g(x) \Prob{X = x}. \end{align*}

Ahora, observa que de acuerdo con la suma sobre $y$, por cada $y \in (g \circ X)[\Omega]$ hay un sumando que tiene la forma

\[ \sum_{x \in g^{-1}[\{y\}]} g(x) \Prob{X = x}, \]

y cada uno de estos términos es una suma que corre sobre $x$, donde $x \in g^{-1}[\{ y \}]$. Es decir, estamos sumando sobre todos los $y \in (g \circ X)[\Omega]$, y en cada $y$ tomamos la suma sobre todos los $x \in g^{-1}[\{y \}]$. Esto quiere decir que podemos mover a $x$ sobre la unión de todos los $g^{-1}[\{y\}]$, y prescindir de la suma sobre $y$. Esto es,

\begin{align*} \bigcup_{y \in (g \circ X)[\Omega]} g^{-1}[\{y\}] &= g^{-1}{\left[ \bigcup_{y \in (g \circ X)[\Omega]} \{y\} \right]} \\[1em] &= g^{-1}[(g \circ X)[\Omega]] \\[1em] &= g^{-1}[g[X[\Omega]]], \end{align*}

y por propiedades de la imagen inversa, se tiene que $X[\Omega] \subseteq g^{-1}[g[X[\Omega]]]$. Ahora bien, los $x$ que aparecen en la suma son únicamente aquellos que están en $X[\Omega]$, pues de lo contrario son valores que no toma la v.a. $X$. En consecuencia, la suma se puede reducir a

\begin{align*} \sum_{y \in (g \circ X)[\Omega]} \sum_{x \in g^{-1}[\{y\}]} g(x) \Prob{X = x} &= \sum_{x\in X[\Omega]} g(x) \Prob{X = x}, \end{align*}

y así podemos concluir que

\begin{align*} \Esp{g(X)} &= \sum_{x \in X[\Omega]} g(x) \Prob{X = x}, \end{align*}

que es justamente lo que queríamos demostrar. Intuitivamente, esta última igualdad hace sentido, pues $g(X)$ toma el valor $g(x)$ cuando $X$ toma el valor $x$, y el evento en el que eso ocurre tiene probabilidad $\Prob{X = x}$.

La demostración del caso 2. es menos ilustrativa. Cuando $X$ y $g(X)$ son v.a.’s continuas, será necesario hacer una «doble integral», algo con lo que quizás no te hayas encontrado hasta ahora. Esto es algo que (por desgracia) haremos en algunas demostraciones del valor esperado.

Primero, demostraremos el siguiente lema:


Lema. Si $X\colon\Omega\to\RR$ es una v.a. continua tal que para todo $\omega\in\Omega$ se cumple que $X(\omega) \geq 0$ (es decir, $X$ es una v.a. no-negativa), entonces

\begin{align*} \Esp{X} &= \int_{0}^{\infty} [1 − F_{X}(x)] \, \mathrm{d}x, \end{align*}

donde $F_{X}\colon\RR\to\RR$ es la función de distribución de $X$.


Demostración. Sea $D \subseteq \RR^{2}$ el siguiente conjunto:

\begin{align*} D &= \{ \, (x,y) \in \RR^{2} \mid x > y \, \}. \end{align*}

Sea $\mathbf{1}_{D}\colon\RR^{2}\to\RR$ la función dada por

\begin{align*} \mathbf{1}_{D}(x,y) &= \begin{cases} 1 & \text{si $(x,y) \in D$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Es decir, $\mathbf{1}_{D}(x,y)$ vale $1$ si $(x,y) \in D$, es decir, vale $1$ si $x$ es mayor a $y$; y vale $0$ en caso contrario. Una función de este tipo es conocida como una función indicadora. Ahora, observa que para cualquier $x \in [0, \infty)$ se cumple que

\begin{align*} x &= \int_{0}^{x} 1 \, \mathrm{d}t, \tag{$*$}\end{align*}

pues la integral devuelve como resultado la longitud del intervalo $(0, x)$, que está bien definido, ya que $x \geq 0$. Dicha longitud es precisamente $x − 0 = x$, por lo que la igualdad $(*)$ es verdadera. Ahora, observa que $\mathbf{1}_{D}(x, t) = 1$ si y sólamente si $x > t$, o equivalentemente, si $t \in (-\infty, x)$. Así, tenemos que

\begin{align*} \int_{0}^{x} 1 \, \mathrm{d}t &= \int_{0}^{\infty} \mathbf{1}_{D}(x, t) \, \mathrm{d}t, \end{align*}

pues para $t \in (0, \infty)$, $\mathbf{1}_{D}(x, t) = 1$ sobre $(0, x)$, y es $0$ en otro caso. En conclusión, para cualquier $x \in [0, \infty)$ se cumple que

\begin{align}\label{id:integral} x &= \int_{0}^{\infty} \mathbf{1}_{D}(x, t) \, \mathrm{d}t. \end{align}

Usaremos esta «mañosa» identidad en el valor esperado de $X$. Primero, observa que $X$ es una v.a. no-negativa, así que $f_{X}(x) = 0$ para $x < 0$. En consecuencia, tenemos que

\begin{align*} \Esp{X} &= \int_{-\infty}^{\infty} x f_{X}(x) \, \mathrm{d}x = \int_{0}^{\infty} x f_{X}(x) \, \mathrm{d}x. \end{align*}

Usando la identidad \eqref{id:integral}, obtenemos que

\begin{align*} \int_{0}^{\infty} x f_{X}(x) \, \mathrm{d}x &= \int_{0}^{\infty}{\left( \int_{0}^{\infty} \mathbf{1}_{D}(x, t) \, \mathrm{d}t \right)} f_{X}(x) \, \mathrm{d}x = \int_{0}^{\infty}\int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}t \, \mathrm{d}x. \end{align*}

Observa que «metimos» a $f_{X}(x)$ dentro de la integral respecto a $t$ debido a que es una constante con respecto a $t$ (únicamente depende de $x$). La trampa que vamos a hacer es cambiar el orden de integración. Esto NO siempre se puede hacer, y la validez de este paso está dada por el teorema de Fubini, que verás en Cálculo Diferencial e Integral IV. Intercambiando el orden de integración, se tiene que

\begin{align*} \int_{0}^{\infty}\int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}t \, \mathrm{d}x &= \int_{0}^{\infty}\int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}x \, \mathrm{d}t \end{align*}

Ahora, observa que, para cada $x \in (0, \infty)$, $\mathbf{1}_{D}(x, t) = 1$ si y sólamente si $x > t$, o equivalentemente, si $x \in (t, \infty)$. En consecuencia,

\begin{align*} \int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}x &= \int_{t}^{\infty} f_{X}(x) \, \mathrm{d}x = \Prob{ X > t } = 1 − F_{X}(t). \end{align*}

Por lo tanto,

\begin{align*}\int_{0}^{\infty}\int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}x \, \mathrm{d}t &= \int_{0}^{\infty} [1 − F_{X}(t)] \, \mathrm{d}t, \end{align*}

que nos permite concluir que

\begin{align*} \Esp{X} &= \int_{0}^{\infty} [1 − F_{X}(t)] \, \mathrm{d}t, \end{align*}

que es justamente lo que queríamos demostrar.

$\square$

Con este lema podemos demostrar el caso 2. del teorema. Lo que haremos será presentar el caso en el que $g$ es una función no-negativa. De esta manera, $g(X)$ es una v.a. que toma valores no-negativos, y podemos aplicarle el lema. Así, tenemos que

\begin{align*} \Esp{g(X)} &= \int_{0}^{\infty} [1 − F_{X}(x)] \, \mathrm{d}x = \int_{0}^{\infty} \Prob{g(X) > x} \, \mathrm{d}x \end{align*}

Ahora, recuerda que \begin{align*} (g(X) > x) = (g \circ X)^{-1}[(x, \infty)] = X^{-1}[g^{-1}[(x,\infty)]] = (X \in g^{-1}[(x, \infty)], \end{align*} por lo que $\Prob{g(X) > x} = \Prob{X \in g^{-1}[(x, \infty)]}$. Por lo tanto,

\begin{align*} \int_{0}^{\infty} \Prob{g(X) > x} \, \mathrm{d}x &= \int_{0}^{\infty} {\left( \int_{g^{-1}[(x,\infty)]} f_{X}(t) \, \mathrm{d}t \right) } \, \mathrm{d}x \end{align*}

donde la integral de adentro se toma sobre $g^{-1}[(x, \infty)]$, pues esto nos devuelve el valor $\Prob{X \in g^{-1}[(x, \infty)]}$. Nuevamente haremos trampa y cambiaremos el orden de integración. Un detalle adicional es que al cambiar el orden de integración, también cambian los dominios de integración.

\begin{align*} \int_{0}^{\infty} \int_{g^{-1}[(x,\infty)]} f_{X}(t) \, \mathrm{d}t \, \mathrm{d}x &= \int_{g^{-1}[(0,\infty)]} \int_{0}^{g(t)} f_{X}(t) \, \mathrm{d}x \, \mathrm{d}t \end{align*}

Finalmente, como $f_{X}(t)$ es constante respecto a $x$, puede salir como constante de la integral de adentro, y además

\begin{align*} \int_{0}^{g(t)} 1 \, \mathrm{d}x &= g(t) − 0 = g(t), \end{align*}

por lo que

\begin{align*} \int_{g^{-1}[(0,\infty)]} \int_{0}^{g(t)} f_{X}(t) \, \mathrm{d}x \, \mathrm{d}t &= \int_{g^{-1}[(0,\infty)]} {\left(\int_{0}^{g(t)} 1 \, \mathrm{d}x \right)} f_{X}(t) \, \mathrm{d}t \\[1em] &= \int_{g^{-1}[(0,\infty)]} g(t) f_{X}(t) \, \mathrm{d}t, \\[1em] &= \int_{-\infty}^{\infty} g(t) f_{X}(t) \, \mathrm{d}t,\end{align*}

donde $g^{-1}[(0,\infty)] = \RR$ porque $g$ es una función no-negativa. Así, finalmente podemos concluir que

\begin{align*} \Esp{g(X)} &= \int_{-\infty}^{\infty} g(t) f_{X}(t) \, \mathrm{d}t, \end{align*}

que es justo lo que queríamos demostrar.

$\square$

Como comentamos anteriormente, el teorema que acabamos de demostrar es conocido como la ley del estadístico inconsciente. De acuerdo con Sheldon M. Ross, en su libro Introduction to Probability Models (1980, 1a Ed.) «Esta ley recibió su nombre por los estadísticos ‘inconscientes’ que la han utilizado como si fuese la definición de $\Esp{g(X)}$».

Figura. Extracto del libro Statistical Inference, de George Casella y Roger Berger (2001, 2a Ed.), en el que los autores expresan su descontento por el nombre de este teorema.

Independientemente de esto, la ley del estadístico inconsciente es un resultado muy importante, y la utilizaremos mucho de aquí en adelante.

Ejemplos del uso de la ley del estadístico inconsciente

Ejemplo 1. Sea \(U\) una v.a. con función de densidad \(f_{U}\) dada por

\begin{align*} f_{U}(u) &= \begin{cases} \lambda e ^{ − \lambda x} & \text{si \(x > 0\),} \\[1em] 0 & \text{en otro caso,} \end{cases} \end{align*}

con \(\lambda > 1\). Obtengamos el valor esperado de \(e^{U}\). Para ello, usemos la ley del estadístico inconsciente:

\begin{align*} \Esp{U} &= \int_{0}^{\infty} e^{u} \lambda e^{-\lambda u} \, \mathrm{d}u \\[1em] &= \int_{0}^{\infty} \lambda e^{-\lambda u + u} \, \mathrm{d}u\\[1em] &= \lambda \int_{0}^{\infty} e^{(1 − \lambda)u} \, \mathrm{d}u.\end{align*}

Para resolver esta integral, observa que se trata de una integral casi inmediata, únicamente le falta el factor \(1 − \lambda\), por lo que multiplicamos por \(1\):

\begin{align*} \lambda \int_{0}^{\infty} e^{(1 − \lambda)u} \, \mathrm{d}u &= \lambda \int_{0}^{\infty} {\left(\frac{ 1 − \lambda }{ 1 − \lambda }\right)}e^{(1 − \lambda)u} \, \mathrm{d}u \\[1em] &= \frac{\lambda}{1 − \lambda} \int_{0}^{\infty} ( 1 − \lambda)e^{( 1 − \lambda )u} \, \mathrm{d}u \\[1em] &= \frac{\lambda}{1 − \lambda} {\left( e^{( 1 − \lambda )u} \right)} \Bigg|_{u=0}^{\infty} \\[1em] &= \frac{\lambda}{1 − \lambda} {\left( 0 − 1 \right)} \\[1em] \frac{\lambda}{1 − \lambda} {\left(− 1 \right)} \\[1em] &= \frac{\lambda}{\lambda − 1}, \end{align*}

así que concluimos que

\begin{align*} \Esp{e^{U}} = \frac{\lambda}{\lambda − 1}. \end{align*}


Ejemplo 2. Sea \(N\) una variable aleatoria con función de masa de probabilidad (f.m.p.) \(f_{N}\) dada por

\begin{align*} f_{N}(n) &= \begin{cases} (1 − p)^{n}p & \text{si \(n \in \mathbb{N}\),} \\[1em] 0 & \text{en otro caso,} \end{cases}\end{align*}

con \(p \in (0,1)\). Obtengamos el valor esperado de \(N^{2}\). Por la ley del estadístico inconsciente, tenemos que

\begin{align} \label{eq:serie1} \Esp{N^{2}} &= \sum_{n=0}^{\infty} n^{2} (1 − p)^{n}p. \end{align}

Como usualmente pasa con los valores esperados de v.a.’s que toman el valor \(0\), el primer término de la serie \eqref{eq:serie1} es \(0\), así que la igualdad anterior pasa a ser

\begin{align*} \Esp{N^{2}} &= \sum_{n=1}^{\infty} n^{2} (1 − p)^{n}p. \end{align*}

Para obtener el valor de la serie anterior, vamos a utilizar una expresión equivalente basada en la siguiente identidad: sea \(n\in\mathbb{N}^{+}\), entonces se cumple que

\begin{align} \label{eq:identidad} n^{2} − (n − 1)^{2} &= 2n − 1. \end{align}

Ahora, observa con atención las siguientes dos series.

\begin{align} \label{eq:serie2} \Esp{N^{2}} &= \sum_{n=1}^{\infty} n^{2} (1 − p)^{n}p = (1 − p)p + 4(1 − p)^{2}p + 9 (1 − p)^{3}p + \cdots \\[1em] \label{eq:serie3} (1 − p)\Esp{N^{2}} &= \sum_{n=1}^{\infty} n^{2} (1 − p)^{n+1}p = (1 − p)^{2}p + 4 (1 − p)^{3}p + 9 (1 − p)^{4}p + \cdots \end{align}

Es decir, multiplicar la serie \eqref{eq:serie2} por \( (1 − p)\) nos da la \eqref{eq:serie3}, que simplemente «desplaza» el índice por \(1\). Por ello, se tiene que

\begin{align*} \Esp{N^{2}} − (1 − p)\Esp{N^{2}} &= (1 − p)p + 3 (1 − p)^{2}p + 5 (1 − p)^{3}p + \cdots = \sum_{n=1}^{\infty} (n^{2} − (n − 1)^{2})(1 − p)^{n}p, \end{align*}

donde tal vez alcances a notar cómo se usará la identidad \eqref{eq:identidad}. En efecto, por esta identidad tenemos que

\begin{align*} \Esp{N^{2}} − (1 − p)\Esp{N^{2}} &= \sum_{n=1}^{\infty} (n^{2} − (n − 1)^{2})(1 − p)^{n}p = \sum_{n=1}^{\infty} (2n − 1)(1 − p)^{n}p \end{align*}

Además, nota que \(\Esp{N^{2}} − (1 − p)\Esp{N^{2}} = p\Esp{N^{2}}\), así que

\begin{align} \label{eq:serie4} p\Esp{N^{2}} &= \sum_{n=1}^{\infty} (2n − 1)(1 − p)^{n}p. \end{align}

Usaremos la igualdad \eqref{eq:serie4} más adelante. Por ahora, centraremos nuestra atención en desarrollar la serie en \eqref{eq:serie4}. Primero, recuerda que la serie debe de ser convergente para que los siguientes pasos tengan sentido, así que revisa la tarea moral en caso de que lo dudes. Así pues, tenemos que

\begin{align*} \sum_{n=1}^{\infty} (2n − 1)(1 − p)^{n}p &= \sum_{n=1}^{\infty} 2n(1 − p)^{n}p − \sum_{n=1}^{\infty} (1 − p)^{n}p \\[1em] &= 2\underbrace{\sum_{n=1}^{\infty} n(1 − p)^{n}p}_{(*)} − \underbrace{\sum_{n=1}^{\infty} (1 − p)^{n}p}_{(**)}. \end{align*}

Por un lado, observa que la expresión \((*)\) es el valor esperado de \(N\) (y ya calculamos ese valor esperado en la entrada pasada), así que \((*) = \frac{ 1 − p }{p}\). Por otro lado, la expresión \((*)\) es casi la suma de las probabilidades de \(N\), por lo que debería de ser \(1\) menos el término en \(0\), ya que la suma empieza en \(1\). Veámoslo:

\begin{align*} \sum_{n=1}^{\infty} (1 − p)^{n}p &= p − p + \sum_{n=1}^{\infty} (1 − p)^{n}p \\[1em] &= {\left[\sum_{n=0}^{\infty} (1 − p)^{n}p\right]} − p \\[1em] &= p\underbrace{\left[\sum_{n=0}^{\infty} (1 − p)^{n}\right]}_{\text{serie geométrica}} − p \\[1em] &= p \frac{1}{1 − (1 − p)} − p \\[1em] &= p\frac{1}{p} − p \\[1em] &= 1 − p. \end{align*}

Por lo tanto, tenemos que

\begin{align*} \sum_{n=1}^{\infty} (2n − 1)(1 − p)^{n}p &= 2\underbrace{\sum_{n=1}^{\infty} n(1 − p)^{n}p}_{(*)} − \underbrace{\sum_{n=1}^{\infty} (1 − p)^{n}p}_{(**)} \\[1em] &= \frac{2 (1 − p) }{p} − (1 − p) \\[1em] &= \frac{2(1 − p) − p(1 − p)}{p} \\[1em] &= \frac{2 − 2p − p + p^{2} }{p} \\[1em] &= \frac{2 − 3p + p^{2}}{p} \\[1em] &= \frac{(2 − p)(1 − p)}{p}. \end{align*}

En consecuencia, volviendo a \eqref{eq:serie4}, tenemos que

\begin{align*} p\Esp{N^{2}} &= \frac{(2 − p)(1 − p)}{p}, \end{align*}

por lo que en conclusión

\begin{align*} \Esp{N^{2}} &= \frac{(2 − p)(1 − p)}{p^{2}}, \end{align*}

que es justamente lo que queríamos obtener.


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Demuestra el caso 2. de la ley del estadístico inconsciente cuando $g$ es una función cualquiera. Sugerencia: Toma la siguiente descomposición de $g$: definimos la parte positiva de $g$, $g^{+}\colon\RR\to\RR$, como sigue: \begin{align*} g^{+}(x) &= \max{\{ g(x), 0 \}} & \text{para cada $x \in \RR$},\end{align*} y definimos la parte negativa de $g$, $g^{-}\colon\RR\to\RR$, como sigue: \begin{align*} g^{-}(x) &= \max{\{ -g(x), 0 \}} & \text{para cada $x \in \RR$}.\end{align*} Verifica que $g$ puede escribirse en términos de $g^{+}$ y $g^{-}$ como\begin{align*} g = g^{+} − g^{-}, \end{align*}y nota que tanto $g^{+}$ como $g^{-}$ son funciones no-negativas. Concluye utilizando lo que demostramos en esta entrada.
  2. Verifica que la serie \eqref{eq:serie1} es convergente. Sugerencia: Utiliza algún criterio de convergencia como el de d’Alembert.
  3. Demuestra la validez de la identidad \eqref{eq:identidad}.

Más adelante…

La ley del estadísico inconsciente es un teorema muy útil en contextos teóricos y aplicados. De hecho, la utilizaremos con mucha frecuencia en la Unidad 3, ya que veremos algunas características de algunas distribuciones de probabilidad importantes.

Por otro lado, en la siguiente entrada veremos más propiedades del valor esperado, centrando nuestra atención en aquellas propiedades que involucran a más de una variable aleatoria.

Entradas relacionadas

Probabilidad I: Valor Esperado de una Variable Aleatoria

Por Octavio Daniel Ríos García

Introducción

Una de las ideas de una medida de probabilidad era que cuantifica, entre el $0$ y el $1$, qué tan probable es que ocurra un evento. Por ello, si nosotros multiplicamos los valores que puede tomar una v.a. mediante su probabilidad de ocurrencia, y luego los sumamos, el resultado sería un promedio ponderado de los valores que puede tomar la v.a.; donde el criterio de ponderación es precisamente la probabilidad de ocurrencia. Aquellos resultados con mayor probabilidad pesan más en este «promedio ponderado».

En el caso de $X$ una v.a. discreta, la manera de obtener este promedio ponderado es directa, pues existen $x \in \RR$ tales que $\Prob{X = x} > 0$, así que la expresión resultante es una suma. Sin embargo, en el caso continuo, la idea se preserva, pero la definición es más sutil, pues cuando $X$ es una v.a. continua, $\Prob{X = x} = 0$ para cada $x \in \RR$.

Motivación para el caso discreto

Para empezar, vamos a definir el valor esperado de una v.a. discreta. En este caso, la noción de «promedio ponderado» ocurre naturalmente, pues una v.a. discreta puede tomar valores dentro de un conjunto a lo más infinito numerable.

Primero, vamos a dar la idea general. Cuando se nos dan $x_{1}$, …., $x_{n} \in \RR$ números reales, con $n \in \mathbb{N}^{+}$, el promedio (o la media aritmética) de estos valores es

\begin{align*} \tfrac{1}{n}x_{1} + \tfrac{1}{n}x_{2} + \cdots + \tfrac{1}{n}x_{n} = \frac{1}{n} \sum_{k=1}^{n} x_{n}. \end{align*}

La media aritmética nos ayuda a resumir ciertas nociones de un conjunto de números. Más precisamente, nos da una idea de dónde están centrados los elementos de ese conjunto. Esto pasa porque en la media aritmética, cada uno de los números pesa lo mismo, debido a que en la suma, todos tienen el mismo coeficiente: $\frac{1}{n}$.

Sin embargo, no necesariamente queremos que todos los valores tengan el mismo peso al tomar el promedio. Puede que existan razones para que queramos que cada uno contribuya de manera distinta a la media. Para generalizar la media aritmética, sean $p_{1}$, …, $p_{n} \in [0,1]$. El valor $p_{i}$ representa el peso asociado al valor $x_{i}$, que a grandes rasgos sería la importancia de $x_{i}$ en el contexto en el que se toma el promedio. De este modo, el promedio ponderado de los $x_{i}$ es

\begin{align*} p_{1} x_{1} + p_{2} x_{2} + \cdots + p_{n} x_{n} = \sum_{k=1}^{n} p_{k} x_{k} \end{align*}

Precisamente, en el contexto de la probabilidad, cada posible valor de la v.a. discreta tiene un peso asociado: ¡la probabilidad de que la v.a. tome ese valor! Como es de esperarse de una media o promedio, el valor esperado debería de expresar la tendencia central del comportamiento probabilístico de una variable aleatoria, y en efecto, se cumple esa idea porque el peso asociado a cada valor es su probabilidad de ocurrencia.

Definición del valor esperado en el caso discreto

De acuerdo con la motivación anterior, presentamos la definición del valor esperado de una v.a. discreta.


Definición. Sea $X\colon\Omega\to\RR$ una variable aleatoria discreta. Definimos el valor esperado de $X$ (o la esperanza de $X$) como

\begin{align*} \Esp{X} &= \sum_{\omega\in\Omega} X(\omega) \Prob{\{ \omega \}}, \end{align*}

siempre que esta suma sea absolutamente convergente. Es decir, si

\begin{align*} \sum_{\omega\in\Omega} {\left|X(\omega) \Prob{\{\omega\}}\right|} < \infty. \end{align*}

En caso de que la suma no sea convergente, se dice que el valor esperado de \(X\) no está definido, o que es infinito.


La definición anterior va a ser de muchísima utilidad para algunas demostraciones, pero puede que no sea muy útil para hacer cálculos en casos concretos. Por ello, veamos una manera equivalente de definirla.

Para ello, como $X$ es una v.a. discreta, sea $\{ x_{k} \}_{k=1}^{\infty}$ el conjunto de valores que puede tomar $X$. Es decir, $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$. Ahora, observa que para cada $k \in \mathbb{N}^{+}$ se tiene que

\begin{align*} X(\omega) = x_{k} &\iff \omega \in X^{-1}[\{ x_{k} \}] \iff \omega \in (X = x_{k}). \end{align*}

En consecuencia, se tiene que

\begin{align*} \sum_{\omega \in (X = x_{k})} X(\omega) \Prob{\{\omega\}} &= \sum_{\omega \in (X = x_{k})} x_{k} \Prob{\{ \omega \}} \\[1em] &= x_{k} \sum_{\omega \in (X = x_{k})} \Prob{\{ \omega \}} \\[1em] &= x_{k} \Prob{X = x_{k}}.\end{align*}

De acuerdo con la definición de valor esperado, se tiene que

\begin{align*} \Esp{X} &= \sum_{\omega\in\Omega} X(\omega) \Prob{\{ \omega \}}. \end{align*}

Ahora, la suma anterior puede expresarse de manera diferente. Como $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$ y $\{ x_{k} \}_{k=1}^{\infty} = \bigcup_{k=1}^{\infty} \{ x_{k} \}$, se tiene que

\begin{align*} \Omega &= X^{-1}[X[\Omega]] \\[1em] &= X^{-1}{\left[ \bigcup_{k=1}^{\infty} \{x_{k}\} \right]} \\[1em] &= \bigcup_{k=1}^{\infty} X^{-1}[\{ x_{k} \}] \\[1em] &= \bigcup_{k=1}^{\infty}(X = x_{k}). \end{align*}

Así, podemos reacomodar la suma del valor esperado para obtener

\begin{align*} \sum_{\omega\in\Omega} X(\omega) \Prob{\{\omega\}} &= \sum_{k=1}^{\infty} \sum_{\omega\in (X = x_{k})} X(\omega) \Prob{\{\omega \}} \\[1em] &= \sum_{k=1}^{\infty} x_{k} \Prob{X = x_{k}}. \end{align*}

En conclusión, obtenemos que si $X$ es una v.a. discreta que toma valores en el conjunto $\{ x_{k} \}_{k=1}^{\infty}$, entonces el valor esperado de $X$ es

\begin{align*} \Esp{X} = \sum_{k=1}^{\infty} x_{k} \mathbb{P}{\left(X = x_{k}\right)}.\end{align*}

Finalmente, recordando que $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$, lo anterior nos queda como

\begin{align*} \Esp{X} = \sum_{x \in X[\Omega]} x \Prob{X = x}.\end{align*}

que nos da una expresión alternativa para el valor esperado de una v.a. discreta.


Definición (Alternativa). Sea $X$ una v.a. discreta. Definimos el valor esperado de $X$ (o esperanza de $X$) como

\begin{align*} \Esp{X} = \sum_{x \in X[\Omega]} x \Prob{X = x}, \end{align*}

siempre que la suma anterior sea absolutamente convergente. Es decir,

\begin{align*} \sum_{x\in X[\Omega]} {\left|x \Prob{X = x} \right|} < \infty. \end{align*}

En caso de que la suma no no sea convergente, se dice que el valor esperado de \(X\) no está definido, o que es infinito.


Ejemplo 1. Una v.a. discreta no necesariamente toma su valor esperado. Esto choca un poco con el término «valor esperado», pues al ser el valor «esperado» de la v.a., tendría sentido que sea alguno de los valores que puede tomar. Sea $X\colon\Omega\to\RR$ una v.a. con función de masa de probabilidad $p_{X}\colon\RR\to\RR$ dada por

\begin{align*} p_{X}(x) &= \begin{cases} \dfrac{1}{2} & \text{si $x \in \{ 0, 1\}$}, \\[1em] 0 &\text{en otro caso}. \end{cases} \end{align*}

De este modo, el conjunto de valores que puede tomar $X$ es $\{0, 1\}$. Es decir, $X[\Omega] = \{0,1\}$. Ahora obtengamos $\Esp{X}$,

\begin{align*} \Esp{X} &= 0 \cdot \Prob{X = 0} + 1 \cdot \Prob{X = 1} = 1 \cdot \Prob{X = 1} = 1 \cdot \frac{1}{2} = \frac{1}{2}. \end{align*}

Es decir, $\Esp{X} = \frac{1}{2}$: el «valor esperado» de $X$ es $\frac{1}{2}$… sin embargo, $\frac{1}{2}$, y $\frac{1}{2} \notin X[\Omega]$, por lo que de ninguna manera se esperaría que $X$ tome el valor $\frac{1}{2}$.

Sin embargo, si repitiéramos muchas veces a la v.a. $X$, el centroide (la media aritmética) de los valores observados en esas repeticiones se acercará cada vez más a $\Esp{X}$. Eso es algo que mostramos (sin muchos detalles) en la entrada del enfoque frecuentista. Es por esto que dijimos que el valor esperado de $X$ expresa la tendencia central del comportamiento probabilístico de $X$, pero no debe de pensarse como el valor a «esperar» cuando se observe $X$. Más adelante demostraremos formalmente las ideas de este ejemplo.


Ejemplo 1. Hay v.a.’s discretas que toman valores dentro de $\mathbb{N}$, por lo que su valor esperado es una serie. Sea $Y$ una v.a. con función de masa de probabilidad $p_{Y}\colon\RR\to\RR$ dada por

\begin{align*} p_{Y}(y) &= \begin{cases} (1 − p)^{y}p & \text{si \(y\in\mathbb{N}\),} \\[1em] 0 & \text{en otro caso,}\end{cases} \end{align*}

donde \(p \in (0,1)\). Procedamos a calcular el valor esperado de \(Y\). Por definición, sabemos que

\begin{align*} \Esp{Y} &= \sum_{y\in Y[\Omega]} y \Prob{Y = y} \\[1em] &= \sum_{y\in\mathbb{N}} y \Prob{Y = y} \\[1em] &= \sum_{y=0}^{\infty} y\Prob{Y = y} \\[1em] &= \sum_{y=0}^{\infty} y (1 − p)^{y} p. \end{align*}

Ahora, como el índice \(y\) comienza en \(0\), el primer término de la serie es \(0 \cdot (1 − p)^{0}p = 0\), por lo que podemos empezar la serie en \(1\). Así,

\begin{align} \label{eq:serie}\Esp{Y} &= \sum_{y=1}^{\infty} y(1 − p)^{y}p = p\sum_{y=1}^{\infty} y(1 − p)^{y}. \end{align}

Lo que haremos será reacomodar la serie \eqref{eq:serie} de manera conveniente para poder obtener su valor. Sin embargo, para hacer posible el reacomodo es necesario verificar que la serie es convergente. Para ello, podemos utilizar el criterio del cociente de d’Alembert. Para cada \(n\in\mathbb{N}^{+}\), sea \(a_{n} = n(1 − p)^{n}\). Es decir, \(a_{n}\) es el \(n\)-ésimo término de la serie. El criterio de d’Alembert nos dice que si

\begin{align*} \lim_{n\to\infty} \left| \frac{a_{n+1}}{a_{n}} \right| = r \end{align*}

con \(r < 1\), entonces la serie \(\sum_{n=1}^{\infty} a_{n}\) es absolutamente convergente. Primero desarrollaremos la expresión \(\left|\frac{a_{n+1}}{a_{n}}\right|\):

\begin{align*} \left| \frac{a_{n+1}}{a_{n}} \right| &= \left| \frac{(n+1)(1 − p)^{n+1}}{n(1 − p)^{n}} \right|. \end{align*}

Observa que en la expresión de la derecha tenemos \((1 − p)^{n+1}\) en el numerador, y \((1 − p)^{n}\) en el denominador, por lo que

\begin{align*} \left| \frac{(n+1)(1 − p)^{n+1}}{n(1 − p)^{n}} \right| &= \left| \frac{(n+1)(1 − p)^{n+1 − n}}{n} \right| \\[1em] &= \left| \frac{(n+1)(1 − p)}{n} \right|. \end{align*}

Además, \(1 − p > 0\), ya que \(p \in (0,1)\), y también se cumple que \(n > 0\), \(n + 1 > 0\), por lo que

\begin{align*} \left| \frac{(n+1)(1− p)}{n} \right| &= \frac{(n+1)(1− p)}{n}, \end{align*}

y podemos seguir desarrollando esta última expresión:

\begin{align*} \frac{(n+1)(1− p)}{n} &= (1 − p){\left(\frac{n+1}{n}\right)} \\[1em] &= (1 − p){\left(1 + \frac{1}{n} \right)}. \end{align*}

En consecuencia, el límite del criterio de d’Alembert nos queda

\begin{align*} \lim_{n\to\infty} \left| \frac{a_{n+1}}{a_{n}} \right| &= \lim_{n\to\infty} (1 − p){\left(1 + \frac{1}{n} \right)} \\[1em] &= (1 − p) \lim_{n\to\infty} {\left(1 + \frac{1}{n} \right)} \\[1em] (1 − p), \end{align*}

así que \(r = 1 − p\), y como \(p \in (0,1)\), se tiene que \( 1 − p < 1\). En conclusión, queda demostrado que la serie \eqref{eq:serie} es absolutamente convergente. Por ello, podemos reacomodar los términos de maneras distintas. En particular, observa que la serie en \eqref{eq:serie} (sin modificar) tiene la siguiente forma:

\begin{align*} \sum_{y=1}^{\infty} y(1 − p)^{y} = (1 − p) + 2 (1 − p)^{2} + 3 (1 − p)^{3} + 4(1 − p)^{4} + \cdots \end{align*}

Sin embargo, podemos ver la progresión anterior como

\begin{alignat*}{7} (1 − p) + 2 (1 − p)^{2} + 3 (1 − p)^{3} + 4(1 − p)^{4} + \cdots &{}={}& (1 − p) & + (1 − p)^{2} & + (1 − p)^{3} & + (1 − p) ^{4} & + \cdots \\[1em] & & & + (1 − p)^{2} & + (1 − p)^{3} & + (1 − p)^{4} &+ \cdots \\[1em] & & & & (1 − p)^{3} & + (1 − p) ^{4} & + \cdots \\[1em] & & & & & + (1 − p) ^{4} & + \cdots \\[1em] & & & & & \vdots & , \end{alignat*}

y así sucesivamente. Entonces la serie de \eqref{eq:serie} puede reacomodarse como una «serie de series», en el sentido de que podemos reacomodarla como una serie cuyos términos son series:

\begin{align}\label{eq:reacom} p\sum_{y=1}^{\infty} y(1 − p)^{y} &= p\sum_{y=1}^{\infty} \sum_{x=y}^{\infty} (1 − p)^{x}. \end{align}

Ahora, las series «dentro» de la otra serie comienzan en el índice \(y\), por lo que las series de la forma \(\sum_{x=y}^{\infty}(1 − p)^{x}\) pueden reescribirse como

\begin{align} \label{eq:moral1} \sum_{x=y}^{\infty}(1 − p)^{x} &= \sum_{x=0}^{\infty}(1 − p)^{x+y},\end{align}

pues observa que los términos no se ven afectados. Escribe los primeros términos de ambas series, y observa cómo coinciden. Como \(y\) es un valor constante con respecto al índice \(x\), se tiene que

\begin{align*} \sum_{x=0}^{\infty}(1 − p)^{x+y} &= (1 − p)^{y}\sum_{x=0}^{\infty} (1 − p) ^{x} = (1 − p)^{y} {\left(\frac{1}{1 − (1 − p)}\right)} = \frac{(1 − p)^{y}}{p}. \end{align*}

En los últimos pasos del desarrollo anterior usamos que la serie es una serie geométrica. Volviendo a \eqref{eq:reacom}, vemos que

\begin{align*} p\sum_{y=1}^{\infty} y(1 − p)^{y} &= p\sum_{y=1}^{\infty} \sum_{x=y}^{\infty} (1 − p)^{x} \\[1em] &= p\sum_{y=1}^{\infty} \frac{(1 − p)^{y}}{p} \\[1em] &= \sum_{y=1}^{\infty} (1 − p)^{y}, \end{align*}

que también es una serie geométrica, que empieza en \(1\). El valor de esta serie es

\begin{align} \label{eq:moral2} \sum_{y=1}^{\infty} (1 − p)^{y} &= \frac{ 1 − p }{1 − (1 − p) } = \frac{1 − p}{p}, \end{align}

así que podemos concluir que el valor esperado de \(Y\) es

\begin{align*} \Esp{Y} &= \frac{1 − p}{p}. \end{align*}


¿Podemos hacer lo mismo para las v.a.’s continuas?

Hay dos motivos por los que el valor esperado de una v.a. continua difiere del de una v.a. discreta. El primero es que si replicamos la idea para una v.a. discreta, la suma resultante para una v.a. continua $X$ es

\begin{align*} \sum_{x \in X[\Omega]} x \Prob{X = x}, \end{align*}

que es una suma con una cantidad infinita no numerable de términos, pues $X$ es una v.a. continua. Sin embargo, ese no es el único problema: como $X$ es una v.a. continua, entonces para cada $x \in \RR$ se tiene que $\Prob{X = x} = 0$, por lo que la suma anterior sería $0$ de cualquier manera.

Por ello, debemos de retomar el método para el cálculo de probabilidades en el caso de una v.a. continua. Esto es, si $X$ es una v.a. continua, entonces para $a$, $b \in \RR$ tales que $a < b$ se tiene que

\begin{align*} \Prob{X \in (a, b]} = \int_{a}^{b} f_{X}(x) \, \mathrm{d}x \end{align*}

donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$. Integrar la función de densidad de $X$ sobre el intervalo $(a,b]$ nos da como resultado la probabilidad de que $X$ esté dentro de $(a,b]$. Por ello, para $\varepsilon > 0$ tal que $\varepsilon$ es cercano a $0$, y para $x \in \RR$, se tiene que

\begin{align*} \Prob{X \in {\left(x − \tfrac{\varepsilon}{2}, x + \tfrac{\varepsilon}{2} \right]} } = \int_{x − \varepsilon/2}^{x + \varepsilon/2} f_{X}(t) \, \mathrm{d}t \approx \varepsilon f_{X}(x). \end{align*}

Esto obedece a que si $\varepsilon$ es muy cercano a $0$, entonces el valor de la integral sobre el intervalo ${\left(x − \tfrac{\varepsilon}{2}, x + \tfrac{\varepsilon}{2} \right]}$ será muy parecido al área del rectángulo cuya base es ese mismo intervalo y que tiene altura igual a $f_{X}(x)$.

Lo anterior quiere decir que la probabilidad de que $X$ se encuentre dentro de una vecindad de diámetro $\varepsilon > 0$ centrada en $x$ es muy parecida a $\varepsilon f_{X}(x)$ cuando $\varepsilon$ es un valor muy pequeño.

Las ideas anteriores son importantes, pues nos dicen que aunque $f_{X}(x)$ no es la probabilidad de que $X$ tome el valor $x$, sí guarda cierta relación con la probabilidad de que $X$ se encuentre muy cerca de $x$. De hecho, la discusión anterior (junto con la motivación de la integral de Riemann) nos dice que integrar

\begin{align*} \int_{a}^{b} f_{X}(t) \, \mathrm{d}t \end{align*}

es como «sumar» las probabilidades de estar muy cerca de cada uno de los puntos en $(a, b]$, de la manera más refinada posible. Por ello, si tomamos la integral

\begin{align*} \int_{a}^{b} t f_{X}(t) \, \mathrm{d}t, \end{align*}

este valor será como «sumar» todos los valores en $(a, b]$ ponderados por la probabilidad de estar muy cerca de cada uno de ellos. ¡Esa es justamente la idea del valor esperado! Con esto ya estamos listos para definir el valor esperado de una v.a. continua.

Definición del valor esperado en el caso continuo

Al final de la discusión anterior llegamos a una expresión que captura la misma idea de un promedio ponderado, pero para el caso continuo. Es decir, la idea es la misma que en el caso de una v.a. discreta, pero en vez de sumar, tomamos una integral. Además, para obtener el valor esperado de una v.a. continua será necesario tomar la integral sobre todo $\RR$. Esto da pie a la definición que presentamos a continuación.


Definición. Sea $X\colon\Omega\to\RR$ una variable aleatoria continua. Definimos el valor esperado de $X$ (o la esperanza de $X$) como

\begin{align*} \Esp{X} &= \int_{-\infty}^{\infty} x f_{X}(x) \, \mathrm{d}x, \end{align*}

siempre que esta integral sea absolutamente convergente. Esto es,

\begin{align*} \int_{-\infty}^{\infty} {\left|x f_{X}(x) \right|} \, \mathrm{d}x < \infty, \end{align*}

donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$. En caso de que la integral no sea absolutamente convergente, se dice que el valor esperado de $X$ no está definido, o que es infinito.


En este caso no tenemos una versión formal como la primera que dimos del valor esperado de una v.a. discreta. Para la construcción de una definición así es necesario contar con una herramienta que no hemos construido en este curso, y es probable que no conozcas: la integral de Lebesgue. Por ello, algunas propiedades del valor esperado en el caso continuo serán más complicadas de demostrar. No obstante, la definición que hemos dado es suficiente para calcular el valor esperado de cualquier v.a. continua que se te ocurra.

Ejemplo 2. Como el valor esperado de una v.a. continua está dado por una integral, es recomendable que recuerdes los métodos de integración que viste en tu curso de Cálculo Diferencial e Integral II. Si lo necesitas, puedes hacer click aquí para consultar nuestras notas de esa materia.

Sea $Z$ una v.a. continua con distribución exponencial con parámetro $\lambda > 0$. Es decir, $Z$ tiene función de densidad $f_{Z}\colon\RR\to\RR$ dada por

\begin{align*} f_{Z}(z) = \begin{cases} \lambda e^{-\lambda z} & \text{si $z \geq 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Veamos cuál es el valor esperado de $Z$. Para ello, primero observa que como $f_{Z}(z) = 0$ para cada $z < 0$, se tiene que

\begin{align*} \Esp{Z} = \int_{-\infty}^{\infty} z f_{Z}(z) \, \mathrm{d}z = \int_{0}^{\infty} z f_{Z}(z) \, \mathrm{d}z. \end{align*}

Esto es algo que siempre hay que revisar al momento de calcular el valor esperado de una v.a. continua: la integral se reduce al subconjunto de $\RR$ sobre el que la función de densidad es mayor a $0$.

De este modo, tenemos que

\begin{align*} \Esp{Z} &= \int_{0}^{\infty} z {\left( \lambda e^{-\lambda z} \right)} \, \mathrm{d}z, \end{align*}

que es una integral que podemos resolver mediante el método de integración por partes. Para ello, sea $u = z$ y $dv = \lambda e^{-\lambda z}$. De este modo, tendremos que $v = -e^{-\lambda z}$ y $du = dz$, así que

\begin{align*} \int_{0}^{\infty} z {\left( \lambda e^{-\lambda z} \right)} \, \mathrm{d}z &= {\left( -z e^{-\lambda z} \right)} \Big|_{0}^{\infty} + \int_{0}^{\infty} e^{-\lambda z} \, \mathrm{d} z \\[1em] &= {\left[ 0 \cdot e^{-\lambda \cdot 0} − \lim_{z\to\infty} z e^{-\lambda z} \right]} + \frac{1}{\lambda}\int_{0}^{\infty} \lambda e^{-\lambda z} \\[1em] &= {\left[ 0 − \lim_{z\to\infty} \frac{z}{e^{\lambda z}} \right]} + \frac{1}{\lambda} {\left( − e^{-\lambda z} \right)}\Big|_{0}^{\infty} \\[1em] &= {\left[ 0 − 0 \right]} + \frac{1}{\lambda}{\left[ e^{-\lambda \cdot 0} − \lim_{z\to\infty} e^{-\lambda z}\right]} \\[1em] &= \frac{1}{\lambda}{\left[ 1 − 0 \right]} \\[1em] &= \frac{1}{\lambda}.\end{align*}

Por lo tanto, se concluye que

\begin{align*} \Esp{Z} = \frac{1}{\lambda}. \end{align*}

Es decir, el valor esperado de una v.a. con distribución exponencial de parámetro $\lambda$ es $\frac{1}{\lambda}$.


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la identidad \eqref{eq:moral1} es verdadera. Sugerencia: Escribe los primeros términos de ambas series, y observa que coinciden.
  2. Dados \(r \in (0,1)\) y \(a \in \RR\), conocemos el valor de la serie geométrica con coeficiente \(a\) y razón \(r\):\begin{align*}\sum_{n=0}^{\infty} ar^{n} = \frac{a}{1 − r},\end{align*} donde es importante notar que la serie empieza en \(0\). No obstante, en \eqref{eq:moral2} nosotros usamos el valor de una serie geométrica que empieza en \(1\). ¿Cómo le haces para pasar de la versión que empieza en \(0\) a la versión que empieza en \(1\)?
  3. Sean $a$, $b \in \RR$ tales que $a < b$. Una v.a. con distribución uniforme sobre el intervalo $[a,b]$ es una v.a. $U$ con función de densidad $f_{U}\colon\RR\to\RR$ dada por\[ f_{U}(u) = \begin{cases} \dfrac{1}{b − a} & \text{si $u \in [a,b]$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \]¿Cuál es el valor esperado de $U$?

Más adelante…

El valor esperado (o esperanza) es un valor importante que intenta resumir una parte del comportamiento probabilístico de una v.a. Por ello, su uso es muy común en contextos aplicados en los que se busca analizar cuantitativamente un fenómeno aleatorio, como la inferencia estadística (y sus ramas).

En la siguiente entrada comenzaremos el estudio de algunas propiedades importantes del valor esperado.

Entradas relacionadas

Probabilidad I: Transformaciones de V.A.’s Continuas

Por Octavio Daniel Ríos García

Introducción

En la entrada pasada comenzamos a abordar el problema de encontrar la distribución de la transformación de una v.a. conocida. En particular, analizamos un método para el caso en el que la v.a. conocida es discreta, y sólamente para ese caso. No obstante, este método nos servirá como «base» para dar paso al caso continuo. Primero presentaremos un método que consiste en manipular directamente la función de distribución; muy parecido al método que vimos en la entrada pasada. Después, analizaremos un método más especializado que permite encontrar la función de densidad de la transformación de una v.a. sin necesidad de manipular la función de distribución.

Motivación del primer método

Sea $X$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible. En la entrada pasada ya describimos el proceso para obtener los eventos de $g(X)$ en términos de eventos que involucran a $X$. De hecho, vimos que para cada $A \in \mathscr{B}(\RR)$ se cumple que

\begin{align*} (g(X) \in A) = (X \in g^{-1}[A]). \end{align*}

¡Atención! En la entrada pasada centramos nuestra atención en las v.a.’s discretas, pero la igualdad anterior es cierta para cualquier variable aleatoria. Por ello, también aplica para las v.a.’s continuas. En particular, para cada $y \in \RR$ se cumple que $(-\infty, y] \in \mathscr{B}(\RR)$, por lo que

\begin{align*} {\left(g(X) \leq y\right)} = \left(g(X) \in (-\infty, y]\right) = {\left(X \in g^{-1}[(-\infty, y]]\right)}. \end{align*}

Por lo tanto, se tiene que

\begin{align*} \Prob{g(X) \leq y} = \Prob{X \in g^{-1}[(-\infty, y]]}. \end{align*}

Es decir, si definimos a $Y = g(X)$ y $F_{Y}\colon\RR\to\RR$ es la función de distribución de $Y$, entonces lo anterior quiere decir que para cada $y \in \RR$,

\begin{align*} F_{Y}(y) = \Prob{X \in g^{-1}[(-\infty, y]]}; \end{align*}

por lo que es posible obtener la distribución de $Y$ en términos de la probabilidad de un evento que involura a $X$, cuya distribución sí conocemos.

Primer método: manipular la función de distribución

Con la discusión anterior llegamos a que si $X$ es una v.a. (cuya distribución es conocida), $g\colon\RR\to\RR$ es una función Borel-medible, y $Y$ es la v.a. definida como $Y = g(X)$, entonces la función de distribución de $Y$, $F_{Y}\colon\RR\to\RR$, puede obtenerse como

\begin{align*} F_{Y}(y) &= \Prob{X \in g^{-1}[(-\infty, y]]} & \text{para cada $y \in \RR$.} \end{align*}

Por ello, el problema consistirá en encontrar el conjunto $g^{-1}[(-\infty, y]]$, y así encontrar la probabilidad de ${\left(X \in g^{-1}[(-\infty, y]]\right)}$.

Ejemplo 1. Sea $X$ una v.a. con función de densidad $f_{X}\colon\RR\to\RR$ dada por

\begin{align*} f_{X}(x) &= \frac{1}{2}e^{-{\left| x \right|}}, & \text{para cada $x \in \RR$}. \end{align*}

Una v.a. con esta función de densidad es conocida como una v.a. con distribución Laplace, o distribución doble exponencial. Su función de distribución $F_{X}\colon\RR\to\RR$ está dada por

\begin{align*} F_{X}(x) &= \begin{cases} \dfrac{1}{2}e^{x} & \text{si $x < 0$}, \\[1em] 1 − \dfrac{1}{2} e^{-x} & \text{si $x \geq 0$}. \end{cases}\end{align*}

Sea $g\colon\RR\to\RR$ la función dada por $g(x) = |x|$ para cada $x \in \RR$. De este modo, defínase $Y = g(X) = {\left| X \right|}$. Para obtener la función de distribución $Y$, podemos seguir un método similar al que usamos en la entrada anterior. Sea $y \in \RR$. Un primer detalle que podemos observar sobre $Y$ es que no toma valores negativos. Por ello, si $y < 0$, se tiene que $(Y \leq y) = \emptyset$, y en consecuencia, $\Prob{Y \leq y} = 0$ para $y < 0$. Por otro lado, para $y \geq 0$ se tiene que que

\begin{align*} \omega \in (Y \leq y) &\iff Y(\omega) \leq y \\[1em] &\iff |X(\omega)| \leq y \\[1em] &\iff -y \leq X(\omega) \leq y \\[1em] &\iff \omega \in ( -y \leq X \leq y ), \end{align*}

por lo que para cada $y \geq 0$ se tiene que $(Y \leq y) = (-y \leq X \leq y)$. Como esos dos eventos son iguales, se sigue que $\Prob{Y \leq y} = \Prob{ -y \leq X \leq y}$. , por lo queAdemás, nota que

\begin{align*} \Prob{-y \leq X \leq y} &= \Prob{X \leq y} − \Prob{X < -y} \\[1em] &= \Prob{X \leq y} − \Prob{X \leq -y} \tag{$*$} \\[1em] &= F_{X}(y) − F_{X}(-y), \end{align*}

donde el paso $(*)$ es válido debido a que $X$ es una v.a. continua. Por ello, podemos concluir que para cada $y \geq 0$,

\begin{align*} F_{Y}(y) = F_{X}(y) − F_{X}(−y). \end{align*}

Por lo tanto, la función de distribución de $Y$ queda como sigue:

\begin{align*} F_{Y}(y) &= \begin{cases} 0 & \text{si $y < 0$}, \\[1em] F_{X}(y) − F_{X}(-y) & \text{si $y \geq 0$}. \end{cases} \end{align*}

De aquí podemos obtener una expresión explícita. Para cada $y \geq 0$ se tiene que $-y \leq 0$, así que

\begin{align*} F_{X}(y) − F_{X}(-y) &= {\left(1 − \frac{1}{2}e^{-y}\right)} − \frac{1}{2}e^{-y} \\[1em] &= 1 − \frac{1}{2}e^{-y} − \frac{1}{2}e^{-y} \\[1em] &= 1 − e^{-y}. \end{align*}

En conclusión, la función de distribución de $Y$ queda así:

\begin{align*} F_{Y}(y) &= \begin{cases} 0 & \text{si $y < 0$}, \\[1em] 1 − e^{-y} & \text{si $y \geq 0$}. \end{cases} \end{align*}

Probablemente te resulte familiar: ¡Es la función de distribución de una v.a. exponencial! Este ejemplo exhibe que algunas transformaciones de algunas v.a.’s «famosas» resultan en otras v.a.’s «famosas». En este caso, vimos que si $X$ es una v.a. que sigue una distribución Laplace, entonces $|X|$ sigue una distribución exponencial. Más adelante veremos muchas más distribuciones importantes, y veremos cómo se relacionan entre sí mediante transformaciones.


Segundo método: teorema de cambio de variable

Existe un método más especializado para obtener la función de densidad de la transformación de una v.a. continua. La razón por la que decimos que es más especializado es porque funciona para transformaciones que cumplen ciertas condiciones.


Teorema. Sea $X\colon\Omega\to\RR$ una v.a. continua con función de densidad $f_{X}\colon\RR\to\RR$, y sea $g\colon X[\Omega]\to\RR$ una función diferenciable y estrictamente creciente o decreciente. Entonces la función de densidad de $Y = g(X)$ está dada por

\begin{align*} f_{Y}(y) &= \begin{cases} f_{X}{\left( g^{-1}(y) \right)} {\left| \dfrac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|} & \text{si $y \in (g \circ X )[ \Omega ]$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}

donde $g^{-1}\colon g[\RR] \to\RR$ es la inversa de $g$, y $(g \circ X )[ \Omega ]$ es la imagen directa de $\Omega$ bajo $g \circ X$. Esto es, $(g \circ X) [ \Omega ] = \{\, y \in \RR \mid \exists \omega \in \Omega : (g \circ X )(\omega) = y \,\}$, que corresponde al conjunto de valores que toma la v.a. $Y = g(X)$.


Demostración. Demostraremos el caso en el que $g$ es estrictamente creciente. Para ello, sea $y \in \RR$. Primero, recuerda que

\begin{align*} (Y \leq y) &= (X \leq g^{-1}[(-\infty,y]]). \end{align*}

Por un lado, se tiene el caso en el que $y \in (g \circ X)[\Omega]$; es decir, $y$ es uno de los valores que toma la v.a. $Y$ (pues $(g \circ X)[\Omega] = Y[\Omega]$). En este caso, el valor $g^{-1}(y)$ está bien definido, ya que $g^{-1}\colon (g \circ X)[\Omega]\to\RR$ es una función cuyo dominio es la imagen de $g$. De este modo, para cada $\omega\in\Omega$ tendremos que

\begin{align*} Y(\omega) \leq y &\iff X(\omega) \leq g^{-1}(y). \tag{$*$} \end{align*}

Como $g$ es una función estrictamente creciente, su inversa $g^{-1}\colon (g \circ X)[\Omega]\to\RR$ también es estrictamente creciente, y por lo tanto, la desigualdad en $(*)$ «no se voltea».

De lo anterior se sigue que $\Prob{Y \leq y} = \Prob{X \leq g^{-1}(y)}$ para cada $y \in (g \circ X)[\Omega]$. En consecuencia, se tiene que

\begin{align*} F_{Y}(y) = F_{X}(g^{-1}(y)). \end{align*}

Podemos diferenciar ambos lados de la igualdad respecto a $y$, y por la regla de la cadena obtenemos

\begin{align*} f_{Y}(y) &= f_{X}{\left( g^{-1}(y) \right)} \frac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \\[1em] &= f_{X}{\left( g^{-1}(y) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|}, \end{align*}

donde el último paso se obtiene de que $g^{-1}$ es estrictamente creciente, y por lo tanto, su derivada es positiva.

Por otro lado, resta el caso en el que $y \notin (g \circ X)[\Omega]$; es decir, cuando $y$ no es uno de los valores que puede tomar $Y$. En este caso, simplemente $f_{Y}$ vale $0$, pues la densidad de una v.a. continua es $0$ en aquellos valores que no toma. De este modo, $Y$ tiene densidad $f_{Y}\colon\RR\to\RR$ dada por

\begin{align*} f_{Y}(y) &= \begin{cases} f_{X}{\left( g^{-1}(y) \right)} {\left| \dfrac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|} & \text{si $y \in (g \circ X )[ \Omega ]$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}

que es justamente lo que queríamos demostrar.

El caso para $g$ estrictamente decreciente es casi análogo, por lo que te lo dejamos de tarea moral.

$\square$

Es importante notar que el teorema anterior no funciona para cualquier $g\colon\RR\to\RR$ Borel-medible, sólamente para aquellas que cumplen las hipótesis del teorema. Bajo estas hipótesis, el teorema permite obtener la densidad de la transformación de una v.a. de manera más eficiente que los otros métodos que hemos abordado.

Ejemplo 2. Sea $Z$ una v.a. con densidad $f_{Z}\colon\RR\to\RR$ dada por

\begin{align*} f_{Z}(z) &= \frac{1}{\sqrt{2\pi}} e^{-z^{2} / 2}, & \text{para cada $z \in \RR$}.\end{align*}

Se dice que una v.a. con esa función de densidad sigue una distribución normal estándar. Observa que $f_{Z}(z) > 0$ para todo $z \in \RR$, por lo que $Z[\Omega] = \RR$. Es decir, $Z$ puede tomar cualquier valor en $\RR$.

Sea $W = e^{Z}$. La función $\exp\colon\RR\to\RR^{+}$ dada por $\exp(x) = e^{x}$ es estrictamente creciente y diferenciable, por lo que podemos usar el teorema anterior para obtener la función de densidad de $W$. Así, tenemos que

\begin{align*} f_{W}(w) = f_{Z}{ \left(\exp^{-1}(w) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} w} {\left[ \exp^{-1}(w) \right]} \right|}, \end{align*}

donde $\exp^{-1}\colon\RR^{+}\to\RR$ es la inversa de la función exponencial $\exp$. De hecho, la inversa de $\exp$ es la función $\ln\colon\RR^{+}\to\RR$, el logaritmo natural. Ahora, como $Z[\Omega] = \RR$, se tiene que $(\exp{} \circ Z)[\Omega] = \RR^{+}$, pues la función $\exp{}$ toma únicamente valores positivos.

En consecuencia, para $w \in \RR^{+}$ se tiene

\begin{align*} f_{W}(w) &= f_{Z}{ \left(\ln(w) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} w} {\left[ \ln(w) \right]} \right|} \\[1em] &= f_{Z}{ \left(\ln(w) \right)} {\left| \frac{1}{w} \right|} \\[1em] &= \frac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \frac{(\ln(w))^{2}}{2}\right) }\end{align*}

y así, tenemos que $W$ tiene densidad $f_{W}\colon\RR\to\RR$ dada por

\begin{align*} f_{W}(w) &= \begin{cases} \dfrac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \dfrac{(\ln(w))^{2}}{2}\right) } & \text{si $w > 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Como nota adicional, $f_{W}$ es la densidad de una v.a. cuya distribución es conocida como log-normal.


Para concluir, es importante mencionar que la transformación $g$ del teorema sólamente necesita ser diferenciable y estrictamente creciente sobre $X[\Omega]$ (por eso es que en el enunciado la pusimos como $g\colon X[\Omega] \to \RR$). Por ejemplo, la función $g\colon\RR^{+}\cup\{0\}\to\RR$ dada por $g(x) = x^{2}$ es una función creciente sobre su dominio. Por ello, si $X$ es una v.a. continua que toma únicamente valores no-negativos, entonces puede aplicarse el teorema para obtener la densidad de $g(X)$. En resumidas cuentas, el teorema puede aplicarse siempre y cuando la transformación $g$ sea diferenciable y estrictamente creciente sobre el conjunto de valores que puede tomar $X$.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la función de distribución de la v.a. $X$ del Ejemplo 1 es la función que te dimos. Es decir, obtén la función de distribución de $X$ a partir de su función de densidad.
  2. Demuestra el caso en el que $g$ es estrictamente decreciente del teorema de cambio de variable.
  3. Retoma el segundo Ejemplo 2, pero esta vez comienza con la v.a. $W$, cuya función de densidad es \begin{align*} f_{W}(w) &= \begin{cases} \dfrac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \dfrac{(\ln(w))^{2}}{2}\right) } & \text{si $w > 0$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}y encuentra la función de densidad de $Z = \ln(W)$ usando el teorema.

Más adelante…

El teorema de esta entrada es muy útil para obtener la densidad (y, en consecuencia, la distribución) de muchas transformaciones de v.a.’s continuas. Por ello, nos será de utilidad en el futuro relativamente cercano, cuando veamos las distribuciones de probabilidad más conocidas. Por otro lado, te será de utilidad mucho más adelante en materias posteriores, pues este teorema puede generalizarse al caso en el que la transformación tiene como dominio a $\RR^{n}$ y como codominio a $\RR$ con $n \in \mathbb{N}^{+}$ y $n \geq 2$ (por ejemplo, $g\colon\RR^{2}\to\RR$ dada por $g(x, y) = x + y$).

En la siguiente entrada comenzaremos el estudio de un concepto asociado a las v.a.’s llamado el valor esperado de una variable aleatoria.

Entradas relacionadas