Archivo de la etiqueta: transformaciones de variables aleatorias

Probabilidad I: Transformaciones de V.A.’s Continuas

Introducción

En la entrada pasada comenzamos a abordar el problema de encontrar la distribución de la transformación de una v.a. conocida. En particular, analizamos un método para el caso en el que la v.a. conocida es discreta, y sólamente para ese caso. No obstante, este método nos servirá como «base» para dar paso al caso continuo. Primero presentaremos un método que consiste en manipular directamente la función de distribución; muy parecido al método que vimos en la entrada pasada. Después, analizaremos un método más especializado que permite encontrar la función de densidad de la transformación de una v.a. sin necesidad de manipular la función de distribución.

Motivación del primer método

Sea $X$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible. En la entrada pasada ya describimos el proceso para obtener los eventos de $g(X)$ en términos de eventos que involucran a $X$. De hecho, vimos que para cada $A \in \mathscr{B}(\RR)$ se cumple que

\begin{align*} (g(X) \in A) = (X \in g^{-1}[A]). \end{align*}

¡Atención! En la entrada pasada centramos nuestra atención en las v.a.’s discretas, pero la igualdad anterior es cierta para cualquier variable aleatoria. Por ello, también aplica para las v.a.’s continuas. En particular, para cada $y \in \RR$ se cumple que $(-\infty, y] \in \mathscr{B}(\RR)$, por lo que

\begin{align*} {\left(g(X) \leq y\right)} = \left(g(X) \in (-\infty, y]\right) = {\left(X \in g^{-1}[(-\infty, y]]\right)}. \end{align*}

Por lo tanto, se tiene que

\begin{align*} \Prob{g(X) \leq y} = \Prob{X \in g^{-1}[(-\infty, y]]}. \end{align*}

Es decir, si definimos a $Y = g(X)$ y $F_{Y}\colon\RR\to\RR$ es la función de distribución de $Y$, entonces lo anterior quiere decir que para cada $y \in \RR$,

\begin{align*} F_{Y}(y) = \Prob{X \in g^{-1}[(-\infty, y]]}; \end{align*}

por lo que es posible obtener la distribución de $Y$ en términos de la probabilidad de un evento que involura a $X$, cuya distribución sí conocemos.

Primer método: manipular la función de distribución

Con la discusión anterior llegamos a que si $X$ es una v.a. (cuya distribución es conocida), $g\colon\RR\to\RR$ es una función Borel-medible, y $Y$ es la v.a. definida como $Y = g(X)$, entonces la función de distribución de $Y$, $F_{Y}\colon\RR\to\RR$, puede obtenerse como

\begin{align*} F_{Y}(y) &= \Prob{X \in g^{-1}[(-\infty, y]]} & \text{para cada $y \in \RR$.} \end{align*}

Por ello, el problema consistirá en encontrar el conjunto $g^{-1}[(-\infty, y]]$, y así encontrar la probabilidad de ${\left(X \in g^{-1}[(-\infty, y]]\right)}$.

Ejemplo 1. Sea $X$ una v.a. con función de densidad $f_{X}\colon\RR\to\RR$ dada por

\begin{align*} f_{X}(x) &= \frac{1}{2}e^{-{\left| x \right|}}, & \text{para cada $x \in \RR$}. \end{align*}

Una v.a. con esta función de densidad es conocida como una v.a. con distribución Laplace, o distribución doble exponencial. Su función de distribución $F_{X}\colon\RR\to\RR$ está dada por

\begin{align*} F_{X}(x) &= \begin{cases} \dfrac{1}{2}e^{x} & \text{si $x < 0$}, \\[1em] 1 − \dfrac{1}{2} e^{-x} & \text{si $x \geq 0$}. \end{cases}\end{align*}

Sea $g\colon\RR\to\RR$ la función dada por $g(x) = |x|$ para cada $x \in \RR$. De este modo, defínase $Y = g(X) = {\left| X \right|}$. Para obtener la función de distribución $Y$, podemos seguir un método similar al que usamos en la entrada anterior. Sea $y \in \RR$. Un primer detalle que podemos observar sobre $Y$ es que no toma valores negativos. Por ello, si $y < 0$, se tiene que $(Y \leq y) = \emptyset$, y en consecuencia, $\Prob{Y \leq y} = 0$ para $y < 0$. Por otro lado, para $y \geq 0$ se tiene que que

\begin{align*} \omega \in (Y \leq y) &\iff Y(\omega) \leq y \\[1em] &\iff |X(\omega)| \leq y \\[1em] &\iff -y \leq X(\omega) \leq y \\[1em] &\iff \omega \in ( -y \leq X \leq y ), \end{align*}

por lo que para cada $y \geq 0$ se tiene que $(Y \leq y) = (-y \leq X \leq y)$. Como esos dos eventos son iguales, se sigue que $\Prob{Y \leq y} = \Prob{ -y \leq X \leq y}$. , por lo queAdemás, nota que

\begin{align*} \Prob{-y \leq X \leq y} &= \Prob{X \leq y} − \Prob{X < -y} \\[1em] &= \Prob{X \leq y} − \Prob{X \leq -y} \tag{$*$} \\[1em] &= F_{X}(y) − F_{X}(-y), \end{align*}

donde el paso $(*)$ es válido debido a que $X$ es una v.a. continua. Por ello, podemos concluir que para cada $y \geq 0$,

\begin{align*} F_{Y}(y) = F_{X}(y) − F_{X}(−y). \end{align*}

Por lo tanto, la función de distribución de $Y$ queda como sigue:

\begin{align*} F_{Y}(y) &= \begin{cases} 0 & \text{si $y < 0$}, \\[1em] F_{X}(y) − F_{X}(-y) & \text{si $y \geq 0$}. \end{cases} \end{align*}

De aquí podemos obtener una expresión explícita. Para cada $y \geq 0$ se tiene que $-y \leq 0$, así que

\begin{align*} F_{X}(y) − F_{X}(-y) &= {\left(1 − \frac{1}{2}e^{-y}\right)} − \frac{1}{2}e^{-y} \\[1em] &= 1 − \frac{1}{2}e^{-y} − \frac{1}{2}e^{-y} \\[1em] &= 1 − e^{-y}. \end{align*}

En conclusión, la función de distribución de $Y$ queda así:

\begin{align*} F_{Y}(y) &= \begin{cases} 0 & \text{si $y < 0$}, \\[1em] 1 − e^{-y} & \text{si $y \geq 0$}. \end{cases} \end{align*}

Probablemente te resulte familiar: ¡Es la función de distribución de una v.a. exponencial! Este ejemplo exhibe que algunas transformaciones de algunas v.a.’s «famosas» resultan en otras v.a.’s «famosas». En este caso, vimos que si $X$ es una v.a. que sigue una distribución Laplace, entonces $|X|$ sigue una distribución exponencial. Más adelante veremos muchas más distribuciones importantes, y veremos cómo se relacionan entre sí mediante transformaciones.


Segundo método: teorema de cambio de variable

Existe un método más especializado para obtener la función de densidad de la transformación de una v.a. continua. La razón por la que decimos que es más especializado es porque funciona para transformaciones que cumplen ciertas condiciones.


Teorema. Sea $X\colon\Omega\to\RR$ una v.a. continua con función de densidad $f_{X}\colon\RR\to\RR$, y sea $g\colon X[\Omega]\to\RR$ una función diferenciable y estrictamente creciente o decreciente. Entonces la función de densidad de $Y = g(X)$ está dada por

\begin{align*} f_{Y}(y) &= \begin{cases} f_{X}{\left( g^{-1}(y) \right)} {\left| \dfrac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|} & \text{si $y \in (g \circ X )[ \Omega ]$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}

donde $g^{-1}\colon g[\RR] \to\RR$ es la inversa de $g$, y $(g \circ X )[ \Omega ]$ es la imagen directa de $\Omega$ bajo $g \circ X$. Esto es, $(g \circ X) [ \Omega ] = \{\, y \in \RR \mid \exists \omega \in \Omega : (g \circ X )(\omega) = y \,\}$, que corresponde al conjunto de valores que toma la v.a. $Y = g(X)$.


Demostración. Demostraremos el caso en el que $g$ es estrictamente creciente. Para ello, sea $y \in \RR$. Primero, recuerda que

\begin{align*} (Y \leq y) &= (X \leq g^{-1}[(-\infty,y]]). \end{align*}

Por un lado, se tiene el caso en el que $y \in (g \circ X)[\Omega]$; es decir, $y$ es uno de los valores que toma la v.a. $Y$ (pues $(g \circ X)[\Omega] = Y[\Omega]$). En este caso, el valor $g^{-1}(y)$ está bien definido, ya que $g^{-1}\colon (g \circ X)[\Omega]\to\RR$ es una función cuyo dominio es la imagen de $g$. De este modo, para cada $\omega\in\Omega$ tendremos que

\begin{align*} Y(\omega) \leq y &\iff X(\omega) \leq g^{-1}(y). \tag{$*$} \end{align*}

Como $g$ es una función estrictamente creciente, su inversa $g^{-1}\colon (g \circ X)[\Omega]\to\RR$ también es estrictamente creciente, y por lo tanto, la desigualdad en $(*)$ «no se voltea».

De lo anterior se sigue que $\Prob{Y \leq y} = \Prob{X \leq g^{-1}(y)}$ para cada $y \in (g \circ X)[\Omega]$. En consecuencia, se tiene que

\begin{align*} F_{Y}(y) = F_{X}(g^{-1}(y)). \end{align*}

Podemos diferenciar ambos lados de la igualdad respecto a $y$, y por la regla de la cadena obtenemos

\begin{align*} f_{Y}(y) &= f_{X}{\left( g^{-1}(y) \right)} \frac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \\[1em] &= f_{X}{\left( g^{-1}(y) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|}, \end{align*}

donde el último paso se obtiene de que $g^{-1}$ es estrictamente creciente, y por lo tanto, su derivada es positiva.

Por otro lado, resta el caso en el que $y \notin (g \circ X)[\Omega]$; es decir, cuando $y$ no es uno de los valores que puede tomar $Y$. En este caso, simplemente $f_{Y}$ vale $0$, pues la densidad de una v.a. continua es $0$ en aquellos valores que no toma. De este modo, $Y$ tiene densidad $f_{Y}\colon\RR\to\RR$ dada por

\begin{align*} f_{Y}(y) &= \begin{cases} f_{X}{\left( g^{-1}(y) \right)} {\left| \dfrac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|} & \text{si $y \in (g \circ X )[ \Omega ]$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}

que es justamente lo que queríamos demostrar.

El caso para $g$ estrictamente decreciente es casi análogo, por lo que te lo dejamos de tarea moral.

$\square$

Es importante notar que el teorema anterior no funciona para cualquier $g\colon\RR\to\RR$ Borel-medible, sólamente para aquellas que cumplen las hipótesis del teorema. Bajo estas hipótesis, el teorema permite obtener la densidad de la transformación de una v.a. de manera más eficiente que los otros métodos que hemos abordado.

Ejemplo 2. Sea $Z$ una v.a. con densidad $f_{Z}\colon\RR\to\RR$ dada por

\begin{align*} f_{Z}(z) &= \frac{1}{\sqrt{2\pi}} e^{-z^{2} / 2}, & \text{para cada $z \in \RR$}.\end{align*}

Se dice que una v.a. con esa función de densidad sigue una distribución normal estándar. Observa que $f_{Z}(z) > 0$ para todo $z \in \RR$, por lo que $Z[\Omega] = \RR$. Es decir, $Z$ puede tomar cualquier valor en $\RR$.

Sea $W = e^{Z}$. La función $\exp\colon\RR\to\RR^{+}$ dada por $\exp(x) = e^{x}$ es estrictamente creciente y diferenciable, por lo que podemos usar el teorema anterior para obtener la función de densidad de $W$. Así, tenemos que

\begin{align*} f_{W}(w) = f_{Z}{ \left(\exp^{-1}(w) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} w} {\left[ \exp^{-1}(w) \right]} \right|}, \end{align*}

donde $\exp^{-1}\colon\RR^{+}\to\RR$ es la inversa de la función exponencial $\exp$. De hecho, la inversa de $\exp$ es la función $\ln\colon\RR^{+}\to\RR$, el logaritmo natural. Ahora, como $Z[\Omega] = \RR$, se tiene que $(\exp{} \circ Z)[\Omega] = \RR^{+}$, pues la función $\exp{}$ toma únicamente valores positivos.

En consecuencia, para $w \in \RR^{+}$ se tiene

\begin{align*} f_{W}(w) &= f_{Z}{ \left(\ln(w) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} w} {\left[ \ln(w) \right]} \right|} \\[1em] &= f_{Z}{ \left(\ln(w) \right)} {\left| \frac{1}{w} \right|} \\[1em] &= \frac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \frac{(\ln(w))^{2}}{2}\right) }\end{align*}

y así, tenemos que $W$ tiene densidad $f_{W}\colon\RR\to\RR$ dada por

\begin{align*} f_{W}(w) &= \begin{cases} \dfrac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \dfrac{(\ln(w))^{2}}{2}\right) } & \text{si $w > 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Como nota adicional, $f_{W}$ es la densidad de una v.a. cuya distribución es conocida como log-normal.


Para concluir, es importante mencionar que la transformación $g$ del teorema sólamente necesita ser diferenciable y estrictamente creciente sobre $X[\Omega]$ (por eso es que en el enunciado la pusimos como $g\colon X[\Omega] \to \RR$). Por ejemplo, la función $g\colon\RR^{+}\cup\{0\}\to\RR$ dada por $g(x) = x^{2}$ es una función creciente sobre su dominio. Por ello, si $X$ es una v.a. continua que toma únicamente valores no-negativos, entonces puede aplicarse el teorema para obtener la densidad de $g(X)$. En resumidas cuentas, el teorema puede aplicarse siempre y cuando la transformación $g$ sea diferenciable y estrictamente creciente sobre el conjunto de valores que puede tomar $X$.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la función de distribución de la v.a. $X$ del Ejemplo 1 es la función que te dimos. Es decir, obtén la función de distribución de $X$ a partir de su función de densidad.
  2. Demuestra el caso en el que $g$ es estrictamente decreciente del teorema de cambio de variable.
  3. Retoma el segundo Ejemplo 2, pero esta vez comienza con la v.a. $W$, cuya función de densidad es \begin{align*} f_{W}(w) &= \begin{cases} \dfrac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \dfrac{(\ln(w))^{2}}{2}\right) } & \text{si $w > 0$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}y encuentra la función de densidad de $Z = \ln(W)$ usando el teorema.

Más adelante…

El teorema de esta entrada es muy útil para obtener la densidad (y, en consecuencia, la distribución) de muchas transformaciones de v.a.’s continuas. Por ello, nos será de utilidad en el futuro relativamente cercano, cuando veamos las distribuciones de probabilidad más conocidas. Por otro lado, te será de utilidad mucho más adelante en materias posteriores, pues este teorema puede generalizarse al caso en el que la transformación tiene como dominio a $\RR^{n}$ y como codominio a $\RR$ con $n \in \mathbb{N}^{+}$ y $n \geq 2$ (por ejemplo, $g\colon\RR^{2}\to\RR$ dada por $g(x, y) = x + y$).

En la siguiente entrada comenzaremos el estudio de un concepto asociado a las v.a.’s llamado el valor esperado de una variable aleatoria.

Entradas relacionadas

Probabilidad I: Transformaciones de Variables Aleatorias

Introducción

En la entrada pasada vimos el último tipo importante de v.a. que veremos, por ahora: las v.a.’s mixtas. En particular, vimos una manera de construir v.a.’s mixtas siguiendo un método muy sencillo: evaluando el $\max$ y el $\min$ en alguna v.a. continua. Esto puede pensarse como «transformar» la v.a. continua dada mediante las funciones $\max$ y $\min$. No sólamente la transformación fue posible, sino que además la función resultante es una v.a., y obtuvimos su función de distribución. Este proceso puede generalizarse para obtener la distribución de muchas más funciones de v.a.’s continuas.

Composición de funciones y variables aleatorias

Una de las cosas que hicimos en la entrada pasada fue ver que, dada una v.a. continua $X$, podíamos obtener v.a.’s mixtas a partir de $X$. Vamos a refinar un poco lo que hicimos en la entrada pasada. Sea $c\in\RR$, y sea $\mathrm{max}_{c}\colon\RR\to\RR$ la función dada por

\begin{align*} \mathrm{max}_{c}(x) &= \max{\left\lbrace x, c \right\rbrace}, & \text{para cada $x\in\RR$.} \end{align*}

De este modo, definimos una v.a. nueva $U$ como $U = \mathrm{max}_{c}(X)$. Sin embargo, ¿qué es exactamente «$\mathrm{max}_{c}(X)$»? Sabemos que $X$ es una «variable aleatoria», lo que significa que $U$ es como «evaluar» una función en una variable aleatoria. No obstante, esto no es otra cosa que… ¡una composición de funciones! Como recordatorio de Álgebra Superior I, dadas funciones $f\colon A\to B$, $g\colon B\to C$, la composición $g \circ f \colon A \to C$, llamada $f$ seguida de $g$, se define como

\begin{align*} g \circ f (x) &= g(f(x)), & \text{para cada $x\in A$.} \end{align*}

Recordando la definición de variable aleatoria, cuando tenemos un espacio de probabilidad $(\Omega, \mathscr{F}, \mathbb{P})$ sabemos que una función $X\colon\Omega\to\RR$ es una variable aleatoria si satisface una condición de «medibilidad», que dimos hace unas entradas. De momento, lo que más nos importa es que una v.a. es una función. En consecuencia, la v.a. $U$ que definimos no es otra cosa que $\mathrm{max}_{c} \circ X\colon\Omega\to\RR$, dada por

\begin{align*} \mathrm{max}_{c} \circ X (\omega) &= \max{\{ X(\omega), c \}}, & \text{para cada $x \in \Omega$}, \end{align*}

que es justamente como la definimos en la entrada anterior a esta. Ahora bien, dadas una v.a. $X\colon\Omega\to\RR$ y una función $g\colon\RR\to\RR$, hay que tener cuidado con $g$ para que $g \circ X$ sea una v.a., pues puede pasar que la función resultante no es una variable aleatoria, de acuerdo con la definición. Nosotros nos abstendremos de presentar casos degenerados de ese estilo, pero expondremos las condiciones que se necesitan para que una transformación de una v.a. sea nuevamente una v.a.

¿Cuáles funciones sí dan como resultado variables aleatorias?

Comenzaremos con una definición general del tipo de funciones que nos serán útiles.


Definición. Si $g\colon\RR\to\RR$ es una función, diremos que $g$ es una función Borel-medible si para cada $B \in \mathscr{B}(\RR)$ se cumple que $g^{-1}(B) \in \mathscr{B}(\RR)$.

Es decir, $g$ es una función Borel-medible si la imagen inversa de cualquier elemento del σ-álgebra de Borel es también un elemento del σ-álgebra de Borel.


Si recuerdas la definición de variable aleatoria, podrás observar que… ¡Es casi la misma! En realidad, ambas son el mismo concepto en la teoría más general: son funciones medibles. En particular, las funciones Borel-medibles reciben su nombre por el σ-álgebra que preservan: el σ-álgebra de Borel. De hecho, observa que las funciones Borel-medibles son un caso particular de nuestra definición de variable aleatoria, usando $(\RR, \mathscr{B}(\RR), \mathbb{P})$ como espacio de probabilidad. Por ello, todos los resultamos que hemos visto hasta ahora para v.a.’s aplican para funciones Borel-medibles.

Resulta que esta clase de funciones son aquellas que, al componer con una v.a., nos devuelven otra variable aleatoria.


Proposición. Sean $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad, $X\colon\Omega\to\RR$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible. Entonces $g \circ X \colon\Omega\to\RR$ es una variable aleatoria.


Demostración. Queremos demostrar que $g \circ X$ es una variable aleatoria. Es decir, que para cada $A \in \mathscr{B}(\RR)$ se cumple que $(g \circ X)^{-1}[A] \in \mathscr{F}$. Ahora, $(g \circ X)^{-1}[A] = X^{-1}[g^{-1}[A]]$, por propiedades de la imagen inversa. En consecuencia, hay que ver que para cada $A \in \mathscr{B}(\RR)$ se cumple que $X^{-1}[g^{-1}[A]] \in \mathscr{F}$.

Sea $A \in \mathscr{B}(\RR)$. Como $g$ es una función Borel-medible, esto implica que $g^{-1}[A] \in \mathscr{B}(\RR)$. Ahora, como $X$ es una variable aleatoria, $g^{-1}[A] \in \mathscr{B}(\RR)$ implica $X^{-1}[g^{-1}[A]] \in \mathscr{F}$, que es justamente lo que queríamos demostrar.

$\square$

Así, si $g\colon\RR\to\RR$ es una función Borel-medible y $X\colon\Omega\to\RR$ es una variable aleatoria, entonces $g \circ X$ es también una variable aleatoria.

Pero entonces, ¿qué funciones podemos usar?

A pesar de que lo anterior nos da muchas funciones con las cuales transformar v.a.’s, de momento quizás no conozcas ninguna función Borel-medible. No temas, el siguiente teorema nos da una gran cantidad de funciones que son Borel-medibles, y con las cuales seguramente te has encontrado antes.


Proposición. Si $g\colon\RR\to\RR$ es una función continua, entonces es Borel-medible.


Demostración. Sea $g\colon\RR\to\RR$ una función continua. Queremos demostrar que $g$ es Borel-medible. Es decir, que para cada $x \in \RR$, $X^{-1}[(-\infty, x)] \in \mathscr{B}(\RR)$.

Sea $x\in\RR$. Como $(-\infty, x)$ es un intervalo abierto, es un subconjunto abierto (en la topología usual) de $\RR$. En consecuencia, como $g$ es continua, $g^{-1}[(-\infty, x)]$ también es un subconjunto abierto de $\RR$.

Ahora, como $g^{-1}[(-\infty, x)]$ es un abierto, esto implica que existe una familia numerable de intervalos abiertos $\{ I_{n} \}_{n=1}^{\infty}$ tales que

\[ g^{-1}[(-\infty, x)] = \bigcup_{n=1}^{\infty} I_{n}. \]

Nota que como $I_{n}$ es un intervalo abierto, para cada $n \in \mathbb{N}^{+}$, entonces $I_{n} \in \mathscr{B}(\RR)$. Por lo tanto, $\bigcup_{n=1}^{\infty} I_{n} \in \mathscr{B}(\RR)$, que implica $g^{-1}[(-\infty, x)] \in \mathscr{B}(\RR)$, que es justamente lo que queríamos demostrar.

$\square$

Es muy probable que estés cursando Cálculo Diferencial e Integral III al mismo tiempo que esta materia, por lo que quizás no hayas visto algunos detalles de la topología usual de $\RR$ que utilizamos en la demostración anterior. Puedes consultar nuestras notas de Cálculo Diferencial e Integral III sobre el tema si lo consideras necesario.

Con esta última proposición hemos encontrado una gran cantidad de funciones válidas para transformar v.a.’s. Seguramente conoces muchísimas funciones continuas: los polinomios, funciones lineales, algunas funciones trigonométricas (como $\sin$ y $\cos$), etcétera.

Un primer método para obtener la distribución de una transformación

Una vez que conocemos muchas funciones con las cuales podemos transformar v.a.’s, nuestro objetivo es encontrar la distribución de tales transformaciones. Si $g\colon\RR\to\RR$ es una función Borel-medible y $X\colon\Omega\to\RR$ es una v.a. (cuya función de distribución es conocida), queremos encontrar la distribución de $Y = g \circ X$. Para hacerlo, basta con encontrar la probabilidad de los eventos de la forma

\begin{align*} (Y \leq y) = (g \circ X \leq y) = \{ \, \omega \in \Omega \mid g(X(\omega)) \leq y \, \}. \end{align*}

Es común encontrar la notación $g(X) = g \circ X$, y de este modo, se usa $(g(X) \leq y)$ para referirse a los eventos $(g \circ X \leq y)$.

Sin embargo, el caso de las v.a.’s discretas puede ser más sencillo, ya que la función de masa de probabilidad caracteriza el comportamiento de ese tipo de v’a’s. Veamos cómo hacerlo mediante el siguiente ejemplo.

Ejemplo. Sea $Z$ una v.a. con función de masa de probabilidad $p_{Z}\colon\RR\to\RR$ dada por

\begin{align*} p_{Z}(z) = \begin{cases} \dfrac{1}{5} & \text{si $z \in \{-2, -1, 0, 1, 2 \}$}, \\[1em] 0 & \text{en otro caso}. \end{cases}\end{align*}

Figura. Gráfica de la función de masa de probabilidad de $Z$.

Ahora, sea $g\colon\RR\to\RR$ la función dada por

\begin{align*} g(x) &= x^{2} & \text{para cada $x \in \RR$.} \end{align*}

Defínase $Y = g (Z)$, es decir, $Y = Z^{2}$. Primero, el conjunto de posibles valores que puede tomar $Y$ es

\[ \{\, z^2 \mid z \in \textrm{Im}(Z) \,\} = \{ (-2)^{2}, (-1)^{2}, 0^{2}, 1^{2}, 2^{2} \} = \{ 4, 1, 0, 1, 4 \} = \{ 0, 1, 4 \}. \]

Observa que $Y$ puede tomar $3$ valores distintos, mientras que $Z$ puede tomar $5$. Ya desde este momento se nota que las probabilidades de los eventos que involucran a $Y$ van a ser distintas a los de $Z$.

Sea $y \in \RR$. Para obtener la función de masa de probabilidad de $Y$ tenemos que obtener la probabilidad de los eventos de la forma $(Y = y)$. Este evento es

\[ (Y = y) = \{\,\omega\in\Omega\mid Y(\omega) = y \,\}, \]

Es decir, $\omega\in (Y=y) \iff Y(\omega) = y$. Usando la definición de $Y$, se tiene que

\begin{align*} \omega\in (Y = y) &\iff Y(\omega) = y \\[1em] &\iff (g \circ Z)(\omega) = y \\[1em] &\iff g(Z(\omega)) = y \\[1em] &\iff (Z(\omega))^{2} = y \\[1em] &\iff {\left|Z(\omega)\right|} = \sqrt{y} \\[1em] &\iff (Z(\omega) = \sqrt{y} \lor Z(\omega) = -\sqrt{y}), \end{align*}

esto es, $\omega$ es un elemento de $(Y=y)$ si y sólamente si $Z(\omega) = \sqrt{y}$ o $Z(\omega) = -\sqrt{y}$. Esto es equivalente a que $\omega \in (Z = \sqrt{y}) \cup (Z = -\sqrt{y})$, por lo que podemos concluir que

\[ (Y = y) = (Z = \sqrt{y}) \cup (Z = -\sqrt{y}). \]

En consecuencia, $\Prob{Y = y} = \Prob{(Z = \sqrt{y}) \cup (Z = -\sqrt{y})}$, y así:

\[ \Prob{Y = y} = \Prob{Z = \sqrt{y}} + \Prob{Z = -\sqrt{y}}. \]

Para $y < 0$, observa que

\[ (Z = \sqrt{y}) = \{\,\omega\in\Omega\mid Z(\omega) = \sqrt{y} \,\} = \emptyset, \]

pues $Z$ toma valores en los reales, no en los complejos. Del mismo modo, cuando $y < 0$, $(Z = -\sqrt{y}) = \emptyset$; y así,

\begin{align*} \Prob{Y = y} &= \Prob{Z = \sqrt{y}} + \Prob{Z = -\sqrt{y}} = 0, & \text{para $y < 0$.} \end{align*}

Por otro lado, para $y \geq 0$, sólamente hay $3$ valores que importan: $0$, $1$ y $4$, como acordamos previamente. Para el caso de $y = 0$, observa que $(Z = \sqrt{0}) \cup (Z = -\sqrt{0}) = (Z = 0)$, pues

\begin{align*} \omega \in (Z = \sqrt{0}) \cup (Z = -\sqrt{0}) &\iff (Z(\omega) = \sqrt{0} \lor Z(\omega) = -\sqrt{0}) \\[1em] &\iff (Z(\omega) = 0 \lor Z(\omega) = 0) \\[1em] &\iff Z(\omega) = 0 \\[1em] &\iff \omega \in (Z = 0). \end{align*}

Por lo tanto, se tiene que

\begin{align*}
\Prob{Y = 0} &= \Prob{Z = 0} = \frac{1}{5}.
\end{align*}

Para $y = 1$ y $y = 4$ sí podemos aplicar la fórmula que obtuvimos:

\begin{align*} \Prob{Y = 1} &= \Prob{Z = \sqrt{1}} + \Prob{Z = -\sqrt{1}} = \Prob{Z = 1} + \Prob{Z = -1} = \frac{1}{5} + \frac{1}{5} = \frac{2}{5}, \\[1em] \Prob{Y = 4} &= \Prob{Z = \sqrt{4}} + \Prob{Z = -\sqrt{4}} = \Prob{Z = 2} + \Prob{Z = -2} = \frac{1}{5} + \frac{1}{5} = \frac{2}{5}. \end{align*}

En conclusión, la función de masa de probabilidad de $Y$ es la función $p_{Y}\colon\RR\to\RR$ dada por

\begin{align*} p_{Y}(y) &= \begin{cases} \dfrac{1}{5} & \text{si $y = 0$,} \\[1em] \dfrac{2}{5} & \text{si $y = 1$ o $y = 4$,} \\[1em] 0 &\text{en otro caso.} \end{cases} \end{align*}

Figura. Función de masa de probabilidad de $Y$.

El ejemplo anterior ilustra lo que se debe de hacer para obtener las probabilidades de la transformación de una v.a. discreta. Sea $X\colon\Omega\to\RR$ una v.a. y sea $g\colon\RR\to\RR$ una función Borel-medible. Para cada $A \in \mathscr{B}(\RR)$, sabemos que el evento $(X \in A)$ no es otra cosa que $X^{-1}[A]$. Definimos la v.a. $Y$ como $Y = g(X)$. Ahora, sabemos que para cada $\omega\in\Omega$ se cumple que

\[ \omega \in X^{-1}[A] \iff X(\omega) \in A, \]

por la definición de imagen inversa. En consecuencia, para $(Y \in A)$ tenemos que

\begin{align*} \omega \in (Y \in A) &\iff \omega \in (g(X) \in A) \\[1em] &\iff g(X(\omega)) \in A \\[1em] &\iff X(\omega) \in g^{-1}[A] \\[1em] &\iff \omega \in (X \in g^{-1}[A]). \end{align*}

Por lo que $(Y \in A) = (X \in g^{-1}[A])$. Por ello, $\Prob{Y \in A} = \Prob{X \in g^{-1}[A]}$. Esto tiene sentido: como $Y = g(X)$, entonces la probabilidad de que $g(X)$ tome algún valor en $A$ es la misma que la probabilidad de que $X$ tome algún valor en $g^{-1}[A]$, pues todos los elementos de $g^{-1}[A]$ son mandados a $A$ cuando se les aplica $g$.

Finalmente, utilizando que $X$ es una v.a. discreta, tendremos que

\begin{align}\label{transf:1} \Prob{Y \in A} = \sum_{x \in g^{-1}[A]} \Prob{X = x}. \end{align}

En el caso particular en el que existe $y \in \RR$ tal que $A = \{ y \}$, tendremos que

\begin{align}\label{transf:2} \Prob{Y = y} = \sum_{x \in g^{-1}[\{ y\}]} \Prob{X = x}, \end{align}

justamente como hicimos en el ejemplo anterior. A continuación presentamos otro ejemplo siguiendo la misma metodología.

Ejemplo. Sea $V$ una v.a. con función de masa de probabilidad $p_{V}\colon\RR\to\RR$ dada por

\begin{align*} p_{V}(v) = \begin{cases} \dfrac{1}{2^{|v|+1}} & \text{si $v \in \{-3,-2,-1,1,2,3\}$}, \\[1em] \dfrac{1}{16} & \text{si $v = 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Figura. Gráfica de la función de masa de probabilidad de $V$.

Nuevamente, considera la transformación $g\colon\RR\to\RR$ dada por $g(x) = x^{2}$ para cada $x \in \RR$. De este modo, defínase la v.a. $T$ como $T = g(V)$. Antes que nada, el conjunto de valores que puede tomar $T$ es el resultado de transformar el conjunto de los valores que puede tomar $V$. Si $\mathrm{Supp}(V) = \{-3,-2,-1,0,1,2,3\}$ es el conjunto de valores que puede tomar $V$, entonces el conjunto de valores que puede tomar $T$ es

\[ g{\left( \mathrm{Supp}(V) \right)} = \{ \, t \in \RR \mid \exists v \in \mathrm{Supp}(V)\colon g(v) = t \, \} = \{0, 1, 4, 9 \}. \]

Como $g$ es la misma transformación que en el ejemplo anterior, hay algunas cosas que ya sabemos. Primero,

\begin{align*} \Prob{T = t} &= 0, & \text{para cada $t < 0$},\end{align*}

mientras que para $t = 0$, se tiene que $\Prob{T = 0} = \Prob{V = 0} = \frac{1}{8}$. Para $t > 0$, vimos previamente que $g^{-1}[\{t\}] = \{ \sqrt{t}, -\sqrt{t} \}$. Así, tendremos que

\begin{align*} \Prob{T = t} = \sum_{v \in g^{-1}[\{ t \}]} \Prob{V = v} = \Prob{V = \sqrt{t}} + \Prob{V = -\sqrt{t}}. \end{align*}

En particular, la v.a. $V$ sólamente toma probabilidades mayores a $0$ en $\{-3, -2, -1, 0, 1, 2, 3 \}$, por lo que $\Prob{T = t} > 0$ para $t \in \{0, 1, 4, 9 \}$, y $\Prob{T = t} = 0$ en otro caso. Así, tenemos que

\begin{align*} \Prob{T = 1} &= \Prob{V = \sqrt{1}} + \Prob{V = -\sqrt{1}} = \frac{1}{2^{|1| + 1}} + \frac{1}{2^{|-1|+1}} = \frac{1}{2^2} + \frac{1}{2^{2}} = \frac{2}{4} = \frac{1}{2}, \\[1em] \Prob{T = 4} &= \Prob{V = \sqrt{4}} + \Prob{V = -\sqrt{4}} = \frac{1}{2^{|2| + 1}} + \frac{1}{2^{|-2|+1}} = \frac{1}{8} + \frac{1}{8} = \frac{1}{4}, \\[1em] \Prob{T = 9} &= \Prob{V = \sqrt{9}} + \Prob{V = -\sqrt{9}} = \frac{1}{2^{|3| + 1}} + \frac{1}{2^{|-3|+1}} = \frac{1}{16} + \frac{1}{16} = \frac{1}{8}. \end{align*}

Alternativamente, podemos obtener una fórmula cerrada para cada $t \in \{1, 4, 9 \}$, que queda así:

\begin{align*} \Prob{T = t} = \Prob{V = \sqrt{t}} + \Prob{V = -\sqrt{t}} &= \frac{1}{2^{{\left|\sqrt{t}\right|} + 1}} + \frac{1}{2^{{\left|-\sqrt{t}\right|} + 1}} \\[1em] &= \frac{1}{2^{\sqrt{t} + 1}} + \frac{1}{2^{\sqrt{t} + 1}} \\[1em] &= \frac{2}{2^{\sqrt{t} + 1}} \\[1em] &= \frac{1}{2^{\sqrt{t}}}.\end{align*}

Y así obtenemos una expresión para la función de masa de probabilidad de $T$:

\begin{align*} p_{T}(t) = \begin{cases} \dfrac{1}{2^{\sqrt{t}}} & \text{si $t \in \{1,4,9\}$}, \\[1em] \dfrac{1}{8} & \text{si $t = 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Figura. Gráfica de la función de masa de probabilidad de $T$.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la función de masa de probabilidad de la v.a. $Z$ del primer ejemplo satisface las propiedades de una función de masa de probabilidad.
  2. Haz lo mismo para la función de masa de probabilidad de la v.a. $V$ del segundo ejemplo.
  3. Retomando los dos ejemplos vistos en esta entrada y las v.a.’s $Z$ y $V$ de cada ejemplo, y tomando la transformación $f\colon\RR\to\RR$ dada por $f(x) = x^{3} − x^{2} − 4x + 4$:
    1. Encuentra la función de masa de probabilidad de $f(Z)$.
    2. Encuentra la función de masa de probabilidad de $f(V)$.

Más adelante…

El método expuesto en esta entrada funciona para cualquier variable aleatoria discreta. No hay fórmulas «cerradas» para la f.m.p. (función de masa de probabilidad) de la transformación de una v.a. discreta. Sin embargo, las fórmulas \eqref{transf:1} y \eqref{transf:2} son suficientes para encontrar las probabilidades de eventos que involucran a la transformación de la v.a. discreta conocida. No obstante, estas fórmulas sólamente funcionan para v.a.’s discretas. Por ello, en la siguiente entrada centraremos nuestra atención en el caso de las v.a.’s continuas.

Entradas relacionadas