Probabilidad I: Valor Esperado de una Variable Aleatoria

Por Octavio Daniel Ríos García

Introducción

Una de las ideas de una medida de probabilidad era que cuantifica, entre el $0$ y el $1$, qué tan probable es que ocurra un evento. Por ello, si nosotros multiplicamos los valores que puede tomar una v.a. mediante su probabilidad de ocurrencia, y luego los sumamos, el resultado sería un promedio ponderado de los valores que puede tomar la v.a.; donde el criterio de ponderación es precisamente la probabilidad de ocurrencia. Aquellos resultados con mayor probabilidad pesan más en este «promedio ponderado».

En el caso de $X$ una v.a. discreta, la manera de obtener este promedio ponderado es directa, pues existen $x \in \RR$ tales que $\Prob{X = x} > 0$, así que la expresión resultante es una suma. Sin embargo, en el caso continuo, la idea se preserva, pero la definición es más sutil, pues cuando $X$ es una v.a. continua, $\Prob{X = x} = 0$ para cada $x \in \RR$.

Motivación para el caso discreto

Para empezar, vamos a definir el valor esperado de una v.a. discreta. En este caso, la noción de «promedio ponderado» ocurre naturalmente, pues una v.a. discreta puede tomar valores dentro de un conjunto a lo más infinito numerable.

Primero, vamos a dar la idea general. Cuando se nos dan $x_{1}$, …., $x_{n} \in \RR$ números reales, con $n \in \mathbb{N}^{+}$, el promedio (o la media aritmética) de estos valores es

\begin{align*} \tfrac{1}{n}x_{1} + \tfrac{1}{n}x_{2} + \cdots + \tfrac{1}{n}x_{n} = \frac{1}{n} \sum_{k=1}^{n} x_{n}. \end{align*}

La media aritmética nos ayuda a resumir ciertas nociones de un conjunto de números. Más precisamente, nos da una idea de dónde están centrados los elementos de ese conjunto. Esto pasa porque en la media aritmética, cada uno de los números pesa lo mismo, debido a que en la suma, todos tienen el mismo coeficiente: $\frac{1}{n}$.

Sin embargo, no necesariamente queremos que todos los valores tengan el mismo peso al tomar el promedio. Puede que existan razones para que queramos que cada uno contribuya de manera distinta a la media. Para generalizar la media aritmética, sean $p_{1}$, …, $p_{n} \in [0,1]$. El valor $p_{i}$ representa el peso asociado al valor $x_{i}$, que a grandes rasgos sería la importancia de $x_{i}$ en el contexto en el que se toma el promedio. De este modo, el promedio ponderado de los $x_{i}$ es

\begin{align*} p_{1} x_{1} + p_{2} x_{2} + \cdots + p_{n} x_{n} = \sum_{k=1}^{n} p_{k} x_{k} \end{align*}

Precisamente, en el contexto de la probabilidad, cada posible valor de la v.a. discreta tiene un peso asociado: ¡la probabilidad de que la v.a. tome ese valor! Como es de esperarse de una media o promedio, el valor esperado debería de expresar la tendencia central del comportamiento probabilístico de una variable aleatoria, y en efecto, se cumple esa idea porque el peso asociado a cada valor es su probabilidad de ocurrencia.

Definición del valor esperado en el caso discreto

De acuerdo con la motivación anterior, presentamos la definición del valor esperado de una v.a. discreta.


Definición. Sea $X\colon\Omega\to\RR$ una variable aleatoria discreta. Definimos el valor esperado de $X$ (o la esperanza de $X$) como

\begin{align*} \Esp{X} &= \sum_{\omega\in\Omega} X(\omega) \Prob{\{ \omega \}}, \end{align*}

siempre que esta suma sea absolutamente convergente. Es decir, si

\begin{align*} \sum_{\omega\in\Omega} {\left|X(\omega) \Prob{\{\omega\}}\right|} < \infty. \end{align*}

En caso de que la suma no sea convergente, se dice que el valor esperado de \(X\) no está definido, o que es infinito.


La definición anterior va a ser de muchísima utilidad para algunas demostraciones, pero puede que no sea muy útil para hacer cálculos en casos concretos. Por ello, veamos una manera equivalente de definirla.

Para ello, como $X$ es una v.a. discreta, sea $\{ x_{k} \}_{k=1}^{\infty}$ el conjunto de valores que puede tomar $X$. Es decir, $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$. Ahora, observa que para cada $k \in \mathbb{N}^{+}$ se tiene que

\begin{align*} X(\omega) = x_{k} &\iff \omega \in X^{-1}[\{ x_{k} \}] \iff \omega \in (X = x_{k}). \end{align*}

En consecuencia, se tiene que

\begin{align*} \sum_{\omega \in (X = x_{k})} X(\omega) \Prob{\{\omega\}} &= \sum_{\omega \in (X = x_{k})} x_{k} \Prob{\{ \omega \}} \\[1em] &= x_{k} \sum_{\omega \in (X = x_{k})} \Prob{\{ \omega \}} \\[1em] &= x_{k} \Prob{X = x_{k}}.\end{align*}

De acuerdo con la definición de valor esperado, se tiene que

\begin{align*} \Esp{X} &= \sum_{\omega\in\Omega} X(\omega) \Prob{\{ \omega \}}. \end{align*}

Ahora, la suma anterior puede expresarse de manera diferente. Como $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$ y $\{ x_{k} \}_{k=1}^{\infty} = \bigcup_{k=1}^{\infty} \{ x_{k} \}$, se tiene que

\begin{align*} \Omega &= X^{-1}[X[\Omega]] \\[1em] &= X^{-1}{\left[ \bigcup_{k=1}^{\infty} \{x_{k}\} \right]} \\[1em] &= \bigcup_{k=1}^{\infty} X^{-1}[\{ x_{k} \}] \\[1em] &= \bigcup_{k=1}^{\infty}(X = x_{k}). \end{align*}

Así, podemos reacomodar la suma del valor esperado para obtener

\begin{align*} \sum_{\omega\in\Omega} X(\omega) \Prob{\{\omega\}} &= \sum_{k=1}^{\infty} \sum_{\omega\in (X = x_{k})} X(\omega) \Prob{\{\omega \}} \\[1em] &= \sum_{k=1}^{\infty} x_{k} \Prob{X = x_{k}}. \end{align*}

En conclusión, obtenemos que si $X$ es una v.a. discreta que toma valores en el conjunto $\{ x_{k} \}_{k=1}^{\infty}$, entonces el valor esperado de $X$ es

\begin{align*} \Esp{X} = \sum_{k=1}^{\infty} x_{k} \mathbb{P}{\left(X = x_{k}\right)}.\end{align*}

Finalmente, recordando que $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$, lo anterior nos queda como

\begin{align*} \Esp{X} = \sum_{x \in X[\Omega]} x \Prob{X = x}.\end{align*}

que nos da una expresión alternativa para el valor esperado de una v.a. discreta.


Definición (Alternativa). Sea $X$ una v.a. discreta. Definimos el valor esperado de $X$ (o esperanza de $X$) como

\begin{align*} \Esp{X} = \sum_{x \in X[\Omega]} x \Prob{X = x}, \end{align*}

siempre que la suma anterior sea absolutamente convergente. Es decir,

\begin{align*} \sum_{x\in X[\Omega]} {\left|x \Prob{X = x} \right|} < \infty. \end{align*}

En caso de que la suma no no sea convergente, se dice que el valor esperado de \(X\) no está definido, o que es infinito.


Ejemplo 1. Una v.a. discreta no necesariamente toma su valor esperado. Esto choca un poco con el término «valor esperado», pues al ser el valor «esperado» de la v.a., tendría sentido que sea alguno de los valores que puede tomar. Sea $X\colon\Omega\to\RR$ una v.a. con función de masa de probabilidad $p_{X}\colon\RR\to\RR$ dada por

\begin{align*} p_{X}(x) &= \begin{cases} \dfrac{1}{2} & \text{si $x \in \{ 0, 1\}$}, \\[1em] 0 &\text{en otro caso}. \end{cases} \end{align*}

De este modo, el conjunto de valores que puede tomar $X$ es $\{0, 1\}$. Es decir, $X[\Omega] = \{0,1\}$. Ahora obtengamos $\Esp{X}$,

\begin{align*} \Esp{X} &= 0 \cdot \Prob{X = 0} + 1 \cdot \Prob{X = 1} = 1 \cdot \Prob{X = 1} = 1 \cdot \frac{1}{2} = \frac{1}{2}. \end{align*}

Es decir, $\Esp{X} = \frac{1}{2}$: el «valor esperado» de $X$ es $\frac{1}{2}$… sin embargo, $\frac{1}{2}$, y $\frac{1}{2} \notin X[\Omega]$, por lo que de ninguna manera se esperaría que $X$ tome el valor $\frac{1}{2}$.

Sin embargo, si repitiéramos muchas veces a la v.a. $X$, el centroide (la media aritmética) de los valores observados en esas repeticiones se acercará cada vez más a $\Esp{X}$. Eso es algo que mostramos (sin muchos detalles) en la entrada del enfoque frecuentista. Es por esto que dijimos que el valor esperado de $X$ expresa la tendencia central del comportamiento probabilístico de $X$, pero no debe de pensarse como el valor a «esperar» cuando se observe $X$. Más adelante demostraremos formalmente las ideas de este ejemplo.


Ejemplo 1. Hay v.a.’s discretas que toman valores dentro de $\mathbb{N}$, por lo que su valor esperado es una serie. Sea $Y$ una v.a. con función de masa de probabilidad $p_{Y}\colon\RR\to\RR$ dada por

\begin{align*} p_{Y}(y) &= \begin{cases} (1 − p)^{y}p & \text{si \(y\in\mathbb{N}\),} \\[1em] 0 & \text{en otro caso,}\end{cases} \end{align*}

donde \(p \in (0,1)\). Procedamos a calcular el valor esperado de \(Y\). Por definición, sabemos que

\begin{align*} \Esp{Y} &= \sum_{y\in Y[\Omega]} y \Prob{Y = y} \\[1em] &= \sum_{y\in\mathbb{N}} y \Prob{Y = y} \\[1em] &= \sum_{y=0}^{\infty} y\Prob{Y = y} \\[1em] &= \sum_{y=0}^{\infty} y (1 − p)^{y} p. \end{align*}

Ahora, como el índice \(y\) comienza en \(0\), el primer término de la serie es \(0 \cdot (1 − p)^{0}p = 0\), por lo que podemos empezar la serie en \(1\). Así,

\begin{align} \label{eq:serie}\Esp{Y} &= \sum_{y=1}^{\infty} y(1 − p)^{y}p = p\sum_{y=1}^{\infty} y(1 − p)^{y}. \end{align}

Lo que haremos será reacomodar la serie \eqref{eq:serie} de manera conveniente para poder obtener su valor. Sin embargo, para hacer posible el reacomodo es necesario verificar que la serie es convergente. Para ello, podemos utilizar el criterio del cociente de d’Alembert. Para cada \(n\in\mathbb{N}^{+}\), sea \(a_{n} = n(1 − p)^{n}\). Es decir, \(a_{n}\) es el \(n\)-ésimo término de la serie. El criterio de d’Alembert nos dice que si

\begin{align*} \lim_{n\to\infty} \left| \frac{a_{n+1}}{a_{n}} \right| = r \end{align*}

con \(r < 1\), entonces la serie \(\sum_{n=1}^{\infty} a_{n}\) es absolutamente convergente. Primero desarrollaremos la expresión \(\left|\frac{a_{n+1}}{a_{n}}\right|\):

\begin{align*} \left| \frac{a_{n+1}}{a_{n}} \right| &= \left| \frac{(n+1)(1 − p)^{n+1}}{n(1 − p)^{n}} \right|. \end{align*}

Observa que en la expresión de la derecha tenemos \((1 − p)^{n+1}\) en el numerador, y \((1 − p)^{n}\) en el denominador, por lo que

\begin{align*} \left| \frac{(n+1)(1 − p)^{n+1}}{n(1 − p)^{n}} \right| &= \left| \frac{(n+1)(1 − p)^{n+1 − n}}{n} \right| \\[1em] &= \left| \frac{(n+1)(1 − p)}{n} \right|. \end{align*}

Además, \(1 − p > 0\), ya que \(p \in (0,1)\), y también se cumple que \(n > 0\), \(n + 1 > 0\), por lo que

\begin{align*} \left| \frac{(n+1)(1− p)}{n} \right| &= \frac{(n+1)(1− p)}{n}, \end{align*}

y podemos seguir desarrollando esta última expresión:

\begin{align*} \frac{(n+1)(1− p)}{n} &= (1 − p){\left(\frac{n+1}{n}\right)} \\[1em] &= (1 − p){\left(1 + \frac{1}{n} \right)}. \end{align*}

En consecuencia, el límite del criterio de d’Alembert nos queda

\begin{align*} \lim_{n\to\infty} \left| \frac{a_{n+1}}{a_{n}} \right| &= \lim_{n\to\infty} (1 − p){\left(1 + \frac{1}{n} \right)} \\[1em] &= (1 − p) \lim_{n\to\infty} {\left(1 + \frac{1}{n} \right)} \\[1em] (1 − p), \end{align*}

así que \(r = 1 − p\), y como \(p \in (0,1)\), se tiene que \( 1 − p < 1\). En conclusión, queda demostrado que la serie \eqref{eq:serie} es absolutamente convergente. Por ello, podemos reacomodar los términos de maneras distintas. En particular, observa que la serie en \eqref{eq:serie} (sin modificar) tiene la siguiente forma:

\begin{align*} \sum_{y=1}^{\infty} y(1 − p)^{y} = (1 − p) + 2 (1 − p)^{2} + 3 (1 − p)^{3} + 4(1 − p)^{4} + \cdots \end{align*}

Sin embargo, podemos ver la progresión anterior como

\begin{alignat*}{7} (1 − p) + 2 (1 − p)^{2} + 3 (1 − p)^{3} + 4(1 − p)^{4} + \cdots &{}={}& (1 − p) & + (1 − p)^{2} & + (1 − p)^{3} & + (1 − p) ^{4} & + \cdots \\[1em] & & & + (1 − p)^{2} & + (1 − p)^{3} & + (1 − p)^{4} &+ \cdots \\[1em] & & & & (1 − p)^{3} & + (1 − p) ^{4} & + \cdots \\[1em] & & & & & + (1 − p) ^{4} & + \cdots \\[1em] & & & & & \vdots & , \end{alignat*}

y así sucesivamente. Entonces la serie de \eqref{eq:serie} puede reacomodarse como una «serie de series», en el sentido de que podemos reacomodarla como una serie cuyos términos son series:

\begin{align}\label{eq:reacom} p\sum_{y=1}^{\infty} y(1 − p)^{y} &= p\sum_{y=1}^{\infty} \sum_{x=y}^{\infty} (1 − p)^{x}. \end{align}

Ahora, las series «dentro» de la otra serie comienzan en el índice \(y\), por lo que las series de la forma \(\sum_{x=y}^{\infty}(1 − p)^{x}\) pueden reescribirse como

\begin{align} \label{eq:moral1} \sum_{x=y}^{\infty}(1 − p)^{x} &= \sum_{x=0}^{\infty}(1 − p)^{x+y},\end{align}

pues observa que los términos no se ven afectados. Escribe los primeros términos de ambas series, y observa cómo coinciden. Como \(y\) es un valor constante con respecto al índice \(x\), se tiene que

\begin{align*} \sum_{x=0}^{\infty}(1 − p)^{x+y} &= (1 − p)^{y}\sum_{x=0}^{\infty} (1 − p) ^{x} = (1 − p)^{y} {\left(\frac{1}{1 − (1 − p)}\right)} = \frac{(1 − p)^{y}}{p}. \end{align*}

En los últimos pasos del desarrollo anterior usamos que la serie es una serie geométrica. Volviendo a \eqref{eq:reacom}, vemos que

\begin{align*} p\sum_{y=1}^{\infty} y(1 − p)^{y} &= p\sum_{y=1}^{\infty} \sum_{x=y}^{\infty} (1 − p)^{x} \\[1em] &= p\sum_{y=1}^{\infty} \frac{(1 − p)^{y}}{p} \\[1em] &= \sum_{y=1}^{\infty} (1 − p)^{y}, \end{align*}

que también es una serie geométrica, que empieza en \(1\). El valor de esta serie es

\begin{align} \label{eq:moral2} \sum_{y=1}^{\infty} (1 − p)^{y} &= \frac{ 1 − p }{1 − (1 − p) } = \frac{1 − p}{p}, \end{align}

así que podemos concluir que el valor esperado de \(Y\) es

\begin{align*} \Esp{Y} &= \frac{1 − p}{p}. \end{align*}


¿Podemos hacer lo mismo para las v.a.’s continuas?

Hay dos motivos por los que el valor esperado de una v.a. continua difiere del de una v.a. discreta. El primero es que si replicamos la idea para una v.a. discreta, la suma resultante para una v.a. continua $X$ es

\begin{align*} \sum_{x \in X[\Omega]} x \Prob{X = x}, \end{align*}

que es una suma con una cantidad infinita no numerable de términos, pues $X$ es una v.a. continua. Sin embargo, ese no es el único problema: como $X$ es una v.a. continua, entonces para cada $x \in \RR$ se tiene que $\Prob{X = x} = 0$, por lo que la suma anterior sería $0$ de cualquier manera.

Por ello, debemos de retomar el método para el cálculo de probabilidades en el caso de una v.a. continua. Esto es, si $X$ es una v.a. continua, entonces para $a$, $b \in \RR$ tales que $a < b$ se tiene que

\begin{align*} \Prob{X \in (a, b]} = \int_{a}^{b} f_{X}(x) \, \mathrm{d}x \end{align*}

donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$. Integrar la función de densidad de $X$ sobre el intervalo $(a,b]$ nos da como resultado la probabilidad de que $X$ esté dentro de $(a,b]$. Por ello, para $\varepsilon > 0$ tal que $\varepsilon$ es cercano a $0$, y para $x \in \RR$, se tiene que

\begin{align*} \Prob{X \in {\left(x − \tfrac{\varepsilon}{2}, x + \tfrac{\varepsilon}{2} \right]} } = \int_{x − \varepsilon/2}^{x + \varepsilon/2} f_{X}(t) \, \mathrm{d}t \approx \varepsilon f_{X}(x). \end{align*}

Esto obedece a que si $\varepsilon$ es muy cercano a $0$, entonces el valor de la integral sobre el intervalo ${\left(x − \tfrac{\varepsilon}{2}, x + \tfrac{\varepsilon}{2} \right]}$ será muy parecido al área del rectángulo cuya base es ese mismo intervalo y que tiene altura igual a $f_{X}(x)$.

Lo anterior quiere decir que la probabilidad de que $X$ se encuentre dentro de una vecindad de diámetro $\varepsilon > 0$ centrada en $x$ es muy parecida a $\varepsilon f_{X}(x)$ cuando $\varepsilon$ es un valor muy pequeño.

Las ideas anteriores son importantes, pues nos dicen que aunque $f_{X}(x)$ no es la probabilidad de que $X$ tome el valor $x$, sí guarda cierta relación con la probabilidad de que $X$ se encuentre muy cerca de $x$. De hecho, la discusión anterior (junto con la motivación de la integral de Riemann) nos dice que integrar

\begin{align*} \int_{a}^{b} f_{X}(t) \, \mathrm{d}t \end{align*}

es como «sumar» las probabilidades de estar muy cerca de cada uno de los puntos en $(a, b]$, de la manera más refinada posible. Por ello, si tomamos la integral

\begin{align*} \int_{a}^{b} t f_{X}(t) \, \mathrm{d}t, \end{align*}

este valor será como «sumar» todos los valores en $(a, b]$ ponderados por la probabilidad de estar muy cerca de cada uno de ellos. ¡Esa es justamente la idea del valor esperado! Con esto ya estamos listos para definir el valor esperado de una v.a. continua.

Definición del valor esperado en el caso continuo

Al final de la discusión anterior llegamos a una expresión que captura la misma idea de un promedio ponderado, pero para el caso continuo. Es decir, la idea es la misma que en el caso de una v.a. discreta, pero en vez de sumar, tomamos una integral. Además, para obtener el valor esperado de una v.a. continua será necesario tomar la integral sobre todo $\RR$. Esto da pie a la definición que presentamos a continuación.


Definición. Sea $X\colon\Omega\to\RR$ una variable aleatoria continua. Definimos el valor esperado de $X$ (o la esperanza de $X$) como

\begin{align*} \Esp{X} &= \int_{-\infty}^{\infty} x f_{X}(x) \, \mathrm{d}x, \end{align*}

siempre que esta integral sea absolutamente convergente. Esto es,

\begin{align*} \int_{-\infty}^{\infty} {\left|x f_{X}(x) \right|} \, \mathrm{d}x < \infty, \end{align*}

donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$. En caso de que la integral no sea absolutamente convergente, se dice que el valor esperado de $X$ no está definido, o que es infinito.


En este caso no tenemos una versión formal como la primera que dimos del valor esperado de una v.a. discreta. Para la construcción de una definición así es necesario contar con una herramienta que no hemos construido en este curso, y es probable que no conozcas: la integral de Lebesgue. Por ello, algunas propiedades del valor esperado en el caso continuo serán más complicadas de demostrar. No obstante, la definición que hemos dado es suficiente para calcular el valor esperado de cualquier v.a. continua que se te ocurra.

Ejemplo 2. Como el valor esperado de una v.a. continua está dado por una integral, es recomendable que recuerdes los métodos de integración que viste en tu curso de Cálculo Diferencial e Integral II. Si lo necesitas, puedes hacer click aquí para consultar nuestras notas de esa materia.

Sea $Z$ una v.a. continua con distribución exponencial con parámetro $\lambda > 0$. Es decir, $Z$ tiene función de densidad $f_{Z}\colon\RR\to\RR$ dada por

\begin{align*} f_{Z}(z) = \begin{cases} \lambda e^{-\lambda z} & \text{si $z \geq 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Veamos cuál es el valor esperado de $Z$. Para ello, primero observa que como $f_{Z}(z) = 0$ para cada $z < 0$, se tiene que

\begin{align*} \Esp{Z} = \int_{-\infty}^{\infty} z f_{Z}(z) \, \mathrm{d}z = \int_{0}^{\infty} z f_{Z}(z) \, \mathrm{d}z. \end{align*}

Esto es algo que siempre hay que revisar al momento de calcular el valor esperado de una v.a. continua: la integral se reduce al subconjunto de $\RR$ sobre el que la función de densidad es mayor a $0$.

De este modo, tenemos que

\begin{align*} \Esp{Z} &= \int_{0}^{\infty} z {\left( \lambda e^{-\lambda z} \right)} \, \mathrm{d}z, \end{align*}

que es una integral que podemos resolver mediante el método de integración por partes. Para ello, sea $u = z$ y $dv = \lambda e^{-\lambda z}$. De este modo, tendremos que $v = -e^{-\lambda z}$ y $du = dz$, así que

\begin{align*} \int_{0}^{\infty} z {\left( \lambda e^{-\lambda z} \right)} \, \mathrm{d}z &= {\left( -z e^{-\lambda z} \right)} \Big|_{0}^{\infty} + \int_{0}^{\infty} e^{-\lambda z} \, \mathrm{d} z \\[1em] &= {\left[ 0 \cdot e^{-\lambda \cdot 0} − \lim_{z\to\infty} z e^{-\lambda z} \right]} + \frac{1}{\lambda}\int_{0}^{\infty} \lambda e^{-\lambda z} \\[1em] &= {\left[ 0 − \lim_{z\to\infty} \frac{z}{e^{\lambda z}} \right]} + \frac{1}{\lambda} {\left( − e^{-\lambda z} \right)}\Big|_{0}^{\infty} \\[1em] &= {\left[ 0 − 0 \right]} + \frac{1}{\lambda}{\left[ e^{-\lambda \cdot 0} − \lim_{z\to\infty} e^{-\lambda z}\right]} \\[1em] &= \frac{1}{\lambda}{\left[ 1 − 0 \right]} \\[1em] &= \frac{1}{\lambda}.\end{align*}

Por lo tanto, se concluye que

\begin{align*} \Esp{Z} = \frac{1}{\lambda}. \end{align*}

Es decir, el valor esperado de una v.a. con distribución exponencial de parámetro $\lambda$ es $\frac{1}{\lambda}$.


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la identidad \eqref{eq:moral1} es verdadera. Sugerencia: Escribe los primeros términos de ambas series, y observa que coinciden.
  2. Dados \(r \in (0,1)\) y \(a \in \RR\), conocemos el valor de la serie geométrica con coeficiente \(a\) y razón \(r\):\begin{align*}\sum_{n=0}^{\infty} ar^{n} = \frac{a}{1 − r},\end{align*} donde es importante notar que la serie empieza en \(0\). No obstante, en \eqref{eq:moral2} nosotros usamos el valor de una serie geométrica que empieza en \(1\). ¿Cómo le haces para pasar de la versión que empieza en \(0\) a la versión que empieza en \(1\)?
  3. Sean $a$, $b \in \RR$ tales que $a < b$. Una v.a. con distribución uniforme sobre el intervalo $[a,b]$ es una v.a. $U$ con función de densidad $f_{U}\colon\RR\to\RR$ dada por\[ f_{U}(u) = \begin{cases} \dfrac{1}{b − a} & \text{si $u \in [a,b]$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \]¿Cuál es el valor esperado de $U$?

Más adelante…

El valor esperado (o esperanza) es un valor importante que intenta resumir una parte del comportamiento probabilístico de una v.a. Por ello, su uso es muy común en contextos aplicados en los que se busca analizar cuantitativamente un fenómeno aleatorio, como la inferencia estadística (y sus ramas).

En la siguiente entrada comenzaremos el estudio de algunas propiedades importantes del valor esperado.

Entradas relacionadas

Probabilidad I: Transformaciones de V.A.’s Continuas

Por Octavio Daniel Ríos García

Introducción

En la entrada pasada comenzamos a abordar el problema de encontrar la distribución de la transformación de una v.a. conocida. En particular, analizamos un método para el caso en el que la v.a. conocida es discreta, y sólamente para ese caso. No obstante, este método nos servirá como «base» para dar paso al caso continuo. Primero presentaremos un método que consiste en manipular directamente la función de distribución; muy parecido al método que vimos en la entrada pasada. Después, analizaremos un método más especializado que permite encontrar la función de densidad de la transformación de una v.a. sin necesidad de manipular la función de distribución.

Motivación del primer método

Sea $X$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible. En la entrada pasada ya describimos el proceso para obtener los eventos de $g(X)$ en términos de eventos que involucran a $X$. De hecho, vimos que para cada $A \in \mathscr{B}(\RR)$ se cumple que

\begin{align*} (g(X) \in A) = (X \in g^{-1}[A]). \end{align*}

¡Atención! En la entrada pasada centramos nuestra atención en las v.a.’s discretas, pero la igualdad anterior es cierta para cualquier variable aleatoria. Por ello, también aplica para las v.a.’s continuas. En particular, para cada $y \in \RR$ se cumple que $(-\infty, y] \in \mathscr{B}(\RR)$, por lo que

\begin{align*} {\left(g(X) \leq y\right)} = \left(g(X) \in (-\infty, y]\right) = {\left(X \in g^{-1}[(-\infty, y]]\right)}. \end{align*}

Por lo tanto, se tiene que

\begin{align*} \Prob{g(X) \leq y} = \Prob{X \in g^{-1}[(-\infty, y]]}. \end{align*}

Es decir, si definimos a $Y = g(X)$ y $F_{Y}\colon\RR\to\RR$ es la función de distribución de $Y$, entonces lo anterior quiere decir que para cada $y \in \RR$,

\begin{align*} F_{Y}(y) = \Prob{X \in g^{-1}[(-\infty, y]]}; \end{align*}

por lo que es posible obtener la distribución de $Y$ en términos de la probabilidad de un evento que involura a $X$, cuya distribución sí conocemos.

Primer método: manipular la función de distribución

Con la discusión anterior llegamos a que si $X$ es una v.a. (cuya distribución es conocida), $g\colon\RR\to\RR$ es una función Borel-medible, y $Y$ es la v.a. definida como $Y = g(X)$, entonces la función de distribución de $Y$, $F_{Y}\colon\RR\to\RR$, puede obtenerse como

\begin{align*} F_{Y}(y) &= \Prob{X \in g^{-1}[(-\infty, y]]} & \text{para cada $y \in \RR$.} \end{align*}

Por ello, el problema consistirá en encontrar el conjunto $g^{-1}[(-\infty, y]]$, y así encontrar la probabilidad de ${\left(X \in g^{-1}[(-\infty, y]]\right)}$.

Ejemplo 1. Sea $X$ una v.a. con función de densidad $f_{X}\colon\RR\to\RR$ dada por

\begin{align*} f_{X}(x) &= \frac{1}{2}e^{-{\left| x \right|}}, & \text{para cada $x \in \RR$}. \end{align*}

Una v.a. con esta función de densidad es conocida como una v.a. con distribución Laplace, o distribución doble exponencial. Su función de distribución $F_{X}\colon\RR\to\RR$ está dada por

\begin{align*} F_{X}(x) &= \begin{cases} \dfrac{1}{2}e^{x} & \text{si $x < 0$}, \\[1em] 1 − \dfrac{1}{2} e^{-x} & \text{si $x \geq 0$}. \end{cases}\end{align*}

Sea $g\colon\RR\to\RR$ la función dada por $g(x) = |x|$ para cada $x \in \RR$. De este modo, defínase $Y = g(X) = {\left| X \right|}$. Para obtener la función de distribución $Y$, podemos seguir un método similar al que usamos en la entrada anterior. Sea $y \in \RR$. Un primer detalle que podemos observar sobre $Y$ es que no toma valores negativos. Por ello, si $y < 0$, se tiene que $(Y \leq y) = \emptyset$, y en consecuencia, $\Prob{Y \leq y} = 0$ para $y < 0$. Por otro lado, para $y \geq 0$ se tiene que que

\begin{align*} \omega \in (Y \leq y) &\iff Y(\omega) \leq y \\[1em] &\iff |X(\omega)| \leq y \\[1em] &\iff -y \leq X(\omega) \leq y \\[1em] &\iff \omega \in ( -y \leq X \leq y ), \end{align*}

por lo que para cada $y \geq 0$ se tiene que $(Y \leq y) = (-y \leq X \leq y)$. Como esos dos eventos son iguales, se sigue que $\Prob{Y \leq y} = \Prob{ -y \leq X \leq y}$. , por lo queAdemás, nota que

\begin{align*} \Prob{-y \leq X \leq y} &= \Prob{X \leq y} − \Prob{X < -y} \\[1em] &= \Prob{X \leq y} − \Prob{X \leq -y} \tag{$*$} \\[1em] &= F_{X}(y) − F_{X}(-y), \end{align*}

donde el paso $(*)$ es válido debido a que $X$ es una v.a. continua. Por ello, podemos concluir que para cada $y \geq 0$,

\begin{align*} F_{Y}(y) = F_{X}(y) − F_{X}(−y). \end{align*}

Por lo tanto, la función de distribución de $Y$ queda como sigue:

\begin{align*} F_{Y}(y) &= \begin{cases} 0 & \text{si $y < 0$}, \\[1em] F_{X}(y) − F_{X}(-y) & \text{si $y \geq 0$}. \end{cases} \end{align*}

De aquí podemos obtener una expresión explícita. Para cada $y \geq 0$ se tiene que $-y \leq 0$, así que

\begin{align*} F_{X}(y) − F_{X}(-y) &= {\left(1 − \frac{1}{2}e^{-y}\right)} − \frac{1}{2}e^{-y} \\[1em] &= 1 − \frac{1}{2}e^{-y} − \frac{1}{2}e^{-y} \\[1em] &= 1 − e^{-y}. \end{align*}

En conclusión, la función de distribución de $Y$ queda así:

\begin{align*} F_{Y}(y) &= \begin{cases} 0 & \text{si $y < 0$}, \\[1em] 1 − e^{-y} & \text{si $y \geq 0$}. \end{cases} \end{align*}

Probablemente te resulte familiar: ¡Es la función de distribución de una v.a. exponencial! Este ejemplo exhibe que algunas transformaciones de algunas v.a.’s «famosas» resultan en otras v.a.’s «famosas». En este caso, vimos que si $X$ es una v.a. que sigue una distribución Laplace, entonces $|X|$ sigue una distribución exponencial. Más adelante veremos muchas más distribuciones importantes, y veremos cómo se relacionan entre sí mediante transformaciones.


Segundo método: teorema de cambio de variable

Existe un método más especializado para obtener la función de densidad de la transformación de una v.a. continua. La razón por la que decimos que es más especializado es porque funciona para transformaciones que cumplen ciertas condiciones.


Teorema. Sea $X\colon\Omega\to\RR$ una v.a. continua con función de densidad $f_{X}\colon\RR\to\RR$, y sea $g\colon X[\Omega]\to\RR$ una función diferenciable y estrictamente creciente o decreciente. Entonces la función de densidad de $Y = g(X)$ está dada por

\begin{align*} f_{Y}(y) &= \begin{cases} f_{X}{\left( g^{-1}(y) \right)} {\left| \dfrac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|} & \text{si $y \in (g \circ X )[ \Omega ]$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}

donde $g^{-1}\colon g[\RR] \to\RR$ es la inversa de $g$, y $(g \circ X )[ \Omega ]$ es la imagen directa de $\Omega$ bajo $g \circ X$. Esto es, $(g \circ X) [ \Omega ] = \{\, y \in \RR \mid \exists \omega \in \Omega : (g \circ X )(\omega) = y \,\}$, que corresponde al conjunto de valores que toma la v.a. $Y = g(X)$.


Demostración. Demostraremos el caso en el que $g$ es estrictamente creciente. Para ello, sea $y \in \RR$. Primero, recuerda que

\begin{align*} (Y \leq y) &= (X \leq g^{-1}[(-\infty,y]]). \end{align*}

Por un lado, se tiene el caso en el que $y \in (g \circ X)[\Omega]$; es decir, $y$ es uno de los valores que toma la v.a. $Y$ (pues $(g \circ X)[\Omega] = Y[\Omega]$). En este caso, el valor $g^{-1}(y)$ está bien definido, ya que $g^{-1}\colon (g \circ X)[\Omega]\to\RR$ es una función cuyo dominio es la imagen de $g$. De este modo, para cada $\omega\in\Omega$ tendremos que

\begin{align*} Y(\omega) \leq y &\iff X(\omega) \leq g^{-1}(y). \tag{$*$} \end{align*}

Como $g$ es una función estrictamente creciente, su inversa $g^{-1}\colon (g \circ X)[\Omega]\to\RR$ también es estrictamente creciente, y por lo tanto, la desigualdad en $(*)$ «no se voltea».

De lo anterior se sigue que $\Prob{Y \leq y} = \Prob{X \leq g^{-1}(y)}$ para cada $y \in (g \circ X)[\Omega]$. En consecuencia, se tiene que

\begin{align*} F_{Y}(y) = F_{X}(g^{-1}(y)). \end{align*}

Podemos diferenciar ambos lados de la igualdad respecto a $y$, y por la regla de la cadena obtenemos

\begin{align*} f_{Y}(y) &= f_{X}{\left( g^{-1}(y) \right)} \frac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \\[1em] &= f_{X}{\left( g^{-1}(y) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|}, \end{align*}

donde el último paso se obtiene de que $g^{-1}$ es estrictamente creciente, y por lo tanto, su derivada es positiva.

Por otro lado, resta el caso en el que $y \notin (g \circ X)[\Omega]$; es decir, cuando $y$ no es uno de los valores que puede tomar $Y$. En este caso, simplemente $f_{Y}$ vale $0$, pues la densidad de una v.a. continua es $0$ en aquellos valores que no toma. De este modo, $Y$ tiene densidad $f_{Y}\colon\RR\to\RR$ dada por

\begin{align*} f_{Y}(y) &= \begin{cases} f_{X}{\left( g^{-1}(y) \right)} {\left| \dfrac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|} & \text{si $y \in (g \circ X )[ \Omega ]$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}

que es justamente lo que queríamos demostrar.

El caso para $g$ estrictamente decreciente es casi análogo, por lo que te lo dejamos de tarea moral.

$\square$

Es importante notar que el teorema anterior no funciona para cualquier $g\colon\RR\to\RR$ Borel-medible, sólamente para aquellas que cumplen las hipótesis del teorema. Bajo estas hipótesis, el teorema permite obtener la densidad de la transformación de una v.a. de manera más eficiente que los otros métodos que hemos abordado.

Ejemplo 2. Sea $Z$ una v.a. con densidad $f_{Z}\colon\RR\to\RR$ dada por

\begin{align*} f_{Z}(z) &= \frac{1}{\sqrt{2\pi}} e^{-z^{2} / 2}, & \text{para cada $z \in \RR$}.\end{align*}

Se dice que una v.a. con esa función de densidad sigue una distribución normal estándar. Observa que $f_{Z}(z) > 0$ para todo $z \in \RR$, por lo que $Z[\Omega] = \RR$. Es decir, $Z$ puede tomar cualquier valor en $\RR$.

Sea $W = e^{Z}$. La función $\exp\colon\RR\to\RR^{+}$ dada por $\exp(x) = e^{x}$ es estrictamente creciente y diferenciable, por lo que podemos usar el teorema anterior para obtener la función de densidad de $W$. Así, tenemos que

\begin{align*} f_{W}(w) = f_{Z}{ \left(\exp^{-1}(w) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} w} {\left[ \exp^{-1}(w) \right]} \right|}, \end{align*}

donde $\exp^{-1}\colon\RR^{+}\to\RR$ es la inversa de la función exponencial $\exp$. De hecho, la inversa de $\exp$ es la función $\ln\colon\RR^{+}\to\RR$, el logaritmo natural. Ahora, como $Z[\Omega] = \RR$, se tiene que $(\exp{} \circ Z)[\Omega] = \RR^{+}$, pues la función $\exp{}$ toma únicamente valores positivos.

En consecuencia, para $w \in \RR^{+}$ se tiene

\begin{align*} f_{W}(w) &= f_{Z}{ \left(\ln(w) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} w} {\left[ \ln(w) \right]} \right|} \\[1em] &= f_{Z}{ \left(\ln(w) \right)} {\left| \frac{1}{w} \right|} \\[1em] &= \frac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \frac{(\ln(w))^{2}}{2}\right) }\end{align*}

y así, tenemos que $W$ tiene densidad $f_{W}\colon\RR\to\RR$ dada por

\begin{align*} f_{W}(w) &= \begin{cases} \dfrac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \dfrac{(\ln(w))^{2}}{2}\right) } & \text{si $w > 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Como nota adicional, $f_{W}$ es la densidad de una v.a. cuya distribución es conocida como log-normal.


Para concluir, es importante mencionar que la transformación $g$ del teorema sólamente necesita ser diferenciable y estrictamente creciente sobre $X[\Omega]$ (por eso es que en el enunciado la pusimos como $g\colon X[\Omega] \to \RR$). Por ejemplo, la función $g\colon\RR^{+}\cup\{0\}\to\RR$ dada por $g(x) = x^{2}$ es una función creciente sobre su dominio. Por ello, si $X$ es una v.a. continua que toma únicamente valores no-negativos, entonces puede aplicarse el teorema para obtener la densidad de $g(X)$. En resumidas cuentas, el teorema puede aplicarse siempre y cuando la transformación $g$ sea diferenciable y estrictamente creciente sobre el conjunto de valores que puede tomar $X$.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la función de distribución de la v.a. $X$ del Ejemplo 1 es la función que te dimos. Es decir, obtén la función de distribución de $X$ a partir de su función de densidad.
  2. Demuestra el caso en el que $g$ es estrictamente decreciente del teorema de cambio de variable.
  3. Retoma el segundo Ejemplo 2, pero esta vez comienza con la v.a. $W$, cuya función de densidad es \begin{align*} f_{W}(w) &= \begin{cases} \dfrac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \dfrac{(\ln(w))^{2}}{2}\right) } & \text{si $w > 0$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}y encuentra la función de densidad de $Z = \ln(W)$ usando el teorema.

Más adelante…

El teorema de esta entrada es muy útil para obtener la densidad (y, en consecuencia, la distribución) de muchas transformaciones de v.a.’s continuas. Por ello, nos será de utilidad en el futuro relativamente cercano, cuando veamos las distribuciones de probabilidad más conocidas. Por otro lado, te será de utilidad mucho más adelante en materias posteriores, pues este teorema puede generalizarse al caso en el que la transformación tiene como dominio a $\RR^{n}$ y como codominio a $\RR$ con $n \in \mathbb{N}^{+}$ y $n \geq 2$ (por ejemplo, $g\colon\RR^{2}\to\RR$ dada por $g(x, y) = x + y$).

En la siguiente entrada comenzaremos el estudio de un concepto asociado a las v.a.’s llamado el valor esperado de una variable aleatoria.

Entradas relacionadas

Probabilidad I: Transformaciones de Variables Aleatorias

Por Octavio Daniel Ríos García

Introducción

En la entrada pasada vimos el último tipo importante de v.a. que veremos, por ahora: las v.a.’s mixtas. En particular, vimos una manera de construir v.a.’s mixtas siguiendo un método muy sencillo: evaluando el $\max$ y el $\min$ en alguna v.a. continua. Esto puede pensarse como «transformar» la v.a. continua dada mediante las funciones $\max$ y $\min$. No sólamente la transformación fue posible, sino que además la función resultante es una v.a., y obtuvimos su función de distribución. Este proceso puede generalizarse para obtener la distribución de muchas más funciones de v.a.’s continuas.

Composición de funciones y variables aleatorias

Una de las cosas que hicimos en la entrada pasada fue ver que, dada una v.a. continua $X$, podíamos obtener v.a.’s mixtas a partir de $X$. Vamos a refinar un poco lo que hicimos en la entrada pasada. Sea $c\in\RR$, y sea $\mathrm{max}_{c}\colon\RR\to\RR$ la función dada por

\begin{align*} \mathrm{max}_{c}(x) &= \max{\left\lbrace x, c \right\rbrace}, & \text{para cada $x\in\RR$.} \end{align*}

De este modo, definimos una v.a. nueva $U$ como $U = \mathrm{max}_{c}(X)$. Sin embargo, ¿qué es exactamente «$\mathrm{max}_{c}(X)$»? Sabemos que $X$ es una «variable aleatoria», lo que significa que $U$ es como «evaluar» una función en una variable aleatoria. No obstante, esto no es otra cosa que… ¡una composición de funciones! Como recordatorio de Álgebra Superior I, dadas funciones $f\colon A\to B$, $g\colon B\to C$, la composición $g \circ f \colon A \to C$, llamada $f$ seguida de $g$, se define como

\begin{align*} g \circ f (x) &= g(f(x)), & \text{para cada $x\in A$.} \end{align*}

Recordando la definición de variable aleatoria, cuando tenemos un espacio de probabilidad $(\Omega, \mathscr{F}, \mathbb{P})$ sabemos que una función $X\colon\Omega\to\RR$ es una variable aleatoria si satisface una condición de «medibilidad», que dimos hace unas entradas. De momento, lo que más nos importa es que una v.a. es una función. En consecuencia, la v.a. $U$ que definimos no es otra cosa que $\mathrm{max}_{c} \circ X\colon\Omega\to\RR$, dada por

\begin{align*} \mathrm{max}_{c} \circ X (\omega) &= \max{\{ X(\omega), c \}}, & \text{para cada $x \in \Omega$}, \end{align*}

que es justamente como la definimos en la entrada anterior a esta. Ahora bien, dadas una v.a. $X\colon\Omega\to\RR$ y una función $g\colon\RR\to\RR$, hay que tener cuidado con $g$ para que $g \circ X$ sea una v.a., pues puede pasar que la función resultante no es una variable aleatoria, de acuerdo con la definición. Nosotros nos abstendremos de presentar casos degenerados de ese estilo, pero expondremos las condiciones que se necesitan para que una transformación de una v.a. sea nuevamente una v.a.

¿Cuáles funciones sí dan como resultado variables aleatorias?

Comenzaremos con una definición general del tipo de funciones que nos serán útiles.


Definición. Si $g\colon\RR\to\RR$ es una función, diremos que $g$ es una función Borel-medible si para cada $B \in \mathscr{B}(\RR)$ se cumple que $g^{-1}(B) \in \mathscr{B}(\RR)$.

Es decir, $g$ es una función Borel-medible si la imagen inversa de cualquier elemento del σ-álgebra de Borel es también un elemento del σ-álgebra de Borel.


Si recuerdas la definición de variable aleatoria, podrás observar que… ¡Es casi la misma! En realidad, ambas son el mismo concepto en la teoría más general: son funciones medibles. En particular, las funciones Borel-medibles reciben su nombre por el σ-álgebra que preservan: el σ-álgebra de Borel. De hecho, observa que las funciones Borel-medibles son un caso particular de nuestra definición de variable aleatoria, usando $(\RR, \mathscr{B}(\RR), \mathbb{P})$ como espacio de probabilidad. Por ello, todos los resultamos que hemos visto hasta ahora para v.a.’s aplican para funciones Borel-medibles.

Resulta que esta clase de funciones son aquellas que, al componer con una v.a., nos devuelven otra variable aleatoria.


Proposición. Sean $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad, $X\colon\Omega\to\RR$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible. Entonces $g \circ X \colon\Omega\to\RR$ es una variable aleatoria.


Demostración. Queremos demostrar que $g \circ X$ es una variable aleatoria. Es decir, que para cada $A \in \mathscr{B}(\RR)$ se cumple que $(g \circ X)^{-1}[A] \in \mathscr{F}$. Ahora, $(g \circ X)^{-1}[A] = X^{-1}[g^{-1}[A]]$, por propiedades de la imagen inversa. En consecuencia, hay que ver que para cada $A \in \mathscr{B}(\RR)$ se cumple que $X^{-1}[g^{-1}[A]] \in \mathscr{F}$.

Sea $A \in \mathscr{B}(\RR)$. Como $g$ es una función Borel-medible, esto implica que $g^{-1}[A] \in \mathscr{B}(\RR)$. Ahora, como $X$ es una variable aleatoria, $g^{-1}[A] \in \mathscr{B}(\RR)$ implica $X^{-1}[g^{-1}[A]] \in \mathscr{F}$, que es justamente lo que queríamos demostrar.

$\square$

Así, si $g\colon\RR\to\RR$ es una función Borel-medible y $X\colon\Omega\to\RR$ es una variable aleatoria, entonces $g \circ X$ es también una variable aleatoria.

Pero entonces, ¿qué funciones podemos usar?

A pesar de que lo anterior nos da muchas funciones con las cuales transformar v.a.’s, de momento quizás no conozcas ninguna función Borel-medible. No temas, el siguiente teorema nos da una gran cantidad de funciones que son Borel-medibles, y con las cuales seguramente te has encontrado antes.


Proposición. Si $g\colon\RR\to\RR$ es una función continua, entonces es Borel-medible.


Demostración. Sea $g\colon\RR\to\RR$ una función continua. Queremos demostrar que $g$ es Borel-medible. Es decir, que para cada $x \in \RR$, $X^{-1}[(-\infty, x)] \in \mathscr{B}(\RR)$.

Sea $x\in\RR$. Como $(-\infty, x)$ es un intervalo abierto, es un subconjunto abierto (en la topología usual) de $\RR$. En consecuencia, como $g$ es continua, $g^{-1}[(-\infty, x)]$ también es un subconjunto abierto de $\RR$.

Ahora, como $g^{-1}[(-\infty, x)]$ es un abierto, esto implica que existe una familia numerable de intervalos abiertos $\{ I_{n} \}_{n=1}^{\infty}$ tales que

\[ g^{-1}[(-\infty, x)] = \bigcup_{n=1}^{\infty} I_{n}. \]

Nota que como $I_{n}$ es un intervalo abierto, para cada $n \in \mathbb{N}^{+}$, entonces $I_{n} \in \mathscr{B}(\RR)$. Por lo tanto, $\bigcup_{n=1}^{\infty} I_{n} \in \mathscr{B}(\RR)$, que implica $g^{-1}[(-\infty, x)] \in \mathscr{B}(\RR)$, que es justamente lo que queríamos demostrar.

$\square$

Es muy probable que estés cursando Cálculo Diferencial e Integral III al mismo tiempo que esta materia, por lo que quizás no hayas visto algunos detalles de la topología usual de $\RR$ que utilizamos en la demostración anterior. Puedes consultar nuestras notas de Cálculo Diferencial e Integral III sobre el tema si lo consideras necesario.

Con esta última proposición hemos encontrado una gran cantidad de funciones válidas para transformar v.a.’s. Seguramente conoces muchísimas funciones continuas: los polinomios, funciones lineales, algunas funciones trigonométricas (como $\sin$ y $\cos$), etcétera.

Un primer método para obtener la distribución de una transformación

Una vez que conocemos muchas funciones con las cuales podemos transformar v.a.’s, nuestro objetivo es encontrar la distribución de tales transformaciones. Si $g\colon\RR\to\RR$ es una función Borel-medible y $X\colon\Omega\to\RR$ es una v.a. (cuya función de distribución es conocida), queremos encontrar la distribución de $Y = g \circ X$. Para hacerlo, basta con encontrar la probabilidad de los eventos de la forma

\begin{align*} (Y \leq y) = (g \circ X \leq y) = \{ \, \omega \in \Omega \mid g(X(\omega)) \leq y \, \}. \end{align*}

Es común encontrar la notación $g(X) = g \circ X$, y de este modo, se usa $(g(X) \leq y)$ para referirse a los eventos $(g \circ X \leq y)$.

Sin embargo, el caso de las v.a.’s discretas puede ser más sencillo, ya que la función de masa de probabilidad caracteriza el comportamiento de ese tipo de v’a’s. Veamos cómo hacerlo mediante el siguiente ejemplo.

Ejemplo. Sea $Z$ una v.a. con función de masa de probabilidad $p_{Z}\colon\RR\to\RR$ dada por

\begin{align*} p_{Z}(z) = \begin{cases} \dfrac{1}{5} & \text{si $z \in \{-2, -1, 0, 1, 2 \}$}, \\[1em] 0 & \text{en otro caso}. \end{cases}\end{align*}

Figura. Gráfica de la función de masa de probabilidad de $Z$.

Ahora, sea $g\colon\RR\to\RR$ la función dada por

\begin{align*} g(x) &= x^{2} & \text{para cada $x \in \RR$.} \end{align*}

Defínase $Y = g (Z)$, es decir, $Y = Z^{2}$. Primero, el conjunto de posibles valores que puede tomar $Y$ es

\[ \{\, z^2 \mid z \in \textrm{Im}(Z) \,\} = \{ (-2)^{2}, (-1)^{2}, 0^{2}, 1^{2}, 2^{2} \} = \{ 4, 1, 0, 1, 4 \} = \{ 0, 1, 4 \}. \]

Observa que $Y$ puede tomar $3$ valores distintos, mientras que $Z$ puede tomar $5$. Ya desde este momento se nota que las probabilidades de los eventos que involucran a $Y$ van a ser distintas a los de $Z$.

Sea $y \in \RR$. Para obtener la función de masa de probabilidad de $Y$ tenemos que obtener la probabilidad de los eventos de la forma $(Y = y)$. Este evento es

\[ (Y = y) = \{\,\omega\in\Omega\mid Y(\omega) = y \,\}, \]

Es decir, $\omega\in (Y=y) \iff Y(\omega) = y$. Usando la definición de $Y$, se tiene que

\begin{align*} \omega\in (Y = y) &\iff Y(\omega) = y \\[1em] &\iff (g \circ Z)(\omega) = y \\[1em] &\iff g(Z(\omega)) = y \\[1em] &\iff (Z(\omega))^{2} = y \\[1em] &\iff {\left|Z(\omega)\right|} = \sqrt{y} \\[1em] &\iff (Z(\omega) = \sqrt{y} \lor Z(\omega) = -\sqrt{y}), \end{align*}

esto es, $\omega$ es un elemento de $(Y=y)$ si y sólamente si $Z(\omega) = \sqrt{y}$ o $Z(\omega) = -\sqrt{y}$. Esto es equivalente a que $\omega \in (Z = \sqrt{y}) \cup (Z = -\sqrt{y})$, por lo que podemos concluir que

\[ (Y = y) = (Z = \sqrt{y}) \cup (Z = -\sqrt{y}). \]

En consecuencia, $\Prob{Y = y} = \Prob{(Z = \sqrt{y}) \cup (Z = -\sqrt{y})}$, y así:

\[ \Prob{Y = y} = \Prob{Z = \sqrt{y}} + \Prob{Z = -\sqrt{y}}. \]

Para $y < 0$, observa que

\[ (Z = \sqrt{y}) = \{\,\omega\in\Omega\mid Z(\omega) = \sqrt{y} \,\} = \emptyset, \]

pues $Z$ toma valores en los reales, no en los complejos. Del mismo modo, cuando $y < 0$, $(Z = -\sqrt{y}) = \emptyset$; y así,

\begin{align*} \Prob{Y = y} &= \Prob{Z = \sqrt{y}} + \Prob{Z = -\sqrt{y}} = 0, & \text{para $y < 0$.} \end{align*}

Por otro lado, para $y \geq 0$, sólamente hay $3$ valores que importan: $0$, $1$ y $4$, como acordamos previamente. Para el caso de $y = 0$, observa que $(Z = \sqrt{0}) \cup (Z = -\sqrt{0}) = (Z = 0)$, pues

\begin{align*} \omega \in (Z = \sqrt{0}) \cup (Z = -\sqrt{0}) &\iff (Z(\omega) = \sqrt{0} \lor Z(\omega) = -\sqrt{0}) \\[1em] &\iff (Z(\omega) = 0 \lor Z(\omega) = 0) \\[1em] &\iff Z(\omega) = 0 \\[1em] &\iff \omega \in (Z = 0). \end{align*}

Por lo tanto, se tiene que

\begin{align*}
\Prob{Y = 0} &= \Prob{Z = 0} = \frac{1}{5}.
\end{align*}

Para $y = 1$ y $y = 4$ sí podemos aplicar la fórmula que obtuvimos:

\begin{align*} \Prob{Y = 1} &= \Prob{Z = \sqrt{1}} + \Prob{Z = -\sqrt{1}} = \Prob{Z = 1} + \Prob{Z = -1} = \frac{1}{5} + \frac{1}{5} = \frac{2}{5}, \\[1em] \Prob{Y = 4} &= \Prob{Z = \sqrt{4}} + \Prob{Z = -\sqrt{4}} = \Prob{Z = 2} + \Prob{Z = -2} = \frac{1}{5} + \frac{1}{5} = \frac{2}{5}. \end{align*}

En conclusión, la función de masa de probabilidad de $Y$ es la función $p_{Y}\colon\RR\to\RR$ dada por

\begin{align*} p_{Y}(y) &= \begin{cases} \dfrac{1}{5} & \text{si $y = 0$,} \\[1em] \dfrac{2}{5} & \text{si $y = 1$ o $y = 4$,} \\[1em] 0 &\text{en otro caso.} \end{cases} \end{align*}

Figura. Función de masa de probabilidad de $Y$.

El ejemplo anterior ilustra lo que se debe de hacer para obtener las probabilidades de la transformación de una v.a. discreta. Sea $X\colon\Omega\to\RR$ una v.a. y sea $g\colon\RR\to\RR$ una función Borel-medible. Para cada $A \in \mathscr{B}(\RR)$, sabemos que el evento $(X \in A)$ no es otra cosa que $X^{-1}[A]$. Definimos la v.a. $Y$ como $Y = g(X)$. Ahora, sabemos que para cada $\omega\in\Omega$ se cumple que

\[ \omega \in X^{-1}[A] \iff X(\omega) \in A, \]

por la definición de imagen inversa. En consecuencia, para $(Y \in A)$ tenemos que

\begin{align*} \omega \in (Y \in A) &\iff \omega \in (g(X) \in A) \\[1em] &\iff g(X(\omega)) \in A \\[1em] &\iff X(\omega) \in g^{-1}[A] \\[1em] &\iff \omega \in (X \in g^{-1}[A]). \end{align*}

Por lo que $(Y \in A) = (X \in g^{-1}[A])$. Por ello, $\Prob{Y \in A} = \Prob{X \in g^{-1}[A]}$. Esto tiene sentido: como $Y = g(X)$, entonces la probabilidad de que $g(X)$ tome algún valor en $A$ es la misma que la probabilidad de que $X$ tome algún valor en $g^{-1}[A]$, pues todos los elementos de $g^{-1}[A]$ son mandados a $A$ cuando se les aplica $g$.

Finalmente, utilizando que $X$ es una v.a. discreta, tendremos que

\begin{align}\label{transf:1} \Prob{Y \in A} = \sum_{x \in g^{-1}[A]} \Prob{X = x}. \end{align}

En el caso particular en el que existe $y \in \RR$ tal que $A = \{ y \}$, tendremos que

\begin{align}\label{transf:2} \Prob{Y = y} = \sum_{x \in g^{-1}[\{ y\}]} \Prob{X = x}, \end{align}

justamente como hicimos en el ejemplo anterior. A continuación presentamos otro ejemplo siguiendo la misma metodología.

Ejemplo. Sea $V$ una v.a. con función de masa de probabilidad $p_{V}\colon\RR\to\RR$ dada por

\begin{align*} p_{V}(v) = \begin{cases} \dfrac{1}{2^{|v|+1}} & \text{si $v \in \{-3,-2,-1,1,2,3\}$}, \\[1em] \dfrac{1}{16} & \text{si $v = 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Figura. Gráfica de la función de masa de probabilidad de $V$.

Nuevamente, considera la transformación $g\colon\RR\to\RR$ dada por $g(x) = x^{2}$ para cada $x \in \RR$. De este modo, defínase la v.a. $T$ como $T = g(V)$. Antes que nada, el conjunto de valores que puede tomar $T$ es el resultado de transformar el conjunto de los valores que puede tomar $V$. Si $\mathrm{Supp}(V) = \{-3,-2,-1,0,1,2,3\}$ es el conjunto de valores que puede tomar $V$, entonces el conjunto de valores que puede tomar $T$ es

\[ g{\left( \mathrm{Supp}(V) \right)} = \{ \, t \in \RR \mid \exists v \in \mathrm{Supp}(V)\colon g(v) = t \, \} = \{0, 1, 4, 9 \}. \]

Como $g$ es la misma transformación que en el ejemplo anterior, hay algunas cosas que ya sabemos. Primero,

\begin{align*} \Prob{T = t} &= 0, & \text{para cada $t < 0$},\end{align*}

mientras que para $t = 0$, se tiene que $\Prob{T = 0} = \Prob{V = 0} = \frac{1}{8}$. Para $t > 0$, vimos previamente que $g^{-1}[\{t\}] = \{ \sqrt{t}, -\sqrt{t} \}$. Así, tendremos que

\begin{align*} \Prob{T = t} = \sum_{v \in g^{-1}[\{ t \}]} \Prob{V = v} = \Prob{V = \sqrt{t}} + \Prob{V = -\sqrt{t}}. \end{align*}

En particular, la v.a. $V$ sólamente toma probabilidades mayores a $0$ en $\{-3, -2, -1, 0, 1, 2, 3 \}$, por lo que $\Prob{T = t} > 0$ para $t \in \{0, 1, 4, 9 \}$, y $\Prob{T = t} = 0$ en otro caso. Así, tenemos que

\begin{align*} \Prob{T = 1} &= \Prob{V = \sqrt{1}} + \Prob{V = -\sqrt{1}} = \frac{1}{2^{|1| + 1}} + \frac{1}{2^{|-1|+1}} = \frac{1}{2^2} + \frac{1}{2^{2}} = \frac{2}{4} = \frac{1}{2}, \\[1em] \Prob{T = 4} &= \Prob{V = \sqrt{4}} + \Prob{V = -\sqrt{4}} = \frac{1}{2^{|2| + 1}} + \frac{1}{2^{|-2|+1}} = \frac{1}{8} + \frac{1}{8} = \frac{1}{4}, \\[1em] \Prob{T = 9} &= \Prob{V = \sqrt{9}} + \Prob{V = -\sqrt{9}} = \frac{1}{2^{|3| + 1}} + \frac{1}{2^{|-3|+1}} = \frac{1}{16} + \frac{1}{16} = \frac{1}{8}. \end{align*}

Alternativamente, podemos obtener una fórmula cerrada para cada $t \in \{1, 4, 9 \}$, que queda así:

\begin{align*} \Prob{T = t} = \Prob{V = \sqrt{t}} + \Prob{V = -\sqrt{t}} &= \frac{1}{2^{{\left|\sqrt{t}\right|} + 1}} + \frac{1}{2^{{\left|-\sqrt{t}\right|} + 1}} \\[1em] &= \frac{1}{2^{\sqrt{t} + 1}} + \frac{1}{2^{\sqrt{t} + 1}} \\[1em] &= \frac{2}{2^{\sqrt{t} + 1}} \\[1em] &= \frac{1}{2^{\sqrt{t}}}.\end{align*}

Y así obtenemos una expresión para la función de masa de probabilidad de $T$:

\begin{align*} p_{T}(t) = \begin{cases} \dfrac{1}{2^{\sqrt{t}}} & \text{si $t \in \{1,4,9\}$}, \\[1em] \dfrac{1}{8} & \text{si $t = 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Figura. Gráfica de la función de masa de probabilidad de $T$.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la función de masa de probabilidad de la v.a. $Z$ del primer ejemplo satisface las propiedades de una función de masa de probabilidad.
  2. Haz lo mismo para la función de masa de probabilidad de la v.a. $V$ del segundo ejemplo.
  3. Retomando los dos ejemplos vistos en esta entrada y las v.a.’s $Z$ y $V$ de cada ejemplo, y tomando la transformación $f\colon\RR\to\RR$ dada por $f(x) = x^{3} − x^{2} − 4x + 4$:
    1. Encuentra la función de masa de probabilidad de $f(Z)$.
    2. Encuentra la función de masa de probabilidad de $f(V)$.

Más adelante…

El método expuesto en esta entrada funciona para cualquier variable aleatoria discreta. No hay fórmulas «cerradas» para la f.m.p. (función de masa de probabilidad) de la transformación de una v.a. discreta. Sin embargo, las fórmulas \eqref{transf:1} y \eqref{transf:2} son suficientes para encontrar las probabilidades de eventos que involucran a la transformación de la v.a. discreta conocida. No obstante, estas fórmulas sólamente funcionan para v.a.’s discretas. Por ello, en la siguiente entrada centraremos nuestra atención en el caso de las v.a.’s continuas.

Entradas relacionadas

Probabilidad I: Variables Aleatorias Mixtas

Por Octavio Daniel Ríos García

Introducción

En las últimas entradas presentamos dos tipos muy importantes de v.a.’s que estudiaremos a lo largo del curso. No obstante, estos no son los únicos dos tipos de v.a.’s que existen, hay algunos tipos más. En particular, en esta entrada centraremos nuestra atención en las variables aleatorias mixtas. Estas son v.a.’s que no son ni discretas ni continuas, pero combinan propiedades de ambos tipos. Es decir, una v.a. mixta consta de una parte discreta y de una parte continua, que es la razón por la que reciben el nombre de mixta. Debido a que ya hemos estudiado ambos tipos de v.a.’s, podremos utilizar lo que hemos visto hasta ahora para describir a este nuevo tipo de v.a.’s.

Distribución mixta

Para comenzar, podemos ver una propiedad que ocurre al combinar dos funciones de distribución. Sean $F\colon\RR\to\RR$ y $G\colon\RR\to\RR$ dos funciones de distribución, y sea $\lambda\in[0,1]$. Definimos $H\colon\RR\to\RR$ como sigue:

\[ H(x) = \lambda F(x) + (1 − \lambda) G(x), \qquad \text{para cada $x \in \RR$.} \]

Es decir, para cada $x \in \RR$, $H(x)$ es una combinación lineal de $F(x)$ y $G(x)$. Más aún, como $\lambda$ es algún valor en $[0,1]$, se trata de una combinación convexa. Bien, ¡pues resulta que $H$ es una función de distribución! Te dejamos la comprobación de este hecho como tarea moral.

En particular, cuando $F$ y $G$ son funciones de distribución discretas, $H$ también es una función de distribución discreta. En cambio, cuando $F$ y $G$ son funciones de distribución absolutamente continuas, $H$ también es absolutamente continua.

Por otro lado, el tema principal de esta entrada surge cuando una de las dos distribuciones es discreta y la otra es continua. En tal caso, $H$ no es discreta ni continua, y es llamada una función de distribución mixta.

Ejemplo. Sean $F\colon\RR\to\RR$ y $G\colon\RR\to\RR$ las siguientes funciones de distribución.

\begin{align*}F(x) &= \begin{cases} 1 − e^{−2x} & \text{si $x \geq 0$,} \\[1em] 0 & \text{en otro caso,} \end{cases} & G(x) &= \begin{cases} 0 & \text{si $x < \frac{1}{2}$,} \\[1em] \dfrac{1}{2} & \text{si $\frac{1}{2} \leq x < 1$,} \\[1em] 1 & \text{si $x \geq 1$.}\end{cases} \end{align*}

Gráficamente, $F$ y $G$ se ven como sigue.

Definimos $H\colon\RR\to\RR$ como sigue.

\[ H(x) = \frac{1}{2}F(x) + \frac{1}{2}G(x) \qquad \text{para cada $x \in \RR$.} \]

Para visualizar un poco cómo se obtiene la gráfica de $H$, primero hay que multiplicar a $F$ y a $G$ por $\frac{1}{2}$, que nos da las siguientes gráficas:

Observa que se parecen mucho a las gráficas de las distribuciones $F$ y $G$, pero «aplastadas». El «aplastamiento» corresponde a que se han multiplicado por $\frac{1}{2}$. Al superponer ambas gráficas, obtenemos la siguiente figura:

Y en la gráfica de $H$, en el eje vertical tomará los valores $\frac{1}{2}F(x) + \frac{1}{2}G(x)$ para cada $x \in \RR$. La gráfica resultante es la siguiente:

Figura. Gráfica de la función $H$.

Observa cómo la gráfica de $H$ es diferente a las que hemos visto en las últimas entradas: no es la función de distribución de una v.a. discreta porque no es una función escalonada, pero tampoco es la distribución de una v.a. continua porque presenta discontinuidades.

Sin embargo, ¡sí es una función de distribución! Es no-decreciente, continua por la derecha y sus límites a $-\infty$ e $\infty$ son $0$ y $1$, respectivamente. Por ello, sí es la función de distribución de alguna v.a… aún cuando esa v.a. no sea ni discreta ni continua.

De manera explícita, $H\colon\RR\to\RR$ es la función

\[ H(x) = \begin{cases} 0 & \text{si $x < 0$}, \\[1em] \dfrac{1 − e^{−2x}}{2} & \text{si $0 \leq x < \frac{1}{2}$}, \\[1em] \dfrac{1}{4} + \dfrac{1 − e^{−2x}}{2} & \text{si $\frac{1}{2} \leq x < 1$}, \\[1em] \dfrac{1}{2} + \dfrac{1 − e^{−2x}}{2} & \text{si $x \geq 1$}, \end{cases} \]

Sea $X$ una v.a. aleatoria con distribución $H$. Es decir, $X$ es una v.a. cuya función de distribución es $H$. Hay algunos aspectos interesantes que tiene una v.a. con esta distribución. Primero, los puntos de discontinuidad de $H$ son aquellos puntos con masa de probabilidad mayor a $0$. Observa que

\[ \Prob{X = \frac{1}{2}} = H{\left(\frac{1}{2}\right)} − H{\left(\frac{1}{2}−\right)} \]

Ahora, hay que tener cuidado con $H{\left(\frac{1}{2}−\right)}$. Para obtener este valor, hay que ver cómo se comporta $H(x)$ cuando $x \to \frac{1}{2}$ por la izquierda. Como $x$ se acerca por la izquierda a $\frac{1}{2}$, necesariamente el valor de $x$ es menor a $\frac{1}{2}$, así que $H(x) = \dfrac{1 − e^{−2x}}{2}$. Así, tenemos que

\[ H{\left(\frac{1}{2}−\right)} = \lim_{x\to{\frac{1}{2}}^{-}} H(x) = \lim_{x\to{\frac{1}{2}}^{-}} \dfrac{1 − e^{−2x}}{2} = \dfrac{1 − e^{−2{\left( \frac{1}{2} \right)}}}{2} = \dfrac{1 − e^{−1}}{2}. \]

Este límite fue fácil de evaluar porque la expresión de $H$ para $x < \frac{1}{2}$ describe una función continua. Es decir, $H(x)$ se acerca al valor $\dfrac{1 − e^{−1}}{2}$ cuando $x$ se acerca a $\frac{1}{2}$ por la izquierda. Aún cuando $H$ brinca en ese punto, el límite por la izquierda corresponde al lugar donde se encuentra el hoyito en la gráfica.

En consecuencia, tenemos que

\[ \Prob{X = \frac{1}{2}} = \frac{1}{4} + \dfrac{1 − e^{−1}}{2} − {\left(\dfrac{1 − e^{−1}}{2}\right)} = \frac{1}{4}. \]

De manera similar podemos obtener que

\[ \Prob{X = 1} = \frac{1}{2} + \dfrac{1 − e^{−2}}{2} − {\frac{1}{4} + \left(\dfrac{1 − e^{−2}}{2}\right)} = \frac{1}{4}, \]

por lo que hay dos puntos que tienen masa de probabilidad mayor a $0$. Esto es algo que no pasa en las v.a.’s absolutamente continuas. Debido a esto, cuando se trata de v.a.’s mixtas, hay que tener cuidado en el cálculo de probabilidades de algunos eventos. Por ejemplo,

\[ \Prob{X \leq \frac{1}{2}} = H{\left(\frac{1}{2}\right)} = \frac{1}{4} + \dfrac{1 − e^{−1}}{2}, \]

pero por otro lado,

\[ \Prob{X < \frac{1}{2}} = H{\left(\frac{1}{2}\right)} − \Prob{X = \frac{1}{2}} = \frac{1}{4} + \dfrac{1 − e^{−1}}{2} − \frac{1}{4} = \dfrac{1 − e^{−1}}{2}. \]

En consecuencia, existe $a \in \RR$ tal que $\Prob{X \leq a} \neq \Prob{X < a}$, que es algo que pasa en las v.a.’s discretas. Esos puntos son precisamente los puntos en los que la función de distribución presenta una discontinuidad, por lo que hay que tener cuidado cuando una desigualdad involucra a uno de estos puntos. En consecuencia, también se debe de tener cuidado al obtener la probabilidad de intervalos de la forma $(a,b)$, $[a,b]$, $(a,b]$, etcétera, cuando $a$ y $b$ son puntos en los que la distribución presenta una discontinuidad.


Otra manera de obtener variables aleatorias mixtas

Además de hacer combinaciones lineales de funciones de distribución, también es posible obtener v.a.’s mixtas a partir de v.a.’s continuas. Sea $X\colon\Omega\to\RR$ una v.a. continua, y sea $c \in \RR$ una constante tal que $0 < F_{X}(c) < 1$ (esto es, la distribución de $X$ evaluada en $c$ es mayor a $0$ y menor a $1$). Definimos las variables aleatorias $U\colon\Omega\to\RR$ y $L\colon\Omega\to\RR$ como sigue:

\begin{align*} U(\omega) &= \max{\left\lbrace X(\omega), c \right\rbrace} \qquad \text{para cada $\omega \in \Omega$}, \\[1em] L(\omega) &= \min{\left\lbrace X(\omega), c \right\rbrace} \qquad \text{para cada $\omega \in \Omega$}. \end{align*}

Resulta que estas v.a.’s son ejemplos de variables aleatorias mixtas. Veamos que $U$ lo es. Para ello, hay que analizar dos subconjuntos importantes del espacio muestral sobre el que está definida $X$. Estos son:

\begin{align*} A_{1} &= \{ \, \omega \in \Omega \mid X(\omega) \leq c \, \} & A_{2} &= \{ \,\omega \in \Omega \mid X(\omega) > c \, \}\end{align*}

La razón por la que hemos escogido estos conjuntos se basa en el valor que toma $U(\omega)$ dependiendo de si $X(\omega) \leq c$ o $X(\omega) > c$. Cuando $X(\omega) \leq c$, se tiene que

\[ U(\omega) = \max{\left\lbrace X(\omega), c \right\rbrace} = c, \]

al ser $c$ el mayor de los dos valores. En consecuencia, por la manera en que hemos definido a $A_{1}$, para cada $\omega \in A_{1}$ se cumple que $U(\omega) = c$. Esto significa que

\[ \Prob{U = c} = \Prob{A_{1}} = \Prob{\{ \, \omega \in \Omega \mid X(\omega) \leq c \, \}} = \Prob{X \leq c} = F_{X}(c), \]

y como $c$ cumple que $0 < F_{X}(c) < 1$, se tiene que

\[ \Prob{U = c} > 0, \]

por lo que $U$ tiene al menos un punto con masa de probabilidad mayor a cero. Esto nos indica que $U$ al menos cuenta con una parte discreta, algo que $X$ no tenía.

Por otro lado, para $\omega \in\Omega$ tal que $X(\omega) > c$, se tiene que

\[ U(\omega) = \max{\left\lbrace X(\omega), c \right\rbrace} = X(\omega). \]

Por consiguiente, para cada $\omega \in A_{2}$ se tiene que $U(\omega) = X(\omega)$. Ahora, nota que para cada $x \in [c,\infty)$ se cumple que

\[ \{ \, \omega \in \Omega \mid X(\omega) > x \, \} \subseteq A_{2} \]

pues si $\omega \in \Omega$ satisface $X(\omega) > x$, como $x \in [c,\infty)$, se tiene que $x \geq c$, y por lo tanto, $X(\omega) > c$. Luego, $\omega \in A_{2}$. Por tanto, para $x \in [c, \infty)$ se cumple $\Prob{X > x} = \Prob{U > x}$, pues $X(\omega) = U(\omega)$ en cada uno de los $\omega \in (X > x)$. Así, para cada $x \in [c,\infty)$ se tiene que

\begin{align*} \Prob{X > x} = \Prob{U > x} &\iff 1 − \Prob{X \leq x} = 1 − \Prob{U \leq x} \\[1em] &\iff − \Prob{X \leq x} = − \Prob{U \leq x} \\[1em] &\iff \Prob{X \leq x} = \Prob{U \leq x} \\[1em] &\iff F_{X}(x) = F_{U}(x), \end{align*}

es decir, $X$ y $U$ tienen la misma función de distribución sobre conjunto $[c, \infty)$. Esto garantiza que, sobre $[c, \infty)$, la función de distribución de $U$ es una función absolutamente continua. Sin embargo, hay un detalle importante que necesitamos para asegurarnos de que $U$ es una v.a. mixta. Observa que como pedimos que $F_{X}(c) < 1$, se tiene que $0 < 1 − F_{X}(c)$, y como $F_{X}(c) = F_{U}(c)$, esto garantiza que $0 < 1 − F_{U}(c)$. En conclusión, $\Prob{U > c} > 0$, garantizando que $U$ no es una v.a. exclusivamente discreta.

Ejemplo. Sea $X\colon\Omega\to\RR$ una v.a. con función de densidad $f_{X}\colon\RR\to\RR$ dada por

\begin{align*} f_{X}(x) &= \frac{e^{-x}}{(1 + e^{-x})^{2}} & \text{para cada $x \in \RR$}, \end{align*}

y sea $U\colon\Omega\to\RR$ la v.a. dada por

\begin{align*} U(\omega) &= \max{\left\lbrace X(\omega), 0 \right\rbrace} & \text{para cada $\omega \in \Omega$}. \end{align*}

Cuando una v.a. tiene esta función de densidad, se dice que sigue una distribución logística. Ahora, ¿cuál es la función de distribución de $U$? Para obtenerla, primero obtengamos la función de distribución de $X$, $F_{X}$. Conocemos la función de densidad de $X$. Gráficamente:

Figura. Gráfica de la función de densidad de $X$.

Así que podemos obtener la distribución de $X$ a partir de esta. Así, para cada $x \in \RR$ tenemos que

\begin{align} \label{eq:dist1} F_{X}(x) = \int_{-\infty}^{x} f_{X}(t) \,\mathrm{d}t = \int_{-\infty}^{x} \frac{e^{-t}}{(1 + e^{-t})^{2}} \,\mathrm{d}t. \end{align}

Mediante una sustitución de variables, podemos obtener que la primitiva de $f_{X}$ que satisface lo anterior es

\begin{align} \label{eq:dist2} F_{X}(x) &= \frac{1}{1 + e^{-x}} & \text{para cada $x\in\RR$}. \end{align}

Es decir, esta es la función de distribución de $X$. Gráficamente:

Figura. Gráfica de la función de distribución de $X$.

Ahora, para obtener la función de distribución de $U$, hay que ver varios casos. Sea $u \in \RR$ tal que $u < 0$. Para este caso, tenemos que

\[ F_{U}(u) = \Prob{U \leq u} = \Prob{\max\{X, 0\} \leq u}. \]

Sin embargo, como $u < 0$ y $\max\{X, 0\} \geq 0$, el evento $(\max\{X,0\} \leq u) = \emptyset$, pues

\[ (U \leq u) = (\max\{X,0\} \leq u) = \{\, \omega \in \Omega \mid \max\{X(\omega), 0\} \leq u \,\}, \]

y para que exista algún $\omega \in (U \leq u)$, debe de cumplirse que $\max\{X(\omega), 0\} \leq u < 0$, lo cual es imposible. En consecuencia, se tiene que

\begin{align*} F_{U}(u) &= 0 & \text{para $u < 0$}. \end{align*}

Por otro lado, para $u = 0$, tenemos que

\[ F_{U}(u) = \Prob{U \leq 0} = \Prob{U = 0} + \Prob{U < 0} = \Prob{U = 0}. \]

Por su parte, $\Prob{U = 0} = \Prob{\max\{X, 0\} = 0}$, así que hay que recurrir a la distribución de $X$ para obtener este valor. Así,

\begin{align*} \Prob{\max\{X, 0\} = 0} &= \Prob{\{\, \omega \in \Omega \mid \max\{X(\omega), 0\}} = 0 \,\} \\[1em] &= \Prob{\{\, \omega \in \Omega \mid X(\omega) \leq 0 \,\}} \\[1em] &= \Prob{X \leq 0} \\[1em] &= F_{X}(0) \\[1em] &= \frac{1}{1 + e^{-(0)}} \\[1em] &= \frac{1}{1 + 1} \\[1em] &= \frac{1}{2}. \end{align*}

De este modo, $F_{U}(0) = \frac{1}{2}$. Así, tenemos que

\[ F_{U}(u) = \begin{cases} 0 & \text{si $u < 0$}, \\[1em] \frac{1}{2} & \text{si $u = 0$}. \end{cases} \]

Finalmente, para $u > 0$, ya vimos (en el caso general) que

\[ F_{U}(u) = F_{X}(u) = \frac{1}{1 + e^{-u}}\]

por lo que la función de distribución de $U$ queda como

\[ F_{U}(u) = \begin{cases} 0 & \text{si $u < 0$}, \\[1em] \dfrac{1}{2} & \text{si $u = 0$}, \\[1em] \dfrac{1}{1 + e^{-u}} & \text{si $u > 0$}.\end{cases} \]

Gráficamente, la función de distribución de $U$ se ve así:

Figura. Gráfica de la función de distribución de $U$.

Observa que la función de distribución de $U$ es precisamente la de $X$, pero truncada. De hecho, como comentamos previamente, para cada $x \geq 0$ se cumple que $F_{U}(x) = F_{X}(x)$. Sin embargo, la función de distribución de $U$ es $0$ para cada $x<0$, pues $U$ no toma valores menores a $0$.


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Sean $F\colon\RR\to\RR$ y $G\colon\RR\to\RR$ dos funciones de distribución. Demuestra que para cualquier $\lambda\in [0,1]$, la función $H\colon\RR\to\RR$ dada por\[ H(x) = \lambda F(x) + (1 − \lambda) G(x), \qquad \text{para cada $x \in \RR$,} \]es una función de distribución.
  2. Sean $X\colon\Omega\to\RR$ una v.a. continua y $c \in \RR$ tal que $0 < F_{X}(c) < 1$. Sea $L\colon\Omega\to\RR$ la v.a. dada por\[ L(\omega) = \min{\left\lbrace X(\omega), c \right\rbrace} \qquad \text{para cada $\omega \in \Omega$}. \]Verifica que $L$ es una v.a. mixta.
  3. Al definir las v.a.’s del máximo y el mínimo, ¿qué pasa si $F_{X}(c) = 0$ o $F_{X}(c) = 1$? Por ejemplo, toma $X$ una v.a. con distribución exponencial (vista en la entrada pasada), y toma $c = -5$. ¿Qué pasa con las v.a.’s $U = \max{\{ X, c \}}$ y con $L = \min{\{X, c \}}$?
  4. Verifica que la función de distribución dada por \eqref{eq:dist2} es la función que satisface la ecuación \eqref{eq:dist1}.

Más adelante…

Las v.a.’s aleatorias mixtas llegan a hacerse presentes en algunas aplicaciones financieras y estadísticas. En el análisis de supervivencia (correspondiente a la materia de Estadística III, o Modelos de Supervivencia y Series de Tiempo) hay modelos que hacen uso de transformaciones de v.a.’s como el mínimo, dando como resultado v.a.’s mixtas.

Existe un tipo adicional de v.a.’s que no hemos mencionado hasta el momento, que son las variables aleatorias singulares. Cerca del final del curso haremos una mención a este último tipo de v.a.’s, cuando hayamos definido la noción de «convergencia en distribución». Con ello, presentaremos el bosquejo de un ejemplo de una v.a. cuya distribución es singular.

En la siguiente entrada abordaremos el tema de obtener la distribución de funciones de v.a.’s aleatorias, que no será otra cosa que hacer una composición de funciones.

Entradas relacionadas

Probabilidad I: Variables Aleatorias Continuas

Por Octavio Daniel Ríos García

Introducción

En la entrada anterior comenzamos el estudio de los dos tipos de v.a.’s que nos interesan, y vimos el caso de las v.a.’s discretas. Sin embargo, puede que te preguntes exactamente por qué es necesaria esta distinción. Por ello, en esta entrada presentaremos las propiedades de las v.a.’s continuas para que compares ambos tipos, y puedas apreciar sus diferencias.

A diferencia de las v.a.’s discretas, las v.a.’s continuas pueden tomar una cantidad infinita no numerable de valores distintos. Es decir, el conjunto de valores que puede tomar una v.a. continua tiene la misma cardinalidad que los números reales.

Definición de una v.a. continua

En la introducción comentamos que las v.a.’s continuas, a grandes rasgos, son aquellas cuyo conjunto de valores posibles es infinito no numerable. Sin embargo, no las definiremos a partir de este hecho, sino a partir de una propiedad que debe cumplir su función de distribución.


Definición. Una variable aleatoria $X$ es absolutamente continua si y sólamente si existe una función $f\colon\RR\to\RR$ integrable y no-negativa tal que para cada $x \in \RR$ se cumple que

\[ F_{X}(x) = \int_{-\infty}^{x} f(t) \text{d}t. \]

Llamamos a $f$ la función de densidad (o simplemente la densidad) de $X$.


A este tipo de v.a.’s se les llama absolutamente continuas debido a que su función de distribución es una función absolutamente continua. Es común encontrarse con el término «continua» en vez de «absolutamente continua«, aunque en contextos más formales existen diferencias entre ambos términos. De manera equivalente, una v.a. $X$ es continua si existe una función $f\colon\RR\to\RR$ integrable y no-negativa tal que para cada $x \in \RR$ se cumple que

\[ \Prob{X \leq x} = \int_{-\infty}^{x} f(t) \text{d}t, \]

por la definición de $F_{X}$. Es decir, $X$ es una v.a. continua si la función de distribución de $X$ puede escribirse como la integral de una función integrable y no-negativa $f$, que es llamada la densidad de $X$. Es decir, las probabilidades de los eventos que involucran a una v.a. continua se pueden expresar en términos del área debajo de su función de densidad.

En consecuencia, si $X$ es una v.a. continua con densidad $f\colon\RR\to\RR$, como $F_{X}(x) \to 1$ cuando $x \to \infty$, se tiene que

\[ \int_{-\infty}^{\infty} f(t)\text{d}t = 1. \]

Además, para cada $a$, $b \in \RR$ tales que $a < b$ se tiene que $\Prob{X \in (a, b]} = F_{X}(b) − F_{X}(a)$, por lo que

\[ \Prob{X \in (a, b]} = \int_{-\infty}^{b} f(t) \text{d}t − \int_{-\infty}^{a} f(t) \text{d}t = \int_{a}^{b} f(t) \text{d}t. \]

Es importante notar que en la definición pedimos que la densidad de una v.a. continua $X$ debe ser una función integrable, lo cual garantiza que la función de distribución de $X$ es continua.

Ejemplo 1. Sea $\lambda \in \RR$ tal que $\lambda > 0$ y sea $X$ una v.a. con distribución $F\colon\RR\to\RR$ dada por

\[ F(x) = \begin{cases} 1 − e^{-\lambda x} & \text{si $x \geq 0$}, \\[1em] 0 & \text{en otro caso.} \end{cases} \]

Gráficamente, para algunos valores de $\lambda$, $F$ se ve como sigue:

Figura. Gráfica de la función $F(x) = 1 − e^{-\lambda x}$ para distintos valores de $\lambda$.

Si tomamos a $f\colon\RR\to\RR$ como sigue

\[ f(x) = \begin{cases} \lambda e^{-\lambda x} & \text{si $x \geq 0$}, \\[1em] 0 & \text{en otro caso,} \end{cases} \]

se cumplirá que $f$ es la densidad de $X$. Para verlo, tomamos $x \in \RR$. Primero, observa que si $x < 0$, entonces

\[ \int_{-\infty}^{x} f(t) \mathrm{d}t = \int_{-\infty}^{x} 0 \mathrm{d}t = 0 = F(x), \]

donde $F(x) = 0$ se cumple por la definición de $F$. Por otro lado, para el caso en el que $x \geq 0$ se tiene que

\begin{align*} \int_{-\infty}^{x} f(t) \mathrm{d}t &= \int_{-\infty}^{0} 0 \mathrm{d}t + \int_{0}^{x} \lambda e^{-\lambda t} \mathrm{d}t \\[1em] &= 0 + {\left( − e^{−\lambda t} \right)} \Big|_{0}^{x} \\[1em] &= e^{−\lambda \cdot 0} − e^{−\lambda x} \\[1em] &= 1 − e^{-\lambda x}, \end{align*}

por lo que queda demostrado que para cada $x \in \RR$ se cumple que $F(x) = \int_{−\infty}^{x} f(t) \mathrm{d}t$. Por lo tanto, $f$ es la densidad de $X$.

Figura. Gráfica de la función de densidad de $X$, $f(x) = \lambda e^{−\lambda x}$, para algunos valores de $\lambda$.

Cuando una v.a. tiene la función de distribución (y, en consecuencia, la densidad) del ejemplo anterior, se dice que sigue una distribución exponencial. Esta es una de las muchas distribuciones importantes que veremos más adelante.

¿Las v.a.’s continuas tienen función de masa de probabilidad?

Como seguramente ya notaste, la relación que existe entre la densidad y la función de distribución de una v.a. continua se parece mucho a la relación entre la masa de probabilidad y la distribución de una v.a. discreta. En el caso de las discretas, para obtener el valor de $F(x)$ para $x \in \RR$ a partir de la función de masa de probabilidad, lo que se hace es sumar todas las probabilidades de los valores menores o iguales a $x$. Por otro lado, en el caso de las continuas lo que se hace es integrar la función de densidad desde $−\infty$ hasta $x$.

Sin embargo, hay un detalle muy importante en el que difieren las v.a.’s continuas de las discretas, que desarrollaremos a continuación. Sea $X$ una v.a. continua. ¿Recuerdas la siguiente propiedad? La vimos en la entrada pasada. Para cada $a \in \RR$, se cumple que

\[ \Prob{X =a} = F_{X}(a) − F_{X}(a-), \]

donde no olvides que $F_{X}(a-)$ es el límite de $F(x)$ cuando $x$ tiende a $a$ por la izquierda. Sin embargo, en el caso de una v.a. continua, sabemos que existe $f\colon\RR\to\RR$ integrable y no-negativa tal que para cada $x \in \RR$, se cumple que

\[ F_{X}(x) = \int_{-\infty}^{x} f(t) \mathrm{d}t. \]

Debido a que $f$ es una función integrable, la función $F_{X}$ es continua. En particular, es continua por la izquierda, por lo que para cada $a \in \RR$ se cumple que

\[ \Prob{X = a} = F_{X}(a) − F_{X}(a-) = F_{X}(a) − F_{X}(a) = 0. \]

Esto seguramente te resulta confuso, ¿la probabilidad de que la v.a. $X$ tome cualquier valor real es $0$? ¡Así es! Sin embargo, nosotros habíamos dicho que en la probabilidad, medíamos qué tan «probable» es que pase un evento con una calificación del $0$ al $1$. En particular, habíamos acordado que $0$ representa lo más improbable posible. ¿Esto significa que es imposible que una v.a. continua tome algún valor fijo? ¡No! Ten mucho cuidado, nosotros dijimos que cuando un evento tiene probabilidad $0$ esto significa que es lo más improbable posible de acuerdo con la medida de probabilidad que se está utilizando. Esto puede interpretarse como que sí es imposible (como pasa con los puntos de probabilidad $0$ en una v.a. discreta, o los puntos donde la densidad de una v.a. continua vale $0$), o puede significar que es muy improbable, pero no imposible.

Además, debido a esto último, cuando $X$ es una v.a. continua se cumple que

\[ \Prob{X \in (a,b]} = \Prob{X \in (a,b)} = \Prob{X \in [a,b)} = \Prob{X \in [a,b]}, \]

y que

\[ \Prob{X \leq a} = \Prob{X < a}, \qquad \Prob{X \geq a} = \Prob{X > a}, \]

por lo que con las v.a.’s continuas no es necesario preguntarse si la desigualdad es estricta o no. Mucho cuidado, con las discretas sí debes de tener cuidado con eso, porque en las discretas hay valores $a \in \RR$ para los cuales $\Prob{X = a} > 0$.

Pese a que la probabilidad de los eventos $(X = a)$ es $0$ para cada $a \in \RR$ cuando $X$ es una v.a. continua, la variable aleatoria sí puede tomar cualquiera de los valores en los que su función de densidad es mayor a $0$.

Partiendo de una función de densidad

En la entrada pasada vimos que puede definirse la distribución de una v.a. discreta a partir de una función de masa de probabilidad. De manera muy similar, puede definirse la distribución de una v.a. continua a partir de una función de densidad. Sin embargo, hay que establecer las propiedades que debe de satisfacer una función para poder uitlizarla como función de densidad.

Sea $f\colon\RR\to\RR$ una función integrable. Si se cumple que

\begin{align*} f(x) \geq 0 &\quad \text{para cada $x \in \RR$,} \tag{1} \\[1em] \int_{−\infty}^{\infty} f(t) \mathrm{d}t &= 1, \tag{2}\end{align*}

entonces $f$ es la densidad de alguna v.a. continua. Para confirmar este hecho, define $F\colon\RR\to\RR$ como

\[ F(x) = \int_{−\infty}^{x} f(t) \mathrm{d}t, \quad \text{para cada $x \in \RR$,} \]

y demuestra (tarea moral) que $F$ es una función de distribución. Esto es, que $F$ es no-decreciente, continua por la derecha y su límite a $\infty$ es $1$ y a $−\infty$ es $0$.

Ejemplo 2. La función de densidad de una v.a. continua debe de ser integrable. Sin embargo, no tiene por qué ser continua, ya que funciones integrables que tienen discontinuidades. Por ejemplo, considera a $f\colon\RR\to\RR$ dada por

\[ f(x) = \begin{cases} 1 & \text{si $x \in [−1.5, −1]$,} \\[1em] 1 & \text{si $x \in [1, 1.5]$,} \\[1em] 0 & \text{en otro caso.} \end{cases} \]

Gráficamente:

Figura. Gráfica de la función $f$. Observa que claramente $f$ no es una función continua.

Para ver que $f$ es la función de densidad de alguna v.a. continua, hay que demostrar que $f$ satisface:

\begin{align*} f(x) \geq 0 \quad \text{para cada $x \in \RR$} \qquad \text{y} \qquad \int_{−\infty}^{\infty} f(t) \mathrm{d}t = 1.\end{align*}

Primero, observa que por la definición de $f$, para cada $x \in \RR$ se cumple que $f(x) = 0$ o $f(x) = 1$, por lo que $f$ es no-negativa. Por otro lado, veamos cuánto vale la integral de $f$ sobre $\RR$.

\begin{align*} \int_{−\infty}^{\infty} f(t) \mathrm{d}t &= \int_{−\infty}^{−1.5} f(t) \mathrm{d}t + \int_{−1.5}^{−1} f(t) \mathrm{d}t + \int_{−1}^{1} f(t) \mathrm{d}t + \int_{1}^{1.5} f(t) \mathrm{d}t + \int_{1.5}^{\infty} f(t) \mathrm{d}t \\[1em] &= \int_{−\infty}^{−1.5} 0 \mathrm{d}t + \int_{−1.5}^{−1} 1 \mathrm{d}t + \int_{−1}^{1} 0 \mathrm{d}t + \int_{1}^{1.5} 1 \mathrm{d}t + \int_{1.5}^{\infty} 0 \mathrm{d}t \\[1em] &= \int_{−1.5}^{−1} 1 \mathrm{d}t + \int_{1}^{1.5} 1 \mathrm{d}t \\[1em] &= {\Big( t \, \Big|_{−1.5}^{−1} \Big)} + {\Big( t \, \Big|_{1}^{1.5} \Big)} \\[1em] &= (−1 − (−1.5)) + (1.5 − 1) \\[1em] &= (−1 + 1.5) + (1.5 − 1) \\[1em] &= 0.5 + 0.5 \\[1em] &= 1, \end{align*}

por lo que $\int_{−\infty}^{\infty} f(t) \mathrm{d}t = 1$, así que $f$ es la función de densidad de alguna v.a. continua.

A partir de $f$ podemos obtener la función de distribución que le corresponde, donde para cada $x \in \RR$, se define $F$ como

\[ F(x) = \int_{-\infty}^{x} f(t) \mathrm{d}t. \]

Sin embargo, como $f$ está definida por pedazos, hay que tener cuidado con cada uno de los casos para $x$. En este caso, $f$ tiene $5$ casos que analizar. Primero, cuando $x < -1.5$, tenemos que

\[ F(x) = \int_{-\infty}^{x} f(t) \mathrm{d}t = \int_{-\infty}^{x} 0 \mathrm{d}t = 0, \]

pues $f(x) = 0$ cuando $x < -1.5$. Luego, cuando $-1.5 \leq x \leq 1$, tenemos que

\[ F(x) = \int_{-\infty}^{x} f(t) \mathrm{d}t = \int_{-\infty}^{-1.5} 0 \mathrm{d}t + \int_{-1.5}^{x} 1 \mathrm{d}t = 0 + {\Big( t \, \Big|_{-1.5}^{x} \Big)} = x − (-1.5) = x + 1.5, \]

¡observa con cuidado cómo los integrandos difieren debido a que $f$ está definida por pedazos! Continuando con el ejemplo, cuando $-1 < x < 1$, se tiene que

\begin{align*} F(x) = \int_{-\infty}^{x} f(t) \mathrm{d}t = \int_{-\infty}^{-1.5} 0 \mathrm{d}t + \int_{-1.5}^{-1} 1 \mathrm{d}t + \int_{-1}^{1} 0 \mathrm{d}t &= 0 + {\Big( t \, \Big|_{-1.5}^{-1} \Big)} + 0 \\[1em] &= (-1) − (-1.5) \\[1em] &= 0.5, \end{align*}

es decir, $F$ permanece constante entre $-1$ y $1$, y toma el valor $0.5$. Cuando $1 \leq x \leq 1.5$, la integral queda como sigue

\begin{align*} F(x) = \int_{-\infty}^{x} f(t) \mathrm{d}t &= \int_{-\infty}^{-1.5} 0 \mathrm{d}t + \int_{-1.5}^{-1} 1 \mathrm{d}t + \int_{-1}^{1} 0 \mathrm{d}t + \int_{-1}^{x} 1 \mathrm{d}t \\[1em] &= 0 + {\Big( t \, \Big|_{-1.5}^{-1} \Big)} + 0 + {\Big( t \, \Big|_{1}^{x} \Big)} \\[1em] &= ((-1) − (-1.5)) + (x − 1) \\[1em] &= 0.5 + x − 1 \\[1em] &= x − 0.5, \end{align*}

y así obtenemos la función de distribución asociada a $f$, que es

\[ F(x) = \begin{cases} 0 & \text{si $x < -1.5$}, \\[1em] x + 1.5 & \text{si $-1.5 \leq x \leq 1$}, \\[1em] 0.5 & \text{si $-1 < x < 1$}, \\[1em] x − 0.5 & \text{si $1 \leq x \leq 1.5$}, \\[1em] 1 & \text{si $1.5 \leq x$}, \end{cases} \]

que gráficamente se ve como la siguiente figura

Figura. Gráfica de la función de distribución $F$. Observa que, informalmente, puede apreciarse que satisface las propiedades de una función de distribución (como ya lo esperábamos): es no-decreciente, continua por la derecha y sus límites a $-\infty$ e $\infty$ son $0$ y $1$, respectivamente.

Teniendo la función de distribución, es posible calcular muchas probabilidades. Si $U$ es una v.a. cuya distribución es la función $F$ que obtuvimos, entonces podemos obtener:

\[ \Prob{U \leq -\frac{4}{3}} = -\frac{4}{3} + 1.5 = -\frac{4}{3} + \frac{3}{2} = \frac{-8 + 9}{6} = \frac{1}{6} \approx 0.16666, \]

por lo que $\Prob{U \leq -\frac{4}{3}} \approx 16.666\%$. Además, como $U$ es una v.a. continua, se tiene que $\Prob{U \leq -\frac{4}{3}} = \Prob{U < -\frac{4}{3}}$, pues $\Prob{U = -\frac{4}{3}} = 0$. Esto pasa con cualquier valor, como ya mencionamos anteriormente. Por ello, al obtener probabilidades de que una v.a. continua esté dentro de algún intervalo, puedes no preocuparte por los extremos. Otro ejemplo:

\[ \Prob{X \in (-1.2, 1.4]} = F(1.4) − F(-1.2) = (1.4 − 0.5) − ((-1.2) + 1.5) = 0.9 − 0.3 = 0.6, \]

que es igual a $\Prob{X \in (-1.2, 1.4)}$, pues $\Prob{X = 1.4} = 0$.


Recuperando la densidad a partir de la distribución

Habrá situaciones en las que tendremos la función de distribución de una v.a. continua, y necesitaremos su función de densidad. El siguiente ejemplo exhibe una metodología para obtener la densidad de una v.a. continua a partir de su función de distribución.

Ejemplo 3. Sea $Z$ una v.a. con distribución $G\colon\RR\to\RR$ dada por

\[ G(z) = \begin{cases} 0 & \text{si $x < 0$}, \\[1em] z^2 & \text{si $0 \leq z < \frac{1}{2}$}, \\[1em] 1 − \dfrac{3(1 − z)}{2} & \text{si $\frac{1}{2} \leq z < 1$}, \\[1em] 1 & \text{si $z \geq 1$},\end{cases} \]

que gráficamente se ve como sigue:

Figura. Gráfica de la función $G$. Parece que sí es una función de distribución… ¡No se te olvide verificarlo!

Ahora, para obtener la función de densidad de $Z$, digamos, $g$. Para hacerlo, hay que hacer el procedimiento inverso al que seguimos en el ejemplo anterior. No obstante, la densidad $g$ será una función definida por pedazos, así como $G$ (y como la densidad del ejemplo anterior).

Además, en lugar de integrar, ahora tenemos que encontrar la derivada $G$. Es decir, la función $g$ que buscamos debe de satisfacer que

\[ G'(z) = g(z), \qquad \text{para cada $z\in\RR$.} \]

Sin embargo, observa que la función no es diferenciable sobre todo su dominio. Gráficamente, tiene un piquito en $z=\frac{1}{2}$, que es un indicador de que la función no es diferenciable en ese punto. Lo mismo pasa en $z=1$.

Sin embargo, es posible obtener la derivada de la función $G$ en los pedazos en los que sí es diferenciable. Podemos trabajar de manera similar a como lo hicimos en el ejemplo anterior, analizando cada uno de los casos que contempla la regla de correspondencia de $G$. De este modo, sea $z < 0$. Queremos encontrar $g_{1}$, una función no-negativa, tal que

\[ G(z) = \int_{-\infty}^{z} g_{1}(t) \mathrm{d}t, \]

y como $z < 0$, $G(z) = 0$, por lo que buscamos $g_{1}$ tal que

\[ \int_{-\infty}^{z} g_{1}(t) \mathrm{d}t = 0, \]

que debe de ser una función constante para que se cumpla que $G'(t) = g_{1}(t)$ para $t < 0$. Además, $g_{1}$ debe de ser no-negativa, pues buscamos que sea parte de una función de densidad, la cual debe de ser no negativa. De este modo, la única función $g_{1}$ que satisface este hecho es la función dada por $g_{1}(t) = 0$, pues es constante y su integral de $-\infty$ a $z$ es $0$, con $z < 0$. De este modo, $g$, la derivada de $G$ que buscamos, cumple que $g(z) = 0$ para cada $z < 0$.

Después, para $z \in [0, \frac{1}{2})$, tenemos que

\[ G(z) = z^{2}, \]

y lo que queremos es encontrar una función $g_{2}$ tal que

\[ G(z) = \int_{-\infty}^{0} g_{1}(t) \mathrm{d}t + \int_{0}^{z} g_{2}(t) \mathrm{d}t, \]

donde $g_{1}$ es la que obtuvimos en el paso anterior (gracias al paso anterior sabemos que la derivada de $G$ que estamos construyendo vale $0$ de $-\infty$ a $0$). Por ello, buscamos $g_{2}$ tal que

\[ z^{2} = \int_{-\infty}^{0} g_{1}(t) \mathrm{d}t + \int_{0}^{z} g_{2}(t) \mathrm{d}t = 0 + \int_{0}^{z} g_{2}(t) \mathrm{d}t = \int_{0}^{z} g_{2}(t) \mathrm{d}t, \]

por lo que $g_{2}$ es la función dada por $g_{2}(t) = 2z$ para cada $z \in [0, \frac{1}{2})$; ya que $\frac{\mathrm{d}}{\mathrm{d}z}{\left( z^{2} \right)} = 2z$.

Ahora, para $z \in [\frac{1}{2}, 1)$, se tiene que

\[ G(z) = 1 − \frac{3(1 − z)}{2}, \]

y ahora buscamos una función $g_{3}$ tal que

\[ G(z) = \int_{-\infty}^{0} g_{1}(t) \mathrm{d}t + \int_{0}^{\frac{1}{2}} g_{2}(t) \mathrm{d}t + \int_{\frac{1}{2}}^{z} g_{3}(t) \mathrm{d}t. \]

Desarrollando el lado derecho de esta última igualdad obtenemos la siguiente expresión

\begin{align*} \int_{-\infty}^{0} g_{1}(t) \mathrm{d}t + \int_{0}^{\frac{1}{2}} g_{2}(t) \mathrm{d}t + \int_{\frac{1}{2}}^{z} g_{3}(t) \mathrm{d}t &= 0 + {\left({\left( \frac{1}{2} \right)}^{2} − 0^{2} \right)} + \int_{\frac{1}{2}}^{z}g_{3}(t) \mathrm{d}t \\[1em] &= \frac{1}{4} + \int_{\frac{1}{2}}^{z}g_{3}(t) \mathrm{d}t, \end{align*}

y, por otro lado, desarrollando el lado izquierdo, obtenemos que

\[ G(z) = 1 − \frac{3(1 − z)}{2} = 1 − \frac{3 − 3z}{2} = \frac{2 − (3 − 3z)}{2} = \frac{3z − 1}{2} \]

por lo que la función $g_{3}$ que buscamos debe de cumplir que

\[ \frac{3z − 1}{2} = \frac{1}{4} + \int_{\frac{1}{2}}^{z}g_{3}(t) \mathrm{d}t, \]

que desarrollando un poco, nos dice que $g_{3}$ debe de satisfascer

\[ \frac{3z}{2} − \frac{3}{4} = \int_{\frac{1}{2}}^{z}g_{3}(t) \mathrm{d}t. \]

Ahora, esto es algo que no se notó mucho en el paso anterior en el que obtuvimos $g_{2}$, pero la expresión de la izquierda incluye las constantes de integración. Esto es de esperarse, pues se trata del teorema fundamental del cálculo.

Bien, ahora observa $\frac{\mathrm{d}}{\mathrm{d}z}{\left( \frac{3z}{2} − \frac{3}{4} \right)} = \frac{3}{2}$; así que $g_{3}(t) = \frac{3}{2}$ es la función que queremos. Más aún, podemos confirmarlo integrando $g_{3}$ de $\frac{1}{2}$ a $z$:

\[ \int_{\frac{1}{2}}^{z} \frac{3}{2} \mathrm{d}t = \frac{3}{2} \int_{\frac{1}{2}}^{z} 1 \mathrm{d}t = \frac{3}{2}{\left( z − \frac{1}{2} \right)} = \frac{3z}{2} − \frac{3}{4}, \]

por lo que $g_{3}(t) = \frac{3}{2}$ es precisamente la función que buscamos.

Finalmente, para $z \geq 1$, tenemos que $G(z) = 1$, por lo que nos queda encontrar $g_{4}$ tal que

\begin{align*} 1 &= \int_{-\infty}^{0} g_{1}(t) \mathrm{d}t + \int_{0}^{\frac{1}{2}} g_{2}(t) \mathrm{d}t + \int_{\frac{1}{2}}^{1} g_{3}(t) \mathrm{d}t + \int_{1}^{\infty} g_{4}(t) \mathrm{d}t, \\[1em] &= \int_{-\infty}^{0} 0 \mathrm{d}t + \int_{0}^{\frac{1}{2}} 2t \mathrm{d}t \mathrm{d}t + \int_{\frac{1}{2}}^{1} \frac{3}{2} \mathrm{d}t + \int_{1}^{\infty} g_{4}(t) \mathrm{d}t \\[1em] &= 0 + \frac{1}{4} + {\left( \frac{3}{2} − \frac{3}{4} \right) } + \int_{1}^{\infty} g_{4}(t) \mathrm{d}t \\[1em] &= \frac{1}{4} + {\left( \frac{6 − 3}{4} \right) } + \int_{1}^{\infty} g_{4}(t) \mathrm{d}t \\[1em] &= \frac{1}{4} + \frac{3}{4} + \int_{1}^{\infty} g_{4}(t) \mathrm{d}t \\[1em] &= 1 + \int_{1}^{\infty} g_{4}(t) \mathrm{d}t \end{align*}

por lo que $g_{4}$ debe de satisfacer que

\[ 1 = 1 + \int_{1}^{\infty} g_{4}(t) \mathrm{d}t, \]

o equivalentemente, que $\int_{1}^{\infty} g_{4}(t) \mathrm{d}t = 0$. Similarmente a $g_{1}$, la única función no-negativa que satisface esto es $g_{4}(z) = 0$, para cada $z \geq 1$. Así, colocando cada una de las funciones que hemos obtenido en el caso que le corresponde, obtenemos que la densidad de $Z$ es la función $g\colon\RR\to\RR$ dada por

\[ g(z) = \begin{cases} 0 & \text{si $x < 0$}, \\[1em] 2z & \text{si $0 \leq z < \frac{1}{2}$}, \\[1em] \frac{3}{2} & \text{si $\frac{1}{2} \leq z < 1$}, \\[1em] 0 & \text{si $z \geq 1$},\end{cases} \]

que gráficamente se ve como sigue:

Figura. Gráfica de $g$, la densidad de $Z$. Observa que $g$ no es continua, algo que ya dejamos claro que no es necesario. Sin embargo, $g$ claramente es una función integrable.

Usos de las variables aleatorias continuas

Las v.a.’s continuas tienen una cantidad no-numerable de valores que pueden tomar. Esto se debe a que $\RR$ y muchos de sus subconjuntos son ejemplos de conjuntos infinitos no-numerables. Por ejemplo, los intervalos $[0,1]$, $[0, \infty)$, $(−5, 3]$ son ejemplos de conjuntos con cardinalidad infinita no-numerable. Por ello, las v.a.’s continuas se utilizan en fenómenos cuyo resultado amerita usar la precisión de los números reales.

Un primer ejemplo son los fenómenos en donde el resultado es un valor de tiempo. El tiempo que esperas hasta que llega un autobús a la parada en la que lo tomas; el tiempo que tarda en fallar algún aparato electrónico (el ejemplo clásico es el tiempo que tarda un foco en fundirse); el tiempo de vida que le queda a una persona (espeluznante, pero a los actuarios les interesa debido a los seguros de vida); etcétera. Cuando se habla de tiempos, suelen usarse v.a.’s continuas que tengan a $[0, \infty)$ como soporte para asegurar que el modelo contempla únicamente valores no-negativos. Las v.a.’s con distribución exponencial (que mencionamos en el primer ejemplo de esta entrada) son un ejemplo de este tipo de v.a.’s.

Otro ejemplo donde se usan v.a.’s continuas son los fenómenos financieros. El precio de un activo en un momento dado; la paridad cambiaria entre divisas; el valor que tomará la tasa de interés o de rendimiento en un instrumento financiero (como una anualidad) en el futuro; etcétera. La teoría de los procesos estocásticos es la rama de la probabilidad que se encarga del estudio de fenómenos aleatorios a través del tiempo, y resulta fundamental para el análisis de fenómenos financieros como los que aquí mencionamos.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Demuestra que si $f\colon\RR\to\RR$ es una función que satisface \begin{align*} f(x) \geq 0 \quad \text{para cada $x \in \RR$} \qquad \text{y} \qquad \int_{−\infty}^{\infty} f(t) \mathrm{d}t = 1,\end{align*}entonces $f$ es la función de densidad de alguna v.a. continua. Sugerencia: Define $F\colon\RR\to\RR$ como sigue: para cada $x \in \RR$, \[ F(x) = \int_{−\infty}^{\infty} f(t) \mathrm{d}t, \]y demuestra que $F$ es una función de distribución.
  2. Demuestra que la función $g\colon\RR\to\RR$ dada por\[ g(x) = \begin{cases} x + 1 & \text{si $x \in [−1,0)$,} \\[1em] 1 − x & \text{si $x \in [0, 1]$,} \\[1em] 0 & \text{en otro caso} \end{cases} \]es la función de densidad de alguna v.a. continua. La gráfica de $g$ puede apreciarse en la siguiente figura:
  3. Verifica que la función $G$ del Ejemplo 3 es una función de distribución.

Más adelante…

Es importante que entiendas las diferencias que existen entre las v.a.’s discretas y las continuas. Repasa esta entrada y la anterior las veces que sea necesario para que no te confundas entre ambas. En la siguiente entrada veremos qué es lo que resulta de aplicarle funciones (transformaciones) a una v.a.

En cuanto a las aplicaciones, verás muchísimas más en materias posteriores, como en las materias de estadística. Por nuestro lado veremos varias distribuciones de probabilidad importantes (como la distribución exponencial) con las que seguramente te encontrarás en ese tipo de materias.

Entradas relacionadas