Archivo de la etiqueta: valor esperado

Probabilidad I: Más Propiedades del Valor Esperado

Por Octavio Daniel Ríos García

Introducción

Como parte de nuestro estudio del valor esperado, en esta entrada abordaremos algunas más de sus propiedades. En la entrada antepasada vimos un primer conjunto de propiedades, y probablemente habrás notado que se trataba de propiedades en las que sólamente había una v.a. Por el contrario, conforme a lo visto en la entrada anterior, las propiedades que veremos en esta entrada involucran a más de una v.a., así que necesitaremos algunos de los elementos básicos de probabilidad multivariada que vimos.

En esta entrada centraremos nuestra atención en ver cómo interactúa el valor esperado con dos operaciones de variables aleatorias: la suma y el producto. Veremos que el valor esperado de la suma de dos v.a.’s se comporta de forma muy agradable, y podremos decir que es lineal. No obstante, el valor esperado del producto de dos v.a.’s requerirá de una condición extra para poder comportarse de manera agradable.

Linealidad con respecto a escalares

Una consecuencia de la ley del estadístico inconsciente es una primera propiedad de linealidad del valor esperado, con respecto a constantes reales.


Propiedad 1. Sea $X\colon\Omega\to\RR$ una variable aleatoria y sean $a$, $b \in \RR$. Entonces se cumple que

\begin{align*} \Esp{aX + b} &= a\Esp{X} + b \end{align*}


Demostración. Sea $g\colon\RR\to\RR$ la transformación dada por

\begin{align*} g(x) &= ax + b & \text{para cada $x \in \RR$}.\end{align*}

De este modo, $g(X) = aX + b$. Aplicando la ley del estadístico inconsciente, se sigue que:

  1. Si $X$ es una v.a. discreta, entonces \begin{align*} \Esp{g(X)} &= \sum_{x \in X[\Omega]} g(x) \Prob{X = x} \\[1em] &= \sum_{x \in X[\Omega]} (ax + b) \Prob{X = x} \\[1em] &= \sum_{x \in X[\Omega]} {\left( ax\Prob{X = x} + b\Prob{X = x}\right)} \\[1em] &= a \sum_{x\in X[\Omega]} x \Prob{X = x} + \sum_{x\in X[\Omega]} b \Prob{X = x} \\[1em] &= a\Esp{X} + \Esp{b} \\[1em] &= a\Esp{X} + b, \end{align*}por lo que es cierto en el caso discreto.
  2. Si $X$ es una v.a. continua, entonces $g(X)$ es una v.a. continua (porque $g$ es una transformación continua). Así, tenemos que \begin{align*} \Esp{g(X)} &= \int_{-\infty}^{\infty} g(x) f_{X}(x) \, \mathrm{d}x, \\[1em] &= \int_{-\infty}^{\infty} (ax + b) f_{X}(x) \, \mathrm{d}x \\[1em] &= \int_{-\infty}^{\infty} (axf_{X}(x) + bf_{X}(x)) \, \mathrm{d}x \\[1em] &= \int_{-\infty}^{\infty} axf_{X}(x) \, \mathrm{d}x + \int_{-\infty}^{\infty} bf_{X}(x) \, \mathrm{d}x \\[1em] &= a \int_{-\infty}^{\infty} xf_{X}(x) \, \mathrm{d}x + b\int_{-\infty}^{\infty} f_{X}(x) \, \mathrm{d}x \\[1em] &= a\Esp{X} + b, \end{align*}por lo que también es cierto en el caso continuo.

Por lo tanto, podemos concluir que si $X$ es una v.a. y $a$ y $b \in \RR$ son constantes reales, entonces

\begin{align*} \Esp{aX + b} &= a\Esp{X} + b, \end{align*}

que es justamente lo que queríamos demostrar.

$\square$

Es importante notar que para \(a = 1\), la propiedad anterior nos dice que para cualquier \(b \in \RR\) se cumple que

\begin{align*} \Esp{X + b} &= \Esp{X} + b, \end{align*}

lo cual es muy natural: si la v.a. \(X\) tiene una tendencia central hacia \(\Esp{X}\), entonces el comportamiento aleatorio de \(X + b\) estará centrado alrededor de \(\Esp{X} + b\), pues el valor \(b\) está fijo.

Valor esperado de la suma de v.a.’s

Dadas $X\colon\Omega\to\RR$ y $Y\colon\Omega\to\RR$ dos v.a.’s definidas sobre el mismo espacio de probabilidad, podemos definir la v.a. $(X+Y)\colon\Omega\to\RR$ dada por

\begin{align*} (X+Y)(\omega) &= X(\omega) + Y(\omega) & \text{para cada $\omega\in\Omega$}. \end{align*}

Ahora, si por alguna razón queremos calcular el valor esperado de $X+Y$, podríamos caer en la trampa de utilizar directamente la definición, e intentaríamos calcular

\begin{align*} \Esp{X+Y} &= \sum_{z \in (X+Y)[\Omega]} z \Prob{X + Y = z}, \end{align*}

en caso de que $X+Y$ sea discreta; o

\begin{align*} \Esp{X+Y} &= \int_{-\infty}^{\infty} z f_{X+Y}(z) \, \mathrm{d}z, \end{align*}

donde $f_{X+Y}\colon\RR\to\RR$ es la función de densidad de $X+Y$… algo que inicialmente no poseemos, incluso si las distribuciones de $X$ y de $Y$ son conocidas. Sin embargo, no es necesario hacer nada de esto: ¡el valor esperado es lineal! Esto lo enunciamos en la siguiente propiedad.


Propiedad 2. Sean $X\colon\Omega\to\RR$, $Y\colon\Omega\to\RR$ variables aleatorias con valor esperado finito definidas sobre el mismo espacio de probabilidad. Entonces

\begin{align*} \Esp{X + Y} &= \Esp{X} + \Esp{Y}. \end{align*}


Demostración. Demostraremos el caso en el que $X$ y $Y$ son v.a.’s discretas. Para ello, podemos recurrir directamente a la definición formal de valor esperado.

\begin{align*} \Esp{X + Y} &= \sum_{\omega\in\Omega} (X + Y)(\omega) \Prob{\{ \omega \}}. \end{align*}

Sabemos que $(X + Y)(\omega) = X(\omega) + Y(\omega)$, por lo que

\begin{align*} \sum_{\omega\in\Omega} (X + Y)(\omega) \Prob{\{ \omega \}} &= \sum_{\omega\in\Omega} (X(\omega) + Y(\omega)) \Prob{\{\omega\}} \\[1em] &=\sum_{\omega\in\Omega} {\left[X(\omega)\Prob{\{\omega\}} + Y(\omega)\Prob{\{\omega\}} \right]} \\[1em] &= \sum_{\omega\in\Omega} X(\omega) \Prob{\{\omega\}} + \sum_{\omega\in\Omega} Y(\omega) \Prob{\{\omega\}} \\[1em] &= \Esp{X} + \Esp{Y}, \end{align*}

por lo que $\Esp{X + Y} = \Esp{X} + \Esp{Y}$, que es justamente lo que queríamos demostrar.

$\square$

Por otro lado, omitiremos el caso cuando $X$ y $Y$ son v.a.’s continuas, pues la demostración (a este nivel) requiere de hacer más trampa, utilizando además una variante multivariada de la ley del estadístico inconsciente. No obstante, para propósitos de este curso, podrás asumir que el valor esperado es lineal en el caso discreto y en el continuo.

Valor esperado del producto de v.a.’s

De manera similar a la suma, dadas \(X\colon\Omega\to\RR\), \(Y\colon\Omega\to\RR\) v.a.’s, se define el producto de \(X\) con \(Y\) como la función \((XY)\colon\Omega\to\RR\) dada por

\begin{align*} (XY)(\omega) &= X(\omega) Y(\omega) & \text{para cada \(\omega\in\Omega\)}. \end{align*}

Es natural preguntarnos, ¿cómo se comporta esta operación con respecto al valor esperado? ¿Se comporta igual que la suma? Es decir, ¿será cierto que para cualesquiera v.a.’s \(X\) y \(Y\) se cumple que

\begin{align*} \Esp{XY} &= \Esp{X}\Esp{Y}? \end{align*}

La respuesta es que no, y te ofrecemos el siguiente ejemplo.

Ejemplo 1. Sean \(X\), \(Y\) v.a.’s con función de masa de probabilidad conjunta \(p_{X,Y}\colon\RR^{2}\to\RR\) dada por los valores en la siguiente tabla:

\(X\)
-11\(p_{Y}(y) \)
\(Y\)00.10.40.5
10.40.10.5
\(p_{X}(x)\)0.50.5

De este modo, se tiene que

\begin{align*} p_{X,Y}(-1,0) &= \Prob{X= -1, Y = 0} = 0.1, \\[1em] p_{X,Y}(1,0) &= \Prob{X = 1, Y = 0} = 0.4, \end{align*}

etcétera. En los extremos de la tabla hemos colocado las funciones de masa de probabilidad marginal de \(X\) y de \(Y\). Con ellas podemos calcular \(\Esp{X}\) y \(\Esp{Y}\) como sigue:

\begin{align*} \Esp{X} &= (−1)\cdot p_{X}(−1) + 1 \cdot p_{X}(1) = (−0.5) + 0.5 = 0, \\[1em] \Esp{Y} &= 0\cdot p_{Y}(0) + 1 \cdot p_{Y}(1) = 0 + 0.5 = 0.5. \end{align*}

Así, obtenemos que \(\Esp{X}\Esp{Y} = 0 \cdot 0.5 = 0\). Por otro lado, observa que \(XY\) puede tomar alguno de tres posibles valores: \(0\), \(1\) y \(-1\). \(XY\) vale \(0\) cuando \(Y\) toma el valor \(0\) y \(X\) toma cualquier valor; mientras que \(XY = 1\) cuando \(Y=1\) y \(X = 1\); y además \(XY = -1\) cuando \(Y=1\) y \(X=-1\). Esto nos da todas las probabilidades de \(XY\), que son

\begin{align*} \Prob{XY = 0} &= \Prob{X = 1, Y = 0} + \Prob{X = -1, Y = 0} = 0.4 + 0.1 = 0.5, \\[1em] \Prob{XY=1} &= \Prob{X=1,Y=1} = 0.1, \\[1em] \Prob{XY=-1} &= \Prob{X=-1,Y=0} = 0.4, \end{align*}

así que \(XY\) es una v.a. con función de masa de probabilidad \(p_{XY}\colon\RR\to\RR\) dada por

\begin{align*} p_{XY}(z) &= \begin{cases} 0.4 & \text{si \(z=-1\)}, \\[1em] 0.5 & \text{si \(z = 0\)}, \\[1em] 0.1 & \text{si \(z=1\)}, \\[1em] 0 & \text{en otro caso.}\end{cases}\end{align*}

Por lo tanto, el valor esperado de \(XY\) es

\begin{align*} \Esp{XY} &= (-1)\cdot p_{XY}(-1) + 0\cdot p_{XY}(0) + 1\cdot p_{XY}(1) = −0.4 + 0 + 0.1 = −0.3, \end{align*}

así que claramente \(\Esp{XY} \neq \Esp{X}\Esp{Y}\).


Sin embargo, hay una condición bajo la cual sí se cumple que \(\Esp{XY} = \Esp{X}\Esp{Y}\), que está dada por el siguiente teorema:


Teorema 1. Si \(X\), \(Y\) son variables aleatorias independientes, entonces se cumple que

\begin{align*} \Esp{XY} &= \Esp{X}\Esp{Y}. \end{align*}


La demostración de este teorema requiere de más acrobacias tramposas (a este nivel) con integrales múltiples, por lo que la omitiremos.

Observa que el teorema establece que si \(X\) y \(Y\) son v.a.’s independientes, entonces se tendrá que \(\Esp{XY} = \Esp{X}\Esp{Y}\). La implicación conversa no es verdadera, existen v.a.’s no-independientes que satisfacen \(\Esp{XY} = \Esp{X}\Esp{Y}\).

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. ¿Cómo interpretas la linealidad del valor esperado? Es decir, sabemos que si \(X\) es una v.a., entonces \(\Esp{X}\) es el «centroide esperado» al obtener muchas observaciones de \(X\), ¿cómo se interpreta que \(\Esp{X + Y} = \Esp{X} + \Esp{Y}\)?
  2. Por otro lado, no siempre se cumple que \(\Esp{XY} = \Esp{X}\Esp{Y}\). ¿Por qué pasa esto con el producto?
  3. Construye dos v.a.’s \(X\) y \(Y\) tales que \(\Esp{XY} = \Esp{X}\Esp{Y}\), pero de tal manera que \(X\) y \(Y\) no sean independientes. Sugerencia: Para asegurar la no-independencia, escoge una v.a. \(X\) sencilla (como las del Ejemplo 1), y toma a \(Y = g(X)\), donde \(g\) es una transformación conveniente.

Más adelante…

Debido a que el valor esperado es un concepto muy importante en la teoría (y en la práctica) de la probabilidad, las propiedades presentadas en esta entrada y la anterior son muy importantes, y te encontrarás con ellas muy a menudo. Además, en las materias de Probabilidad II y Procesos Estocásticos I verás temas que involucran más de una variable aleatoria (probabilidad multivariada) en los que utilizarás las propiedades vistas en esta entrada (y otras muy parecidas, pero más generales).

Volviendo a nuestro curso, en la entrada siguiente veremos otro valor asociado a una distribución de probabilidad: la varianza.

Entradas relacionadas

Probabilidad I: Propiedades del Valor Esperado

Por Octavio Daniel Ríos García

Introducción

Continuando con lo visto en la entrada anterior, en esta entrada presentaremos algunas propiedades fundamentales del valor esperado. Lo primero que veremos será el valor esperado de una constante, que será una propiedad muy básica pero de uso muy frecuente en la teoría que veremos.

Por otro lado, veremos un teorema muy importante desde los puntos de vista teórico y práctico, conocido como la ley del estadístico inconsciente. A grandes rasgos, este teorema hará posible obtener el valor esperado de \(g(X)\), donde \(X\) es una v.a. y \(g\) es una función.

Valor esperado de una función constante

La primera propiedad importante es que el valor esperado de una constante es la constante misma. Esto tiene sentido, pues si una v.a. toma un único valor $a \in \RR$, entonces se espera que su promedio a la larga sea $a$.


Propiedad. Sea $a \in \RR$ y $f_{a}\colon\Omega\to\RR$ la función constante $a$, de tal modo que $f_{a}(\omega) = a$ para cada $\omega \in \Omega$. Entonces se tiene que

\begin{align*} \Esp{f_{a}} &= a. \end{align*}

Abusando un poco de la notación, lo anterior significa que para cualquier valor constante $a \in \RR$ se cumple que $\Esp{a} = a$.


Demostración. Sea $a \in \RR$ y sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Se define la función constante $a$ $f_{a}\colon\Omega\to\RR$ como sigue: para cada $\omega\in\Omega$, $f_{a}(\omega) = a$. Se sigue inmediatamente que $f_{a}[\Omega] = \{ a \}$, por lo que $f_{a}$ es una v.a. discreta. De este modo,

\begin{align*} \Esp{f_{a}} &= \sum_{x\in f_{a}[\Omega]} x \Prob{f_{a} = x} \\[1em] &= \sum_{x\in\{a\}} x \Prob{f_{a} = x} \\[1em] &= a \Prob{f_{a} = a} \end{align*}

Ahora, como $f_{a}[\Omega] = \{ a \}$, entonces $f_{a}^{-1}[f_{a}[\Omega]] = f_{a}^{-1}[\{a\}]$, por lo que $\Omega = f_{a}^{-1}[\{ a \}]$. En consecuencia, se tiene que $(f_{a} = a) = \Omega$. Así, llegamos a que

\begin{align*} a \Prob{f_{a} = a} &= a \Prob{ \Omega } = a \cdot 1 = a, \end{align*}

por lo que podemos concluir que

\begin{align*} \Esp{f_{a}} &= a, \end{align*}

que es justamente lo que queríamos demostrar.

$\square$

Valor esperado de la transformación de una v.a.

Otra propiedad importante del valor esperado surge cuando queremos calcular el valor esperado de la transformación de una v.a. Para hacerlo, aparentemente necesitaríamos obtener la densidad o la masa de probabilidad de la transformación para luego calcular su valor esperado. Afortunadamente, esto no será necesario.

Si $X\colon\Omega\to\RR$ es una v.a. y $g\colon\RR\to\RR$ es una función tal que $g(X)$ es una v.a., hay que recordar que la distribución de $g(X)$ puede obtenerse en términos de la de $X$, por lo que el comportamiento probabilístico de $g(X)$ puede expresarse en términos del de $X$. Debido a esto, ¡también el valor esperado de $g(X)$ puede obtenerse usando la densidad o la masa de probabilidad de $X$!

La ley del estadístico inconsciente

De acuerdo con la discusión anterior, presentamos un teorema que posibilita el cálculo del valor esperado de una v.a. $g(X)$ conociendo únicamente la densidad de $X$. Este resultado es conocido como la ley del estadístico inconsciente. ¡Advertencia! La teoría con la que contamos hasta el momento hace necesario dividir la demostración en dos casos: uno para v.a.’s discretas y otro para v.a.’s continuas. En particular, la demostración para el caso discreto es clara y puedes centrar tu atención en ella, ya que te puede brindar una intuición firme de lo que pasa también en el caso continuo. Por el contrario, la demostración del caso continuo es un poco más técnica, e incluso requiere el uso de herramientas que quizás no hayas visto hasta ahora. Durante la demostración te comentaremos cuáles son estas herramientas, y las materias posteriores de la carrera en donde posiblemente las veas.


Teorema. Sea $X\colon\Omega\to\RR$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible.

  1. Si $X$ es una v.a. discreta, entonces \begin{align*} \Esp{g(X)} &= \sum_{x \in X[\Omega]} g(x) \Prob{X = x}, \end{align*}siempre que esta suma sea absolutamente convergente.
  2. Si $X$ y $g(X)$ son v.a.’s continuas, entonces \begin{align*} \Esp{g(X)} &= \int_{-\infty}^{\infty} g(x) f_{X}(x) \, \mathrm{d}x, \end{align*} siempre que esta integral sea absolutamente convergente, y donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$.

Demostración. 1. El caso discreto sirve para ilustrar la intuición, pues para cada $x \in X[\Omega]$ se tiene que $g(x) \in (g \circ X)[\Omega]$. Además, ya sabemos que para cada $y \in (g \circ X)[\Omega]$ se cumple que

\begin{align*} \Prob{g(X) = y} &= \Prob{X \in g^{-1}[\{ y \}]} = \sum_{x \in g^{-1}[\{y\}]} \Prob{X = x} \end{align*}

por lo que el valor esperado de $g(X)$ cumple que

\begin{align*} \Esp{g(X)} = \sum_{y \in (g \circ X)[\Omega]} y \Prob{g(X) = y} &= \sum_{y \in (g \circ X)[\Omega]} y \Prob{X \in g^{-1}[\{ y \}]} \\[1em] &= \sum_{y \in (g \circ X)[\Omega]} y {\left( \sum_{x \in g^{-1}[\{y\}]} \Prob{X = x} \right)} \\[1em] &= \sum_{y \in (g \circ X)[\Omega]} \sum_{x \in g^{-1}[\{y\}]} y \Prob{X = x}, \end{align*}

y como $x \in g^{-1}[\{y \}]$ si y sólamente si $g(x) = y$, se sigue que

\begin{align*} \sum_{y \in (g \circ X)[\Omega]} \sum_{x \in g^{-1}[\{y\}]} y \Prob{X = x} &= \sum_{y \in (g \circ X)[\Omega]} \sum_{x \in g^{-1}[\{y\}]} g(x) \Prob{X = x}. \end{align*}

Ahora, observa que de acuerdo con la suma sobre $y$, por cada $y \in (g \circ X)[\Omega]$ hay un sumando que tiene la forma

\[ \sum_{x \in g^{-1}[\{y\}]} g(x) \Prob{X = x}, \]

y cada uno de estos términos es una suma que corre sobre $x$, donde $x \in g^{-1}[\{ y \}]$. Es decir, estamos sumando sobre todos los $y \in (g \circ X)[\Omega]$, y en cada $y$ tomamos la suma sobre todos los $x \in g^{-1}[\{y \}]$. Esto quiere decir que podemos mover a $x$ sobre la unión de todos los $g^{-1}[\{y\}]$, y prescindir de la suma sobre $y$. Esto es,

\begin{align*} \bigcup_{y \in (g \circ X)[\Omega]} g^{-1}[\{y\}] &= g^{-1}{\left[ \bigcup_{y \in (g \circ X)[\Omega]} \{y\} \right]} \\[1em] &= g^{-1}[(g \circ X)[\Omega]] \\[1em] &= g^{-1}[g[X[\Omega]]], \end{align*}

y por propiedades de la imagen inversa, se tiene que $X[\Omega] \subseteq g^{-1}[g[X[\Omega]]]$. Ahora bien, los $x$ que aparecen en la suma son únicamente aquellos que están en $X[\Omega]$, pues de lo contrario son valores que no toma la v.a. $X$. En consecuencia, la suma se puede reducir a

\begin{align*} \sum_{y \in (g \circ X)[\Omega]} \sum_{x \in g^{-1}[\{y\}]} g(x) \Prob{X = x} &= \sum_{x\in X[\Omega]} g(x) \Prob{X = x}, \end{align*}

y así podemos concluir que

\begin{align*} \Esp{g(X)} &= \sum_{x \in X[\Omega]} g(x) \Prob{X = x}, \end{align*}

que es justamente lo que queríamos demostrar. Intuitivamente, esta última igualdad hace sentido, pues $g(X)$ toma el valor $g(x)$ cuando $X$ toma el valor $x$, y el evento en el que eso ocurre tiene probabilidad $\Prob{X = x}$.

La demostración del caso 2. es menos ilustrativa. Cuando $X$ y $g(X)$ son v.a.’s continuas, será necesario hacer una «doble integral», algo con lo que quizás no te hayas encontrado hasta ahora. Esto es algo que (por desgracia) haremos en algunas demostraciones del valor esperado.

Primero, demostraremos el siguiente lema:


Lema. Si $X\colon\Omega\to\RR$ es una v.a. continua tal que para todo $\omega\in\Omega$ se cumple que $X(\omega) \geq 0$ (es decir, $X$ es una v.a. no-negativa), entonces

\begin{align*} \Esp{X} &= \int_{0}^{\infty} [1 − F_{X}(x)] \, \mathrm{d}x, \end{align*}

donde $F_{X}\colon\RR\to\RR$ es la función de distribución de $X$.


Demostración. Sea $D \subseteq \RR^{2}$ el siguiente conjunto:

\begin{align*} D &= \{ \, (x,y) \in \RR^{2} \mid x > y \, \}. \end{align*}

Sea $\mathbf{1}_{D}\colon\RR^{2}\to\RR$ la función dada por

\begin{align*} \mathbf{1}_{D}(x,y) &= \begin{cases} 1 & \text{si $(x,y) \in D$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Es decir, $\mathbf{1}_{D}(x,y)$ vale $1$ si $(x,y) \in D$, es decir, vale $1$ si $x$ es mayor a $y$; y vale $0$ en caso contrario. Una función de este tipo es conocida como una función indicadora. Ahora, observa que para cualquier $x \in [0, \infty)$ se cumple que

\begin{align*} x &= \int_{0}^{x} 1 \, \mathrm{d}t, \tag{$*$}\end{align*}

pues la integral devuelve como resultado la longitud del intervalo $(0, x)$, que está bien definido, ya que $x \geq 0$. Dicha longitud es precisamente $x − 0 = x$, por lo que la igualdad $(*)$ es verdadera. Ahora, observa que $\mathbf{1}_{D}(x, t) = 1$ si y sólamente si $x > t$, o equivalentemente, si $t \in (-\infty, x)$. Así, tenemos que

\begin{align*} \int_{0}^{x} 1 \, \mathrm{d}t &= \int_{0}^{\infty} \mathbf{1}_{D}(x, t) \, \mathrm{d}t, \end{align*}

pues para $t \in (0, \infty)$, $\mathbf{1}_{D}(x, t) = 1$ sobre $(0, x)$, y es $0$ en otro caso. En conclusión, para cualquier $x \in [0, \infty)$ se cumple que

\begin{align}\label{id:integral} x &= \int_{0}^{\infty} \mathbf{1}_{D}(x, t) \, \mathrm{d}t. \end{align}

Usaremos esta «mañosa» identidad en el valor esperado de $X$. Primero, observa que $X$ es una v.a. no-negativa, así que $f_{X}(x) = 0$ para $x < 0$. En consecuencia, tenemos que

\begin{align*} \Esp{X} &= \int_{-\infty}^{\infty} x f_{X}(x) \, \mathrm{d}x = \int_{0}^{\infty} x f_{X}(x) \, \mathrm{d}x. \end{align*}

Usando la identidad \eqref{id:integral}, obtenemos que

\begin{align*} \int_{0}^{\infty} x f_{X}(x) \, \mathrm{d}x &= \int_{0}^{\infty}{\left( \int_{0}^{\infty} \mathbf{1}_{D}(x, t) \, \mathrm{d}t \right)} f_{X}(x) \, \mathrm{d}x = \int_{0}^{\infty}\int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}t \, \mathrm{d}x. \end{align*}

Observa que «metimos» a $f_{X}(x)$ dentro de la integral respecto a $t$ debido a que es una constante con respecto a $t$ (únicamente depende de $x$). La trampa que vamos a hacer es cambiar el orden de integración. Esto NO siempre se puede hacer, y la validez de este paso está dada por el teorema de Fubini, que verás en Cálculo Diferencial e Integral IV. Intercambiando el orden de integración, se tiene que

\begin{align*} \int_{0}^{\infty}\int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}t \, \mathrm{d}x &= \int_{0}^{\infty}\int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}x \, \mathrm{d}t \end{align*}

Ahora, observa que, para cada $x \in (0, \infty)$, $\mathbf{1}_{D}(x, t) = 1$ si y sólamente si $x > t$, o equivalentemente, si $x \in (t, \infty)$. En consecuencia,

\begin{align*} \int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}x &= \int_{t}^{\infty} f_{X}(x) \, \mathrm{d}x = \Prob{ X > t } = 1 − F_{X}(t). \end{align*}

Por lo tanto,

\begin{align*}\int_{0}^{\infty}\int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}x \, \mathrm{d}t &= \int_{0}^{\infty} [1 − F_{X}(t)] \, \mathrm{d}t, \end{align*}

que nos permite concluir que

\begin{align*} \Esp{X} &= \int_{0}^{\infty} [1 − F_{X}(t)] \, \mathrm{d}t, \end{align*}

que es justamente lo que queríamos demostrar.

$\square$

Con este lema podemos demostrar el caso 2. del teorema. Lo que haremos será presentar el caso en el que $g$ es una función no-negativa. De esta manera, $g(X)$ es una v.a. que toma valores no-negativos, y podemos aplicarle el lema. Así, tenemos que

\begin{align*} \Esp{g(X)} &= \int_{0}^{\infty} [1 − F_{X}(x)] \, \mathrm{d}x = \int_{0}^{\infty} \Prob{g(X) > x} \, \mathrm{d}x \end{align*}

Ahora, recuerda que \begin{align*} (g(X) > x) = (g \circ X)^{-1}[(x, \infty)] = X^{-1}[g^{-1}[(x,\infty)]] = (X \in g^{-1}[(x, \infty)], \end{align*} por lo que $\Prob{g(X) > x} = \Prob{X \in g^{-1}[(x, \infty)]}$. Por lo tanto,

\begin{align*} \int_{0}^{\infty} \Prob{g(X) > x} \, \mathrm{d}x &= \int_{0}^{\infty} {\left( \int_{g^{-1}[(x,\infty)]} f_{X}(t) \, \mathrm{d}t \right) } \, \mathrm{d}x \end{align*}

donde la integral de adentro se toma sobre $g^{-1}[(x, \infty)]$, pues esto nos devuelve el valor $\Prob{X \in g^{-1}[(x, \infty)]}$. Nuevamente haremos trampa y cambiaremos el orden de integración. Un detalle adicional es que al cambiar el orden de integración, también cambian los dominios de integración.

\begin{align*} \int_{0}^{\infty} \int_{g^{-1}[(x,\infty)]} f_{X}(t) \, \mathrm{d}t \, \mathrm{d}x &= \int_{g^{-1}[(0,\infty)]} \int_{0}^{g(t)} f_{X}(t) \, \mathrm{d}x \, \mathrm{d}t \end{align*}

Finalmente, como $f_{X}(t)$ es constante respecto a $x$, puede salir como constante de la integral de adentro, y además

\begin{align*} \int_{0}^{g(t)} 1 \, \mathrm{d}x &= g(t) − 0 = g(t), \end{align*}

por lo que

\begin{align*} \int_{g^{-1}[(0,\infty)]} \int_{0}^{g(t)} f_{X}(t) \, \mathrm{d}x \, \mathrm{d}t &= \int_{g^{-1}[(0,\infty)]} {\left(\int_{0}^{g(t)} 1 \, \mathrm{d}x \right)} f_{X}(t) \, \mathrm{d}t \\[1em] &= \int_{g^{-1}[(0,\infty)]} g(t) f_{X}(t) \, \mathrm{d}t, \\[1em] &= \int_{-\infty}^{\infty} g(t) f_{X}(t) \, \mathrm{d}t,\end{align*}

donde $g^{-1}[(0,\infty)] = \RR$ porque $g$ es una función no-negativa. Así, finalmente podemos concluir que

\begin{align*} \Esp{g(X)} &= \int_{-\infty}^{\infty} g(t) f_{X}(t) \, \mathrm{d}t, \end{align*}

que es justo lo que queríamos demostrar.

$\square$

Como comentamos anteriormente, el teorema que acabamos de demostrar es conocido como la ley del estadístico inconsciente. De acuerdo con Sheldon M. Ross, en su libro Introduction to Probability Models (1980, 1a Ed.) «Esta ley recibió su nombre por los estadísticos ‘inconscientes’ que la han utilizado como si fuese la definición de $\Esp{g(X)}$».

Figura. Extracto del libro Statistical Inference, de George Casella y Roger Berger (2001, 2a Ed.), en el que los autores expresan su descontento por el nombre de este teorema.

Independientemente de esto, la ley del estadístico inconsciente es un resultado muy importante, y la utilizaremos mucho de aquí en adelante.

Ejemplos del uso de la ley del estadístico inconsciente

Ejemplo 1. Sea \(U\) una v.a. con función de densidad \(f_{U}\) dada por

\begin{align*} f_{U}(u) &= \begin{cases} \lambda e ^{ − \lambda x} & \text{si \(x > 0\),} \\[1em] 0 & \text{en otro caso,} \end{cases} \end{align*}

con \(\lambda > 1\). Obtengamos el valor esperado de \(e^{U}\). Para ello, usemos la ley del estadístico inconsciente:

\begin{align*} \Esp{U} &= \int_{0}^{\infty} e^{u} \lambda e^{-\lambda u} \, \mathrm{d}u \\[1em] &= \int_{0}^{\infty} \lambda e^{-\lambda u + u} \, \mathrm{d}u\\[1em] &= \lambda \int_{0}^{\infty} e^{(1 − \lambda)u} \, \mathrm{d}u.\end{align*}

Para resolver esta integral, observa que se trata de una integral casi inmediata, únicamente le falta el factor \(1 − \lambda\), por lo que multiplicamos por \(1\):

\begin{align*} \lambda \int_{0}^{\infty} e^{(1 − \lambda)u} \, \mathrm{d}u &= \lambda \int_{0}^{\infty} {\left(\frac{ 1 − \lambda }{ 1 − \lambda }\right)}e^{(1 − \lambda)u} \, \mathrm{d}u \\[1em] &= \frac{\lambda}{1 − \lambda} \int_{0}^{\infty} ( 1 − \lambda)e^{( 1 − \lambda )u} \, \mathrm{d}u \\[1em] &= \frac{\lambda}{1 − \lambda} {\left( e^{( 1 − \lambda )u} \right)} \Bigg|_{u=0}^{\infty} \\[1em] &= \frac{\lambda}{1 − \lambda} {\left( 0 − 1 \right)} \\[1em] \frac{\lambda}{1 − \lambda} {\left(− 1 \right)} \\[1em] &= \frac{\lambda}{\lambda − 1}, \end{align*}

así que concluimos que

\begin{align*} \Esp{e^{U}} = \frac{\lambda}{\lambda − 1}. \end{align*}


Ejemplo 2. Sea \(N\) una variable aleatoria con función de masa de probabilidad (f.m.p.) \(f_{N}\) dada por

\begin{align*} f_{N}(n) &= \begin{cases} (1 − p)^{n}p & \text{si \(n \in \mathbb{N}\),} \\[1em] 0 & \text{en otro caso,} \end{cases}\end{align*}

con \(p \in (0,1)\). Obtengamos el valor esperado de \(N^{2}\). Por la ley del estadístico inconsciente, tenemos que

\begin{align} \label{eq:serie1} \Esp{N^{2}} &= \sum_{n=0}^{\infty} n^{2} (1 − p)^{n}p. \end{align}

Como usualmente pasa con los valores esperados de v.a.’s que toman el valor \(0\), el primer término de la serie \eqref{eq:serie1} es \(0\), así que la igualdad anterior pasa a ser

\begin{align*} \Esp{N^{2}} &= \sum_{n=1}^{\infty} n^{2} (1 − p)^{n}p. \end{align*}

Para obtener el valor de la serie anterior, vamos a utilizar una expresión equivalente basada en la siguiente identidad: sea \(n\in\mathbb{N}^{+}\), entonces se cumple que

\begin{align} \label{eq:identidad} n^{2} − (n − 1)^{2} &= 2n − 1. \end{align}

Ahora, observa con atención las siguientes dos series.

\begin{align} \label{eq:serie2} \Esp{N^{2}} &= \sum_{n=1}^{\infty} n^{2} (1 − p)^{n}p = (1 − p)p + 4(1 − p)^{2}p + 9 (1 − p)^{3}p + \cdots \\[1em] \label{eq:serie3} (1 − p)\Esp{N^{2}} &= \sum_{n=1}^{\infty} n^{2} (1 − p)^{n+1}p = (1 − p)^{2}p + 4 (1 − p)^{3}p + 9 (1 − p)^{4}p + \cdots \end{align}

Es decir, multiplicar la serie \eqref{eq:serie2} por \( (1 − p)\) nos da la \eqref{eq:serie3}, que simplemente «desplaza» el índice por \(1\). Por ello, se tiene que

\begin{align*} \Esp{N^{2}} − (1 − p)\Esp{N^{2}} &= (1 − p)p + 3 (1 − p)^{2}p + 5 (1 − p)^{3}p + \cdots = \sum_{n=1}^{\infty} (n^{2} − (n − 1)^{2})(1 − p)^{n}p, \end{align*}

donde tal vez alcances a notar cómo se usará la identidad \eqref{eq:identidad}. En efecto, por esta identidad tenemos que

\begin{align*} \Esp{N^{2}} − (1 − p)\Esp{N^{2}} &= \sum_{n=1}^{\infty} (n^{2} − (n − 1)^{2})(1 − p)^{n}p = \sum_{n=1}^{\infty} (2n − 1)(1 − p)^{n}p \end{align*}

Además, nota que \(\Esp{N^{2}} − (1 − p)\Esp{N^{2}} = p\Esp{N^{2}}\), así que

\begin{align} \label{eq:serie4} p\Esp{N^{2}} &= \sum_{n=1}^{\infty} (2n − 1)(1 − p)^{n}p. \end{align}

Usaremos la igualdad \eqref{eq:serie4} más adelante. Por ahora, centraremos nuestra atención en desarrollar la serie en \eqref{eq:serie4}. Primero, recuerda que la serie debe de ser convergente para que los siguientes pasos tengan sentido, así que revisa la tarea moral en caso de que lo dudes. Así pues, tenemos que

\begin{align*} \sum_{n=1}^{\infty} (2n − 1)(1 − p)^{n}p &= \sum_{n=1}^{\infty} 2n(1 − p)^{n}p − \sum_{n=1}^{\infty} (1 − p)^{n}p \\[1em] &= 2\underbrace{\sum_{n=1}^{\infty} n(1 − p)^{n}p}_{(*)} − \underbrace{\sum_{n=1}^{\infty} (1 − p)^{n}p}_{(**)}. \end{align*}

Por un lado, observa que la expresión \((*)\) es el valor esperado de \(N\) (y ya calculamos ese valor esperado en la entrada pasada), así que \((*) = \frac{ 1 − p }{p}\). Por otro lado, la expresión \((*)\) es casi la suma de las probabilidades de \(N\), por lo que debería de ser \(1\) menos el término en \(0\), ya que la suma empieza en \(1\). Veámoslo:

\begin{align*} \sum_{n=1}^{\infty} (1 − p)^{n}p &= p − p + \sum_{n=1}^{\infty} (1 − p)^{n}p \\[1em] &= {\left[\sum_{n=0}^{\infty} (1 − p)^{n}p\right]} − p \\[1em] &= p\underbrace{\left[\sum_{n=0}^{\infty} (1 − p)^{n}\right]}_{\text{serie geométrica}} − p \\[1em] &= p \frac{1}{1 − (1 − p)} − p \\[1em] &= p\frac{1}{p} − p \\[1em] &= 1 − p. \end{align*}

Por lo tanto, tenemos que

\begin{align*} \sum_{n=1}^{\infty} (2n − 1)(1 − p)^{n}p &= 2\underbrace{\sum_{n=1}^{\infty} n(1 − p)^{n}p}_{(*)} − \underbrace{\sum_{n=1}^{\infty} (1 − p)^{n}p}_{(**)} \\[1em] &= \frac{2 (1 − p) }{p} − (1 − p) \\[1em] &= \frac{2(1 − p) − p(1 − p)}{p} \\[1em] &= \frac{2 − 2p − p + p^{2} }{p} \\[1em] &= \frac{2 − 3p + p^{2}}{p} \\[1em] &= \frac{(2 − p)(1 − p)}{p}. \end{align*}

En consecuencia, volviendo a \eqref{eq:serie4}, tenemos que

\begin{align*} p\Esp{N^{2}} &= \frac{(2 − p)(1 − p)}{p}, \end{align*}

por lo que en conclusión

\begin{align*} \Esp{N^{2}} &= \frac{(2 − p)(1 − p)}{p^{2}}, \end{align*}

que es justamente lo que queríamos obtener.


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Demuestra el caso 2. de la ley del estadístico inconsciente cuando $g$ es una función cualquiera. Sugerencia: Toma la siguiente descomposición de $g$: definimos la parte positiva de $g$, $g^{+}\colon\RR\to\RR$, como sigue: \begin{align*} g^{+}(x) &= \max{\{ g(x), 0 \}} & \text{para cada $x \in \RR$},\end{align*} y definimos la parte negativa de $g$, $g^{-}\colon\RR\to\RR$, como sigue: \begin{align*} g^{-}(x) &= \max{\{ -g(x), 0 \}} & \text{para cada $x \in \RR$}.\end{align*} Verifica que $g$ puede escribirse en términos de $g^{+}$ y $g^{-}$ como\begin{align*} g = g^{+} − g^{-}, \end{align*}y nota que tanto $g^{+}$ como $g^{-}$ son funciones no-negativas. Concluye utilizando lo que demostramos en esta entrada.
  2. Verifica que la serie \eqref{eq:serie1} es convergente. Sugerencia: Utiliza algún criterio de convergencia como el de d’Alembert.
  3. Demuestra la validez de la identidad \eqref{eq:identidad}.

Más adelante…

La ley del estadísico inconsciente es un teorema muy útil en contextos teóricos y aplicados. De hecho, la utilizaremos con mucha frecuencia en la Unidad 3, ya que veremos algunas características de algunas distribuciones de probabilidad importantes.

Por otro lado, en la siguiente entrada veremos más propiedades del valor esperado, centrando nuestra atención en aquellas propiedades que involucran a más de una variable aleatoria.

Entradas relacionadas

Probabilidad I: Valor Esperado de una Variable Aleatoria

Por Octavio Daniel Ríos García

Introducción

Una de las ideas de una medida de probabilidad era que cuantifica, entre el $0$ y el $1$, qué tan probable es que ocurra un evento. Por ello, si nosotros multiplicamos los valores que puede tomar una v.a. mediante su probabilidad de ocurrencia, y luego los sumamos, el resultado sería un promedio ponderado de los valores que puede tomar la v.a.; donde el criterio de ponderación es precisamente la probabilidad de ocurrencia. Aquellos resultados con mayor probabilidad pesan más en este «promedio ponderado».

En el caso de $X$ una v.a. discreta, la manera de obtener este promedio ponderado es directa, pues existen $x \in \RR$ tales que $\Prob{X = x} > 0$, así que la expresión resultante es una suma. Sin embargo, en el caso continuo, la idea se preserva, pero la definición es más sutil, pues cuando $X$ es una v.a. continua, $\Prob{X = x} = 0$ para cada $x \in \RR$.

Motivación para el caso discreto

Para empezar, vamos a definir el valor esperado de una v.a. discreta. En este caso, la noción de «promedio ponderado» ocurre naturalmente, pues una v.a. discreta puede tomar valores dentro de un conjunto a lo más infinito numerable.

Primero, vamos a dar la idea general. Cuando se nos dan $x_{1}$, …., $x_{n} \in \RR$ números reales, con $n \in \mathbb{N}^{+}$, el promedio (o la media aritmética) de estos valores es

\begin{align*} \tfrac{1}{n}x_{1} + \tfrac{1}{n}x_{2} + \cdots + \tfrac{1}{n}x_{n} = \frac{1}{n} \sum_{k=1}^{n} x_{n}. \end{align*}

La media aritmética nos ayuda a resumir ciertas nociones de un conjunto de números. Más precisamente, nos da una idea de dónde están centrados los elementos de ese conjunto. Esto pasa porque en la media aritmética, cada uno de los números pesa lo mismo, debido a que en la suma, todos tienen el mismo coeficiente: $\frac{1}{n}$.

Sin embargo, no necesariamente queremos que todos los valores tengan el mismo peso al tomar el promedio. Puede que existan razones para que queramos que cada uno contribuya de manera distinta a la media. Para generalizar la media aritmética, sean $p_{1}$, …, $p_{n} \in [0,1]$. El valor $p_{i}$ representa el peso asociado al valor $x_{i}$, que a grandes rasgos sería la importancia de $x_{i}$ en el contexto en el que se toma el promedio. De este modo, el promedio ponderado de los $x_{i}$ es

\begin{align*} p_{1} x_{1} + p_{2} x_{2} + \cdots + p_{n} x_{n} = \sum_{k=1}^{n} p_{k} x_{k} \end{align*}

Precisamente, en el contexto de la probabilidad, cada posible valor de la v.a. discreta tiene un peso asociado: ¡la probabilidad de que la v.a. tome ese valor! Como es de esperarse de una media o promedio, el valor esperado debería de expresar la tendencia central del comportamiento probabilístico de una variable aleatoria, y en efecto, se cumple esa idea porque el peso asociado a cada valor es su probabilidad de ocurrencia.

Definición del valor esperado en el caso discreto

De acuerdo con la motivación anterior, presentamos la definición del valor esperado de una v.a. discreta.


Definición. Sea $X\colon\Omega\to\RR$ una variable aleatoria discreta. Definimos el valor esperado de $X$ (o la esperanza de $X$) como

\begin{align*} \Esp{X} &= \sum_{\omega\in\Omega} X(\omega) \Prob{\{ \omega \}}, \end{align*}

siempre que esta suma sea absolutamente convergente. Es decir, si

\begin{align*} \sum_{\omega\in\Omega} {\left|X(\omega) \Prob{\{\omega\}}\right|} < \infty. \end{align*}

En caso de que la suma no sea convergente, se dice que el valor esperado de \(X\) no está definido, o que es infinito.


La definición anterior va a ser de muchísima utilidad para algunas demostraciones, pero puede que no sea muy útil para hacer cálculos en casos concretos. Por ello, veamos una manera equivalente de definirla.

Para ello, como $X$ es una v.a. discreta, sea $\{ x_{k} \}_{k=1}^{\infty}$ el conjunto de valores que puede tomar $X$. Es decir, $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$. Ahora, observa que para cada $k \in \mathbb{N}^{+}$ se tiene que

\begin{align*} X(\omega) = x_{k} &\iff \omega \in X^{-1}[\{ x_{k} \}] \iff \omega \in (X = x_{k}). \end{align*}

En consecuencia, se tiene que

\begin{align*} \sum_{\omega \in (X = x_{k})} X(\omega) \Prob{\{\omega\}} &= \sum_{\omega \in (X = x_{k})} x_{k} \Prob{\{ \omega \}} \\[1em] &= x_{k} \sum_{\omega \in (X = x_{k})} \Prob{\{ \omega \}} \\[1em] &= x_{k} \Prob{X = x_{k}}.\end{align*}

De acuerdo con la definición de valor esperado, se tiene que

\begin{align*} \Esp{X} &= \sum_{\omega\in\Omega} X(\omega) \Prob{\{ \omega \}}. \end{align*}

Ahora, la suma anterior puede expresarse de manera diferente. Como $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$ y $\{ x_{k} \}_{k=1}^{\infty} = \bigcup_{k=1}^{\infty} \{ x_{k} \}$, se tiene que

\begin{align*} \Omega &= X^{-1}[X[\Omega]] \\[1em] &= X^{-1}{\left[ \bigcup_{k=1}^{\infty} \{x_{k}\} \right]} \\[1em] &= \bigcup_{k=1}^{\infty} X^{-1}[\{ x_{k} \}] \\[1em] &= \bigcup_{k=1}^{\infty}(X = x_{k}). \end{align*}

Así, podemos reacomodar la suma del valor esperado para obtener

\begin{align*} \sum_{\omega\in\Omega} X(\omega) \Prob{\{\omega\}} &= \sum_{k=1}^{\infty} \sum_{\omega\in (X = x_{k})} X(\omega) \Prob{\{\omega \}} \\[1em] &= \sum_{k=1}^{\infty} x_{k} \Prob{X = x_{k}}. \end{align*}

En conclusión, obtenemos que si $X$ es una v.a. discreta que toma valores en el conjunto $\{ x_{k} \}_{k=1}^{\infty}$, entonces el valor esperado de $X$ es

\begin{align*} \Esp{X} = \sum_{k=1}^{\infty} x_{k} \mathbb{P}{\left(X = x_{k}\right)}.\end{align*}

Finalmente, recordando que $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$, lo anterior nos queda como

\begin{align*} \Esp{X} = \sum_{x \in X[\Omega]} x \Prob{X = x}.\end{align*}

que nos da una expresión alternativa para el valor esperado de una v.a. discreta.


Definición (Alternativa). Sea $X$ una v.a. discreta. Definimos el valor esperado de $X$ (o esperanza de $X$) como

\begin{align*} \Esp{X} = \sum_{x \in X[\Omega]} x \Prob{X = x}, \end{align*}

siempre que la suma anterior sea absolutamente convergente. Es decir,

\begin{align*} \sum_{x\in X[\Omega]} {\left|x \Prob{X = x} \right|} < \infty. \end{align*}

En caso de que la suma no no sea convergente, se dice que el valor esperado de \(X\) no está definido, o que es infinito.


Ejemplo 1. Una v.a. discreta no necesariamente toma su valor esperado. Esto choca un poco con el término «valor esperado», pues al ser el valor «esperado» de la v.a., tendría sentido que sea alguno de los valores que puede tomar. Sea $X\colon\Omega\to\RR$ una v.a. con función de masa de probabilidad $p_{X}\colon\RR\to\RR$ dada por

\begin{align*} p_{X}(x) &= \begin{cases} \dfrac{1}{2} & \text{si $x \in \{ 0, 1\}$}, \\[1em] 0 &\text{en otro caso}. \end{cases} \end{align*}

De este modo, el conjunto de valores que puede tomar $X$ es $\{0, 1\}$. Es decir, $X[\Omega] = \{0,1\}$. Ahora obtengamos $\Esp{X}$,

\begin{align*} \Esp{X} &= 0 \cdot \Prob{X = 0} + 1 \cdot \Prob{X = 1} = 1 \cdot \Prob{X = 1} = 1 \cdot \frac{1}{2} = \frac{1}{2}. \end{align*}

Es decir, $\Esp{X} = \frac{1}{2}$: el «valor esperado» de $X$ es $\frac{1}{2}$… sin embargo, $\frac{1}{2}$, y $\frac{1}{2} \notin X[\Omega]$, por lo que de ninguna manera se esperaría que $X$ tome el valor $\frac{1}{2}$.

Sin embargo, si repitiéramos muchas veces a la v.a. $X$, el centroide (la media aritmética) de los valores observados en esas repeticiones se acercará cada vez más a $\Esp{X}$. Eso es algo que mostramos (sin muchos detalles) en la entrada del enfoque frecuentista. Es por esto que dijimos que el valor esperado de $X$ expresa la tendencia central del comportamiento probabilístico de $X$, pero no debe de pensarse como el valor a «esperar» cuando se observe $X$. Más adelante demostraremos formalmente las ideas de este ejemplo.


Ejemplo 1. Hay v.a.’s discretas que toman valores dentro de $\mathbb{N}$, por lo que su valor esperado es una serie. Sea $Y$ una v.a. con función de masa de probabilidad $p_{Y}\colon\RR\to\RR$ dada por

\begin{align*} p_{Y}(y) &= \begin{cases} (1 − p)^{y}p & \text{si \(y\in\mathbb{N}\),} \\[1em] 0 & \text{en otro caso,}\end{cases} \end{align*}

donde \(p \in (0,1)\). Procedamos a calcular el valor esperado de \(Y\). Por definición, sabemos que

\begin{align*} \Esp{Y} &= \sum_{y\in Y[\Omega]} y \Prob{Y = y} \\[1em] &= \sum_{y\in\mathbb{N}} y \Prob{Y = y} \\[1em] &= \sum_{y=0}^{\infty} y\Prob{Y = y} \\[1em] &= \sum_{y=0}^{\infty} y (1 − p)^{y} p. \end{align*}

Ahora, como el índice \(y\) comienza en \(0\), el primer término de la serie es \(0 \cdot (1 − p)^{0}p = 0\), por lo que podemos empezar la serie en \(1\). Así,

\begin{align} \label{eq:serie}\Esp{Y} &= \sum_{y=1}^{\infty} y(1 − p)^{y}p = p\sum_{y=1}^{\infty} y(1 − p)^{y}. \end{align}

Lo que haremos será reacomodar la serie \eqref{eq:serie} de manera conveniente para poder obtener su valor. Sin embargo, para hacer posible el reacomodo es necesario verificar que la serie es convergente. Para ello, podemos utilizar el criterio del cociente de d’Alembert. Para cada \(n\in\mathbb{N}^{+}\), sea \(a_{n} = n(1 − p)^{n}\). Es decir, \(a_{n}\) es el \(n\)-ésimo término de la serie. El criterio de d’Alembert nos dice que si

\begin{align*} \lim_{n\to\infty} \left| \frac{a_{n+1}}{a_{n}} \right| = r \end{align*}

con \(r < 1\), entonces la serie \(\sum_{n=1}^{\infty} a_{n}\) es absolutamente convergente. Primero desarrollaremos la expresión \(\left|\frac{a_{n+1}}{a_{n}}\right|\):

\begin{align*} \left| \frac{a_{n+1}}{a_{n}} \right| &= \left| \frac{(n+1)(1 − p)^{n+1}}{n(1 − p)^{n}} \right|. \end{align*}

Observa que en la expresión de la derecha tenemos \((1 − p)^{n+1}\) en el numerador, y \((1 − p)^{n}\) en el denominador, por lo que

\begin{align*} \left| \frac{(n+1)(1 − p)^{n+1}}{n(1 − p)^{n}} \right| &= \left| \frac{(n+1)(1 − p)^{n+1 − n}}{n} \right| \\[1em] &= \left| \frac{(n+1)(1 − p)}{n} \right|. \end{align*}

Además, \(1 − p > 0\), ya que \(p \in (0,1)\), y también se cumple que \(n > 0\), \(n + 1 > 0\), por lo que

\begin{align*} \left| \frac{(n+1)(1− p)}{n} \right| &= \frac{(n+1)(1− p)}{n}, \end{align*}

y podemos seguir desarrollando esta última expresión:

\begin{align*} \frac{(n+1)(1− p)}{n} &= (1 − p){\left(\frac{n+1}{n}\right)} \\[1em] &= (1 − p){\left(1 + \frac{1}{n} \right)}. \end{align*}

En consecuencia, el límite del criterio de d’Alembert nos queda

\begin{align*} \lim_{n\to\infty} \left| \frac{a_{n+1}}{a_{n}} \right| &= \lim_{n\to\infty} (1 − p){\left(1 + \frac{1}{n} \right)} \\[1em] &= (1 − p) \lim_{n\to\infty} {\left(1 + \frac{1}{n} \right)} \\[1em] (1 − p), \end{align*}

así que \(r = 1 − p\), y como \(p \in (0,1)\), se tiene que \( 1 − p < 1\). En conclusión, queda demostrado que la serie \eqref{eq:serie} es absolutamente convergente. Por ello, podemos reacomodar los términos de maneras distintas. En particular, observa que la serie en \eqref{eq:serie} (sin modificar) tiene la siguiente forma:

\begin{align*} \sum_{y=1}^{\infty} y(1 − p)^{y} = (1 − p) + 2 (1 − p)^{2} + 3 (1 − p)^{3} + 4(1 − p)^{4} + \cdots \end{align*}

Sin embargo, podemos ver la progresión anterior como

\begin{alignat*}{7} (1 − p) + 2 (1 − p)^{2} + 3 (1 − p)^{3} + 4(1 − p)^{4} + \cdots &{}={}& (1 − p) & + (1 − p)^{2} & + (1 − p)^{3} & + (1 − p) ^{4} & + \cdots \\[1em] & & & + (1 − p)^{2} & + (1 − p)^{3} & + (1 − p)^{4} &+ \cdots \\[1em] & & & & (1 − p)^{3} & + (1 − p) ^{4} & + \cdots \\[1em] & & & & & + (1 − p) ^{4} & + \cdots \\[1em] & & & & & \vdots & , \end{alignat*}

y así sucesivamente. Entonces la serie de \eqref{eq:serie} puede reacomodarse como una «serie de series», en el sentido de que podemos reacomodarla como una serie cuyos términos son series:

\begin{align}\label{eq:reacom} p\sum_{y=1}^{\infty} y(1 − p)^{y} &= p\sum_{y=1}^{\infty} \sum_{x=y}^{\infty} (1 − p)^{x}. \end{align}

Ahora, las series «dentro» de la otra serie comienzan en el índice \(y\), por lo que las series de la forma \(\sum_{x=y}^{\infty}(1 − p)^{x}\) pueden reescribirse como

\begin{align} \label{eq:moral1} \sum_{x=y}^{\infty}(1 − p)^{x} &= \sum_{x=0}^{\infty}(1 − p)^{x+y},\end{align}

pues observa que los términos no se ven afectados. Escribe los primeros términos de ambas series, y observa cómo coinciden. Como \(y\) es un valor constante con respecto al índice \(x\), se tiene que

\begin{align*} \sum_{x=0}^{\infty}(1 − p)^{x+y} &= (1 − p)^{y}\sum_{x=0}^{\infty} (1 − p) ^{x} = (1 − p)^{y} {\left(\frac{1}{1 − (1 − p)}\right)} = \frac{(1 − p)^{y}}{p}. \end{align*}

En los últimos pasos del desarrollo anterior usamos que la serie es una serie geométrica. Volviendo a \eqref{eq:reacom}, vemos que

\begin{align*} p\sum_{y=1}^{\infty} y(1 − p)^{y} &= p\sum_{y=1}^{\infty} \sum_{x=y}^{\infty} (1 − p)^{x} \\[1em] &= p\sum_{y=1}^{\infty} \frac{(1 − p)^{y}}{p} \\[1em] &= \sum_{y=1}^{\infty} (1 − p)^{y}, \end{align*}

que también es una serie geométrica, que empieza en \(1\). El valor de esta serie es

\begin{align} \label{eq:moral2} \sum_{y=1}^{\infty} (1 − p)^{y} &= \frac{ 1 − p }{1 − (1 − p) } = \frac{1 − p}{p}, \end{align}

así que podemos concluir que el valor esperado de \(Y\) es

\begin{align*} \Esp{Y} &= \frac{1 − p}{p}. \end{align*}


¿Podemos hacer lo mismo para las v.a.’s continuas?

Hay dos motivos por los que el valor esperado de una v.a. continua difiere del de una v.a. discreta. El primero es que si replicamos la idea para una v.a. discreta, la suma resultante para una v.a. continua $X$ es

\begin{align*} \sum_{x \in X[\Omega]} x \Prob{X = x}, \end{align*}

que es una suma con una cantidad infinita no numerable de términos, pues $X$ es una v.a. continua. Sin embargo, ese no es el único problema: como $X$ es una v.a. continua, entonces para cada $x \in \RR$ se tiene que $\Prob{X = x} = 0$, por lo que la suma anterior sería $0$ de cualquier manera.

Por ello, debemos de retomar el método para el cálculo de probabilidades en el caso de una v.a. continua. Esto es, si $X$ es una v.a. continua, entonces para $a$, $b \in \RR$ tales que $a < b$ se tiene que

\begin{align*} \Prob{X \in (a, b]} = \int_{a}^{b} f_{X}(x) \, \mathrm{d}x \end{align*}

donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$. Integrar la función de densidad de $X$ sobre el intervalo $(a,b]$ nos da como resultado la probabilidad de que $X$ esté dentro de $(a,b]$. Por ello, para $\varepsilon > 0$ tal que $\varepsilon$ es cercano a $0$, y para $x \in \RR$, se tiene que

\begin{align*} \Prob{X \in {\left(x − \tfrac{\varepsilon}{2}, x + \tfrac{\varepsilon}{2} \right]} } = \int_{x − \varepsilon/2}^{x + \varepsilon/2} f_{X}(t) \, \mathrm{d}t \approx \varepsilon f_{X}(x). \end{align*}

Esto obedece a que si $\varepsilon$ es muy cercano a $0$, entonces el valor de la integral sobre el intervalo ${\left(x − \tfrac{\varepsilon}{2}, x + \tfrac{\varepsilon}{2} \right]}$ será muy parecido al área del rectángulo cuya base es ese mismo intervalo y que tiene altura igual a $f_{X}(x)$.

Lo anterior quiere decir que la probabilidad de que $X$ se encuentre dentro de una vecindad de diámetro $\varepsilon > 0$ centrada en $x$ es muy parecida a $\varepsilon f_{X}(x)$ cuando $\varepsilon$ es un valor muy pequeño.

Las ideas anteriores son importantes, pues nos dicen que aunque $f_{X}(x)$ no es la probabilidad de que $X$ tome el valor $x$, sí guarda cierta relación con la probabilidad de que $X$ se encuentre muy cerca de $x$. De hecho, la discusión anterior (junto con la motivación de la integral de Riemann) nos dice que integrar

\begin{align*} \int_{a}^{b} f_{X}(t) \, \mathrm{d}t \end{align*}

es como «sumar» las probabilidades de estar muy cerca de cada uno de los puntos en $(a, b]$, de la manera más refinada posible. Por ello, si tomamos la integral

\begin{align*} \int_{a}^{b} t f_{X}(t) \, \mathrm{d}t, \end{align*}

este valor será como «sumar» todos los valores en $(a, b]$ ponderados por la probabilidad de estar muy cerca de cada uno de ellos. ¡Esa es justamente la idea del valor esperado! Con esto ya estamos listos para definir el valor esperado de una v.a. continua.

Definición del valor esperado en el caso continuo

Al final de la discusión anterior llegamos a una expresión que captura la misma idea de un promedio ponderado, pero para el caso continuo. Es decir, la idea es la misma que en el caso de una v.a. discreta, pero en vez de sumar, tomamos una integral. Además, para obtener el valor esperado de una v.a. continua será necesario tomar la integral sobre todo $\RR$. Esto da pie a la definición que presentamos a continuación.


Definición. Sea $X\colon\Omega\to\RR$ una variable aleatoria continua. Definimos el valor esperado de $X$ (o la esperanza de $X$) como

\begin{align*} \Esp{X} &= \int_{-\infty}^{\infty} x f_{X}(x) \, \mathrm{d}x, \end{align*}

siempre que esta integral sea absolutamente convergente. Esto es,

\begin{align*} \int_{-\infty}^{\infty} {\left|x f_{X}(x) \right|} \, \mathrm{d}x < \infty, \end{align*}

donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$. En caso de que la integral no sea absolutamente convergente, se dice que el valor esperado de $X$ no está definido, o que es infinito.


En este caso no tenemos una versión formal como la primera que dimos del valor esperado de una v.a. discreta. Para la construcción de una definición así es necesario contar con una herramienta que no hemos construido en este curso, y es probable que no conozcas: la integral de Lebesgue. Por ello, algunas propiedades del valor esperado en el caso continuo serán más complicadas de demostrar. No obstante, la definición que hemos dado es suficiente para calcular el valor esperado de cualquier v.a. continua que se te ocurra.

Ejemplo 2. Como el valor esperado de una v.a. continua está dado por una integral, es recomendable que recuerdes los métodos de integración que viste en tu curso de Cálculo Diferencial e Integral II. Si lo necesitas, puedes hacer click aquí para consultar nuestras notas de esa materia.

Sea $Z$ una v.a. continua con distribución exponencial con parámetro $\lambda > 0$. Es decir, $Z$ tiene función de densidad $f_{Z}\colon\RR\to\RR$ dada por

\begin{align*} f_{Z}(z) = \begin{cases} \lambda e^{-\lambda z} & \text{si $z \geq 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Veamos cuál es el valor esperado de $Z$. Para ello, primero observa que como $f_{Z}(z) = 0$ para cada $z < 0$, se tiene que

\begin{align*} \Esp{Z} = \int_{-\infty}^{\infty} z f_{Z}(z) \, \mathrm{d}z = \int_{0}^{\infty} z f_{Z}(z) \, \mathrm{d}z. \end{align*}

Esto es algo que siempre hay que revisar al momento de calcular el valor esperado de una v.a. continua: la integral se reduce al subconjunto de $\RR$ sobre el que la función de densidad es mayor a $0$.

De este modo, tenemos que

\begin{align*} \Esp{Z} &= \int_{0}^{\infty} z {\left( \lambda e^{-\lambda z} \right)} \, \mathrm{d}z, \end{align*}

que es una integral que podemos resolver mediante el método de integración por partes. Para ello, sea $u = z$ y $dv = \lambda e^{-\lambda z}$. De este modo, tendremos que $v = -e^{-\lambda z}$ y $du = dz$, así que

\begin{align*} \int_{0}^{\infty} z {\left( \lambda e^{-\lambda z} \right)} \, \mathrm{d}z &= {\left( -z e^{-\lambda z} \right)} \Big|_{0}^{\infty} + \int_{0}^{\infty} e^{-\lambda z} \, \mathrm{d} z \\[1em] &= {\left[ 0 \cdot e^{-\lambda \cdot 0} − \lim_{z\to\infty} z e^{-\lambda z} \right]} + \frac{1}{\lambda}\int_{0}^{\infty} \lambda e^{-\lambda z} \\[1em] &= {\left[ 0 − \lim_{z\to\infty} \frac{z}{e^{\lambda z}} \right]} + \frac{1}{\lambda} {\left( − e^{-\lambda z} \right)}\Big|_{0}^{\infty} \\[1em] &= {\left[ 0 − 0 \right]} + \frac{1}{\lambda}{\left[ e^{-\lambda \cdot 0} − \lim_{z\to\infty} e^{-\lambda z}\right]} \\[1em] &= \frac{1}{\lambda}{\left[ 1 − 0 \right]} \\[1em] &= \frac{1}{\lambda}.\end{align*}

Por lo tanto, se concluye que

\begin{align*} \Esp{Z} = \frac{1}{\lambda}. \end{align*}

Es decir, el valor esperado de una v.a. con distribución exponencial de parámetro $\lambda$ es $\frac{1}{\lambda}$.


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la identidad \eqref{eq:moral1} es verdadera. Sugerencia: Escribe los primeros términos de ambas series, y observa que coinciden.
  2. Dados \(r \in (0,1)\) y \(a \in \RR\), conocemos el valor de la serie geométrica con coeficiente \(a\) y razón \(r\):\begin{align*}\sum_{n=0}^{\infty} ar^{n} = \frac{a}{1 − r},\end{align*} donde es importante notar que la serie empieza en \(0\). No obstante, en \eqref{eq:moral2} nosotros usamos el valor de una serie geométrica que empieza en \(1\). ¿Cómo le haces para pasar de la versión que empieza en \(0\) a la versión que empieza en \(1\)?
  3. Sean $a$, $b \in \RR$ tales que $a < b$. Una v.a. con distribución uniforme sobre el intervalo $[a,b]$ es una v.a. $U$ con función de densidad $f_{U}\colon\RR\to\RR$ dada por\[ f_{U}(u) = \begin{cases} \dfrac{1}{b − a} & \text{si $u \in [a,b]$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \]¿Cuál es el valor esperado de $U$?

Más adelante…

El valor esperado (o esperanza) es un valor importante que intenta resumir una parte del comportamiento probabilístico de una v.a. Por ello, su uso es muy común en contextos aplicados en los que se busca analizar cuantitativamente un fenómeno aleatorio, como la inferencia estadística (y sus ramas).

En la siguiente entrada comenzaremos el estudio de algunas propiedades importantes del valor esperado.

Entradas relacionadas