Archivo de la categoría: Matemáticas

Posts de matemáticas, la ciencia más cercana a las artes.

Probabilidad I: Propiedades del Valor Esperado

Por Octavio Daniel Ríos García

Introducción

Continuando con lo visto en la entrada anterior, en esta entrada presentaremos algunas propiedades fundamentales del valor esperado. Lo primero que veremos será el valor esperado de una constante, que será una propiedad muy básica pero de uso muy frecuente en la teoría que veremos.

Por otro lado, veremos un teorema muy importante desde los puntos de vista teórico y práctico, conocido como la ley del estadístico inconsciente. A grandes rasgos, este teorema hará posible obtener el valor esperado de \(g(X)\), donde \(X\) es una v.a. y \(g\) es una función.

Valor esperado de una función constante

La primera propiedad importante es que el valor esperado de una constante es la constante misma. Esto tiene sentido, pues si una v.a. toma un único valor $a \in \RR$, entonces se espera que su promedio a la larga sea $a$.


Propiedad. Sea $a \in \RR$ y $f_{a}\colon\Omega\to\RR$ la función constante $a$, de tal modo que $f_{a}(\omega) = a$ para cada $\omega \in \Omega$. Entonces se tiene que

\begin{align*} \Esp{f_{a}} &= a. \end{align*}

Abusando un poco de la notación, lo anterior significa que para cualquier valor constante $a \in \RR$ se cumple que $\Esp{a} = a$.


Demostración. Sea $a \in \RR$ y sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Se define la función constante $a$ $f_{a}\colon\Omega\to\RR$ como sigue: para cada $\omega\in\Omega$, $f_{a}(\omega) = a$. Se sigue inmediatamente que $f_{a}[\Omega] = \{ a \}$, por lo que $f_{a}$ es una v.a. discreta. De este modo,

\begin{align*} \Esp{f_{a}} &= \sum_{x\in f_{a}[\Omega]} x \Prob{f_{a} = x} \\[1em] &= \sum_{x\in\{a\}} x \Prob{f_{a} = x} \\[1em] &= a \Prob{f_{a} = a} \end{align*}

Ahora, como $f_{a}[\Omega] = \{ a \}$, entonces $f_{a}^{-1}[f_{a}[\Omega]] = f_{a}^{-1}[\{a\}]$, por lo que $\Omega = f_{a}^{-1}[\{ a \}]$. En consecuencia, se tiene que $(f_{a} = a) = \Omega$. Así, llegamos a que

\begin{align*} a \Prob{f_{a} = a} &= a \Prob{ \Omega } = a \cdot 1 = a, \end{align*}

por lo que podemos concluir que

\begin{align*} \Esp{f_{a}} &= a, \end{align*}

que es justamente lo que queríamos demostrar.

$\square$

Valor esperado de la transformación de una v.a.

Otra propiedad importante del valor esperado surge cuando queremos calcular el valor esperado de la transformación de una v.a. Para hacerlo, aparentemente necesitaríamos obtener la densidad o la masa de probabilidad de la transformación para luego calcular su valor esperado. Afortunadamente, esto no será necesario.

Si $X\colon\Omega\to\RR$ es una v.a. y $g\colon\RR\to\RR$ es una función tal que $g(X)$ es una v.a., hay que recordar que la distribución de $g(X)$ puede obtenerse en términos de la de $X$, por lo que el comportamiento probabilístico de $g(X)$ puede expresarse en términos del de $X$. Debido a esto, ¡también el valor esperado de $g(X)$ puede obtenerse usando la densidad o la masa de probabilidad de $X$!

La ley del estadístico inconsciente

De acuerdo con la discusión anterior, presentamos un teorema que posibilita el cálculo del valor esperado de una v.a. $g(X)$ conociendo únicamente la densidad de $X$. Este resultado es conocido como la ley del estadístico inconsciente. ¡Advertencia! La teoría con la que contamos hasta el momento hace necesario dividir la demostración en dos casos: uno para v.a.’s discretas y otro para v.a.’s continuas. En particular, la demostración para el caso discreto es clara y puedes centrar tu atención en ella, ya que te puede brindar una intuición firme de lo que pasa también en el caso continuo. Por el contrario, la demostración del caso continuo es un poco más técnica, e incluso requiere el uso de herramientas que quizás no hayas visto hasta ahora. Durante la demostración te comentaremos cuáles son estas herramientas, y las materias posteriores de la carrera en donde posiblemente las veas.


Teorema. Sea $X\colon\Omega\to\RR$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible.

  1. Si $X$ es una v.a. discreta, entonces \begin{align*} \Esp{g(X)} &= \sum_{x \in X[\Omega]} g(x) \Prob{X = x}, \end{align*}siempre que esta suma sea absolutamente convergente.
  2. Si $X$ y $g(X)$ son v.a.’s continuas, entonces \begin{align*} \Esp{g(X)} &= \int_{-\infty}^{\infty} g(x) f_{X}(x) \, \mathrm{d}x, \end{align*} siempre que esta integral sea absolutamente convergente, y donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$.

Demostración. 1. El caso discreto sirve para ilustrar la intuición, pues para cada $x \in X[\Omega]$ se tiene que $g(x) \in (g \circ X)[\Omega]$. Además, ya sabemos que para cada $y \in (g \circ X)[\Omega]$ se cumple que

\begin{align*} \Prob{g(X) = y} &= \Prob{X \in g^{-1}[\{ y \}]} = \sum_{x \in g^{-1}[\{y\}]} \Prob{X = x} \end{align*}

por lo que el valor esperado de $g(X)$ cumple que

\begin{align*} \Esp{g(X)} = \sum_{y \in (g \circ X)[\Omega]} y \Prob{g(X) = y} &= \sum_{y \in (g \circ X)[\Omega]} y \Prob{X \in g^{-1}[\{ y \}]} \\[1em] &= \sum_{y \in (g \circ X)[\Omega]} y {\left( \sum_{x \in g^{-1}[\{y\}]} \Prob{X = x} \right)} \\[1em] &= \sum_{y \in (g \circ X)[\Omega]} \sum_{x \in g^{-1}[\{y\}]} y \Prob{X = x}, \end{align*}

y como $x \in g^{-1}[\{y \}]$ si y sólamente si $g(x) = y$, se sigue que

\begin{align*} \sum_{y \in (g \circ X)[\Omega]} \sum_{x \in g^{-1}[\{y\}]} y \Prob{X = x} &= \sum_{y \in (g \circ X)[\Omega]} \sum_{x \in g^{-1}[\{y\}]} g(x) \Prob{X = x}. \end{align*}

Ahora, observa que de acuerdo con la suma sobre $y$, por cada $y \in (g \circ X)[\Omega]$ hay un sumando que tiene la forma

\[ \sum_{x \in g^{-1}[\{y\}]} g(x) \Prob{X = x}, \]

y cada uno de estos términos es una suma que corre sobre $x$, donde $x \in g^{-1}[\{ y \}]$. Es decir, estamos sumando sobre todos los $y \in (g \circ X)[\Omega]$, y en cada $y$ tomamos la suma sobre todos los $x \in g^{-1}[\{y \}]$. Esto quiere decir que podemos mover a $x$ sobre la unión de todos los $g^{-1}[\{y\}]$, y prescindir de la suma sobre $y$. Esto es,

\begin{align*} \bigcup_{y \in (g \circ X)[\Omega]} g^{-1}[\{y\}] &= g^{-1}{\left[ \bigcup_{y \in (g \circ X)[\Omega]} \{y\} \right]} \\[1em] &= g^{-1}[(g \circ X)[\Omega]] \\[1em] &= g^{-1}[g[X[\Omega]]], \end{align*}

y por propiedades de la imagen inversa, se tiene que $X[\Omega] \subseteq g^{-1}[g[X[\Omega]]]$. Ahora bien, los $x$ que aparecen en la suma son únicamente aquellos que están en $X[\Omega]$, pues de lo contrario son valores que no toma la v.a. $X$. En consecuencia, la suma se puede reducir a

\begin{align*} \sum_{y \in (g \circ X)[\Omega]} \sum_{x \in g^{-1}[\{y\}]} g(x) \Prob{X = x} &= \sum_{x\in X[\Omega]} g(x) \Prob{X = x}, \end{align*}

y así podemos concluir que

\begin{align*} \Esp{g(X)} &= \sum_{x \in X[\Omega]} g(x) \Prob{X = x}, \end{align*}

que es justamente lo que queríamos demostrar. Intuitivamente, esta última igualdad hace sentido, pues $g(X)$ toma el valor $g(x)$ cuando $X$ toma el valor $x$, y el evento en el que eso ocurre tiene probabilidad $\Prob{X = x}$.

La demostración del caso 2. es menos ilustrativa. Cuando $X$ y $g(X)$ son v.a.’s continuas, será necesario hacer una «doble integral», algo con lo que quizás no te hayas encontrado hasta ahora. Esto es algo que (por desgracia) haremos en algunas demostraciones del valor esperado.

Primero, demostraremos el siguiente lema:


Lema. Si $X\colon\Omega\to\RR$ es una v.a. continua tal que para todo $\omega\in\Omega$ se cumple que $X(\omega) \geq 0$ (es decir, $X$ es una v.a. no-negativa), entonces

\begin{align*} \Esp{X} &= \int_{0}^{\infty} [1 − F_{X}(x)] \, \mathrm{d}x, \end{align*}

donde $F_{X}\colon\RR\to\RR$ es la función de distribución de $X$.


Demostración. Sea $D \subseteq \RR^{2}$ el siguiente conjunto:

\begin{align*} D &= \{ \, (x,y) \in \RR^{2} \mid x > y \, \}. \end{align*}

Sea $\mathbf{1}_{D}\colon\RR^{2}\to\RR$ la función dada por

\begin{align*} \mathbf{1}_{D}(x,y) &= \begin{cases} 1 & \text{si $(x,y) \in D$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Es decir, $\mathbf{1}_{D}(x,y)$ vale $1$ si $(x,y) \in D$, es decir, vale $1$ si $x$ es mayor a $y$; y vale $0$ en caso contrario. Una función de este tipo es conocida como una función indicadora. Ahora, observa que para cualquier $x \in [0, \infty)$ se cumple que

\begin{align*} x &= \int_{0}^{x} 1 \, \mathrm{d}t, \tag{$*$}\end{align*}

pues la integral devuelve como resultado la longitud del intervalo $(0, x)$, que está bien definido, ya que $x \geq 0$. Dicha longitud es precisamente $x − 0 = x$, por lo que la igualdad $(*)$ es verdadera. Ahora, observa que $\mathbf{1}_{D}(x, t) = 1$ si y sólamente si $x > t$, o equivalentemente, si $t \in (-\infty, x)$. Así, tenemos que

\begin{align*} \int_{0}^{x} 1 \, \mathrm{d}t &= \int_{0}^{\infty} \mathbf{1}_{D}(x, t) \, \mathrm{d}t, \end{align*}

pues para $t \in (0, \infty)$, $\mathbf{1}_{D}(x, t) = 1$ sobre $(0, x)$, y es $0$ en otro caso. En conclusión, para cualquier $x \in [0, \infty)$ se cumple que

\begin{align}\label{id:integral} x &= \int_{0}^{\infty} \mathbf{1}_{D}(x, t) \, \mathrm{d}t. \end{align}

Usaremos esta «mañosa» identidad en el valor esperado de $X$. Primero, observa que $X$ es una v.a. no-negativa, así que $f_{X}(x) = 0$ para $x < 0$. En consecuencia, tenemos que

\begin{align*} \Esp{X} &= \int_{-\infty}^{\infty} x f_{X}(x) \, \mathrm{d}x = \int_{0}^{\infty} x f_{X}(x) \, \mathrm{d}x. \end{align*}

Usando la identidad \eqref{id:integral}, obtenemos que

\begin{align*} \int_{0}^{\infty} x f_{X}(x) \, \mathrm{d}x &= \int_{0}^{\infty}{\left( \int_{0}^{\infty} \mathbf{1}_{D}(x, t) \, \mathrm{d}t \right)} f_{X}(x) \, \mathrm{d}x = \int_{0}^{\infty}\int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}t \, \mathrm{d}x. \end{align*}

Observa que «metimos» a $f_{X}(x)$ dentro de la integral respecto a $t$ debido a que es una constante con respecto a $t$ (únicamente depende de $x$). La trampa que vamos a hacer es cambiar el orden de integración. Esto NO siempre se puede hacer, y la validez de este paso está dada por el teorema de Fubini, que verás en Cálculo Diferencial e Integral IV. Intercambiando el orden de integración, se tiene que

\begin{align*} \int_{0}^{\infty}\int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}t \, \mathrm{d}x &= \int_{0}^{\infty}\int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}x \, \mathrm{d}t \end{align*}

Ahora, observa que, para cada $x \in (0, \infty)$, $\mathbf{1}_{D}(x, t) = 1$ si y sólamente si $x > t$, o equivalentemente, si $x \in (t, \infty)$. En consecuencia,

\begin{align*} \int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}x &= \int_{t}^{\infty} f_{X}(x) \, \mathrm{d}x = \Prob{ X > t } = 1 − F_{X}(t). \end{align*}

Por lo tanto,

\begin{align*}\int_{0}^{\infty}\int_{0}^{\infty} \mathbf{1}_{D}(x, t) f_{X}(x) \, \mathrm{d}x \, \mathrm{d}t &= \int_{0}^{\infty} [1 − F_{X}(t)] \, \mathrm{d}t, \end{align*}

que nos permite concluir que

\begin{align*} \Esp{X} &= \int_{0}^{\infty} [1 − F_{X}(t)] \, \mathrm{d}t, \end{align*}

que es justamente lo que queríamos demostrar.

$\square$

Con este lema podemos demostrar el caso 2. del teorema. Lo que haremos será presentar el caso en el que $g$ es una función no-negativa. De esta manera, $g(X)$ es una v.a. que toma valores no-negativos, y podemos aplicarle el lema. Así, tenemos que

\begin{align*} \Esp{g(X)} &= \int_{0}^{\infty} [1 − F_{X}(x)] \, \mathrm{d}x = \int_{0}^{\infty} \Prob{g(X) > x} \, \mathrm{d}x \end{align*}

Ahora, recuerda que \begin{align*} (g(X) > x) = (g \circ X)^{-1}[(x, \infty)] = X^{-1}[g^{-1}[(x,\infty)]] = (X \in g^{-1}[(x, \infty)], \end{align*} por lo que $\Prob{g(X) > x} = \Prob{X \in g^{-1}[(x, \infty)]}$. Por lo tanto,

\begin{align*} \int_{0}^{\infty} \Prob{g(X) > x} \, \mathrm{d}x &= \int_{0}^{\infty} {\left( \int_{g^{-1}[(x,\infty)]} f_{X}(t) \, \mathrm{d}t \right) } \, \mathrm{d}x \end{align*}

donde la integral de adentro se toma sobre $g^{-1}[(x, \infty)]$, pues esto nos devuelve el valor $\Prob{X \in g^{-1}[(x, \infty)]}$. Nuevamente haremos trampa y cambiaremos el orden de integración. Un detalle adicional es que al cambiar el orden de integración, también cambian los dominios de integración.

\begin{align*} \int_{0}^{\infty} \int_{g^{-1}[(x,\infty)]} f_{X}(t) \, \mathrm{d}t \, \mathrm{d}x &= \int_{g^{-1}[(0,\infty)]} \int_{0}^{g(t)} f_{X}(t) \, \mathrm{d}x \, \mathrm{d}t \end{align*}

Finalmente, como $f_{X}(t)$ es constante respecto a $x$, puede salir como constante de la integral de adentro, y además

\begin{align*} \int_{0}^{g(t)} 1 \, \mathrm{d}x &= g(t) − 0 = g(t), \end{align*}

por lo que

\begin{align*} \int_{g^{-1}[(0,\infty)]} \int_{0}^{g(t)} f_{X}(t) \, \mathrm{d}x \, \mathrm{d}t &= \int_{g^{-1}[(0,\infty)]} {\left(\int_{0}^{g(t)} 1 \, \mathrm{d}x \right)} f_{X}(t) \, \mathrm{d}t \\[1em] &= \int_{g^{-1}[(0,\infty)]} g(t) f_{X}(t) \, \mathrm{d}t, \\[1em] &= \int_{-\infty}^{\infty} g(t) f_{X}(t) \, \mathrm{d}t,\end{align*}

donde $g^{-1}[(0,\infty)] = \RR$ porque $g$ es una función no-negativa. Así, finalmente podemos concluir que

\begin{align*} \Esp{g(X)} &= \int_{-\infty}^{\infty} g(t) f_{X}(t) \, \mathrm{d}t, \end{align*}

que es justo lo que queríamos demostrar.

$\square$

Como comentamos anteriormente, el teorema que acabamos de demostrar es conocido como la ley del estadístico inconsciente. De acuerdo con Sheldon M. Ross, en su libro Introduction to Probability Models (1980, 1a Ed.) «Esta ley recibió su nombre por los estadísticos ‘inconscientes’ que la han utilizado como si fuese la definición de $\Esp{g(X)}$».

Figura. Extracto del libro Statistical Inference, de George Casella y Roger Berger (2001, 2a Ed.), en el que los autores expresan su descontento por el nombre de este teorema.

Independientemente de esto, la ley del estadístico inconsciente es un resultado muy importante, y la utilizaremos mucho de aquí en adelante.

Ejemplos del uso de la ley del estadístico inconsciente

Ejemplo 1. Sea \(U\) una v.a. con función de densidad \(f_{U}\) dada por

\begin{align*} f_{U}(u) &= \begin{cases} \lambda e ^{ − \lambda x} & \text{si \(x > 0\),} \\[1em] 0 & \text{en otro caso,} \end{cases} \end{align*}

con \(\lambda > 1\). Obtengamos el valor esperado de \(e^{U}\). Para ello, usemos la ley del estadístico inconsciente:

\begin{align*} \Esp{U} &= \int_{0}^{\infty} e^{u} \lambda e^{-\lambda u} \, \mathrm{d}u \\[1em] &= \int_{0}^{\infty} \lambda e^{-\lambda u + u} \, \mathrm{d}u\\[1em] &= \lambda \int_{0}^{\infty} e^{(1 − \lambda)u} \, \mathrm{d}u.\end{align*}

Para resolver esta integral, observa que se trata de una integral casi inmediata, únicamente le falta el factor \(1 − \lambda\), por lo que multiplicamos por \(1\):

\begin{align*} \lambda \int_{0}^{\infty} e^{(1 − \lambda)u} \, \mathrm{d}u &= \lambda \int_{0}^{\infty} {\left(\frac{ 1 − \lambda }{ 1 − \lambda }\right)}e^{(1 − \lambda)u} \, \mathrm{d}u \\[1em] &= \frac{\lambda}{1 − \lambda} \int_{0}^{\infty} ( 1 − \lambda)e^{( 1 − \lambda )u} \, \mathrm{d}u \\[1em] &= \frac{\lambda}{1 − \lambda} {\left( e^{( 1 − \lambda )u} \right)} \Bigg|_{u=0}^{\infty} \\[1em] &= \frac{\lambda}{1 − \lambda} {\left( 0 − 1 \right)} \\[1em] \frac{\lambda}{1 − \lambda} {\left(− 1 \right)} \\[1em] &= \frac{\lambda}{\lambda − 1}, \end{align*}

así que concluimos que

\begin{align*} \Esp{e^{U}} = \frac{\lambda}{\lambda − 1}. \end{align*}


Ejemplo 2. Sea \(N\) una variable aleatoria con función de masa de probabilidad (f.m.p.) \(f_{N}\) dada por

\begin{align*} f_{N}(n) &= \begin{cases} (1 − p)^{n}p & \text{si \(n \in \mathbb{N}\),} \\[1em] 0 & \text{en otro caso,} \end{cases}\end{align*}

con \(p \in (0,1)\). Obtengamos el valor esperado de \(N^{2}\). Por la ley del estadístico inconsciente, tenemos que

\begin{align} \label{eq:serie1} \Esp{N^{2}} &= \sum_{n=0}^{\infty} n^{2} (1 − p)^{n}p. \end{align}

Como usualmente pasa con los valores esperados de v.a.’s que toman el valor \(0\), el primer término de la serie \eqref{eq:serie1} es \(0\), así que la igualdad anterior pasa a ser

\begin{align*} \Esp{N^{2}} &= \sum_{n=1}^{\infty} n^{2} (1 − p)^{n}p. \end{align*}

Para obtener el valor de la serie anterior, vamos a utilizar una expresión equivalente basada en la siguiente identidad: sea \(n\in\mathbb{N}^{+}\), entonces se cumple que

\begin{align} \label{eq:identidad} n^{2} − (n − 1)^{2} &= 2n − 1. \end{align}

Ahora, observa con atención las siguientes dos series.

\begin{align} \label{eq:serie2} \Esp{N^{2}} &= \sum_{n=1}^{\infty} n^{2} (1 − p)^{n}p = (1 − p)p + 4(1 − p)^{2}p + 9 (1 − p)^{3}p + \cdots \\[1em] \label{eq:serie3} (1 − p)\Esp{N^{2}} &= \sum_{n=1}^{\infty} n^{2} (1 − p)^{n+1}p = (1 − p)^{2}p + 4 (1 − p)^{3}p + 9 (1 − p)^{4}p + \cdots \end{align}

Es decir, multiplicar la serie \eqref{eq:serie2} por \( (1 − p)\) nos da la \eqref{eq:serie3}, que simplemente «desplaza» el índice por \(1\). Por ello, se tiene que

\begin{align*} \Esp{N^{2}} − (1 − p)\Esp{N^{2}} &= (1 − p)p + 3 (1 − p)^{2}p + 5 (1 − p)^{3}p + \cdots = \sum_{n=1}^{\infty} (n^{2} − (n − 1)^{2})(1 − p)^{n}p, \end{align*}

donde tal vez alcances a notar cómo se usará la identidad \eqref{eq:identidad}. En efecto, por esta identidad tenemos que

\begin{align*} \Esp{N^{2}} − (1 − p)\Esp{N^{2}} &= \sum_{n=1}^{\infty} (n^{2} − (n − 1)^{2})(1 − p)^{n}p = \sum_{n=1}^{\infty} (2n − 1)(1 − p)^{n}p \end{align*}

Además, nota que \(\Esp{N^{2}} − (1 − p)\Esp{N^{2}} = p\Esp{N^{2}}\), así que

\begin{align} \label{eq:serie4} p\Esp{N^{2}} &= \sum_{n=1}^{\infty} (2n − 1)(1 − p)^{n}p. \end{align}

Usaremos la igualdad \eqref{eq:serie4} más adelante. Por ahora, centraremos nuestra atención en desarrollar la serie en \eqref{eq:serie4}. Primero, recuerda que la serie debe de ser convergente para que los siguientes pasos tengan sentido, así que revisa la tarea moral en caso de que lo dudes. Así pues, tenemos que

\begin{align*} \sum_{n=1}^{\infty} (2n − 1)(1 − p)^{n}p &= \sum_{n=1}^{\infty} 2n(1 − p)^{n}p − \sum_{n=1}^{\infty} (1 − p)^{n}p \\[1em] &= 2\underbrace{\sum_{n=1}^{\infty} n(1 − p)^{n}p}_{(*)} − \underbrace{\sum_{n=1}^{\infty} (1 − p)^{n}p}_{(**)}. \end{align*}

Por un lado, observa que la expresión \((*)\) es el valor esperado de \(N\) (y ya calculamos ese valor esperado en la entrada pasada), así que \((*) = \frac{ 1 − p }{p}\). Por otro lado, la expresión \((*)\) es casi la suma de las probabilidades de \(N\), por lo que debería de ser \(1\) menos el término en \(0\), ya que la suma empieza en \(1\). Veámoslo:

\begin{align*} \sum_{n=1}^{\infty} (1 − p)^{n}p &= p − p + \sum_{n=1}^{\infty} (1 − p)^{n}p \\[1em] &= {\left[\sum_{n=0}^{\infty} (1 − p)^{n}p\right]} − p \\[1em] &= p\underbrace{\left[\sum_{n=0}^{\infty} (1 − p)^{n}\right]}_{\text{serie geométrica}} − p \\[1em] &= p \frac{1}{1 − (1 − p)} − p \\[1em] &= p\frac{1}{p} − p \\[1em] &= 1 − p. \end{align*}

Por lo tanto, tenemos que

\begin{align*} \sum_{n=1}^{\infty} (2n − 1)(1 − p)^{n}p &= 2\underbrace{\sum_{n=1}^{\infty} n(1 − p)^{n}p}_{(*)} − \underbrace{\sum_{n=1}^{\infty} (1 − p)^{n}p}_{(**)} \\[1em] &= \frac{2 (1 − p) }{p} − (1 − p) \\[1em] &= \frac{2(1 − p) − p(1 − p)}{p} \\[1em] &= \frac{2 − 2p − p + p^{2} }{p} \\[1em] &= \frac{2 − 3p + p^{2}}{p} \\[1em] &= \frac{(2 − p)(1 − p)}{p}. \end{align*}

En consecuencia, volviendo a \eqref{eq:serie4}, tenemos que

\begin{align*} p\Esp{N^{2}} &= \frac{(2 − p)(1 − p)}{p}, \end{align*}

por lo que en conclusión

\begin{align*} \Esp{N^{2}} &= \frac{(2 − p)(1 − p)}{p^{2}}, \end{align*}

que es justamente lo que queríamos obtener.


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Demuestra el caso 2. de la ley del estadístico inconsciente cuando $g$ es una función cualquiera. Sugerencia: Toma la siguiente descomposición de $g$: definimos la parte positiva de $g$, $g^{+}\colon\RR\to\RR$, como sigue: \begin{align*} g^{+}(x) &= \max{\{ g(x), 0 \}} & \text{para cada $x \in \RR$},\end{align*} y definimos la parte negativa de $g$, $g^{-}\colon\RR\to\RR$, como sigue: \begin{align*} g^{-}(x) &= \max{\{ -g(x), 0 \}} & \text{para cada $x \in \RR$}.\end{align*} Verifica que $g$ puede escribirse en términos de $g^{+}$ y $g^{-}$ como\begin{align*} g = g^{+} − g^{-}, \end{align*}y nota que tanto $g^{+}$ como $g^{-}$ son funciones no-negativas. Concluye utilizando lo que demostramos en esta entrada.
  2. Verifica que la serie \eqref{eq:serie1} es convergente. Sugerencia: Utiliza algún criterio de convergencia como el de d’Alembert.
  3. Demuestra la validez de la identidad \eqref{eq:identidad}.

Más adelante…

La ley del estadísico inconsciente es un teorema muy útil en contextos teóricos y aplicados. De hecho, la utilizaremos con mucha frecuencia en la Unidad 3, ya que veremos algunas características de algunas distribuciones de probabilidad importantes.

Por otro lado, en la siguiente entrada veremos más propiedades del valor esperado, centrando nuestra atención en aquellas propiedades que involucran a más de una variable aleatoria.

Entradas relacionadas

Teoría de los Conjuntos I: El complemento de un conjunto

Por Gabriela Hernández Aguilar

Introducción

En esta entrada hablaremos acerca del complemento de un conjunto y algunos resultados que se dan a partir de esta definición. A su vez, veremos las leyes de De Morgan, las cuales nos dirán cuál es el complemento de la intersección y de la unión de dos o más conjuntos.

Complemento de un conjunto

Definición. Sean $A$ y $X$ conjuntos, tales que $A\subseteq X$. Definimos al complemento de $A$ respecto del conjunto $X$, como la diferencia $X\setminus A$.

Ejemplo.

Sea $X=\set{\emptyset, \set{\emptyset}, \set{\set{\emptyset}}, \set{\emptyset, \set{\emptyset}}}$ y sea $A=\set{\emptyset, \set{\emptyset, \set{\emptyset}}}$. Tenemos que $X\setminus A=\set{x\in X: x\notin A}=\set{\set{\emptyset}, \set{\set{\emptyset}}}$.

En efecto, pues $\emptyset\in X$ y $\emptyset\in A$ por lo que $\emptyset\notin X\setminus A$ pues no cumple la propiedad para ser elemento del conjunto $X\setminus A$. Por su parte, $\set{\emptyset,\set{\emptyset}}$ tampoco es elemento de $X\setminus A$ pues $\set{ \emptyset,\set{\emptyset}}\in X$ y $\set{ \emptyset,\set{\emptyset}}\in A$. Finalmente, $\set{\emptyset}$, $\set{\set{\emptyset}}\in X$ y $\set{\emptyset}$, $\set{\set{\emptyset}}\notin A$, por lo que $\set{\emptyset}$, $\set{\set{\emptyset}}\in X\setminus A$.

$\square$

Resultados del conjunto complemento

Usaremos el siguiente resultado repetidamente para la demostración de propiedades posteriormente.

Proposición. Sean $A$, $B$, $X$ conjuntos, tales que $A$, $B\subseteq X$. Se cumple que $A\setminus B=A\cap (X\setminus B)$.

Demostración.

$\subseteq$] Sea $a\in A\setminus B$, entonces $a\in A$ y $a\notin B$. Como $a\in A\subseteq X$, entonces $a\in X$. Así, es cierto que $a\in A$ y ($a\in X$ y $a\notin B$), por lo que $a\in A$ y $a\in X\setminus B$ y por lo tanto, $a\in A\cap (X\setminus B)$.

Concluimos que $A\setminus B\subseteq A\cap (X\setminus B)$.

$\supseteq$] Sea $a\in A\cap(X\setminus B)$, entonces $a\in A$ y $a\in X \setminus B$. Entonces $a\in A$ y $a\in X$ y $a\notin B$, en particular, $a\in A$ y $a\notin B$. Así, $a\in A\setminus B$.

Por lo tanto, $A\cap (X\setminus B)= A\setminus B$.

$\square$

Veamos otras tres propiedades del complemento.

Proposición. Sean $A$ y $X$ conjuntos tales que $A\subseteq X$. Entonces se cumple lo siguiente:

a) $A\cap (X\setminus A)=\emptyset$,

b) $A\cup (X\setminus A)=X$,

c) $X\setminus(X\setminus A)= A$.

Demostración:

a) Supongamos que $A\cap(X\setminus A)\not=\emptyset$ en búsqueda de una contradicción. Entonces, existe $x\in A\cap(X\setminus A)$, de donde $x\in A$ y $x\in X\setminus A$.

Así, $x\in A$ y $x\in X$ y $x\notin A$. En particular, $x\in A$ y $x\notin A$ lo cual no puede ocurrir. Por lo tanto, $A\cap(X\setminus A)=\emptyset$.

b) Sea $x\in A\cup (X\setminus A)$, entonces $x\in A$ o $x\in X\setminus A$.

Caso 1: Si $x\in A$, entonces $x\in X$ pues $A\subseteq X$.

Caso 2: Si $x\in X\setminus A$, entonces $x\in X$ y $x\notin A$. En particular, $x\in X$.

En cualquier caso, $x\in X$. Por lo tanto, $A\cup (X\setminus A)\subseteq X$.

Por otro lado, supongamos que $x\in X$. Tenemos dos casos: $x\in A$ o $x\notin A$.

Caso 1: Si $x\in A$, entonces $x\in A\cup (X\setminus A)$.

Caso 2: Si $x\notin A$, entonces $x\in X$ y $x\notin A$ y así, $x\in X\setminus A$. Por lo tanto, $x\in A\cup(X\setminus A)$.

En cualquiera de los dos casos concluimos que $X\subseteq A\cup (X\setminus A)$.

Por lo tanto, $A\cup (X\setminus A)= X$.

c) Primero veamos que $A\subseteq X\setminus (X\setminus A)$. Sea $x\in A$, entonces $x\notin X\setminus A$. Por otro lado, $x\in X$ pues $A\subseteq X$.

Por lo que $x\in X$ y $x\notin X\setminus A$, es decir, $x\in X\setminus(X\setminus A)$. Esto concluye la prueba de que $A\subseteq X\setminus (X\setminus A)$.

Ahora, sea $x\in X\setminus (X\setminus A)$, entonces $x\in X$ y $x\notin X\setminus A$. Esto implica que $x\in X$ y ($x\notin X$ o $x\in A$). Como $x\in X$, entonces $x\notin X$ no es posible y así, $x\in A$. Por lo tanto, $X\setminus(X\setminus A)\subseteq A$.

Por lo tanto, $A=X\setminus (X\setminus A)$.

$\square$

Leyes de De Morgan

Las leyes de De Morgan nos dicen cómo se comportan los complementos de uniones e intersecciones. A continuación damos la versión para uniones e intersecciones de dos conjuntos. En los ejercicios tendrás que demostrar las versiones para uniones e intersecciones arbitrarias.

Teorema. Sean $A$, $B$ y $X$ conjuntos. Entonces

  1. $X\setminus (A\cap B)= (X\setminus A)\cup (X\setminus B)$,
  2. $X\setminus (A\cup B)= (X\setminus A)\cap (X\setminus B)$. 1

Demostración.

  1. Se tiene $x\in X\setminus (A\cap B)$,
    si y sólo si $x\in X$ y $x\notin A\cap B$ por definición de complemento,
    si y sólo si $x\in X$ y ($x\notin A$ o $x\notin B$),
    si y sólo si ($x\in X$ y $x\notin A$) o $(x\in X$ y $x\notin B$),
    si y sólo si $x\in X\setminus A$ o $x\in X\setminus B$,
    si y sólo si $x\in (X\setminus A)\cup (X\setminus B)$.
    Por lo tanto, $X\setminus(A\cap B)=(X\setminus A)\cup (X\setminus B)$.
  2. Se tiene $x\in X\setminus (A\cup B)$,
    si y sólo si $x\in X$ y $x\notin A\cup B$ por definición de complemento,
    si y sólo si $x\in X$ y ($x\notin A$ y $x\notin B$),
    si y sólo si ($x\in X$ y $x\notin A$) y $(x\in X$ y $x\notin B$),
    si y sólo si $x\in X\setminus A$ y $x\in X\setminus B$,
    si y sólo si $x\in (X\setminus A)\cap (X\setminus B)$.
    Por lo tanto, $X\setminus(A\cup B)=(X\setminus A)\cap (X\setminus B)$.

$\square$

Tarea moral

  • Demuestra que para $X$ un conjunto cualquiera se cumple que $X\setminus \emptyset= X$.
  • Prueba que si $X$ un conjunto arbitrario, entonces $X\setminus X=\emptyset$.
  • Sean $A$, $B\subseteq X$ conjuntos. Prueba que $A\subseteq B$ si y sólo si $X\setminus B\subseteq X\setminus A$.
  • Muestra que si $A$ es un conjunto no vacío, entonces $(A\cup A)\setminus A\not=A\cup (A\setminus A)$.
  • Sean $X$ y $F$ conjuntos:
    – Muestra que $X\setminus (\bigcup F) = \bigcap (X\setminus F)$.
    – Supongamos que $F\neq \emptyset$. Muestra que $X\setminus (\bigcap F) = \bigcup (X\setminus F)$.

Este último ejercicio son las leyes de De Morgan para intersecciones y uniones arbitrarias.

Más adelante…

En la siguiente entrada hablaremos acerca del álgebra de conjuntos, para ello retomaremos las operaciones entre conjuntos que definidas anteriormente. Así mismo, haremos uso de los resultados que probamos en esta sección acerca del complemento de un conjunto. Un poco después, definiremos una nueva operación entre conjuntos: la diferencia simétrica.

Entradas relacionadas

Entradas relacionadas:


Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

  1. También puedes consultar la demostración de este teorema en: Gómez L. C, Álgebra Superior Curso Completo. Publicaciones Fomento Editorial, 2014, pp. 32-33. ↩︎

Geometría Moderna I: Rectas isogonales

Por Rubén Alexander Ocampo Arellano

Introducción

En esta ocasión hablaremos sobre un tipo mas general de pares de rectas que las medianas y simedianas, estas son las rectas isogonales, esto nos permitirá hablar sobre pares de puntos mas generales que el centroide y el punto simediano, nos referimos a los puntos conjugados isogonales y a sus triángulos pedales.

Rectas isogonales

Definición 1. Dos rectas que pasan por el vértice de un ángulo tales que una es la reflexión de la otra respecto a la bisectriz del ángulo, se llaman rectas isogonales.

Teorema 1. Las distancias a los lados de un ángulo desde dos puntos en dos rectas que pasan por el vértice del ángulo son inversamente proporcionales si y solo si las rectas son isogonales.

Demostración. Si $AP$ y $AQ$ son dos rectas isogonales respecto del ángulo $\angle BAC$, considera $P_c$, $Q_c$, las proyecciones de $P$ y $Q$ en $AB$, y $P_b$, $Q_b$, las proyecciones de $P$ y $Q$ en $AC$.

Figura 1

Como $AP$, $AQ$ son isogonales entonces $\angle BAP = \angle QAC$ y tenemos las siguientes semejanzas $\triangle APP_c \sim \triangle AQQ_b$, $\triangle APP_b \sim \triangle AQQ_c$ por lo tanto,
$\dfrac{PP_c}{QQ_b} = \dfrac{AP}{AQ} = \dfrac{PP_b}{QQ_c}$.

$\blacksquare$

Ahora supongamos que las distancias a los lados del ángulo, desde $P$ y $Q$, son inversamente proporcionales.

Notemos que los cuadriláteros $\square AP_cPP_b$, $\square AQ_cQQ_b$ son cíclicos, por lo tanto, los pares de ángulos $\angle BAC$, $\angle P_bPP_c$ y $\angle BAC$, $\angle Q_bQQ_c$ son suplementarios, entonces $\angle P_bPP_c = \angle Q_bQQ_c$.

Por hipótesis tenemos que $PP_c \times QQ_c = PP_b \times QQ_b$
$\Rightarrow \dfrac{PP_c}{QQ_b} = \dfrac{PP_b}{QQ_c}$.

Por criterio de semejanza LAL, $\triangle PP_bP_c \sim \triangle QQ_cQ_b$,  y como$\square AP_cPP_b$, $\square AQ_cQQ_b$ son cíclicos, entonces
$\angle BAP = \angle P_cP_bP = \angle QQ_cQ_b = \angle QAC$.

Por lo tanto $AP$ y $AQ$ son isogonales.

$\blacksquare$

Puntos conjugados isogonales

Teorema 2. Si tres cevianas de un triángulo son concurrentes, entonces sus rectas isogonales respecto de los ángulos del triángulo son concurrentes, los puntos de concurrencia se llaman conjugados isogonales respecto al triángulo considerado.

Si en $\triangle ABC$, $AP$, $BP$, $CP$ son tres cevianas concurrentes, consideremos $Q$ la intersección de las isogonales $BQ$, $CQ$ de $BP$ y $CP$ respectivamente, sean $P_a$, $P_b$, $P_c$; $Q_a$, $Q_b$, $Q_c$, las proyecciones de $P$ y $Q$ en $BC$, $CA$ y $AB$ respectivamente.

Figura 2

Por el teorema 1, $\dfrac{PP_a}{PP_c} = \dfrac{QQ_c}{QQ_a}$ y $\dfrac{PP_b}{PP_a} = \dfrac{QQ_a}{QQ_b}$.

Como resultado, $PP_c \times QQ_c = PP_a \times QQ_a = PP_b \times QQ_b$.

Por el teorema 1, $P$ y $Q$ están sobre rectas isogonales repecto de $\angle BAC$.

$\blacksquare$

Proposición 1. Dados un ángulo y un punto, la recta que une las proyecciones del punto a los lados del ángulo, es perpendicular a la isogonal a la recta que une el vértice del ángulo con el punto dado.

Demostración. En la entrada simediana probamos la misma proposición, pero para simedianas y medianas, la demostración permanece igual para el caso general.

$\blacksquare$

Corolario. Dados un triángulo $\triangle ABC$ y un punto $P$, las perpendiculares desde los vértices del triángulo a los lados del triángulo pedal de $P$ respecto de $\triangle ABC$, concurren en el conjugado isogonal de $P$ respecto de $\triangle ABC$.

Demostración. Aplicamos la proposición anterior a los tres ángulos del triángulo y recordamos que las tres isogonales a $AP$, $BP$ y $CP$ son concurrentes (figura 2).

$\blacksquare$

Proposición 2. El conjugado isogonal de un punto respecto a un triángulo es un punto al infinito si y solo si el punto se encuentra en el circuncírculo del triángulo.

Demostración. Sean $\triangle ABC$, y $P$ un punto, recordemos que el triángulo pedal de $P$ respecto de $\triangle ABC$ degenera en una recta, la recta de Simson, sí y solo si $P$ esta en el circuncírculo de $\triangle ABC$.

Figura 3

Por la proposición 1, las rectas isogonales a $AP$, $BP$, $CP$, respecto de los ángulos de $\triangle ABC$ son perpendiculares a los lados del triángulo pedal, por lo tanto estas rectas son paralelas si y solo si las proyecciones de $P$ en los lados de $\triangle ABC$ son colineales.

Ya que las rectas paralelas se intersecan en un punto ideal y las isogonales a $AP$, $BP$, $CP$ se intersecan en el conjugado isogonal a $P$, se tiene el resultado.

$\blacksquare$

Circulo pedal de conjugados isogonales

Proposición 3. Las proyecciones a los lados de un ángulo desde dos puntos en dos rectas isogonales son cíclicos y el centro de la circunferencia es el punto medio entre $P$ y $Q$.

Demostración. En la demostración del teorema 1, vimos que se tienen la siguientes semejanzas, $\triangle APP_c \sim \triangle AQQ_b$, $\triangle APP_b \sim \triangle AQQ_c$, es decir,
$\dfrac{AP_c}{AQ_b} = \dfrac{AP}{AQ} = \dfrac{AP_b}{AQ_c}$
$\Rightarrow AP_c \times AQ_c = AP_b \times AQ_b$.

Figura 4

Por el teorema de las cuerdas, $\square P_cQ_bP_bQ_c$ es un cuadrilátero cíclico.

Por otra parte, en $\triangle P_cQ_cP$, la mediatriz de $P_cQ_c$ es paralela a $P_cP$ y pasa por el punto medio de $P_cQ_c$, por lo tanto pasa por el punto medio de $PQ_c$.

En $\triangle PQ_cQ$ la mediatriz de $P_cQ_c$ es paralela a $Q_cQ$ y pasa por el punto medio de $PQ_c$ por lo tanto pasa por el punto medio de $PQ$.

Igualmente vemos que la mediatriz de $P_bQ_b$ pasa por el punto medio de $PQ$.

Como $P_cQ_c$ y $P_bQ_b$ son cuerdas de la circunferencia sus mediatrices se intersecan en el centro, por lo tanto este coincide con el punto medio de $PQ$.

$\blacksquare$

Teorema 3. Los triángulos pedales de dos puntos que son conjugados isogonales respecto a un triángulo tienen el mismo circuncírculo y su centro es el punto medio entre los puntos isogonales, esta circunferencia se conoce como circulo pedal de los puntos conjugados isogonales.

Demostración. Sean $O$ el punto medio de $PQ$ y $\triangle P_aP_bP_c$, $\triangle Q_aQ_bQ_c$, los triángulos pedales de $P$ y $Q$.

Por la proposición anterior, $\square Q_cP_CQ_bP_b$ es cíclico, con centro en $O$, $\square Q_cP_cP_aQ_a$ es cíclico con centro en $O$, $\square P_bP_aQ_aQ_b$ es cíclico con centro en $O$.

Figura 5

Como estas tres circunferencias son concéntricas y tienen el mismo radio, son la misma.

$\blacksquare$

Teorema 4. Dado un triángulo $\triangle ABC$ y un punto $P$, el circuncírculo del triángulo pedal de $P$ respecto de $\triangle ABC$, corta a los lados de $\triangle ABC$ en los vértices del triángulo pedal del conjugado isogonal de $P$ respecto a $\triangle ABC$.

Demostración. Si $\triangle P_aP_bP_c$ es el triángulo pedal de $P$ (figura 5), sean $Q_a \in BC$, $Q_b \in CA$, $Q_c \in AB$, las otras tres intersecciones de $\Gamma(O)$, el circuncírculo de $\triangle P_aP_bP_c$ con $\triangle ABC$, consideremos $Q$ el conjugado isogonal de $P$ respecto $\triangle ABC$ y $OM \parallel PP_a$, con $M \in P_aQ$.

Como $OM \parallel PP_a$ y pasa por el punto medio de $PQ$ entonces $M$ es el punto medio de $P_aQ$.

Como $OM \perp P_aQ_a$ y pasa por $O$ entonces es la mediatriz de $P_aQ_a$ y por lo tanto biseca a $P_aQ_a$.

Ya que $OM$ biseca a $P_aQ_a$ y $P_aQ$ entonces $OM \parallel QQ_a$.

Por lo tanto, $QQ_a \perp BC$, igualmente vemos que $QQ_b \perp CA$, $QQ_c \perp AB$.

En consecuencia, $\triangle Q_aQ_bQ_c$ es el triángulo pedal de $Q$.

$\blacksquare$

Proposición 4. Dado un triángulo $\triangle ABC$ y un punto $P$, el centro del circuncírculo del triángulo cuyos vértices son las reflexiones de $P$ respecto de los lados de $\triangle ABC$, es el conjugado isogonal de $P$ respecto de $\triangle ABC$.

Demostración. Sean $P_a’$, $P_b’$, $P_c’$, las respectivas reflexiones de $P$ respecto de $BC$, $CA$ y $AB$, considera $\triangle P_aP_bP_c$ el triángulo pedal de $P$ respecto de $\triangle ABC$.

Figura 6

Por construcción, $P$ es el centro de homotecia entre $\triangle P_aP_bP_c$ y $\triangle P_a’P_b’P_c’$ con razón de homotecia $2$, por lo tanto, sus respectivos circuncírculos y sus circuncentros también están en homotecia con centro en $P$ y razón $2$.

En consecuencia, si $O$ es el circuncentro de $\triangle P_aP_bP_c$, entonces el circuncentro de $\triangle P_a’P_b’P_c’$ se encuentra en la reflexión $Q$, de $P$ respecto de $O$.

Por el teorema 3, $Q$ el conjugado isogonal de $P$ respecto de $\triangle ABC$.

$\blacksquare$

Triángulo antipedal

Definición 2. Dado un triángulo $\triangle ABC$ y un punto $P$, el triángulo $\triangle A’B’C’$ formado por las perpendiculares a $AP$, $BP$, $CP$, por los vértices de $\triangle ABC$ se llama triángulo antipedal de $P$ respecto de $\triangle ABC$

Notemos que $\triangle ABC$ es el triángulo pedal de $P$ respecto de $\triangle A’B’C’$.

Proposición 5. Sean $\triangle ABC$ y $P$ un punto, entonces el triángulo antipedal de $P$ respecto de $\triangle ABC$ y el triángulo pedal del conjugado isogonal de $P$ respecto de $\triangle ABC$ son homotéticos.

Figura 7

Demostración. Sea $Q$ el conjugado isogonal de $P$ respecto de $\triangle ABC$, consideremos $Q_a \in BC$, $Q_b \in CA$, $Q_c \in AB$, las proyecciones de $Q$ en lados de $\triangle ABC$.

Por la proposición 1, la isogonal $CP$, de $CQ$, es perpendicular a $Q_aQ_b$ entonces $A’B’ \parallel Q_aQ_b$ (figura 7).

Igualmente vemos que $B’C’ \parallel Q_bQ_c$ y $C’A’ \parallel Q_cQ_a$.

Por lo tanto, existe una homotecia entre $\triangle A’B’C’$ y $\triangle Q_aQ_bQ_c$.

$\blacksquare$

Área del triangulo pedal

Teorema 5, de Euler. Sean $\triangle ABC$ y $P$ un punto, considera $\triangle P_aP_bP_c$ el triángulo pedal de $P$ respecto de $\triangle ABC$ y $(O, R)$ el circuncírculo de $\triangle ABC$, entonces podemos calcular el área de $\triangle P_aP_bP_c$ mediante la siguiente formula:
$(\triangle P_aP_bP_c) = \dfrac{|R^2 – OP^2|}{4R^2} (\triangle ABC)$.

Demostración. Sean $D$, $E$, $F$ las segundas intersecciones de $AP$, $BP$, $CP$ con $(O, R)$, veamos que $\triangle P_aP_bP_c$ y $\triangle DEF$ son semejantes.

Figura 8

Tomando en cuenta que $\square PP_cP_bA$ y $\square PBP_aP_c$ son cíclicos tenemos:
$\angle DFE = \angle DFP + \angle PFE $
$= \angle DAC + \angle CBE = \angle PAP_b + \angle P_aBP $
$= (\pi – \angle P_bP_cP) + (\pi – \angle PP_cP_a)$
$ = 2\pi – \angle P_bP_cP_a = \angle P_aP_cP_b$.

De manera similar vemos que $\angle EDF = \angle P_bP_aP_c$ y $\angle FED = \angle P_cP_bP_a$, $\Rightarrow \triangle P_aP_bP_c \sim \triangle DEF$.

Al triángulo $\triangle DEF$ se le conoce como triángulo circunscrito de Ceva de $P$ respecto de $\triangle ABC$.

Recordemos que podemos calcular el área de un triángulo como el producto de sus lados entre cuatro veces su circunradio, si $R_p$ es el circunradio de $\triangle P_aP_bP_c$, entonces

$\begin{equation} \dfrac{(\triangle P_aP_bP_c)}{(\triangle ABC)} = \dfrac{P_aP_b}{AB} \times \dfrac{P_bP_c}{BC} \times \dfrac{P_cP_a}{CA} \times \dfrac{R}{R_p}. \end{equation}$

Con el fin de calcular la última ecuación, consideremos los siguientes argumentos.

Como $\triangle P_aP_bP_c \sim \triangle DEF$ entonces $\dfrac{R}{R_p} = \dfrac{DE}{P_aP_b}$.

Ya que $\square ABDE$ es cíclico, entonces $\triangle PAB \sim \triangle PED$, esto es
$\dfrac{PA}{PE} = \dfrac{AB}{ED}$.

También, como $\square PP_cP_bA$ y $\square PBP_aP_c$ $\square PP_aCP_b$ son cíclicos y aplicando la ley extendida de los senos tenemos,
$P_bP_c = PA \sin \angle A$ y $P_cP_a = PB \sin \angle B$.

Ahora, aplicamos la ley extendida de los senos en $\triangle ABC$,
$\dfrac{\sin \angle A}{BC} =\dfrac{1}{2R} = \dfrac{\sin \angle B}{AC}$.

Finalmente, la potencia de $P$ respecto de $(O, R)$ es $PB \times PE = |R^2 – OP^2|$.

Sustituyendo lo anterior en $(1)$ obtenemos:

$\dfrac{(\triangle P_aP_bP_c)}{(\triangle ABC)} = \dfrac{P_aP_b}{AB} \times \dfrac{PA \sin \angle A}{BC} \times \dfrac{PB \sin \angle B}{CA} \times \dfrac{DE}{P_aP_b}$
$= \dfrac{PE}{PA} \times \dfrac{PA \times PB}{(2R)(2R)}$
$= \dfrac{|R^2 – OP^2|}{4R^2}$.

$\blacksquare$

Más adelante…

En la siguiente entrada hablaremos sobre un par de puntos conjugados isogonales en particular, se trata de los puntos de Brocard, que tienen algunas propiedades especiales dentro de un triángulo.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Muestra que:
    $i)$ el ortocentro y el circuncentro de un triángulo son conjugados isogonales,
    $ii)$ el incentro y los excentros de un triángulo son sus propios conjugados isogonales.
  2.  Sea $P$ un punto dentro de un triangulo $\triangle ABC$, considera a $Q$ su conjugado isogonal, muestra que $\angle BPC + \angle BQC = \pi + \angle BAC$.
  3. Sean $P$ y $Q$ puntos conjugados isogonales respecto a un triangulo $\triangle ABC$, prueba que $\dfrac{AP \times AQ}{AB \times AC} + \dfrac{BP \times BQ}{BA \times BC} + \dfrac{CP \times CQ}{CA \times CB} = 1$.
  4. Sean $\triangle ABC$ y $P$ un punto en su interior, considera $\triangle P_aP_bP_c$ el triángulo pedal de $P$ respecto $\triangle ABC$, supón que $P_aP_b \perp P_aP_c$, muestra que el conjugado isogonal de $P$ respecto de $\triangle ABC$ es el ortocentro de $\triangle AP_bP_c$.
  5. En la figura 7, muestra que el producto de los triángulos homotéticos es igual al cuadrado del área de $\triangle ABC$.

Entradas relacionadas

Fuentes

  • Altshiller, N., College Geometry. New York: Dover, 2007, pp 267-273.
  • Andreescu, T., Korsky, S. y Pohoata, C., Lemmas in Olympiad Geometry. USA: XYZ Press, 2016, pp 95-108.
  • Lozanovski, S., A Beautiful Journey Through Olympiad Geometry. Version 1.4. 2020, pp 169-176.
  • Johnson, R., Advanced Euclidean Geometry. New York: Dover, 2007, pp 153-157.

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Probabilidad I: Valor Esperado de una Variable Aleatoria

Por Octavio Daniel Ríos García

Introducción

Una de las ideas de una medida de probabilidad era que cuantifica, entre el $0$ y el $1$, qué tan probable es que ocurra un evento. Por ello, si nosotros multiplicamos los valores que puede tomar una v.a. mediante su probabilidad de ocurrencia, y luego los sumamos, el resultado sería un promedio ponderado de los valores que puede tomar la v.a.; donde el criterio de ponderación es precisamente la probabilidad de ocurrencia. Aquellos resultados con mayor probabilidad pesan más en este «promedio ponderado».

En el caso de $X$ una v.a. discreta, la manera de obtener este promedio ponderado es directa, pues existen $x \in \RR$ tales que $\Prob{X = x} > 0$, así que la expresión resultante es una suma. Sin embargo, en el caso continuo, la idea se preserva, pero la definición es más sutil, pues cuando $X$ es una v.a. continua, $\Prob{X = x} = 0$ para cada $x \in \RR$.

Motivación para el caso discreto

Para empezar, vamos a definir el valor esperado de una v.a. discreta. En este caso, la noción de «promedio ponderado» ocurre naturalmente, pues una v.a. discreta puede tomar valores dentro de un conjunto a lo más infinito numerable.

Primero, vamos a dar la idea general. Cuando se nos dan $x_{1}$, …., $x_{n} \in \RR$ números reales, con $n \in \mathbb{N}^{+}$, el promedio (o la media aritmética) de estos valores es

\begin{align*} \tfrac{1}{n}x_{1} + \tfrac{1}{n}x_{2} + \cdots + \tfrac{1}{n}x_{n} = \frac{1}{n} \sum_{k=1}^{n} x_{n}. \end{align*}

La media aritmética nos ayuda a resumir ciertas nociones de un conjunto de números. Más precisamente, nos da una idea de dónde están centrados los elementos de ese conjunto. Esto pasa porque en la media aritmética, cada uno de los números pesa lo mismo, debido a que en la suma, todos tienen el mismo coeficiente: $\frac{1}{n}$.

Sin embargo, no necesariamente queremos que todos los valores tengan el mismo peso al tomar el promedio. Puede que existan razones para que queramos que cada uno contribuya de manera distinta a la media. Para generalizar la media aritmética, sean $p_{1}$, …, $p_{n} \in [0,1]$. El valor $p_{i}$ representa el peso asociado al valor $x_{i}$, que a grandes rasgos sería la importancia de $x_{i}$ en el contexto en el que se toma el promedio. De este modo, el promedio ponderado de los $x_{i}$ es

\begin{align*} p_{1} x_{1} + p_{2} x_{2} + \cdots + p_{n} x_{n} = \sum_{k=1}^{n} p_{k} x_{k} \end{align*}

Precisamente, en el contexto de la probabilidad, cada posible valor de la v.a. discreta tiene un peso asociado: ¡la probabilidad de que la v.a. tome ese valor! Como es de esperarse de una media o promedio, el valor esperado debería de expresar la tendencia central del comportamiento probabilístico de una variable aleatoria, y en efecto, se cumple esa idea porque el peso asociado a cada valor es su probabilidad de ocurrencia.

Definición del valor esperado en el caso discreto

De acuerdo con la motivación anterior, presentamos la definición del valor esperado de una v.a. discreta.


Definición. Sea $X\colon\Omega\to\RR$ una variable aleatoria discreta. Definimos el valor esperado de $X$ (o la esperanza de $X$) como

\begin{align*} \Esp{X} &= \sum_{\omega\in\Omega} X(\omega) \Prob{\{ \omega \}}, \end{align*}

siempre que esta suma sea absolutamente convergente. Es decir, si

\begin{align*} \sum_{\omega\in\Omega} {\left|X(\omega) \Prob{\{\omega\}}\right|} < \infty. \end{align*}

En caso de que la suma no sea convergente, se dice que el valor esperado de \(X\) no está definido, o que es infinito.


La definición anterior va a ser de muchísima utilidad para algunas demostraciones, pero puede que no sea muy útil para hacer cálculos en casos concretos. Por ello, veamos una manera equivalente de definirla.

Para ello, como $X$ es una v.a. discreta, sea $\{ x_{k} \}_{k=1}^{\infty}$ el conjunto de valores que puede tomar $X$. Es decir, $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$. Ahora, observa que para cada $k \in \mathbb{N}^{+}$ se tiene que

\begin{align*} X(\omega) = x_{k} &\iff \omega \in X^{-1}[\{ x_{k} \}] \iff \omega \in (X = x_{k}). \end{align*}

En consecuencia, se tiene que

\begin{align*} \sum_{\omega \in (X = x_{k})} X(\omega) \Prob{\{\omega\}} &= \sum_{\omega \in (X = x_{k})} x_{k} \Prob{\{ \omega \}} \\[1em] &= x_{k} \sum_{\omega \in (X = x_{k})} \Prob{\{ \omega \}} \\[1em] &= x_{k} \Prob{X = x_{k}}.\end{align*}

De acuerdo con la definición de valor esperado, se tiene que

\begin{align*} \Esp{X} &= \sum_{\omega\in\Omega} X(\omega) \Prob{\{ \omega \}}. \end{align*}

Ahora, la suma anterior puede expresarse de manera diferente. Como $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$ y $\{ x_{k} \}_{k=1}^{\infty} = \bigcup_{k=1}^{\infty} \{ x_{k} \}$, se tiene que

\begin{align*} \Omega &= X^{-1}[X[\Omega]] \\[1em] &= X^{-1}{\left[ \bigcup_{k=1}^{\infty} \{x_{k}\} \right]} \\[1em] &= \bigcup_{k=1}^{\infty} X^{-1}[\{ x_{k} \}] \\[1em] &= \bigcup_{k=1}^{\infty}(X = x_{k}). \end{align*}

Así, podemos reacomodar la suma del valor esperado para obtener

\begin{align*} \sum_{\omega\in\Omega} X(\omega) \Prob{\{\omega\}} &= \sum_{k=1}^{\infty} \sum_{\omega\in (X = x_{k})} X(\omega) \Prob{\{\omega \}} \\[1em] &= \sum_{k=1}^{\infty} x_{k} \Prob{X = x_{k}}. \end{align*}

En conclusión, obtenemos que si $X$ es una v.a. discreta que toma valores en el conjunto $\{ x_{k} \}_{k=1}^{\infty}$, entonces el valor esperado de $X$ es

\begin{align*} \Esp{X} = \sum_{k=1}^{\infty} x_{k} \mathbb{P}{\left(X = x_{k}\right)}.\end{align*}

Finalmente, recordando que $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$, lo anterior nos queda como

\begin{align*} \Esp{X} = \sum_{x \in X[\Omega]} x \Prob{X = x}.\end{align*}

que nos da una expresión alternativa para el valor esperado de una v.a. discreta.


Definición (Alternativa). Sea $X$ una v.a. discreta. Definimos el valor esperado de $X$ (o esperanza de $X$) como

\begin{align*} \Esp{X} = \sum_{x \in X[\Omega]} x \Prob{X = x}, \end{align*}

siempre que la suma anterior sea absolutamente convergente. Es decir,

\begin{align*} \sum_{x\in X[\Omega]} {\left|x \Prob{X = x} \right|} < \infty. \end{align*}

En caso de que la suma no no sea convergente, se dice que el valor esperado de \(X\) no está definido, o que es infinito.


Ejemplo 1. Una v.a. discreta no necesariamente toma su valor esperado. Esto choca un poco con el término «valor esperado», pues al ser el valor «esperado» de la v.a., tendría sentido que sea alguno de los valores que puede tomar. Sea $X\colon\Omega\to\RR$ una v.a. con función de masa de probabilidad $p_{X}\colon\RR\to\RR$ dada por

\begin{align*} p_{X}(x) &= \begin{cases} \dfrac{1}{2} & \text{si $x \in \{ 0, 1\}$}, \\[1em] 0 &\text{en otro caso}. \end{cases} \end{align*}

De este modo, el conjunto de valores que puede tomar $X$ es $\{0, 1\}$. Es decir, $X[\Omega] = \{0,1\}$. Ahora obtengamos $\Esp{X}$,

\begin{align*} \Esp{X} &= 0 \cdot \Prob{X = 0} + 1 \cdot \Prob{X = 1} = 1 \cdot \Prob{X = 1} = 1 \cdot \frac{1}{2} = \frac{1}{2}. \end{align*}

Es decir, $\Esp{X} = \frac{1}{2}$: el «valor esperado» de $X$ es $\frac{1}{2}$… sin embargo, $\frac{1}{2}$, y $\frac{1}{2} \notin X[\Omega]$, por lo que de ninguna manera se esperaría que $X$ tome el valor $\frac{1}{2}$.

Sin embargo, si repitiéramos muchas veces a la v.a. $X$, el centroide (la media aritmética) de los valores observados en esas repeticiones se acercará cada vez más a $\Esp{X}$. Eso es algo que mostramos (sin muchos detalles) en la entrada del enfoque frecuentista. Es por esto que dijimos que el valor esperado de $X$ expresa la tendencia central del comportamiento probabilístico de $X$, pero no debe de pensarse como el valor a «esperar» cuando se observe $X$. Más adelante demostraremos formalmente las ideas de este ejemplo.


Ejemplo 1. Hay v.a.’s discretas que toman valores dentro de $\mathbb{N}$, por lo que su valor esperado es una serie. Sea $Y$ una v.a. con función de masa de probabilidad $p_{Y}\colon\RR\to\RR$ dada por

\begin{align*} p_{Y}(y) &= \begin{cases} (1 − p)^{y}p & \text{si \(y\in\mathbb{N}\),} \\[1em] 0 & \text{en otro caso,}\end{cases} \end{align*}

donde \(p \in (0,1)\). Procedamos a calcular el valor esperado de \(Y\). Por definición, sabemos que

\begin{align*} \Esp{Y} &= \sum_{y\in Y[\Omega]} y \Prob{Y = y} \\[1em] &= \sum_{y\in\mathbb{N}} y \Prob{Y = y} \\[1em] &= \sum_{y=0}^{\infty} y\Prob{Y = y} \\[1em] &= \sum_{y=0}^{\infty} y (1 − p)^{y} p. \end{align*}

Ahora, como el índice \(y\) comienza en \(0\), el primer término de la serie es \(0 \cdot (1 − p)^{0}p = 0\), por lo que podemos empezar la serie en \(1\). Así,

\begin{align} \label{eq:serie}\Esp{Y} &= \sum_{y=1}^{\infty} y(1 − p)^{y}p = p\sum_{y=1}^{\infty} y(1 − p)^{y}. \end{align}

Lo que haremos será reacomodar la serie \eqref{eq:serie} de manera conveniente para poder obtener su valor. Sin embargo, para hacer posible el reacomodo es necesario verificar que la serie es convergente. Para ello, podemos utilizar el criterio del cociente de d’Alembert. Para cada \(n\in\mathbb{N}^{+}\), sea \(a_{n} = n(1 − p)^{n}\). Es decir, \(a_{n}\) es el \(n\)-ésimo término de la serie. El criterio de d’Alembert nos dice que si

\begin{align*} \lim_{n\to\infty} \left| \frac{a_{n+1}}{a_{n}} \right| = r \end{align*}

con \(r < 1\), entonces la serie \(\sum_{n=1}^{\infty} a_{n}\) es absolutamente convergente. Primero desarrollaremos la expresión \(\left|\frac{a_{n+1}}{a_{n}}\right|\):

\begin{align*} \left| \frac{a_{n+1}}{a_{n}} \right| &= \left| \frac{(n+1)(1 − p)^{n+1}}{n(1 − p)^{n}} \right|. \end{align*}

Observa que en la expresión de la derecha tenemos \((1 − p)^{n+1}\) en el numerador, y \((1 − p)^{n}\) en el denominador, por lo que

\begin{align*} \left| \frac{(n+1)(1 − p)^{n+1}}{n(1 − p)^{n}} \right| &= \left| \frac{(n+1)(1 − p)^{n+1 − n}}{n} \right| \\[1em] &= \left| \frac{(n+1)(1 − p)}{n} \right|. \end{align*}

Además, \(1 − p > 0\), ya que \(p \in (0,1)\), y también se cumple que \(n > 0\), \(n + 1 > 0\), por lo que

\begin{align*} \left| \frac{(n+1)(1− p)}{n} \right| &= \frac{(n+1)(1− p)}{n}, \end{align*}

y podemos seguir desarrollando esta última expresión:

\begin{align*} \frac{(n+1)(1− p)}{n} &= (1 − p){\left(\frac{n+1}{n}\right)} \\[1em] &= (1 − p){\left(1 + \frac{1}{n} \right)}. \end{align*}

En consecuencia, el límite del criterio de d’Alembert nos queda

\begin{align*} \lim_{n\to\infty} \left| \frac{a_{n+1}}{a_{n}} \right| &= \lim_{n\to\infty} (1 − p){\left(1 + \frac{1}{n} \right)} \\[1em] &= (1 − p) \lim_{n\to\infty} {\left(1 + \frac{1}{n} \right)} \\[1em] (1 − p), \end{align*}

así que \(r = 1 − p\), y como \(p \in (0,1)\), se tiene que \( 1 − p < 1\). En conclusión, queda demostrado que la serie \eqref{eq:serie} es absolutamente convergente. Por ello, podemos reacomodar los términos de maneras distintas. En particular, observa que la serie en \eqref{eq:serie} (sin modificar) tiene la siguiente forma:

\begin{align*} \sum_{y=1}^{\infty} y(1 − p)^{y} = (1 − p) + 2 (1 − p)^{2} + 3 (1 − p)^{3} + 4(1 − p)^{4} + \cdots \end{align*}

Sin embargo, podemos ver la progresión anterior como

\begin{alignat*}{7} (1 − p) + 2 (1 − p)^{2} + 3 (1 − p)^{3} + 4(1 − p)^{4} + \cdots &{}={}& (1 − p) & + (1 − p)^{2} & + (1 − p)^{3} & + (1 − p) ^{4} & + \cdots \\[1em] & & & + (1 − p)^{2} & + (1 − p)^{3} & + (1 − p)^{4} &+ \cdots \\[1em] & & & & (1 − p)^{3} & + (1 − p) ^{4} & + \cdots \\[1em] & & & & & + (1 − p) ^{4} & + \cdots \\[1em] & & & & & \vdots & , \end{alignat*}

y así sucesivamente. Entonces la serie de \eqref{eq:serie} puede reacomodarse como una «serie de series», en el sentido de que podemos reacomodarla como una serie cuyos términos son series:

\begin{align}\label{eq:reacom} p\sum_{y=1}^{\infty} y(1 − p)^{y} &= p\sum_{y=1}^{\infty} \sum_{x=y}^{\infty} (1 − p)^{x}. \end{align}

Ahora, las series «dentro» de la otra serie comienzan en el índice \(y\), por lo que las series de la forma \(\sum_{x=y}^{\infty}(1 − p)^{x}\) pueden reescribirse como

\begin{align} \label{eq:moral1} \sum_{x=y}^{\infty}(1 − p)^{x} &= \sum_{x=0}^{\infty}(1 − p)^{x+y},\end{align}

pues observa que los términos no se ven afectados. Escribe los primeros términos de ambas series, y observa cómo coinciden. Como \(y\) es un valor constante con respecto al índice \(x\), se tiene que

\begin{align*} \sum_{x=0}^{\infty}(1 − p)^{x+y} &= (1 − p)^{y}\sum_{x=0}^{\infty} (1 − p) ^{x} = (1 − p)^{y} {\left(\frac{1}{1 − (1 − p)}\right)} = \frac{(1 − p)^{y}}{p}. \end{align*}

En los últimos pasos del desarrollo anterior usamos que la serie es una serie geométrica. Volviendo a \eqref{eq:reacom}, vemos que

\begin{align*} p\sum_{y=1}^{\infty} y(1 − p)^{y} &= p\sum_{y=1}^{\infty} \sum_{x=y}^{\infty} (1 − p)^{x} \\[1em] &= p\sum_{y=1}^{\infty} \frac{(1 − p)^{y}}{p} \\[1em] &= \sum_{y=1}^{\infty} (1 − p)^{y}, \end{align*}

que también es una serie geométrica, que empieza en \(1\). El valor de esta serie es

\begin{align} \label{eq:moral2} \sum_{y=1}^{\infty} (1 − p)^{y} &= \frac{ 1 − p }{1 − (1 − p) } = \frac{1 − p}{p}, \end{align}

así que podemos concluir que el valor esperado de \(Y\) es

\begin{align*} \Esp{Y} &= \frac{1 − p}{p}. \end{align*}


¿Podemos hacer lo mismo para las v.a.’s continuas?

Hay dos motivos por los que el valor esperado de una v.a. continua difiere del de una v.a. discreta. El primero es que si replicamos la idea para una v.a. discreta, la suma resultante para una v.a. continua $X$ es

\begin{align*} \sum_{x \in X[\Omega]} x \Prob{X = x}, \end{align*}

que es una suma con una cantidad infinita no numerable de términos, pues $X$ es una v.a. continua. Sin embargo, ese no es el único problema: como $X$ es una v.a. continua, entonces para cada $x \in \RR$ se tiene que $\Prob{X = x} = 0$, por lo que la suma anterior sería $0$ de cualquier manera.

Por ello, debemos de retomar el método para el cálculo de probabilidades en el caso de una v.a. continua. Esto es, si $X$ es una v.a. continua, entonces para $a$, $b \in \RR$ tales que $a < b$ se tiene que

\begin{align*} \Prob{X \in (a, b]} = \int_{a}^{b} f_{X}(x) \, \mathrm{d}x \end{align*}

donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$. Integrar la función de densidad de $X$ sobre el intervalo $(a,b]$ nos da como resultado la probabilidad de que $X$ esté dentro de $(a,b]$. Por ello, para $\varepsilon > 0$ tal que $\varepsilon$ es cercano a $0$, y para $x \in \RR$, se tiene que

\begin{align*} \Prob{X \in {\left(x − \tfrac{\varepsilon}{2}, x + \tfrac{\varepsilon}{2} \right]} } = \int_{x − \varepsilon/2}^{x + \varepsilon/2} f_{X}(t) \, \mathrm{d}t \approx \varepsilon f_{X}(x). \end{align*}

Esto obedece a que si $\varepsilon$ es muy cercano a $0$, entonces el valor de la integral sobre el intervalo ${\left(x − \tfrac{\varepsilon}{2}, x + \tfrac{\varepsilon}{2} \right]}$ será muy parecido al área del rectángulo cuya base es ese mismo intervalo y que tiene altura igual a $f_{X}(x)$.

Lo anterior quiere decir que la probabilidad de que $X$ se encuentre dentro de una vecindad de diámetro $\varepsilon > 0$ centrada en $x$ es muy parecida a $\varepsilon f_{X}(x)$ cuando $\varepsilon$ es un valor muy pequeño.

Las ideas anteriores son importantes, pues nos dicen que aunque $f_{X}(x)$ no es la probabilidad de que $X$ tome el valor $x$, sí guarda cierta relación con la probabilidad de que $X$ se encuentre muy cerca de $x$. De hecho, la discusión anterior (junto con la motivación de la integral de Riemann) nos dice que integrar

\begin{align*} \int_{a}^{b} f_{X}(t) \, \mathrm{d}t \end{align*}

es como «sumar» las probabilidades de estar muy cerca de cada uno de los puntos en $(a, b]$, de la manera más refinada posible. Por ello, si tomamos la integral

\begin{align*} \int_{a}^{b} t f_{X}(t) \, \mathrm{d}t, \end{align*}

este valor será como «sumar» todos los valores en $(a, b]$ ponderados por la probabilidad de estar muy cerca de cada uno de ellos. ¡Esa es justamente la idea del valor esperado! Con esto ya estamos listos para definir el valor esperado de una v.a. continua.

Definición del valor esperado en el caso continuo

Al final de la discusión anterior llegamos a una expresión que captura la misma idea de un promedio ponderado, pero para el caso continuo. Es decir, la idea es la misma que en el caso de una v.a. discreta, pero en vez de sumar, tomamos una integral. Además, para obtener el valor esperado de una v.a. continua será necesario tomar la integral sobre todo $\RR$. Esto da pie a la definición que presentamos a continuación.


Definición. Sea $X\colon\Omega\to\RR$ una variable aleatoria continua. Definimos el valor esperado de $X$ (o la esperanza de $X$) como

\begin{align*} \Esp{X} &= \int_{-\infty}^{\infty} x f_{X}(x) \, \mathrm{d}x, \end{align*}

siempre que esta integral sea absolutamente convergente. Esto es,

\begin{align*} \int_{-\infty}^{\infty} {\left|x f_{X}(x) \right|} \, \mathrm{d}x < \infty, \end{align*}

donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$. En caso de que la integral no sea absolutamente convergente, se dice que el valor esperado de $X$ no está definido, o que es infinito.


En este caso no tenemos una versión formal como la primera que dimos del valor esperado de una v.a. discreta. Para la construcción de una definición así es necesario contar con una herramienta que no hemos construido en este curso, y es probable que no conozcas: la integral de Lebesgue. Por ello, algunas propiedades del valor esperado en el caso continuo serán más complicadas de demostrar. No obstante, la definición que hemos dado es suficiente para calcular el valor esperado de cualquier v.a. continua que se te ocurra.

Ejemplo 2. Como el valor esperado de una v.a. continua está dado por una integral, es recomendable que recuerdes los métodos de integración que viste en tu curso de Cálculo Diferencial e Integral II. Si lo necesitas, puedes hacer click aquí para consultar nuestras notas de esa materia.

Sea $Z$ una v.a. continua con distribución exponencial con parámetro $\lambda > 0$. Es decir, $Z$ tiene función de densidad $f_{Z}\colon\RR\to\RR$ dada por

\begin{align*} f_{Z}(z) = \begin{cases} \lambda e^{-\lambda z} & \text{si $z \geq 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Veamos cuál es el valor esperado de $Z$. Para ello, primero observa que como $f_{Z}(z) = 0$ para cada $z < 0$, se tiene que

\begin{align*} \Esp{Z} = \int_{-\infty}^{\infty} z f_{Z}(z) \, \mathrm{d}z = \int_{0}^{\infty} z f_{Z}(z) \, \mathrm{d}z. \end{align*}

Esto es algo que siempre hay que revisar al momento de calcular el valor esperado de una v.a. continua: la integral se reduce al subconjunto de $\RR$ sobre el que la función de densidad es mayor a $0$.

De este modo, tenemos que

\begin{align*} \Esp{Z} &= \int_{0}^{\infty} z {\left( \lambda e^{-\lambda z} \right)} \, \mathrm{d}z, \end{align*}

que es una integral que podemos resolver mediante el método de integración por partes. Para ello, sea $u = z$ y $dv = \lambda e^{-\lambda z}$. De este modo, tendremos que $v = -e^{-\lambda z}$ y $du = dz$, así que

\begin{align*} \int_{0}^{\infty} z {\left( \lambda e^{-\lambda z} \right)} \, \mathrm{d}z &= {\left( -z e^{-\lambda z} \right)} \Big|_{0}^{\infty} + \int_{0}^{\infty} e^{-\lambda z} \, \mathrm{d} z \\[1em] &= {\left[ 0 \cdot e^{-\lambda \cdot 0} − \lim_{z\to\infty} z e^{-\lambda z} \right]} + \frac{1}{\lambda}\int_{0}^{\infty} \lambda e^{-\lambda z} \\[1em] &= {\left[ 0 − \lim_{z\to\infty} \frac{z}{e^{\lambda z}} \right]} + \frac{1}{\lambda} {\left( − e^{-\lambda z} \right)}\Big|_{0}^{\infty} \\[1em] &= {\left[ 0 − 0 \right]} + \frac{1}{\lambda}{\left[ e^{-\lambda \cdot 0} − \lim_{z\to\infty} e^{-\lambda z}\right]} \\[1em] &= \frac{1}{\lambda}{\left[ 1 − 0 \right]} \\[1em] &= \frac{1}{\lambda}.\end{align*}

Por lo tanto, se concluye que

\begin{align*} \Esp{Z} = \frac{1}{\lambda}. \end{align*}

Es decir, el valor esperado de una v.a. con distribución exponencial de parámetro $\lambda$ es $\frac{1}{\lambda}$.


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la identidad \eqref{eq:moral1} es verdadera. Sugerencia: Escribe los primeros términos de ambas series, y observa que coinciden.
  2. Dados \(r \in (0,1)\) y \(a \in \RR\), conocemos el valor de la serie geométrica con coeficiente \(a\) y razón \(r\):\begin{align*}\sum_{n=0}^{\infty} ar^{n} = \frac{a}{1 − r},\end{align*} donde es importante notar que la serie empieza en \(0\). No obstante, en \eqref{eq:moral2} nosotros usamos el valor de una serie geométrica que empieza en \(1\). ¿Cómo le haces para pasar de la versión que empieza en \(0\) a la versión que empieza en \(1\)?
  3. Sean $a$, $b \in \RR$ tales que $a < b$. Una v.a. con distribución uniforme sobre el intervalo $[a,b]$ es una v.a. $U$ con función de densidad $f_{U}\colon\RR\to\RR$ dada por\[ f_{U}(u) = \begin{cases} \dfrac{1}{b − a} & \text{si $u \in [a,b]$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \]¿Cuál es el valor esperado de $U$?

Más adelante…

El valor esperado (o esperanza) es un valor importante que intenta resumir una parte del comportamiento probabilístico de una v.a. Por ello, su uso es muy común en contextos aplicados en los que se busca analizar cuantitativamente un fenómeno aleatorio, como la inferencia estadística (y sus ramas).

En la siguiente entrada comenzaremos el estudio de algunas propiedades importantes del valor esperado.

Entradas relacionadas

Probabilidad I: Transformaciones de V.A.’s Continuas

Por Octavio Daniel Ríos García

Introducción

En la entrada pasada comenzamos a abordar el problema de encontrar la distribución de la transformación de una v.a. conocida. En particular, analizamos un método para el caso en el que la v.a. conocida es discreta, y sólamente para ese caso. No obstante, este método nos servirá como «base» para dar paso al caso continuo. Primero presentaremos un método que consiste en manipular directamente la función de distribución; muy parecido al método que vimos en la entrada pasada. Después, analizaremos un método más especializado que permite encontrar la función de densidad de la transformación de una v.a. sin necesidad de manipular la función de distribución.

Motivación del primer método

Sea $X$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible. En la entrada pasada ya describimos el proceso para obtener los eventos de $g(X)$ en términos de eventos que involucran a $X$. De hecho, vimos que para cada $A \in \mathscr{B}(\RR)$ se cumple que

\begin{align*} (g(X) \in A) = (X \in g^{-1}[A]). \end{align*}

¡Atención! En la entrada pasada centramos nuestra atención en las v.a.’s discretas, pero la igualdad anterior es cierta para cualquier variable aleatoria. Por ello, también aplica para las v.a.’s continuas. En particular, para cada $y \in \RR$ se cumple que $(-\infty, y] \in \mathscr{B}(\RR)$, por lo que

\begin{align*} {\left(g(X) \leq y\right)} = \left(g(X) \in (-\infty, y]\right) = {\left(X \in g^{-1}[(-\infty, y]]\right)}. \end{align*}

Por lo tanto, se tiene que

\begin{align*} \Prob{g(X) \leq y} = \Prob{X \in g^{-1}[(-\infty, y]]}. \end{align*}

Es decir, si definimos a $Y = g(X)$ y $F_{Y}\colon\RR\to\RR$ es la función de distribución de $Y$, entonces lo anterior quiere decir que para cada $y \in \RR$,

\begin{align*} F_{Y}(y) = \Prob{X \in g^{-1}[(-\infty, y]]}; \end{align*}

por lo que es posible obtener la distribución de $Y$ en términos de la probabilidad de un evento que involura a $X$, cuya distribución sí conocemos.

Primer método: manipular la función de distribución

Con la discusión anterior llegamos a que si $X$ es una v.a. (cuya distribución es conocida), $g\colon\RR\to\RR$ es una función Borel-medible, y $Y$ es la v.a. definida como $Y = g(X)$, entonces la función de distribución de $Y$, $F_{Y}\colon\RR\to\RR$, puede obtenerse como

\begin{align*} F_{Y}(y) &= \Prob{X \in g^{-1}[(-\infty, y]]} & \text{para cada $y \in \RR$.} \end{align*}

Por ello, el problema consistirá en encontrar el conjunto $g^{-1}[(-\infty, y]]$, y así encontrar la probabilidad de ${\left(X \in g^{-1}[(-\infty, y]]\right)}$.

Ejemplo 1. Sea $X$ una v.a. con función de densidad $f_{X}\colon\RR\to\RR$ dada por

\begin{align*} f_{X}(x) &= \frac{1}{2}e^{-{\left| x \right|}}, & \text{para cada $x \in \RR$}. \end{align*}

Una v.a. con esta función de densidad es conocida como una v.a. con distribución Laplace, o distribución doble exponencial. Su función de distribución $F_{X}\colon\RR\to\RR$ está dada por

\begin{align*} F_{X}(x) &= \begin{cases} \dfrac{1}{2}e^{x} & \text{si $x < 0$}, \\[1em] 1 − \dfrac{1}{2} e^{-x} & \text{si $x \geq 0$}. \end{cases}\end{align*}

Sea $g\colon\RR\to\RR$ la función dada por $g(x) = |x|$ para cada $x \in \RR$. De este modo, defínase $Y = g(X) = {\left| X \right|}$. Para obtener la función de distribución $Y$, podemos seguir un método similar al que usamos en la entrada anterior. Sea $y \in \RR$. Un primer detalle que podemos observar sobre $Y$ es que no toma valores negativos. Por ello, si $y < 0$, se tiene que $(Y \leq y) = \emptyset$, y en consecuencia, $\Prob{Y \leq y} = 0$ para $y < 0$. Por otro lado, para $y \geq 0$ se tiene que que

\begin{align*} \omega \in (Y \leq y) &\iff Y(\omega) \leq y \\[1em] &\iff |X(\omega)| \leq y \\[1em] &\iff -y \leq X(\omega) \leq y \\[1em] &\iff \omega \in ( -y \leq X \leq y ), \end{align*}

por lo que para cada $y \geq 0$ se tiene que $(Y \leq y) = (-y \leq X \leq y)$. Como esos dos eventos son iguales, se sigue que $\Prob{Y \leq y} = \Prob{ -y \leq X \leq y}$. , por lo queAdemás, nota que

\begin{align*} \Prob{-y \leq X \leq y} &= \Prob{X \leq y} − \Prob{X < -y} \\[1em] &= \Prob{X \leq y} − \Prob{X \leq -y} \tag{$*$} \\[1em] &= F_{X}(y) − F_{X}(-y), \end{align*}

donde el paso $(*)$ es válido debido a que $X$ es una v.a. continua. Por ello, podemos concluir que para cada $y \geq 0$,

\begin{align*} F_{Y}(y) = F_{X}(y) − F_{X}(−y). \end{align*}

Por lo tanto, la función de distribución de $Y$ queda como sigue:

\begin{align*} F_{Y}(y) &= \begin{cases} 0 & \text{si $y < 0$}, \\[1em] F_{X}(y) − F_{X}(-y) & \text{si $y \geq 0$}. \end{cases} \end{align*}

De aquí podemos obtener una expresión explícita. Para cada $y \geq 0$ se tiene que $-y \leq 0$, así que

\begin{align*} F_{X}(y) − F_{X}(-y) &= {\left(1 − \frac{1}{2}e^{-y}\right)} − \frac{1}{2}e^{-y} \\[1em] &= 1 − \frac{1}{2}e^{-y} − \frac{1}{2}e^{-y} \\[1em] &= 1 − e^{-y}. \end{align*}

En conclusión, la función de distribución de $Y$ queda así:

\begin{align*} F_{Y}(y) &= \begin{cases} 0 & \text{si $y < 0$}, \\[1em] 1 − e^{-y} & \text{si $y \geq 0$}. \end{cases} \end{align*}

Probablemente te resulte familiar: ¡Es la función de distribución de una v.a. exponencial! Este ejemplo exhibe que algunas transformaciones de algunas v.a.’s «famosas» resultan en otras v.a.’s «famosas». En este caso, vimos que si $X$ es una v.a. que sigue una distribución Laplace, entonces $|X|$ sigue una distribución exponencial. Más adelante veremos muchas más distribuciones importantes, y veremos cómo se relacionan entre sí mediante transformaciones.


Segundo método: teorema de cambio de variable

Existe un método más especializado para obtener la función de densidad de la transformación de una v.a. continua. La razón por la que decimos que es más especializado es porque funciona para transformaciones que cumplen ciertas condiciones.


Teorema. Sea $X\colon\Omega\to\RR$ una v.a. continua con función de densidad $f_{X}\colon\RR\to\RR$, y sea $g\colon X[\Omega]\to\RR$ una función diferenciable y estrictamente creciente o decreciente. Entonces la función de densidad de $Y = g(X)$ está dada por

\begin{align*} f_{Y}(y) &= \begin{cases} f_{X}{\left( g^{-1}(y) \right)} {\left| \dfrac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|} & \text{si $y \in (g \circ X )[ \Omega ]$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}

donde $g^{-1}\colon g[\RR] \to\RR$ es la inversa de $g$, y $(g \circ X )[ \Omega ]$ es la imagen directa de $\Omega$ bajo $g \circ X$. Esto es, $(g \circ X) [ \Omega ] = \{\, y \in \RR \mid \exists \omega \in \Omega : (g \circ X )(\omega) = y \,\}$, que corresponde al conjunto de valores que toma la v.a. $Y = g(X)$.


Demostración. Demostraremos el caso en el que $g$ es estrictamente creciente. Para ello, sea $y \in \RR$. Primero, recuerda que

\begin{align*} (Y \leq y) &= (X \leq g^{-1}[(-\infty,y]]). \end{align*}

Por un lado, se tiene el caso en el que $y \in (g \circ X)[\Omega]$; es decir, $y$ es uno de los valores que toma la v.a. $Y$ (pues $(g \circ X)[\Omega] = Y[\Omega]$). En este caso, el valor $g^{-1}(y)$ está bien definido, ya que $g^{-1}\colon (g \circ X)[\Omega]\to\RR$ es una función cuyo dominio es la imagen de $g$. De este modo, para cada $\omega\in\Omega$ tendremos que

\begin{align*} Y(\omega) \leq y &\iff X(\omega) \leq g^{-1}(y). \tag{$*$} \end{align*}

Como $g$ es una función estrictamente creciente, su inversa $g^{-1}\colon (g \circ X)[\Omega]\to\RR$ también es estrictamente creciente, y por lo tanto, la desigualdad en $(*)$ «no se voltea».

De lo anterior se sigue que $\Prob{Y \leq y} = \Prob{X \leq g^{-1}(y)}$ para cada $y \in (g \circ X)[\Omega]$. En consecuencia, se tiene que

\begin{align*} F_{Y}(y) = F_{X}(g^{-1}(y)). \end{align*}

Podemos diferenciar ambos lados de la igualdad respecto a $y$, y por la regla de la cadena obtenemos

\begin{align*} f_{Y}(y) &= f_{X}{\left( g^{-1}(y) \right)} \frac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \\[1em] &= f_{X}{\left( g^{-1}(y) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|}, \end{align*}

donde el último paso se obtiene de que $g^{-1}$ es estrictamente creciente, y por lo tanto, su derivada es positiva.

Por otro lado, resta el caso en el que $y \notin (g \circ X)[\Omega]$; es decir, cuando $y$ no es uno de los valores que puede tomar $Y$. En este caso, simplemente $f_{Y}$ vale $0$, pues la densidad de una v.a. continua es $0$ en aquellos valores que no toma. De este modo, $Y$ tiene densidad $f_{Y}\colon\RR\to\RR$ dada por

\begin{align*} f_{Y}(y) &= \begin{cases} f_{X}{\left( g^{-1}(y) \right)} {\left| \dfrac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|} & \text{si $y \in (g \circ X )[ \Omega ]$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}

que es justamente lo que queríamos demostrar.

El caso para $g$ estrictamente decreciente es casi análogo, por lo que te lo dejamos de tarea moral.

$\square$

Es importante notar que el teorema anterior no funciona para cualquier $g\colon\RR\to\RR$ Borel-medible, sólamente para aquellas que cumplen las hipótesis del teorema. Bajo estas hipótesis, el teorema permite obtener la densidad de la transformación de una v.a. de manera más eficiente que los otros métodos que hemos abordado.

Ejemplo 2. Sea $Z$ una v.a. con densidad $f_{Z}\colon\RR\to\RR$ dada por

\begin{align*} f_{Z}(z) &= \frac{1}{\sqrt{2\pi}} e^{-z^{2} / 2}, & \text{para cada $z \in \RR$}.\end{align*}

Se dice que una v.a. con esa función de densidad sigue una distribución normal estándar. Observa que $f_{Z}(z) > 0$ para todo $z \in \RR$, por lo que $Z[\Omega] = \RR$. Es decir, $Z$ puede tomar cualquier valor en $\RR$.

Sea $W = e^{Z}$. La función $\exp\colon\RR\to\RR^{+}$ dada por $\exp(x) = e^{x}$ es estrictamente creciente y diferenciable, por lo que podemos usar el teorema anterior para obtener la función de densidad de $W$. Así, tenemos que

\begin{align*} f_{W}(w) = f_{Z}{ \left(\exp^{-1}(w) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} w} {\left[ \exp^{-1}(w) \right]} \right|}, \end{align*}

donde $\exp^{-1}\colon\RR^{+}\to\RR$ es la inversa de la función exponencial $\exp$. De hecho, la inversa de $\exp$ es la función $\ln\colon\RR^{+}\to\RR$, el logaritmo natural. Ahora, como $Z[\Omega] = \RR$, se tiene que $(\exp{} \circ Z)[\Omega] = \RR^{+}$, pues la función $\exp{}$ toma únicamente valores positivos.

En consecuencia, para $w \in \RR^{+}$ se tiene

\begin{align*} f_{W}(w) &= f_{Z}{ \left(\ln(w) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} w} {\left[ \ln(w) \right]} \right|} \\[1em] &= f_{Z}{ \left(\ln(w) \right)} {\left| \frac{1}{w} \right|} \\[1em] &= \frac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \frac{(\ln(w))^{2}}{2}\right) }\end{align*}

y así, tenemos que $W$ tiene densidad $f_{W}\colon\RR\to\RR$ dada por

\begin{align*} f_{W}(w) &= \begin{cases} \dfrac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \dfrac{(\ln(w))^{2}}{2}\right) } & \text{si $w > 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Como nota adicional, $f_{W}$ es la densidad de una v.a. cuya distribución es conocida como log-normal.


Para concluir, es importante mencionar que la transformación $g$ del teorema sólamente necesita ser diferenciable y estrictamente creciente sobre $X[\Omega]$ (por eso es que en el enunciado la pusimos como $g\colon X[\Omega] \to \RR$). Por ejemplo, la función $g\colon\RR^{+}\cup\{0\}\to\RR$ dada por $g(x) = x^{2}$ es una función creciente sobre su dominio. Por ello, si $X$ es una v.a. continua que toma únicamente valores no-negativos, entonces puede aplicarse el teorema para obtener la densidad de $g(X)$. En resumidas cuentas, el teorema puede aplicarse siempre y cuando la transformación $g$ sea diferenciable y estrictamente creciente sobre el conjunto de valores que puede tomar $X$.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la función de distribución de la v.a. $X$ del Ejemplo 1 es la función que te dimos. Es decir, obtén la función de distribución de $X$ a partir de su función de densidad.
  2. Demuestra el caso en el que $g$ es estrictamente decreciente del teorema de cambio de variable.
  3. Retoma el segundo Ejemplo 2, pero esta vez comienza con la v.a. $W$, cuya función de densidad es \begin{align*} f_{W}(w) &= \begin{cases} \dfrac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \dfrac{(\ln(w))^{2}}{2}\right) } & \text{si $w > 0$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}y encuentra la función de densidad de $Z = \ln(W)$ usando el teorema.

Más adelante…

El teorema de esta entrada es muy útil para obtener la densidad (y, en consecuencia, la distribución) de muchas transformaciones de v.a.’s continuas. Por ello, nos será de utilidad en el futuro relativamente cercano, cuando veamos las distribuciones de probabilidad más conocidas. Por otro lado, te será de utilidad mucho más adelante en materias posteriores, pues este teorema puede generalizarse al caso en el que la transformación tiene como dominio a $\RR^{n}$ y como codominio a $\RR$ con $n \in \mathbb{N}^{+}$ y $n \geq 2$ (por ejemplo, $g\colon\RR^{2}\to\RR$ dada por $g(x, y) = x + y$).

En la siguiente entrada comenzaremos el estudio de un concepto asociado a las v.a.’s llamado el valor esperado de una variable aleatoria.

Entradas relacionadas