Archivo de la categoría: Matemáticas

Posts de matemáticas, la ciencia más cercana a las artes.

Teoría de los Conjuntos I: El complemento de un conjunto

Por Gabriela Hernández Aguilar

Introducción

En esta entrada hablaremos acerca del complemento de un conjunto y algunos resultados que se dan a partir de esta definición. A su vez, veremos las leyes de De Morgan, las cuales nos dirán cuál es el complemento de la intersección y de la unión de dos o más conjuntos.

Complemento de un conjunto

Definición. Sean $A$ y $X$ conjuntos, tales que $A\subseteq X$. Definimos al complemento de $A$ respecto del conjunto $X$, como la diferencia $X\setminus A$.

Ejemplo.

Sea $X=\set{\emptyset, \set{\emptyset}, \set{\set{\emptyset}}, \set{\emptyset, \set{\emptyset}}}$ y sea $A=\set{\emptyset, \set{\emptyset, \set{\emptyset}}}$. Tenemos que $X\setminus A=\set{x\in X: x\notin A}=\set{\set{\emptyset}, \set{\set{\emptyset}}}$.

En efecto, pues $\emptyset\in X$ y $\emptyset\in A$ por lo que $\emptyset\notin X\setminus A$ pues no cumple la propiedad para ser elemento del conjunto $X\setminus A$. Por su parte, $\set{\emptyset,\set{\emptyset}}$ tampoco es elemento de $X\setminus A$ pues $\set{ \emptyset,\set{\emptyset}}\in X$ y $\set{ \emptyset,\set{\emptyset}}\in A$. Finalmente, $\set{\emptyset}$, $\set{\set{\emptyset}}\in X$ y $\set{\emptyset}$, $\set{\set{\emptyset}}\notin A$, por lo que $\set{\emptyset}$, $\set{\set{\emptyset}}\in X\setminus A$.

$\square$

Resultados del conjunto complemento

Usaremos el siguiente resultado repetidamente para la demostración de propiedades posteriormente.

Proposición. Sean $A$, $B$, $X$ conjuntos, tales que $A$, $B\subseteq X$. Se cumple que $A\setminus B=A\cap (X\setminus B)$.

Demostración.

$\subseteq$] Sea $a\in A\setminus B$, entonces $a\in A$ y $a\notin B$. Como $a\in A\subseteq X$, entonces $a\in X$. Así, es cierto que $a\in A$ y ($a\in X$ y $a\notin B$), por lo que $a\in A$ y $a\in X\setminus B$ y por lo tanto, $a\in A\cap (X\setminus B)$.

Concluimos que $A\setminus B\subseteq A\cap (X\setminus B)$.

$\supseteq$] Sea $a\in A\cap(X\setminus B)$, entonces $a\in A$ y $a\in X \setminus B$. Entonces $a\in A$ y $a\in X$ y $a\notin B$, en particular, $a\in A$ y $a\notin B$. Así, $a\in A\setminus B$.

Por lo tanto, $A\cap (X\setminus B)= A\setminus B$.

$\square$

Veamos otras tres propiedades del complemento.

Proposición. Sean $A$ y $X$ conjuntos tales que $A\subseteq X$. Entonces se cumple lo siguiente:

a) $A\cap (X\setminus A)=\emptyset$,

b) $A\cup (X\setminus A)=X$,

c) $X\setminus(X\setminus A)= A$.

Demostración:

a) Supongamos que $A\cap(X\setminus A)\not=\emptyset$ en búsqueda de una contradicción. Entonces, existe $x\in A\cap(X\setminus A)$, de donde $x\in A$ y $x\in X\setminus A$.

Así, $x\in A$ y $x\in X$ y $x\notin A$. En particular, $x\in A$ y $x\notin A$ lo cual no puede ocurrir. Por lo tanto, $A\cap(X\setminus A)=\emptyset$.

b) Sea $x\in A\cup (X\setminus A)$, entonces $x\in A$ o $x\in X\setminus A$.

Caso 1: Si $x\in A$, entonces $x\in X$ pues $A\subseteq X$.

Caso 2: Si $x\in X\setminus A$, entonces $x\in X$ y $x\notin A$. En particular, $x\in X$.

En cualquier caso, $x\in X$. Por lo tanto, $A\cup (X\setminus A)\subseteq X$.

Por otro lado, supongamos que $x\in X$. Tenemos dos casos: $x\in A$ o $x\notin A$.

Caso 1: Si $x\in A$, entonces $x\in A\cup (X\setminus A)$.

Caso 2: Si $x\notin A$, entonces $x\in X$ y $x\notin A$ y así, $x\in X\setminus A$. Por lo tanto, $x\in A\cup(X\setminus A)$.

En cualquiera de los dos casos concluimos que $X\subseteq A\cup (X\setminus A)$.

Por lo tanto, $A\cup (X\setminus A)= X$.

c) Primero veamos que $A\subseteq X\setminus (X\setminus A)$. Sea $x\in A$, entonces $x\notin X\setminus A$. Por otro lado, $x\in X$ pues $A\subseteq X$.

Por lo que $x\in X$ y $x\notin X\setminus A$, es decir, $x\in X\setminus(X\setminus A)$. Esto concluye la prueba de que $A\subseteq X\setminus (X\setminus A)$.

Ahora, sea $x\in X\setminus (X\setminus A)$, entonces $x\in X$ y $x\notin X\setminus A$. Esto implica que $x\in X$ y ($x\notin X$ o $x\in A$). Como $x\in X$, entonces $x\notin X$ no es posible y así, $x\in A$. Por lo tanto, $X\setminus(X\setminus A)\subseteq A$.

Por lo tanto, $A=X\setminus (X\setminus A)$.

$\square$

Leyes de De Morgan

Las leyes de De Morgan nos dicen cómo se comportan los complementos de uniones e intersecciones. A continuación damos la versión para uniones e intersecciones de dos conjuntos. En los ejercicios tendrás que demostrar las versiones para uniones e intersecciones arbitrarias.

Teorema. Sean $A$, $B$ y $X$ conjuntos. Entonces

$X\setminus (A\cap B)= (X\setminus A)\cup (X\setminus B)$,
$X\setminus (A\cup B)= (X\setminus A)\cap (X\setminus B)$. ¹

Demostración.

Se tiene $x\in X\setminus (A\cap B)$,
si y sólo si $x\in X$ y $x\notin A\cap B$ por definición de complemento,
si y sólo si $x\in X$ y ($x\notin A$ o $x\notin B$),
si y sólo si ($x\in X$ y $x\notin A$) o $(x\in X$ y $x\notin B$),
si y sólo si $x\in X\setminus A$ o $x\in X\setminus B$,
si y sólo si $x\in (X\setminus A)\cup (X\setminus B)$.
Por lo tanto, $X\setminus(A\cap B)=(X\setminus A)\cup (X\setminus B)$.
Se tiene $x\in X\setminus (A\cup B)$,
si y sólo si $x\in X$ y $x\notin A\cup B$ por definición de complemento,
si y sólo si $x\in X$ y ($x\notin A$ y $x\notin B$),
si y sólo si ($x\in X$ y $x\notin A$) y $(x\in X$ y $x\notin B$),
si y sólo si $x\in X\setminus A$ y $x\in X\setminus B$,
si y sólo si $x\in (X\setminus A)\cap (X\setminus B)$.
Por lo tanto, $X\setminus(A\cup B)=(X\setminus A)\cap (X\setminus B)$.

$\square$

Tarea moral

Demuestra que para $X$ un conjunto cualquiera se cumple que $X\setminus \emptyset= X$.
Prueba que si $X$ un conjunto arbitrario, entonces $X\setminus X=\emptyset$.
Sean $A$, $B\subseteq X$ conjuntos. Prueba que $A\subseteq B$ si y sólo si $X\setminus B\subseteq X\setminus A$.
Muestra que si $A$ es un conjunto no vacío, entonces $(A\cup A)\setminus A\not=A\cup (A\setminus A)$.
Sean $X$ y $F$ conjuntos:
– Muestra que $X\setminus (\bigcup F) = \bigcap (X\setminus F)$.
– Supongamos que $F\neq \emptyset$. Muestra que $X\setminus (\bigcap F) = \bigcup (X\setminus F)$.

Este último ejercicio son las leyes de De Morgan para intersecciones y uniones arbitrarias.

Más adelante…

En la siguiente entrada hablaremos acerca del álgebra de conjuntos, para ello retomaremos las operaciones entre conjuntos que definidas anteriormente. Así mismo, haremos uso de los resultados que probamos en esta sección acerca del complemento de un conjunto. Un poco después, definiremos una nueva operación entre conjuntos: la diferencia simétrica.

Entradas relacionadas

Entradas relacionadas:

Álgebra Superior I: Leyes de De Morgan y diferencia simétrica de conjuntos
Álgebra Superior I: Intersecciones, uniones y complementos de conjuntos
Ir a Teoría de los Conjuntos I
Entrada anterior: Teoría de los Conjuntos I: Axiomas débiles
Siguiente entrada: Teoría de los Conjuntos I: Álgebra de conjuntos

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

También puedes consultar la demostración de este teorema en: Gómez L. C, Álgebra Superior Curso Completo. Publicaciones Fomento Editorial, 2014, pp. 32-33. ↩︎

Geometría Moderna I: Rectas isogonales

Por Rubén Alexander Ocampo Arellano

Deja un comentario

Introducción

En esta ocasión hablaremos sobre un tipo mas general de pares de rectas que las medianas y simedianas, estas son las rectas isogonales, esto nos permitirá hablar sobre pares de puntos mas generales que el centroide y el punto simediano, nos referimos a los puntos conjugados isogonales y a sus triángulos pedales.

Rectas isogonales

Definición 1. Dos rectas que pasan por el vértice de un ángulo tales que una es la reflexión de la otra respecto a la bisectriz del ángulo, se llaman rectas isogonales.

Teorema 1. Las distancias a los lados de un ángulo desde dos puntos en dos rectas que pasan por el vértice del ángulo son inversamente proporcionales si y solo si las rectas son isogonales.

Demostración. Si $AP$ y $AQ$ son dos rectas isogonales respecto del ángulo $\angle BAC$, considera $P_c$, $Q_c$, las proyecciones de $P$ y $Q$ en $AB$, y $P_b$, $Q_b$, las proyecciones de $P$ y $Q$ en $AC$.

Como $AP$, $AQ$ son isogonales entonces $\angle BAP = \angle QAC$ y tenemos las siguientes semejanzas $\triangle APP_c \sim \triangle AQQ_b$, $\triangle APP_b \sim \triangle AQQ_c$ por lo tanto,
$\dfrac{PP_c}{QQ_b} = \dfrac{AP}{AQ} = \dfrac{PP_b}{QQ_c}$.

$\blacksquare$

Ahora supongamos que las distancias a los lados del ángulo, desde $P$ y $Q$, son inversamente proporcionales.

Notemos que los cuadriláteros $\square AP_cPP_b$, $\square AQ_cQQ_b$ son cíclicos, por lo tanto, los pares de ángulos $\angle BAC$, $\angle P_bPP_c$ y $\angle BAC$, $\angle Q_bQQ_c$ son suplementarios, entonces $\angle P_bPP_c = \angle Q_bQQ_c$.

Por hipótesis tenemos que $PP_c \times QQ_c = PP_b \times QQ_b$
$\Rightarrow \dfrac{PP_c}{QQ_b} = \dfrac{PP_b}{QQ_c}$.

Por criterio de semejanza LAL, $\triangle PP_bP_c \sim \triangle QQ_cQ_b$, y como$\square AP_cPP_b$, $\square AQ_cQQ_b$ son cíclicos, entonces
$\angle BAP = \angle P_cP_bP = \angle QQ_cQ_b = \angle QAC$.

Por lo tanto $AP$ y $AQ$ son isogonales.

$\blacksquare$

Puntos conjugados isogonales

Teorema 2. Si tres cevianas de un triángulo son concurrentes, entonces sus rectas isogonales respecto de los ángulos del triángulo son concurrentes, los puntos de concurrencia se llaman conjugados isogonales respecto al triángulo considerado.

Si en $\triangle ABC$, $AP$, $BP$, $CP$ son tres cevianas concurrentes, consideremos $Q$ la intersección de las isogonales $BQ$, $CQ$ de $BP$ y $CP$ respectivamente, sean $P_a$, $P_b$, $P_c$; $Q_a$, $Q_b$, $Q_c$, las proyecciones de $P$ y $Q$ en $BC$, $CA$ y $AB$ respectivamente.

Por el teorema 1, $\dfrac{PP_a}{PP_c} = \dfrac{QQ_c}{QQ_a}$ y $\dfrac{PP_b}{PP_a} = \dfrac{QQ_a}{QQ_b}$.

Como resultado, $PP_c \times QQ_c = PP_a \times QQ_a = PP_b \times QQ_b$.

Por el teorema 1, $P$ y $Q$ están sobre rectas isogonales repecto de $\angle BAC$.

$\blacksquare$

Proposición 1. Dados un ángulo y un punto, la recta que une las proyecciones del punto a los lados del ángulo, es perpendicular a la isogonal a la recta que une el vértice del ángulo con el punto dado.

Demostración. En la entrada simediana probamos la misma proposición, pero para simedianas y medianas, la demostración permanece igual para el caso general.

$\blacksquare$

Corolario. Dados un triángulo $\triangle ABC$ y un punto $P$, las perpendiculares desde los vértices del triángulo a los lados del triángulo pedal de $P$ respecto de $\triangle ABC$, concurren en el conjugado isogonal de $P$ respecto de $\triangle ABC$.

Demostración. Aplicamos la proposición anterior a los tres ángulos del triángulo y recordamos que las tres isogonales a $AP$, $BP$ y $CP$ son concurrentes (figura 2).

$\blacksquare$

Proposición 2. El conjugado isogonal de un punto respecto a un triángulo es un punto al infinito si y solo si el punto se encuentra en el circuncírculo del triángulo.

Demostración. Sean $\triangle ABC$, y $P$ un punto, recordemos que el triángulo pedal de $P$ respecto de $\triangle ABC$ degenera en una recta, la recta de Simson, sí y solo si $P$ esta en el circuncírculo de $\triangle ABC$.

Por la proposición 1, las rectas isogonales a $AP$, $BP$, $CP$, respecto de los ángulos de $\triangle ABC$ son perpendiculares a los lados del triángulo pedal, por lo tanto estas rectas son paralelas si y solo si las proyecciones de $P$ en los lados de $\triangle ABC$ son colineales.

Ya que las rectas paralelas se intersecan en un punto ideal y las isogonales a $AP$, $BP$, $CP$ se intersecan en el conjugado isogonal a $P$, se tiene el resultado.

$\blacksquare$

Circulo pedal de conjugados isogonales

Proposición 3. Las proyecciones a los lados de un ángulo desde dos puntos en dos rectas isogonales son cíclicos y el centro de la circunferencia es el punto medio entre $P$ y $Q$.

Demostración. En la demostración del teorema 1, vimos que se tienen la siguientes semejanzas, $\triangle APP_c \sim \triangle AQQ_b$, $\triangle APP_b \sim \triangle AQQ_c$, es decir,
$\dfrac{AP_c}{AQ_b} = \dfrac{AP}{AQ} = \dfrac{AP_b}{AQ_c}$
$\Rightarrow AP_c \times AQ_c = AP_b \times AQ_b$.

Por el teorema de las cuerdas, $\square P_cQ_bP_bQ_c$ es un cuadrilátero cíclico.

Por otra parte, en $\triangle P_cQ_cP$, la mediatriz de $P_cQ_c$ es paralela a $P_cP$ y pasa por el punto medio de $P_cQ_c$, por lo tanto pasa por el punto medio de $PQ_c$.

En $\triangle PQ_cQ$ la mediatriz de $P_cQ_c$ es paralela a $Q_cQ$ y pasa por el punto medio de $PQ_c$ por lo tanto pasa por el punto medio de $PQ$.

Igualmente vemos que la mediatriz de $P_bQ_b$ pasa por el punto medio de $PQ$.

Como $P_cQ_c$ y $P_bQ_b$ son cuerdas de la circunferencia sus mediatrices se intersecan en el centro, por lo tanto este coincide con el punto medio de $PQ$.

$\blacksquare$

Teorema 3. Los triángulos pedales de dos puntos que son conjugados isogonales respecto a un triángulo tienen el mismo circuncírculo y su centro es el punto medio entre los puntos isogonales, esta circunferencia se conoce como circulo pedal de los puntos conjugados isogonales.

Demostración. Sean $O$ el punto medio de $PQ$ y $\triangle P_aP_bP_c$, $\triangle Q_aQ_bQ_c$, los triángulos pedales de $P$ y $Q$.

Por la proposición anterior, $\square Q_cP_CQ_bP_b$ es cíclico, con centro en $O$, $\square Q_cP_cP_aQ_a$ es cíclico con centro en $O$, $\square P_bP_aQ_aQ_b$ es cíclico con centro en $O$.

Como estas tres circunferencias son concéntricas y tienen el mismo radio, son la misma.

$\blacksquare$

Teorema 4. Dado un triángulo $\triangle ABC$ y un punto $P$, el circuncírculo del triángulo pedal de $P$ respecto de $\triangle ABC$, corta a los lados de $\triangle ABC$ en los vértices del triángulo pedal del conjugado isogonal de $P$ respecto a $\triangle ABC$.

Demostración. Si $\triangle P_aP_bP_c$ es el triángulo pedal de $P$ (figura 5), sean $Q_a \in BC$, $Q_b \in CA$, $Q_c \in AB$, las otras tres intersecciones de $\Gamma(O)$, el circuncírculo de $\triangle P_aP_bP_c$ con $\triangle ABC$, consideremos $Q$ el conjugado isogonal de $P$ respecto $\triangle ABC$ y $OM \parallel PP_a$, con $M \in P_aQ$.

Como $OM \parallel PP_a$ y pasa por el punto medio de $PQ$ entonces $M$ es el punto medio de $P_aQ$.

Como $OM \perp P_aQ_a$ y pasa por $O$ entonces es la mediatriz de $P_aQ_a$ y por lo tanto biseca a $P_aQ_a$.

Ya que $OM$ biseca a $P_aQ_a$ y $P_aQ$ entonces $OM \parallel QQ_a$.

Por lo tanto, $QQ_a \perp BC$, igualmente vemos que $QQ_b \perp CA$, $QQ_c \perp AB$.

En consecuencia, $\triangle Q_aQ_bQ_c$ es el triángulo pedal de $Q$.

$\blacksquare$

Proposición 4. Dado un triángulo $\triangle ABC$ y un punto $P$, el centro del circuncírculo del triángulo cuyos vértices son las reflexiones de $P$ respecto de los lados de $\triangle ABC$, es el conjugado isogonal de $P$ respecto de $\triangle ABC$.

Demostración. Sean $P_a’$, $P_b’$, $P_c’$, las respectivas reflexiones de $P$ respecto de $BC$, $CA$ y $AB$, considera $\triangle P_aP_bP_c$ el triángulo pedal de $P$ respecto de $\triangle ABC$.

Por construcción, $P$ es el centro de homotecia entre $\triangle P_aP_bP_c$ y $\triangle P_a’P_b’P_c’$ con razón de homotecia $2$, por lo tanto, sus respectivos circuncírculos y sus circuncentros también están en homotecia con centro en $P$ y razón $2$.

En consecuencia, si $O$ es el circuncentro de $\triangle P_aP_bP_c$, entonces el circuncentro de $\triangle P_a’P_b’P_c’$ se encuentra en la reflexión $Q$, de $P$ respecto de $O$.

Por el teorema 3, $Q$ el conjugado isogonal de $P$ respecto de $\triangle ABC$.

$\blacksquare$

Triángulo antipedal

Definición 2. Dado un triángulo $\triangle ABC$ y un punto $P$, el triángulo $\triangle A’B’C’$ formado por las perpendiculares a $AP$, $BP$, $CP$, por los vértices de $\triangle ABC$ se llama triángulo antipedal de $P$ respecto de $\triangle ABC$

Notemos que $\triangle ABC$ es el triángulo pedal de $P$ respecto de $\triangle A’B’C’$.

Proposición 5. Sean $\triangle ABC$ y $P$ un punto, entonces el triángulo antipedal de $P$ respecto de $\triangle ABC$ y el triángulo pedal del conjugado isogonal de $P$ respecto de $\triangle ABC$ son homotéticos.

Demostración. Sea $Q$ el conjugado isogonal de $P$ respecto de $\triangle ABC$, consideremos $Q_a \in BC$, $Q_b \in CA$, $Q_c \in AB$, las proyecciones de $Q$ en lados de $\triangle ABC$.

Por la proposición 1, la isogonal $CP$, de $CQ$, es perpendicular a $Q_aQ_b$ entonces $A’B’ \parallel Q_aQ_b$ (figura 7).

Igualmente vemos que $B’C’ \parallel Q_bQ_c$ y $C’A’ \parallel Q_cQ_a$.

Por lo tanto, existe una homotecia entre $\triangle A’B’C’$ y $\triangle Q_aQ_bQ_c$.

$\blacksquare$

Área del triangulo pedal

Teorema 5, de Euler. Sean $\triangle ABC$ y $P$ un punto, considera $\triangle P_aP_bP_c$ el triángulo pedal de $P$ respecto de $\triangle ABC$ y $(O, R)$ el circuncírculo de $\triangle ABC$, entonces podemos calcular el área de $\triangle P_aP_bP_c$ mediante la siguiente formula:
$(\triangle P_aP_bP_c) = \dfrac{|R^2 – OP^2|}{4R^2} (\triangle ABC)$.

Demostración. Sean $D$, $E$, $F$ las segundas intersecciones de $AP$, $BP$, $CP$ con $(O, R)$, veamos que $\triangle P_aP_bP_c$ y $\triangle DEF$ son semejantes.

Tomando en cuenta que $\square PP_cP_bA$ y $\square PBP_aP_c$ son cíclicos tenemos:
$\angle DFE = \angle DFP + \angle PFE $
$= \angle DAC + \angle CBE = \angle PAP_b + \angle P_aBP $
$= (\pi – \angle P_bP_cP) + (\pi – \angle PP_cP_a)$
$ = 2\pi – \angle P_bP_cP_a = \angle P_aP_cP_b$.

De manera similar vemos que $\angle EDF = \angle P_bP_aP_c$ y $\angle FED = \angle P_cP_bP_a$, $\Rightarrow \triangle P_aP_bP_c \sim \triangle DEF$.

Al triángulo $\triangle DEF$ se le conoce como triángulo circunscrito de Ceva de $P$ respecto de $\triangle ABC$.

Recordemos que podemos calcular el área de un triángulo como el producto de sus lados entre cuatro veces su circunradio, si $R_p$ es el circunradio de $\triangle P_aP_bP_c$, entonces

$\begin{equation} \dfrac{(\triangle P_aP_bP_c)}{(\triangle ABC)} = \dfrac{P_aP_b}{AB} \times \dfrac{P_bP_c}{BC} \times \dfrac{P_cP_a}{CA} \times \dfrac{R}{R_p}. \end{equation}$

Con el fin de calcular la última ecuación, consideremos los siguientes argumentos.

Como $\triangle P_aP_bP_c \sim \triangle DEF$ entonces $\dfrac{R}{R_p} = \dfrac{DE}{P_aP_b}$.

Ya que $\square ABDE$ es cíclico, entonces $\triangle PAB \sim \triangle PED$, esto es
$\dfrac{PA}{PE} = \dfrac{AB}{ED}$.

También, como $\square PP_cP_bA$ y $\square PBP_aP_c$ $\square PP_aCP_b$ son cíclicos y aplicando la ley extendida de los senos tenemos,
$P_bP_c = PA \sin \angle A$ y $P_cP_a = PB \sin \angle B$.

Ahora, aplicamos la ley extendida de los senos en $\triangle ABC$,
$\dfrac{\sin \angle A}{BC} =\dfrac{1}{2R} = \dfrac{\sin \angle B}{AC}$.

Finalmente, la potencia de $P$ respecto de $(O, R)$ es $PB \times PE = |R^2 – OP^2|$.

Sustituyendo lo anterior en $(1)$ obtenemos:

$\dfrac{(\triangle P_aP_bP_c)}{(\triangle ABC)} = \dfrac{P_aP_b}{AB} \times \dfrac{PA \sin \angle A}{BC} \times \dfrac{PB \sin \angle B}{CA} \times \dfrac{DE}{P_aP_b}$
$= \dfrac{PE}{PA} \times \dfrac{PA \times PB}{(2R)(2R)}$
$= \dfrac{|R^2 – OP^2|}{4R^2}$.

$\blacksquare$

Más adelante…

En la siguiente entrada hablaremos sobre un par de puntos conjugados isogonales en particular, se trata de los puntos de Brocard, que tienen algunas propiedades especiales dentro de un triángulo.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

Muestra que:
$i)$ el ortocentro y el circuncentro de un triángulo son conjugados isogonales,
$ii)$ el incentro y los excentros de un triángulo son sus propios conjugados isogonales.
Sea $P$ un punto dentro de un triangulo $\triangle ABC$, considera a $Q$ su conjugado isogonal, muestra que $\angle BPC + \angle BQC = \pi + \angle BAC$.
Sean $P$ y $Q$ puntos conjugados isogonales respecto a un triangulo $\triangle ABC$, prueba que $\dfrac{AP \times AQ}{AB \times AC} + \dfrac{BP \times BQ}{BA \times BC} + \dfrac{CP \times CQ}{CA \times CB} = 1$.
Sean $\triangle ABC$ y $P$ un punto en su interior, considera $\triangle P_aP_bP_c$ el triángulo pedal de $P$ respecto $\triangle ABC$, supón que $P_aP_b \perp P_aP_c$, muestra que el conjugado isogonal de $P$ respecto de $\triangle ABC$ es el ortocentro de $\triangle AP_bP_c$.
En la figura 7, muestra que el producto de los triángulos homotéticos es igual al cuadrado del área de $\triangle ABC$.

Entradas relacionadas

Ir a Geometría Moderna I.
Entrada anterior del curso: Circunferencias de Lemoine.
Siguiente entrada del curso: Puntos de Brocard.
Otros cursos.

Fuentes

Altshiller, N., College Geometry. New York: Dover, 2007, pp 267-273.
Andreescu, T., Korsky, S. y Pohoata, C., Lemmas in Olympiad Geometry. USA: XYZ Press, 2016, pp 95-108.
Lozanovski, S., A Beautiful Journey Through Olympiad Geometry. Version 1.4. 2020, pp 169-176.
Johnson, R., Advanced Euclidean Geometry. New York: Dover, 2007, pp 153-157.

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Probabilidad I: Valor Esperado de una Variable Aleatoria

Por Octavio Daniel Ríos García

Deja un comentario

Introducción

Una de las ideas de una medida de probabilidad era que cuantifica, entre el $0$ y el $1$, qué tan probable es que ocurra un evento. Por ello, si nosotros multiplicamos los valores que puede tomar una v.a. mediante su probabilidad de ocurrencia, y luego los sumamos, el resultado sería un promedio ponderado de los valores que puede tomar la v.a.; donde el criterio de ponderación es precisamente la probabilidad de ocurrencia. Aquellos resultados con mayor probabilidad pesan más en este «promedio ponderado».

En el caso de $X$ una v.a. discreta, la manera de obtener este promedio ponderado es directa, pues existen $x \in \RR$ tales que $\Prob{X = x} > 0$, así que la expresión resultante es una suma. Sin embargo, en el caso continuo, la idea se preserva, pero la definición es más sutil, pues cuando $X$ es una v.a. continua, $\Prob{X = x} = 0$ para cada $x \in \RR$.

Motivación para el caso discreto

Para empezar, vamos a definir el valor esperado de una v.a. discreta. En este caso, la noción de «promedio ponderado» ocurre naturalmente, pues una v.a. discreta puede tomar valores dentro de un conjunto a lo más infinito numerable.

Primero, vamos a dar la idea general. Cuando se nos dan $x_{1}$, …., $x_{n} \in \RR$ números reales, con $n \in \mathbb{N}^{+}$, el promedio (o la media aritmética) de estos valores es

\begin{align*} \tfrac{1}{n}x_{1} + \tfrac{1}{n}x_{2} + \cdots + \tfrac{1}{n}x_{n} = \frac{1}{n} \sum_{k=1}^{n} x_{n}. \end{align*}

La media aritmética nos ayuda a resumir ciertas nociones de un conjunto de números. Más precisamente, nos da una idea de dónde están centrados los elementos de ese conjunto. Esto pasa porque en la media aritmética, cada uno de los números pesa lo mismo, debido a que en la suma, todos tienen el mismo coeficiente: $\frac{1}{n}$.

Sin embargo, no necesariamente queremos que todos los valores tengan el mismo peso al tomar el promedio. Puede que existan razones para que queramos que cada uno contribuya de manera distinta a la media. Para generalizar la media aritmética, sean $p_{1}$, …, $p_{n} \in [0,1]$. El valor $p_{i}$ representa el peso asociado al valor $x_{i}$, que a grandes rasgos sería la importancia de $x_{i}$ en el contexto en el que se toma el promedio. De este modo, el promedio ponderado de los $x_{i}$ es

\begin{align*} p_{1} x_{1} + p_{2} x_{2} + \cdots + p_{n} x_{n} = \sum_{k=1}^{n} p_{k} x_{k} \end{align*}

Precisamente, en el contexto de la probabilidad, cada posible valor de la v.a. discreta tiene un peso asociado: ¡la probabilidad de que la v.a. tome ese valor! Como es de esperarse de una media o promedio, el valor esperado debería de expresar la tendencia central del comportamiento probabilístico de una variable aleatoria, y en efecto, se cumple esa idea porque el peso asociado a cada valor es su probabilidad de ocurrencia.

Definición del valor esperado en el caso discreto

De acuerdo con la motivación anterior, presentamos la definición del valor esperado de una v.a. discreta.

Definición. Sea $X\colon\Omega\to\RR$ una variable aleatoria discreta. Definimos el valor esperado de $X$ (o la esperanza de $X$) como

\begin{align*} \Esp{X} &= \sum_{\omega\in\Omega} X(\omega) \Prob{\{ \omega \}}, \end{align*}

siempre que esta suma sea absolutamente convergente. Es decir, si

\begin{align*} \sum_{\omega\in\Omega} {\left|X(\omega) \Prob{\{\omega\}}\right|} < \infty. \end{align*}

En caso de que la suma no sea convergente, se dice que el valor esperado de $X$ no está definido, o que es infinito.

La definición anterior va a ser de muchísima utilidad para algunas demostraciones, pero puede que no sea muy útil para hacer cálculos en casos concretos. Por ello, veamos una manera equivalente de definirla.

Para ello, como $X$ es una v.a. discreta, sea $\{ x_{k} \}_{k=1}^{\infty}$ el conjunto de valores que puede tomar $X$. Es decir, $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$. Ahora, observa que para cada $k \in \mathbb{N}^{+}$ se tiene que

\begin{align*} X(\omega) = x_{k} &\iff \omega \in X^{-1}[\{ x_{k} \}] \iff \omega \in (X = x_{k}). \end{align*}

En consecuencia, se tiene que

\begin{align*} \sum_{\omega \in (X = x_{k})} X(\omega) \Prob{\{\omega\}} &= \sum_{\omega \in (X = x_{k})} x_{k} \Prob{\{ \omega \}} \\[1em] &= x_{k} \sum_{\omega \in (X = x_{k})} \Prob{\{ \omega \}} \\[1em] &= x_{k} \Prob{X = x_{k}}.\end{align*}

De acuerdo con la definición de valor esperado, se tiene que

\begin{align*} \Esp{X} &= \sum_{\omega\in\Omega} X(\omega) \Prob{\{ \omega \}}. \end{align*}

Ahora, la suma anterior puede expresarse de manera diferente. Como $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$ y $\{ x_{k} \}_{k=1}^{\infty} = \bigcup_{k=1}^{\infty} \{ x_{k} \}$, se tiene que

\begin{align*} \Omega &= X^{-1}[X[\Omega]] \\[1em] &= X^{-1}{\left[ \bigcup_{k=1}^{\infty} \{x_{k}\} \right]} \\[1em] &= \bigcup_{k=1}^{\infty} X^{-1}[\{ x_{k} \}] \\[1em] &= \bigcup_{k=1}^{\infty}(X = x_{k}). \end{align*}

Así, podemos reacomodar la suma del valor esperado para obtener

\begin{align*} \sum_{\omega\in\Omega} X(\omega) \Prob{\{\omega\}} &= \sum_{k=1}^{\infty} \sum_{\omega\in (X = x_{k})} X(\omega) \Prob{\{\omega \}} \\[1em] &= \sum_{k=1}^{\infty} x_{k} \Prob{X = x_{k}}. \end{align*}

En conclusión, obtenemos que si $X$ es una v.a. discreta que toma valores en el conjunto $\{ x_{k} \}_{k=1}^{\infty}$, entonces el valor esperado de $X$ es

\begin{align*} \Esp{X} = \sum_{k=1}^{\infty} x_{k} \mathbb{P}{\left(X = x_{k}\right)}.\end{align*}

Finalmente, recordando que $X[\Omega] = \{ x_{k} \}_{k=1}^{\infty}$, lo anterior nos queda como

\begin{align*} \Esp{X} = \sum_{x \in X[\Omega]} x \Prob{X = x}.\end{align*}

que nos da una expresión alternativa para el valor esperado de una v.a. discreta.

Definición (Alternativa). Sea $X$ una v.a. discreta. Definimos el valor esperado de $X$ (o esperanza de $X$) como

\begin{align*} \Esp{X} = \sum_{x \in X[\Omega]} x \Prob{X = x}, \end{align*}

siempre que la suma anterior sea absolutamente convergente. Es decir,

\begin{align*} \sum_{x\in X[\Omega]} {\left|x \Prob{X = x} \right|} < \infty. \end{align*}

En caso de que la suma no no sea convergente, se dice que el valor esperado de $X$ no está definido, o que es infinito.

Ejemplo 1. Una v.a. discreta no necesariamente toma su valor esperado. Esto choca un poco con el término «valor esperado», pues al ser el valor «esperado» de la v.a., tendría sentido que sea alguno de los valores que puede tomar. Sea $X\colon\Omega\to\RR$ una v.a. con función de masa de probabilidad $p_{X}\colon\RR\to\RR$ dada por

\begin{align*} p_{X}(x) &= \begin{cases} \dfrac{1}{2} & \text{si $x \in \{ 0, 1\}$}, \\[1em] 0 &\text{en otro caso}. \end{cases} \end{align*}

De este modo, el conjunto de valores que puede tomar $X$ es $\{0, 1\}$. Es decir, $X[\Omega] = \{0,1\}$. Ahora obtengamos $\Esp{X}$,

\begin{align*} \Esp{X} &= 0 \cdot \Prob{X = 0} + 1 \cdot \Prob{X = 1} = 1 \cdot \Prob{X = 1} = 1 \cdot \frac{1}{2} = \frac{1}{2}. \end{align*}

Es decir, $\Esp{X} = \frac{1}{2}$: el «valor esperado» de $X$ es $\frac{1}{2}$… sin embargo, $\frac{1}{2}$, y $\frac{1}{2} \notin X[\Omega]$, por lo que de ninguna manera se esperaría que $X$ tome el valor $\frac{1}{2}$.

Sin embargo, si repitiéramos muchas veces a la v.a. $X$, el centroide (la media aritmética) de los valores observados en esas repeticiones se acercará cada vez más a $\Esp{X}$. Eso es algo que mostramos (sin muchos detalles) en la entrada del enfoque frecuentista. Es por esto que dijimos que el valor esperado de $X$ expresa la tendencia central del comportamiento probabilístico de $X$, pero no debe de pensarse como el valor a «esperar» cuando se observe $X$. Más adelante demostraremos formalmente las ideas de este ejemplo.

Ejemplo 1. Hay v.a.’s discretas que toman valores dentro de $\mathbb{N}$, por lo que su valor esperado es una serie. Sea $Y$ una v.a. con función de masa de probabilidad $p_{Y}\colon\RR\to\RR$ dada por

\begin{align*} p_{Y}(y) &= \begin{cases} (1 − p)^{y}p & \text{si $y\in\mathbb{N}$,} \\[1em] 0 & \text{en otro caso,}\end{cases} \end{align*}

donde $p \in (0,1)$. Procedamos a calcular el valor esperado de $Y$. Por definición, sabemos que

\begin{align*} \Esp{Y} &= \sum_{y\in Y[\Omega]} y \Prob{Y = y} \\[1em] &= \sum_{y\in\mathbb{N}} y \Prob{Y = y} \\[1em] &= \sum_{y=0}^{\infty} y\Prob{Y = y} \\[1em] &= \sum_{y=0}^{\infty} y (1 − p)^{y} p. \end{align*}

Ahora, como el índice $y$ comienza en $0$, el primer término de la serie es $0 \cdot (1 − p)^{0}p = 0$, por lo que podemos empezar la serie en $1$. Así,

\begin{align} \label{eq:serie}\Esp{Y} &= \sum_{y=1}^{\infty} y(1 − p)^{y}p = p\sum_{y=1}^{\infty} y(1 − p)^{y}. \end{align}

Lo que haremos será reacomodar la serie \eqref{eq:serie} de manera conveniente para poder obtener su valor. Sin embargo, para hacer posible el reacomodo es necesario verificar que la serie es convergente. Para ello, podemos utilizar el criterio del cociente de d’Alembert. Para cada $n\in\mathbb{N}^{+}$, sea $a_{n} = n(1 − p)^{n}$. Es decir, $a_{n}$ es el $n$-ésimo término de la serie. El criterio de d’Alembert nos dice que si

\begin{align*} \lim_{n\to\infty} \left| \frac{a_{n+1}}{a_{n}} \right| = r \end{align*}

con $r < 1$, entonces la serie $\sum_{n=1}^{\infty} a_{n}$ es absolutamente convergente. Primero desarrollaremos la expresión $\left|\frac{a_{n+1}}{a_{n}}\right|$:

\begin{align*} \left| \frac{a_{n+1}}{a_{n}} \right| &= \left| \frac{(n+1)(1 − p)^{n+1}}{n(1 − p)^{n}} \right|. \end{align*}

Observa que en la expresión de la derecha tenemos $(1 − p)^{n+1}$ en el numerador, y $(1 − p)^{n}$ en el denominador, por lo que

\begin{align*} \left| \frac{(n+1)(1 − p)^{n+1}}{n(1 − p)^{n}} \right| &= \left| \frac{(n+1)(1 − p)^{n+1 − n}}{n} \right| \\[1em] &= \left| \frac{(n+1)(1 − p)}{n} \right|. \end{align*}

Además, $1 − p > 0$, ya que $p \in (0,1)$, y también se cumple que $n > 0$, $n + 1 > 0$, por lo que

\begin{align*} \left| \frac{(n+1)(1− p)}{n} \right| &= \frac{(n+1)(1− p)}{n}, \end{align*}

y podemos seguir desarrollando esta última expresión:

\begin{align*} \frac{(n+1)(1− p)}{n} &= (1 − p){\left(\frac{n+1}{n}\right)} \\[1em] &= (1 − p){\left(1 + \frac{1}{n} \right)}. \end{align*}

En consecuencia, el límite del criterio de d’Alembert nos queda

\begin{align*} \lim_{n\to\infty} \left| \frac{a_{n+1}}{a_{n}} \right| &= \lim_{n\to\infty} (1 − p){\left(1 + \frac{1}{n} \right)} \\[1em] &= (1 − p) \lim_{n\to\infty} {\left(1 + \frac{1}{n} \right)} \\[1em] (1 − p), \end{align*}

así que $r = 1 − p$, y como $p \in (0,1)$, se tiene que $ 1 − p < 1$. En conclusión, queda demostrado que la serie \eqref{eq:serie} es absolutamente convergente. Por ello, podemos reacomodar los términos de maneras distintas. En particular, observa que la serie en \eqref{eq:serie} (sin modificar) tiene la siguiente forma:

\begin{align*} \sum_{y=1}^{\infty} y(1 − p)^{y} = (1 − p) + 2 (1 − p)^{2} + 3 (1 − p)^{3} + 4(1 − p)^{4} + \cdots \end{align*}

Sin embargo, podemos ver la progresión anterior como

\begin{alignat*}{7} (1 − p) + 2 (1 − p)^{2} + 3 (1 − p)^{3} + 4(1 − p)^{4} + \cdots &{}={}& (1 − p) & + (1 − p)^{2} & + (1 − p)^{3} & + (1 − p) ^{4} & + \cdots \\[1em] & & & + (1 − p)^{2} & + (1 − p)^{3} & + (1 − p)^{4} &+ \cdots \\[1em] & & & & (1 − p)^{3} & + (1 − p) ^{4} & + \cdots \\[1em] & & & & & + (1 − p) ^{4} & + \cdots \\[1em] & & & & & \vdots & , \end{alignat*}

y así sucesivamente. Entonces la serie de \eqref{eq:serie} puede reacomodarse como una «serie de series», en el sentido de que podemos reacomodarla como una serie cuyos términos son series:

\begin{align}\label{eq:reacom} p\sum_{y=1}^{\infty} y(1 − p)^{y} &= p\sum_{y=1}^{\infty} \sum_{x=y}^{\infty} (1 − p)^{x}. \end{align}

Ahora, las series «dentro» de la otra serie comienzan en el índice $y$, por lo que las series de la forma $\sum_{x=y}^{\infty}(1 − p)^{x}$ pueden reescribirse como

\begin{align} \label{eq:moral1} \sum_{x=y}^{\infty}(1 − p)^{x} &= \sum_{x=0}^{\infty}(1 − p)^{x+y},\end{align}

pues observa que los términos no se ven afectados. Escribe los primeros términos de ambas series, y observa cómo coinciden. Como $y$ es un valor constante con respecto al índice $x$, se tiene que

\begin{align*} \sum_{x=0}^{\infty}(1 − p)^{x+y} &= (1 − p)^{y}\sum_{x=0}^{\infty} (1 − p) ^{x} = (1 − p)^{y} {\left(\frac{1}{1 − (1 − p)}\right)} = \frac{(1 − p)^{y}}{p}. \end{align*}

En los últimos pasos del desarrollo anterior usamos que la serie es una serie geométrica. Volviendo a \eqref{eq:reacom}, vemos que

\begin{align*} p\sum_{y=1}^{\infty} y(1 − p)^{y} &= p\sum_{y=1}^{\infty} \sum_{x=y}^{\infty} (1 − p)^{x} \\[1em] &= p\sum_{y=1}^{\infty} \frac{(1 − p)^{y}}{p} \\[1em] &= \sum_{y=1}^{\infty} (1 − p)^{y}, \end{align*}

que también es una serie geométrica, que empieza en $1$. El valor de esta serie es

\begin{align} \label{eq:moral2} \sum_{y=1}^{\infty} (1 − p)^{y} &= \frac{ 1 − p }{1 − (1 − p) } = \frac{1 − p}{p}, \end{align}

así que podemos concluir que el valor esperado de $Y$ es

\begin{align*} \Esp{Y} &= \frac{1 − p}{p}. \end{align*}

¿Podemos hacer lo mismo para las v.a.’s continuas?

Hay dos motivos por los que el valor esperado de una v.a. continua difiere del de una v.a. discreta. El primero es que si replicamos la idea para una v.a. discreta, la suma resultante para una v.a. continua $X$ es

\begin{align*} \sum_{x \in X[\Omega]} x \Prob{X = x}, \end{align*}

que es una suma con una cantidad infinita no numerable de términos, pues $X$ es una v.a. continua. Sin embargo, ese no es el único problema: como $X$ es una v.a. continua, entonces para cada $x \in \RR$ se tiene que $\Prob{X = x} = 0$, por lo que la suma anterior sería $0$ de cualquier manera.

Por ello, debemos de retomar el método para el cálculo de probabilidades en el caso de una v.a. continua. Esto es, si $X$ es una v.a. continua, entonces para $a$, $b \in \RR$ tales que $a < b$ se tiene que

\begin{align*} \Prob{X \in (a, b]} = \int_{a}^{b} f_{X}(x) \, \mathrm{d}x \end{align*}

donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$. Integrar la función de densidad de $X$ sobre el intervalo $(a,b]$ nos da como resultado la probabilidad de que $X$ esté dentro de $(a,b]$. Por ello, para $\varepsilon > 0$ tal que $\varepsilon$ es cercano a $0$, y para $x \in \RR$, se tiene que

\begin{align*} \Prob{X \in {\left(x − \tfrac{\varepsilon}{2}, x + \tfrac{\varepsilon}{2} \right]} } = \int_{x − \varepsilon/2}^{x + \varepsilon/2} f_{X}(t) \, \mathrm{d}t \approx \varepsilon f_{X}(x). \end{align*}

Esto obedece a que si $\varepsilon$ es muy cercano a $0$, entonces el valor de la integral sobre el intervalo ${\left(x − \tfrac{\varepsilon}{2}, x + \tfrac{\varepsilon}{2} \right]}$ será muy parecido al área del rectángulo cuya base es ese mismo intervalo y que tiene altura igual a $f_{X}(x)$.

Lo anterior quiere decir que la probabilidad de que $X$ se encuentre dentro de una vecindad de diámetro $\varepsilon > 0$ centrada en $x$ es muy parecida a $\varepsilon f_{X}(x)$ cuando $\varepsilon$ es un valor muy pequeño.

Las ideas anteriores son importantes, pues nos dicen que aunque $f_{X}(x)$ no es la probabilidad de que $X$ tome el valor $x$, sí guarda cierta relación con la probabilidad de que $X$ se encuentre muy cerca de $x$. De hecho, la discusión anterior (junto con la motivación de la integral de Riemann) nos dice que integrar

\begin{align*} \int_{a}^{b} f_{X}(t) \, \mathrm{d}t \end{align*}

es como «sumar» las probabilidades de estar muy cerca de cada uno de los puntos en $(a, b]$, de la manera más refinada posible. Por ello, si tomamos la integral

\begin{align*} \int_{a}^{b} t f_{X}(t) \, \mathrm{d}t, \end{align*}

este valor será como «sumar» todos los valores en $(a, b]$ ponderados por la probabilidad de estar muy cerca de cada uno de ellos. ¡Esa es justamente la idea del valor esperado! Con esto ya estamos listos para definir el valor esperado de una v.a. continua.

Definición del valor esperado en el caso continuo

Al final de la discusión anterior llegamos a una expresión que captura la misma idea de un promedio ponderado, pero para el caso continuo. Es decir, la idea es la misma que en el caso de una v.a. discreta, pero en vez de sumar, tomamos una integral. Además, para obtener el valor esperado de una v.a. continua será necesario tomar la integral sobre todo $\RR$. Esto da pie a la definición que presentamos a continuación.

Definición. Sea $X\colon\Omega\to\RR$ una variable aleatoria continua. Definimos el valor esperado de $X$ (o la esperanza de $X$) como

\begin{align*} \Esp{X} &= \int_{-\infty}^{\infty} x f_{X}(x) \, \mathrm{d}x, \end{align*}

siempre que esta integral sea absolutamente convergente. Esto es,

\begin{align*} \int_{-\infty}^{\infty} {\left|x f_{X}(x) \right|} \, \mathrm{d}x < \infty, \end{align*}

donde $f_{X}\colon\RR\to\RR$ es la función de densidad de $X$. En caso de que la integral no sea absolutamente convergente, se dice que el valor esperado de $X$ no está definido, o que es infinito.

En este caso no tenemos una versión formal como la primera que dimos del valor esperado de una v.a. discreta. Para la construcción de una definición así es necesario contar con una herramienta que no hemos construido en este curso, y es probable que no conozcas: la integral de Lebesgue. Por ello, algunas propiedades del valor esperado en el caso continuo serán más complicadas de demostrar. No obstante, la definición que hemos dado es suficiente para calcular el valor esperado de cualquier v.a. continua que se te ocurra.

Ejemplo 2. Como el valor esperado de una v.a. continua está dado por una integral, es recomendable que recuerdes los métodos de integración que viste en tu curso de Cálculo Diferencial e Integral II. Si lo necesitas, puedes hacer click aquí para consultar nuestras notas de esa materia.

Sea $Z$ una v.a. continua con distribución exponencial con parámetro $\lambda > 0$. Es decir, $Z$ tiene función de densidad $f_{Z}\colon\RR\to\RR$ dada por

\begin{align*} f_{Z}(z) = \begin{cases} \lambda e^{-\lambda z} & \text{si $z \geq 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Veamos cuál es el valor esperado de $Z$. Para ello, primero observa que como $f_{Z}(z) = 0$ para cada $z < 0$, se tiene que

\begin{align*} \Esp{Z} = \int_{-\infty}^{\infty} z f_{Z}(z) \, \mathrm{d}z = \int_{0}^{\infty} z f_{Z}(z) \, \mathrm{d}z. \end{align*}

Esto es algo que siempre hay que revisar al momento de calcular el valor esperado de una v.a. continua: la integral se reduce al subconjunto de $\RR$ sobre el que la función de densidad es mayor a $0$.

De este modo, tenemos que

\begin{align*} \Esp{Z} &= \int_{0}^{\infty} z {\left( \lambda e^{-\lambda z} \right)} \, \mathrm{d}z, \end{align*}

que es una integral que podemos resolver mediante el método de integración por partes. Para ello, sea $u = z$ y $dv = \lambda e^{-\lambda z}$. De este modo, tendremos que $v = -e^{-\lambda z}$ y $du = dz$, así que

\begin{align*} \int_{0}^{\infty} z {\left( \lambda e^{-\lambda z} \right)} \, \mathrm{d}z &= {\left( -z e^{-\lambda z} \right)} \Big|_{0}^{\infty} + \int_{0}^{\infty} e^{-\lambda z} \, \mathrm{d} z \\[1em] &= {\left[ 0 \cdot e^{-\lambda \cdot 0} − \lim_{z\to\infty} z e^{-\lambda z} \right]} + \frac{1}{\lambda}\int_{0}^{\infty} \lambda e^{-\lambda z} \\[1em] &= {\left[ 0 − \lim_{z\to\infty} \frac{z}{e^{\lambda z}} \right]} + \frac{1}{\lambda} {\left( − e^{-\lambda z} \right)}\Big|_{0}^{\infty} \\[1em] &= {\left[ 0 − 0 \right]} + \frac{1}{\lambda}{\left[ e^{-\lambda \cdot 0} − \lim_{z\to\infty} e^{-\lambda z}\right]} \\[1em] &= \frac{1}{\lambda}{\left[ 1 − 0 \right]} \\[1em] &= \frac{1}{\lambda}.\end{align*}

Por lo tanto, se concluye que

\begin{align*} \Esp{Z} = \frac{1}{\lambda}. \end{align*}

Es decir, el valor esperado de una v.a. con distribución exponencial de parámetro $\lambda$ es $\frac{1}{\lambda}$.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

Verifica que la identidad \eqref{eq:moral1} es verdadera. Sugerencia: Escribe los primeros términos de ambas series, y observa que coinciden.
Dados $r \in (0,1)$ y $a \in \RR$, conocemos el valor de la serie geométrica con coeficiente $a$ y razón $r$:\begin{align*}\sum_{n=0}^{\infty} ar^{n} = \frac{a}{1 − r},\end{align*} donde es importante notar que la serie empieza en $0$. No obstante, en \eqref{eq:moral2} nosotros usamos el valor de una serie geométrica que empieza en $1$. ¿Cómo le haces para pasar de la versión que empieza en $0$ a la versión que empieza en $1$?
Sean $a$, $b \in \RR$ tales que $a < b$. Una v.a. con distribución uniforme sobre el intervalo $[a,b]$ es una v.a. $U$ con función de densidad $f_{U}\colon\RR\to\RR$ dada por\[ f_{U}(u) = \begin{cases} \dfrac{1}{b − a} & \text{si $u \in [a,b]$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \]¿Cuál es el valor esperado de $U$?

Más adelante…

El valor esperado (o esperanza) es un valor importante que intenta resumir una parte del comportamiento probabilístico de una v.a. Por ello, su uso es muy común en contextos aplicados en los que se busca analizar cuantitativamente un fenómeno aleatorio, como la inferencia estadística (y sus ramas).

En la siguiente entrada comenzaremos el estudio de algunas propiedades importantes del valor esperado.

Entradas relacionadas

Ir a Probabilidad I
Entrada anterior del curso: Transformaciones de V.A.’s Continuas
Siguiente entrada del curso: Propiedades del Valor Esperado

Probabilidad I: Transformaciones de V.A.’s Continuas

Por Octavio Daniel Ríos García

Deja un comentario

Introducción

En la entrada pasada comenzamos a abordar el problema de encontrar la distribución de la transformación de una v.a. conocida. En particular, analizamos un método para el caso en el que la v.a. conocida es discreta, y sólamente para ese caso. No obstante, este método nos servirá como «base» para dar paso al caso continuo. Primero presentaremos un método que consiste en manipular directamente la función de distribución; muy parecido al método que vimos en la entrada pasada. Después, analizaremos un método más especializado que permite encontrar la función de densidad de la transformación de una v.a. sin necesidad de manipular la función de distribución.

Motivación del primer método

Sea $X$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible. En la entrada pasada ya describimos el proceso para obtener los eventos de $g(X)$ en términos de eventos que involucran a $X$. De hecho, vimos que para cada $A \in \mathscr{B}(\RR)$ se cumple que

\begin{align*} (g(X) \in A) = (X \in g^{-1}[A]). \end{align*}

¡Atención! En la entrada pasada centramos nuestra atención en las v.a.’s discretas, pero la igualdad anterior es cierta para cualquier variable aleatoria. Por ello, también aplica para las v.a.’s continuas. En particular, para cada $y \in \RR$ se cumple que $(-\infty, y] \in \mathscr{B}(\RR)$, por lo que

\begin{align*} {\left(g(X) \leq y\right)} = \left(g(X) \in (-\infty, y]\right) = {\left(X \in g^{-1}[(-\infty, y]]\right)}. \end{align*}

Por lo tanto, se tiene que

\begin{align*} \Prob{g(X) \leq y} = \Prob{X \in g^{-1}[(-\infty, y]]}. \end{align*}

Es decir, si definimos a $Y = g(X)$ y $F_{Y}\colon\RR\to\RR$ es la función de distribución de $Y$, entonces lo anterior quiere decir que para cada $y \in \RR$,

\begin{align*} F_{Y}(y) = \Prob{X \in g^{-1}[(-\infty, y]]}; \end{align*}

por lo que es posible obtener la distribución de $Y$ en términos de la probabilidad de un evento que involura a $X$, cuya distribución sí conocemos.

Primer método: manipular la función de distribución

Con la discusión anterior llegamos a que si $X$ es una v.a. (cuya distribución es conocida), $g\colon\RR\to\RR$ es una función Borel-medible, y $Y$ es la v.a. definida como $Y = g(X)$, entonces la función de distribución de $Y$, $F_{Y}\colon\RR\to\RR$, puede obtenerse como

\begin{align*} F_{Y}(y) &= \Prob{X \in g^{-1}[(-\infty, y]]} & \text{para cada $y \in \RR$.} \end{align*}

Por ello, el problema consistirá en encontrar el conjunto $g^{-1}[(-\infty, y]]$, y así encontrar la probabilidad de ${\left(X \in g^{-1}[(-\infty, y]]\right)}$.

Ejemplo 1. Sea $X$ una v.a. con función de densidad $f_{X}\colon\RR\to\RR$ dada por

\begin{align*} f_{X}(x) &= \frac{1}{2}e^{-{\left| x \right|}}, & \text{para cada $x \in \RR$}. \end{align*}

Una v.a. con esta función de densidad es conocida como una v.a. con distribución Laplace, o distribución doble exponencial. Su función de distribución $F_{X}\colon\RR\to\RR$ está dada por

\begin{align*} F_{X}(x) &= \begin{cases} \dfrac{1}{2}e^{x} & \text{si $x < 0$}, \\[1em] 1 − \dfrac{1}{2} e^{-x} & \text{si $x \geq 0$}. \end{cases}\end{align*}

Sea $g\colon\RR\to\RR$ la función dada por $g(x) = |x|$ para cada $x \in \RR$. De este modo, defínase $Y = g(X) = {\left| X \right|}$. Para obtener la función de distribución $Y$, podemos seguir un método similar al que usamos en la entrada anterior. Sea $y \in \RR$. Un primer detalle que podemos observar sobre $Y$ es que no toma valores negativos. Por ello, si $y < 0$, se tiene que $(Y \leq y) = \emptyset$, y en consecuencia, $\Prob{Y \leq y} = 0$ para $y < 0$. Por otro lado, para $y \geq 0$ se tiene que que

\begin{align*} \omega \in (Y \leq y) &\iff Y(\omega) \leq y \\[1em] &\iff |X(\omega)| \leq y \\[1em] &\iff -y \leq X(\omega) \leq y \\[1em] &\iff \omega \in ( -y \leq X \leq y ), \end{align*}

por lo que para cada $y \geq 0$ se tiene que $(Y \leq y) = (-y \leq X \leq y)$. Como esos dos eventos son iguales, se sigue que $\Prob{Y \leq y} = \Prob{ -y \leq X \leq y}$. , por lo queAdemás, nota que

\begin{align*} \Prob{-y \leq X \leq y} &= \Prob{X \leq y} − \Prob{X < -y} \\[1em] &= \Prob{X \leq y} − \Prob{X \leq -y} \tag{$*$} \\[1em] &= F_{X}(y) − F_{X}(-y), \end{align*}

donde el paso $(*)$ es válido debido a que $X$ es una v.a. continua. Por ello, podemos concluir que para cada $y \geq 0$,

\begin{align*} F_{Y}(y) = F_{X}(y) − F_{X}(−y). \end{align*}

Por lo tanto, la función de distribución de $Y$ queda como sigue:

\begin{align*} F_{Y}(y) &= \begin{cases} 0 & \text{si $y < 0$}, \\[1em] F_{X}(y) − F_{X}(-y) & \text{si $y \geq 0$}. \end{cases} \end{align*}

De aquí podemos obtener una expresión explícita. Para cada $y \geq 0$ se tiene que $-y \leq 0$, así que

\begin{align*} F_{X}(y) − F_{X}(-y) &= {\left(1 − \frac{1}{2}e^{-y}\right)} − \frac{1}{2}e^{-y} \\[1em] &= 1 − \frac{1}{2}e^{-y} − \frac{1}{2}e^{-y} \\[1em] &= 1 − e^{-y}. \end{align*}

En conclusión, la función de distribución de $Y$ queda así:

\begin{align*} F_{Y}(y) &= \begin{cases} 0 & \text{si $y < 0$}, \\[1em] 1 − e^{-y} & \text{si $y \geq 0$}. \end{cases} \end{align*}

Probablemente te resulte familiar: ¡Es la función de distribución de una v.a. exponencial! Este ejemplo exhibe que algunas transformaciones de algunas v.a.’s «famosas» resultan en otras v.a.’s «famosas». En este caso, vimos que si $X$ es una v.a. que sigue una distribución Laplace, entonces $|X|$ sigue una distribución exponencial. Más adelante veremos muchas más distribuciones importantes, y veremos cómo se relacionan entre sí mediante transformaciones.

Segundo método: teorema de cambio de variable

Existe un método más especializado para obtener la función de densidad de la transformación de una v.a. continua. La razón por la que decimos que es más especializado es porque funciona para transformaciones que cumplen ciertas condiciones.

Teorema. Sea $X\colon\Omega\to\RR$ una v.a. continua con función de densidad $f_{X}\colon\RR\to\RR$, y sea $g\colon X[\Omega]\to\RR$ una función diferenciable y estrictamente creciente o decreciente. Entonces la función de densidad de $Y = g(X)$ está dada por

\begin{align*} f_{Y}(y) &= \begin{cases} f_{X}{\left( g^{-1}(y) \right)} {\left| \dfrac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|} & \text{si $y \in (g \circ X )[ \Omega ]$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}

donde $g^{-1}\colon g[\RR] \to\RR$ es la inversa de $g$, y $(g \circ X )[ \Omega ]$ es la imagen directa de $\Omega$ bajo $g \circ X$. Esto es, $(g \circ X) [ \Omega ] = \{\, y \in \RR \mid \exists \omega \in \Omega : (g \circ X )(\omega) = y \,\}$, que corresponde al conjunto de valores que toma la v.a. $Y = g(X)$.

Demostración. Demostraremos el caso en el que $g$ es estrictamente creciente. Para ello, sea $y \in \RR$. Primero, recuerda que

\begin{align*} (Y \leq y) &= (X \leq g^{-1}[(-\infty,y]]). \end{align*}

Por un lado, se tiene el caso en el que $y \in (g \circ X)[\Omega]$; es decir, $y$ es uno de los valores que toma la v.a. $Y$ (pues $(g \circ X)[\Omega] = Y[\Omega]$). En este caso, el valor $g^{-1}(y)$ está bien definido, ya que $g^{-1}\colon (g \circ X)[\Omega]\to\RR$ es una función cuyo dominio es la imagen de $g$. De este modo, para cada $\omega\in\Omega$ tendremos que

\begin{align*} Y(\omega) \leq y &\iff X(\omega) \leq g^{-1}(y). \tag{$*$} \end{align*}

Como $g$ es una función estrictamente creciente, su inversa $g^{-1}\colon (g \circ X)[\Omega]\to\RR$ también es estrictamente creciente, y por lo tanto, la desigualdad en $(*)$ «no se voltea».

De lo anterior se sigue que $\Prob{Y \leq y} = \Prob{X \leq g^{-1}(y)}$ para cada $y \in (g \circ X)[\Omega]$. En consecuencia, se tiene que

\begin{align*} F_{Y}(y) = F_{X}(g^{-1}(y)). \end{align*}

Podemos diferenciar ambos lados de la igualdad respecto a $y$, y por la regla de la cadena obtenemos

\begin{align*} f_{Y}(y) &= f_{X}{\left( g^{-1}(y) \right)} \frac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \\[1em] &= f_{X}{\left( g^{-1}(y) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} y} {\left[ g^{-1}(y) \right]} \right|}, \end{align*}

donde el último paso se obtiene de que $g^{-1}$ es estrictamente creciente, y por lo tanto, su derivada es positiva.

Por otro lado, resta el caso en el que $y \notin (g \circ X)[\Omega]$; es decir, cuando $y$ no es uno de los valores que puede tomar $Y$. En este caso, simplemente $f_{Y}$ vale $0$, pues la densidad de una v.a. continua es $0$ en aquellos valores que no toma. De este modo, $Y$ tiene densidad $f_{Y}\colon\RR\to\RR$ dada por

que es justamente lo que queríamos demostrar.

El caso para $g$ estrictamente decreciente es casi análogo, por lo que te lo dejamos de tarea moral.

$\square$

Es importante notar que el teorema anterior no funciona para cualquier $g\colon\RR\to\RR$ Borel-medible, sólamente para aquellas que cumplen las hipótesis del teorema. Bajo estas hipótesis, el teorema permite obtener la densidad de la transformación de una v.a. de manera más eficiente que los otros métodos que hemos abordado.

Ejemplo 2. Sea $Z$ una v.a. con densidad $f_{Z}\colon\RR\to\RR$ dada por

\begin{align*} f_{Z}(z) &= \frac{1}{\sqrt{2\pi}} e^{-z^{2} / 2}, & \text{para cada $z \in \RR$}.\end{align*}

Se dice que una v.a. con esa función de densidad sigue una distribución normal estándar. Observa que $f_{Z}(z) > 0$ para todo $z \in \RR$, por lo que $Z[\Omega] = \RR$. Es decir, $Z$ puede tomar cualquier valor en $\RR$.

Sea $W = e^{Z}$. La función $\exp\colon\RR\to\RR^{+}$ dada por $\exp(x) = e^{x}$ es estrictamente creciente y diferenciable, por lo que podemos usar el teorema anterior para obtener la función de densidad de $W$. Así, tenemos que

\begin{align*} f_{W}(w) = f_{Z}{ \left(\exp^{-1}(w) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} w} {\left[ \exp^{-1}(w) \right]} \right|}, \end{align*}

donde $\exp^{-1}\colon\RR^{+}\to\RR$ es la inversa de la función exponencial $\exp$. De hecho, la inversa de $\exp$ es la función $\ln\colon\RR^{+}\to\RR$, el logaritmo natural. Ahora, como $Z[\Omega] = \RR$, se tiene que $(\exp{} \circ Z)[\Omega] = \RR^{+}$, pues la función $\exp{}$ toma únicamente valores positivos.

En consecuencia, para $w \in \RR^{+}$ se tiene

\begin{align*} f_{W}(w) &= f_{Z}{ \left(\ln(w) \right)} {\left| \frac{\mathrm{d}}{\mathrm{d} w} {\left[ \ln(w) \right]} \right|} \\[1em] &= f_{Z}{ \left(\ln(w) \right)} {\left| \frac{1}{w} \right|} \\[1em] &= \frac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \frac{(\ln(w))^{2}}{2}\right) }\end{align*}

y así, tenemos que $W$ tiene densidad $f_{W}\colon\RR\to\RR$ dada por

\begin{align*} f_{W}(w) &= \begin{cases} \dfrac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \dfrac{(\ln(w))^{2}}{2}\right) } & \text{si $w > 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Como nota adicional, $f_{W}$ es la densidad de una v.a. cuya distribución es conocida como log-normal.

Para concluir, es importante mencionar que la transformación $g$ del teorema sólamente necesita ser diferenciable y estrictamente creciente sobre $X[\Omega]$ (por eso es que en el enunciado la pusimos como $g\colon X[\Omega] \to \RR$). Por ejemplo, la función $g\colon\RR^{+}\cup\{0\}\to\RR$ dada por $g(x) = x^{2}$ es una función creciente sobre su dominio. Por ello, si $X$ es una v.a. continua que toma únicamente valores no-negativos, entonces puede aplicarse el teorema para obtener la densidad de $g(X)$. En resumidas cuentas, el teorema puede aplicarse siempre y cuando la transformación $g$ sea diferenciable y estrictamente creciente sobre el conjunto de valores que puede tomar $X$.

Tarea moral

Verifica que la función de distribución de la v.a. $X$ del Ejemplo 1 es la función que te dimos. Es decir, obtén la función de distribución de $X$ a partir de su función de densidad.
Demuestra el caso en el que $g$ es estrictamente decreciente del teorema de cambio de variable.
Retoma el segundo Ejemplo 2, pero esta vez comienza con la v.a. $W$, cuya función de densidad es \begin{align*} f_{W}(w) &= \begin{cases} \dfrac{1}{w \sqrt{2\pi}} \mathrm{exp} { \left( − \dfrac{(\ln(w))^{2}}{2}\right) } & \text{si $w > 0$}, \\[1em] 0 & \text{en otro caso}, \end{cases} \end{align*}y encuentra la función de densidad de $Z = \ln(W)$ usando el teorema.

Más adelante…

El teorema de esta entrada es muy útil para obtener la densidad (y, en consecuencia, la distribución) de muchas transformaciones de v.a.’s continuas. Por ello, nos será de utilidad en el futuro relativamente cercano, cuando veamos las distribuciones de probabilidad más conocidas. Por otro lado, te será de utilidad mucho más adelante en materias posteriores, pues este teorema puede generalizarse al caso en el que la transformación tiene como dominio a $\RR^{n}$ y como codominio a $\RR$ con $n \in \mathbb{N}^{+}$ y $n \geq 2$ (por ejemplo, $g\colon\RR^{2}\to\RR$ dada por $g(x, y) = x + y$).

En la siguiente entrada comenzaremos el estudio de un concepto asociado a las v.a.’s llamado el valor esperado de una variable aleatoria.

Entradas relacionadas

Ir a Probabilidad I
Entrada anterior del curso: Transformaciones de Variables Aleatorias
Siguiente entrada del curso: Valor Esperado de una Variable Aleatoria

Probabilidad I: Transformaciones de Variables Aleatorias

Por Octavio Daniel Ríos García

Deja un comentario

Introducción

En la entrada pasada vimos el último tipo importante de v.a. que veremos, por ahora: las v.a.’s mixtas. En particular, vimos una manera de construir v.a.’s mixtas siguiendo un método muy sencillo: evaluando el $\max$ y el $\min$ en alguna v.a. continua. Esto puede pensarse como «transformar» la v.a. continua dada mediante las funciones $\max$ y $\min$. No sólamente la transformación fue posible, sino que además la función resultante es una v.a., y obtuvimos su función de distribución. Este proceso puede generalizarse para obtener la distribución de muchas más funciones de v.a.’s continuas.

Composición de funciones y variables aleatorias

Una de las cosas que hicimos en la entrada pasada fue ver que, dada una v.a. continua $X$, podíamos obtener v.a.’s mixtas a partir de $X$. Vamos a refinar un poco lo que hicimos en la entrada pasada. Sea $c\in\RR$, y sea $\mathrm{max}_{c}\colon\RR\to\RR$ la función dada por

\begin{align*} \mathrm{max}_{c}(x) &= \max{\left\lbrace x, c \right\rbrace}, & \text{para cada $x\in\RR$.} \end{align*}

De este modo, definimos una v.a. nueva $U$ como $U = \mathrm{max}_{c}(X)$. Sin embargo, ¿qué es exactamente «$\mathrm{max}_{c}(X)$»? Sabemos que $X$ es una «variable aleatoria», lo que significa que $U$ es como «evaluar» una función en una variable aleatoria. No obstante, esto no es otra cosa que… ¡una composición de funciones! Como recordatorio de Álgebra Superior I, dadas funciones $f\colon A\to B$, $g\colon B\to C$, la composición $g \circ f \colon A \to C$, llamada $f$ seguida de $g$, se define como

\begin{align*} g \circ f (x) &= g(f(x)), & \text{para cada $x\in A$.} \end{align*}

Recordando la definición de variable aleatoria, cuando tenemos un espacio de probabilidad $(\Omega, \mathscr{F}, \mathbb{P})$ sabemos que una función $X\colon\Omega\to\RR$ es una variable aleatoria si satisface una condición de «medibilidad», que dimos hace unas entradas. De momento, lo que más nos importa es que una v.a. es una función. En consecuencia, la v.a. $U$ que definimos no es otra cosa que $\mathrm{max}_{c} \circ X\colon\Omega\to\RR$, dada por

\begin{align*} \mathrm{max}_{c} \circ X (\omega) &= \max{\{ X(\omega), c \}}, & \text{para cada $x \in \Omega$}, \end{align*}

que es justamente como la definimos en la entrada anterior a esta. Ahora bien, dadas una v.a. $X\colon\Omega\to\RR$ y una función $g\colon\RR\to\RR$, hay que tener cuidado con $g$ para que $g \circ X$ sea una v.a., pues puede pasar que la función resultante no es una variable aleatoria, de acuerdo con la definición. Nosotros nos abstendremos de presentar casos degenerados de ese estilo, pero expondremos las condiciones que se necesitan para que una transformación de una v.a. sea nuevamente una v.a.

¿Cuáles funciones sí dan como resultado variables aleatorias?

Comenzaremos con una definición general del tipo de funciones que nos serán útiles.

Definición. Si $g\colon\RR\to\RR$ es una función, diremos que $g$ es una función Borel-medible si para cada $B \in \mathscr{B}(\RR)$ se cumple que $g^{-1}(B) \in \mathscr{B}(\RR)$.

Es decir, $g$ es una función Borel-medible si la imagen inversa de cualquier elemento del σ-álgebra de Borel es también un elemento del σ-álgebra de Borel.

Si recuerdas la definición de variable aleatoria, podrás observar que… ¡Es casi la misma! En realidad, ambas son el mismo concepto en la teoría más general: son funciones medibles. En particular, las funciones Borel-medibles reciben su nombre por el σ-álgebra que preservan: el σ-álgebra de Borel. De hecho, observa que las funciones Borel-medibles son un caso particular de nuestra definición de variable aleatoria, usando $(\RR, \mathscr{B}(\RR), \mathbb{P})$ como espacio de probabilidad. Por ello, todos los resultamos que hemos visto hasta ahora para v.a.’s aplican para funciones Borel-medibles.

Resulta que esta clase de funciones son aquellas que, al componer con una v.a., nos devuelven otra variable aleatoria.

Proposición. Sean $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad, $X\colon\Omega\to\RR$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible. Entonces $g \circ X \colon\Omega\to\RR$ es una variable aleatoria.

Demostración. Queremos demostrar que $g \circ X$ es una variable aleatoria. Es decir, que para cada $A \in \mathscr{B}(\RR)$ se cumple que $(g \circ X)^{-1}[A] \in \mathscr{F}$. Ahora, $(g \circ X)^{-1}[A] = X^{-1}[g^{-1}[A]]$, por propiedades de la imagen inversa. En consecuencia, hay que ver que para cada $A \in \mathscr{B}(\RR)$ se cumple que $X^{-1}[g^{-1}[A]] \in \mathscr{F}$.

Sea $A \in \mathscr{B}(\RR)$. Como $g$ es una función Borel-medible, esto implica que $g^{-1}[A] \in \mathscr{B}(\RR)$. Ahora, como $X$ es una variable aleatoria, $g^{-1}[A] \in \mathscr{B}(\RR)$ implica $X^{-1}[g^{-1}[A]] \in \mathscr{F}$, que es justamente lo que queríamos demostrar.

$\square$

Así, si $g\colon\RR\to\RR$ es una función Borel-medible y $X\colon\Omega\to\RR$ es una variable aleatoria, entonces $g \circ X$ es también una variable aleatoria.

Pero entonces, ¿qué funciones podemos usar?

A pesar de que lo anterior nos da muchas funciones con las cuales transformar v.a.’s, de momento quizás no conozcas ninguna función Borel-medible. No temas, el siguiente teorema nos da una gran cantidad de funciones que son Borel-medibles, y con las cuales seguramente te has encontrado antes.

Proposición. Si $g\colon\RR\to\RR$ es una función continua, entonces es Borel-medible.

Demostración. Sea $g\colon\RR\to\RR$ una función continua. Queremos demostrar que $g$ es Borel-medible. Es decir, que para cada $x \in \RR$, $X^{-1}[(-\infty, x)] \in \mathscr{B}(\RR)$.

Sea $x\in\RR$. Como $(-\infty, x)$ es un intervalo abierto, es un subconjunto abierto (en la topología usual) de $\RR$. En consecuencia, como $g$ es continua, $g^{-1}[(-\infty, x)]$ también es un subconjunto abierto de $\RR$.

Ahora, como $g^{-1}[(-\infty, x)]$ es un abierto, esto implica que existe una familia numerable de intervalos abiertos $\{ I_{n} \}_{n=1}^{\infty}$ tales que

\[ g^{-1}[(-\infty, x)] = \bigcup_{n=1}^{\infty} I_{n}. \]

Nota que como $I_{n}$ es un intervalo abierto, para cada $n \in \mathbb{N}^{+}$, entonces $I_{n} \in \mathscr{B}(\RR)$. Por lo tanto, $\bigcup_{n=1}^{\infty} I_{n} \in \mathscr{B}(\RR)$, que implica $g^{-1}[(-\infty, x)] \in \mathscr{B}(\RR)$, que es justamente lo que queríamos demostrar.

$\square$

Es muy probable que estés cursando Cálculo Diferencial e Integral III al mismo tiempo que esta materia, por lo que quizás no hayas visto algunos detalles de la topología usual de $\RR$ que utilizamos en la demostración anterior. Puedes consultar nuestras notas de Cálculo Diferencial e Integral III sobre el tema si lo consideras necesario.

Con esta última proposición hemos encontrado una gran cantidad de funciones válidas para transformar v.a.’s. Seguramente conoces muchísimas funciones continuas: los polinomios, funciones lineales, algunas funciones trigonométricas (como $\sin$ y $\cos$), etcétera.

Un primer método para obtener la distribución de una transformación

Una vez que conocemos muchas funciones con las cuales podemos transformar v.a.’s, nuestro objetivo es encontrar la distribución de tales transformaciones. Si $g\colon\RR\to\RR$ es una función Borel-medible y $X\colon\Omega\to\RR$ es una v.a. (cuya función de distribución es conocida), queremos encontrar la distribución de $Y = g \circ X$. Para hacerlo, basta con encontrar la probabilidad de los eventos de la forma

\begin{align*} (Y \leq y) = (g \circ X \leq y) = \{ \, \omega \in \Omega \mid g(X(\omega)) \leq y \, \}. \end{align*}

Es común encontrar la notación $g(X) = g \circ X$, y de este modo, se usa $(g(X) \leq y)$ para referirse a los eventos $(g \circ X \leq y)$.

Sin embargo, el caso de las v.a.’s discretas puede ser más sencillo, ya que la función de masa de probabilidad caracteriza el comportamiento de ese tipo de v’a’s. Veamos cómo hacerlo mediante el siguiente ejemplo.

Ejemplo. Sea $Z$ una v.a. con función de masa de probabilidad $p_{Z}\colon\RR\to\RR$ dada por

\begin{align*} p_{Z}(z) = \begin{cases} \dfrac{1}{5} & \text{si $z \in \{-2, -1, 0, 1, 2 \}$}, \\[1em] 0 & \text{en otro caso}. \end{cases}\end{align*}

**Figura.** Gráfica de la función de masa de probabilidad de $Z$.

Ahora, sea $g\colon\RR\to\RR$ la función dada por

\begin{align*} g(x) &= x^{2} & \text{para cada $x \in \RR$.} \end{align*}

Defínase $Y = g (Z)$, es decir, $Y = Z^{2}$. Primero, el conjunto de posibles valores que puede tomar $Y$ es

\[ \{\, z^2 \mid z \in \textrm{Im}(Z) \,\} = \{ (-2)^{2}, (-1)^{2}, 0^{2}, 1^{2}, 2^{2} \} = \{ 4, 1, 0, 1, 4 \} = \{ 0, 1, 4 \}. \]

Observa que $Y$ puede tomar $3$ valores distintos, mientras que $Z$ puede tomar $5$. Ya desde este momento se nota que las probabilidades de los eventos que involucran a $Y$ van a ser distintas a los de $Z$.

Sea $y \in \RR$. Para obtener la función de masa de probabilidad de $Y$ tenemos que obtener la probabilidad de los eventos de la forma $(Y = y)$. Este evento es

\[ (Y = y) = \{\,\omega\in\Omega\mid Y(\omega) = y \,\}, \]

Es decir, $\omega\in (Y=y) \iff Y(\omega) = y$. Usando la definición de $Y$, se tiene que

\begin{align*} \omega\in (Y = y) &\iff Y(\omega) = y \\[1em] &\iff (g \circ Z)(\omega) = y \\[1em] &\iff g(Z(\omega)) = y \\[1em] &\iff (Z(\omega))^{2} = y \\[1em] &\iff {\left|Z(\omega)\right|} = \sqrt{y} \\[1em] &\iff (Z(\omega) = \sqrt{y} \lor Z(\omega) = -\sqrt{y}), \end{align*}

esto es, $\omega$ es un elemento de $(Y=y)$ si y sólamente si $Z(\omega) = \sqrt{y}$ o $Z(\omega) = -\sqrt{y}$. Esto es equivalente a que $\omega \in (Z = \sqrt{y}) \cup (Z = -\sqrt{y})$, por lo que podemos concluir que

\[ (Y = y) = (Z = \sqrt{y}) \cup (Z = -\sqrt{y}). \]

En consecuencia, $\Prob{Y = y} = \Prob{(Z = \sqrt{y}) \cup (Z = -\sqrt{y})}$, y así:

\[ \Prob{Y = y} = \Prob{Z = \sqrt{y}} + \Prob{Z = -\sqrt{y}}. \]

Para $y < 0$, observa que

\[ (Z = \sqrt{y}) = \{\,\omega\in\Omega\mid Z(\omega) = \sqrt{y} \,\} = \emptyset, \]

pues $Z$ toma valores en los reales, no en los complejos. Del mismo modo, cuando $y < 0$, $(Z = -\sqrt{y}) = \emptyset$; y así,

\begin{align*} \Prob{Y = y} &= \Prob{Z = \sqrt{y}} + \Prob{Z = -\sqrt{y}} = 0, & \text{para $y < 0$.} \end{align*}

Por otro lado, para $y \geq 0$, sólamente hay $3$ valores que importan: $0$, $1$ y $4$, como acordamos previamente. Para el caso de $y = 0$, observa que $(Z = \sqrt{0}) \cup (Z = -\sqrt{0}) = (Z = 0)$, pues

\begin{align*} \omega \in (Z = \sqrt{0}) \cup (Z = -\sqrt{0}) &\iff (Z(\omega) = \sqrt{0} \lor Z(\omega) = -\sqrt{0}) \\[1em] &\iff (Z(\omega) = 0 \lor Z(\omega) = 0) \\[1em] &\iff Z(\omega) = 0 \\[1em] &\iff \omega \in (Z = 0). \end{align*}

Por lo tanto, se tiene que

\begin{align*}
\Prob{Y = 0} &= \Prob{Z = 0} = \frac{1}{5}.
\end{align*}

Para $y = 1$ y $y = 4$ sí podemos aplicar la fórmula que obtuvimos:

\begin{align*} \Prob{Y = 1} &= \Prob{Z = \sqrt{1}} + \Prob{Z = -\sqrt{1}} = \Prob{Z = 1} + \Prob{Z = -1} = \frac{1}{5} + \frac{1}{5} = \frac{2}{5}, \\[1em] \Prob{Y = 4} &= \Prob{Z = \sqrt{4}} + \Prob{Z = -\sqrt{4}} = \Prob{Z = 2} + \Prob{Z = -2} = \frac{1}{5} + \frac{1}{5} = \frac{2}{5}. \end{align*}

En conclusión, la función de masa de probabilidad de $Y$ es la función $p_{Y}\colon\RR\to\RR$ dada por

\begin{align*} p_{Y}(y) &= \begin{cases} \dfrac{1}{5} & \text{si $y = 0$,} \\[1em] \dfrac{2}{5} & \text{si $y = 1$ o $y = 4$,} \\[1em] 0 &\text{en otro caso.} \end{cases} \end{align*}

**Figura.** Función de masa de probabilidad de $Y$.

El ejemplo anterior ilustra lo que se debe de hacer para obtener las probabilidades de la transformación de una v.a. discreta. Sea $X\colon\Omega\to\RR$ una v.a. y sea $g\colon\RR\to\RR$ una función Borel-medible. Para cada $A \in \mathscr{B}(\RR)$, sabemos que el evento $(X \in A)$ no es otra cosa que $X^{-1}[A]$. Definimos la v.a. $Y$ como $Y = g(X)$. Ahora, sabemos que para cada $\omega\in\Omega$ se cumple que

\[ \omega \in X^{-1}[A] \iff X(\omega) \in A, \]

por la definición de imagen inversa. En consecuencia, para $(Y \in A)$ tenemos que

\begin{align*} \omega \in (Y \in A) &\iff \omega \in (g(X) \in A) \\[1em] &\iff g(X(\omega)) \in A \\[1em] &\iff X(\omega) \in g^{-1}[A] \\[1em] &\iff \omega \in (X \in g^{-1}[A]). \end{align*}

Por lo que $(Y \in A) = (X \in g^{-1}[A])$. Por ello, $\Prob{Y \in A} = \Prob{X \in g^{-1}[A]}$. Esto tiene sentido: como $Y = g(X)$, entonces la probabilidad de que $g(X)$ tome algún valor en $A$ es la misma que la probabilidad de que $X$ tome algún valor en $g^{-1}[A]$, pues todos los elementos de $g^{-1}[A]$ son mandados a $A$ cuando se les aplica $g$.

Finalmente, utilizando que $X$ es una v.a. discreta, tendremos que

\begin{align}\label{transf:1} \Prob{Y \in A} = \sum_{x \in g^{-1}[A]} \Prob{X = x}. \end{align}

En el caso particular en el que existe $y \in \RR$ tal que $A = \{ y \}$, tendremos que

\begin{align}\label{transf:2} \Prob{Y = y} = \sum_{x \in g^{-1}[\{ y\}]} \Prob{X = x}, \end{align}

justamente como hicimos en el ejemplo anterior. A continuación presentamos otro ejemplo siguiendo la misma metodología.

Ejemplo. Sea $V$ una v.a. con función de masa de probabilidad $p_{V}\colon\RR\to\RR$ dada por

\begin{align*} p_{V}(v) = \begin{cases} \dfrac{1}{2^{|v|+1}} & \text{si $v \in \{-3,-2,-1,1,2,3\}$}, \\[1em] \dfrac{1}{16} & \text{si $v = 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

**Figura.** Gráfica de la función de masa de probabilidad de $V$.

Nuevamente, considera la transformación $g\colon\RR\to\RR$ dada por $g(x) = x^{2}$ para cada $x \in \RR$. De este modo, defínase la v.a. $T$ como $T = g(V)$. Antes que nada, el conjunto de valores que puede tomar $T$ es el resultado de transformar el conjunto de los valores que puede tomar $V$. Si $\mathrm{Supp}(V) = \{-3,-2,-1,0,1,2,3\}$ es el conjunto de valores que puede tomar $V$, entonces el conjunto de valores que puede tomar $T$ es

\[ g{\left( \mathrm{Supp}(V) \right)} = \{ \, t \in \RR \mid \exists v \in \mathrm{Supp}(V)\colon g(v) = t \, \} = \{0, 1, 4, 9 \}. \]

Como $g$ es la misma transformación que en el ejemplo anterior, hay algunas cosas que ya sabemos. Primero,

\begin{align*} \Prob{T = t} &= 0, & \text{para cada $t < 0$},\end{align*}

mientras que para $t = 0$, se tiene que $\Prob{T = 0} = \Prob{V = 0} = \frac{1}{8}$. Para $t > 0$, vimos previamente que $g^{-1}[\{t\}] = \{ \sqrt{t}, -\sqrt{t} \}$. Así, tendremos que

\begin{align*} \Prob{T = t} = \sum_{v \in g^{-1}[\{ t \}]} \Prob{V = v} = \Prob{V = \sqrt{t}} + \Prob{V = -\sqrt{t}}. \end{align*}

En particular, la v.a. $V$ sólamente toma probabilidades mayores a $0$ en $\{-3, -2, -1, 0, 1, 2, 3 \}$, por lo que $\Prob{T = t} > 0$ para $t \in \{0, 1, 4, 9 \}$, y $\Prob{T = t} = 0$ en otro caso. Así, tenemos que

\begin{align*} \Prob{T = 1} &= \Prob{V = \sqrt{1}} + \Prob{V = -\sqrt{1}} = \frac{1}{2^{|1| + 1}} + \frac{1}{2^{|-1|+1}} = \frac{1}{2^2} + \frac{1}{2^{2}} = \frac{2}{4} = \frac{1}{2}, \\[1em] \Prob{T = 4} &= \Prob{V = \sqrt{4}} + \Prob{V = -\sqrt{4}} = \frac{1}{2^{|2| + 1}} + \frac{1}{2^{|-2|+1}} = \frac{1}{8} + \frac{1}{8} = \frac{1}{4}, \\[1em] \Prob{T = 9} &= \Prob{V = \sqrt{9}} + \Prob{V = -\sqrt{9}} = \frac{1}{2^{|3| + 1}} + \frac{1}{2^{|-3|+1}} = \frac{1}{16} + \frac{1}{16} = \frac{1}{8}. \end{align*}

Alternativamente, podemos obtener una fórmula cerrada para cada $t \in \{1, 4, 9 \}$, que queda así:

\begin{align*} \Prob{T = t} = \Prob{V = \sqrt{t}} + \Prob{V = -\sqrt{t}} &= \frac{1}{2^{{\left|\sqrt{t}\right|} + 1}} + \frac{1}{2^{{\left|-\sqrt{t}\right|} + 1}} \\[1em] &= \frac{1}{2^{\sqrt{t} + 1}} + \frac{1}{2^{\sqrt{t} + 1}} \\[1em] &= \frac{2}{2^{\sqrt{t} + 1}} \\[1em] &= \frac{1}{2^{\sqrt{t}}}.\end{align*}

Y así obtenemos una expresión para la función de masa de probabilidad de $T$:

\begin{align*} p_{T}(t) = \begin{cases} \dfrac{1}{2^{\sqrt{t}}} & \text{si $t \in \{1,4,9\}$}, \\[1em] \dfrac{1}{8} & \text{si $t = 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

**Figura.** Gráfica de la función de masa de probabilidad de $T$.

Tarea moral

Verifica que la función de masa de probabilidad de la v.a. $Z$ del primer ejemplo satisface las propiedades de una función de masa de probabilidad.
Haz lo mismo para la función de masa de probabilidad de la v.a. $V$ del segundo ejemplo.
Retomando los dos ejemplos vistos en esta entrada y las v.a.’s $Z$ y $V$ de cada ejemplo, y tomando la transformación $f\colon\RR\to\RR$ dada por $f(x) = x^{3} − x^{2} − 4x + 4$:
1. Encuentra la función de masa de probabilidad de $f(Z)$.
2. Encuentra la función de masa de probabilidad de $f(V)$.

Más adelante…

El método expuesto en esta entrada funciona para cualquier variable aleatoria discreta. No hay fórmulas «cerradas» para la f.m.p. (función de masa de probabilidad) de la transformación de una v.a. discreta. Sin embargo, las fórmulas \eqref{transf:1} y \eqref{transf:2} son suficientes para encontrar las probabilidades de eventos que involucran a la transformación de la v.a. discreta conocida. No obstante, estas fórmulas sólamente funcionan para v.a.’s discretas. Por ello, en la siguiente entrada centraremos nuestra atención en el caso de las v.a.’s continuas.

Entradas relacionadas

Ir a Probabilidad I
Entrada anterior del curso: Variables Aleatorias Mixtas
Siguiente entrada del curso: Transformaciones de V.A.’s Continuas