Probabilidad I: Transformaciones de V.A.’s Continuas

Por Octavio Daniel Ríos García

Introducción

En la entrada pasada comenzamos a abordar el problema de encontrar la distribución de la transformación de una v.a. conocida. En particular, analizamos un método para el caso en el que la v.a. conocida es discreta, y sólamente para ese caso. No obstante, este método nos servirá como «base» para dar paso al caso continuo. Primero presentaremos un método que consiste en manipular directamente la función de distribución; muy parecido al método que vimos en la entrada pasada. Después, analizaremos un método más especializado que permite encontrar la función de densidad de la transformación de una v.a. sin necesidad de manipular la función de distribución.

Motivación del primer método

Sea X una v.a. y g:RR una función Borel-medible. En la entrada pasada ya describimos el proceso para obtener los eventos de g(X) en términos de eventos que involucran a X. De hecho, vimos que para cada AB(R) se cumple que

(g(X)A)=(Xg1[A]).

¡Atención! En la entrada pasada centramos nuestra atención en las v.a.’s discretas, pero la igualdad anterior es cierta para cualquier variable aleatoria. Por ello, también aplica para las v.a.’s continuas. En particular, para cada yR se cumple que (,y]B(R), por lo que

(g(X)y)=(g(X)(,y])=(Xg1[(,y]]).

Por lo tanto, se tiene que

P(g(X)y)=P(Xg1[(,y]]).

Es decir, si definimos a Y=g(X) y FY:RR es la función de distribución de Y, entonces lo anterior quiere decir que para cada yR,

FY(y)=P(Xg1[(,y]]);

por lo que es posible obtener la distribución de Y en términos de la probabilidad de un evento que involura a X, cuya distribución sí conocemos.

Primer método: manipular la función de distribución

Con la discusión anterior llegamos a que si X es una v.a. (cuya distribución es conocida), g:RR es una función Borel-medible, y Y es la v.a. definida como Y=g(X), entonces la función de distribución de Y, FY:RR, puede obtenerse como

FY(y)=P(Xg1[(,y]])para cada yR.

Por ello, el problema consistirá en encontrar el conjunto g1[(,y]], y así encontrar la probabilidad de (Xg1[(,y]]).

Ejemplo 1. Sea X una v.a. con función de densidad fX:RR dada por

fX(x)=12e|x|,para cada xR.

Una v.a. con esta función de densidad es conocida como una v.a. con distribución Laplace, o distribución doble exponencial. Su función de distribución FX:RR está dada por

FX(x)={12exsi x<0,112exsi x0.

Sea g:RR la función dada por g(x)=|x| para cada xR. De este modo, defínase Y=g(X)=|X|. Para obtener la función de distribución Y, podemos seguir un método similar al que usamos en la entrada anterior. Sea yR. Un primer detalle que podemos observar sobre Y es que no toma valores negativos. Por ello, si y<0, se tiene que (Yy)=, y en consecuencia, P(Yy)=0 para y<0. Por otro lado, para y0 se tiene que que

ω(Yy)Y(ω)y|X(ω)|yyX(ω)yω(yXy),

por lo que para cada y0 se tiene que (Yy)=(yXy). Como esos dos eventos son iguales, se sigue que P(Yy)=P(yXy). , por lo queAdemás, nota que

P(yXy)=P(Xy)P(X<y)()=P(Xy)P(Xy)=FX(y)FX(y),

donde el paso () es válido debido a que X es una v.a. continua. Por ello, podemos concluir que para cada y0,

FY(y)=FX(y)FX(y).

Por lo tanto, la función de distribución de Y queda como sigue:

FY(y)={0si y<0,FX(y)FX(y)si y0.

De aquí podemos obtener una expresión explícita. Para cada y0 se tiene que y0, así que

FX(y)FX(y)=(112ey)12ey=112ey12ey=1ey.

En conclusión, la función de distribución de Y queda así:

FY(y)={0si y<0,1eysi y0.

Probablemente te resulte familiar: ¡Es la función de distribución de una v.a. exponencial! Este ejemplo exhibe que algunas transformaciones de algunas v.a.’s «famosas» resultan en otras v.a.’s «famosas». En este caso, vimos que si X es una v.a. que sigue una distribución Laplace, entonces |X| sigue una distribución exponencial. Más adelante veremos muchas más distribuciones importantes, y veremos cómo se relacionan entre sí mediante transformaciones.


Segundo método: teorema de cambio de variable

Existe un método más especializado para obtener la función de densidad de la transformación de una v.a. continua. La razón por la que decimos que es más especializado es porque funciona para transformaciones que cumplen ciertas condiciones.


Teorema. Sea X:ΩR una v.a. continua con función de densidad fX:RR, y sea g:X[Ω]R una función diferenciable y estrictamente creciente o decreciente. Entonces la función de densidad de Y=g(X) está dada por

fY(y)={fX(g1(y))|ddy[g1(y)]|si y(gX)[Ω],0en otro caso,

donde g1:g[R]R es la inversa de g, y (gX)[Ω] es la imagen directa de Ω bajo gX. Esto es, (gX)[Ω]={yRωΩ:(gX)(ω)=y}, que corresponde al conjunto de valores que toma la v.a. Y=g(X).


Demostración. Demostraremos el caso en el que g es estrictamente creciente. Para ello, sea yR. Primero, recuerda que

(Yy)=(Xg1[(,y]]).

Por un lado, se tiene el caso en el que y(gX)[Ω]; es decir, y es uno de los valores que toma la v.a. Y (pues (gX)[Ω]=Y[Ω]). En este caso, el valor g1(y) está bien definido, ya que g1:(gX)[Ω]R es una función cuyo dominio es la imagen de g. De este modo, para cada ωΩ tendremos que

()Y(ω)yX(ω)g1(y).

Como g es una función estrictamente creciente, su inversa g1:(gX)[Ω]R también es estrictamente creciente, y por lo tanto, la desigualdad en () «no se voltea».

De lo anterior se sigue que P(Yy)=P(Xg1(y)) para cada y(gX)[Ω]. En consecuencia, se tiene que

FY(y)=FX(g1(y)).

Podemos diferenciar ambos lados de la igualdad respecto a y, y por la regla de la cadena obtenemos

fY(y)=fX(g1(y))ddy[g1(y)]=fX(g1(y))|ddy[g1(y)]|,

donde el último paso se obtiene de que g1 es estrictamente creciente, y por lo tanto, su derivada es positiva.

Por otro lado, resta el caso en el que y(gX)[Ω]; es decir, cuando y no es uno de los valores que puede tomar Y. En este caso, simplemente fY vale 0, pues la densidad de una v.a. continua es 0 en aquellos valores que no toma. De este modo, Y tiene densidad fY:RR dada por

fY(y)={fX(g1(y))|ddy[g1(y)]|si y(gX)[Ω],0en otro caso,

que es justamente lo que queríamos demostrar.

El caso para g estrictamente decreciente es casi análogo, por lo que te lo dejamos de tarea moral.

◻

Es importante notar que el teorema anterior no funciona para cualquier g:RR Borel-medible, sólamente para aquellas que cumplen las hipótesis del teorema. Bajo estas hipótesis, el teorema permite obtener la densidad de la transformación de una v.a. de manera más eficiente que los otros métodos que hemos abordado.

Ejemplo 2. Sea Z una v.a. con densidad fZ:RR dada por

fZ(z)=12πez2/2,para cada zR.

Se dice que una v.a. con esa función de densidad sigue una distribución normal estándar. Observa que fZ(z)>0 para todo zR, por lo que Z[Ω]=R. Es decir, Z puede tomar cualquier valor en R.

Sea W=eZ. La función exp:RR+ dada por exp(x)=ex es estrictamente creciente y diferenciable, por lo que podemos usar el teorema anterior para obtener la función de densidad de W. Así, tenemos que

fW(w)=fZ(exp1(w))|ddw[exp1(w)]|,

donde exp1:R+R es la inversa de la función exponencial exp. De hecho, la inversa de exp es la función ln:R+R, el logaritmo natural. Ahora, como Z[Ω]=R, se tiene que (expZ)[Ω]=R+, pues la función exp toma únicamente valores positivos.

En consecuencia, para wR+ se tiene

fW(w)=fZ(ln(w))|ddw[ln(w)]|=fZ(ln(w))|1w|=1w2πexp((ln(w))22)

y así, tenemos que W tiene densidad fW:RR dada por

fW(w)={1w2πexp((ln(w))22)si w>0,0en otro caso.

Como nota adicional, fW es la densidad de una v.a. cuya distribución es conocida como log-normal.


Para concluir, es importante mencionar que la transformación g del teorema sólamente necesita ser diferenciable y estrictamente creciente sobre X[Ω] (por eso es que en el enunciado la pusimos como g:X[Ω]R). Por ejemplo, la función g:R+{0}R dada por g(x)=x2 es una función creciente sobre su dominio. Por ello, si X es una v.a. continua que toma únicamente valores no-negativos, entonces puede aplicarse el teorema para obtener la densidad de g(X). En resumidas cuentas, el teorema puede aplicarse siempre y cuando la transformación g sea diferenciable y estrictamente creciente sobre el conjunto de valores que puede tomar X.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la función de distribución de la v.a. X del Ejemplo 1 es la función que te dimos. Es decir, obtén la función de distribución de X a partir de su función de densidad.
  2. Demuestra el caso en el que g es estrictamente decreciente del teorema de cambio de variable.
  3. Retoma el segundo Ejemplo 2, pero esta vez comienza con la v.a. W, cuya función de densidad es fW(w)={1w2πexp((ln(w))22)si w>0,0en otro caso,y encuentra la función de densidad de Z=ln(W) usando el teorema.

Más adelante…

El teorema de esta entrada es muy útil para obtener la densidad (y, en consecuencia, la distribución) de muchas transformaciones de v.a.’s continuas. Por ello, nos será de utilidad en el futuro relativamente cercano, cuando veamos las distribuciones de probabilidad más conocidas. Por otro lado, te será de utilidad mucho más adelante en materias posteriores, pues este teorema puede generalizarse al caso en el que la transformación tiene como dominio a Rn y como codominio a R con nN+ y n2 (por ejemplo, g:R2R dada por g(x,y)=x+y).

En la siguiente entrada comenzaremos el estudio de un concepto asociado a las v.a.’s llamado el valor esperado de una variable aleatoria.

Entradas relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.