Archivo de la etiqueta: variables aleatorias

Probabilidad I: Interacciones Entre Variables Aleatorias

Por Octavio Daniel Ríos García

Introducción

En esta entrada veremos una breve introducción a las interacciones básicas entre dos v.a.’s. En una entrada previa vimos cómo se interpretaban las operaciones con eventos, y después vimos algunos conceptos asociados a la interacción entre eventos, como es el caso de la definición de independencia. De manera similar, es razonable que definamos ciertos conceptos para describir el comportamiento probabilístico de dos variables aleatorias de manera conjunta.

Primero, un poco de notación

Sea (Ω,F,P) un espacio de probabilidad y sean X:ΩR, Y:ΩR dos variables aleatorias. Aquí estamos siendo muy explícitos con el hecho de que el dominio de ambas v.a.’s debe de ser el mismo. Esto es importante porque los eventos que involucran a X y a Y deben de ser elementos del mismo σ-álgebra. Además, las operaciones entre v.a.’s están bien definidas siempre y cuando estas tengan el mismo dominio, pues se definen puntualmente.

Primero, demos un poco de notación. Sean A y BB(R). Para denotar la probabilidad del evento en el que XA y YB se sigue la siguiente notación:

P(XA,YB)=P((XA)(YB)).

Es decir, (XA,YB) es la notación para expresar el evento (XA)(YB). Observa que este conjunto sí es un evento, pues X y Y son v.a.’s, así que tanto (XA) como (YB) son elementos de F, así que también su intersección lo es.

De este modo, podemos expresar muchas probabilidades de intersecciones de eventos de forma más compacta. Por ejemplo:

P(X=x,Y=y)=P((X=x)(Y=y)),P(Xx,Yy)=P((Xx)(Yy)),

etcétera.

Independencia de variables aleatorias

En la Unidad 1 de este curso hablamos sobre la independencia de eventos. El paso que sigue ahora es definir la noción de independencia de variables aleatorias. De manera similar a los eventos, que X y Y sean variables aleatorias independientes significa que un evento que involucra a X no afecta las probabilidades de Y. Por ello, la noción de independencia se dará en términos de eventos.


Definición 1. Sea (Ω,F,P) un espacio de probabilidad y sean X:ΩR y Y:ΩR variables aleatorias. Diremos que X y Y son independientes si y sólamente si para todo A, BB(R) se cumple

P(XA,XB)=P(XA)P(XB).


También es posible caracterizar la independencia de v.a.’s mediante sus funciones de distribución. Para ello, es necesario definir el concepto de función de distribución conjunta de dos v.a.’s. Esta se define como sigue:


Definición 2. Sea (Ω,F,P) un espacio de probabilidad y sean X:ΩR y Y:ΩR variables aleatorias. Se define la función de distribución conjunta de X y Y, FX,Y:R2R, como sigue:

FX,Y(x,y)=P(Xx,Yy),para cada (x,y)R2.


Esta es una «generalización» multidimensional de la función de distribución de una variable aleatoria. Es decir, sabemos que P(Xx) es la probabilidad de que la v.a. X tome un valor dentro del intervalo (,x]. De manera similar, P(Xx,Yy) es la probabilidad de que las v.a.’s X y Y tomen un valor dentro del intervalo (,x] y (,y], respectivamente. Esto es, si pensamos a (X,Y) como un punto aleatorio en R2, entonces P(Xx,Yy) es la probabilidad de que (X,Y) sea un punto dentro del rectángulo (,x]×(,y].

El siguiente teorema nos brinda un criterio de independencia más sencillo que el de la Definición 1:


Teorema 1. Sea (Ω,F,P) un espacio de probabilidad y sean X:ΩR y Y:ΩR variables aleatorias. Las siguientes proposiciones son equivalentes:

  1. X y Y son independientes.
  2. Para cualesquiera x, yR se cumple FXY(x,y)=FX(x)FY(y).

Demostrar que 1. implica a 2. no es complicado, y lo dejamos como tarea moral. Por otro lado, demostrar 2. implica a 1. rebasa los contenidos de este curso, por lo que omitiremos esta parte de la demostración.

Este teorema hace más sencillo verificar si dos v.a.’s son independientes o no lo son. Primero, porque el trabajo se reduce a trabajar con las funciones de distribución. Además, a continuación veremos que es posible recuperar las funciones de probabilidad (masa y densidad) a partir de las funciones de probabilidad conjunta. Por ello, podremos verificar si dos v.a.’s son independientes comparando su distribución conjunta con el producto de sus distribuciones univariadas, gracias al Teorema 1.

Funciones de probabilidad conjunta para v.a.’s discretas

Al haber definido la función de distribución conjunta, se desprenden dos casos importantes: el caso discreto y el caso continuo. En el caso en el que X y Y son v.a.’s discretas, es posible definir la función de masa de probabilidad conjunta de X y Y. Esta se define como sigue.


Definición 3. Sea (Ω,F,P) un espacio de probabilidad y sean X:ΩR y Y:ΩR v.a.’s discretas. Se define la función de masa de probabilidad conjunta de X y Y, pX,Y:R2R como sigue:

pX,Y(x,y)=P(X=x,Y=y),para cada (x,y)R2.


Es decir, el valor pX,Y(x,y) es la probabilidad de que X tome el valor x y Y tome el valor y. Ahora, antes de seguir, es recomendable que recuerdes el teorema de probabilidad total que vimos en una entrada previa. Sabemos que Y[Ω] es un conjunto a lo más infinito numerable, pues Y es una v.a. discreta. Por ello, podemos ver a Y[Ω] como una unión numerable de conjuntos, donde cada uno de estos conjuntos tiene un único elemento. Es decir, tomamos los conjuntos {y}, para cada yY[Ω], y los unimos a todos:

Y[Ω]=yY[Ω]{y}.

De este modo,

Y1[Y[Ω]]=Y1[yY[Ω]{y}]=yY[Ω]Y1[{y}]()=yY[Ω](Y=y).

Observa que esta es una unión de conjuntos ajenos, pues para cada y1, y2Y[Ω] se cumple que si y1y2, entonces {y1}{y2}=. Además,

()Y1[{y1}{y2}]=Y1[{y1}]Y1[{y2}],()Y1[y1y2]=Y1[]=,

así que por () y () podemos concluir que Y1[{y1]Y1[{y2}]=. Por lo tanto, la unión

yY[Ω](Y=y)

es una unión de eventos ajenos. Además, por propiedades de la imagen inversa, sabemos que

ΩY1[Y[Ω]].

Por otro lado, como el dominio de Y es Ω, también sabemos que Y1[Y[Ω]]Ω, así que Ω=Y1[Y[Ω]]. Finalmente, por () se tiene que

Ω=yY[Ω](Y=y).

Es decir, {(Y=y)yY[Ω]} forma una partición de Ω. Sea xX[Ω]. Como lo anterior nos da una partición de Ω, podemos aplicar el teorema de probabilidad total para obtener que

P(X=x)=yY[Ω]P(X=x,Y=y).

Análogamente, para cada yY[Ω] se tiene que

P(Y=y)=xX[Ω]P(X=x,Y=y).

En términos de las funciones de masa de probabilidad, lo anterior quiere decir que podemos recuperar la masa de probabilidad de X y de Y a partir de la función de masa de probabilidad conjunta, como sigue:

pX(x)=yY[Ω]pX,Y(x,y)para cada xX[Ω],pY(y)=xX[Ω]pX,Y(x,y)para cada yY[Ω].

Este procedimiento de obtener la función de masa de probabilidad de una v.a. a partir de la masa de probabilidad conjunta se conoce como marginalización, y las funciones resultantes son conocidas como las funciones de masa de probabilidad marginales.

Ejemplo 1. Sean X y Y dos v.a.’s discretas con función de masa de probabilidad conjunta pX,Y:R2R dada por:

pX,Y={0.05si (x,y)=(0,3) o (x,y)=(1,1) o (x,y)=(2,4),0.1si (x,y)=(0,2) o (x,y)=(1,3) o (x,y)=(2,1),0.15si (x,y)=(2,2),0.2si (x,y)=(0,1) o (x,y)=(1,4),0en otro caso.

Una buena manera de organizar la información contenida en esta función es mediante una tabla como la siguiente:

Valores posibles de X
012
Valores posibles de Y10.20.050.1
20.100.15
30.050.10
400.20.05

De este modo, P(X=0,Y=1)=0.2, y P(X=0,Y=3)=0.05. A partir de las probabilidades de la tabla podemos calcular la función de masa de probabilidad de X, pX:RR. Para ello, simplemente debemos de marginalizar sobre cada uno de los valores que toma X. De este modo, obtenemos que

pX(0)=pX,Y(0,1)+pX,Y(0,2)+pX,Y(0,3)+pX,Y(0,4)=0.2+0.1+0.05+0=0.35,pX(1)=pX,Y(1,1)+pX,Y(1,2)+pX,Y(1,3)+pX,Y(1,4)=0.05+0+0.1+0.2=0.35,pX(2)=pX,Y(2,1)+pX,Y(2,2)+pX,Y(2,3)+pX,Y(2,4)=0.1+0.15+0+0.05=0.3,

por lo que la función de masa de probabilidad de X nos queda

pX(x)={0.35si x=0 o x=1,0.3si x=2.

Sin embargo, observa que el uso de una tabla sólo tiene sentido si X[Ω] y Y[Ω] son conjuntos finitos. De otro modo, sería una «tabla» infinita, y nunca acabaríamos de escribirla…

Independencia en el caso discreto

Una consecuencia (casi inmediata) del Teorema 1 es el siguiente criterio de independencia para v.a.’s discretas.


Proposición 1. Sean X, Y variables aleatorias. Si X y Y son discretas, entonces X y Y son independientes si y sólamente si

P(X=x,Y=y)=P(X=x)P(Y=y),para cualesquiera x,yR.


Por ejemplo, retomemos las v.a.’s del Ejemplo 1. Sumando los valores en el renglón donde Y=1, obtenemos que

P(Y=1)=0.35,

y nosotros calculamos que P(X=1)=0.35. En consecuencia,

(1)P(X=1)P(Y=1)=0.1225.

Sin embargo, de acuerdo con la tabla, P(X=1,Y=1)=0.05, que no coincide con el valor en (1). Por ello, podemos concluir que las v.a.’s del Ejemplo 1 no son independientes.

Función de densidad conjunta para v.a.’s continuas

Como de costumbre, el caso para las v.a.’s continuas es distinto. En este caso, lo que tendremos es una función de densidad conjunta, que juega el mismo papel que una función de densidad univariada, pero para 2 v.a.’s conjuntamente. Esto da lugar a la siguiente definición.


Definición. Sean X y Y v.a.’s continuas, y FX,Y:R2R su función de distribución conjunta. Entonces FX,Y puede expresarse como sigue:

FX,Y(x,y)=xyfX,Y(u,v)dvdu,para cada (x,y)R2.

De este modo, fX,Y:R2R es llamada la función de densidad conjunta de X y Y.


De igual forma que con las función de distribución conjunta, la función de densidad conjunta es una generalización multivariada de la función de densidad. Además, también existen técnicas de marginalización que son análogas al caso discreto. Primero, recuerda que integrar la función de densidad sobre un intervalo es nuestra forma de sumar continuamente las probabilidades de cada punto en el intervalo. Esto es:

P(X(a,b])=abfX(x)dx.

Si tomamos la idea del teorema de probabilidad total, pero integramos sobre todo el conjunto de valores de una de las v.a.’s (en vez de sumar, como hicimos en el caso discreto), podemos expresar la función de densidad marginal de X como

fX(x)=fX,Y(x,y)dy,para cada xR.

Es decir, integramos sobre todo el dominio de la v.a. que queremos quitar, que en este caso es Y. Análogamente, para Y se tiene que

fY(y)=fX,Y(x,y)dx,para cada yR.

Este es el proceso de marginalización para el caso continuo. Observa que las funciones resultantes son las funciones de densidad marginales. Como tal, los valores que toman estas funciones no son probabilidades, por lo que la marginalización es más sutil que en el caso discreto (ya que el teorema de probabilidad total se usa para probabilidades, y para particiones a lo más numerables).

Ejemplo 2. Sean X y Y dos v.a.’s tales que su función de densidad conjunta es fX,Y dada por

fX,Y(x,y)={y(12x)+xsi x(0,1) y y(0,2),0en otro caso.

La gráfica de esta función se ve como sigue:

Gráfica de la densidad conjunta de 'X' y 'Y'.
Figura. Gráfica de la función de densidad conjunta de X y Y. Como el dominio de fX,Y es R2, la gráfica de esta función es un lugar geométrico en R3.

Sin embargo, hay un detallito que quizás tengas en la cabeza: ¿cómo se interpreta que esta función sea «de densidad», en un sentido vibariado? A grandes rasgos, debe de cumplir lo mismo que una función de densidad univariada. En particular, el valor de la integral sobre su dominio debe de ser 1. En este caso, esto significa que se debe de cumplir que

fX,Y(x,y)dxdy=1.

Como muy probablemente no conoces métodos (ni teoría) de integración bivariada, simplemente te diremos que fX,Y sí es una función de densidad bivariada, y que sí cumple la condición anterior.

Por otro lado, algo que podemos hacer con los conocimientos que posees hasta ahora es obtener las marginales. Obtengamos la densidad marginal de X, para lo cual hay que integrar fX,Y sobre todo el dominio de Y:

fX,Y(x,y)dy=02[y(12x)+x]dy,

en donde x(0,1), pues es donde la densidad conjunta no vale 0. Como esta integral es con respecto a y, podemos pensar que x es una constante respecto a la variable de integración. Por ello, la integral anterior puede resolverse de manera directa con herramientas de Cálculo II:

02[y(12x)+x]dy=02(12x)ydy+02xdy=(12x)02ydy+x021dy=(12x)(y22)|y=02+x(20)=(12x)(402)+2x=2(12x)+2x=1+2x2x=1,

para cada x(0,1). En consecuencia, la densidad marginal de X es fX dada por

fX(x)={1si x(0,1),0en otro caso.

Así, llegamos a que X sigue una distribución uniforme en el intervalo (0,1).


Independencia en el caso continuo

De manera similar al caso discreto, además del criterio dado por el Teorema 1, podemos dar la siguiente criterio de independencia para dos v.a.’s continuas.


Proposición 2. Sean X, Y variables aleatorias. Si X y Y son continuas, entonces X y Y son independientes si y sólamente si

fX,Y(x,y)=fX(x)fY(y),para cualesquiera x,yR,

donde fX,Y es la función de densidad conjunta de X y Y, y fX y fY son las funciones de densidad marginales.


Es decir, dos v.a.’s continuas son independientes si su función de densidad conjunta es el producto de sus funciones de densidad (marginales).

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Demuestra que 1. implica a 2. en el Teorema 1.
  2. En el Ejemplo 1:
    1. Verifica que la función pX:RR que obtuvimos es una función de masa de probabilidad.
    2. Encuentra pY:RR, la función de masa de probabilidad de Y.
  3. En el Ejemplo 2:
    1. Encuentra la función de densidad marginal de Y.
    2. ¿Son independientes X y Y?

Más adelante…

Usaremos los temas que vimos en esta entrada en la próxima entrada, ya que serán necesarios algunos detallitos de probabilidad multivariada para entender las propiedades del valor esperado que veremos a continuación. Por el momento sólo es importante que sepas que existen estos temas de probabilidad multivariada, y entiendas lo que significan los conceptos vistos en esta entrada.

En un curso de Probabilidad II verás con muchísimo detalle los temas que presentamos en esta entrada, así que no te preocupes si los temas que vimos aquí no te quedaron completamente claros.

Entradas relacionadas

Probabilidad I: Transformaciones de V.A.’s Continuas

Por Octavio Daniel Ríos García

Introducción

En la entrada pasada comenzamos a abordar el problema de encontrar la distribución de la transformación de una v.a. conocida. En particular, analizamos un método para el caso en el que la v.a. conocida es discreta, y sólamente para ese caso. No obstante, este método nos servirá como «base» para dar paso al caso continuo. Primero presentaremos un método que consiste en manipular directamente la función de distribución; muy parecido al método que vimos en la entrada pasada. Después, analizaremos un método más especializado que permite encontrar la función de densidad de la transformación de una v.a. sin necesidad de manipular la función de distribución.

Motivación del primer método

Sea X una v.a. y g:RR una función Borel-medible. En la entrada pasada ya describimos el proceso para obtener los eventos de g(X) en términos de eventos que involucran a X. De hecho, vimos que para cada AB(R) se cumple que

(g(X)A)=(Xg1[A]).

¡Atención! En la entrada pasada centramos nuestra atención en las v.a.’s discretas, pero la igualdad anterior es cierta para cualquier variable aleatoria. Por ello, también aplica para las v.a.’s continuas. En particular, para cada yR se cumple que (,y]B(R), por lo que

(g(X)y)=(g(X)(,y])=(Xg1[(,y]]).

Por lo tanto, se tiene que

P(g(X)y)=P(Xg1[(,y]]).

Es decir, si definimos a Y=g(X) y FY:RR es la función de distribución de Y, entonces lo anterior quiere decir que para cada yR,

FY(y)=P(Xg1[(,y]]);

por lo que es posible obtener la distribución de Y en términos de la probabilidad de un evento que involura a X, cuya distribución sí conocemos.

Primer método: manipular la función de distribución

Con la discusión anterior llegamos a que si X es una v.a. (cuya distribución es conocida), g:RR es una función Borel-medible, y Y es la v.a. definida como Y=g(X), entonces la función de distribución de Y, FY:RR, puede obtenerse como

FY(y)=P(Xg1[(,y]])para cada yR.

Por ello, el problema consistirá en encontrar el conjunto g1[(,y]], y así encontrar la probabilidad de (Xg1[(,y]]).

Ejemplo 1. Sea X una v.a. con función de densidad fX:RR dada por

fX(x)=12e|x|,para cada xR.

Una v.a. con esta función de densidad es conocida como una v.a. con distribución Laplace, o distribución doble exponencial. Su función de distribución FX:RR está dada por

FX(x)={12exsi x<0,112exsi x0.

Sea g:RR la función dada por g(x)=|x| para cada xR. De este modo, defínase Y=g(X)=|X|. Para obtener la función de distribución Y, podemos seguir un método similar al que usamos en la entrada anterior. Sea yR. Un primer detalle que podemos observar sobre Y es que no toma valores negativos. Por ello, si y<0, se tiene que (Yy)=, y en consecuencia, P(Yy)=0 para y<0. Por otro lado, para y0 se tiene que que

ω(Yy)Y(ω)y|X(ω)|yyX(ω)yω(yXy),

por lo que para cada y0 se tiene que (Yy)=(yXy). Como esos dos eventos son iguales, se sigue que P(Yy)=P(yXy). , por lo queAdemás, nota que

P(yXy)=P(Xy)P(X<y)()=P(Xy)P(Xy)=FX(y)FX(y),

donde el paso () es válido debido a que X es una v.a. continua. Por ello, podemos concluir que para cada y0,

FY(y)=FX(y)FX(y).

Por lo tanto, la función de distribución de Y queda como sigue:

FY(y)={0si y<0,FX(y)FX(y)si y0.

De aquí podemos obtener una expresión explícita. Para cada y0 se tiene que y0, así que

FX(y)FX(y)=(112ey)12ey=112ey12ey=1ey.

En conclusión, la función de distribución de Y queda así:

FY(y)={0si y<0,1eysi y0.

Probablemente te resulte familiar: ¡Es la función de distribución de una v.a. exponencial! Este ejemplo exhibe que algunas transformaciones de algunas v.a.’s «famosas» resultan en otras v.a.’s «famosas». En este caso, vimos que si X es una v.a. que sigue una distribución Laplace, entonces |X| sigue una distribución exponencial. Más adelante veremos muchas más distribuciones importantes, y veremos cómo se relacionan entre sí mediante transformaciones.


Segundo método: teorema de cambio de variable

Existe un método más especializado para obtener la función de densidad de la transformación de una v.a. continua. La razón por la que decimos que es más especializado es porque funciona para transformaciones que cumplen ciertas condiciones.


Teorema. Sea X:ΩR una v.a. continua con función de densidad fX:RR, y sea g:X[Ω]R una función diferenciable y estrictamente creciente o decreciente. Entonces la función de densidad de Y=g(X) está dada por

fY(y)={fX(g1(y))|ddy[g1(y)]|si y(gX)[Ω],0en otro caso,

donde g1:g[R]R es la inversa de g, y (gX)[Ω] es la imagen directa de Ω bajo gX. Esto es, (gX)[Ω]={yRωΩ:(gX)(ω)=y}, que corresponde al conjunto de valores que toma la v.a. Y=g(X).


Demostración. Demostraremos el caso en el que g es estrictamente creciente. Para ello, sea yR. Primero, recuerda que

(Yy)=(Xg1[(,y]]).

Por un lado, se tiene el caso en el que y(gX)[Ω]; es decir, y es uno de los valores que toma la v.a. Y (pues (gX)[Ω]=Y[Ω]). En este caso, el valor g1(y) está bien definido, ya que g1:(gX)[Ω]R es una función cuyo dominio es la imagen de g. De este modo, para cada ωΩ tendremos que

()Y(ω)yX(ω)g1(y).

Como g es una función estrictamente creciente, su inversa g1:(gX)[Ω]R también es estrictamente creciente, y por lo tanto, la desigualdad en () «no se voltea».

De lo anterior se sigue que P(Yy)=P(Xg1(y)) para cada y(gX)[Ω]. En consecuencia, se tiene que

FY(y)=FX(g1(y)).

Podemos diferenciar ambos lados de la igualdad respecto a y, y por la regla de la cadena obtenemos

fY(y)=fX(g1(y))ddy[g1(y)]=fX(g1(y))|ddy[g1(y)]|,

donde el último paso se obtiene de que g1 es estrictamente creciente, y por lo tanto, su derivada es positiva.

Por otro lado, resta el caso en el que y(gX)[Ω]; es decir, cuando y no es uno de los valores que puede tomar Y. En este caso, simplemente fY vale 0, pues la densidad de una v.a. continua es 0 en aquellos valores que no toma. De este modo, Y tiene densidad fY:RR dada por

fY(y)={fX(g1(y))|ddy[g1(y)]|si y(gX)[Ω],0en otro caso,

que es justamente lo que queríamos demostrar.

El caso para g estrictamente decreciente es casi análogo, por lo que te lo dejamos de tarea moral.

◻

Es importante notar que el teorema anterior no funciona para cualquier g:RR Borel-medible, sólamente para aquellas que cumplen las hipótesis del teorema. Bajo estas hipótesis, el teorema permite obtener la densidad de la transformación de una v.a. de manera más eficiente que los otros métodos que hemos abordado.

Ejemplo 2. Sea Z una v.a. con densidad fZ:RR dada por

fZ(z)=12πez2/2,para cada zR.

Se dice que una v.a. con esa función de densidad sigue una distribución normal estándar. Observa que fZ(z)>0 para todo zR, por lo que Z[Ω]=R. Es decir, Z puede tomar cualquier valor en R.

Sea W=eZ. La función exp:RR+ dada por exp(x)=ex es estrictamente creciente y diferenciable, por lo que podemos usar el teorema anterior para obtener la función de densidad de W. Así, tenemos que

fW(w)=fZ(exp1(w))|ddw[exp1(w)]|,

donde exp1:R+R es la inversa de la función exponencial exp. De hecho, la inversa de exp es la función ln:R+R, el logaritmo natural. Ahora, como Z[Ω]=R, se tiene que (expZ)[Ω]=R+, pues la función exp toma únicamente valores positivos.

En consecuencia, para wR+ se tiene

fW(w)=fZ(ln(w))|ddw[ln(w)]|=fZ(ln(w))|1w|=1w2πexp((ln(w))22)

y así, tenemos que W tiene densidad fW:RR dada por

fW(w)={1w2πexp((ln(w))22)si w>0,0en otro caso.

Como nota adicional, fW es la densidad de una v.a. cuya distribución es conocida como log-normal.


Para concluir, es importante mencionar que la transformación g del teorema sólamente necesita ser diferenciable y estrictamente creciente sobre X[Ω] (por eso es que en el enunciado la pusimos como g:X[Ω]R). Por ejemplo, la función g:R+{0}R dada por g(x)=x2 es una función creciente sobre su dominio. Por ello, si X es una v.a. continua que toma únicamente valores no-negativos, entonces puede aplicarse el teorema para obtener la densidad de g(X). En resumidas cuentas, el teorema puede aplicarse siempre y cuando la transformación g sea diferenciable y estrictamente creciente sobre el conjunto de valores que puede tomar X.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la función de distribución de la v.a. X del Ejemplo 1 es la función que te dimos. Es decir, obtén la función de distribución de X a partir de su función de densidad.
  2. Demuestra el caso en el que g es estrictamente decreciente del teorema de cambio de variable.
  3. Retoma el segundo Ejemplo 2, pero esta vez comienza con la v.a. W, cuya función de densidad es fW(w)={1w2πexp((ln(w))22)si w>0,0en otro caso,y encuentra la función de densidad de Z=ln(W) usando el teorema.

Más adelante…

El teorema de esta entrada es muy útil para obtener la densidad (y, en consecuencia, la distribución) de muchas transformaciones de v.a.’s continuas. Por ello, nos será de utilidad en el futuro relativamente cercano, cuando veamos las distribuciones de probabilidad más conocidas. Por otro lado, te será de utilidad mucho más adelante en materias posteriores, pues este teorema puede generalizarse al caso en el que la transformación tiene como dominio a Rn y como codominio a R con nN+ y n2 (por ejemplo, g:R2R dada por g(x,y)=x+y).

En la siguiente entrada comenzaremos el estudio de un concepto asociado a las v.a.’s llamado el valor esperado de una variable aleatoria.

Entradas relacionadas

Probabilidad I: Transformaciones de Variables Aleatorias

Por Octavio Daniel Ríos García

Introducción

En la entrada pasada vimos el último tipo importante de v.a. que veremos, por ahora: las v.a.’s mixtas. En particular, vimos una manera de construir v.a.’s mixtas siguiendo un método muy sencillo: evaluando el max y el min en alguna v.a. continua. Esto puede pensarse como «transformar» la v.a. continua dada mediante las funciones max y min. No sólamente la transformación fue posible, sino que además la función resultante es una v.a., y obtuvimos su función de distribución. Este proceso puede generalizarse para obtener la distribución de muchas más funciones de v.a.’s continuas.

Composición de funciones y variables aleatorias

Una de las cosas que hicimos en la entrada pasada fue ver que, dada una v.a. continua X, podíamos obtener v.a.’s mixtas a partir de X. Vamos a refinar un poco lo que hicimos en la entrada pasada. Sea cR, y sea maxc:RR la función dada por

maxc(x)=max{x,c},para cada xR.

De este modo, definimos una v.a. nueva U como U=maxc(X). Sin embargo, ¿qué es exactamente «maxc(X)»? Sabemos que X es una «variable aleatoria», lo que significa que U es como «evaluar» una función en una variable aleatoria. No obstante, esto no es otra cosa que… ¡una composición de funciones! Como recordatorio de Álgebra Superior I, dadas funciones f:AB, g:BC, la composición gf:AC, llamada f seguida de g, se define como

gf(x)=g(f(x)),para cada xA.

Recordando la definición de variable aleatoria, cuando tenemos un espacio de probabilidad (Ω,F,P) sabemos que una función X:ΩR es una variable aleatoria si satisface una condición de «medibilidad», que dimos hace unas entradas. De momento, lo que más nos importa es que una v.a. es una función. En consecuencia, la v.a. U que definimos no es otra cosa que maxcX:ΩR, dada por

maxcX(ω)=max{X(ω),c},para cada xΩ,

que es justamente como la definimos en la entrada anterior a esta. Ahora bien, dadas una v.a. X:ΩR y una función g:RR, hay que tener cuidado con g para que gX sea una v.a., pues puede pasar que la función resultante no es una variable aleatoria, de acuerdo con la definición. Nosotros nos abstendremos de presentar casos degenerados de ese estilo, pero expondremos las condiciones que se necesitan para que una transformación de una v.a. sea nuevamente una v.a.

¿Cuáles funciones sí dan como resultado variables aleatorias?

Comenzaremos con una definición general del tipo de funciones que nos serán útiles.


Definición. Si g:RR es una función, diremos que g es una función Borel-medible si para cada BB(R) se cumple que g1(B)B(R).

Es decir, g es una función Borel-medible si la imagen inversa de cualquier elemento del σ-álgebra de Borel es también un elemento del σ-álgebra de Borel.


Si recuerdas la definición de variable aleatoria, podrás observar que… ¡Es casi la misma! En realidad, ambas son el mismo concepto en la teoría más general: son funciones medibles. En particular, las funciones Borel-medibles reciben su nombre por el σ-álgebra que preservan: el σ-álgebra de Borel. De hecho, observa que las funciones Borel-medibles son un caso particular de nuestra definición de variable aleatoria, usando (R,B(R),P) como espacio de probabilidad. Por ello, todos los resultamos que hemos visto hasta ahora para v.a.’s aplican para funciones Borel-medibles.

Resulta que esta clase de funciones son aquellas que, al componer con una v.a., nos devuelven otra variable aleatoria.


Proposición. Sean (Ω,F,P) un espacio de probabilidad, X:ΩR una v.a. y g:RR una función Borel-medible. Entonces gX:ΩR es una variable aleatoria.


Demostración. Queremos demostrar que gX es una variable aleatoria. Es decir, que para cada AB(R) se cumple que (gX)1[A]F. Ahora, (gX)1[A]=X1[g1[A]], por propiedades de la imagen inversa. En consecuencia, hay que ver que para cada AB(R) se cumple que X1[g1[A]]F.

Sea AB(R). Como g es una función Borel-medible, esto implica que g1[A]B(R). Ahora, como X es una variable aleatoria, g1[A]B(R) implica X1[g1[A]]F, que es justamente lo que queríamos demostrar.

◻

Así, si g:RR es una función Borel-medible y X:ΩR es una variable aleatoria, entonces gX es también una variable aleatoria.

Pero entonces, ¿qué funciones podemos usar?

A pesar de que lo anterior nos da muchas funciones con las cuales transformar v.a.’s, de momento quizás no conozcas ninguna función Borel-medible. No temas, el siguiente teorema nos da una gran cantidad de funciones que son Borel-medibles, y con las cuales seguramente te has encontrado antes.


Proposición. Si g:RR es una función continua, entonces es Borel-medible.


Demostración. Sea g:RR una función continua. Queremos demostrar que g es Borel-medible. Es decir, que para cada xR, X1[(,x)]B(R).

Sea xR. Como (,x) es un intervalo abierto, es un subconjunto abierto (en la topología usual) de R. En consecuencia, como g es continua, g1[(,x)] también es un subconjunto abierto de R.

Ahora, como g1[(,x)] es un abierto, esto implica que existe una familia numerable de intervalos abiertos {In}n=1 tales que

g1[(,x)]=n=1In.

Nota que como In es un intervalo abierto, para cada nN+, entonces InB(R). Por lo tanto, n=1InB(R), que implica g1[(,x)]B(R), que es justamente lo que queríamos demostrar.

◻

Es muy probable que estés cursando Cálculo Diferencial e Integral III al mismo tiempo que esta materia, por lo que quizás no hayas visto algunos detalles de la topología usual de R que utilizamos en la demostración anterior. Puedes consultar nuestras notas de Cálculo Diferencial e Integral III sobre el tema si lo consideras necesario.

Con esta última proposición hemos encontrado una gran cantidad de funciones válidas para transformar v.a.’s. Seguramente conoces muchísimas funciones continuas: los polinomios, funciones lineales, algunas funciones trigonométricas (como sin y cos), etcétera.

Un primer método para obtener la distribución de una transformación

Una vez que conocemos muchas funciones con las cuales podemos transformar v.a.’s, nuestro objetivo es encontrar la distribución de tales transformaciones. Si g:RR es una función Borel-medible y X:ΩR es una v.a. (cuya función de distribución es conocida), queremos encontrar la distribución de Y=gX. Para hacerlo, basta con encontrar la probabilidad de los eventos de la forma

(Yy)=(gXy)={ωΩg(X(ω))y}.

Es común encontrar la notación g(X)=gX, y de este modo, se usa (g(X)y) para referirse a los eventos (gXy).

Sin embargo, el caso de las v.a.’s discretas puede ser más sencillo, ya que la función de masa de probabilidad caracteriza el comportamiento de ese tipo de v’a’s. Veamos cómo hacerlo mediante el siguiente ejemplo.

Ejemplo. Sea Z una v.a. con función de masa de probabilidad pZ:RR dada por

pZ(z)={15si z{2,1,0,1,2},0en otro caso.

Figura. Gráfica de la función de masa de probabilidad de Z.

Ahora, sea g:RR la función dada por

g(x)=x2para cada xR.

Defínase Y=g(Z), es decir, Y=Z2. Primero, el conjunto de posibles valores que puede tomar Y es

{z2zIm(Z)}={(2)2,(1)2,02,12,22}={4,1,0,1,4}={0,1,4}.

Observa que Y puede tomar 3 valores distintos, mientras que Z puede tomar 5. Ya desde este momento se nota que las probabilidades de los eventos que involucran a Y van a ser distintas a los de Z.

Sea yR. Para obtener la función de masa de probabilidad de Y tenemos que obtener la probabilidad de los eventos de la forma (Y=y). Este evento es

(Y=y)={ωΩY(ω)=y},

Es decir, ω(Y=y)Y(ω)=y. Usando la definición de Y, se tiene que

ω(Y=y)Y(ω)=y(gZ)(ω)=yg(Z(ω))=y(Z(ω))2=y|Z(ω)|=y(Z(ω)=yZ(ω)=y),

esto es, ω es un elemento de (Y=y) si y sólamente si Z(ω)=y o Z(ω)=y. Esto es equivalente a que ω(Z=y)(Z=y), por lo que podemos concluir que

(Y=y)=(Z=y)(Z=y).

En consecuencia, P(Y=y)=P((Z=y)(Z=y)), y así:

P(Y=y)=P(Z=y)+P(Z=y).

Para y<0, observa que

(Z=y)={ωΩZ(ω)=y}=,

pues Z toma valores en los reales, no en los complejos. Del mismo modo, cuando y<0, (Z=y)=; y así,

P(Y=y)=P(Z=y)+P(Z=y)=0,para y<0.

Por otro lado, para y0, sólamente hay 3 valores que importan: 0, 1 y 4, como acordamos previamente. Para el caso de y=0, observa que (Z=0)(Z=0)=(Z=0), pues

ω(Z=0)(Z=0)(Z(ω)=0Z(ω)=0)(Z(ω)=0Z(ω)=0)Z(ω)=0ω(Z=0).

Por lo tanto, se tiene que

P(Y=0)=P(Z=0)=15.

Para y=1 y y=4 sí podemos aplicar la fórmula que obtuvimos:

P(Y=1)=P(Z=1)+P(Z=1)=P(Z=1)+P(Z=1)=15+15=25,P(Y=4)=P(Z=4)+P(Z=4)=P(Z=2)+P(Z=2)=15+15=25.

En conclusión, la función de masa de probabilidad de Y es la función pY:RR dada por

pY(y)={15si y=0,25si y=1 o y=4,0en otro caso.

Figura. Función de masa de probabilidad de Y.

El ejemplo anterior ilustra lo que se debe de hacer para obtener las probabilidades de la transformación de una v.a. discreta. Sea X:ΩR una v.a. y sea g:RR una función Borel-medible. Para cada AB(R), sabemos que el evento (XA) no es otra cosa que X1[A]. Definimos la v.a. Y como Y=g(X). Ahora, sabemos que para cada ωΩ se cumple que

ωX1[A]X(ω)A,

por la definición de imagen inversa. En consecuencia, para (YA) tenemos que

ω(YA)ω(g(X)A)g(X(ω))AX(ω)g1[A]ω(Xg1[A]).

Por lo que (YA)=(Xg1[A]). Por ello, P(YA)=P(Xg1[A]). Esto tiene sentido: como Y=g(X), entonces la probabilidad de que g(X) tome algún valor en A es la misma que la probabilidad de que X tome algún valor en g1[A], pues todos los elementos de g1[A] son mandados a A cuando se les aplica g.

Finalmente, utilizando que X es una v.a. discreta, tendremos que

(2)P(YA)=xg1[A]P(X=x).

En el caso particular en el que existe yR tal que A={y}, tendremos que

(3)P(Y=y)=xg1[{y}]P(X=x),

justamente como hicimos en el ejemplo anterior. A continuación presentamos otro ejemplo siguiendo la misma metodología.

Ejemplo. Sea V una v.a. con función de masa de probabilidad pV:RR dada por

pV(v)={12|v|+1si v{3,2,1,1,2,3},116si v=0,0en otro caso.

Figura. Gráfica de la función de masa de probabilidad de V.

Nuevamente, considera la transformación g:RR dada por g(x)=x2 para cada xR. De este modo, defínase la v.a. T como T=g(V). Antes que nada, el conjunto de valores que puede tomar T es el resultado de transformar el conjunto de los valores que puede tomar V. Si Supp(V)={3,2,1,0,1,2,3} es el conjunto de valores que puede tomar V, entonces el conjunto de valores que puede tomar T es

g(Supp(V))={tRvSupp(V):g(v)=t}={0,1,4,9}.

Como g es la misma transformación que en el ejemplo anterior, hay algunas cosas que ya sabemos. Primero,

P(T=t)=0,para cada t<0,

mientras que para t=0, se tiene que P(T=0)=P(V=0)=18. Para t>0, vimos previamente que g1[{t}]={t,t}. Así, tendremos que

P(T=t)=vg1[{t}]P(V=v)=P(V=t)+P(V=t).

En particular, la v.a. V sólamente toma probabilidades mayores a 0 en {3,2,1,0,1,2,3}, por lo que P(T=t)>0 para t{0,1,4,9}, y P(T=t)=0 en otro caso. Así, tenemos que

P(T=1)=P(V=1)+P(V=1)=12|1|+1+12|1|+1=122+122=24=12,P(T=4)=P(V=4)+P(V=4)=12|2|+1+12|2|+1=18+18=14,P(T=9)=P(V=9)+P(V=9)=12|3|+1+12|3|+1=116+116=18.

Alternativamente, podemos obtener una fórmula cerrada para cada t{1,4,9}, que queda así:

P(T=t)=P(V=t)+P(V=t)=12|t|+1+12|t|+1=12t+1+12t+1=22t+1=12t.

Y así obtenemos una expresión para la función de masa de probabilidad de T:

pT(t)={12tsi t{1,4,9},18si t=0,0en otro caso.

Figura. Gráfica de la función de masa de probabilidad de T.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la función de masa de probabilidad de la v.a. Z del primer ejemplo satisface las propiedades de una función de masa de probabilidad.
  2. Haz lo mismo para la función de masa de probabilidad de la v.a. V del segundo ejemplo.
  3. Retomando los dos ejemplos vistos en esta entrada y las v.a.’s Z y V de cada ejemplo, y tomando la transformación f:RR dada por f(x)=x3x24x+4:
    1. Encuentra la función de masa de probabilidad de f(Z).
    2. Encuentra la función de masa de probabilidad de f(V).

Más adelante…

El método expuesto en esta entrada funciona para cualquier variable aleatoria discreta. No hay fórmulas «cerradas» para la f.m.p. (función de masa de probabilidad) de la transformación de una v.a. discreta. Sin embargo, las fórmulas (2) y (3) son suficientes para encontrar las probabilidades de eventos que involucran a la transformación de la v.a. discreta conocida. No obstante, estas fórmulas sólamente funcionan para v.a.’s discretas. Por ello, en la siguiente entrada centraremos nuestra atención en el caso de las v.a.’s continuas.

Entradas relacionadas

Probabilidad I: Variables Aleatorias Continuas

Por Octavio Daniel Ríos García

Introducción

En la entrada anterior comenzamos el estudio de los dos tipos de v.a.’s que nos interesan, y vimos el caso de las v.a.’s discretas. Sin embargo, puede que te preguntes exactamente por qué es necesaria esta distinción. Por ello, en esta entrada presentaremos las propiedades de las v.a.’s continuas para que compares ambos tipos, y puedas apreciar sus diferencias.

A diferencia de las v.a.’s discretas, las v.a.’s continuas pueden tomar una cantidad infinita no numerable de valores distintos. Es decir, el conjunto de valores que puede tomar una v.a. continua tiene la misma cardinalidad que los números reales.

Definición de una v.a. continua

En la introducción comentamos que las v.a.’s continuas, a grandes rasgos, son aquellas cuyo conjunto de valores posibles es infinito no numerable. Sin embargo, no las definiremos a partir de este hecho, sino a partir de una propiedad que debe cumplir su función de distribución.


Definición. Una variable aleatoria X es absolutamente continua si y sólamente si existe una función f:RR integrable y no-negativa tal que para cada xR se cumple que

FX(x)=xf(t)dt.

Llamamos a f la función de densidad (o simplemente la densidad) de X.


A este tipo de v.a.’s se les llama absolutamente continuas debido a que su función de distribución es una función absolutamente continua. Es común encontrarse con el término «continua» en vez de «absolutamente continua«, aunque en contextos más formales existen diferencias entre ambos términos. De manera equivalente, una v.a. X es continua si existe una función f:RR integrable y no-negativa tal que para cada xR se cumple que

P(Xx)=xf(t)dt,

por la definición de FX. Es decir, X es una v.a. continua si la función de distribución de X puede escribirse como la integral de una función integrable y no-negativa f, que es llamada la densidad de X. Es decir, las probabilidades de los eventos que involucran a una v.a. continua se pueden expresar en términos del área debajo de su función de densidad.

En consecuencia, si X es una v.a. continua con densidad f:RR, como FX(x)1 cuando x, se tiene que

f(t)dt=1.

Además, para cada a, bR tales que a<b se tiene que P(X(a,b])=FX(b)FX(a), por lo que

P(X(a,b])=bf(t)dtaf(t)dt=abf(t)dt.

Es importante notar que en la definición pedimos que la densidad de una v.a. continua X debe ser una función integrable, lo cual garantiza que la función de distribución de X es continua.

Ejemplo 1. Sea λR tal que λ>0 y sea X una v.a. con distribución F:RR dada por

F(x)={1eλxsi x0,0en otro caso.

Gráficamente, para algunos valores de λ, F se ve como sigue:

Figura. Gráfica de la función F(x)=1eλx para distintos valores de λ.

Si tomamos a f:RR como sigue

f(x)={λeλxsi x0,0en otro caso,

se cumplirá que f es la densidad de X. Para verlo, tomamos xR. Primero, observa que si x<0, entonces

xf(t)dt=x0dt=0=F(x),

donde F(x)=0 se cumple por la definición de F. Por otro lado, para el caso en el que x0 se tiene que

xf(t)dt=00dt+0xλeλtdt=0+(eλt)|0x=eλ0eλx=1eλx,

por lo que queda demostrado que para cada xR se cumple que F(x)=xf(t)dt. Por lo tanto, f es la densidad de X.

Figura. Gráfica de la función de densidad de X, f(x)=λeλx, para algunos valores de λ.

Cuando una v.a. tiene la función de distribución (y, en consecuencia, la densidad) del ejemplo anterior, se dice que sigue una distribución exponencial. Esta es una de las muchas distribuciones importantes que veremos más adelante.

¿Las v.a.’s continuas tienen función de masa de probabilidad?

Como seguramente ya notaste, la relación que existe entre la densidad y la función de distribución de una v.a. continua se parece mucho a la relación entre la masa de probabilidad y la distribución de una v.a. discreta. En el caso de las discretas, para obtener el valor de F(x) para xR a partir de la función de masa de probabilidad, lo que se hace es sumar todas las probabilidades de los valores menores o iguales a x. Por otro lado, en el caso de las continuas lo que se hace es integrar la función de densidad desde hasta x.

Sin embargo, hay un detalle muy importante en el que difieren las v.a.’s continuas de las discretas, que desarrollaremos a continuación. Sea X una v.a. continua. ¿Recuerdas la siguiente propiedad? La vimos en la entrada pasada. Para cada aR, se cumple que

P(X=a)=FX(a)FX(a),

donde no olvides que FX(a) es el límite de F(x) cuando x tiende a a por la izquierda. Sin embargo, en el caso de una v.a. continua, sabemos que existe f:RR integrable y no-negativa tal que para cada xR, se cumple que

FX(x)=xf(t)dt.

Debido a que f es una función integrable, la función FX es continua. En particular, es continua por la izquierda, por lo que para cada aR se cumple que

P(X=a)=FX(a)FX(a)=FX(a)FX(a)=0.

Esto seguramente te resulta confuso, ¿la probabilidad de que la v.a. X tome cualquier valor real es 0? ¡Así es! Sin embargo, nosotros habíamos dicho que en la probabilidad, medíamos qué tan «probable» es que pase un evento con una calificación del 0 al 1. En particular, habíamos acordado que 0 representa lo más improbable posible. ¿Esto significa que es imposible que una v.a. continua tome algún valor fijo? ¡No! Ten mucho cuidado, nosotros dijimos que cuando un evento tiene probabilidad 0 esto significa que es lo más improbable posible de acuerdo con la medida de probabilidad que se está utilizando. Esto puede interpretarse como que sí es imposible (como pasa con los puntos de probabilidad 0 en una v.a. discreta, o los puntos donde la densidad de una v.a. continua vale 0), o puede significar que es muy improbable, pero no imposible.

Además, debido a esto último, cuando X es una v.a. continua se cumple que

P(X(a,b])=P(X(a,b))=P(X[a,b))=P(X[a,b]),

y que

P(Xa)=P(X<a),P(Xa)=P(X>a),

por lo que con las v.a.’s continuas no es necesario preguntarse si la desigualdad es estricta o no. Mucho cuidado, con las discretas sí debes de tener cuidado con eso, porque en las discretas hay valores aR para los cuales P(X=a)>0.

Pese a que la probabilidad de los eventos (X=a) es 0 para cada aR cuando X es una v.a. continua, la variable aleatoria sí puede tomar cualquiera de los valores en los que su función de densidad es mayor a 0.

Partiendo de una función de densidad

En la entrada pasada vimos que puede definirse la distribución de una v.a. discreta a partir de una función de masa de probabilidad. De manera muy similar, puede definirse la distribución de una v.a. continua a partir de una función de densidad. Sin embargo, hay que establecer las propiedades que debe de satisfacer una función para poder uitlizarla como función de densidad.

Sea f:RR una función integrable. Si se cumple que

(1)f(x)0para cada xR,(2)f(t)dt=1,

entonces f es la densidad de alguna v.a. continua. Para confirmar este hecho, define F:RR como

F(x)=xf(t)dt,para cada xR,

y demuestra (tarea moral) que F es una función de distribución. Esto es, que F es no-decreciente, continua por la derecha y su límite a es 1 y a es 0.

Ejemplo 2. La función de densidad de una v.a. continua debe de ser integrable. Sin embargo, no tiene por qué ser continua, ya que funciones integrables que tienen discontinuidades. Por ejemplo, considera a f:RR dada por

f(x)={1si x[1.5,1],1si x[1,1.5],0en otro caso.

Gráficamente:

Figura. Gráfica de la función f. Observa que claramente f no es una función continua.

Para ver que f es la función de densidad de alguna v.a. continua, hay que demostrar que f satisface:

f(x)0para cada xRyf(t)dt=1.

Primero, observa que por la definición de f, para cada xR se cumple que f(x)=0 o f(x)=1, por lo que f es no-negativa. Por otro lado, veamos cuánto vale la integral de f sobre R.

f(t)dt=1.5f(t)dt+1.51f(t)dt+11f(t)dt+11.5f(t)dt+1.5f(t)dt=1.50dt+1.511dt+110dt+11.51dt+1.50dt=1.511dt+11.51dt=(t|1.51)+(t|11.5)=(1(1.5))+(1.51)=(1+1.5)+(1.51)=0.5+0.5=1,

por lo que f(t)dt=1, así que f es la función de densidad de alguna v.a. continua.

A partir de f podemos obtener la función de distribución que le corresponde, donde para cada xR, se define F como

F(x)=xf(t)dt.

Sin embargo, como f está definida por pedazos, hay que tener cuidado con cada uno de los casos para x. En este caso, f tiene 5 casos que analizar. Primero, cuando x<1.5, tenemos que

F(x)=xf(t)dt=x0dt=0,

pues f(x)=0 cuando x<1.5. Luego, cuando 1.5x1, tenemos que

F(x)=xf(t)dt=1.50dt+1.5x1dt=0+(t|1.5x)=x(1.5)=x+1.5,

¡observa con cuidado cómo los integrandos difieren debido a que f está definida por pedazos! Continuando con el ejemplo, cuando 1<x<1, se tiene que

F(x)=xf(t)dt=1.50dt+1.511dt+110dt=0+(t|1.51)+0=(1)(1.5)=0.5,

es decir, F permanece constante entre 1 y 1, y toma el valor 0.5. Cuando 1x1.5, la integral queda como sigue

F(x)=xf(t)dt=1.50dt+1.511dt+110dt+1x1dt=0+(t|1.51)+0+(t|1x)=((1)(1.5))+(x1)=0.5+x1=x0.5,

y así obtenemos la función de distribución asociada a f, que es

F(x)={0si x<1.5,x+1.5si 1.5x1,0.5si 1<x<1,x0.5si 1x1.5,1si 1.5x,

que gráficamente se ve como la siguiente figura

Figura. Gráfica de la función de distribución F. Observa que, informalmente, puede apreciarse que satisface las propiedades de una función de distribución (como ya lo esperábamos): es no-decreciente, continua por la derecha y sus límites a e son 0 y 1, respectivamente.

Teniendo la función de distribución, es posible calcular muchas probabilidades. Si U es una v.a. cuya distribución es la función F que obtuvimos, entonces podemos obtener:

P(U43)=43+1.5=43+32=8+96=160.16666,

por lo que P(U43)16.666%. Además, como U es una v.a. continua, se tiene que P(U43)=P(U<43), pues P(U=43)=0. Esto pasa con cualquier valor, como ya mencionamos anteriormente. Por ello, al obtener probabilidades de que una v.a. continua esté dentro de algún intervalo, puedes no preocuparte por los extremos. Otro ejemplo:

P(X(1.2,1.4])=F(1.4)F(1.2)=(1.40.5)((1.2)+1.5)=0.90.3=0.6,

que es igual a P(X(1.2,1.4)), pues P(X=1.4)=0.


Recuperando la densidad a partir de la distribución

Habrá situaciones en las que tendremos la función de distribución de una v.a. continua, y necesitaremos su función de densidad. El siguiente ejemplo exhibe una metodología para obtener la densidad de una v.a. continua a partir de su función de distribución.

Ejemplo 3. Sea Z una v.a. con distribución G:RR dada por

G(z)={0si x<0,z2si 0z<12,13(1z)2si 12z<1,1si z1,

que gráficamente se ve como sigue:

Figura. Gráfica de la función G. Parece que sí es una función de distribución… ¡No se te olvide verificarlo!

Ahora, para obtener la función de densidad de Z, digamos, g. Para hacerlo, hay que hacer el procedimiento inverso al que seguimos en el ejemplo anterior. No obstante, la densidad g será una función definida por pedazos, así como G (y como la densidad del ejemplo anterior).

Además, en lugar de integrar, ahora tenemos que encontrar la derivada G. Es decir, la función g que buscamos debe de satisfacer que

G(z)=g(z),para cada zR.

Sin embargo, observa que la función no es diferenciable sobre todo su dominio. Gráficamente, tiene un piquito en z=12, que es un indicador de que la función no es diferenciable en ese punto. Lo mismo pasa en z=1.

Sin embargo, es posible obtener la derivada de la función G en los pedazos en los que sí es diferenciable. Podemos trabajar de manera similar a como lo hicimos en el ejemplo anterior, analizando cada uno de los casos que contempla la regla de correspondencia de G. De este modo, sea z<0. Queremos encontrar g1, una función no-negativa, tal que

G(z)=zg1(t)dt,

y como z<0, G(z)=0, por lo que buscamos g1 tal que

zg1(t)dt=0,

que debe de ser una función constante para que se cumpla que G(t)=g1(t) para t<0. Además, g1 debe de ser no-negativa, pues buscamos que sea parte de una función de densidad, la cual debe de ser no negativa. De este modo, la única función g1 que satisface este hecho es la función dada por g1(t)=0, pues es constante y su integral de a z es 0, con z<0. De este modo, g, la derivada de G que buscamos, cumple que g(z)=0 para cada z<0.

Después, para z[0,12), tenemos que

G(z)=z2,

y lo que queremos es encontrar una función g2 tal que

G(z)=0g1(t)dt+0zg2(t)dt,

donde g1 es la que obtuvimos en el paso anterior (gracias al paso anterior sabemos que la derivada de G que estamos construyendo vale 0 de a 0). Por ello, buscamos g2 tal que

z2=0g1(t)dt+0zg2(t)dt=0+0zg2(t)dt=0zg2(t)dt,

por lo que g2 es la función dada por g2(t)=2z para cada z[0,12); ya que ddz(z2)=2z.

Ahora, para z[12,1), se tiene que

G(z)=13(1z)2,

y ahora buscamos una función g3 tal que

G(z)=0g1(t)dt+012g2(t)dt+12zg3(t)dt.

Desarrollando el lado derecho de esta última igualdad obtenemos la siguiente expresión

0g1(t)dt+012g2(t)dt+12zg3(t)dt=0+((12)202)+12zg3(t)dt=14+12zg3(t)dt,

y, por otro lado, desarrollando el lado izquierdo, obtenemos que

G(z)=13(1z)2=133z2=2(33z)2=3z12

por lo que la función g3 que buscamos debe de cumplir que

3z12=14+12zg3(t)dt,

que desarrollando un poco, nos dice que g3 debe de satisfascer

3z234=12zg3(t)dt.

Ahora, esto es algo que no se notó mucho en el paso anterior en el que obtuvimos g2, pero la expresión de la izquierda incluye las constantes de integración. Esto es de esperarse, pues se trata del teorema fundamental del cálculo.

Bien, ahora observa ddz(3z234)=32; así que g3(t)=32 es la función que queremos. Más aún, podemos confirmarlo integrando g3 de 12 a z:

12z32dt=3212z1dt=32(z12)=3z234,

por lo que g3(t)=32 es precisamente la función que buscamos.

Finalmente, para z1, tenemos que G(z)=1, por lo que nos queda encontrar g4 tal que

1=0g1(t)dt+012g2(t)dt+121g3(t)dt+1g4(t)dt,=00dt+0122tdtdt+12132dt+1g4(t)dt=0+14+(3234)+1g4(t)dt=14+(634)+1g4(t)dt=14+34+1g4(t)dt=1+1g4(t)dt

por lo que g4 debe de satisfacer que

1=1+1g4(t)dt,

o equivalentemente, que 1g4(t)dt=0. Similarmente a g1, la única función no-negativa que satisface esto es g4(z)=0, para cada z1. Así, colocando cada una de las funciones que hemos obtenido en el caso que le corresponde, obtenemos que la densidad de Z es la función g:RR dada por

g(z)={0si x<0,2zsi 0z<12,32si 12z<1,0si z1,

que gráficamente se ve como sigue:

Figura. Gráfica de g, la densidad de Z. Observa que g no es continua, algo que ya dejamos claro que no es necesario. Sin embargo, g claramente es una función integrable.

Usos de las variables aleatorias continuas

Las v.a.’s continuas tienen una cantidad no-numerable de valores que pueden tomar. Esto se debe a que R y muchos de sus subconjuntos son ejemplos de conjuntos infinitos no-numerables. Por ejemplo, los intervalos [0,1], [0,), (5,3] son ejemplos de conjuntos con cardinalidad infinita no-numerable. Por ello, las v.a.’s continuas se utilizan en fenómenos cuyo resultado amerita usar la precisión de los números reales.

Un primer ejemplo son los fenómenos en donde el resultado es un valor de tiempo. El tiempo que esperas hasta que llega un autobús a la parada en la que lo tomas; el tiempo que tarda en fallar algún aparato electrónico (el ejemplo clásico es el tiempo que tarda un foco en fundirse); el tiempo de vida que le queda a una persona (espeluznante, pero a los actuarios les interesa debido a los seguros de vida); etcétera. Cuando se habla de tiempos, suelen usarse v.a.’s continuas que tengan a [0,) como soporte para asegurar que el modelo contempla únicamente valores no-negativos. Las v.a.’s con distribución exponencial (que mencionamos en el primer ejemplo de esta entrada) son un ejemplo de este tipo de v.a.’s.

Otro ejemplo donde se usan v.a.’s continuas son los fenómenos financieros. El precio de un activo en un momento dado; la paridad cambiaria entre divisas; el valor que tomará la tasa de interés o de rendimiento en un instrumento financiero (como una anualidad) en el futuro; etcétera. La teoría de los procesos estocásticos es la rama de la probabilidad que se encarga del estudio de fenómenos aleatorios a través del tiempo, y resulta fundamental para el análisis de fenómenos financieros como los que aquí mencionamos.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Demuestra que si f:RR es una función que satisface f(x)0para cada xRyf(t)dt=1,entonces f es la función de densidad de alguna v.a. continua. Sugerencia: Define F:RR como sigue: para cada xR, F(x)=f(t)dt,y demuestra que F es una función de distribución.
  2. Demuestra que la función g:RR dada porg(x)={x+1si x[1,0),1xsi x[0,1],0en otro casoes la función de densidad de alguna v.a. continua. La gráfica de g puede apreciarse en la siguiente figura:
  3. Verifica que la función G del Ejemplo 3 es una función de distribución.

Más adelante…

Es importante que entiendas las diferencias que existen entre las v.a.’s discretas y las continuas. Repasa esta entrada y la anterior las veces que sea necesario para que no te confundas entre ambas. En la siguiente entrada veremos qué es lo que resulta de aplicarle funciones (transformaciones) a una v.a.

En cuanto a las aplicaciones, verás muchísimas más en materias posteriores, como en las materias de estadística. Por nuestro lado veremos varias distribuciones de probabilidad importantes (como la distribución exponencial) con las que seguramente te encontrarás en ese tipo de materias.

Entradas relacionadas

Probabilidad I: Variables Aleatorias Discretas

Por Octavio Daniel Ríos García

Introducción

En las entradas pasadas introdujimos los conceptos de variable aleatoria y función de distribución. Además, al final de la entrada pasada comentamos que las variables aleatorias pueden clasificarse como discretas o continuas, dependiendo de la cardinalidad del conjunto de valores que pueden tomar.

En esta entrada trataremos el caso de las variables aleatorias discretas. En el contexto de las matemáticas se usa el término «discreta» para hacer referencia a conjuntos finitos o infinitos numerables. Por ello, a grandes rasgos, las variables aleatorias discretas son aquellas cuyo conjunto de valores que pueden tomar es a lo más infinito numerable.

¡IMPORTANTE! Algunas convenciones que usaremos

De ahora en adelante, escribiremos «variable aleatoria» simplemente como v.a. De este modo, por ejemplo, cuando digamos «sea X una v.a.», deberás de leerlo como «sea X una variable aleatoria».

Por otro lado, usaremos los límites laterales (por la derecha y por la izquierda) de la función de distribución, por lo que introduciremos la siguiente notación: si F:RR es una función, entonces

F(a+):=limxa+F(x),F(a):=limxaF(x).

En otras palabras,

  • F(a+) es el límite de F(x) cuando x tiende a a por la derecha.
  • F(a) es el límite de F(x) cuando x tiende a a por la izquierda.

Esta convención facilita la escritura de las fórmulas que involucran a estos límites.

Definición de variable aleatoria discreta

Como su nombre lo indica, una v.a. discreta es aquella v.a. cuyo conjunto de valores que puede tomar es un conjunto de cardinalidad a lo más numerable. Es decir, que la cantidad de valores distintos que puede tomar la v.a. es finito, o infinito numerable.


Definición. Sea X una v.a. sobre (Ω,F,P). Diremos que X es una variable aleatoria discreta si el conjunto de valores que puede tomar X es finito o infinito numerable.

De manera más formal, un conjunto SB(R) es llamado un soporte de la v.a. X si P(XS)=1. Así, X es una v.a. discreta si tiene un soporte finito o infinito numerable.


Cuando X es una v.a. discreta, y el conjunto de valores que toma X es {xn}nN+ de tal manera que xn<xn+1 para cada nN+, la función de distribución de X, FX, es una función escalonada con una discontinuidad de magnitud P(X=xn) en cada xn. Además, FX es constante entre los xn, y toma el valor mayor en cada discontinuidad. Esto es algo que puedes observar en el ejemplo 4 de la entrada anterior.

Además, si X es una variable aleatoria cualquiera, se cumple que

P(X=a)=P(Xa)P(X<a)=FX(a)FX(a).

En particular, cuando X es una variable aleatoria discreta, P(X=a)>0 cuando a es alguno de los valores que puede tomar X; y es 0 en cualquier otro caso. La demostración de que FX(a)=P(X<a) te la dejamos como parte de la tarea moral.

Más aún, como vimos que la función de distribución de una v.a. contiene toda la información sobre una v.a. X, entonces si X es una v.a. discreta, los valores P(X=a) para cada aR capturan toda la información sobre el comportamiento probabilístico de X. ¡Cuidado! Esto sólamente pasa con las v.a.’s discretas, veremos que con las continuas no es así.

Función de masa de probabilidad de una v.a. discreta

A la función que manda a cada aR al valor P(X=a) se le conoce como la función de masa de probabilidad (en inglés, probability mass function), que definimos a continuación.


Definición. Sea X una v.a. discreta que toma los valores {xn}nN+. Se define la función de masa de probabilidad (f.m.p.) de X, denotada por pX:RR, como sigue.

pX(x)=P(X=x).

Esta función también es conocida simplemente como función de probabilidad.


Observa que pX(x)>0 cuando x es alguno de los valores en {xn}nN+; y pX(x)=0 en cualquier otro caso. De acuerdo con lo anterior, para cualquier AB(R) se tendrá que

P(XA)=xApX(x).

La suma anterior es discreta, pues pX(x) es mayor a 0 en a lo más en una cantidad numerable de valores.

Ejemplo 1. Sea X una v.a. con distribución F:RR dada por

F(x)={0si x<1,0.1si 1x<0,0.3si 0x<1,0.8si 1x<2,1si 2x.

Es decir, la función de distribución de X es F. Gráficamente, la función F se ve como sigue:

Figura. Gráfica de la función F.

Los puntos en los que F presenta una discontinuidad son los valores que toma la variable aleatoria X, y la magnitud de los saltos es la probabilidad de que tome cada respectivo valor. La magnitud del salto corresponde precisamente a

P(X=a)=F(a)F(a),

pues en aquellos valores de a en los que hay una discontinuidad, F(a) y F(a) son valores distintos. Además, observa que para cada aR, F(a) es la probabilidad acumulada por todos los valores menores o iguales a a. Por ejemplo, F(2)=0, que significa que F no ha acumulado probabilidad hasta el valor 2. Es decir, todos los números reales menores o iguales a 2 acumulan 0 de probabilidad. Por otro lado, F(0)=0.3, por lo que la probabilidad acumulada hasta 0 es de 0.3. Esto es, los números reales que son menores o iguales a 0 acumulan 0.3 de la probabilidad.

A partir de la distribución F podemos obtener la función de masa de probabilidad de X. Para ello, tenemos que usar la fórmula

P(X=a)=F(a)F(a).

Esta expresión es distinta de 0 en todos los valores de a en los que F presenta una discontinuidad, y es 0 en otro caso. En los puntos de discontinuidad se tiene que:

P(X=1)=F(1)F((1))=0.10=0.1,P(X=0)=F(0)F(0)=0.30.1=0.2,P(X=1)=F(1)F(1)=0.80.3=0.5,P(X=2)=F(2)F(2)=10.8=0.2.

De este modo, la función de masa de probabilidad de X es la función pX:RR dada por

pX(x)={0.1si x=1,0.2si x=0 o x=2,0.5si x=1,0en otro caso.

Esto significa que la variable aleatoria X toma valores en el conjunto {1,0,1,2}, que son precisamente los puntos en los que F tiene una discontinuidad.


Conexión entre la función de masa de probabilidad y la función de distribución

En el ejemplo anterior puede observarse que la función de masa de probabilidad de X contiene toda la información sobre el comportamiento probabilístico de X, pues gracias a ella podemos saber:

  • El conjunto de valores que puede tomar X, que son aquellos cuya probabilidad es mayor a 0.
  • La probabilidad de que tome cada uno de estos valores.

Además, es posible recuperar la función de distribución de X en cada xR sumando los valores que toma pX hasta x.

F(x)=y(,x]pX(y).

La suma anterior tendrá a lo más una cantidad numerable de términos, pues pX(y)>0 en a lo más una cantidad numerable de valores. Además, como la función de masa de probabilidad permite recuperar una función de distribución, es suficiente con tener la f.m.p. para conocer el comportamiento probabilístico de una v.a. discreta. Por ello, usualmente en los ejercicios se te dará la función de masa de probabilidad.

Ejemplo 2. Una variable aleatoria que toma una cantidad infinita numerable de valores también es discreta. Por ejemplo, sea Y una v.a. con función de masa de probabilidad pY:RR dada por

pY(y)={12ysi yN+,0en otro caso.

De este modo, tenemos que

pY(1)=P(Y=1)=121=12,pY(2)=P(Y=2)=122=14,pY(3)=P(Y=3)=123=18,

etcétera. Sin embargo, observa que ahora te estamos dando una función de masa de probabilidad, y no te damos una función de distribución. ¿Cómo podemos estar seguros de que la función que nos están dando representa el comportamiento probabilístico de manera correcta? Hay dos cosas de tenemos que revisar:

  • Para cada yR, se debe de cumplir que pY(y)0. Recuerda, pY(y) es una probabilidad, así que debe de ser mayor o igual a 0.
  • Que la suma de todos los valores que toma pY es 1. Esto debe de pasar porque la probabilidad de que Y tome alguno de los valores que puede tomar debe de ser 1.

La primera propiedad se cumple, pues pY(y) es 0 o una potencia de 12. La segunda propiedad hay que verificarla. Para ello, hay que obtener

k=1pY(k)=k=1(12)k.

Podemos hacer uso de la fórmula para una serie geométrica, modificando un poco la expresión anterior. Así,

k=1(12)k=k=0(12)k+1=k=0(12)(12)k=(12)k=0(12)k

Así, nos queda una serie geométrica de la forma k=0ark, con 0<r<1, por lo que resulta

(12)k=0(12)k=(12)(1112)=(12)(2)=1.

Esto garantiza que pY es una función que describe el comportamiento probabilístico de una v.a.

Podemos hacer el cálculo de probabilidades de Y. Por ejemplo, ¿cuál es la probabilidad de que Y sea 2 o sea 6? Para verlo, tenemos que obtener la probabilidad de (X=2)(X=6). Estos dos conjuntos son ajenos, pues

(X=2)(X=6)=X1[{2}]X1[{6}]=X1[{2}{6}]=X1[]=,

así que P((X=2)(X=6))=P(X=2)+P(X=6). Así, tenemos que

P((X=2)(X=6))=P(X=2)+P(X=6)=pY(2)+pY(6)=122+126=14+164=17640.2656,

así que la probabilidad de que Y tome el valor 2 o tome el valor 6 es de aproximadamente 0.2656, o 26.56%. Por otro lado, ¿cuál será la probabilidad de que Y5? Esta es la probabilidad de que tome alguno de los valores 1, 2, 3, 4 o 5. En consecuencia, tenemos que

P(Y5)=P(Y=1)+P(Y=2)+P(Y=3)+P(Y=4)+P(Y=5)=k=15P(Y=k)=k=15pY(k)=k=15(12)k=(12)k=15(12)k1=(12)k=04(12)k=(12)(1(12)4+1112)=(12)(1(12)512)=1(12)5=0.96875,

así que la probabilidad de que Y sea menor o igual a 5 es de 0.96875, o 96.875%. Otra pregunta interesante es, ¿cuál es la probabilidad de que Y sea un número par? Es decir, si P es el conjunto de números naturales pares,

P={nN+kN:n=2k},

¿cuál es el valor de P(YP)? Para verlo, observa que como en las probabilidades anteriores, la probabilidad que queremos calcular puede verse como la suma de las probabilidades de todos los valores en P. De este modo, se tiene que

P(YP)=nPP(Y=n)=k=1P(Y=2k)=k=1pY(k)=k=1(12)2k=(12)2k=1(12)2k2=(12)2k=1(12)2(k1)=(12)2k=1(122)k1=(12)2k=1(14)k1=(12)2k=0(14)k=(14)(1114)=(14)(134)=(14)(43)=13,

así que la probabilidad de que Y tome como valor un número par es de 13, o 33.333%.

Finalmente, observa que N y N+ son soportes de Y, pues P(YN+)=1, y como N+N, se tiene que P(YN+)P(YN), que implica P(YN)=1. Esto exhibe que cuando S es un soporte de una v.a. discreta, está asegurado que contiene a todos los valores que puede tomar la v.a., pero no significa que todos los elementos de S tienen probabilidad positiva. Por ejemplo, en este caso tenemos que P(Y=0)=0 y 0N.


Propiedades de una función de masa de probabilidad

Como vimos en el ejemplo anterior (y en la discusión que le precede), la función de masa de probabilidad es suficiente para conocer el comportamiento probabilístico de una v.a. discreta. Por ello, es necesario saber qué propiedades necesita una función cualquiera para ser la función de masa de probabilidad de alguna v.a. discreta X.

Sea p:RR una función y sea S={siiI}B(R) un conjunto a lo más numerable de números reales y sea {πiiI} una colección de números reales tales que

  1. Para cada iI se cumple que πi0.
  2. Se cumple queiIπi=1,

si definimos p:RR como

p(x)={πisi x=si, con iI,0si xS,

entonces existe una v.a. discreta X tal que p es la función de masa de probabilidad de X. En efecto, al tomar F:RR dada por

F(x)=s(,x]p(s),para cada xR,

se tiene que F es una función de distribución, así que la existencia de X está garantizada por lo que vimos en la entrada de Funciones de Distribución.

En conclusión, si tu cuentas con una colección a lo más numerable S={siiI} de números reales, y {πiiI} son números reales que se pueden usar como la probabilidad de los elementos de S (de tal manera que πi es la probabilidad de si), estos valores definen las probabilidades de que alguna v.a. discreta tome los valores en S.

Esto es, existe una v.a. discreta X tal que

P(X=si)=πi,para cada iI.

Fórmula para la función de distribución a partir de la función de masa de probabilidad

Más adelante veremos algunas v.a.’s que tienen a N como un soporte. Esto es, la probabilidad de que esas v.a.’s caigan en N es 1. Por ello, el conjunto de valores que puede tomar una v.a. de ese tipo es el conjunto de los números naturales, o algún subconjunto de este, como N+ o {0,1,,n}, para algún nN+. Por ejemplo, ya vimos que N es un soporte de la v.a. Y del último ejemplo; aún cuando el conjunto de valores que puede tomar Y es N+.

En tales casos, la función de distribución de una v.a. discreta puede escribirse a partir de la función de masa de probabilidad de manera ordenada como sigue. Si X es una v.a. discreta tal que su función de masa de probabilidad es pX:RR dada por

pX(x)={πxpara cada xN,0si xN,

donde {πiiN} son números reales tales que πi0 para cada iN y k=0πk=1. Entonces la función de distribución de X puede escribirse como

FX(x)={0si x<0,π0+π1++πxsi x0.

donde x es el mayor entero que es menor o igual a x. Por ejemplo, π=3 y 6.34=6.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Demuestra que si X es una v.a., entonces se para cada aR se cumple queFX(a)=P(X<a).Sugerencia: Aplica el teorema de continuidad de la probabilidad a la sucesión de conjuntos {An}nN+, donde para cada nN+ definimos An=(,a1n].
  2. Retomando el Ejemplo 1, encuentra la probabilidad de que «X tome el valor 1 o el valor 1».
  3. Encuentra la función de distribución de la variable aleatoria Y del Ejemplo 2. Sugerencia: Nosotros obtuvimos P(Y5), ¿qué pasa si en vez de hacerlo para 5, lo haces para cualquier xR?

Más adelante…

Más adelante veremos muchas v.a.’s discretas para las cuales N es un soporte. Como comentamos en la última sección de esta entrada, esto significará que el conjunto de valores que pueden tomar esas v.a.’s es N o algún subconjunto de N. Por ello, la función de distribución de esas v.a.’s podrá escribirse utilizando la fórmula que obtuvimos en esa sección.

En la siguiente entrada abordaremos las v.a.’s continuas. Así como las v.a.’s discretas, las v.a.’s continuas tienen ciertas peculiaridades importantes que tenemos que analizar.

Entradas relacionadas