Archivo de la etiqueta: valor esperado

Probabilidad I: Más Propiedades del Valor Esperado

Por Octavio Daniel Ríos García

Introducción

Como parte de nuestro estudio del valor esperado, en esta entrada abordaremos algunas más de sus propiedades. En la entrada antepasada vimos un primer conjunto de propiedades, y probablemente habrás notado que se trataba de propiedades en las que sólamente había una v.a. Por el contrario, conforme a lo visto en la entrada anterior, las propiedades que veremos en esta entrada involucran a más de una v.a., así que necesitaremos algunos de los elementos básicos de probabilidad multivariada que vimos.

En esta entrada centraremos nuestra atención en ver cómo interactúa el valor esperado con dos operaciones de variables aleatorias: la suma y el producto. Veremos que el valor esperado de la suma de dos v.a.’s se comporta de forma muy agradable, y podremos decir que es lineal. No obstante, el valor esperado del producto de dos v.a.’s requerirá de una condición extra para poder comportarse de manera agradable.

Linealidad con respecto a escalares

Una consecuencia de la ley del estadístico inconsciente es una primera propiedad de linealidad del valor esperado, con respecto a constantes reales.


Propiedad 1. Sea X:ΩR una variable aleatoria y sean a, bR. Entonces se cumple que

E[aX+b]=aE[X]+b


Demostración. Sea g:RR la transformación dada por

g(x)=ax+bpara cada xR.

De este modo, g(X)=aX+b. Aplicando la ley del estadístico inconsciente, se sigue que:

  1. Si X es una v.a. discreta, entonces E[g(X)]=xX[Ω]g(x)P(X=x)=xX[Ω](ax+b)P(X=x)=xX[Ω](axP(X=x)+bP(X=x))=axX[Ω]xP(X=x)+xX[Ω]bP(X=x)=aE[X]+E[b]=aE[X]+b,por lo que es cierto en el caso discreto.
  2. Si X es una v.a. continua, entonces g(X) es una v.a. continua (porque g es una transformación continua). Así, tenemos que E[g(X)]=g(x)fX(x)dx,=(ax+b)fX(x)dx=(axfX(x)+bfX(x))dx=axfX(x)dx+bfX(x)dx=axfX(x)dx+bfX(x)dx=aE[X]+b,por lo que también es cierto en el caso continuo.

Por lo tanto, podemos concluir que si X es una v.a. y a y bR son constantes reales, entonces

E[aX+b]=aE[X]+b,

que es justamente lo que queríamos demostrar.

◻

Es importante notar que para a=1, la propiedad anterior nos dice que para cualquier bR se cumple que

E[X+b]=E[X]+b,

lo cual es muy natural: si la v.a. X tiene una tendencia central hacia E[X], entonces el comportamiento aleatorio de X+b estará centrado alrededor de E[X]+b, pues el valor b está fijo.

Valor esperado de la suma de v.a.’s

Dadas X:ΩR y Y:ΩR dos v.a.’s definidas sobre el mismo espacio de probabilidad, podemos definir la v.a. (X+Y):ΩR dada por

(X+Y)(ω)=X(ω)+Y(ω)para cada ωΩ.

Ahora, si por alguna razón queremos calcular el valor esperado de X+Y, podríamos caer en la trampa de utilizar directamente la definición, e intentaríamos calcular

E[X+Y]=z(X+Y)[Ω]zP(X+Y=z),

en caso de que X+Y sea discreta; o

E[X+Y]=zfX+Y(z)dz,

donde fX+Y:RR es la función de densidad de X+Y… algo que inicialmente no poseemos, incluso si las distribuciones de X y de Y son conocidas. Sin embargo, no es necesario hacer nada de esto: ¡el valor esperado es lineal! Esto lo enunciamos en la siguiente propiedad.


Propiedad 2. Sean X:ΩR, Y:ΩR variables aleatorias con valor esperado finito definidas sobre el mismo espacio de probabilidad. Entonces

E[X+Y]=E[X]+E[Y].


Demostración. Demostraremos el caso en el que X y Y son v.a.’s discretas. Para ello, podemos recurrir directamente a la definición formal de valor esperado.

E[X+Y]=ωΩ(X+Y)(ω)P({ω}).

Sabemos que (X+Y)(ω)=X(ω)+Y(ω), por lo que

ωΩ(X+Y)(ω)P({ω})=ωΩ(X(ω)+Y(ω))P({ω})=ωΩ[X(ω)P({ω})+Y(ω)P({ω})]=ωΩX(ω)P({ω})+ωΩY(ω)P({ω})=E[X]+E[Y],

por lo que E[X+Y]=E[X]+E[Y], que es justamente lo que queríamos demostrar.

◻

Por otro lado, omitiremos el caso cuando X y Y son v.a.’s continuas, pues la demostración (a este nivel) requiere de hacer más trampa, utilizando además una variante multivariada de la ley del estadístico inconsciente. No obstante, para propósitos de este curso, podrás asumir que el valor esperado es lineal en el caso discreto y en el continuo.

Valor esperado del producto de v.a.’s

De manera similar a la suma, dadas X:ΩR, Y:ΩR v.a.’s, se define el producto de X con Y como la función (XY):ΩR dada por

(XY)(ω)=X(ω)Y(ω)para cada ωΩ.

Es natural preguntarnos, ¿cómo se comporta esta operación con respecto al valor esperado? ¿Se comporta igual que la suma? Es decir, ¿será cierto que para cualesquiera v.a.’s X y Y se cumple que

E[XY]=E[X]E[Y]?

La respuesta es que no, y te ofrecemos el siguiente ejemplo.

Ejemplo 1. Sean X, Y v.a.’s con función de masa de probabilidad conjunta pX,Y:R2R dada por los valores en la siguiente tabla:

X
-11pY(y)
Y00.10.40.5
10.40.10.5
pX(x)0.50.5

De este modo, se tiene que

pX,Y(1,0)=P(X=1,Y=0)=0.1,pX,Y(1,0)=P(X=1,Y=0)=0.4,

etcétera. En los extremos de la tabla hemos colocado las funciones de masa de probabilidad marginal de X y de Y. Con ellas podemos calcular E[X] y E[Y] como sigue:

E[X]=(1)pX(1)+1pX(1)=(0.5)+0.5=0,E[Y]=0pY(0)+1pY(1)=0+0.5=0.5.

Así, obtenemos que E[X]E[Y]=00.5=0. Por otro lado, observa que XY puede tomar alguno de tres posibles valores: 0, 1 y 1. XY vale 0 cuando Y toma el valor 0 y X toma cualquier valor; mientras que XY=1 cuando Y=1 y X=1; y además XY=1 cuando Y=1 y X=1. Esto nos da todas las probabilidades de XY, que son

P(XY=0)=P(X=1,Y=0)+P(X=1,Y=0)=0.4+0.1=0.5,P(XY=1)=P(X=1,Y=1)=0.1,P(XY=1)=P(X=1,Y=0)=0.4,

así que XY es una v.a. con función de masa de probabilidad pXY:RR dada por

pXY(z)={0.4si z=1,0.5si z=0,0.1si z=1,0en otro caso.

Por lo tanto, el valor esperado de XY es

E[XY]=(1)pXY(1)+0pXY(0)+1pXY(1)=0.4+0+0.1=0.3,

así que claramente E[XY]E[X]E[Y].


Sin embargo, hay una condición bajo la cual sí se cumple que E[XY]=E[X]E[Y], que está dada por el siguiente teorema:


Teorema 1. Si X, Y son variables aleatorias independientes, entonces se cumple que

E[XY]=E[X]E[Y].


La demostración de este teorema requiere de más acrobacias tramposas (a este nivel) con integrales múltiples, por lo que la omitiremos.

Observa que el teorema establece que si X y Y son v.a.’s independientes, entonces se tendrá que E[XY]=E[X]E[Y]. La implicación conversa no es verdadera, existen v.a.’s no-independientes que satisfacen E[XY]=E[X]E[Y].

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. ¿Cómo interpretas la linealidad del valor esperado? Es decir, sabemos que si X es una v.a., entonces E[X] es el «centroide esperado» al obtener muchas observaciones de X, ¿cómo se interpreta que E[X+Y]=E[X]+E[Y]?
  2. Por otro lado, no siempre se cumple que E[XY]=E[X]E[Y]. ¿Por qué pasa esto con el producto?
  3. Construye dos v.a.’s X y Y tales que E[XY]=E[X]E[Y], pero de tal manera que X y Y no sean independientes. Sugerencia: Para asegurar la no-independencia, escoge una v.a. X sencilla (como las del Ejemplo 1), y toma a Y=g(X), donde g es una transformación conveniente.

Más adelante…

Debido a que el valor esperado es un concepto muy importante en la teoría (y en la práctica) de la probabilidad, las propiedades presentadas en esta entrada y la anterior son muy importantes, y te encontrarás con ellas muy a menudo. Además, en las materias de Probabilidad II y Procesos Estocásticos I verás temas que involucran más de una variable aleatoria (probabilidad multivariada) en los que utilizarás las propiedades vistas en esta entrada (y otras muy parecidas, pero más generales).

Volviendo a nuestro curso, en la entrada siguiente veremos otro valor asociado a una distribución de probabilidad: la varianza.

Entradas relacionadas

Probabilidad I: Propiedades del Valor Esperado

Por Octavio Daniel Ríos García

Introducción

Continuando con lo visto en la entrada anterior, en esta entrada presentaremos algunas propiedades fundamentales del valor esperado. Lo primero que veremos será el valor esperado de una constante, que será una propiedad muy básica pero de uso muy frecuente en la teoría que veremos.

Por otro lado, veremos un teorema muy importante desde los puntos de vista teórico y práctico, conocido como la ley del estadístico inconsciente. A grandes rasgos, este teorema hará posible obtener el valor esperado de g(X), donde X es una v.a. y g es una función.

Valor esperado de una función constante

La primera propiedad importante es que el valor esperado de una constante es la constante misma. Esto tiene sentido, pues si una v.a. toma un único valor aR, entonces se espera que su promedio a la larga sea a.


Propiedad. Sea aR y fa:ΩR la función constante a, de tal modo que fa(ω)=a para cada ωΩ. Entonces se tiene que

E[fa]=a.

Abusando un poco de la notación, lo anterior significa que para cualquier valor constante aR se cumple que E[a]=a.


Demostración. Sea aR y sea (Ω,F,P) un espacio de probabilidad. Se define la función constante a fa:ΩR como sigue: para cada ωΩ, fa(ω)=a. Se sigue inmediatamente que fa[Ω]={a}, por lo que fa es una v.a. discreta. De este modo,

E[fa]=xfa[Ω]xP(fa=x)=x{a}xP(fa=x)=aP(fa=a)

Ahora, como fa[Ω]={a}, entonces fa1[fa[Ω]]=fa1[{a}], por lo que Ω=fa1[{a}]. En consecuencia, se tiene que (fa=a)=Ω. Así, llegamos a que

aP(fa=a)=aP(Ω)=a1=a,

por lo que podemos concluir que

E[fa]=a,

que es justamente lo que queríamos demostrar.

◻

Valor esperado de la transformación de una v.a.

Otra propiedad importante del valor esperado surge cuando queremos calcular el valor esperado de la transformación de una v.a. Para hacerlo, aparentemente necesitaríamos obtener la densidad o la masa de probabilidad de la transformación para luego calcular su valor esperado. Afortunadamente, esto no será necesario.

Si X:ΩR es una v.a. y g:RR es una función tal que g(X) es una v.a., hay que recordar que la distribución de g(X) puede obtenerse en términos de la de X, por lo que el comportamiento probabilístico de g(X) puede expresarse en términos del de X. Debido a esto, ¡también el valor esperado de g(X) puede obtenerse usando la densidad o la masa de probabilidad de X!

La ley del estadístico inconsciente

De acuerdo con la discusión anterior, presentamos un teorema que posibilita el cálculo del valor esperado de una v.a. g(X) conociendo únicamente la densidad de X. Este resultado es conocido como la ley del estadístico inconsciente. ¡Advertencia! La teoría con la que contamos hasta el momento hace necesario dividir la demostración en dos casos: uno para v.a.’s discretas y otro para v.a.’s continuas. En particular, la demostración para el caso discreto es clara y puedes centrar tu atención en ella, ya que te puede brindar una intuición firme de lo que pasa también en el caso continuo. Por el contrario, la demostración del caso continuo es un poco más técnica, e incluso requiere el uso de herramientas que quizás no hayas visto hasta ahora. Durante la demostración te comentaremos cuáles son estas herramientas, y las materias posteriores de la carrera en donde posiblemente las veas.


Teorema. Sea X:ΩR una v.a. y g:RR una función Borel-medible.

  1. Si X es una v.a. discreta, entonces E[g(X)]=xX[Ω]g(x)P(X=x),siempre que esta suma sea absolutamente convergente.
  2. Si X y g(X) son v.a.’s continuas, entonces E[g(X)]=g(x)fX(x)dx, siempre que esta integral sea absolutamente convergente, y donde fX:RR es la función de densidad de X.

Demostración. 1. El caso discreto sirve para ilustrar la intuición, pues para cada xX[Ω] se tiene que g(x)(gX)[Ω]. Además, ya sabemos que para cada y(gX)[Ω] se cumple que

P(g(X)=y)=P(Xg1[{y}])=xg1[{y}]P(X=x)

por lo que el valor esperado de g(X) cumple que

E[g(X)]=y(gX)[Ω]yP(g(X)=y)=y(gX)[Ω]yP(Xg1[{y}])=y(gX)[Ω]y(xg1[{y}]P(X=x))=y(gX)[Ω]xg1[{y}]yP(X=x),

y como xg1[{y}] si y sólamente si g(x)=y, se sigue que

y(gX)[Ω]xg1[{y}]yP(X=x)=y(gX)[Ω]xg1[{y}]g(x)P(X=x).

Ahora, observa que de acuerdo con la suma sobre y, por cada y(gX)[Ω] hay un sumando que tiene la forma

xg1[{y}]g(x)P(X=x),

y cada uno de estos términos es una suma que corre sobre x, donde xg1[{y}]. Es decir, estamos sumando sobre todos los y(gX)[Ω], y en cada y tomamos la suma sobre todos los xg1[{y}]. Esto quiere decir que podemos mover a x sobre la unión de todos los g1[{y}], y prescindir de la suma sobre y. Esto es,

y(gX)[Ω]g1[{y}]=g1[y(gX)[Ω]{y}]=g1[(gX)[Ω]]=g1[g[X[Ω]]],

y por propiedades de la imagen inversa, se tiene que X[Ω]g1[g[X[Ω]]]. Ahora bien, los x que aparecen en la suma son únicamente aquellos que están en X[Ω], pues de lo contrario son valores que no toma la v.a. X. En consecuencia, la suma se puede reducir a

y(gX)[Ω]xg1[{y}]g(x)P(X=x)=xX[Ω]g(x)P(X=x),

y así podemos concluir que

E[g(X)]=xX[Ω]g(x)P(X=x),

que es justamente lo que queríamos demostrar. Intuitivamente, esta última igualdad hace sentido, pues g(X) toma el valor g(x) cuando X toma el valor x, y el evento en el que eso ocurre tiene probabilidad P(X=x).

La demostración del caso 2. es menos ilustrativa. Cuando X y g(X) son v.a.’s continuas, será necesario hacer una «doble integral», algo con lo que quizás no te hayas encontrado hasta ahora. Esto es algo que (por desgracia) haremos en algunas demostraciones del valor esperado.

Primero, demostraremos el siguiente lema:


Lema. Si X:ΩR es una v.a. continua tal que para todo ωΩ se cumple que X(ω)0 (es decir, X es una v.a. no-negativa), entonces

E[X]=0[1FX(x)]dx,

donde FX:RR es la función de distribución de X.


Demostración. Sea DR2 el siguiente conjunto:

D={(x,y)R2x>y}.

Sea 1D:R2R la función dada por

1D(x,y)={1si (x,y)D,0en otro caso.

Es decir, 1D(x,y) vale 1 si (x,y)D, es decir, vale 1 si x es mayor a y; y vale 0 en caso contrario. Una función de este tipo es conocida como una función indicadora. Ahora, observa que para cualquier x[0,) se cumple que

()x=0x1dt,

pues la integral devuelve como resultado la longitud del intervalo (0,x), que está bien definido, ya que x0. Dicha longitud es precisamente x0=x, por lo que la igualdad () es verdadera. Ahora, observa que 1D(x,t)=1 si y sólamente si x>t, o equivalentemente, si t(,x). Así, tenemos que

0x1dt=01D(x,t)dt,

pues para t(0,), 1D(x,t)=1 sobre (0,x), y es 0 en otro caso. En conclusión, para cualquier x[0,) se cumple que

(1)x=01D(x,t)dt.

Usaremos esta «mañosa» identidad en el valor esperado de X. Primero, observa que X es una v.a. no-negativa, así que fX(x)=0 para x<0. En consecuencia, tenemos que

E[X]=xfX(x)dx=0xfX(x)dx.

Usando la identidad (1), obtenemos que

0xfX(x)dx=0(01D(x,t)dt)fX(x)dx=001D(x,t)fX(x)dtdx.

Observa que «metimos» a fX(x) dentro de la integral respecto a t debido a que es una constante con respecto a t (únicamente depende de x). La trampa que vamos a hacer es cambiar el orden de integración. Esto NO siempre se puede hacer, y la validez de este paso está dada por el teorema de Fubini, que verás en Cálculo Diferencial e Integral IV. Intercambiando el orden de integración, se tiene que

001D(x,t)fX(x)dtdx=001D(x,t)fX(x)dxdt

Ahora, observa que, para cada x(0,), 1D(x,t)=1 si y sólamente si x>t, o equivalentemente, si x(t,). En consecuencia,

01D(x,t)fX(x)dx=tfX(x)dx=P(X>t)=1FX(t).

Por lo tanto,

001D(x,t)fX(x)dxdt=0[1FX(t)]dt,

que nos permite concluir que

E[X]=0[1FX(t)]dt,

que es justamente lo que queríamos demostrar.

◻

Con este lema podemos demostrar el caso 2. del teorema. Lo que haremos será presentar el caso en el que g es una función no-negativa. De esta manera, g(X) es una v.a. que toma valores no-negativos, y podemos aplicarle el lema. Así, tenemos que

E[g(X)]=0[1FX(x)]dx=0P(g(X)>x)dx

Ahora, recuerda que (g(X)>x)=(gX)1[(x,)]=X1[g1[(x,)]]=(Xg1[(x,)], por lo que P(g(X)>x)=P(Xg1[(x,)]). Por lo tanto,

0P(g(X)>x)dx=0(g1[(x,)]fX(t)dt)dx

donde la integral de adentro se toma sobre g1[(x,)], pues esto nos devuelve el valor P(Xg1[(x,)]). Nuevamente haremos trampa y cambiaremos el orden de integración. Un detalle adicional es que al cambiar el orden de integración, también cambian los dominios de integración.

0g1[(x,)]fX(t)dtdx=g1[(0,)]0g(t)fX(t)dxdt

Finalmente, como fX(t) es constante respecto a x, puede salir como constante de la integral de adentro, y además

0g(t)1dx=g(t)0=g(t),

por lo que

g1[(0,)]0g(t)fX(t)dxdt=g1[(0,)](0g(t)1dx)fX(t)dt=g1[(0,)]g(t)fX(t)dt,=g(t)fX(t)dt,

donde g1[(0,)]=R porque g es una función no-negativa. Así, finalmente podemos concluir que

E[g(X)]=g(t)fX(t)dt,

que es justo lo que queríamos demostrar.

◻

Como comentamos anteriormente, el teorema que acabamos de demostrar es conocido como la ley del estadístico inconsciente. De acuerdo con Sheldon M. Ross, en su libro Introduction to Probability Models (1980, 1a Ed.) «Esta ley recibió su nombre por los estadísticos ‘inconscientes’ que la han utilizado como si fuese la definición de E[g(X)]».

Figura. Extracto del libro Statistical Inference, de George Casella y Roger Berger (2001, 2a Ed.), en el que los autores expresan su descontento por el nombre de este teorema.

Independientemente de esto, la ley del estadístico inconsciente es un resultado muy importante, y la utilizaremos mucho de aquí en adelante.

Ejemplos del uso de la ley del estadístico inconsciente

Ejemplo 1. Sea U una v.a. con función de densidad fU dada por

fU(u)={λeλxsi x>0,0en otro caso,

con λ>1. Obtengamos el valor esperado de eU. Para ello, usemos la ley del estadístico inconsciente:

E[U]=0euλeλudu=0λeλu+udu=λ0e(1λ)udu.

Para resolver esta integral, observa que se trata de una integral casi inmediata, únicamente le falta el factor 1λ, por lo que multiplicamos por 1:

λ0e(1λ)udu=λ0(1λ1λ)e(1λ)udu=λ1λ0(1λ)e(1λ)udu=λ1λ(e(1λ)u)|u=0=λ1λ(01)λ1λ(1)=λλ1,

así que concluimos que

E[eU]=λλ1.


Ejemplo 2. Sea N una variable aleatoria con función de masa de probabilidad (f.m.p.) fN dada por

fN(n)={(1p)npsi nN,0en otro caso,

con p(0,1). Obtengamos el valor esperado de N2. Por la ley del estadístico inconsciente, tenemos que

(2)E[N2]=n=0n2(1p)np.

Como usualmente pasa con los valores esperados de v.a.’s que toman el valor 0, el primer término de la serie (2) es 0, así que la igualdad anterior pasa a ser

E[N2]=n=1n2(1p)np.

Para obtener el valor de la serie anterior, vamos a utilizar una expresión equivalente basada en la siguiente identidad: sea nN+, entonces se cumple que

(3)n2(n1)2=2n1.

Ahora, observa con atención las siguientes dos series.

(4)E[N2]=n=1n2(1p)np=(1p)p+4(1p)2p+9(1p)3p+(5)(1p)E[N2]=n=1n2(1p)n+1p=(1p)2p+4(1p)3p+9(1p)4p+

Es decir, multiplicar la serie (4) por (1p) nos da la (5), que simplemente «desplaza» el índice por 1. Por ello, se tiene que

E[N2](1p)E[N2]=(1p)p+3(1p)2p+5(1p)3p+=n=1(n2(n1)2)(1p)np,

donde tal vez alcances a notar cómo se usará la identidad (3). En efecto, por esta identidad tenemos que

E[N2](1p)E[N2]=n=1(n2(n1)2)(1p)np=n=1(2n1)(1p)np

Además, nota que E[N2](1p)E[N2]=pE[N2], así que

(6)pE[N2]=n=1(2n1)(1p)np.

Usaremos la igualdad (6) más adelante. Por ahora, centraremos nuestra atención en desarrollar la serie en (6). Primero, recuerda que la serie debe de ser convergente para que los siguientes pasos tengan sentido, así que revisa la tarea moral en caso de que lo dudes. Así pues, tenemos que

n=1(2n1)(1p)np=n=12n(1p)npn=1(1p)np=2n=1n(1p)np()n=1(1p)np().

Por un lado, observa que la expresión () es el valor esperado de N (y ya calculamos ese valor esperado en la entrada pasada), así que ()=1pp. Por otro lado, la expresión () es casi la suma de las probabilidades de N, por lo que debería de ser 1 menos el término en 0, ya que la suma empieza en 1. Veámoslo:

n=1(1p)np=pp+n=1(1p)np=[n=0(1p)np]p=p[n=0(1p)n]serie geométricap=p11(1p)p=p1pp=1p.

Por lo tanto, tenemos que

n=1(2n1)(1p)np=2n=1n(1p)np()n=1(1p)np()=2(1p)p(1p)=2(1p)p(1p)p=22pp+p2p=23p+p2p=(2p)(1p)p.

En consecuencia, volviendo a (6), tenemos que

pE[N2]=(2p)(1p)p,

por lo que en conclusión

E[N2]=(2p)(1p)p2,

que es justamente lo que queríamos obtener.


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Demuestra el caso 2. de la ley del estadístico inconsciente cuando g es una función cualquiera. Sugerencia: Toma la siguiente descomposición de g: definimos la parte positiva de g, g+:RR, como sigue: g+(x)=max{g(x),0}para cada xR, y definimos la parte negativa de g, g:RR, como sigue: g(x)=max{g(x),0}para cada xR. Verifica que g puede escribirse en términos de g+ y g comog=g+g,y nota que tanto g+ como g son funciones no-negativas. Concluye utilizando lo que demostramos en esta entrada.
  2. Verifica que la serie (2) es convergente. Sugerencia: Utiliza algún criterio de convergencia como el de d’Alembert.
  3. Demuestra la validez de la identidad (3).

Más adelante…

La ley del estadísico inconsciente es un teorema muy útil en contextos teóricos y aplicados. De hecho, la utilizaremos con mucha frecuencia en la Unidad 3, ya que veremos algunas características de algunas distribuciones de probabilidad importantes.

Por otro lado, en la siguiente entrada veremos más propiedades del valor esperado, centrando nuestra atención en aquellas propiedades que involucran a más de una variable aleatoria.

Entradas relacionadas

Probabilidad I: Valor Esperado de una Variable Aleatoria

Por Octavio Daniel Ríos García

Introducción

Una de las ideas de una medida de probabilidad era que cuantifica, entre el 0 y el 1, qué tan probable es que ocurra un evento. Por ello, si nosotros multiplicamos los valores que puede tomar una v.a. mediante su probabilidad de ocurrencia, y luego los sumamos, el resultado sería un promedio ponderado de los valores que puede tomar la v.a.; donde el criterio de ponderación es precisamente la probabilidad de ocurrencia. Aquellos resultados con mayor probabilidad pesan más en este «promedio ponderado».

En el caso de X una v.a. discreta, la manera de obtener este promedio ponderado es directa, pues existen xR tales que P(X=x)>0, así que la expresión resultante es una suma. Sin embargo, en el caso continuo, la idea se preserva, pero la definición es más sutil, pues cuando X es una v.a. continua, P(X=x)=0 para cada xR.

Motivación para el caso discreto

Para empezar, vamos a definir el valor esperado de una v.a. discreta. En este caso, la noción de «promedio ponderado» ocurre naturalmente, pues una v.a. discreta puede tomar valores dentro de un conjunto a lo más infinito numerable.

Primero, vamos a dar la idea general. Cuando se nos dan x1, …., xnR números reales, con nN+, el promedio (o la media aritmética) de estos valores es

1nx1+1nx2++1nxn=1nk=1nxn.

La media aritmética nos ayuda a resumir ciertas nociones de un conjunto de números. Más precisamente, nos da una idea de dónde están centrados los elementos de ese conjunto. Esto pasa porque en la media aritmética, cada uno de los números pesa lo mismo, debido a que en la suma, todos tienen el mismo coeficiente: 1n.

Sin embargo, no necesariamente queremos que todos los valores tengan el mismo peso al tomar el promedio. Puede que existan razones para que queramos que cada uno contribuya de manera distinta a la media. Para generalizar la media aritmética, sean p1, …, pn[0,1]. El valor pi representa el peso asociado al valor xi, que a grandes rasgos sería la importancia de xi en el contexto en el que se toma el promedio. De este modo, el promedio ponderado de los xi es

p1x1+p2x2++pnxn=k=1npkxk

Precisamente, en el contexto de la probabilidad, cada posible valor de la v.a. discreta tiene un peso asociado: ¡la probabilidad de que la v.a. tome ese valor! Como es de esperarse de una media o promedio, el valor esperado debería de expresar la tendencia central del comportamiento probabilístico de una variable aleatoria, y en efecto, se cumple esa idea porque el peso asociado a cada valor es su probabilidad de ocurrencia.

Definición del valor esperado en el caso discreto

De acuerdo con la motivación anterior, presentamos la definición del valor esperado de una v.a. discreta.


Definición. Sea X:ΩR una variable aleatoria discreta. Definimos el valor esperado de X (o la esperanza de X) como

E[X]=ωΩX(ω)P({ω}),

siempre que esta suma sea absolutamente convergente. Es decir, si

ωΩ|X(ω)P({ω})|<.

En caso de que la suma no sea convergente, se dice que el valor esperado de X no está definido, o que es infinito.


La definición anterior va a ser de muchísima utilidad para algunas demostraciones, pero puede que no sea muy útil para hacer cálculos en casos concretos. Por ello, veamos una manera equivalente de definirla.

Para ello, como X es una v.a. discreta, sea {xk}k=1 el conjunto de valores que puede tomar X. Es decir, X[Ω]={xk}k=1. Ahora, observa que para cada kN+ se tiene que

X(ω)=xkωX1[{xk}]ω(X=xk).

En consecuencia, se tiene que

ω(X=xk)X(ω)P({ω})=ω(X=xk)xkP({ω})=xkω(X=xk)P({ω})=xkP(X=xk).

De acuerdo con la definición de valor esperado, se tiene que

E[X]=ωΩX(ω)P({ω}).

Ahora, la suma anterior puede expresarse de manera diferente. Como X[Ω]={xk}k=1 y {xk}k=1=k=1{xk}, se tiene que

Ω=X1[X[Ω]]=X1[k=1{xk}]=k=1X1[{xk}]=k=1(X=xk).

Así, podemos reacomodar la suma del valor esperado para obtener

ωΩX(ω)P({ω})=k=1ω(X=xk)X(ω)P({ω})=k=1xkP(X=xk).

En conclusión, obtenemos que si X es una v.a. discreta que toma valores en el conjunto {xk}k=1, entonces el valor esperado de X es

E[X]=k=1xkP(X=xk).

Finalmente, recordando que X[Ω]={xk}k=1, lo anterior nos queda como

E[X]=xX[Ω]xP(X=x).

que nos da una expresión alternativa para el valor esperado de una v.a. discreta.


Definición (Alternativa). Sea X una v.a. discreta. Definimos el valor esperado de X (o esperanza de X) como

E[X]=xX[Ω]xP(X=x),

siempre que la suma anterior sea absolutamente convergente. Es decir,

xX[Ω]|xP(X=x)|<.

En caso de que la suma no no sea convergente, se dice que el valor esperado de X no está definido, o que es infinito.


Ejemplo 1. Una v.a. discreta no necesariamente toma su valor esperado. Esto choca un poco con el término «valor esperado», pues al ser el valor «esperado» de la v.a., tendría sentido que sea alguno de los valores que puede tomar. Sea X:ΩR una v.a. con función de masa de probabilidad pX:RR dada por

pX(x)={12si x{0,1},0en otro caso.

De este modo, el conjunto de valores que puede tomar X es {0,1}. Es decir, X[Ω]={0,1}. Ahora obtengamos E[X],

E[X]=0P(X=0)+1P(X=1)=1P(X=1)=112=12.

Es decir, E[X]=12: el «valor esperado» de X es 12… sin embargo, 12, y 12X[Ω], por lo que de ninguna manera se esperaría que X tome el valor 12.

Sin embargo, si repitiéramos muchas veces a la v.a. X, el centroide (la media aritmética) de los valores observados en esas repeticiones se acercará cada vez más a E[X]. Eso es algo que mostramos (sin muchos detalles) en la entrada del enfoque frecuentista. Es por esto que dijimos que el valor esperado de X expresa la tendencia central del comportamiento probabilístico de X, pero no debe de pensarse como el valor a «esperar» cuando se observe X. Más adelante demostraremos formalmente las ideas de este ejemplo.


Ejemplo 1. Hay v.a.’s discretas que toman valores dentro de N, por lo que su valor esperado es una serie. Sea Y una v.a. con función de masa de probabilidad pY:RR dada por

pY(y)={(1p)ypsi yN,0en otro caso,

donde p(0,1). Procedamos a calcular el valor esperado de Y. Por definición, sabemos que

E[Y]=yY[Ω]yP(Y=y)=yNyP(Y=y)=y=0yP(Y=y)=y=0y(1p)yp.

Ahora, como el índice y comienza en 0, el primer término de la serie es 0(1p)0p=0, por lo que podemos empezar la serie en 1. Así,

(7)E[Y]=y=1y(1p)yp=py=1y(1p)y.

Lo que haremos será reacomodar la serie (7) de manera conveniente para poder obtener su valor. Sin embargo, para hacer posible el reacomodo es necesario verificar que la serie es convergente. Para ello, podemos utilizar el criterio del cociente de d’Alembert. Para cada nN+, sea an=n(1p)n. Es decir, an es el n-ésimo término de la serie. El criterio de d’Alembert nos dice que si

limn|an+1an|=r

con r<1, entonces la serie n=1an es absolutamente convergente. Primero desarrollaremos la expresión |an+1an|:

|an+1an|=|(n+1)(1p)n+1n(1p)n|.

Observa que en la expresión de la derecha tenemos (1p)n+1 en el numerador, y (1p)n en el denominador, por lo que

|(n+1)(1p)n+1n(1p)n|=|(n+1)(1p)n+1nn|=|(n+1)(1p)n|.

Además, 1p>0, ya que p(0,1), y también se cumple que n>0, n+1>0, por lo que

|(n+1)(1p)n|=(n+1)(1p)n,

y podemos seguir desarrollando esta última expresión:

(n+1)(1p)n=(1p)(n+1n)=(1p)(1+1n).

En consecuencia, el límite del criterio de d’Alembert nos queda

limn|an+1an|=limn(1p)(1+1n)=(1p)limn(1+1n)(1p),

así que r=1p, y como p(0,1), se tiene que 1p<1. En conclusión, queda demostrado que la serie (7) es absolutamente convergente. Por ello, podemos reacomodar los términos de maneras distintas. En particular, observa que la serie en (7) (sin modificar) tiene la siguiente forma:

y=1y(1p)y=(1p)+2(1p)2+3(1p)3+4(1p)4+

Sin embargo, podemos ver la progresión anterior como

(1p)+2(1p)2+3(1p)3+4(1p)4+=(1p)+(1p)2+(1p)3+(1p)4++(1p)2+(1p)3+(1p)4+(1p)3+(1p)4++(1p)4+,

y así sucesivamente. Entonces la serie de (7) puede reacomodarse como una «serie de series», en el sentido de que podemos reacomodarla como una serie cuyos términos son series:

(8)py=1y(1p)y=py=1x=y(1p)x.

Ahora, las series «dentro» de la otra serie comienzan en el índice y, por lo que las series de la forma x=y(1p)x pueden reescribirse como

(9)x=y(1p)x=x=0(1p)x+y,

pues observa que los términos no se ven afectados. Escribe los primeros términos de ambas series, y observa cómo coinciden. Como y es un valor constante con respecto al índice x, se tiene que

x=0(1p)x+y=(1p)yx=0(1p)x=(1p)y(11(1p))=(1p)yp.

En los últimos pasos del desarrollo anterior usamos que la serie es una serie geométrica. Volviendo a (8), vemos que

py=1y(1p)y=py=1x=y(1p)x=py=1(1p)yp=y=1(1p)y,

que también es una serie geométrica, que empieza en 1. El valor de esta serie es

(10)y=1(1p)y=1p1(1p)=1pp,

así que podemos concluir que el valor esperado de Y es

E[Y]=1pp.


¿Podemos hacer lo mismo para las v.a.’s continuas?

Hay dos motivos por los que el valor esperado de una v.a. continua difiere del de una v.a. discreta. El primero es que si replicamos la idea para una v.a. discreta, la suma resultante para una v.a. continua X es

xX[Ω]xP(X=x),

que es una suma con una cantidad infinita no numerable de términos, pues X es una v.a. continua. Sin embargo, ese no es el único problema: como X es una v.a. continua, entonces para cada xR se tiene que P(X=x)=0, por lo que la suma anterior sería 0 de cualquier manera.

Por ello, debemos de retomar el método para el cálculo de probabilidades en el caso de una v.a. continua. Esto es, si X es una v.a. continua, entonces para a, bR tales que a<b se tiene que

P(X(a,b])=abfX(x)dx

donde fX:RR es la función de densidad de X. Integrar la función de densidad de X sobre el intervalo (a,b] nos da como resultado la probabilidad de que X esté dentro de (a,b]. Por ello, para ε>0 tal que ε es cercano a 0, y para xR, se tiene que

P(X(xε2,x+ε2])=xε/2x+ε/2fX(t)dtεfX(x).

Esto obedece a que si ε es muy cercano a 0, entonces el valor de la integral sobre el intervalo (xε2,x+ε2] será muy parecido al área del rectángulo cuya base es ese mismo intervalo y que tiene altura igual a fX(x).

Lo anterior quiere decir que la probabilidad de que X se encuentre dentro de una vecindad de diámetro ε>0 centrada en x es muy parecida a εfX(x) cuando ε es un valor muy pequeño.

Las ideas anteriores son importantes, pues nos dicen que aunque fX(x) no es la probabilidad de que X tome el valor x, sí guarda cierta relación con la probabilidad de que X se encuentre muy cerca de x. De hecho, la discusión anterior (junto con la motivación de la integral de Riemann) nos dice que integrar

abfX(t)dt

es como «sumar» las probabilidades de estar muy cerca de cada uno de los puntos en (a,b], de la manera más refinada posible. Por ello, si tomamos la integral

abtfX(t)dt,

este valor será como «sumar» todos los valores en (a,b] ponderados por la probabilidad de estar muy cerca de cada uno de ellos. ¡Esa es justamente la idea del valor esperado! Con esto ya estamos listos para definir el valor esperado de una v.a. continua.

Definición del valor esperado en el caso continuo

Al final de la discusión anterior llegamos a una expresión que captura la misma idea de un promedio ponderado, pero para el caso continuo. Es decir, la idea es la misma que en el caso de una v.a. discreta, pero en vez de sumar, tomamos una integral. Además, para obtener el valor esperado de una v.a. continua será necesario tomar la integral sobre todo R. Esto da pie a la definición que presentamos a continuación.


Definición. Sea X:ΩR una variable aleatoria continua. Definimos el valor esperado de X (o la esperanza de X) como

E[X]=xfX(x)dx,

siempre que esta integral sea absolutamente convergente. Esto es,

|xfX(x)|dx<,

donde fX:RR es la función de densidad de X. En caso de que la integral no sea absolutamente convergente, se dice que el valor esperado de X no está definido, o que es infinito.


En este caso no tenemos una versión formal como la primera que dimos del valor esperado de una v.a. discreta. Para la construcción de una definición así es necesario contar con una herramienta que no hemos construido en este curso, y es probable que no conozcas: la integral de Lebesgue. Por ello, algunas propiedades del valor esperado en el caso continuo serán más complicadas de demostrar. No obstante, la definición que hemos dado es suficiente para calcular el valor esperado de cualquier v.a. continua que se te ocurra.

Ejemplo 2. Como el valor esperado de una v.a. continua está dado por una integral, es recomendable que recuerdes los métodos de integración que viste en tu curso de Cálculo Diferencial e Integral II. Si lo necesitas, puedes hacer click aquí para consultar nuestras notas de esa materia.

Sea Z una v.a. continua con distribución exponencial con parámetro λ>0. Es decir, Z tiene función de densidad fZ:RR dada por

fZ(z)={λeλzsi z0,0en otro caso.

Veamos cuál es el valor esperado de Z. Para ello, primero observa que como fZ(z)=0 para cada z<0, se tiene que

E[Z]=zfZ(z)dz=0zfZ(z)dz.

Esto es algo que siempre hay que revisar al momento de calcular el valor esperado de una v.a. continua: la integral se reduce al subconjunto de R sobre el que la función de densidad es mayor a 0.

De este modo, tenemos que

E[Z]=0z(λeλz)dz,

que es una integral que podemos resolver mediante el método de integración por partes. Para ello, sea u=z y dv=λeλz. De este modo, tendremos que v=eλz y du=dz, así que

0z(λeλz)dz=(zeλz)|0+0eλzdz=[0eλ0limzzeλz]+1λ0λeλz=[0limzzeλz]+1λ(eλz)|0=[00]+1λ[eλ0limzeλz]=1λ[10]=1λ.

Por lo tanto, se concluye que

E[Z]=1λ.

Es decir, el valor esperado de una v.a. con distribución exponencial de parámetro λ es 1λ.


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la identidad (9) es verdadera. Sugerencia: Escribe los primeros términos de ambas series, y observa que coinciden.
  2. Dados r(0,1) y aR, conocemos el valor de la serie geométrica con coeficiente a y razón r:n=0arn=a1r, donde es importante notar que la serie empieza en 0. No obstante, en (10) nosotros usamos el valor de una serie geométrica que empieza en 1. ¿Cómo le haces para pasar de la versión que empieza en 0 a la versión que empieza en 1?
  3. Sean a, bR tales que a<b. Una v.a. con distribución uniforme sobre el intervalo [a,b] es una v.a. U con función de densidad fU:RR dada porfU(u)={1basi u[a,b],0en otro caso.¿Cuál es el valor esperado de U?

Más adelante…

El valor esperado (o esperanza) es un valor importante que intenta resumir una parte del comportamiento probabilístico de una v.a. Por ello, su uso es muy común en contextos aplicados en los que se busca analizar cuantitativamente un fenómeno aleatorio, como la inferencia estadística (y sus ramas).

En la siguiente entrada comenzaremos el estudio de algunas propiedades importantes del valor esperado.

Entradas relacionadas