Archivo de la etiqueta: sigma aditividad

Probabilidad I: Medida de Probabilidad

Por Octavio Daniel Ríos García

Introducción

En la última sesión demostramos un teorema de vital importancia que permite construir un σ-álgebra a partir de cualquier familia dada de conjuntos. Con esto, ya tenemos los objetos necesarios para empezar a tratar con el concepto de «medida». Anteriormente comentamos que un σ-álgebra es el conjunto cuyos elementos son a los que podremos «calificar», es decir, los que podremos medir. En esta sesión describiremos la noción de «medir» los elementos de un σ-álgebra dado.

Definición de Medida de Probabilidad

Dado un espacio muestral $\Omega$ y $\mathscr{F}$ un σ-álgebra sobre $\Omega$, pretendemos asignar a cada $A \in \mathscr{F}$ un valor numérico. Para ello, en matemáticas utilizamos funciones. En este caso, necesitaremos una función que exprese nuestra noción de «probabilidad de ocurrencia». A cada elemento $A \in \mathscr{F}$ se le asignará un valor $\mathbb{P}(A) \in \mathbb{R}$ que deberá estar en el intervalo $[0,1]$. Así, el $0$ representará lo menos probable posible, y el $1$ lo más probable posible. Esta discusión da lugar a la definición de medida de probabilidad.


Definición. Sea $\Omega$ un conjunto y $\mathscr{F}$ un σ-álgebra sobre $\Omega$. Diremos que una función $\mathbb{P}\colon\mathscr{F} \longrightarrow \mathbb{R}$ es una medida de probabilidad si cumple las siguientes propiedades:

  1. Para todo $A \in \mathscr{F}$ se cumple que $\mathbb{P}(A) \geq 0$. Esto es, $\mathbb{P}$ es no-negativa.
  2. Si $\left\lbrace A_{n} \right\rbrace_{n=1}^{\infty}$ es una familia numerable de conjuntos ajenos dos a dos de $\mathscr{F}$, entonces
    \[ \mathbb{P}\left( \bigcup_{n=1}^{\infty} A_{n} \right) = \sum_{n=1}^{\infty} \mathbb{P}(A_{n}). \]Esta propiedad es conocida como σ-aditividad. Es decir, $\mathbb{P}$ es σ-aditiva.
  3. $\mathbb{P}(\emptyset) = 0$ y $\mathbb{P}(\Omega) = 1$.

Por familia numerable de conjuntos ajenos dos a dos, queremos decir que se cumple que

\[ \forall i, j \in \mathbb{N}^{+}\colon (i \neq j \implies A_{i} \cap A_{j} = \emptyset). \]

Es decir, que para cualesquiera índices $i$ y $j$, si $i$ es distinto de $j$, entonces los conjuntos $A_{i}$ y $A_{j}$ son ajenos.

En resumidas cuentas, una medida de probabilidad es cualquier función que satisface las tres propiedades de la definición anterior. Además, si $\Omega$ es un conjunto, $\mathscr{F}$ un σ-álgebra sobre $\Omega$, y $\mathbb{P}\colon\mathscr{F} \longrightarrow \mathbb{R}$ es una medida de probabilidad, la terna $(\Omega, \mathscr{F}, \mathbb{P})$ recibe el nombre de espacio de probabilidad. Es decir, a partir de ahora, cuando digamos que «$(\Omega, \mathscr{F}, \mathbb{P})$ es un espacio de probabilidad», se entenderá que $\Omega$, $\mathscr{F}$ y $\mathbb{P}$ son los objetos que corresponden.

Juntando todas nuestras herramientas

Ya que tenemos los conceptos más fundamentales de la probabilidad, hay que ver cómo encajan juntos. Para empezar, recuerda que el espacio muestral de un fenómeno aleatorio es el conjunto $\Omega$. Los elementos de este conjunto son todos los resultados posibles del fenómeno. Luego, tomaremos a $\mathscr{F}$, que es un σ-álgebra sobre $\Omega$. Finalmente, sobre $\mathscr{F}$ se define la medida de probabilidad $\mathbb{P}\colon \mathscr{F} \longrightarrow \mathbb{R}$.

Pero, ¿por qué se define la medida sobre el σ-álgebra? ¿Por qué no la definimos directamente sobre $\Omega$? Recuerda que los elementos de un σ-álgebra, a los cuales llamaremos eventos, son subconjuntos de $\Omega$. En la primera entrada de este curso justificamos las propiedades de un σ-álgebra. En particular, mencionamos que un evento $A \in \mathscr{F}$ burdamente cumple lo siguiente: Dado cualquier $\omega \in \Omega$ (es decir, dado cualquiera de los resultados posibles del fenómeno aleatorio), la pregunta «¿es cierto que $\omega \in A$» tiene respuesta. Por ello, cuando nuestra medida de probabilidad asigne el número $\mathbb{P}(A)$ al conjunto $A$, ese número expresa cuál es la probabilidad de que sea cierto que $\omega \in A$. En otras palabras, entre $0$ y $1$, ¿qué tan probable es que ocurra cualquiera de los resultados en $A$? La respuesta será $\mathbb{P}(A)$. Por este motivo, el número $\mathbb{P}(A)$ suele leerse como «la probabilidad del evento $A$», o simplemente, «la probabilidad de $A$».

Justificando las propiedades de una medida de probabilidad

Por otro lado, veamos un poco sobre la motivación de las propiedades de una medida de probabilidad. La no-negatividad surge muy naturalmente de nuestra restricción de la medida al intervalo $[0,1]$. Por otro lado, la σ-aditividad tiene dos razones de ser. Primero, observa que la σ-aditividad implica la aditividad finita. Si $A_{1}$, $A_{2}$, … , $A_{n} \in \mathscr{F}$ son $n$ eventos cualesquiera que son ajenos dos a dos, podemos definir la siguiente familia numerable de conjuntos:

\[ E_{1} = A_{1}, E_{2} = A_{2}, E_{3} = A_{3}, \ldots, E_{n} = A_{n}, E_{n+1} = \emptyset, E_{n+2} = \emptyset, \ldots, \]

Es decir, para cada $k \in \mathbb{N}$ tal que $k \geq n+1$, se define $E_{k} = \emptyset$. Esta es una familia numerable de eventos ajenos (observa que la intersección de cualesquiera dos eventos de la familia resulta ser vacía). Por lo tanto, podemos aplicar la σ-aditividad de $\mathbb{P}$. Esto es, se tiene que

\[ \mathbb{P}\left( \bigcup_{k=1}^{\infty} E_{k} \right) = \sum_{k=1}^{\infty} \mathbb{P}(E_{k}), \]

pero recuerda que para cada $k \geq n+1$, se tiene que $E_{k} = \emptyset$, y para cada $k \leq n$, se cumple que $E_{k} = A_{k}$. Por un lado, esto significa que

\[ \bigcup_{k=1}^{\infty} E_{k} = \left( \bigcup_{k=1}^{n} E_{k} \right) \cup \left( \bigcup_{k=n+1}^{\infty} E_{k} \right) = \left( \bigcup_{k=1}^{n} A_{k} \right) \cup (\emptyset) = \bigcup_{k=1}^{n} A_{k}. \]

Por otro lado, tenemos que

\begin{align*}
\sum_{k=1}^{\infty} \mathbb{P}(E_{k}) &= \sum_{k=1}^{n} \mathbb{P}(E_{k}) + \sum_{k=n+1}^{\infty} \mathbb{P}(E_{k}) \\&= \sum_{k=1}^{n} \mathbb{P}(A_{k}) + \sum_{n=3}^{\infty} \mathbb{P}(\emptyset) \\
&= \sum_{k=1}^{n} \mathbb{P}(A_{k}) + \sum_{n=1}^{\infty} 0 \\
&= \sum_{k=1}^{n} \mathbb{P}(A_{k})
\end{align*}

Esto nos permite concluir que

\[ \mathbb{P}\left(\bigcup_{k=1}^{n} A_{k}\right) = \sum_{k=1}^{n} \mathbb{P}(A_{k}). \]

En conclusión, cualquier medida de probabilidad es finitamente aditiva. En particular, es finitamente aditiva para $n = 2$, por lo que si se tienen $A_{1}$, $A_{2} \in \mathscr{F}$ eventos ajenos, se sigue que $\mathbb{P}(A_{1} \cup A_{2}) = \mathbb{P}(A_{1}) + \mathbb{P}(A_{2})$.

La σ-aditividad y, en consecuencia, la aditividad, obedecen a nuestra intuición de medir la probabilidad de dos o más eventos que no comparten elementos. Si $A$ y $B$ son eventos ajenos, cuando un $\omega$ es uno de los elementos de $A$, no puede ser un elemento de $B$. Por ello, como la probabilidad de que el resultado del fenómeno aleatorio sea alguno de los elementos de $A$ es $\mathbb{P}(A)$, este valor no expresa nada sobre la probabilidad de que el resultado del fenómeno sea un elemento de $B$. Análogamente, $\mathbb{P}(B)$ tampoco expresa nada sobre la probabilidad de que el resultado sea un elemento de $A$. Burdamente, cuando $A$ y $B$ son eventos ajenos, $\mathbb{P}(A)$ y $\mathbb{P}(B)$ no expresan la probabilidad de algo en común.

Por lo tanto, sumar estos dos valores resulta en la probabilidad de que el resultado sea un elemento exclusivamente de $A$ o exclusivamente de de $B$. Pero al ser ajenos, esto es lo mismo que expresar la probabilidad de que el resultado sea un elemento de $A \cup B$. Esto motiva que cuando $A$ y $B$ son eventos ajenos, $\mathbb{P}(A\cup B) = \mathbb{P}(A) + \mathbb{P}(B)$. Esta misma idea se extiende al caso de una familia numerable de eventos ajenos, y es la que motiva la σ-aditividad.

Finalmente, la última propiedad establece que $\mathbb{P}(\emptyset) = 0$ y $\mathbb{P}(\Omega) = 1$. ¿Por qué le pedimos a $\mathbb{P}$ que cumpla esto? Recordando que $0$ representa lo más improbable y $1$ lo más probable posible, que $\mathbb{P}(\emptyset) = 0$ expresa que la probabilidad de algo lógicamente imposible debe de ser $0$. Mucho cuidado, el evento $\emptyset$ no representa «que no ocurra nada», esa es una interpretación errónea de $\emptyset$ como evento. Por otro lado, $\mathbb{P}(\Omega) = 1$ se pide porque la probabilidad de que el resultado sea cualquiera de los resultados posibles debe de ser la más alta posible, pues siempre se obtiene alguno de los elementos de $\Omega$ como resultado.

Ejemplo básico de medida de probabilidad

Sean $\Omega = \{ 1, 2, 3 \}$ y $\mathscr{F} = \mathscr{P}(\Omega)$. Sea $\mathbb{P}\colon \mathscr{F} \longrightarrow \mathbb{R}$ la función dada por la siguiente regla de correspondencia: para cada $A \in \mathscr{F}$, definimos

\[ \mathbb{P}(A) = \frac{\left| A \right|}{\left| \Omega \right|}, \]

donde $\left| A \right|$ es la cardinalidad de $A$. Esto es, $|A|$ es el número de elementos que tiene $A$. Primero, tenemos que ver que $(\Omega, \mathscr{F}, \mathbb{P})$ es un espacio de probabilidad. Ya sabemos que $\Omega$ es un conjunto y que $\mathscr{P}(\Omega)$ es un σ-álgebra sobre $\Omega$. Nos falta ver que $\mathbb{P}$ es una medida de probabilidad. Es decir, hay que ver que satisface las propiedades de una medida de probabilidad.

  1. Primero, hay que verificar que para cualquier evento $A \in \mathscr{F}$ se cumple que $\mathbb{P}(A) \geq 0$. En efecto, para cualquier conjunto finito $A$ se tiene que $\left| A \right| \in \mathbb{N}$. Además, $\Omega \neq \emptyset$, por lo que $|\Omega| \neq 0$. Por lo tanto, $\frac{|A|}{|\Omega|}$ está bien definido, y se cumple que $\frac{|A|}{|\Omega|} \geq 0$. En conclusión, para cualquier evento $A \in \mathscr{F}$ se cumple que $\mathbb{P}(A) \geq 0$.
  2. Para ver la segunda propiedad, como $\Omega$ es finito, basta con ver que $\mathbb{P}$ es finitamente aditiva. Sean $A$, $B \in \mathscr{F}$ eventos cualesquiera tales que $A \cap B = \emptyset$. Debemos de demostrar que $\mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B)$. Observa que como $A$ y $B$ son finitos y $A \cap B = \emptyset$, se tiene que $|A \cup B| = |A| + |B|$. Así, tenemos que
    \[ \frac{|A \cup B|}{|\Omega|} = \frac{|A|+|B|}{|\Omega|} = \frac{|A|}{|\Omega|} + \frac{|B|}{|\Omega|}, \]y por la definición de $\mathbb{P}$, podemos concluir que $\mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B)$.
  3. Finalmente, como $|\emptyset| = 0$, se tiene que $\mathbb{P}(\emptyset) = 0$, y por la definición de $\mathbb{P}$, tenemos que $\mathbb{P}(\Omega) = \frac{|\Omega|}{|\Omega|} = 1$.

Bien, con esto hemos demostrado que $(\Omega, \mathscr{F}, \mathbb{P})$ es un espacio de probabilidad.

Ahora veamos algunos aspectos más prácticos de este ejemplo. Por ejemplo, ¿cuál será la probabilidad de que el resultado de este fenómeno sea $3$? Para obtenerla, hay que encontrar a qué evento nos referimos. En este caso, nos interesa que el resultado sea $3$. Así, el evento en cuestión sería aquel que tenga como único elemento a $3$, es decir, $\{ 3 \}$. Bien, entonces la probabilidad de que el resultado sea $3$ es $\mathbb{P}(\{3\})$. Utilicemos la definición de $\mathbb{P}$ para el cálculo:

\begin{align*}
\mathbb{P}(\{3\}) &= \frac{|\{3\}|}{|\Omega|} \\ &= \frac{|\{3\}|}{|\{1, 2, 3\}|} \\ &= \frac{1}{3},
\end{align*}

así, $\mathbb{P}(\{3\}) = \frac{1}{3}$, por lo que la probabilidad de que el resultado de este fenómeno sea $3$ es $\frac{1}{3}$, o $0.33333\ldots$ Hay quienes escriben la probabilidad de un evento de manera porcentual. De esta forma, la probabilidad de que el resultado sea $3$ es $33.333\ldots\%$.

Hagamos otra pregunta. ¿Cuál es la probabilidad de que el resultado de este fenómeno sea un número impar? Hay que encontrar primero el evento que contiene todos los resultados impares. Esto es, sería el siguiente conjunto

\[ B = \{ \omega \in \Omega \mid \exists k \in \mathbb{Z}\colon \omega = 2k + 1 \}, \]

que para este $\Omega$ es muy sencillo: son $1$ y $3$. Así, $B = \{1,3\}$, y podemos calcular la probabilidad de $B$ usando la expresión que define a $\mathbb{P}$ como sigue.

\begin{align*}
\mathbb{P}(B) &= \mathbb{P}(\{1, 3\}) \\ &= \frac{|\{1,3\}|}{|\Omega|} \\ &= \frac{|{1,3}|}{|{1,2,3}|} \\ &= \frac{2}{3}.
\end{align*}

Por lo tanto, la probabilidad d e que el resultado de este fenómeno sea un número impar es $\frac{2}{3}$, o bien $0.6666\ldots$, o $66.666\ldots\%$.

Para terminar con este ejemplo, veamos algo relacionado con la aditividad de $\mathbb{P}$. Ya vimos que $\mathbb{P}$ es aditiva. ¿Qué pasa si sumamos las probabilidades de dos eventos que no son ajenos? Por ejemplo, sean $C_{1} = \{1,2\}$ y $C_{2} = \{2,3\}$. Primero, se tiene que

\begin{align*}
\mathbb{P}(C_{1}) = \mathbb{P}(\{1,2\}) = \frac{2}{3}, \\
\mathbb{P}(C_{1}) = \mathbb{P}(\{2,3\}) = \frac{2}{3},
\end{align*}

por lo que $\mathbb{P}(C_{1}) + \mathbb{P}(C_{2}) = \frac{4}{3}$, y $\frac{4}{3} > 1$. ¿Qué falló aquí? Llegamos a un número que es mayor a $1$, ¿no debería de pasar que $\mathbb{P}(C_{1}) + \mathbb{P}(C_{2})$ es la probabilidad de algún evento? El problema está en que $C_{1}$ y $C_{2}$ no son ajenos. Observa que $C_{1} \cap C_{2} = \{1,2\} \cap \{2,3\} = \{2\}$. Nota que $\mathbb{P}(C_{1})$ expresa «la probabilidad de que el resultado del experimento sea un elemento de $C_{1}$». En términos más amigables, $\mathbb{P}(C_{1})$ expresa la probabilidad de que el resultado sea $1$ o $2$. Es decir, en esta cantidad se incluye la posibilidad de que el resultado sea $2$. De manera similar, $\mathbb{P}(C_{2})$ expresa la probabilidad de que el resultado sea $2$ o $3$. Por ello, en el momento en el que sumamos $\mathbb{P}(C_{1})$ y $\mathbb{P}(C_{2})$, estamos contabilizando la probabilidad de que el resultado sea $2$ más de una vez, algo que no debemos de hacer.

Así, se confirma que cuando $C_{1}$ y $C_{2}$ son eventos que no son ajenos, la probabilidad de $\mathbb{P}(C_{1} \cup C_{2})$ no coincide con $\mathbb{P}(C_{1}) + \mathbb{P}(C_{2})$.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu manejo de los conceptos abordados en esta entrada.

  • Sean $\Omega = \{1,2,3,4\}$ y $\mathscr{F} = \mathscr{P}(\Omega)$. Definimos la siguiente función auxiliar $p\colon \Omega \rightarrow \mathbb{R}$ mediante las siguientes reglas de correspondencia:
    \begin{align*}
    p(1) = \frac{1}{4}, \quad p(2) = \frac{1}{4}, \quad p(3) = \frac{1}{8}, \quad p(4) = \frac{3}{8}.
    \end{align*} Sea $\mathbb{P}\colon \mathscr{F} \longrightarrow \mathbb{R}$ la función dada por: Para cada $A \in \mathscr{F}$, definimos
    \begin{align*}
    \mathbb{P}(A) = \sum_{k \in A} p(k).
    \end{align*} Por ejemplo, $\mathbb{P}(\{1,3\}) = p(1) + p(4) = \frac{1}{4} + \frac{3}{8}$. Adicionalmente, se define $\mathbb{P}(\emptyset) = 0$.
    • Demuestra que $(\Omega, \mathscr{F}, \mathbb{P})$ es un espacio de probabilidad.
    • ¿Cuál es la probabilidad de que el resultado del fenómeno en este ejercicio sea un número par?
    • ¿Cuál es la probabilidad de que el resultado sea un número impar?
  • Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Sean $A$, $B \in \mathscr{F}$ tales que $A \cap B \neq \emptyset$. ¿Qué le sumarías (o restarías) a $\mathbb{P}(A) + \mathbb{P}(B)$ para obtener una expresión que sí sea igual a $\mathbb{P}(A) + \mathbb{P}(B)$? Daremos la respuesta a esta pregunta en la próxima sesión, pero comienza a pensarlo.
  • En la entrada mencionamos que el evento $\emptyset$ no representa «que no ocurra nada», y que debe de interpretarse como el evento «imposible». ¿Por qué? Por ejemplo, retomando cuando $\Omega = \{1,2,3\}$, es claro que $\{1 \} \cap \{3\} = \emptyset$. ¿Tiene sentido que su probabilidad sea $0$? ¿Existe algún resultado $\omega \in \Omega$ tal que $\omega \in \{1 \} \cap \{3 \}$?

Más adelante…

En esta sesión tocamos las propiedades que hacen que una función sea considerada una medida de probabilidad. Estas propiedades tienen consecuencias que abordaremos en una entrada posterior. Antes de hacerlo, en la siguiente entrada abordaremos ciertas minucias sobre la interpretación de las operaciones con eventos en el contexto de la probabilidad.

Entradas relacionadas