Archivo del Autor: Octavio Daniel Ríos García

Probabilidad I: Principios de Conteo 1 – Suma y Producto

Por Octavio Daniel Ríos García

Introducción

En la entrada anterior abordamos el enfoque frecuentista de la probabilidad. El siguiente enfoque que veremos requiere de algunas herramientas adicionales. Por ello, el propósito de esta sección es hacer todos los preparativos para estudiar la siguiente medida de probabilidad importante: la probabilidad clásica. Este último enfoque se utiliza para el caso en el que $\Omega$, el espacio muestral, es finito, y se basa en la cardinalidad de $\Omega$ y la de sus subconjuntos. En consecuencia, es necesario que sepas contar la cantidad de elementos que tiene cualquier subconjunto de $\Omega$ que se te pida.

No demostraremos la validez de las propiedades para conjuntos en esta entrada, pues se trata de propiedades de conjuntos finitos. Por ello, puedes consultar nuestras notas de Álgebra Superior I en caso de que las necesites. Esta parte del curso está basada principalmente en el primer capítulo del libro Discrete and Combinatorial Mathematics: An Applied Introduction (5ᵃ edición) de Ralph P. Grimaldi.

El principio de conteo de la suma

Comenzaremos enunciando algunos principios de conteo asociados a la realización de tareas. Estos principios pueden expresarse en términos de cardinalidades de conjuntos.


Principio de la suma. Si una tarea puede realizarse de $m$ formas distintas, y otra tarea puede realizarse de $n$ formas distintas, y las dos tareas no se pueden hacer simultáneamente, entonces se puede realizar alguna de las dos tareas de $m + n$ maneras distintas.

En términos de conjuntos. Si $A$, $B$ son conjuntos finitos tales que $A \cap B = \emptyset$, entonces

\[ | A \cup B | = |A| + |B|. \]

Donde $|A|$ es la cardinalidad (número de elementos) del conjunto $A$.


Ejemplo. En la biblioteca de la Facultad de Ciencias hay $25$ libros sobre probabilidad y $15$ libros sobre álgebra moderna. Así, por el principio de la suma, un alumno de la Facultad de Ciencias puede elegir de entre $25 + 15 = 40$ libros para aprender sobre cualquiera de estos dos temas.


El principio de la suma puede extenderse a más de dos tareas, siempre y cuando se cumpla que ningún par de tareas pueda ocurrir simultáneamente. En términos de conjuntos, se tiene que para cualesquiera $A_{1}$, $A_{2}$, …, $A_{k}$ conjuntos que son ajenos dos a dos. Entonces se cumple que

\[ {\left| \bigcup_{i=1}^{k} A_{i} \right|} = \sum_{i=1}^{k} |A_{i}| \]

Precisamente, que los conjuntos sean ajenos dos a dos se interpreta como que ningún par de tareas puede realizarse simultáneamente.

Ejemplo. En la sección de ciencias de la computación de la biblioteca de la Facultad de Ciencias de la UNAM hay $7$ libros sobre C++, $6$ libros sobre Java, y $5$ libros sobre Python. En consecuencia, por el principio de la suma, una alumna de la facultad de ciencias tiene $7+6+5=18$ libros a elegir para comenzar a aprender algún lenguaje de programación.


También podemos precisar qué ocurre cuando $A$ y $B$ son finitos y no son ajenos. Primero, veamos cuando $B \subseteq A$. Como $B \subseteq A$, se cumple que $A = B \cup (A \smallsetminus B)$. Observa que $B$ y $A \smallsetminus B$ son conjuntos ajenos, por lo que

\[ |A| = |B \cup (A \smallsetminus B)| = |B| + |A \smallsetminus B|. \]

Y como la cardinalidad de un conjunto finito es un número natural, se tiene que $|B| \leq |A|$. En conclusión, si $A \subseteq B$, entonces $|B| \leq |A|$. Ahora, sabemos que para cualesquiera conjuntos finitos $A$ y $B$, los conjuntos $A$ y $B \smallsetminus A$ son ajenos, y que $A \cup B = A \cup (B \smallsetminus A)$, por lo que

\[ |A \cup B| = |A \cup (B \smallsetminus A)| = |A| + |B \smallsetminus A|, \]

y como $B \smallsetminus A \subseteq B$, se tiene que $|B\smallsetminus A| \leq |B|$, y así

\[ |A \cup B| = |A| + |B \smallsetminus A| \leq |A| + |B|. \]

En conclusión, la cardinalidad es subaditiva. De hecho, esta última propiedad se cumple para cualquier $n \in \mathbb{N}^{+}$ y cualesquiera $A_{1}$, $A_{2}$, …, $A_{n}$ conjuntos finitos:

\[ {\left| \bigcup_{i=1}^{n} A_{i} \right|} \leq \sum_{i=1}^{n} |A_{i}|. \]

Ejemplo. Una profesora de la facultad de ciencias tiene $8$ libros sobre Probabilidad en su colección, mientras que uno de sus colegas tiene $5$. Si denotamos por $m$ al número de libros diferentes sobre Probabilidad que tienen en su posesión, se cumple que

\[ 8 \leq m \leq 13, \]

pues $m$ será $8$ si el colega de la profesora tiene los mismos libros que ella (y así, el número de libros distintos que tienen en su posesión es $8$). Por otro lado, por el principio de la suma, $m$ puede tomar un valor máximo de $8 + 5 = 13$ en el caso de que los libros de la profesora y de su colega son todos distintos.


En la entrada de propiedades de una medida de probabilidad vimos un resultado conocido como el principio de inclusión-exclusión. Resulta que este principio es cierto también para la cardinalidad de conjuntos finitos. Es decir, que para cualesquiera $A$ y $B$ conjuntos finitos se cumple que

\[ |A \cup B| = |A| + |B|− |A \cap B|. \]

Más aún, para cualquier $n \in \mathbb{N}^{+}$ y cualesquiera $A_{1}$, $A_{2}$, …, $A_{n}$ conjuntos finitos se cumple que

\[ {\left| \bigcup_{i=1}^{n} A_{i} \right|} = \sum_{i=1}^{n}|A_{i}| − \sum_{i<j}|A_{i} \cap A_{j}| + \sum_{i<j<k} |A_{i} \cap A_{j} \cap A_{k}| − \cdots + (-1)^{n+1}{\left|\bigcap_{i=1}^{n} A_{i} \right|}. \]

Por ejemplo, para $n=3$ y para cualesquiera $A_{1}$, $A_{2}$, $A_{3}$ conjuntos finitos, se tiene que

\[ |A_{1} \cup A_{2} \cup A_{3}| = |A_{1}| + |A_{2}| + |A_{3}| − |A_{1} \cap A_{2}| − |A_{1} \cap A_{3}| − |A_{2} \cap A_{3}| + |A_{1} \cap A_{2} \cap A_{3}|. \]

Ejemplo. Le pedimos a tres aficionados al rock progresivo que nos dijeran sus $5$ bandas favoritas de este género musical. Sus listas son las siguientes:

Aficionado 1 ($A_{1}$)

  • Pink Floyd.
  • Genesis.
  • Marillion.
  • Rush.
  • Riverside.

Aficionado 2 ($A_{2}$)

  • King Crimson.
  • Yes.
  • Genesis.
  • Rush.
  • Pink Floyd.

Aficionado 3 ($A_{3}$)

  • Jethro Tull.
  • King Crimson.
  • Änglagård.
  • Anekdoten.
  • Yes.

Si decides escoger una banda de las que mencionaron estas tres personas, ¿cuántas opciones distintas existen? En otras palabras, ¿cuál es la cardinalidad de $A_{1} \cup A_{2} \cup A_{3}$? Para verlo, podemos valernos del principio de inclusión-exclusión. Primero, veamos los elementos que tienen en común las listas al compararlas dos a dos:

$A_{1} \cap A_{2}$

  • Pink Floyd.
  • Genesis.
  • Rush.

$A_{1} \cap A_{3}$

No tienen elementos en común.

$A_{2} \cap A_{3}$

  • King Crimson.
  • Yes.

En consecuencia, $|A_{1} \cap A_{2}| = 3$, $|A_{1} \cap A_{3}| = 0$ y $|A_{2} \cap A_{3}| = 2$. Luego, observa que no hay elementos en común entre las tres listas, por lo que $|A_{1} \cap A_{2} \cap A_{3}| = 0$. Entonces tenemos que

\begin{align*} |A_{1} \cup A_{2} \cup A_{3}| &= |A_{1}| + |A_{2}| + |A_{3}| − |A_{1} \cap A_{2}| − |A_{1} \cap A_{3}| − |A_{2} \cap A_{3}| + |A_{1} \cap A_{2} \cap A_{3}| \\ &= 5 + 5 + 5 − 3 − 0 − 2 + 0 \\ &= 15 − 5 \\ &= 10. \end{align*}

Por lo tanto, existen $10$ opciones distintas a elegir entre las bandas que mencionaron las tres personas.


El principio de conteo del producto

Ahora, ¿qué pasa cuando tenemos dos tareas y queremos hacerlas de forma consecutiva, en orden? Por ejemplo, imagina que tienes $3$ camisas distintas y $4$ pantalones distintos. ¿De cuántas maneras posibles puedes ponerte primero una camisa y luego un pantalón? Por cada una de las $3$ de camisas habrá $4$ pantalones distintos a escoger.

Figura. Figura que ilustra las maneras posibles de ponerte primero una de las $3$ camisas y luego uno de los $4$ pantalones.

En consecuencia, a la primera camisa le corresponden $4$ pantalones, a la segunda también, y a la tercera lo mismo. Por ello, el número de maneras posibles de ponerte primero una camisa y luego un pantalón serían $4 + 4 + 4 = 3 \cdot 4 = 12$.

Podemos verlo en términos de conjuntos. Sean $C = \{ c_{1}, c_{2}, c_{3} \}$ el conjunto de las camisas y $P = \{ p_{1}, p_{2}, p_{3}, p_{4} \}$ el conjunto de los pantalones. Podemos representar la idea de tomar primero una camisa y luego un pantalón a través del producto cartesiano de estos dos conjuntos:

\begin{align} C \times D = \begin{Bmatrix} (c_1,p_1), & (c_1, p_2), & (c_1, p_3), & (c_1, p_4) \\ (c_2,p_1), & (c_2, p_2), & (c_2, p_3), & (c_2, p_4) \\ (c_3,p_1), & (c_3, p_2), & (c_3, p_3), & (c_3, p_4) \end{Bmatrix}, \end{align}

observa que cada par ordenado representa cada una de las combinaciones de camisa y pantalón que puedes escoger. Por ello, $|C \times D|$ es el número total de combinaciones de camisa y pantalón posibles, que resulta ser $|C \times D| = |C||D| = 3 \cdot 4 = 12$. Además, observa que $C \times D$ representa precisamente la idea de que primero se escoge una camisa, y en segundo lugar se escoge el pantalón. Por otro lado, el conjunto $D \times C$ representa la idea de escoger primero el pantalón y después la camisa. Observa que esto no afecta el número total de combinaciones posibles.

La discusión anterior da lugar a nuestro segundo principio básico de conteo.


Principio del producto. Si una tarea puede dividirse en dos etapas y hay $m$ resultados posibles para la primera etapa y para cada una de estas etapas hay $n$ resultados posibles para la segunda etapa, entonces la tarea puede ser realizada, en el orden acordado, de $m n$ maneras distintas.

En términos de conjuntos. Para cualesquiera $A$ y $B$ conjuntos finitos se cumple que

\[ |A \times B| = |A||B|. \]


Ejemplo. Se lanzan dos dados distintos sobre una mesa. El primero tiene $6$ caras, y el segundo tiene $8$ caras. En consecuencia, esta actividad tiene $6 \cdot 8 = 48$ resultados posibles.


Ejemplo. El principio del producto puede extenderse a más de dos etapas en una misma tarea. Por ejemplo, considera la manufactura de placas para automóviles que consisten de $2$ letras seguidas de $4$ dígitos.

Figura. Ejemplo de placa de acuerdo con lo anterior. Esta placa consiste de la cadena de letras y dígitos $\textrm{A}\textrm{A}0000$.
  • Si no ponemos restricciones a la combinación de caracteres que lleva cada placa, entonces hay $26 \cdot 26 \cdot 10 \cdot 10 \cdot 10 \cdot 10 = 6{,}760{,}000$ placas posibles, pues hay $26$ letras en el alfabeto (sin considerar a la ‘ñ’) y $10$ dígitos del $0$ al $9$.
  • Podemos restringir las combinaciones que admitimos en una placa. Si no permitimos que tenga letras repetidas, entonces la parte que corresponde a las letras tiene $26 \cdot 25$ combinaciones posibles. ¿Por qué $26 \cdot 25$ y no $26 \cdot 26$ como en el caso anterior? Precisamente porque al escoger la primera letra, la segunda no puede ser la misma, por lo que sólamente se puede escoger alguna de las $25$ restantes, que son distintas de la que ya se escogió. En consecuencia, hay $26 \cdot 25 \cdot 10 \cdot 10 \cdot 10 \cdot 10 = 6{,}500{,}000$ combinaciones de letras y dígitos en los que no se repiten las letras.
  • Por otro lado, ¿cuántas placas hay sin dígitos repetidos? En este caso, sí permitimos que las letras se repitan, así que la parte correspondiente a las letras es $26 \cdot 26$. Por otro lado, en los dígitos, queremos que no haya dígitos repetidos, así que el número de cadenas de dígitos admisibles es $10 \cdot 9 \cdot 8 \cdot 7$. Esto se debe a que para el primer dígito se tienen $10$ opciones para escoger. Luego, al haber fijado el primero, el segundo está limitado a no ser el mismo que el primero, por lo que se puede escoger alguno de $9$ dígitos restantes. Después, el tercer dígito debe de ser distinto de los dos primeros, por lo que se escoge alguno de $8$ dígitos restantes. Finalmente, el cuarto dígito debe de ser distinto de los otros tres, por lo que se debe de escoger alguno de $7$ dígitos que quedan. En conclusión, hay $26 \cdot 26 \cdot 10 \cdot 9 \cdot 8 \cdot 7 = 3{,}407{,}040$ placas en las que los dígitos son todos distintos.
  • Por último, ¿cuántas placas hay sin repeticiones? Es decir, que ninguno de los símbolos (letras o dígitos) se repite. En este caso, se tienen $26 \cdot 25 \cdot 10 \cdot 9 \cdot 8 \cdot 7 = 3{,}276{,}000$ placas posibles en las que no hay repeticiones de ningún tipo.

Ejemplo. Para guardar información, la memoria principal de una computadora contiene una colección grande de circuitos, cada uno de los cuales es capaz de almacenar un bit. Esto es, alguno de los dígitos binarios (binary digits) $0$ o $1$. Toda la información que se almacena en una computadora consiste de colecciones muy grandes de bits. Por ejemplo, los colores y las imágenes son comúnmente almacenados en forma de arreglos de bits. En el caso de las imágenes, formatos como el PNG (Portable Network Graphics) y el BMP (bitmap, «mapa de bits») son ejemplos de formatos de imagen que consisten de matrices de pequeños cuadraditos de colores llamados pixeles.

Figura. Ejemplo de una imagen digital, que consiste de una matriz de pixeles. Al hacer zoom se aprecian claramente los pixeles que constituyen a la imagen.

Aunado a esto, cada uno de los pixeles tiene un color, el cual es representado a través de un arreglo de bits. Uno de los modelos de color más utilizados en los dispositivos digitales es el modelo RGB (Red Green Blue), que combina los colores primarios rojo, verde y azul para obtener otros colores.

Sin embargo, una computadora tiene acceso a una cantidad limitada de espacios de memoria, por lo que no podemos representar todos los colores visibles. Por ello, hacemos lo posible por representar la mayor cantidad posible de colores con los recursos disponibles para la computadora. Antiguamente, las computadoras y las consolas de videojuegos tenían una cantidad muy limitada de recursos. En consecuencia, dedican una cantidad fija de bits al color. Esta cantidad es conocida como la profundidad de color. Por ejemplo, en la siguiente imagen se muestran todos los colores posibles en una profundidad de color de $6$-bits.

Figura. Todos los colores posibles que se obtienen con una profundidad de color de $6$ bits. A cada color primario se le dedican $2$ bits.

A cada color primario se le dedican $2$ bits, es decir, dos «casillas» en las que puede ir un $0$ o un $1$. Así, en cada «casilla» hay $2$ opciones a escoger, por lo que una cadena de $2$ bits tiene $2 \cdot 2 = 4$ combinaciones posibles de $0$’s o $1$’s.

Bit 1Bit 2
$0$$0$
$0$$1$
$1$$0$
$1$$1$

En la tabla anterior se ilustran todos los valores que puede tomar la lista de $2$ bits que se asigna a cada color: $00$, $01$, $10$ y $11$. Estos valores pueden pensarse como cifras en sistema binario. Así, $00_{2}$ es $0$, $01_{2}$ es $1$, $10_{2}$ es $2$ y $11_{2}$ es $3$. A cada color primario le corresponde un par de bits que representa la intensidad de rojo, verde y azul que contiene un color compuesto dado. Estos valores se combinan entre sí de manera aditiva. Por ejemplo, tener los valores $01$ en rojo, $00$ en verde y $10$ en azul resulta en un color morado como se muestra en la siguiente figura.

Figura. La cadena de dígitos $\textcolor{red}{01}\textcolor{green}{00}\textcolor{blue}{10}$ resulta en este color morado.

En conclusión, cuando la profundidad de color es de $6$ bits se tiene un total de $(2^2) \cdot (2^2) \cdot (2^2) = 64$ colores disponibles. Para ilustrar lo limitada que resulta esa cantidad, observa la siguiente imagen.

Figura. Una fotografía del castillo de Lichtenstein. A la derecha se muestra una rendición de la misma fotografía utilizando nuestros $64$ colores disponibles.

Es por esto que las computadoras y consolas de videojuegos más antiguas tienen ese característico estilo de gráficos pixelados, pues sus capacidades de procesamiento eran tan limitadas que debían de limitar la cantidad de colores que podían presentar en la pantalla o televisión.

Para que te des una idea de cuánto ha avanzado la tecnología, prácticamente cualquier computadora y celular en la actualidad tiene una profunidad de color de $24$ bits, con $8$ bits dedicados a cada color primario. Esto es, se tienen disponibles $(2^8) \cdot (2^8) \cdot (2^8) = 16{,}777{,}216$ colores distintos para escoger.


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. En una heladería se venden $7$ sabores de helado distintos. A unas cuadras de distancia, hay otra heladería más grande que vende $12$ sabores de helado.
    1. Asumiendo que los sabores de helado que ofrecen ambas heladerías son todos distintos, ¿cuántos sabores distintos tienes para escoger?
    2. Si no sabes los sabores que ofrecen ambas heladerías, sea $h$ el número de sabores distintos que se ofrecen en ambas heladerías. ¿Entre qué valores se encuentra $h$?
  2. Retoma el ejemplo de las placas con $2$ letras y $4$ dígitos.
    1. Si permitimos repeticiones, ¿cuántas placas tienen únicamente vocales (A, E, I, O, U) y dígitos pares?
    2. Y si no permitimos repeticiones, ¿cuántas placas tienen únicamente vocales (A, E, I, O, U) y dígitos pares?
  3. El SNES (Super Nintendo Entertainment System) es una consola muy antigua que posee una profundidad de color de $15$-bits ($5$ bits para cada color primario). ¿Cuántos colores disponibles tiene esta consola?

Más adelante…

En la siguiente entrada abordaremos otras herramientas de conteo, las permutaciones y las combinaciones. Estos nuevos conceptos son resultados que se derivan a partir del principio del producto. Por ello, es recomendable que te quede bien claro este último principio.

Los dos principios vistos en esta entrada son fundamentales para el estudio de la probabilidad clásica. En particular, el principio del producto será de gran utilidad para calcular la cardinalidad de los espacios muestrales de los experimentos aleatorios que veremos en esta parte.

Entradas relacionadas

Probabilidad I: El Enfoque Frecuentista de la Probabilidad

Por Octavio Daniel Ríos García

Introducción

En la entrada pasada presentamos el primer ejemplo de medida de probabilidad: la probabilidad geométrica. Pasaremos ahora a estudiar una medida de probabilidad con una motivación mucho más empírica.

¡Advertencia! Desde nuestro punto de vista, es muy probable que esta entrada no haga mucho sentido en este momento. Esto se debe a que no contamos con muchos resultados teóricos hasta ahora, y la justificación de este enfoque tiene que ver con las propiedades al límite de algunos conceptos que veremos más adelante. Para acabarla, ciertos aspectos más empíricos de este enfoque se justifican con definiciones y resultados que también veremos más adelante.

En consecuencia, quizás sería buena idea que regreses a esta entrada una vez que hayamos visto los conceptos mencionados. No te preocupes, nosotros colocaremos un enlace en las entradas finales para que puedas revisitar esta entrada en el futuro.

Motivación: Frecuencia relativa de un evento

En la primera entrada del curso y en la entrada sobre las medidas de probabilidad discutimos una de las ideas fundamentales más importantes de una medida de probabilidad: que califica a cada evento $A$ con un valor que representa su «frecuencia». Es decir, en una escala del $0$ al $1$, ¿qué tan frecuentemente ocurre $A$? Al ser un valor entre $0$ y $1$, puede interpretarse como una proporción. A la larga, la proporción entre el número de veces que ocurre el evento $A$ y el número total de realizaciones de un fenómeno aleatorio debería de ser $\Prob{A}$.

Una manera de definir la probabilidad de un evento $A$ sería realizar el fenómeno la mayor cantidad posible de veces, y obtener esa proporción. Esto es, si $n \in \mathbb{N}^{+}$ es el número de veces que repetimos el fenómeno aleatorio, y definimos $n_{A}$ como el número de veces que ocurrió $A$ en esas $n$ realizaciones, obtenemos la proporción mencionada, que es llamada la frecuencia relativa ($\mathrm{FrecRel}$) de $A$:

\[ \mathrm{FrecRel}(A) = \frac{n_{A}}{n}. \]

Ahora, ¿cuál sería el valor de $n$ para afirmar que el fenómeno se repitió la mayor cantidad posible de veces? ¿1,000? ¿10,000? ¿$10^{100}$ veces? Afortunadamente, en el mundo de las matemáticas podemos trabajar con el concepto del infinito. Por ello, en la teoría matemática, «la mayor cantidad de veces posible» de repetir el fenómeno aleatorio sería realizarlo una infinidad de veces. Así, la probabilidad frecuentista será precisamente el límite cuando $n$ tiende a infinito de la frecuencia relativa de $A$.

Definición de la probabilidad frecuentista

Tomando en cuenta la discusión anterior, presentamos la definición de la probabilidad frecuentista.


Definición 1.17. Sea $\Omega$ el espacio muestral de algún fenómeno aleatorio, y sea $\mathscr{F}$ un σ-álgebra sobre $\Omega$. Para cada $A \in \mathscr{F}$, sea $n_{A}$ el número de veces que ocurre el evento $A$ en $n$ realizaciones del fenómeno. Es decir, $n_{A}$ es el número de veces que el resultado del experimento aleatorio es alguno de los elementos de $A$. Así, se define la probabilidad frecuentista para cada $A \in \mathscr{F}$ como sigue:

\[ \Prob{A} = \lim_{n \to \infty} \frac{n_{A}}{n}. \]


La definición de la probabilidad frecuentista está dada por un límite al infinito. Por desgracia, esto es algo que no podemos concretar en la vida real, ya que nunca terminaríamos de repetir el fenómeno aleatorio. Por ello, lo que hacemos es aproximar este límite repitiendo el fenómeno $n \in \mathbb{N}^{+}$ veces, con $n$ lo más grande posible (el número de veces que permitan nuestros recursos, tiempo, voluntad, etc.), y tomamos el cociente

\[ \Prob{A} \approx \frac{n_{A}}{n}. \]

Sin embargo, ten cuidado, esta aproximación no necesariamente es precisa, y no sabemos qué tan rápido converge ese límite a un valor dado. ¡Recuerda que no importa qué tan grande sea el número de veces que repitas el experimento, ese número siempre está más cerca de $0$ que de $\infty$!

Por fortuna, pese a sus limitaciones formales, este enfoque captura una idea fundamental de la probabilidad: es una medida de la frecuencia con la que ocurre un evento.

Visualización mediante el uso «simulación»

Aquí veremos una forma de visualizar la idea de este enfoque. Para ello, simularemos algunos resultados «aleatorios» utilizando un lenguaje de programación. Por el momento no haremos énfasis en cuál lenguaje de programación usamos, simplemente presentaremos los resultados. Más adelante daremos una introducción a un lenguaje de programación en el que se pueden hacer muchas cosas de probabilidad (y estadística).

En el siguiente gráfico presentamos los resultados de $n=150$ simulaciones de un experimento aleatorio cuyo espacio muestral es $\RR$. Cada uno de los puntos en la gráfica es de la forma $(k, \omega_{k})$, con $k\in\{1,\ldots,150 \}$ y donde $\omega_{k}$ es el $k$-ésimo resultado de la simulación.

gráfica de los puntos resultantes de la simulación
Figura. Gráfica de $n=150$ simulaciones de un experimento aleatorio.

Ahora, sea $A$ el siguiente evento:

\[ A = \{ \, \omega \in \RR \mid \omega \leq -0.5 \, \}. \]

Como mencionamos previamente, una manera de aproximar la probabilidad de $A$, desde el enfoque frecuentista, es usando la frecuencia relativa de $A$. Para ello, es necesario calcular $n_{A}$: el número de resultados que satisfacen $A$ dentro de $n$ simulaciones.

repetición de la gráfica anterior, con los resultados que cumplen la condición resaltados en rojo
Figura. Gráfica de las simulaciones. Resaltamos a aquellas simulaciones en las que ocurrió $A$ (es decir, aquellas simulaciones cuyo resultado fue menor o igual a $-0.5$) con color rojo. Además, hemos colocado una línea horizontal en $-0.5$.

Ahora, si cuentas cuántos puntos rojos hay, notarás que son $48$. Es decir, hay $48$ observaciones en las que ocurrió $A$. Por ello, $n_{A} = 48$. Por otro lado, ya habíamos acordado que $n = 150$. Así, nuestra aproximación de la probabilidad de $A$ sería

\[ \Prob{A} \approx \frac{n_{A}}{n} = \frac{48}{150} = 0.32. \]

De hecho, observa cómo se comporta la frecuencia relativa de $A$ al incrementar el número de simulaciones:

gráfica de la aproximación de la probabilidad frecuentista
Figura. Comportamiento de $\mathrm{FrecRel}{\left(A\right)}$ en función de $n$, la cantidad de simulaciones.

Para obtener esta última gráfica, obtuvimos $\mathrm{FrecRel}(A)$ conforme $n$ crece, hasta llegar a $n = 150$. Nota cómo el valor se va estabilizando conforme crece el número de simulaciones.

De momento, esta manera de visualizar el enfoque frecuentista puede parecer «circular», pues al momento de hacer las simulaciones, es necesario darle valores a la computadora para que genere resultados siguiendo una cierta medida de probabilidad, así que el resultado es algo que ya se esperaba… En realidad, este comportamiento es consecuencia de un teorema muy importante que veremos más adelante: la ley de los grandes números.

Tarea moral

  1. Argumenta por qué la probabilidad frecuentista es, efectivamente, una medida de probabilidad.
  2. Para que tú puedas replicar lo visto en esta entrada, toma una moneda y lánzala muchas veces, registrando los resultados. Para el evento $A$ de que el resultado sea «águila», calcula $n_{A}/n$, donde $n$ es el número de lanzamientos que llevas, y $n_{A}$ es el número de veces que ha salido «águila».

Más adelante…

La probabilidad frecuentista es un concepto que resulta fundamental para el desarrollo de la estadística inferencial. El enfoque frecuentista es el que funciona como base para el desarrollo del contenido que se aborda en la materia de Estadística I (llamada Inferencia Estadística en el plan de estudios de la carrera de actuaría de la Facultad de Ciencias de la UNAM).

¡Muy importante! Pese a que aquí abordamos este concepto como una medida de probabilidad, hay un resultado muy importante que veremos cerca del final del curso: la ley de los grandes números. Este teorema es de suma importancia, pues da validez formal a este enfoque de la probabilidad, y en realidad hace innecesaria la definición de este enfoque, pues la teoría naturalmente admite esta interpretación. Por otro lado, más adelante daremos una introducción al lenguaje de programación que usamos para realizar las simulaciones en esta entrada.

Lo siguiente que haremos en el curso será ver el último enfoque de relevancia histórica por el momento: la probabilidad clásica. Sin embargo, para su estudio será necesario presentar varios principios de conteo. Por ende, dedicaremos unas cuantas entradas a algunos de estos principios.

Entradas relacionadas

Probabilidad I: La Probabilidad Geométrica

Por Octavio Daniel Ríos García

Introducción

En la entrada pasada concluimos el estudio de algunas propiedades básicas de una medida de probabilidad. A partir de estas propiedades serás capaz de demostrar muchísimas otras más, que probablemente te encontrarás en tareas, exámenes o en las secciones de ejercicios de tus libros. Por el momento, sigamos con el contenido del curso.

Lo que sigue en el curso es ver tres enfoques de la probabilidad: la probabilidad geométrica, el enfoque frecuentista, y la definición clásica de la probabilidad. Así pues, en esta entrada veremos lo que corresponde a la probabilidad geométrica. Algunos aspectos para tratar con total formalidad este tema son más avanzados. Por ello, veremos este tema «por encima», omitiendo algunas formalidades.

Hay una sección en esta entrada cuyo título lleva un asterisco (*). Cuando las leas, no te preocupes si no entiendes las formalidades, lo importante es que entiendas los resultados.

Motivación de la probabilidad geométrica

Seguramente te ha tocado jugar o espectar algún juego de lanzar cosas. Por ejemplo, el lanzamiento de dardos, o el tiro con arco. La puntuación que obtienes en un juego de este tipo se basa en tu precisión. Es decir, tú arrojas o disparas un objeto hacia una superficie, y obtienes puntos basado en la región de esa superficie a la que le atinaste. Como ejemplo, está la diana de un juego de tiro con arco:

Figura. Diana del juego de tiro con arco. La puntuación que otorga cada región de la diana está indicada por un número dentro de dicha región.

Evidentemente, cuando estás jugando a los dardos o al tiro con arco, usas tu habilidad para intentar juntar la mayor puntuación posible. Sin embargo, podemos volverlo un tema probabilista. ¿Qué pasa si decidimos arrojar un dardo, o disparar una flecha al azar? En otras palabras, que dentro de la superficie dada, escojamos un punto al azar. ¿Cómo determinamos la probabilidad de que el punto elegido caiga dentro de una región dada?

Un primer modelo para acercarnos a este problema es trabajar en $\RR^{2}$, el plano euclidiano. Luego, tomar una región acotada de $\RR^{2}$, digamos, $\Omega$. Además, supondremos que el punto se elige de manera «uniforme» sobre la región $\Omega$. Es decir, que la probabilidad de cualquier subconjunto de $\Omega$ es proporcional a su «área». Por ejemplo, para modelar una diana, podemos tomar a $\Omega$ como un círculo.

Un poco sobre la medida y el σ-álgebra que se utiliza*

Por motivos de tiempo y prerrequisitos, no es posible tratar con mucho detalle la medida ni el σ-álgebra que usaríamos en $\RR^{2}$. Por ello, recomendamos que de esta sección extraigas las ideas y resultados, y que no hagas un esfuerzo excesivo por entender la formalidad. Lo que haremos es partir de los rectángulos en $2$ dimensiones, pues es fácil definir su área.


Definición. Un rectángulo bidimensional cerrado es un subconjunto $R \subseteq \RR^{2}$ de la forma

\[ R = [a_{1}, b_{1}] \times [a_{2}, b_{2}], \]

donde $a_{1}$, $b_{1}$, $a_{2}$ y $b_{2} \in \RR$. En consecuencia, el área de $R$ es

\[ \mu(R) = (b_{1} − a_{1})(b_{2} − a_{2}). \]


Consideraremos a $\emptyset$ como un rectángulo con $\mu(\emptyset) = 0$. Denotaremos al conjunto de todos los rectángulos bidimensionales cerrados por $\mathscr{R}(\RR^{2})$. Veremos muy por encima la manera en que se construye matemáticamente la noción de «área». Lo que haremos será aproximar el área de cualquier subconjunto $E$ de $\RR^{2}$ por afuera, a través del área de familias de rectángulos que contengan a $E$.


Definición. La medida exterior de Lebesgue $\mu^{*}(E)$ de un subconjunto $E \subseteq \RR^{2}$, es

\[ \mu^{*}(E) = \inf{\left\lbrace \sum_{k=1}^{\infty} \mu(R_{k}) \; \middle| \; E \subseteq \bigcup_{k=1}^{\infty}R_{k}, R_{k} \in \mathscr{R}(\RR^{2}) \right\rbrace}, \]

donde el ínfimo se toma sobre las familias numerables de rectángulos cuya unión contiene a $E$. La función $\mu^{*}\colon \mathscr{P}(\RR^{2} \longrightarrow [0, \infty]$ es llamada la medida exterior de Lebesgue.


Varios conceptos en la teoría de la medida reciben su nombre en honor a Henri Lebesgue, un importantísimo matemático francés que desarrolló toda una teoría de integración de funciones.

En la definición anterior, se admite que $\mu^{*}(E)$ valga $\infty$. Esto es algo que no nos preocupará mucho en la probabilidad geométrica, pero es importante tenerlo en cuenta. Así, la función $\mu^{*}$ nos da el área de cualquier región «agradable» de $\RR^{n}$, y la obtiene aproximando por afuera con rectángulos.

Figura. Representación visual de lo que hace $\mu^{*}$. Al ser el ínfimo, nos interesa la aproximación del área de la región más refinada posible a partir de rectángulos. Haz click aquí para ir a la fuente original de esta imagen.

Ahora, lo que nos interesa es conseguir un σ-álgebra sobre la que la medida exterior de Lebesgue sea, efectivamente, una medida. La siguiente es la definición de Carathéodory (pues fue formulada por el matemático griego Constantin Carathéodory) de medibilidad. Esto es, los conjuntos que satisfacen este criterio son a los que se les podrá medir su «área».


Definición. Un subconjunto $A \subseteq \RR^{2}$ es Lebesgue-medible si para cualquier subconjunto $E \subseteq \RR^{2}$ se cumple que

\[ \mu^{*}(E) = \mu^{*}(E \cap A) + \mu^{*}(E \cap A^{\mathsf{c}}). \]


Denotaremos al conjunto de todos los conjuntos Lebesgue-medibles en $\RR^{2}$ por $\mathcal{L}(\RR^{2})$. Esta condición puede interpretarse como que un conjunto es medible si divide a otros conjuntos de «buena» manera. Resulta que $\mathcal{L}(\RR^{2})$ es un σ-álgebra. Además, también se tiene que $\mu^{*}$ restringida a $\mathcal{L}(\RR^{2})$ es una medida (no de probabilidad, simplemente medida. Es lo mismo pero sin pedir que la medida de $\RR^{2}$ sea $1$). Así, se llega a la siguiente definición.


Definición. La función $\lambda\colon \mathcal{L}(\RR^{2}) \longrightarrow [0, \infty]$ definida como

\[ \lambda = \left.\mu^{*}\right|_{\mathcal{L}(\RR^{2})},\]

la restricción de $\mu^{*}$ a $\mathcal{L}(\RR^{2})$, es llamada la medida bidimensional de Lebesgue en $\RR^{2}$.


La medida de Lebesgue asigna a cada región $E \subseteq \mathcal{L}(\RR^{2})$ (las cuales son regiones «bonitas», a las que se les puede asignar un área, en el sentido de la definición de Lebesgue-medible) el valor $\lambda(E)$, que corresponde a su área.

Definición de la probabilidad geométrica

Así, si ahora tomamos alguna región de $\RR^{2}$ para la cual su área está bien definida, podemos construir una medida de probabilidad en la que la probabilidad de cada sub-región es proporcional a su área. Si $\Omega$ es un subconjunto acotado de $\RR^{2}$ que es Lebesgue-medible, entonces su área es finita. Más aún, podemos considerar a

\[ \mathcal{L}(\Omega) = \mathscr{P}(\Omega) \cap \mathcal{L}(\RR^{2}), \]

el conjunto de todos los subconjuntos de $\Omega$ que son Lebesgue-medibles, este es un σ-álgebra sobre $\Omega$. En consecuencia, podemos definir una medida, y dar lugar a un espacio de probabilidad.


Definición. Sea $\Omega \subseteq \RR^{2}$ un conjunto acotado y con área bien definida mayor a $0$. Sea $\mathcal{L}(\Omega)$ el conjunto de todos los subconjuntos de $\Omega$ con área bien definida. Se define la probabilidad geométrica $\mathbb{P}\colon \mathcal{L}(\Omega) \longrightarrow \RR$ como sigue. Para cada $A \in \mathcal{L}(\Omega)$, se define $\Prob{A}$ como

\[ \Prob{A} = \frac{\text{Area}(A)}{\text{Area}(\Omega)}.\]


En la definición anterior, el «área» de $A$, que denotamos por $\text{Area}(A)$, es precisamente $\lambda(A)$, la medida bidimensional de Lebesgue. No centres mucho tu atención en el uso de los conjuntos Lebesgue-medibles ni en la medida de Lebesgue. Nuestra intención es exhibir que la noción de «área» puede ser formalizada matemáticamente, y despertar tu interés por estudiar estos temas con más profundidad. Lo importante con lo que te debes de quedar es que, a cada subconjunto de $\Omega$ con área bien definida, se le asigna una probabilidad que es la proporción entre su área y el área de $\Omega$.

Esta medida de probabilidad asume que se cumple una propiedad llamada equiprobabilidad. Esto es, para cada $A \in \mathcal{L}(\Omega)$, no importa cuáles sean los elementos de $A$, lo único que importa para determinar su probabilidad es su área.

Un primer ejemplo de probabilidad geométrica

Ejemplo. Imagina que vas a tomar un autobús en una parada. Supongamos que tú y el autobús llegarán en tiempos aleatorios a la parada, entre las 12pm y la 1pm. Es decir, los tiempos de llegada tuyo y del autobús son valores $x$, $y \in [0,60]$, pues el tiempo (en minutos) entre las 12pm y la 1pm es de $60$ minutos. Además, supongamos que cuando el autobús llega, permanece en la parada $5$ minutos antes de irse; y cuando tú llegas, esperas $20$ minutos antes de irte si el autobús no llega. ¿Cuál es la probabilidad de que tomes el autobús?

Para resolver este problema, observa que $\Omega$ en este puede considerarse como

\[ \Omega = [0,60] \times [0,60] = \{ (x,y) \in \RR^{2} \mid x \in [0,60] \land y \in [0,60] \}, \]

y que dado un par ordenado $(x,y)$, $x$ es tu tiempo de llegada y $y$ es el tiempo de llegada del autobús. Gráficamente, todos los posibles resultados están dentro de un cuadrado:

Figura. Nuestro espacio muestral $\Omega = [0,60]\times [0,60]$.

Luego, tenemos que encontrar las regiones que corresponden al evento en el que tú y el autobús coinciden. Primero, sabemos que el autobús espera $5$ minutos después de llegar, por lo que tú debes de llegar dentro de esos $5$ minutos que espera. Es decir, $x$, tu tiempo de llegada, debe de ser menor o igual a $y + 5$. Así, $x \leq y + 5$, o equivalentemente, $y \geq x – 5$. Este sería un evento $A$, dado como sigue:

\[ A = \{ (x,y) \in \Omega \mid y \geq x – 5 \}. \]

Figura. El evento $A$ de todos los pares ordenados $(x,y)$ \in \Omega$ tales que $y \geq x – 5$.

Por otro lado, tú esperas el autobús por $20$ minutos, por lo que no puedes llegar más de $20$ minutos antes que el autobús. Es decir, $x$ debe de ser mayor o igual a $y − 20$. Así, $x \geq y − 20$, o equivalentemente, $y \leq x + 20$. Por ello, el evento $B$ que representa a esta situación es

\[ B = \{ (x,y) \in \Omega \mid y \leq x + 20 \}. \]

Figura. El evento $B$ de todos los pares ordenados $(x,y) \in \Omega$ tales que $y \leq x + 20$.

Intersecando ambas regiones obtenemos la región en donde tú y el autobús coinciden.

Figura. En todos los pares $(x,y) \in A \cap B$, el resultado es que tomas el autobús.

Y podemos utilizar la probabilidad geométrica para dar solución a este problema: la probabilidad de que tomes el autobús es el área de esta última región dividida entre el área total. Podemos utilizar la regla de complementación para facilitar el cálculo, pues las regiones en donde no tomas el autobús son triángulos y es más fácil calcular su área.

Figura. El área correspondiente a $(A \cap B)^\mathsf{c}$. Su área es más fácil de calcular que el área de $A \cap B$.

La región de arriba es un triángulo rectángulo cuyos catetos miden $40$, así que su área es $\frac{40^{2}}{2}$. De igual forma, la región de abajo es un triángulo rectángulo cuyos catetos miden $55$, por lo que su área es $\frac{55^{2}}{2}$. Por otro lado, el área de $\Omega$ es $60^2$, pues es un cuadrado cuyos lados miden $60$. Así, tenemos que

\begin{align*} \Prob{(A \cap B)^{\mathsf{c}}} &= \frac{\frac{40^{2}}{2} + \frac{55^{2}}{2}}{60^2} \\ &= \frac{40^{2} + 55^{2}}{(2)(60)^{2}} \\ &= \frac{1600 + 3025}{7200} \\ &= \frac{4625}{7200}. \end{align*}

Y como $\Prob{A \cap B} = 1 − \Prob{(A \cap B)^{\mathsf{c}}}$, tenemos que

\[ \Prob{A \cap B} = 1 − \frac{4625}{7200} = \frac{7200 + 4625}{7200} = \frac{2575}{7200} = \frac{103}{288} \approx 0.35764. \]

En conclusión, la probabilidad de que tomes el autobús es aproximadamente $0.35764$, o alternativamente, es aproximadamente un $35.764\%$.

El problema de la aguja de Buffon

En el siglo XVIII, el naturalista francés Georges-Louis Leclerc formuló un problema con un resultado muy interesante.

Supón que tenemos un piso hecho de bandas de madera, todas con la misma anchura, y dejamos caer una aguja al azar sobre el piso. ¿Cuál es la probabilidad de que la aguja caiga sobre la línea entre dos bandas?

Este problema es conocido como la aguja de Buffon en honor a su creador: Georges-Louis Leclerc, conde de Buffon. Una solución utilizando algunos hechos geométricos fue publicada por Joseph-Émile Barbier en 1860 para el caso en el que la longitud de la aguja es menor a la anchura de las tablas de madera. Para resolver este problema, sea $l$ la longitud de la aguja y sea $D$ el ancho de cada banda de madera. Asumiremos que $0 < l < D$.

Figura. Ilustración de las primeras variables en el problema. $l$ es la longitud de la aguja, y $D$ es la anchura de cada banda de madera. Las bandas se ilustran con colores alternados.

Ahora, sea $\theta$ el ángulo agudo que forma la aguja con el eje horizontal, y sea $x$ la distancia entre el centro de la aguja y la línea entre dos bandas más cercana.

Figura. Visualización de los valores $x$ y $\theta$. $\theta$ se toma siempre como el ángulo agudo que forma la aguja con el eje horizontal. Marcamos con rojo el centro de una aguja que no está sobre la línea entre dos bandas, y con verde el centro de una aguja que sí está sobre una línea.

Observa que la aguja cae sobre la línea entre dos bandas si y sólamente si $x \leq \frac{l \cos{\theta}}{2}$. Esto pasa porque $l \cos{\theta}$ es la distancia horizontal de la aguja, así que $\frac{l \cos{\theta}}{2}$ es la distancia entre el centro de la aguja y la proyección sobre el eje horizontal de sus extremos. Por lo tanto, si la distancia entre el centro de la aguja y la línea entre dos bandas más cercana es menor o igual a $\frac{l \cos{\theta}}{2}$, la aguja atraviesa esta línea.

Figura. Comparación de $x$ con $l \cos{\theta}$. Observa cómo en la aguja de la izquierda, $x > \frac{l \cos{\theta}}{2}$, mientras que en la de la derecha, $x \leq \frac{l \cos{\theta}}{2}$.

Ahora, asumimos que los valores de $x$ y $\theta$ son aleatorios. Además, se debe de cumplir que $0 < x < \frac{D}{2}$, pues $0 < l < D$ (así que la distancia a la línea entre bandas más cercana es menor a $\frac{D}{2}$); y además $0 < \theta < \frac{\pi}{2}$. Por lo tanto, el espacio muestral de este fenómeno puede verse como

\[ \Omega = {\left\lbrace (\theta, x) \in \RR^{2} \; \middle| \; 0 < \theta < \frac{\pi}{2} \land 0 < x < \frac{D}{2} \right\rbrace} = {\left(0, \frac{\pi}{2}\right)} \times {\left(0, \frac{D}{2}\right)} . \]

Y vimos que la aguja cae sobre la línea entre dos bandas si y sólamente si $x \leq \frac{l \cos{\theta}}{2}$, por lo que el evento $A$ que nos interesa es

\[ A = \left\lbrace (\theta,x) \in \Omega \; \middle| \; x \leq \frac{l \cos{\theta}}{2} \right\rbrace. \]

Observa que el área de $A$ se ve como en la siguiente figura:

Figura. Representación gráfica de $\Omega$ y del evento que nos interesa, $A$.

Así, el área de $A$ la podemos calcular integrando la función $\frac{l \cos{\theta}}{2}$ de $0$ a $\frac{\pi}{2}$. Así,

\begin{align*} \text{Area}(A) &= \int_{0}^{\frac{\pi}{2}} \frac{l}{2}\cos{\theta} \, \text{d}\theta \\ &= \frac{l}{2}\left[\sin{\frac{\pi}{2}} − \sin{0}\right] \\ &= \frac{l}{2}. \end{align*}

Por otro lado, el área de todo $\Omega$ es

\[ \text{Area}(\Omega) = \left(\frac{D}{2}\right)\left(\frac{\pi}{2} \right) = \frac{\pi D}{4}. \]

Así, se tiene que la probabilidad geométrica de $A$, $\Prob{A}$, es

\[ \Prob{A} = \frac{\text{Area}(A)}{\text{Area}(\Omega)} = \frac{\frac{l}{2}}{\frac{\pi D}{4}} = \frac{l}{2} \frac{4}{\pi D} = \frac{2l}{\pi D}. \]

Una consecuencia interesante de la solución a este problema es que la probabilidad resultante involucra a $\pi$, una constante matemática muy importante. Mucho más adelante veremos una forma curiosa de aproximar el valor de $\pi$ repitiendo el experimento de la aguja de Buffon muchas veces.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Sea $\Omega \subseteq \RR^{2}$ un conjunto acotado y con área bien definida. Sea $\mathcal{L}(\Omega)$ el conjunto de todos los subconjuntos de $\Omega$ que son Lebesgue-medibles, y sea $\mathbb{P}\colon \mathcal{L}(\Omega) \longrightarrow \RR$ la probabilidad geométrica. Es decir, para cada $A \in \mathcal{L}(\Omega)$, se define $\Prob{A}$ como \[ \Prob{A} = \frac{\text{Area}(A)}{\text{Area}(\Omega)}.\]Explica por qué $(\Omega, \mathcal{L}(\Omega), \mathbb{P})$ es un espacio de probabilidad. En particular, como ya acordamos que $\mathcal{L}(\Omega)$ es un σ-álgebra, basta con que expliques por qué la probabilidad geométrica es una medida de probabilidad.
  2. Vuelve a hacer el ejercicio del autobús pero ahora supón que tú esperas al autobús durante $15$ minutos, y el autobús espera $7$ minutos.
  3. En el problema de la aguja de Buffon, explica por qué si $l < D$ (esto es, la longitud de la aguja es menor que la anchura de las bandas), podemos concluir que $x$ (la distancia entre el centro de la aguja y la línea entre dos bandas más cercana) es menor a $\frac{D}{2}$.
  4. Explica por qué si la longitud de la aguja $l$ es mayor a $D$ no podemos solucionar el problema de la forma en que lo hicimos.

Más adelante…

La probabilidad geométrica presenta una herramienta muy útil para dar solución a problemas con una interpretación espacial directa, como es el caso del problema de la aguja de Buffon. Además, resulta útil como una herramienta auxiliar para resolver ejercicios que no necesariamente tienen una interpretación visual directa, como el ejemplo del autobús. En conclusión, es una herramienta útil, pero que debes de tener cuidado con sus hipótesis: supone equiprobabilidad sobre el espacio muestral $\Omega$.

En la materia de Probabilidad II estudiarás a fondo la aleatoriedad en varias variables. Esto te dará herramientas más poderosas para describir la aleatoriedad sobre $\RR^2$ (y más allá) sin suponer que el espacio muestral es equiprobable.

Por lo pronto, en la siguiente entrada veremos un enfoque distinto de la probabilidad: la probabilidad frecuentista.

Entradas relacionadas

Probabilidad I: Propiedades de una Medida de Probabilidad, parte 2

Por Octavio Daniel Ríos García

Introducción

En la entrada pasada vimos dos propiedades importantes de la probabilidad. La primera, la regla de complementación, establece la relación que existe entre la probabilidad de un evento con la de su complemento. La segunda, el principio de inclusión-exclusión, nos brinda una fórmula para el cálculo de la probabilidad de cualquier unión de eventos, sin importar si estos no son ajenos dos a dos.

En esta entrada veremos algunas propiedades más. Primero, veremos cómo interactúa una medida de probabilidad con la relación como subconjunto «$\subseteq$». Posteriormente, veremos dos propiedades que exhiben la relación que existe entre la probabilidad de la unión de cualquier familia a lo más numerable de eventos y la suma de sus probabilidades.

Interacción de la probabilidad con la relación como subconjunto

A lo largo de entra estada, consideraremos que $(\Omega, \mathscr{F}, \mathbb{P})$ es un espacio de probabilidad. Una propiedad interesante surge al preguntarnos cómo interactúa la probabilidad con la relación como subconjunto. Esto es, dados $A$ y $B$ eventos tales que $B \subseteq A$, ¿cómo se comparan $\mathbb{P}(A)$ y $\mathbb{P}(B)$? La relación $\subseteq$ indica que todos los elementos de $B$ son también elementos de $A$, pero $A$ puede tener ciertos elementos que no están en $B$. Por ello, esperaríamos que la probabilidad de $B$ debería de ser menor o igual a la probabilidad de $A$. Resulta que sí, e incluso podemos ser más precisos con esta propiedad.


Proposición. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Para cualesquiera $A$, $B \in \mathscr{F}$ eventos tales que $B \subseteq A$ se cumple que

\[ \mathbb{P}(A) = \mathbb{P}(B) + \mathbb{P}(A \smallsetminus B). \]

En consecuencia, $\mathbb{P}(A \smallsetminus B) = \mathbb{P}(A) − \mathbb{P}(B)$, y además, como la probabilidad es no-negativa, $\mathbb{P}(A \smallsetminus B) \geq 0$, y así, $\mathbb{P}(B) \leq \mathbb{P}(A)$.


Demostración. Sean $A$, $B \in \mathscr{F}$ tales que $B \subseteq A$. Como $B \subseteq A$, es posible escribir a $A$ como $A = B \cup (A \smallsetminus B)$. Esto no es posible cuando $B$ no es subconjunto de $A$. Además, observa que $A \cap (A \smallsetminus B) = \emptyset$, así que por la aditividad finita de $\mathbb{P}$, se tiene que

\[ \mathbb{P}(A) = \mathbb{P}(B \cup (A \smallsetminus B)) = \mathbb{P}(B) + \mathbb{P}(A \smallsetminus B), \]

es decir, $\mathbb{P}(A) = \mathbb{P}(B) + \mathbb{P}(A \smallsetminus B)$, que es justamente lo que queríamos demostrar.

$\square$

Así, vemos que cuando $B \subseteq A$, la probabilidad de $A$ es igual a la probabilidad de $B$ más un valor no-negativo, por lo que $\mathbb{P}(B) \leq \mathbb{P}(A)$.

La subaditividad finita de una medida de probabilidad

Una de las propiedades que vimos en la entrada pasada fue el principio de inclusión-exclusión. Este principio da solución al problema de calcular la probabilidad de la unión de dos eventos cualesquiera. En particular, cuando tenemos dos eventos $A$ y $B$, se cumple que

\[ \mathbb{P}(A \cup B) + \mathbb{P}(A \cap B) = \mathbb{P}(A) + \mathbb{P}(B), \]

y como $\mathbb{P}$ es no-negativa, se cumple $\mathbb{P}(A \cap B) \geq 0$, por lo que $\mathbb{P}(A \cup B) \leq \mathbb{P}(A) + \mathbb{P}(B)$. En este caso es muy sencillo, pero puede no ser tan evidente para $3$ o más eventos. Para demostrar este hecho cuando se tienen $3$ o más eventos, hay que aplicar un truquito especial.

Sean $A_{1}$, $A_{2}$ y $A_{3}$ eventos cualesquiera. Primero, observa que $A_{1} \cup A_{2} = A_{1} \cup (A_{2} \smallsetminus A_{1})$. Ahora, hagamos lo mismo pero con $A_{1} \cup A_{2}$ y $A_{3}$. Esto es,

\[ (A_{1} \cup A_{2}) \cup A_{3} = (A_{1} \cup A_{2}) \cup (A_{3} \smallsetminus (A_{1} \cup A_{2})) = A_{1} \cup (A_{2} \smallsetminus A_{1}) \cup (A_{3} \smallsetminus (A_{1} \cup A_{2})). \]

Lo que estamos haciendo es que, conforme avanzamos en el subíndice, al siguiente elemento de la unión le quitamos todos los que ya incluimos. Lo que logramos con esto es que se trate de una unión de eventos ajenos dos a dos. Observa que

\begin{align*} A_{1} \cap (A_{2} \smallsetminus A_{1}) &= \emptyset, \\ A_{1} \cap (A_{3} \smallsetminus (A_{1} \cup A_{2})) &= \emptyset, \\ A_{2} \cap (A_{3} \smallsetminus (A_{1} \cup A_{2})) &= \emptyset, \end{align*}

por lo que $A_{1}$, $A_{2} \smallsetminus A_{1}$ y $A_{3} \smallsetminus (A_{1} \cup A_{2})$ son eventos ajenos dos a dos. En consecuencia, por la aditividad finita de $\mathbb{P}$, se tiene que

\[ \mathbb{P}(A_{1} \cup (A_{2} \smallsetminus A_{1}) \cup (A_{3} \smallsetminus (A_{1} \cup A_{2}))) = \mathbb{P}(A_{1}) + \mathbb{P}(A_{2} \smallsetminus A_{1}) + \mathbb{P}(A_{3} \smallsetminus (A_{1} \cup A_{2})), \]

y por lo observado anteriormente, podemos concluir que

\[ \mathbb{P}(A_{1} \cup A_{2} \cup A_{3}) = \mathbb{P}(A_{1}) + \mathbb{P}(A_{2} \smallsetminus A_{1}) + \mathbb{P}(A_{3} \smallsetminus (A_{1} \cup A_{2})). \]

Luego, como $A_{1} \subseteq A_{1}$, $A_{2} \smallsetminus A_{1} \subseteq A_{2}$ y $A_{3} \smallsetminus A_{3} \smallsetminus (A_{1} \cup A_{2})$, por la proposición anterior se tiene que

\begin{align*} \mathbb{P}(A_{1}) &\leq \mathbb{P}(A_{1}), \\ \mathbb{P}(A_{2} \smallsetminus A_{1}) &\leq \mathbb{P}(A_{2}), \\ \mathbb{P}(A_{3} \smallsetminus (A_{1} \cup A_{2})) &\leq \mathbb{P}(A_{3}), \end{align*}

así que la suma de los $3$ de la izquierda será menor o igual a la suma de los $3$ de la derecha. Es decir,

\begin{align*} \mathbb{P}(A_{1}) + \mathbb{P}(A_{2}\smallsetminus A_{1}) + \mathbb{P}(A_{3} \smallsetminus (A_{1} \cup A_{2})) &\leq \mathbb{P}(A_{1}) + \mathbb{P}(A_{2}) + \mathbb{P}(A_{3}), \end{align*}

y por lo tanto,

\[ \mathbb{P}(A_{1} \cup A_{2} \cup A_{3}) \leq \mathbb{P}(A_{1}) + \mathbb{P}(A_{2}) + \mathbb{P}(A_{3}). \]

En conclusión, la probabilidad de la unión de $3$ eventos es menor o igual a la suma de sus probabilidades. Esto puede extenderse para familias de $n$ conjuntos, con $n \in \mathbb{N}^{+}$.


Proposición. Sea $(\Omega, \mathscr{P}, \mathbb{P})$ un espacio de probabilidad. Entonces para cualquier $n \in \mathbb{N}^{+}$ se cumple que, para cualquier familia finita de eventos $A_{1}$, $A_{2}$, …, $A_{n} \in \mathscr{F}$ se tiene

\[ \mathbb{P}{\left( \bigcup_{k=1}^{n} A_{k} \right)} \leq \sum_{k=1}^{n} \mathbb{P}(A_{k}). \]


Demostración. Sea $n \in \mathbb{N}^{+}$ y sean $A_{1}$, $A_{2}$, …, $A_{n} \in \mathscr{F}$. Primero, observa que

\[ \bigcup_{k=1}^{n} A_{k} = \bigcup_{k=1}^{n} {\left[ A_{k} \smallsetminus {\left( \bigcup_{i = 1}^{k-1}A_{i} \right)} \right]}, \]

donde consideramos a $\bigcup_{i = 1}^{0}A_{i} = \emptyset$. Esto es exactamente lo mismo que hicimos antes para $3$ eventos, pero extendiéndolo a los $n$ eventos de esta demostración. Ahora, vamos a ponerles nombre a los eventos que usaremos de manera auxiliar. Para cada $k \in \{1, \ldots, n\}$, se define $B_{k}$ como sigue

\[ B_{k} = A_{k} \smallsetminus {\left( \bigcup_{i = 1}^{k-1}A_{i} \right)}. \]

Por construcción, $B_{1}$, $B_{2}$, …, $B_{n} \in \mathscr{F}$ es una familia de eventos ajenos dos a dos. Esto es, se cumple que

\[ \forall i, j \in \{1, \ldots, n \}\colon (i \neq j \implies B_{i} \cap B_{j} = \emptyset). \]

Esto puede verificarse tomando $i, j \in \{1,\ldots,n\}$ tales que $i \neq j$. Por la tricotomía en $\mathbb{N}$, hay dos casos: $i > j$ ó $i < j$. En cualquier caso, se puede concluir que $B_{i} \cap B_{j} = \emptyset$. Además, también por construcción de los $B_{k}$, se tiene que

\begin{equation} \label{subad1} \bigcup_{k=1}^{n} B_{k} = \bigcup_{k=1}^{n} A_{k}. \end{equation}

Ahora, como los $B_{k}$ son ajenos dos a dos, podemos aplicar la aditividad finita de $\mathbb{P}$. Esto es,

\begin{equation} \label{subad2} \mathbb{P}{\left( \bigcup_{k=1}^{n} B_{k} \right)} = \sum_{k=1}^{n} \mathbb{P}(B_{k}). \end{equation}

Ahora, observa que para cada $k \in \{1, \ldots, n\}$ se cumple que $B_{k} \subseteq A_{k}$, pues

\[ B_{k} = A_{k} \smallsetminus {\left( \bigcup_{i = 1}^{k-1}A_{i} \right)} \subseteq A_{k}. \]

Por lo tanto, se tiene que

\[ \mathbb{P}(B_{k}) \leq \mathbb{P}(A_{k}), \]

y sumando sobre todos los $k \in \{1, \ldots, n\}$, se tiene que

\[ \sum_{k=1}^{n} \mathbb{P}(B_{k}) \leq \sum_{k=1}^{n} \mathbb{P}(A_{k}). \]

Así, por \eqref{subad2}, se tiene que

\[ \mathbb{P}{\left( \bigcup_{k=1}^{n} B_{k} \right)} \leq \sum_{k=1}^{n} \mathbb{P}(A_{k}), \]

y por \eqref{subad1}, podemos concluir que

\[ \mathbb{P}{\left( \bigcup_{k=1}^{n} A_{k} \right)} \leq \sum_{k=1}^{n} \mathbb{P}(A_{k}), \]

que es justamente lo que queríamos demostrar.

$\square$

Esta propiedad es conocida como la subaditividad finita de una medida de probabilidad. Lleva la connotación de finita porque, así como con la aditividad, también existe una propiedad llamada σ-subaditividad. Esta es la propiedad que veremos a continuación.

La σ-subaditividad de una medida de probabilidad

Para el caso en el que tenemos una familia numerable de eventos $A_{1}$, $A_{2}$, … $\in \mathscr{F}$, procederemos de la misma manera que hicimos en la última demostración.


Proposición. Sea $(\Omega, \mathscr{P}, \mathbb{P})$ un espacio de probabilidad. Entonces para cualquier familia numerable de eventos $A_{1}$, $A_{2}$, … $\in \mathscr{F}$ se cumple que

\[ \mathbb{P}{\left( \bigcup_{k=1}^{\infty} A_{k}\right)} = \sum_{k=1}^{\infty} \mathbb{P}(A_{k}). \]


Demostración. Sean $A_{1}$, $A_{2}$, … $\in \mathscr{F}$ una familia numerable de eventos. Observa que se cumple que

\[ \bigcup_{k=1}^{\infty} A_{k} = \bigcup_{k=1}^{\infty} {\left[ A_{k} \smallsetminus {\left( \bigcup_{i=1}^{k-1} A_{i} \right)}\right]}. \]

Definamos una familia de conjuntos para auxiliarnos en esta demostración. Para cada $k \in \mathbb{N}^{+}$, definimos el evento $B_{k}$ como sigue:

\[ B_{k} = A_{k} \smallsetminus {\left( \bigcup_{i=1}^{k-1} A_{i}\right)}. \]

Nuevamente, consideramos que para $k=1$, $B_{1} = A_{1}$. Por la construcción de $B_{k}$, para cada $k \in \mathbb{N}^{+}$ se tiene que $B_{k} \subseteq A_{k}$, por lo que

\begin{align*} \mathbb{P}(B_{k}) \leq \mathbb{P}(A_{k}). \end{align*}

En consecuencia, se cumple la siguiente desigualdad de series:

\begin{equation} \label{sigmasubad1} \sum_{k=1}^{\infty} \mathbb{P}(B_{k}) \leq \sum_{k=1}^{\infty} \mathbb{P}(A_{k}), \end{equation}

pues la desigualdad se cumple término a término. Por otro lado, observa que los eventos de la familia $\{B_{k}\}_{k=1}^{\infty}$ son ajenos dos a dos (por la misma razón que en la demostración anterior). Por ello, podemos aplicar la σ-aditividad de $\mathbb{P}$, y así

\[ \mathbb{P}{\left( \bigcup_{k=1}^{\infty} B_{k} \right)} = \sum_{k=1}^{\infty} \mathbb{P}(B_{k}). \]

Además, recuerda que

\[ \bigcup_{k=1}^{\infty} A_{k} = \bigcup_{k=1}^{\infty} {\left[ A_{k} \smallsetminus {\left( \bigcup_{i=1}^{k-1} A_{i} \right)}\right]} = \bigcup_{k=1}^{\infty} B_{k}, \]

por lo que

\begin{equation} \label{sigmasubad2} \mathbb{P}{\left( \bigcup_{k=1}^{\infty} A_{k} \right)} = \sum_{k=1}^{\infty} \mathbb{P}(B_{k}). \end{equation}

Por lo tanto, si sustituimos \eqref{sigmasubad2} en \eqref{sigmasubad1}, podemos concluir que

\[ \mathbb{P}{\left( \bigcup_{k=1}^{\infty} A_{k} \right)} \leq \sum_{k=1}^{\infty} \mathbb{P}(A_{k}), \]

que es justamente lo que queríamos demostrar.

$\square$

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Demuestra que para cualesquiera eventos $A$, $B \in \mathscr{F}$ se cumple que \[ \mathbb{P}(A \smallsetminus B) = \mathbb{P}(A) − \mathbb{P}(A \cap B). \]Sugerencia: utiliza la primera proposición de esta entrada con los conjuntos $A \cap B$ y $A$.
  2. Demuestra que para cualesquiera eventos $A$, $B \in \mathscr{F}$ se cumple que \[ \mathbb{P}(A \triangle B) = \mathbb{P}(A) + \mathbb{P}(A) − 2\mathbb{P}(A \cap B).\]Sugerencia: recuerda que $A \triangle B = (A \smallsetminus B) \cup (B \smallsetminus A)$ y utiliza el resultado anterior.
  3. En las demostraciones de la segunda y tercera proposiciones de esta entrada tomamos familias arbitrarias de eventos $A_{1}$, $A_{2}$, … $\in \mathscr{F}$ (en la segunda la tomamos finita). Luego, para cada $k \in \mathbb{N}^{+}$ definimos $B_{k}$ como \[ B_{k} = A_{k} \smallsetminus {\left( \bigcup_{i=1}^{k-1} A_{i} \right)}, \] que es una familia de eventos auxiliares para la demostración. En particular, utilizamos que la familia de los $B_{k}$ son ajenos dos a dos. Demuestra que efectivamente es una familia de eventos ajenos dos a dos.

Más adelante…

Con esta entrada concluimos nuestro tratamiento de las propiedades que consideramos más importantes de una medida de probabilidad. Lo que haremos a continuación será presentar las primeras medidas de probabilidad concretas del curso: la probabilidad geométrica, la probabilidad frecuentista y la probabilidad clásica.

Entradas relacionadas

Probabilidad I: Propiedades de una Medida de Probabilidad

Por Octavio Daniel Ríos García

Introducción

En la entrada antepasada definimos lo que es una medida de probabilidad. Esto es, dimos una lista de propiedades que debe de cumplir una función para llamarla «medida de probabilidad». Como en toda teoría matemática, esto da lugar a más propiedades. Por ello, en esta entrada veremos varios resultados que se desprenden de la definición de medida de probabilidad.

Regla de complementación

Dado $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad, puede pasarnos que obtener la probabilidad de un evento es muy difícil. Sin embargo, quizás calcular la probabilidad de su complemento sea más fácil. Por ello, veamos primero una propiedad que relaciona la probabilidad de un evento con la de su complemento.


Proposición. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Para cualquier evento $A \in \mathscr{F}$ se cumple que

\[ \mathbb{P}(A^{\mathsf{c}}) = 1 − \mathbb{P}(A). \]


Demostración. Sea $A \in \mathscr{F}$ un evento. Nuestro objetivo es demostrar que $\mathbb{P}(A^{\mathsf{c}}) = 1 − \mathbb{P}(A)$. Para hacerlo, recuerda que en la entrada antepasada vimos que una medida de probabilidad es finitamente aditiva. Además, nota que $A \cap A^{\mathsf{c}} = \emptyset$; es decir, $A$ y $A^{\mathsf{c}}$ son ajenos. En consecuencia, se cumple que

\[ \mathbb{P}(A \cup A^{\mathsf{c}}) = \mathbb{P}(A) + \mathbb{P}(A^{\mathsf{c}}). \]

Por otro lado, por la definición del complemento relativo se tiene que $A \cup A^{\mathsf{c}} = \Omega$, con lo que $\mathbb{P}(A \cup A^{\mathsf{c}}) = \mathbb{P}(\Omega) = 1$. Por lo tanto, se sigue que

\[ \mathbb{P}(A) + \mathbb{P}(A^{\mathsf{c}}) = 1. \]

Finalmente, despejando a $\mathbb{P}(A^{\mathsf{c}})$, obtenemos que $\mathbb{P}(A^{\mathsf{c}}) = 1 − \mathbb{P}(A)$, que es justamente lo que queríamos demostrar.

$\square$

Esta propiedad será útil en numerosos ejemplos de conteo que veremos más adelante.

¿Qué pasa con la probabilidad de la unión de dos eventos?

En la entrada antepasada nos encontramos con un problema. Al momento de obtener la suma de las probabilidades de dos eventos $A$ y $B$ que no son ajenos, podía salirnos más de $1$. Sin embargo, había una pista de qué podíamos hacer al respecto. Notamos que contábamos algo más de una vez. Más precisamente, contamos $A \cap B$ más de una vez. Además, en la tarea moral te sugerimos que pensaras qué hacerle a $\mathbb{P}(A) + \mathbb{P}(B)$ para que coincida con $\mathbb{P}(A\cup B)$. La siguiente proposición nos da la respuesta.


Proposición. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Sean $A$, $B \in \mathscr{F}$ eventos cualesquiera. Entonces se cumple que

\[ \mathbb{P}(A \cup B) + \mathbb{P}(A \cap B) = \mathbb{P}(A) + \mathbb{P}(B). \]


Demostración. Sean $A$, $B \in \mathscr{F}$ eventos. Primero, aplicando algunas propiedades de las operaciones de conjuntos, podemos ver lo siguiente:

\begin{align*}
A &= A \cap \Omega \\
&= A \cap (B \cup B^{\mathsf{c}}) \\ &= (A \cap B) \cup (A \cap B^{\mathsf{c}}) \\ &= (A \cap B) \cup (A \smallsetminus B).
\end{align*}

Además, observa que $(A \cap B) \cap (A \smallsetminus B) = \emptyset$. De manera similar, se tiene que

\[ B = (A \cap B) \cup (B \smallsetminus A), \]

y además, $(A \cap B) \cap (B \smallsetminus A) = \emptyset$. En consecuencia, por la aditividad finita de $\mathbb{P}$, podemos ver que

\begin{align*}
\mathbb{P}(A) &= \mathbb{P}(A \cap B) + \mathbb{P}(A \smallsetminus B), \\
\mathbb{P}(B) &= \mathbb{P}(A \cap B) + \mathbb{P}(B \smallsetminus A),
\end{align*}

Sumando estas dos expresiones obtenemos que

\begin{equation}
\label{sum}
\mathbb{P}(A) + \mathbb{P}(B) = \mathbb{P}(A \cap B) + \mathbb{P}(A \smallsetminus B) + \mathbb{P}(A \cap B) + \mathbb{P}(B \smallsetminus A).
\end{equation}

Ahora, observa que $A \cup B = (A \smallsetminus B) \cup (A \cap B) \cup (B \smallsetminus A)$, y que los tres conjuntos en esta unión son ajenos entre sí. Por la aditividad finita de $\mathbb{P}$, esto implica que

\begin{equation}
\label{partition}
\mathbb{P}((A \smallsetminus B) \cup (A \cap B) \cup (B \smallsetminus A)) = \mathbb{P}(A \smallsetminus B) + \mathbb{P}(A \cap B) + \mathbb{P}(B \smallsetminus A).
\end{equation}

Luego, sustituyendo \eqref{sum} en \eqref{partition} y utilizando que $A \cup B = (A \smallsetminus B) \cup (A \cap B) \cup (B \smallsetminus A)$,

\begin{align*}
\mathbb{P}(A) + \mathbb{P}(B) &= \mathbb{P}(A \cap B) + \mathbb{P}((A \smallsetminus B) \cup (A \cap B) \cup (B \smallsetminus A)) \\ &= \mathbb{P}(A \cap B) + \mathbb{P}(A \cup B).
\end{align*}

En conclusión, hemos llegado a que

\begin{align*}
\mathbb{P}(A) + \mathbb{P}(B) &= \mathbb{P}(A \cap B) + \mathbb{P}(A \cup B),
\end{align*}

que es justamente lo que queríamos demostrar.

$\square$

Alternativamente, la expresión que obtuvimos en esta proposición puede escribirse como sigue.

\[ \mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B) − \mathbb{P}(A \cap B), \]

que corresponde a «quitar» la parte que contamos más de una vez en la probabilidad de $A \cup B$. En resumen, esta proposición nos da una expresión para calcular la probabilidad de cualquier unión de dos eventos sin necesidad de que estos sean ajenos. Esta propiedad es conocida como el principio de inclusión-exclusión para $2$ eventos.

Interpretación visual del principio de inclusión-exclusión

En el caso para $2$ eventos, podemos representar visualmente los eventos $A$ y $B$ mediante un diagrama de Venn-Euler. En la siguiente figura están representados $A$ y $B$.

Figura. Animación de lo que ocurre al obtener $\mathbb{P}(A) + \mathbb{P}(B)$. Observa que $A \cap B$ se ve más oscuro porque lo contamos $2$ veces.

Al colorearlos, estamos pensando que lo coloreado de color rojo representa a $\mathbb{P}(A)$, y lo de color verde representa a $\mathbb{P}(B)$. Además, los coloreamos con una opacidad baja para que se note que la parte en donde se traslapan, que es $A \cap B$, se colorea dos veces cuando sumamos las áreas sombreadas por separado: esto lo comentamos previamente, en $\mathbb{P}(A) + \mathbb{P}(B)$ se cuenta $2$ veces a $A \cap B$. Por ello, para obtener $\mathbb{P}(A \cup B)$ se le resta $\mathbb{P}(A \cap B)$ a $\mathbb{P}(A) + \mathbb{P}(B)$.

Figura. $\mathbb{P}(A \cup B)$ sería el valor representado por colorear a todo $A \cup B$, sin que haya porciones más oscuras.

En la figura anterior resaltamos con la misma opacidad a todo $A \cup B$ con azul. Al restarle $\mathbb{P}(A \cap B)$ a $\mathbb{P}(A) + \mathbb{P}(B)$ aseguramos que $A \cap B$ no se contabiliza $2$ veces.

Principio de inclusión-exclusión para más eventos

El principio de inclusión-exclusión aplica para cualquier familia finita de eventos. Por ejemplo, sean $A_{1}$, $A_{2}$ y $A_{3}$ eventos. Podemos aplicar el principio de inclusión-exclusión (al cual abreviaremos P.I.E. por ahora) para $2$ eventos a $A_{1} \cup A_{2}$ y $A_{3}$. Es decir, se tiene que

\[ \mathbb{P}((A_{1} \cup A_{2}) \cup A_{3}) = \mathbb{P}(A_{1} \cup A_{2}) + \mathbb{P}(A_{3}) − \mathbb{P}((A_{1} \cup A_{2}) \cap A_{3}). \]

Aplicamos nuevamente el P.I.E. para $2$ eventos para optener $\mathbb{P}(A_{1} \cup A_{2})$, por lo que nos queda

\begin{equation}
\label{pie0}
\mathbb{P}((A_{1} \cup A_{2}) \cup A_{3}) = \mathbb{P}(A_{1}) + \mathbb{P}(A_{2}) − \mathbb{P}(A_{1} \cap A_{2}) + \mathbb{P}(A_{3}) − \mathbb{P}((A_{1} \cup A_{2}) \cap A_{3}).
\end{equation}

Luego, podemos aplicar la distributividad a $(A_{1} \cup A_{2}) \cap A_{3}$ y obtener que

\[(A_{1} \cup A_{2}) \cap A_{3} = (A_{1}\cap A_{3}) \cup (A_{2} \cap A_{3})). \]

Aplicando nuevamente el P.I.E. para $2$ eventos obtenemos $\mathbb{P}((A_{1}\cap A_{3}) \cup (A_{2} \cap A_{3}))$. Esto es,

\begin{equation}
\label{pie1}
\mathbb{P}((A_{1}\cap A_{3}) \cup (A_{2} \cap A_{3})) = \mathbb{P}(A_{1} \cap A_{3}) + \mathbb{P}(A_{2} \cap A_{3}) − \mathbb{P}((A_{1}\cap A_{3}) \cap (A_{2} \cap A_{3})),
\end{equation}

y recordando que la intersección de conjuntos es conmutativa y asociativa, podemos reacomodar el último término de \eqref{pie1} como

\begin{align*}
(A_{1}\cap A_{3}) \cap (A_{2} \cap A_{3}) &= A_{1} \cap (A_{3} \cap A_{2} \cap A_{3}) \\
&= A_{1} \cap (A_{2} \cap A_{3} \cap A_{3}) \\ &= A_{1} \cap (A_{2} \cap A_{3}) \\ &= A_{1} \cap A_{2} \cap A_{3},
\end{align*}

y así, la igualdad \eqref{pie1} puede reescribirse como

\begin{equation}
\label{pie2}
\mathbb{P}((A_{1}\cap A_{3}) \cup (A_{2} \cap A_{3})) = \mathbb{P}(A_{1} \cap A_{3}) + \mathbb{P}(A_{2} \cap A_{3}) − \mathbb{P}(A_{1} \cap A_{2} \cap A_{3}).
\end{equation}

Finalmente, sustituimos \eqref{pie2} en \eqref{pie0} para obtener

\begin{align*}
\mathbb{P}((A_{1} \cup A_{2}) \cup A_{3}) = \mathbb{P}(A_{1}) + \mathbb{P}(A_{2}) − \mathbb{P}(A_{1} \cap A_{2}) + \mathbb{P}(A_{3}) − (\mathbb{P}(A_{1} \cap A_{3}) + \mathbb{P}(A_{2} \cap A_{3}) − \mathbb{P}(A_{1} \cap A_{2} \cap A_{3})),
\end{align*}

que puede reescribirse como

\begin{align*} \mathbb{P}(A_{1} \cup A_{2} \cup A_{3}) = \mathbb{P}(A_{1}) + \mathbb{P}(A_{2}) + \mathbb{P}(A_{3}) − \mathbb{P}(A_{1} \cap A_{2}) − \mathbb{P}(A_{1} \cap A_{3}) − \mathbb{P}(A_{2} \cap A_{3}) + \mathbb{P}(A_{1} \cap A_{2} \cap A_{3}).
\end{align*}

En conclusión, obtuvimos una fórmula para el cálculo de la probabilidad de la unión de cualesquiera $3$ eventos.

Interpetación visual del P.I.E. para tres eventos

Nuevamente podemos auxiliarnos de un diagrama de Venn-Euler para representar visualmente a los $3$ eventos.

Figura. Animación que muestra $3$ conjuntos. Se sombrea primero cada uno individualmente, luego dos a dos, y luego los tres, para exhibir los pedazos que se contabilizan más de una vez.

Con rojo representamos a $\mathbb{P}(A)$, con verde a $\mathbb{P}(B)$ y con ámbar a $\mathbb{P}(C)$. En la animación anterior se muestra cada una de las regiones por separado, luego dos a dos, y luego las tres juntas. Así, se exhibe que estamos contabilizando más de una vez algunas de las regiones del diagrama, y pone en evidencia cuáles son las que deberíamos de quitar.

Figura. $\mathbb{P}(A \cup B \cup C)$ sería el valor representado por el área coloreada de morado, sin que haya áreas más opacas que otras.

En esta última figura, representamos el valor $\mathbb{P}(A \cup B \cup C)$ con el área de color morado. Aquí pasan más cosas que en el caso de $2$ eventos. Recuerda que la expresión que obtuvimos para $\mathbb{P}(A \cup B \cup C)$ es

\begin{align*}
\mathbb{P}(A \cup B \cup C) = \mathbb{P}(A) + \mathbb{P}(B) + \mathbb{P}(C) − \mathbb{P}(A \cap B) − \mathbb{P}(A \cap C) − \mathbb{P}(B \cap C) + \mathbb{P}(A \cap B \cap C).
\end{align*}

Al sumar $\mathbb{P}(A) + \mathbb{P}(B) + \mathbb{P}(C)$, las intersecciones dos a dos de los eventos se contabilizan una vez más de lo que deberían, es lo mismo lo que nos pasó con el caso para $2$ eventos. Por ello, restamos la probabilidad de cada intersección dos a dos. Sin embargo, observa que esto provoca un daño colateral: quitamos $3$ veces a $\mathbb{P}(A \cap B \cap C)$, porque $A \cap B$, $A \cap C$ y $B \cap C$ contienen a $A \cap B \cap C$. Pero en $\mathbb{P}(A) + \mathbb{P}(B) + \mathbb{P}(C)$ también lo contabilizamos $3$ veces. Así que estamos omitiendo $\mathbb{P}(A \cap B \cap C)$, razón por la que se le suma $\mathbb{P}(A \cap B \cap C)$ a la expresión.

Generalización del P.I.E.

El principio de inclusión-exclusión puede generalizarse para cuando se tienen $n \in \mathbb{N}^{+}$ eventos. Esto lo pondremos como un teorema, aunque omitiremos su demostración.


Teorema. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Entonces para cualquier $n \in \mathbb{N}^{+}$ y cualesquiera eventos $A_{1}$, $A_{2}$, …, $A_{n} \in \mathscr{F}$, se cumple que

\begin{align*}
\mathbb{P}{\left( \bigcup_{i=1}^{n} A_{i} \right)} = \sum_{i=1}^{n}\mathbb{P}(A_{i}) − \sum_{i < j} \mathbb{P}(A_{i} \cap A_{j}) + \sum_{i < j < k} \mathbb{P}(A_{i} \cap A_{j} \cap A_{k}) + \cdots + (-1)^{n+1} \mathbb{P}{\left( \bigcap_{i=1}^{n} A_{i} \right)},
\end{align*}

que puede escribirse de forma cerrada como sigue:

\begin{align*}
\mathbb{P}{\left( \bigcup_{i=1}^{n} A_{i} \right)} = \sum_{k=1}^{n}{\left[ (-1)^{k+1} \sum_{\substack{I \subseteq \{1, \ldots, n\} \\ |I| = k}} \mathbb{P}{\left( \bigcap_{j \in I} A_{j} \right)} \right]}.
\end{align*}


La segunda fórmula se ve un poco fea, pero en realidad no es tan horrible. Observa que se trata de una «suma de sumas». Es decir, para cada $k \in \{1, \ldots, n\}$, el $k$-ésimo término de esa suma es una suma. Lo más complicado está en cada una de estas sumas: están indicadas por $I$, que se refiere a que el índice es un subconjunto de $\{1, \ldots, n\}$. Lo importante de este índice es que $|I| = k$, es decir, hay un término por cada subconjunto de $\{1, \ldots, n\}$ de cardinalidad $k$. Además, cada uno de estos términos es la probabilidad de la intersección sobre todos los $A_{j}$ para los cuales $j \in I$.

Ejemplo. Obtengamos la expresión para $3$ eventos a partir de la segunda fórmula. Sean $A_{1}$, $A_{2}$ y $A_{3}$ eventos. Entonces

\begin{align*}
\mathbb{P}{\left( \bigcup_{i=1}^{3} A_{i} \right)} = \sum_{k=1}^{3}{\left[ (-1)^{k+1} \sum_{\substack{I \subseteq \{1, \ldots, 3\} \\ |I| = k}} \mathbb{P}{\left( \bigcap_{j \in I} A_{j} \right)} \right]}.
\end{align*}

La suma de afuera cuenta con $3$ términos, porque es la suma de $1$ a $3$. Cada uno de sus términos es una suma, en la que hay que sustituir los respectivos valores de $k$. Así que nos queda:

\begin{align*} \sum_{k=1}^{3}\left[ (-1)^{k+1} \sum_{\substack{I \subseteq \{1, \ldots, 3\} \\ |I| = k}} \mathbb{P}{\left( \bigcap_{j \in I} A_{j} \right)} \right] =&\, (-1)^{1+1}\sum_{\substack{I \subseteq \{1, \ldots, 3\} \\ |I| = 1}} \mathbb{P}{\left( \bigcap_{j \in I} A_{j} \right)} \\ & + (-1)^{2+1}\sum_{\substack{I \subseteq \{1, \ldots, 3\} \\ |I| = 2}} \mathbb{P}{\left( \bigcap_{j \in I} A_{j} \right)} \\ & + (-1)^{3+1}\sum_{\substack{I \subseteq \{1, \ldots, 3\} \\ |I| = 3}} \mathbb{P}{\left( \bigcap_{j \in I} A_{j} \right)}. \end{align*}

Veamos el primer término. Este corresponde a la suma sobre todos los $I \subseteq \{1,2,3\}$ tales que $|I| = 1$. Los subconjuntos de cardinalidad $1$ de $\{1,2,3\}$ son $3$: $\{1\}$, $\{2\}$ y $\{3\}$, por lo que hay un término en esa suma por cada uno de ellos. Es decir,

\[ (-1)^{1+1}\sum_{\substack{I \subseteq \{1, \ldots, 3\} \\ |I| = 1}} \mathbb{P}{\left( \bigcap_{j \in I} A_{j} \right)} = (-1)^{2} {\left[ \mathbb{P}{\left( \bigcap_{j \in \{1\}} A_{j} \right)} + \mathbb{P}{\left( \bigcap_{j \in \{2\}} A_{j} \right)} + \mathbb{P}{\left( \bigcap_{j \in \{3\}} A_{j} \right)} \right]}, \]

y observa que las intersecciones en cada término son simplemente $A_{1}$, $A_{2}$ y $A_{3}$, porque la intersección es únicamente sobre $\{1\}$, $\{2\}$ y $\{3\}$, respectivamente. Así,

\[ (-1)^{1+1}\sum_{\substack{I \subseteq \{1, \ldots, 3\} \\ |I| = 1}} \mathbb{P}{\left( \bigcap_{j \in I} A_{j} \right)} = (-1)^{2} {\left[ \mathbb{P}\left(A_{1}\right) + \mathbb{P}{\left(A_{2} \right)} + \mathbb{P}{\left(A_{3} \right)} \right]} = \mathbb{P}\left(A_{1}\right) + \mathbb{P}{\left(A_{2} \right)} + \mathbb{P}{\left(A_{3} \right)}. \]

Para el segundo término, el índice $I$ son todos los subconjuntos de $\{ 1, 2, 3\}$ de cardinalidad $2$, que nuevamente son $3$: $\{ 1, 2 \}$, $\{1,3\}$ y $\{2,3\}$. Por lo tanto,

\[ (-1)^{2+1}\sum_{\substack{I \subseteq \{1, \ldots, 3\} \\ |I| = 2}} \mathbb{P}{\left( \bigcap_{j \in I} A_{j} \right)} = (-1)^{3} {\left[ \mathbb{P}{\left( \bigcap_{j \in \{1,2\}} A_{j} \right)} + \mathbb{P}{\left( \bigcap_{j \in \{1,3\}} A_{j} \right)} + \mathbb{P}{\left( \bigcap_{j \in \{2,3\}} A_{j} \right)} \right]}. \]

Ahora, cada una de las intersecciones en la expresión anterior queda como sigue:

\begin{align*} \bigcap_{j \in \{1,2\}} A_{j} &= A_{1} \cap A_{2}, \\ \bigcap_{j \in \{1,3\}} A_{j} &= A_{1} \cap A_{3}, \\ \bigcap_{j \in \{2,3\}} A_{j} &= A_{2} \cap A_{3}, \end{align*}

por lo que

\begin{align*} (-1)^{2+1}\sum_{\substack{I \subseteq \{1, \ldots, 3\} \\ |I| = 2}} \mathbb{P}{\left( \bigcap_{j \in I} A_{j} \right)} &= (-1)^{3} {\left[ \mathbb{P}{\left(A_{1} \cap A_{2}\right)} + \mathbb{P}{\left(A_{1} \cap A_{3}\right)} + \mathbb{P}{\left(A_{2} \cap A_{3}\right)} \right]} \\ &= − {\left[ \mathbb{P}{\left(A_{1} \cap A_{2}\right)} + \mathbb{P}{\left(A_{1} \cap A_{3}\right)} + \mathbb{P}{\left(A_{2} \cap A_{3}\right)} \right]}. \end{align*}

Finalmente, para el último término, el índice corre por todos los subconjuntos de $\{1,2,3\}$ de cardinalidad $3$, y sólamente hay uno de estos: $\{1,2,3\}$. Por ello, se tiene que

\begin{align*} (-1)^{3+1}\sum_{\substack{I \subseteq \{1, \ldots, 3\} \\ |I| = 3}} \mathbb{P}{\left( \bigcap_{j \in I} A_{j} \right)} &= (-1)^{4}{\left[ \mathbb{P}{\left( \bigcap_{j \in \{1,2,3\}} A_{j}\right)} \right]} \\ &= \mathbb{P}{\left(A_{1} \cap A_{2} \cap A_{3}\right)}, \end{align*}

por lo que podemos concluir que

\begin{align*} \sum_{k=1}^{3}\left[ (-1)^{k+1} \sum_{\substack{I \subseteq \{1, \ldots, 3\} \\ |I| = k}} \mathbb{P}{\left( \bigcap_{j \in I} A_{j} \right)} \right] =&\, \mathbb{P}\left(A_{1}\right) + \mathbb{P}{\left(A_{2} \right)} + \mathbb{P}{\left(A_{3} \right)} \\ &\, − {\left[ \mathbb{P}{\left(A_{1} \cap A_{2}\right)} + \mathbb{P}{\left(A_{1} \cap A_{3}\right)} + \mathbb{P}{\left(A_{2} \cap A_{3}\right)} \right]} \\ &\, + \mathbb{P}{\left(A_{1} \cap A_{2} \cap A_{3}\right)}, \end{align*}

que es justamente la expresión que habíamos obtenido previamente.


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  • Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad, y sean $A$, $B$, $C$ y $D$ eventos. Obtén una fórmula para obtener $\mathbb{P}(A \cup B \cup C \cup D)$. Para ello, te proponemos dos caminos:
    • Sugerencia 1. Sigue un camino similar al que seguimos para obtener el P.I.E. para $3$ eventos. Es decir, aplica los P.I.E. que ya tienes (para $2$ y para $3$ eventos) de manera conveniente. Como pista, aplica el P.I.E. para $3$ eventos a $(A \cup B)$, $C$ y $D$.
    • Sugerencia 2. Utiliza cualquiera de las fórmulas del último teorema de esta entrada para $n = 4$ y haz el desarrollo correctamente.
  • Intenta demostrar el último teorema de esta entrada. Esto puede hacerse por inducción sobre $n$, el número de elementos en la familia finita de eventos.
    • Sugerencia. Utiliza inducción fuerte. Es decir, primero observa que la igualdad es cierta para $1$. Luego, demuestra que para cualquier $n$, si la igualdad es verdadera para cada $k \in \{1,\ldots, n\}$, entonces es cierta para $n+1$. En este paso será necesario que uses la de $2$ eventos y la de $n$ eventos para proceder.

Más adelante…

En esta entrada vimos dos propiedades muy importantes de una medida de probabilidad: la regla de complementación y el principio de inclusión-exclusión. La primera será de mucha utilidad cuando veamos algunos ejercicios de conteo, en donde buscaremos calcular la probabilidad de eventos que parecen muy complicados en principio, pero que esta regla facilitará el cálculo. Por otro lado, el principio de inclusión-exclusión es una herramienta un poco complicada, pero que permite el cálculo de la probabilidad de la unión de cualesquiera $n$ eventos, sin importar si son ajenos o no.

En la siguiente entrada veremos algunas propiedades más de una medida de probabilidad. Una vez que terminemos con las propiedades que tiene cualquier medida de probabilidad, centraremos nuestra atención en nuestros primeros ejemplos concretos de medida de probabilidad, cuya relevancia histórica los hace destacables.

Entradas relacionadas