Archivo de la etiqueta: independencia

Probabilidad I: Independencia de Eventos

Por Octavio Daniel Ríos García

Introducción

En la entrada anterior introdujimos un nuevo concepto: la probabilidad condicional. Vimos que dada una medida de probabilidad $\mathbb{P}$, para un evento $A$ tal que $\Prob{A} > 0$, podemos calcular la probabilidad de que ocurra otro evento $B$ condicionado a que ya ocurrió $A$. Este concepto es importante, pues también habrá veces en las que la probabilidad condicional $\Prob{B \mid A}$ es la única que se conoce.

Por otro lado, hay algo que también nos debe de interesar. Para dos eventos $A$, $B$ tales que $\Prob{A} > 0$, ¿será siempre cierto que condicionar a que $A$ ya ocurrió cambia la probabilidad de $B$? Es decir, ¿siempre es cierto que $\Prob{B} \neq \Prob{B \mid A}$? La respuesta es que no. Al definir eventos, encontraremos casos en los que la probabilidad de uno no afecta la del otro. Esta propiedad es conocida como independencia de eventos. En esta entrada veremos la definición de independencia de $2$ eventos. Después, veremos cómo se extiende para $3$ o más eventos, pues no es inmediato deducirla a partir de la independencia de $2$ eventos.

Independencia de dos eventos

Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Dados dos eventos $A$ y $B$, es posible que al condicionar a que $A$ ya ocurrió, la probabilidad de $B$ no cambie. Esto es, que $\Prob{B} = \Prob{B \mid A}$. De manera intuitiva, esto quiere decir que la ocurrencia o no-ocurrencia de $A$ no cambia la probabilidad de $B$ (y viceversa). Esta propiedad es conocida como independencia, y se define a continuación:


Definición. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Diremos que dos eventos $A$ y $B$ son independientes si se cumple que

\[ \Prob{A \cap B} = \Prob{A} \Prob{B}. \]


Una consecuencia inmediata de la definición anterior es que si $A$ y $B$ son eventos independientes, entonces $\Prob{B \mid A} = \Prob{B}$ y $\Prob{A \mid B} = \Prob{A}$ siempre que $\Prob{A} > 0$ y $\Prob{B} > 0$.

Comentamos que cuando $A$ y $B$ son independientes, la ocurrencia o no-ocurrencia de $A$ no cambia la probabilidad de $B$. Por ejemplo, supón que $A$ y $B$ son eventos independientes tales que $\Prob{A} = 0.2$ y $\Prob{B} = 0.4$. Si realizaras el experimento aleatorio correspondiente muchas veces, se espera que en $20\%$ de esas realizaciones ocurra $A$, y en un $40\%$ ocurra $B$. Al ser independientes, de aquellas realizaciones en las que ocurrió $A$, $B$ ocurriría en un $40\%$ de ellas, pues su probabilidad no se ve afectada por la ocurrencia de $A$ (recuerda, son independientes). Así, $\Prob{A}\Prob{B} = (0.2)(0.4) = 0.08$, y en consecuencia, $\Prob{B \mid A} = \frac{0.08}{0.2} = 0.4$, que es precisamente $\Prob{B}$.

Ejemplo. Supón que realizas $3$ lanzamientos de moneda de manera equiprobable. Es decir, si $\mathrm{A}$ representa a «águila» y $\mathrm{S}$ representa a «sol», tenemos el siguiente espacio muestral equiprobable $\Omega$:

\[ \Omega = \begin{Bmatrix} \mathrm{(A, A, A)}, & \mathrm{(A, A, S)}, & \mathrm{(A, S, A)}, & \mathrm{(S, A, A)}, \\ \mathrm{(A, S, S)}, & \mathrm{(S, A, S)}, & \mathrm{(S, S, A)}, & \mathrm{(S, S, S)} \end{Bmatrix}, \]

donde cada resultado tiene probabilidad de ocurrencia de $\frac{1}{|\Omega|} = \frac{1}{8}$. Podemos acordar la siguiente convención para los distintos resultados de $\Omega$:

\[ \Omega = \{ \mathrm{AAA, AAS, ASA, SAA, ASS, SAS, SSA, SSS} \}, \]

simplificando un poco la escritura de los eventos que veremos a continuación. Sean $A$, $B$ y $C$ los siguientes eventos:

  • $A$: El primer lanzamiento es águila. En consecuencia, $A = \{ \mathrm{AAA, AAS, ASA, ASS} \}$. Además, $\Prob{A} = \frac{4}{8} = \frac{1}{2}$.
  • $B$: El segundo lanzamiento es águila. Así, $B = \{ \mathrm{AAA, AAS, SAA, SAS} \}$. También se tiene que $\Prob{B} = \frac{1}{2}$.
  • $C$: Hay al menos dos águilas. Esto es, $C = \{ \mathrm{AAA, AAS, ASA, SAA} \}$. A su vez, se tiene que $\Prob{C} = \frac{1}{2}$.

Las probabilidades de cada evento se obtuvieron considerando que el espacio muestral es equiprobable.

  1. Se tiene que $A \cap B = \{ \mathrm{AAA, AAS} \}$, por lo que \[ \Prob{A \cap B} = \frac{2}{8} = \frac{1}{4} = {\left(\frac{1}{2}\right)} {\left(\frac{1}{2}\right)} = \Prob{A}\Prob{B}. \]En consecuencia, se puede concluir que $A$ y $B$ son independientes.
  2. Por otro lado, $A \cap C = \{ \mathrm{AAA, AAS, ASA } \}$. Así, tenemos que \[ \Prob{A \cap C} = \frac{3}{8} \neq {\left(\frac{1}{2}\right)} {\left(\frac{1}{2}\right)} = \Prob{A}\Prob{C}.\]Como se tiene que $\Prob{A \cap C} \neq \Prob{A}\Prob{C}$, $A$ y $C$ no son independientes.
  3. De manera similar, $B \cap C = \{ \mathrm{AAA, AAS, SAA } \}$, por lo que \[ \Prob{B \cap C} = \frac{3}{8} \neq {\left(\frac{1}{2}\right)} {\left(\frac{1}{2}\right)} = \Prob{B}\Prob{C},\]y se concluye que $B$ y $C$ no son independientes.

Observa que los resultados en 2 y 3 tienen sentido con nuestra noción intuitiva de independencia y probabilidad condicional. Por ejemplo, si queremos la probabilidad condicional de $A$ dado $C$, $\Prob{A \mid C}$, obtenemos que esta es

\[ \Prob{A \mid C} = \frac{\Prob{A \cap C}}{\Prob{C}} = \frac{\frac{3}{8}}{\frac{1}{2}} = \frac{3}{4}, \]

que tiene sentido, pues $3$ de los $4$ resultados en $C$ cumplen lo que establece el evento $A$, «que el primer lanzamiento sea águila». Esto exhibe que condicionar a que $C$ ya ocurrió cambia la probabilidad de ocurrencia de $A$, poniendo en evidencia que no son independientes.

El evento $B^{\mathsf{c}} = \{ \mathrm{SSS, SSA, ASS, ASA} \}$ es tal que $\Prob{B^{\mathsf{c}}} = \frac{1}{2}$. Además, se tiene que $A \cap B^{\mathsf{c}} = \{ \mathrm{ASS, ASA} \}$, por lo que

\[ \Prob{A \cap B^{\mathsf{c}}} = \frac{1}{4} = {\left(\frac{1}{2}\right)} {\left(\frac{1}{2}\right)} = \Prob{A}\Prob{B^{\mathsf{c}}}. \]

Esto nos lleva a concluir que no sólo los eventos $A$ y $B$ son independientes: $A$ y $B^{\mathsf{c}}$ también lo son.


La última parte de este ejemplo revela una propiedad de la independencia de eventos que enunciamos a continuación.


Teorema. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad y sean $A$ y $B \in \mathscr{F}$ eventos. Si $A$ y $B$ son independientes, entonces:

  1. $A$ y $B^{\mathsf{c}}$ son independientes,
  2. $A^{\mathsf{c}}$ y $B$ son independientes,
  3. $A^{\mathsf{c}}$ y $B^{\mathsf{c}}$ son independientes.

Este último teorema corresponde a la idea de que cuando dos eventos son indepenedientes, la no-ocurrencia de un evento no afecta la probabilidad de que ocurra (o no ocurra) el otro.

Independencia de tres eventos

La definición de independencia puede extenderse a más de dos eventos. Sin embargo, esta extensión se debe de hacer de manera delicada. Si tenemos $3$ eventos $A$, $B$ y $C$, ¿cómo podríamos decir que estos $3$ eventos son independientes? Claramente, queremos preservar esa noción de que la ocurrencia o no ocurrencia de uno o más de estos eventos no afecta la probabilidad de ocurrencia de los restantes.

Más concretamente, esto quiere decir que si $A$, $B$ y $C$ son independientes, entonces la ocurrencia o no ocurrencia de $A$ no debería de afectar la probabilidad de ocurrencia de $B$, ni la de $C$. Similarmente, la ocurrencia de $B$ no debería de afectar la probabilidad de $A$, ni la de $C$; y tampoco la ocurrencia de $C$ debería de afectar la probabilidad de $A$, ni la de $B$.

Además, también deberíamos de pedir que la ocurrencia de $A$ y de $B$ (al mismo tiempo) no debe de afectar la probabilidad de que ocurra $C$. Del mismo modo, la ocurrencia de $A$ y $C$ no debe de afectar la probabilidad de $B$; ni la ocurrencia de $B$ y $C$ debe de afectar la probabilidad de $A$.


Definición. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Sean $A$, $B$ y $C$ eventos. Diermos que $A$, $B$ y $C$ son independientes si

  1. $\Prob{A \cap B} = \Prob{A} \Prob{B}$.
  2. $\Prob{A \cap C} = \Prob{A} \Prob{C}$.
  3. $\Prob{B \cap C} = \Prob{B} \Prob{C}$.
  4. $\Prob{A \cap B \cap C} = \Prob{A} \Prob{B} \Prob{C}$.

Las propiedades 1 a 3 corresponden a la independencia dos a dos que queremos entre los eventos. Además, en conjunto con la propiedad 4 de esta definición, capturan la idea de que la ocurrencia de dos de los eventos no debería de afectar la probabilidad del evento restante. Si $A$, $B$ y $C$ son eventos independientes, entonces

\[ \Prob{A \cap B \cap C} = \Prob{A} \Prob{B} \Prob{C} = \Prob{B} \Prob{A} \Prob{C}, \]

y como $\Prob{A \cap C} = \Prob{A} \Prob{C}$, entonces se tiene que

\[ \Prob{A \cap B \cap C} = \Prob{B} \Prob{A \cap C}, \]

que justamente corresponde a que la ocurrencia de $A$ y $C$ no afecta la probabilidad de $B$. Lo mismo puede hacerse análogamente para el resto de combinaciones de eventos posibles.

En apariencia, la definición de independencia para $3$ eventos parece un poco excesiva. ¿No será posible deducir las propiedades 1, 2 y 3 a partir de la 4? ¿O quizás deducir la propiedad 4 a partir de las primeras 3? Veamos un par de ejemplos para ver que no es el caso.

Ejemplo. Considera nuevamente el experimento de lanzar una moneda $3$ veces de manera equiprobable. El espacio muestral $\Omega$ de este experimento es

\[ \Omega = \{ \mathrm{AAA, AAS, ASA, SAA, ASS, SAS, SSA, SSS} \}, \]

donde $\mathrm{A}$ es «águila» y $\mathrm{S}$ es «sol». Considera los siguientes $2$ eventos:

  1. $A$ el evento de que el primer lanzamiento es «águila»: $A = \{ \mathrm{AAA, AAS, ASA, ASS} \}$.
  2. $B$ el evento de que los primeros dos lanzamientos son «águilas», o los últimos dos lanzamientos son «soles». Esto es, $B = \{ \mathrm{AAA, AAS, ASS, SSS} \}$.

Puede observarse intuitivamente que los dos eventos no son independientes, pues ambos dependen del resultado del primer lanzamiento. Formalmente, basta con demostrar que no cumplen la definición de independencia. Para ello, nota que $A \cap B = \{ \mathrm{AAA, AAS, ASS} \}$, por lo que

\[ \Prob{A \cap B} = \frac{|A \cap B|}{|\Omega|} = \frac{3}{8}. \]

Por otro lado, se tiene que $\Prob{A} = \frac{1}{2}$ y $\Prob{B} = \frac{1}{2}$, así que

\[ \Prob{A} \Prob{B} = {\left( \frac{1}{2} \right)}{\left( \frac{1}{2} \right)} = \frac{1}{4}. \]

En conclusión, tenemos que $\Prob{A \cap B} \neq \Prob{A} \Prob{B}$, y en consecuencia, $A$ y $B$ no son independientes.

Ahora, consideremos un tercer evento:

  1. $C$ el evento de que los últimos dos lanzamientos son distintos. En este caso, se tiene que el evento es $C = \{ \mathrm{AAS, ASA, SAS, SSA} \}$.

Para $C$, tenemos que $\Prob{C} = \frac{1}{2}$. Además, tenemos que $A \cap B \cap C = \{ \mathrm{AAS} \}$, por lo que

\[ \Prob{A \cap B \cap C} = \frac{1}{8} = {\left( \frac{1}{2} \right)}{\left( \frac{1}{2} \right)}{\left( \frac{1}{2} \right)} = \Prob{A} \Prob{B} \Prob{C}, \]

así que $A$, $B$ y $C$ cumplen la propiedad 4 de la definición de independencia de $3$ eventos, a pesar de que no cumplen la propiedad 1. Esto quiere decir que cuando tú te encuentres con tres eventos $A$, $B$ y $C$ tales que $\Prob{A \cap B \cap C} = \Prob{A} \Prob{B} \Prob{C}$, no se puede deducir que son independientes dos a dos, ¡también tienes que comprobarlo para determinar si son independientes!


Ejemplo. Bueno, ¿y qué hay de la interacción opuesta? Si $A$, $B$ y $C$ son eventos tales que

  1. $\Prob{A \cap B} = \Prob{A} \Prob{B}$,
  2. $\Prob{A \cap C} = \Prob{A} \Prob{C}$,
  3. $\Prob{B \cap C} = \Prob{B} \Prob{C}$,

¿es eso suficiente para concluir que son independientes? Es decir, ¿de ahí podemos deducir que $\Prob{A \cap B \cap C} = \Prob{A} \Prob{B} \Prob{C}$? La respuesta es que no. Considera el experimento de lanzar una moneda $4$ veces de manera equiprobable. En este caso, podemos escribir al espacio muestral $\Omega$ como sigue.

\[ \Omega = \begin{Bmatrix} \mathrm{AAAA}, & \mathrm{AAAS}, & \mathrm{AASA}, & \mathrm{ASAA}, \\ \mathrm{SAAA}, & \mathrm{AASS}, & \mathrm{ASAS}, & \mathrm{SAAS}, \\ \mathrm{ASSA}, & \mathrm{SASA}, & \mathrm{SSAA}, & \mathrm{SSSA}, \\ \mathrm{SSAS}, & \mathrm{SASS}, & \mathrm{ASSS}, & \mathrm{SSSS} \end{Bmatrix}. \]

Considera los siguientes $3$ eventos:

  1. $A$ el evento de que el primer lanzamiento es «águila». Esto es, \[ A = \{ \mathrm{AAAA, AAAS, AASA, ASAA, AASS, ASAS, ASSA, ASSS}\}. \]
  2. $B$ el evento de que el último lanzamiento es «águila». Es decir,\[ B = \{ \mathrm{AAAA, AASA, ASAA, SAAA, ASSA, SASA, SSAA, SSSA} \}. \]
  3. $C$ el evento de que los cuatro lanzamientos resulten en $2$ «águilas» y $2$ «soles». Así,\[ C = \{ \mathrm{AASS, ASAS, SAAS, SASA, ASSA, SSAA} \}. \]

En consecuencia, encontramos que $\Prob{A} = \frac{8}{16} = \frac{1}{2}$, $\Prob{B} = \frac{8}{16} = \frac{1}{2}$, y $\Prob{C} = \frac{6}{16} = \frac{3}{8}$.

Al tomar las intersecciones de estos $3$ eventos, obtenemos lo siguiente:

  • $A \cap B = \{ \mathrm{AAAA, AASA, ASAA, ASSA} \}$, por lo que \[ \Prob{A \cap B} = \frac{4}{16} = \frac{1}{4} = {\left( \frac{1}{2} \right)}{\left( \frac{1}{2} \right)} = \Prob{A} \Prob{B}, \]y en consecuencia, $A$ y $B$ son independientes.
  • $A \cap C = \{ \mathrm{AASS, ASAS, ASSA} \}$, y por lo tanto, \[ \Prob{A \cap C} = \frac{3}{16} = {\left( \frac{1}{2} \right)}{\left( \frac{3}{8} \right)} = \Prob{A} \Prob{C}, \]así que $A$ y $C$ son independientes.
  • $B \cap C = \{ \mathrm{SASA, ASSA, SSAA} \}$, y así, \[ \Prob{B \cap C} = \frac{3}{16} = {\left( \frac{1}{2} \right)}{\left( \frac{3}{8} \right)} = \Prob{B} \Prob{C}, \]de donde se concluye que $B$ y $C$ son independientes.

No obstante, nota que $A \cap B \cap C = \{ \mathrm{ASSA} \}$. Por ello, se tiene que

\[ \Prob{A \cap B \cap C} = \frac{1}{16} \neq \frac{3}{32} = {\left( \frac{1}{2} \right)}{\left( \frac{1}{2} \right)}{\left( \frac{3}{8} \right)} = \Prob{A} \Prob{B} \Prob{C}. \]

Por lo tanto, $\Prob{A \cap B \cap C} \neq \Prob{A} \Prob{B} \Prob{C}$, así que $A$, $B$ y $C$ no son independientes. Este ejemplo exhibe que aún cuando tengas tres eventos $A$, $B$ y $C$ independientes dos a dos, esto no asegura que se cumple que $\Prob{A \cap B \cap C} = \Prob{A} \Prob{B} \Prob{C}$, ¡debes de comprobarlo para concluir que los $3$ eventos son independientes!


Independencia de más de 3 eventos

La definición de independencia puede generalizarse para $n \in \mathbb{N}^{+}$ eventos. La idea de la definición será la misma que usamos para definir la independencia de $3$ eventos, pero extendida a todas las combinaciones de tamaño $k$ posibles, con $2 \leq k \leq n$. Presentamos esta definición a continuación.


Definición. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad, y sea $n \in \mathbb{N}^{+}$ tal que $n \geq 2$. Sean $A_{1}$, $A_{2}$, …, $A_{n}$ eventos. Diremos que son independientes si y sólamente si para toda colección finita $\{i_{1}, \ldots, i_{k}\}$ de índices distintos en $\{1,\ldots,n\}$ se cumple que

\[ \Prob{A_{i_{1}} \cap A_{i_{2}} \cap \cdots \cap A_{i_{k}}} = \Prob{A_{i_{1}}} \Prob{A_{i_{2}}} \cdots \Prob{A_{i_{k}}}. \]


La definición anterior puede apantallar un poco, pero observa que lo que significa es que se tiene una lista de propiedades que debe de cumplir la familia $A_{1}$, $A_{2}$, …, $A_{n}$ para poder decir que son independientes. De manera más explícita, estas serían:

  • $\Prob{A_{i_{1}} \cap A_{i_{2}}} = \Prob{A_{i_{1}}}\Prob{A_{i_{2}}}$ para cada $i_{1}$, $i_{2} \in \{1,\ldots,n\}$ tales que $i_{1} \neq i_{2}$.
  • $\Prob{A_{i_{1}} \cap A_{i_{2}} \cap A_{i_{3}}} = \Prob{A_{i_{1}}} \Prob{A_{i_{2}}} \Prob{A_{i_{3}}}$ para cada $i_{1}$, $i_{2}$, $i_{3} \in \{1,\ldots, n\}$ tales que $i_{1} \neq i_{2} \neq i_{3}$.

$\vdots$

  • $\Prob{A_{1} \cap A_{2} \cap \cdots \cap A_{n}} = \Prob{A_{1}}\Prob{A_{2}} \cdots \Prob{A_{n}}$.

Es decir, para verificar que $n$ eventos son independientes, hay que checar que la probabilidad «abre» la intersección como un producto primero con todas las combinaciones de eventos dos a dos, luego tres a tres, y así sucesivamente hasta llegar a la propiedad con todos los eventos.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Sean $A$ y $B$ eventos tales que $\Prob{A} > 0$ y $\Prob{B} > 0$. Demuestra que si $A$ y $B$ son independientes, entonces se cumple que $\Prob{B \mid A} = \Prob{B}$ y $\Prob{A \mid B} = \Prob{A}$.
  2. Demuestra que para cualesquiera $A$, $B$ eventos, si $A$ y $B$ son independientes, entonces $A^{\mathsf{c}}$ y $B$ son independientes.
  3. A partir de la definición de independencia de $n$ eventos, escribe las propiedades que deben de cumplir $4$ eventos $A$, $B$, $C$ y $D$ para ser llamados independientes. Sugerencia: Primero revisa cómo se llega a la definición para $3$ eventos a partir de la de $n$ eventos.

Más adelante…

La independencia de eventos es un concepto importantísimo en la probabilidad, pues en muchos ejercicios y aplicaciones, se hacen supuestos de independencia. A pesar de que demostrar que $n$ conjuntos son independientes puede resultar complicado, cuando asumes la independencia, tienes una gran cantidad de propiedades a tu disposición. Por ello, en muchos teoremas básicos, la independencia se toma como hipótesis.

Más adelante, cuando veamos el concepto de variable aleatoria, veremos lo que significa que dos variables aleatorias sean independientes, y será necesario utilizar las definiciones que hemos visto aquí.

El siguiente tema que abordaremos son dos fórmulas para el cálculo de probabilidades muy útiles y que se basan en la probabilidad condicional: el teorema de probabilidad total y el teorema de Bayes.

Entradas relacionadas

Probabilidad I: Probabilidad Condicional

Por Octavio Daniel Ríos García

Introducción

En la entrada anterior concluimos nuestro estudio de algunos de los enfoques más importantes en la historia de la probabilidad. Más aún, vimos que podemos plasmar estos enfoques en medidas de probabilidad específicas. Sin embargo, estas no son las únicas medidas de probabilidad que existen, ¡hay muchísimas más!

Pasaremos ahora a otro asunto. Dada una medida de probabilidad $\mathbb{P}$, construiremos un nuevo concepto llamado probabilidad condicional. A grandes rasgos, lo que queremos hacer es medir la probabilidad de un evento $B$ condicionando a que otro evento $A$ ya ocurrió. En esencia, lo que queremos es una medida que nos permita capturar el efecto que tiene la información de $A$ sobre la probabilidad de $B$. Sin más preámbulos, veamos cómo lo haremos.

Motivación de la probabilidad condicional

Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad cualquiera, y $A \in \mathscr{F}$ un evento de $\Omega$. Ahora, a partir de $\mathbb{P}$, ¿cómo podríamos construir una medida que exprese la probabilidad de que ocurra un evento $B$ condicionando a que $A$ ya ocurrió?

Para atacar este problema, sea $B \in \mathscr{F}$ un evento cualquiera. Recordando que el evento $B \cap A$ es aquel en donde ocurren $B$ y $A$, así que $\Prob{B \cap A}$ es la probabilidad de que ocurran $B$ y $A$. Sin embargo, esta probabilidad de ocurrencia se calcula con respecto a todos los resultados en $\Omega$, no sólamente sobre aquellos eventos en los que ocurre $A$. Por ejemplo, si los eventos $B$ y $A$ son tales que $\Prob{B \cap A} = 0.1$ y $\Prob{A} = 0.4$, se espera que si observas el fenómeno aleatorio muchas veces, en un $40\%$ de los resultados ocurrirá $A$ y en $10\%$ ocurrirá $B$ y $A$. No obstante, al fijarnos únicamente en aquellos resultados en los que ocurrió $A$, aproximadamente el $\frac{0.1}{0.4} = 0.25 = 25\%$ de ellos corresponde a resultados en los que también ocurrió $B$.

Por ello, es necesario «reescalar» la expresión $\Prob{B \cap A}$ para que efectivamente represente la probabilidad de que ocurra $B$ dado que ya ocurrió $A$, donde $0$ es lo más improbable y $1$ es lo más probable. El reescalamiento se hace con respecto a $A$, que es el conjunto que asumimos que ya ocurrió. Para hacerlo, tomamos el cociente $\frac{\Prob{B \cap A}}{\Prob{A}}$, que captura la idea de restringirnos a los resultados en los que ya ocurrió $A$.

Definición de la probabilidad condicional

Tomando en cuenta la motivación de la sección anterior, se define la probabilidad condicional como sigue.


Definición. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Sea $A \in \mathscr{F}$ un evento tal que $\Prob{A} > 0$. Para cada $B \in \mathscr{F}$ se define $\Prob{B \mid A}$, la probabilidad condicional de $B$ dado $A$, como

\[ \Prob{B \mid A} = \frac{\Prob{B \cap A}}{\Prob{A}}. \]


En la probabilidad condicional, el conjunto $A$ se interpreta como información conocida. Es decir, imagina que tienes ante tí un fenómeno aleatorio con espacio de probabilidad $(\Omega, \mathscr{F}, \mathbb{P})$, y un evento $A \in \mathscr{F}$. Entonces, si ya ocurrió $A$, ¿cómo se ve afectada la probabilidad de algún evento $B$ tomando en cuenta esa información? La respuesta a esa pregunta la obtenemos con la probabilidad condicional de $B$ dado $A$.

Es posible dar una definición para la probabilidad condicional dado un evento de probabilidad $0$. Es decir, puede definirse cuando $\Prob{A} = 0$. Sin embargo, no contamos con las herramientas matemáticas suficientes para hacerlo. No obstante, ¿tiene sentido hacer semejante barbaridad? ¡Resulta que sí! Aún cuando la probabilidad de un evento es $0$, esto no significa que sea imposible que ocurra. Recuerda, cuando un evento tiene probabilidad $0$, quiere decir que su ocurrencia es lo más improbable posible. Aún así, esto no significa «imposible» en todos los casos. Más adelante veremos casos en los que surgen eventos de probabilidad $0$ que sí podrían ocurrir, de manera muy natural.

Una consecuencia inmediata de la definición anterior es que para cualesquiera eventos $A$, $B$ tales que $\Prob{A}$, $\Prob{B} > 0$ se cumple que

\[ \Prob{B \cap A} = \Prob{B \mid A} \Prob{A}, \]

y que

\[ \Prob{A \cap B} = \Prob{A \mid B} \Prob{B}, \]

Y como $\Prob{A \cap B} = \Prob{B \cap A}$ (pues $A \cap B$ y $B \cap A$ son el mismo evento), se tiene que

  • $\Prob{A \cap B} = \Prob{A \mid B} \Prob{B}$, y
  • $\Prob{A \cap B} = \Prob{B \mid A} \Prob{A}$.

Este resultado es conocido como la regla multiplicativa.

Ejemplos

Ejemplo. Recordemos que en una baraja estándar de $52$ cartas hay $12$ cartas con ilustración: hay $4$ jotas, reinas y reyes. Imagina que un amigo tuyo revuelve la baraja y tú tomas una carta. Le muestras la carta a tu amigo, y éste te comenta que la carta es un as o una carta con ilustración. ¿Cuál es la probabilidad de que tu carta sea un rey sabiendo esa información?

En primera, $\Omega$ es el conjunto de todas las cartas de una baraja estándar, por lo que $|\Omega| = 52$. Tenemos dos eventos que nos interesan:

  • $A$: el evento de que la carta extraída sea un rey. En consecuencia, se tiene que \[ A = \{ \mathrm{\textcolor{red}{K\heartsuit}, \textcolor{red}{K\blacklozenge}, K\spadesuit, K\clubsuit}\}. \]
  • $B$: el evento de que la carta extraída sea un as o una carta con ilustración. Es decir, $B$ es el evento \[ B = \begin{Bmatrix} \textcolor{red}{\mathrm{A\heartsuit}}, & \textcolor{red}{\mathrm{A\blacklozenge}}, & \mathrm{A\spadesuit}, & \mathrm{A\clubsuit}, \\ \textcolor{red}{\mathrm{J\heartsuit}}, & \textcolor{red}{\mathrm{J\blacklozenge}}, & \mathrm{J\spadesuit}, & \mathrm{J\clubsuit}, \\ \textcolor{red}{\mathrm{Q\heartsuit}}, & \textcolor{red}{\mathrm{Q\blacklozenge}}, & \mathrm{Q\spadesuit}, & \mathrm{Q\clubsuit}, \\ \textcolor{red}{\mathrm{K\heartsuit}}, & \textcolor{red}{\mathrm{K\blacklozenge}}, & \mathrm{K\spadesuit}, & \mathrm{K\clubsuit} \end{Bmatrix}. \]

En términos de estos eventos, lo que queremos saber es $\Prob{A \mid B}$. Entonces necesitaremos la probabilidad de $A \cap B$. Por ello, observa que $A \cap B = \{ \mathrm{\textcolor{red}{K\heartsuit}, \textcolor{red}{K\blacklozenge}, K\spadesuit, K\clubsuit } \}$. Además, como se trata de un ejemplo de conteo, asumiremos que se toma la carta de manera equiprobable. Así, se tiene que

\[ \Prob{A \cap B} = \frac{|A \cap B|}{|\Omega|} = \frac{4}{52} = \frac{1}{13},\]

\[ \Prob{B} = \frac{|B|}{|\Omega|} = \frac{16}{52} = \frac{4}{13}.\]

Por lo tanto,

\[ \Prob{A \mid B} = \frac{\Prob{A \cap B}}{\Prob{B}} = \frac{\frac{1}{13}}{\frac{4}{13}} = \frac{1}{4}. \]

En conclusión, la probabilidad de que la carta obtenida sea un rey sabiendo que es un as o una carta con ilustración es $\Prob{A \mid B} = 0.25$.


También habrá ocasiones en las que la probabilidad condicional ya es conocida, y se puede utilizar para el cálculo de otras probabilidades.

Ejemplo. En el refrigerador de una casa hay $8$ latas de refresco y $4$ latas de cerveza. Una persona decide agarrar, sin mirar, una lata para su amiga. Después, vuelve a meter la mano al refrigerador, sin mirar, para tomar una lata para ella misma. Definimos los siguientes eventos:

  • $A$: La primera selección es una lata de refresco.
  • $B$: La segunda selección es una lata de refresco.

Podemos utilizar la regla multiplicativa para determinar la probabilidad de que las dos latas elegidas son de refresco. Esto corresponde al evento $A \cap B$, y por la regla multiplicativa:

\[ \Prob{A \cap B} = \Prob{A} \Prob{B \mid A}. \]

Ahora, suponiendo equiprobabilidad, $\Prob{A} = \frac{8}{12} = \frac{2}{3}$, pues hay $8$ latas de refresco y $12$ latas en total. ¿Es posible saber $\Prob{B \mid A}$? ¡Sí! Pues cuando ya se observó $A$, quedan $7$ latas de refresco y $11$ latas en total, así que $\Prob{B \mid A} = \frac{7}{11}$. De este modo, tenemos que

\[ \Prob{A \cap B} = {\left( \frac{2}{3} \right)}{\left( \frac{7}{11} \right)} = \frac{14}{33}. \]

Del mismo modo, podemos obtener la probabilidad de que las dos latas sean de cerveza. Para ello, observa que el evento de que ambas latas sean de cerveza es $A^{\mathsf{c}} \cap B^{\mathsf{c}}$. Así,

\[ \Prob{A^{\mathsf{c}} \cap B^{\mathsf{c}}} = \Prob{A^{\mathsf{c}}} \Prob{B^{\mathsf{c}} \mid A^{\mathsf{c}}}. \]

Observa que $\Prob{A^{\mathsf{c}}} = \frac{4}{12} = \frac{1}{3}$, y que $\Prob{B^{\mathsf{c}} \mid A^{\mathsf{c}}} = \frac{3}{11}$, similar al caso anterior. Por ello, tenemos que

\[ \Prob{A^{\mathsf{c}} \cap B^{\mathsf{c}}} = {\left( \frac{1}{3} \right)}{\left( \frac{3}{11} \right)} = \frac{1}{11}. \]

La probabilidad condicional también puede resultar útil para el cálculo de la probabilidad de un evento. Por ejemplo, ¿cuál será la probabilidad de $B$? Podemos auxiliarnos de la aditividad de una medida de probabilidad, pero para ello debemos de partir a $B$ en pedazos ajenos. Para hacerlo, observa que $B = B \cap \Omega$, sea cual sea el espacio muestral $\Omega$, pues $B \subseteq \Omega$. Además, $\Omega = A \cup A^{\mathsf{c}}$, por lo que

\[ B = B \cap \Omega = B \cap (A \cup A^{\mathsf{c}}) = (B \cap A) \cup (B \cap A^{\mathsf{c}}). \]

Nota que los eventos $B \cap A$ y $B \cap A^{\mathsf{c}}$ son ajenos, por lo que

\[ \Prob{B} = \Prob{ (B \cap A) \cup (B \cap A^{\mathsf{c}}) } = \Prob{B \cap A} + \Prob{B \cap A^{\mathsf{c}}}, \]

y por la regla multiplicativa, obtenemos que

\begin{align*} \Prob{B} &= \Prob{A}\Prob{B \mid A} + \Prob{A^{\mathsf{c}}} \Prob{B \mid A^{\mathsf{c}}} \\ &= {\left( \frac{2}{3} \right)}{\left( \frac{7}{11} \right)} + {\left( \frac{1}{3} \right)}{\left( \frac{8}{11} \right)} \\ &= \frac{14}{33} + \frac{8}{33} \\ &= \frac{22}{33} \\ &= \frac{2}{3}. \end{align*}


El resultado que usamos al final del último ejemplo es muy importante, y es comocido como el teorema de probabilidad total. Lo veremos propiamente (y de manera más general) en una sección posterior.

Ejemplo. Considera el experimento de lanzar un dado $2$ veces consecutivas. En este caso, el espacio muestral $\Omega$ puede verse como

\[ \Omega = \{1,2,3,4,5,6\}^{2} = \begin{Bmatrix} (1,1), & (1,2), & (1,3), & (1,4), & (1,5), & (1,6), \\ (2,1), & (2,2), & (2,3), & (2,4), & (2,5), & (2,6), \\ (3,1), & (3,2), & (3,3), & (3,4), & (3,5), & (3,6), \\ (4,1), & (4,2), & (4,3), & (4,4), & (4,5), & (4,6), \\ (5,1), & (5,2), & (5,3), & (5,4), & (5,5), & (5,6), \\ (6,1), & (6,2), & (6,3), & (6,4), & (6,5), & (6,6) \end{Bmatrix} \]

donde la primera entrada de cada par ordenado es el resultado del primer lanzamiento y la segunda entrada es el resultado del segundo lanzamiento. ¿Cuál será la probabilidad de que la suma de los dos resultados sea mayor a $6$ dado que en el primer lanzamiento se obtuvo un $3$?

Considera los siguientes eventos:

  • $A$: el evento de que el primer lanzamiento sea un $3$. Esto quiere decir que\[ A = \{ (3,1), (3,2), (3,3), (3,4), (3,5), (3,6) \}. \]
  • $B$: el evento de que la suma de ambos resultados sea mayor a $6$. Primero, podemos escribir a $B$ como\[ B = \{ (x,y) \in \Omega \mid x + y > 6 \}. \] Explícitamente, los elementos de $B$ son\[ B = \begin{Bmatrix} (1,6), & (2,5), & (2,6), & (3,4), & (3,5), & (3,6), & (4,3), \\ (4,4), & (4,5), & (4,6), & (5,2), & (5,3), & (5,4), & (5,5), \\ (5,6), & (6,1), & (6,2), & (6,3), & (6,4), & (6,5), & (6,6) \end{Bmatrix},\]que son precisamente todos los pares ordenados en $\Omega$ cuyas entradas suman más de $6$.

Así, la probabilidad que queremos obtener es $\Prob{B \mid A}$. En este ejemplo no hemos especificado una medida de probabilidad, así que asumiremos equiprobabilidad. Por ello, el cálculo de \(\Prob{A}\) y \(\Prob{B}\) es muy sencillo en este caso. Para \(A\) tenemos que

\begin{align*} \Prob{A} &= \frac{|A|}{|\Omega|} = \frac{6}{36} = \frac{1}{6}. \end{align*}

Por otro lado, para \(B\) se tiene que

\begin{align*} \Prob{B} &= \frac{|B|}{|\Omega|} = \frac{21}{36} =\frac{7}{12}. \end{align*}

Además, para calcular \(\Prob{B \mid A}\) necesitamos \(\Prob{A \cap B}\). Realizando esta intersección obtenemos que \(A \cap B\) es

\begin{align*} A \cap B &= \{(3,4), (3,5), (3,6) \}, \end{align*}

por lo que \(\Prob{A \cap B} = \frac{3}{36} = \frac{1}{12}\). En consecuencia, tenemos que

\begin{align*} \Prob{B \mid A} &= \frac{\Prob{A \cap B}}{\Prob{B}} = \frac{\frac{1}{12}}{\frac{1}{6}} = \frac{6}{12} = \frac{1}{2}. \end{align*}

Es decir, la probabilidad de que la suma de los dos resultados sea mayor a \(6\) sabiendo que el primer lanzamiento fue un \(3\) es de \(0.5\). En contraste, la probabilidad (sin condicionar) de que la suma de los dos resultados sea mayor a \(6\) es \(\frac{7}{12} = 0.5833\ldots\)


Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad, y sea $A \in \mathscr{F}$ un evento tal que $\Prob{A} > 0$. Demuestra que la probabilidad condicional dado $A$ es una medida de probabilidad. Es decir, demuestra que la función $\mathbb{P}_{A}\colon \mathscr{F} \rightarrow \RR$ dada por: \[ \mathbb{P}_{A}(B) = \Prob{B \mid A}, \]para cada $B \in \mathscr{F}$, es una medida de probabilidad. Sugerencia: Usa la definición de $\Prob{B \mid A}$ y aprovecha que $\mathbb{P}$ es una medida de probabilidad.
  2. Repite lo que hicimos en el ejemplo de las latas en el refrigerador, pero asumiendo que hay $7$ latas de refresco y $3$ latas de cerveza.
  3. En el ejemplo de lanzar un dado $2$ veces, obtén la probabilidad de que la suma de los dos resultados sea mayor a $7$ dado que en le primer lanzamiento se obtuvo $2$ o $3$.
  4. Dados dos eventos $A$, $B$ con $\Prob{A}$, $\Prob{B} > 0$, ¿siempre es cierto que $\Prob{A \mid B} = \Prob{B \mid A}$? Si crees sí, demuéstralo; si crees que no, exhibe un contraejemplo.

Más adelante…

La probabilidad condicional resulta una herramienta fundamental en la teoría de la probabilidad. Habrá ejemplos y ejercicios (y, por consiguiente, aplicaciones) en los que la información que se te da está en términos de condicionales. Más adelante veremos algunas fórmulas que permiten calcular la probabilidad de eventos haciendo uso de probabilidades condicionales.

En la siguiente entrada veremos un concepto que está cercanamente relacionado con la probabilidad condicional: la noción de independencia de eventos.

Entradas relacionadas

Probabilidad I-Videos: Independencia de eventos

Por Aurora Martínez Rivas

Introducción

La noción de independencia de los eventos juega un papel importante en la teoría de la probabilidad y sus aplicaciones.  Generalmente, saber que algún evento B ha ocurrido cambia la probabilidad de que otro evento A ocurra. Si la probabilidad permanece sin cambios entonces llamamos a A y B independientes.

Independencia de eventos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE 104721: “Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM”. Sitio web del proyecto: https://www.matematicasadistancia.com.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Sean $A$ y $B$ eventos independientes, muestra que
    • $A^c,\ B$
    • $A,\ B^c$
    • $A^c,\ B^c$

Son independientes.

  • Demuestra que los eventos $A$ y $B$ son independientes si y sólo si $P\left(A\middle|\ B\right)=P\left(A\middle|\ B^c\right)$.
  • Sea $\Omega=${$1,2,\ldots,p$} donde $p$ es primo, $\mathcal{F}$ es el conjunto de todos los subconjuntos de $\Omega$ y para todo evento $A\in\mathcal{F}$, $P(A)=\frac{\left|A\right|}{p}$. Muestra que, si $A$ y $B$ son eventos independientes, entonces al menos uno de los eventos $A$ y $B$ son cualquiera $\emptyset$ o $\Omega$.
  • Considera que se lanza un dado n veces. Sea $A_{ij}$ el evento tal que el $i-ésimo$ y $j-ésimo$ resultado producen el mismo número. Muestra que los eventos {$A_{ij}:1\le\ i\le\ j\le\ n$} son independientes dos a dos, pero no son independientes.
  • Prueba que si $A_1,A_2,\ldots,A_n$ son eventos independientes entonces $P\left(A_1\cup A_2\cup\ldots\cup A_n\right)=1-\displaystyle\prod_{i=1}^{n}\left[1-P\left(A_i\right)\right]$.

Más adelante…

En los siguientes videos veremos dos aplicaciones útiles e importantes de la probabilidad condicional: el teorema de probabilidad total y el teorema de Bayes, que nos permiten a través de una partición correcta del espacio muestral, encontrar probabilidades de una manera conveniente.

Entradas relacionadas

Álgebra Lineal I: Problemas de combinaciones lineales, generadores e independientes

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores ya hablamos de combinaciones lineales, de conjuntos generadores y de conjuntos independientes. Lo que haremos aquí es resolver problemas para reforzar el contenido de estos temas.

Problemas resueltos

Problema. Demuestra que el polinomio $p(x)=x^2+x+1$ no puede ser escrito en el espacio vectorial $\mathbb{R}[x]$ como una combinación lineal de los polinomios \begin{align*} p_1(x)=x^2-x\\ p_2(x) = x^2-1\\ p_3(x) = x-1.\end{align*}

Solución. Para resolver este problema, podemos plantearlo en términos de sistemas de ecuaciones. Supongamos que existen reales $a$, $b$ y $c$ tales que $$p(x)=ap_1(x)+bp_2(x)+cp_3(x).$$

Desarrollando la expresión, tendríamos que
\begin{align*}
x^2+x+1 &= a(x^2-x)+b(x^2-1)+c(x-1)\\
&= (a+b)x^2+(-a+c)x+(-b-c),
\end{align*}

de donde igualando coeficientes de términos del mismo grado, obtenemos el siguiente sistema de ecuaciones: $$\begin{cases}a+b & = 1\\ -a + c &= 1 \\ -b-c &= 1.\end{cases}$$

Para mostrar que este sistema de ecuaciones no tiene solución, le aplicaremos reducción gaussiana a la siguiente matriz extendida: $$\begin{pmatrix} 1 & 1 & 0 & 1 \\ -1 & 0 & 1 & 1 \\ 0 & -1 & -1 & 1 \end{pmatrix}.$$

Tras la transvección $R_2+R_1$, obtenemos $$\begin{pmatrix} 1 & 1 & 0 & 1 \\ 0 & 1 & 1 & 2 \\ 0 & -1 & -1 & 1 \end{pmatrix}.$$

Tras la transvección $R_3+R_2$, obtenemos $$\begin{pmatrix} 1 & 1 & 0 & 1 \\ 0 & 1 & 1 & 2 \\ 0 & 0 & 0 & 3 \end{pmatrix}.$$

De aquí se ve que la forma escalonada reducida tendrá un pivote en la última columna. Por el teorema de existencia y unicidad el sistema original no tiene solución.

$\square$

En el problema anterior usamos un argumento de reducción gaussiana para mostrar que el sistema no tiene solución. Este es un método general que funciona en muchas ocasiones. Una solución más sencilla para ver que el sistema del problema no tiene solución es que al sumar las tres ecuaciones se obtiene $0=3$.

Problema. Sea $n$ un entero positivo. Sea $W$ el subconjunto de vectores en $\mathbb{R}^n$ cuya suma de entradas es igual a $0$. Sea $Z$ el espacio generado por el vector $(1,1,\ldots,1)$ de $\mathbb{R}^n$. Determina si es cierto que $$\mathbb{R}^n=W\oplus Z.$$

Solución. El espacio $Z$ está generado por todas las combinaciones lineales que se pueden hacer con el vector $v=(1,1,\ldots,1)$. Como sólo es un vector, las combinaciones lineales son de la forma $av$ con $a$ en $\mathbb{R}$, de modo que $Z$ es precisamente $$Z=\{(a,a,\ldots,a): a\in\mathbb{R}\}.$$

Para obtener la igualdad $$\mathbb{R}^n=W\oplus Z,$$ tienen que pasar las siguientes dos cosas (aquí estamos usando un resultado de la entrada de suma y suma directa de subespacios):

  • $W\cap Z = \{0\}$
  • $W+Z=\mathbb{R}^n$

Veamos qué sucede con un vector $v$ en $W\cap Z$. Como está en $Z$, debe ser de la forma $v=(a,a,\ldots,a)$. Como está en $W$, la suma de sus entradas debe ser igual a $0$. En otras palabras, $0=a+a+\ldots+a=na$. Como $n$ es un entero positivo, esta igualdad implica que $a=0$. De aquí obtenemos que $v=(0,0,\ldots,0)$, y por lo tanto $W\cap Z = \{0\}$.

Veamos ahora si se cumple la igualdad $\mathbb{R}^n=W+Z$. Por supuesto, se tiene que $W+Z\subseteq \mathbb{R}^n$, pues los elementos de $W$ y $Z$ son vectores en $\mathbb{R}^n$. Para que la igualdad $\mathbb{R}^n\subseteq W+Z$ se cumpla, tiene que pasar que cualquier vector $v=(x_1,\ldots,x_n)$ en $\mathbb{R}^n$ se pueda escribir como suma de un vector $w$ uno con suma de entradas $0$ y un vector $z$ con todas sus entradas iguales. Veamos que esto siempre se puede hacer.

Para hacerlo, sea $S=x_1+\ldots+x_n$ la suma de las entradas del vector $v$. Consideremos al vector $w=\left(x_1-\frac{S}{n},\ldots, x_n-\frac{S}{n} \right)$ y al vector $z=\left(\frac{S}{n},\ldots,\frac{S}{n}\right)$.

Por un lado, $z$ está en $Z$, pues todas sus entradas son iguales. Por otro lado, la suma de las entradas de $w$ es
\begin{align*}
\left(x_1-\frac{S}{n}\right)+\ldots + \left(x_n-\frac{S}{n}\right)&=(x_1+\ldots+x_n)-n\cdot \frac{S}{n}\\ &= S-S=0,
\end{align*}

lo cual muestra que $w$ está en $W$. Finalmente, notemos que la igualdad $w+z=v$ se puede comprobar haciendo la suma entrada a entrada. Con esto mostramos que cualquier vector de $V$ es suma de vectores en $W$ y $Z$ y por lo tanto concluimos la igualdad $\mathbb{R}^n=W\oplus Z$.

$\square$

En el problema anterior puede parecer algo mágico la propuesta de vectores $w$ y $z$. ¿Qué es lo que motiva la elección de $\frac{S}{n}$? Una forma de enfrentar los problemas de este estilo es utilizar la heurística de trabajar hacia atrás. Sabemos que el vector $w$ debe tener todas sus entradas iguales a cierto número $a$ y queremos que $z=v-w$ tenga suma de entradas igual a $0$. La suma de las entradas de $v-w$ es $$(x_1-a)+\ldots+(x_n-a)= S -na.$$ La elección de $a=\frac{S}{n}$ está motivada en que queremos que esto sea cero.

Problema. Considera las siguientes tres matrices en $M_2(\mathbb{C})$:
\begin{align*}
A&= \begin{pmatrix} -i & -3 \\ 2 & 3 \end{pmatrix}\\
B&= \begin{pmatrix} 2i& 1 \\ 3 & -1 \end{pmatrix}\\
C&= \begin{pmatrix} i & -7 \\ 12 & 7 \end{pmatrix}.
\end{align*}

Demuestra que $A$, $B$ y $C$ son matrices linealmente dependientes. Da una combinación lineal no trivial de ellas que sea igual a $0$.

Solución. Para mostrar que son linealmente dependientes, basta dar la combinación lineal no trivial buscada. Buscamos entonces $a,b,c$ números complejos no cero tales que $aA+bB+cC=O_2$, la matriz cero en $M_2(\mathbb{C})$. Para que se de esta igualdad, es necesario que suceda entrada a entrada. Tenemos entonces el siguiente sistema de ecuaciones:
$$\begin{cases}
-i a + 2i b + ic &= 0\\
-3a + b -7c &=0\\
2a + 3b + 12c &= 0\\
3a -b +7c &=0.
\end{cases}$$

En este sistema de ecuaciones tenemos números complejos, pero se resuelve exactamente de la misma manera que en el caso real. Para ello, llevamos la matriz correspondiente al sistema a su forma escalonada reducida. Comenzamos dividiendo el primer renglón por $-i$ y aplicando transvecciones para hacer el resto de las entradas de la columna iguales a $0$. Luego intercambiamos la tercera y cuarta filas.

\begin{align*}
&\begin{pmatrix}
-i & 2i & i \\
-3 & 1 & -7 \\
2 & 3 & 12 \\
3 & -1 & 7
\end{pmatrix}\\
\to&\begin{pmatrix}
1 & -2 & -1 \\
0 & -5 & -10 \\
0 & 7 & 14 \\
0 & 5 & 10
\end{pmatrix}
\end{align*}

Ahora reescalamos con factor $-\frac{1}{5}$ la segunda fila y hacemos transvecciones para hacer igual a cero el resto de entradas de la columna 2:

\begin{align*}
&\begin{pmatrix}
1 & 0& 3 \\
0 & 1 & 2 \\
0 & 0 & 0 \\
0 & 0 & 0
\end{pmatrix}
\end{align*}

Con esto llegamos a la forma escalonada reducida de la matriz. De acuerdo al procedimiento que discutimos en la entrada de sistemas lineales homogéneos, concluimos que las variables $a$ y $b$ son pivote y la variable $c$ es libre. Para poner a $a$ y $b$ en términos de $c$, usamos la primera y segunda ecuaciones. Nos queda \begin{align*} a &= -3c \\ b &= -2c. \end{align*}

En resumen, concluimos que para cualqueir número complejo $c$ en $\mathbb{C}$ se tiene la combinación lineal $$-3c\begin{pmatrix} -i & -3 \\ 2 & 3 \end{pmatrix} – 2c \begin{pmatrix} 2i& 1 \\ 3 & -1 \end{pmatrix} + c\begin{pmatrix} i & -7 \\ 12 & 7 \end{pmatrix} = \begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}.$$

Una posible combinación lineal no trivial se obtiene tomando $c=1$.

$\square$

En el problema anterior bastaba encontrar una combinación lineal no trivial para acabar el ejercicio. Por supuesto, esto también se puede hacer por prueba y error. Sin embargo, la solución que dimos da una manera sistemática de resolver problemas de este estilo.

Problema. Consideremos el espacio vectorial $V$ de funciones $f:\mathbb{R}\to \mathbb{R}$. Para cada real $a$ en $(0,\infty)$, definimos a la función $f_a\in V$ dada por $$f_a(x)=e^{ax}.$$

Tomemos reales distintos $0<a_1<a_2<\ldots<a_n$. Supongamos que existe una combinación lineal de las funciones $f_{a_1},\ldots,f_{a_n}$ que es igual a $0$, es decir, que existen reales $\alpha_1,\ldots,\alpha_n$ tales que $$\alpha_1 e^{a_1x} + \alpha_2e^{a_2x} + \ldots + \alpha_n e^{a_nx} = 0$$ para todo real $x\geq 0$.

Muestra que $\alpha_1=\ldots=\alpha_n=0$. Concluye que la familia $(f_a)_{a\in \mathbb{R}}$ es linealmente independiente en $V$.

Solución. Procedemos por inducción sobre $n$. Para $n=1$, si tenemos la igualdad $\alpha e^{ax}=0$ para toda $x$, entonces $\alpha=0$, pues $e^{ax}$ siempre es un número positivo. Supongamos ahora que sabemos el resultado para cada que elijamos $n-1$ reales cualesquiera. Probaremos el resultado para $n$ reales cualesquiera.

Supongamos que tenemos la combinación lineal $$\alpha_1 e^{a_1x} + \alpha_2e^{a_2x} + \ldots + \alpha_n e^{a_nx} = 0$$ para todo real $x\geq 0$.

Dividamos esta igualdad que tenemos entre $e^{a_nx}$:

$$\alpha_1 e^{(a_1-a_n)x} + \alpha_2e^{(a_2-a_n)x} + \ldots + \alpha_{n-1}e^{(a_{n-1}-a_n)x}+\alpha_n = 0.$$

¿Qué sucede cuando hacemos $x\to \infty$? Cada uno de los sumandos de la forma $\alpha_i e^{(a_i-a_n)x}$ se hace cero, pues $a_i<a_n$ y entonces el exponente es negativo y se va a $-\infty$. De esta forma, queda la igualdad $\alpha_n=0$. Así, nuestra combinación lineal se ve ahora de la forma $$\alpha_1 e^{a_1x} + \alpha_2e^{a_2x} + \ldots + \alpha_{n-1} e^{a_{n-1}x} = 0.$$

Por la hipótesis inductiva, $\alpha_1=\ldots=\alpha_{n-1}=0$. Como también ya demostramos $\alpha_n=0$, hemos terminado el paso inductivo.

Concluimos que la familia (infinita) $(f_a)_{a\in \mathbb{R}}$ es linealmente independiente en $V$ pues cualquier subconjunto finito de ella es linealmente independiente.

$\square$

El problema anterior muestra que la razón por la cual ciertos objetos son linealmente independientes puede deberse a una propiedad analítica o de cálculo. A veces dependiendo del contexto en el que estemos, hay que usar herramientas de ese contexto para probar afirmaciones de álgebra lineal.

Entradas relacionadas

Agradecimiento

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Lineal I: Problemas de determinantes y ecuaciones lineales

Por Blanca Radillo

Introducción

En esta entrada, realizaremos problemas que nos ayudarán a repasar el tema visto el pasado lunes, sobre soluciones de sistemas lineales, Teorema de Rouché-Capelli y la regla de Cramer.

Problemas de ecuaciones lineales

Una de las maneras más usuales para demostrar que un conjunto de vectores es linealmente independientes es probar que tomamos una combinación lineal de éstos tal que es igual a 0, sólo es posible si todos los coeficientes son igual a cero. Pero como ya lo hemos visto anteriormente en diversos problemas, algunas veces ésto nos genera un sistema de ecuaciones que puede ser difícil y/o tardado resolver.

Por ello, otra manera de demostrar independencia lineal es ilustrada con el siguiente problema.

Problema. Considera los vectores

$v_1=(1,x,0,1), \quad v_2=(0,1,2,1), \quad v_3=(1,1,1,1)$

en $\mathbb{R}^4$. Prueba que para cualquier elección de $x\in\mathbb{R}$, los vectores $v_1,v_2,v_3$ son linealmente independientes.

Solución. Sea $A$ la matriz cuyas columnas son $v_1,v_2,v_3$, es decir,

$A=\begin{pmatrix} 1 & 0 & 1 \\ x & 1 & 1 \\ 0 & 2 & 1 \\ 1 & 1 & 1 \end{pmatrix}.$

Sabemos que $v_1,v_2,v_3$ son linealmente independiente si y sólo si $\text{dim(span}(v_1,v_2,v_3))=3$, ya que $\text{rank}(A)=3$, y eso es equivalente (por la clase del lunes) a demostrar que $A$ tiene una submatriz de $3\times 3$ invertible.

Notemos que si borramos el segundo renglón, obtenemos la submatriz cuyo determinante es

$\begin{vmatrix} 1 & 0 & 1 \\ 0 & 2 & 1 \\ 1 & 1 & 1 \end{vmatrix}=-1,$

lo que implica que es invertible, y por lo tanto $v_1,v_2, v_3$ son vectores linealmente independientes.

$\square$

En este curso, los ejemplos usualmente utilizan espacios vectoriales sobre $\mathbb{R}$ o sobre $\mathbb{C}$. Como $\mathbb{R}\subset \mathbb{C}$, es natural preguntarnos si los resultados obtenidos en los problemas trabajados en $\mathbb{R}$ se cumplen en $\mathbb{C}$. En este caso particular, si las soluciones de una matriz en $M_{m,n}(\mathbb{R})$ son soluciones de la misma matriz pero vista como elemento en $M_{m,n}(\mathbb{C})$. El siguiente teorema nos da el resultado a esta pregunta.

Teorema. Sea $A\in M_{m,n}(F)$ y sea $F_1$ un campo contenido en $F$. Consideremos el sistema lineal $AX=0$. Si el sistema tiene una solución no trivial en $F_1^n$, entonces tiene una solución no trivial en $F^n$.

Demostración. Dado que el sistema tiene una solución no trivial en $F_1^n$, $r:=\text{rank}(A) < n$ vista como elemento en $M_{m,n}(F_1)$. Por el primer teorema visto en la clase del lunes, el rango es el tamaño de la submatriz cuadrada más grande que sea invertible, y eso es independiente si se ve a $A$ como elemento de $M_{m,n}(F_1)$ o de $M_{m,n}(F)$. Y por el teorema de Rouché-Capelli, el conjunto de soluciones al sistema es un subespacio de $F^n$ de dimensión $n-r>0$. Por lo tanto, el sistema $AX=0$ tiene una solución no trivial en $F^n$.

$\square$

A continuación, se mostrarán dos ejemplos de la búsqueda de soluciones a sistemas lineales donde usaremos todas las técnicas aprendidas a lo largo de esta semana.

Problema. Sea $S_a$ el siguiente sistema lineal:

$\begin{matrix} x-2y+z=1 \\ 3x+2y-2z=2 \\ 2x-y+az=3 \end{matrix}.$

Encuentra los valores de $a$ para los cuales el sistema no tiene solución, tiene exactamente una solución y tiene un número infinito de soluciones.

Solución. El sistema lo podemos escribir como $AX=b$ donde

$A=\begin{pmatrix} 1 & -2 & 1 \\ 3 & 2 & -2 \\ 2 & -1 & a \end{pmatrix} \quad \text{y} \quad b=\begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix}.$

Notemos que

$\begin{vmatrix} 1 & -2 & 1 \\ 3 & 2 & -2 \\ 2 & -1 & a \end{vmatrix}=8a-1,$

entonces si $a\neq 1/8$, $A$ es invertible, y por lo tanto $\text{rank}(A)=3$, mientras que si $a=1/8$, $A$ no es invertible y $\text{rank}(A)=2$ ya que la submatriz es invertible

$\begin{vmatrix} 1 & -2 \\ 3 & 2 \end{vmatrix}=8.$

Además, si la matriz $(A,b)$ es igual a

$\begin{pmatrix} 1 & -2 & 1 & 1 \\ 3 & 2 & -2 & 2 \\ 2 & -1 & a & 3 \end{pmatrix},$

quitando la tercera columna, obtenemos una submatriz invertible (ejercicio). Por lo tanto, $\text{rank}(A,b)=3$.

Aplicando el Teorema de Rouché-Capelli, para $a=1/8$, el sistema $AX=b$ no tiene soluciones. También podemos concluir que como $\text{rank}(A)=3$ para todo $a\neq 1/8$, el sistema tiene exactamente una solución. (Y $AX=b$ nunca tiene infinitas soluciones).

$\square$

Problema. Sean $a,b,c$ números reales dados. Resuelve el sistema lineal

$\begin{matrix} (b+c)x+by+cz=1 \\ ax+ (a+c)y+cz=1 \\ ax+by+(a+b)z=1 \end{matrix}.$

Solución. La matriz del sistema es

$A=\begin{pmatrix} b+c & b & c \\ a & a+c & c \\ a & b & a+b \end{pmatrix}.$

No es difícil ver que $\text{det}(A)=4abc$. Si $abc\neq 0$, usando la regla de Cramer, la única solución al sistema está dada por

$x=\frac{\begin{vmatrix} 1 & b & c \\ 1 & a+c & c \\ 1 & b & a+b \end{vmatrix}}{4abc}, \quad y=\frac{\begin{vmatrix} b+c & 1 & c \\ a & 1 & c \\ a & 1 & a+b \end{vmatrix}}{4abc}$

$y=\frac{\begin{vmatrix} b+c & b & 1 \\ a & a+c & 1 \\ a & b & 1 \end{vmatrix}}{4abc},$

resolviendo los determinantes obtenemos que

$x=\frac{a^2 -(b-c)^2}{4abc}, \quad y=\frac{b^2 -(a-c)^2}{4abc}, \quad z=\frac{c^2-(a-b)^2}{4abc}.$

Ahora, si $abc=0$, entonces $A$ no es invertible ($\text{rank}(A)<3$). El sistema es consistente si y sólo si $\text{rank}(A)=\text{rank}(A,b)$.

Sin pérdida de generalidad, decimos que $a=0$ (pues $abc=0$). Esto reduce el sistema a

$\begin{matrix} (b+c)x+by+cz=1 \\ c(y+z)=1 \\ b(y+z)=1 \end{matrix}.$

El sistema es consistente si $b=c$ y distintos de cero. En este caso, tenemos que $b(2x+y+z)=1$ y $b(y+z)=1$, implicando $x=0$, $y+z=1/b$. De manera similar, obtenemos las posibles soluciones si $b=0$ o si $c=0$.

Resumiendo:

  • Si $abc\neq 0$, el sistema tiene una solución única dada por la regla de Cramer.
  • Si tenemos alguno de los siguientes tres casos: caso 1) $a=0$ y $b=c \neq 0$; caso 2) $b=0$ y $a=c\neq 0$; caso 3) $c=0$ y $a=b\neq 0$, tenemos infinitas soluciones descritas como, para todo $w\in \mathbb{R}$: caso 1) $(0,w,1/b-w)$; caso 2) $(w,0,1/a-w)$; caso 3) $(w,1/a-w,0)$.
  • Si no se cumplen ninguno de las cuatro condiciones anteriores para $a,b,c$, el sistema no es consistente.

$\square$

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»