Archivo de la categoría: Matemáticas

Posts de matemáticas, la ciencia más cercana a las artes.

Probabilidad I: Probabilidad Condicional

Por Octavio Daniel Ríos García

Introducción

En la entrada anterior concluimos nuestro estudio de algunos de los enfoques más importantes en la historia de la probabilidad. Más aún, vimos que podemos plasmar estos enfoques en medidas de probabilidad específicas. Sin embargo, estas no son las únicas medidas de probabilidad que existen, ¡hay muchísimas más!

Pasaremos ahora a otro asunto. Dada una medida de probabilidad $\mathbb{P}$, construiremos un nuevo concepto llamado probabilidad condicional. A grandes rasgos, lo que queremos hacer es medir la probabilidad de un evento $B$ condicionando a que otro evento $A$ ya ocurrió. En esencia, lo que queremos es una medida que nos permita capturar el efecto que tiene la información de $A$ sobre la probabilidad de $B$. Sin más preámbulos, veamos cómo lo haremos.

Motivación de la probabilidad condicional

Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad cualquiera, y $A \in \mathscr{F}$ un evento de $\Omega$. Ahora, a partir de $\mathbb{P}$, ¿cómo podríamos construir una medida que exprese la probabilidad de que ocurra un evento $B$ condicionando a que $A$ ya ocurrió?

Para atacar este problema, sea $B \in \mathscr{F}$ un evento cualquiera. Recordando que el evento $B \cap A$ es aquel en donde ocurren $B$ y $A$, así que $\Prob{B \cap A}$ es la probabilidad de que ocurran $B$ y $A$. Sin embargo, esta probabilidad de ocurrencia se calcula con respecto a todos los resultados en $\Omega$, no sólamente sobre aquellos eventos en los que ocurre $A$. Por ejemplo, si los eventos $B$ y $A$ son tales que $\Prob{B \cap A} = 0.1$ y $\Prob{A} = 0.4$, se espera que si observas el fenómeno aleatorio muchas veces, en un $40\%$ de los resultados ocurrirá $A$ y en $10\%$ ocurrirá $B$ y $A$. No obstante, al fijarnos únicamente en aquellos resultados en los que ocurrió $A$, aproximadamente el $\frac{0.1}{0.4} = 0.25 = 25\%$ de ellos corresponde a resultados en los que también ocurrió $B$.

Por ello, es necesario «reescalar» la expresión $\Prob{B \cap A}$ para que efectivamente represente la probabilidad de que ocurra $B$ dado que ya ocurrió $A$, donde $0$ es lo más improbable y $1$ es lo más probable. El reescalamiento se hace con respecto a $A$, que es el conjunto que asumimos que ya ocurrió. Para hacerlo, tomamos el cociente $\frac{\Prob{B \cap A}}{\Prob{A}}$, que captura la idea de restringirnos a los resultados en los que ya ocurrió $A$.

Definición de la probabilidad condicional

Tomando en cuenta la motivación de la sección anterior, se define la probabilidad condicional como sigue.

Definición. Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad. Sea $A \in \mathscr{F}$ un evento tal que $\Prob{A} > 0$. Para cada $B \in \mathscr{F}$ se define $\Prob{B \mid A}$, la probabilidad condicional de $B$ dado $A$, como

\[ \Prob{B \mid A} = \frac{\Prob{B \cap A}}{\Prob{A}}. \]

En la probabilidad condicional, el conjunto $A$ se interpreta como información conocida. Es decir, imagina que tienes ante tí un fenómeno aleatorio con espacio de probabilidad $(\Omega, \mathscr{F}, \mathbb{P})$, y un evento $A \in \mathscr{F}$. Entonces, si ya ocurrió $A$, ¿cómo se ve afectada la probabilidad de algún evento $B$ tomando en cuenta esa información? La respuesta a esa pregunta la obtenemos con la probabilidad condicional de $B$ dado $A$.

Es posible dar una definición para la probabilidad condicional dado un evento de probabilidad $0$. Es decir, puede definirse cuando $\Prob{A} = 0$. Sin embargo, no contamos con las herramientas matemáticas suficientes para hacerlo. No obstante, ¿tiene sentido hacer semejante barbaridad? ¡Resulta que sí! Aún cuando la probabilidad de un evento es $0$, esto no significa que sea imposible que ocurra. Recuerda, cuando un evento tiene probabilidad $0$, quiere decir que su ocurrencia es lo más improbable posible. Aún así, esto no significa «imposible» en todos los casos. Más adelante veremos casos en los que surgen eventos de probabilidad $0$ que sí podrían ocurrir, de manera muy natural.

Una consecuencia inmediata de la definición anterior es que para cualesquiera eventos $A$, $B$ tales que $\Prob{A}$, $\Prob{B} > 0$ se cumple que

\[ \Prob{B \cap A} = \Prob{B \mid A} \Prob{A}, \]

y que

\[ \Prob{A \cap B} = \Prob{A \mid B} \Prob{B}, \]

Y como $\Prob{A \cap B} = \Prob{B \cap A}$ (pues $A \cap B$ y $B \cap A$ son el mismo evento), se tiene que

$\Prob{A \cap B} = \Prob{A \mid B} \Prob{B}$, y
$\Prob{A \cap B} = \Prob{B \mid A} \Prob{A}$.

Este resultado es conocido como la regla multiplicativa.

Ejemplos

Ejemplo. Recordemos que en una baraja estándar de $52$ cartas hay $12$ cartas con ilustración: hay $4$ jotas, reinas y reyes. Imagina que un amigo tuyo revuelve la baraja y tú tomas una carta. Le muestras la carta a tu amigo, y éste te comenta que la carta es un as o una carta con ilustración. ¿Cuál es la probabilidad de que tu carta sea un rey sabiendo esa información?

En primera, $\Omega$ es el conjunto de todas las cartas de una baraja estándar, por lo que $|\Omega| = 52$. Tenemos dos eventos que nos interesan:

$A$: el evento de que la carta extraída sea un rey. En consecuencia, se tiene que \[ A = \{ \mathrm{\textcolor{red}{K\heartsuit}, \textcolor{red}{K\blacklozenge}, K\spadesuit, K\clubsuit}\}. \]
$B$: el evento de que la carta extraída sea un as o una carta con ilustración. Es decir, $B$ es el evento \[ B = \begin{Bmatrix} \textcolor{red}{\mathrm{A\heartsuit}}, & \textcolor{red}{\mathrm{A\blacklozenge}}, & \mathrm{A\spadesuit}, & \mathrm{A\clubsuit}, \\ \textcolor{red}{\mathrm{J\heartsuit}}, & \textcolor{red}{\mathrm{J\blacklozenge}}, & \mathrm{J\spadesuit}, & \mathrm{J\clubsuit}, \\ \textcolor{red}{\mathrm{Q\heartsuit}}, & \textcolor{red}{\mathrm{Q\blacklozenge}}, & \mathrm{Q\spadesuit}, & \mathrm{Q\clubsuit}, \\ \textcolor{red}{\mathrm{K\heartsuit}}, & \textcolor{red}{\mathrm{K\blacklozenge}}, & \mathrm{K\spadesuit}, & \mathrm{K\clubsuit} \end{Bmatrix}. \]

En términos de estos eventos, lo que queremos saber es $\Prob{A \mid B}$. Entonces necesitaremos la probabilidad de $A \cap B$. Por ello, observa que $A \cap B = \{ \mathrm{\textcolor{red}{K\heartsuit}, \textcolor{red}{K\blacklozenge}, K\spadesuit, K\clubsuit } \}$. Además, como se trata de un ejemplo de conteo, asumiremos que se toma la carta de manera equiprobable. Así, se tiene que

\[ \Prob{A \cap B} = \frac{|A \cap B|}{|\Omega|} = \frac{4}{52} = \frac{1}{13},\]

\[ \Prob{B} = \frac{|B|}{|\Omega|} = \frac{16}{52} = \frac{4}{13}.\]

Por lo tanto,

\[ \Prob{A \mid B} = \frac{\Prob{A \cap B}}{\Prob{B}} = \frac{\frac{1}{13}}{\frac{4}{13}} = \frac{1}{4}. \]

En conclusión, la probabilidad de que la carta obtenida sea un rey sabiendo que es un as o una carta con ilustración es $\Prob{A \mid B} = 0.25$.

También habrá ocasiones en las que la probabilidad condicional ya es conocida, y se puede utilizar para el cálculo de otras probabilidades.

Ejemplo. En el refrigerador de una casa hay $8$ latas de refresco y $4$ latas de cerveza. Una persona decide agarrar, sin mirar, una lata para su amiga. Después, vuelve a meter la mano al refrigerador, sin mirar, para tomar una lata para ella misma. Definimos los siguientes eventos:

$A$: La primera selección es una lata de refresco.
$B$: La segunda selección es una lata de refresco.

Podemos utilizar la regla multiplicativa para determinar la probabilidad de que las dos latas elegidas son de refresco. Esto corresponde al evento $A \cap B$, y por la regla multiplicativa:

\[ \Prob{A \cap B} = \Prob{A} \Prob{B \mid A}. \]

Ahora, suponiendo equiprobabilidad, $\Prob{A} = \frac{8}{12} = \frac{2}{3}$, pues hay $8$ latas de refresco y $12$ latas en total. ¿Es posible saber $\Prob{B \mid A}$? ¡Sí! Pues cuando ya se observó $A$, quedan $7$ latas de refresco y $11$ latas en total, así que $\Prob{B \mid A} = \frac{7}{11}$. De este modo, tenemos que

\[ \Prob{A \cap B} = {\left( \frac{2}{3} \right)}{\left( \frac{7}{11} \right)} = \frac{14}{33}. \]

Del mismo modo, podemos obtener la probabilidad de que las dos latas sean de cerveza. Para ello, observa que el evento de que ambas latas sean de cerveza es $A^{\mathsf{c}} \cap B^{\mathsf{c}}$. Así,

\[ \Prob{A^{\mathsf{c}} \cap B^{\mathsf{c}}} = \Prob{A^{\mathsf{c}}} \Prob{B^{\mathsf{c}} \mid A^{\mathsf{c}}}. \]

Observa que $\Prob{A^{\mathsf{c}}} = \frac{4}{12} = \frac{1}{3}$, y que $\Prob{B^{\mathsf{c}} \mid A^{\mathsf{c}}} = \frac{3}{11}$, similar al caso anterior. Por ello, tenemos que

\[ \Prob{A^{\mathsf{c}} \cap B^{\mathsf{c}}} = {\left( \frac{1}{3} \right)}{\left( \frac{3}{11} \right)} = \frac{1}{11}. \]

La probabilidad condicional también puede resultar útil para el cálculo de la probabilidad de un evento. Por ejemplo, ¿cuál será la probabilidad de $B$? Podemos auxiliarnos de la aditividad de una medida de probabilidad, pero para ello debemos de partir a $B$ en pedazos ajenos. Para hacerlo, observa que $B = B \cap \Omega$, sea cual sea el espacio muestral $\Omega$, pues $B \subseteq \Omega$. Además, $\Omega = A \cup A^{\mathsf{c}}$, por lo que

\[ B = B \cap \Omega = B \cap (A \cup A^{\mathsf{c}}) = (B \cap A) \cup (B \cap A^{\mathsf{c}}). \]

Nota que los eventos $B \cap A$ y $B \cap A^{\mathsf{c}}$ son ajenos, por lo que

\[ \Prob{B} = \Prob{ (B \cap A) \cup (B \cap A^{\mathsf{c}}) } = \Prob{B \cap A} + \Prob{B \cap A^{\mathsf{c}}}, \]

y por la regla multiplicativa, obtenemos que

\begin{align*} \Prob{B} &= \Prob{A}\Prob{B \mid A} + \Prob{A^{\mathsf{c}}} \Prob{B \mid A^{\mathsf{c}}} \\ &= {\left( \frac{2}{3} \right)}{\left( \frac{7}{11} \right)} + {\left( \frac{1}{3} \right)}{\left( \frac{8}{11} \right)} \\ &= \frac{14}{33} + \frac{8}{33} \\ &= \frac{22}{33} \\ &= \frac{2}{3}. \end{align*}

El resultado que usamos al final del último ejemplo es muy importante, y es comocido como el teorema de probabilidad total. Lo veremos propiamente (y de manera más general) en una sección posterior.

Ejemplo. Considera el experimento de lanzar un dado $2$ veces consecutivas. En este caso, el espacio muestral $\Omega$ puede verse como

\[ \Omega = \{1,2,3,4,5,6\}^{2} = \begin{Bmatrix} (1,1), & (1,2), & (1,3), & (1,4), & (1,5), & (1,6), \\ (2,1), & (2,2), & (2,3), & (2,4), & (2,5), & (2,6), \\ (3,1), & (3,2), & (3,3), & (3,4), & (3,5), & (3,6), \\ (4,1), & (4,2), & (4,3), & (4,4), & (4,5), & (4,6), \\ (5,1), & (5,2), & (5,3), & (5,4), & (5,5), & (5,6), \\ (6,1), & (6,2), & (6,3), & (6,4), & (6,5), & (6,6) \end{Bmatrix} \]

donde la primera entrada de cada par ordenado es el resultado del primer lanzamiento y la segunda entrada es el resultado del segundo lanzamiento. ¿Cuál será la probabilidad de que la suma de los dos resultados sea mayor a $6$ dado que en el primer lanzamiento se obtuvo un $3$?

Considera los siguientes eventos:

$A$: el evento de que el primer lanzamiento sea un $3$. Esto quiere decir que\[ A = \{ (3,1), (3,2), (3,3), (3,4), (3,5), (3,6) \}. \]
$B$: el evento de que la suma de ambos resultados sea mayor a $6$. Primero, podemos escribir a $B$ como\[ B = \{ (x,y) \in \Omega \mid x + y > 6 \}. \] Explícitamente, los elementos de $B$ son\[ B = \begin{Bmatrix} (1,6), & (2,5), & (2,6), & (3,4), & (3,5), & (3,6), & (4,3), \\ (4,4), & (4,5), & (4,6), & (5,2), & (5,3), & (5,4), & (5,5), \\ (5,6), & (6,1), & (6,2), & (6,3), & (6,4), & (6,5), & (6,6) \end{Bmatrix},\]que son precisamente todos los pares ordenados en $\Omega$ cuyas entradas suman más de $6$.

Así, la probabilidad que queremos obtener es $\Prob{B \mid A}$. En este ejemplo no hemos especificado una medida de probabilidad, así que asumiremos equiprobabilidad. Por ello, el cálculo de $\Prob{A}$ y $\Prob{B}$ es muy sencillo en este caso. Para $A$ tenemos que

\begin{align*} \Prob{A} &= \frac{|A|}{|\Omega|} = \frac{6}{36} = \frac{1}{6}. \end{align*}

Por otro lado, para $B$ se tiene que

\begin{align*} \Prob{B} &= \frac{|B|}{|\Omega|} = \frac{21}{36} =\frac{7}{12}. \end{align*}

Además, para calcular $\Prob{B \mid A}$ necesitamos $\Prob{A \cap B}$. Realizando esta intersección obtenemos que $A \cap B$ es

\begin{align*} A \cap B &= \{(3,4), (3,5), (3,6) \}, \end{align*}

por lo que $\Prob{A \cap B} = \frac{3}{36} = \frac{1}{12}$. En consecuencia, tenemos que

\begin{align*} \Prob{B \mid A} &= \frac{\Prob{A \cap B}}{\Prob{B}} = \frac{\frac{1}{12}}{\frac{1}{6}} = \frac{6}{12} = \frac{1}{2}. \end{align*}

Es decir, la probabilidad de que la suma de los dos resultados sea mayor a $6$ sabiendo que el primer lanzamiento fue un $3$ es de $0.5$. En contraste, la probabilidad (sin condicionar) de que la suma de los dos resultados sea mayor a $6$ es $\frac{7}{12} = 0.5833\ldots$

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

Sea $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad, y sea $A \in \mathscr{F}$ un evento tal que $\Prob{A} > 0$. Demuestra que la probabilidad condicional dado $A$ es una medida de probabilidad. Es decir, demuestra que la función $\mathbb{P}_{A}\colon \mathscr{F} \rightarrow \RR$ dada por: \[ \mathbb{P}_{A}(B) = \Prob{B \mid A}, \]para cada $B \in \mathscr{F}$, es una medida de probabilidad. Sugerencia: Usa la definición de $\Prob{B \mid A}$ y aprovecha que $\mathbb{P}$ es una medida de probabilidad.
Repite lo que hicimos en el ejemplo de las latas en el refrigerador, pero asumiendo que hay $7$ latas de refresco y $3$ latas de cerveza.
En el ejemplo de lanzar un dado $2$ veces, obtén la probabilidad de que la suma de los dos resultados sea mayor a $7$ dado que en le primer lanzamiento se obtuvo $2$ o $3$.
Dados dos eventos $A$, $B$ con $\Prob{A}$, $\Prob{B} > 0$, ¿siempre es cierto que $\Prob{A \mid B} = \Prob{B \mid A}$? Si crees sí, demuéstralo; si crees que no, exhibe un contraejemplo.

Más adelante…

La probabilidad condicional resulta una herramienta fundamental en la teoría de la probabilidad. Habrá ejemplos y ejercicios (y, por consiguiente, aplicaciones) en los que la información que se te da está en términos de condicionales. Más adelante veremos algunas fórmulas que permiten calcular la probabilidad de eventos haciendo uso de probabilidades condicionales.

En la siguiente entrada veremos un concepto que está cercanamente relacionado con la probabilidad condicional: la noción de independencia de eventos.

Entradas relacionadas

Ir a Probabilidad I
Entrada anterior del curso: La Probabilidad Clásica
Siguiente entrada del curso: Independencia de Eventos

Probabilidad I: La Probabilidad Clásica

Por Octavio Daniel Ríos García

Deja un comentario

Introducción

En la entrada anterior concluimos nuestro estudio de los principios de conteo. Estos principios resultan muy útiles para el cálculo de cardinalidades de conjuntos. Además, la medida de probabilidad que veremos en esta entrada requiere precisamente de cardinalidades de conjuntos para ser calculada. Por ello, los principios de conteo que vimos serán cruciales para el cálculo de probabilidades bajo este enfoque.

Lo que veremos en esta entrada es el enfoque clásico de la probabilidad. A grandes rasgos, este enfoque centra su atención en la cantidad de resultados posibles de un experimento; es decir, la cardinalidad de su espacio muestral. A su vez, dado algún evento de ese espacio muestral, el enfoque clásico establecerá la probabilidad de ese evento es proporcional a su cardinalidad con respecto a la cardinalidad del espacio muestral. Esto significa que bajo el enfoque clásico, el espacio de probabilidad es equiprobable. Veamos qué queremos decir por esto.

Motivación

Ya vimos que en el enfoque frecuentista se propone que la medida de probabilidad debe de representar la «frecuencia relativa» de un evento. Por ello, en la definición de la medida de probabilidad frecuentista de un evento $A$ se toma el límite al infinito de la frecuencia relativa de $A$.

Continuando con nuestro paseo por los enfoques más importantes de la probabilidad, sigue el caso de la probabilidad clásica. En este caso partiremos de un enfoque distinto del frecuentista. Para empezar, motivaremos este enfoque con un ejemplo. Supón que nos interesa modelar el resultado de revolver una baraja inglesa y tomar $4$ cartas, sin reemplazo. Esta actividad se considera un experimento aleatorio pues se revuelve la baraja antes de tomar las $4$ cartas. Podemos representar a una baraja estándar como el conjunto

\begin{align*} \mathfrak{B} = \begin{Bmatrix} \textcolor{red}{\mathrm{A}\heartsuit}, & \textcolor{red}{1\heartsuit}, & \textcolor{red}{2\heartsuit}, & \textcolor{red}{3\heartsuit}, & \textcolor{red}{4\heartsuit}, & \textcolor{red}{5\heartsuit}, & \textcolor{red}{6\heartsuit}, & \textcolor{red}{7\heartsuit}, & \textcolor{red}{8\heartsuit}, & \textcolor{red}{9\heartsuit}, & \textcolor{red}{10\heartsuit}, & \textcolor{red}{\mathrm{J}\heartsuit}, & \textcolor{red}{\mathrm{Q}\heartsuit}, & \textcolor{red}{\mathrm{K}\heartsuit}, \\ \textcolor{red}{\mathrm{A}\blacklozenge}, & \textcolor{red}{1\blacklozenge}, & \textcolor{red}{2\blacklozenge}, & \textcolor{red}{3\blacklozenge}, & \textcolor{red}{4\blacklozenge}, & \textcolor{red}{5\blacklozenge}, & \textcolor{red}{6\blacklozenge}, & \textcolor{red}{7\blacklozenge}, & \textcolor{red}{8\blacklozenge}, & \textcolor{red}{9\blacklozenge}, & \textcolor{red}{10\blacklozenge}, & \textcolor{red}{\mathrm{J}\blacklozenge}, & \textcolor{red}{\mathrm{Q}\blacklozenge}, & \textcolor{red}{\mathrm{K}\blacklozenge}, \\ \mathrm{A}\spadesuit, & 1\spadesuit, & 2\spadesuit, & 3\spadesuit, & 4\spadesuit, & 5\spadesuit, & 6\spadesuit, & 7\spadesuit, & 8\spadesuit, & 9\spadesuit, & 10\spadesuit, & \mathrm{J}\spadesuit, & \mathrm{Q}\spadesuit, & \mathrm{K}\spadesuit, \\ \mathrm{A}\clubsuit, & 1\clubsuit, & 2\clubsuit, & 3\clubsuit, & 4\clubsuit, & 5\clubsuit, & 6\clubsuit, & 7\clubsuit, & 8\clubsuit, & 9\clubsuit, & 10\clubsuit, & \mathrm{J}\clubsuit, & \mathrm{Q}\clubsuit, & \mathrm{K}\clubsuit \end{Bmatrix} \end{align*}

donde cada elemento representa a cada uno de los elementos de la baraja. Por ejemplo, el elemento $\textcolor{red}{9\blacklozenge}$ es el $9$ de diamantes, $\mathrm{Q}\clubsuit$ es la reina de tréboles, $\mathrm{K}\spadesuit$ es el rey de espadas y $\textcolor{red}{\mathrm{J}\heartsuit}$ es la jota de corazones.

¡Atención! El conjunto $\mathfrak{B}$ no es el espacio muestral de nuestro experimento. Recuerda que el espacio muestral de un experimento aleatorio es el conjunto de todos sus posibles resultados. Así, como nuestro experimento consiste en extraer 4 cartas de una baraja revuelta, los elementos del espacio muestral debieran de ser manos de 4 cartas. Además, no importa el orden en el que tomemos las cartas, la mano resultante es la misma.

Por ello, las manos resultantes en este experimento pueden verse como subconjuntos de $\mathfrak{B}$. Por ejemplo, supón que $4$ cartas y te salen $6\clubsuit$, $\textcolor{red}{9\blacklozenge}$, $\mathrm{K}\clubsuit$ y $\textcolor{red}{8\heartsuit}$. El resultado del experimento en esta situación fue ${6\clubsuit, \textcolor{red}{9\blacklozenge}, \mathrm{K}\clubsuit, \textcolor{red}{8\heartsuit}}$, pues en un conjunto no importa el orden. Además, observa que el resultado tiene cardinalidad $4$. En consecuencia, podemos tomar al espacio muestral como

\[ \Omega = \{ M \in \mathscr{P}(\mathfrak{B}) \mid |M| = 4 \}. \]

Es decir, el espacio muestral $\Omega$ de este experimento es el conjunto de todos los subconjuntos de la baraja que tienen $4$ cartas. Como $\mathfrak{B}$ es un conjunto finito (se cumple que $|\mathfrak{B}|=52$), también $\Omega$ es un conjunto finito. De hecho, se cumple que $|\Omega| = {52 \choose 4} = 270{,}725$, pues hay ${52 \choose 4}$ combinaciones de tamaño $4$ de las $52$ cartas. Podemos tomar como σ-álgebra a $\mathscr{P}(\Omega)$, que siempre es un σ-álgebra.

Ahora, ¿qué probabilidad le asignamos a cada evento de $\Omega$? Por ejemplo, ¿cuál es la probabilidad de que en las $4$ cartas que tomamos no haya tréboles? Un posible resultado de este tipo es que las $4$ cartas que nos salgan sean $\{ \textcolor{red}{\mathrm{J}\heartsuit}, 10\spadesuit, \textcolor{red}{9\blacklozenge}, 5\spadesuit \}$. Para hacerlo, el enfoque clásico propone lo siguiente:

La probabilidad de un evento es la proporción entre el número de casos favorables a este, y el número de casos totales del experimento.

Esta hipótesis es conocida como equiprobabilidad. Así, para obtener la probabilidad de que en las $4$ cartas que tomemos no haya tréboles, debemos de obtener cuántas manos de $4$ cartas sin tréboles hay. Para ello, observa que en la baraja hay $13$ cartas que son tréboles. Por tanto, la combinación de cartas de nuestro evento está restringida a las $39$ cartas que no son tréboles. En consecuencia, hay ${39 \choose 4} = 82{,}251$ manos de $4$ cartas sin tréboles, pues hay ${39 \choose 4}$ combinaciones de tamaño $4$ de las $39$ cartas que no son tréboles. Así, desde el enfoque clásico de la probabilidad, la probabilidad de que en las $4$ cartas que tomemos no haya tréboles es

\[ \frac{\text{Número de casos favorables}}{\text{Número de casos totales}} = \frac{{39 \choose 4}}{{52 \choose 4}} = \frac{82{,}251}{270{,}725} \]

Definición de una medida equiprobable

De acuerdo con la motivación expuesta en la sección anterior, presentamos la definición formal de un espacio equiprobable. Esta definición resume las ideas del enfoque clásico de la probabilidad.

Definición. Sea $\Omega$ un conjunto finito. Definimos a $\mathbb{P}\colon \mathscr{P}(\Omega) \rightarrow \mathbb{R}$, la medida de probabilidad clásica, como sigue. Para cada $A \in \mathscr{P}(\Omega)$, se define la probabilidad de $A$ como

\[ \Prob{A} = \frac{|A|}{|\Omega|}. \]

Un espacio de probabilidad $(\Omega, \mathscr{F}, \mathbb{P})$ con esta medida de probabilidad es conocido como un espacio equiprobable.

De acuerdo con la definición anterior, el enfoque clásico de la probabilidad tiene dos hipótesis importantes sobre el fenómeno aleatorio que se intenta describir:

Primero, que $\Omega$ el espacio muestral del fenómeno es finito.
Segundo, que se trata de un espacio equiprobable. Esto es, que si el fenómeno tiene $|\Omega|$ resultados posibles, entonces cada uno tiene una probabilidad de ocurrencia igual a $\frac{1}{|\Omega|}$.

En particular, el segundo supuesto puede ser problemático. ¿Qué nos asegura que al revolver la baraja del último ejemplo obtenemos efectivamente un espacio equiprobable? Hay que tener cuidado con esto, ya que es un supuesto muy fuerte que no necesariamente se cumple.

Importante. En la literatura referente a la probabilidad, es común encontrar la expresión «al azar» en la forma de «se escoge un estudiante del grupo al azar», o «se escoge(n) una(s) carta(s) de la baraja al azar». Sin embargo, no existe una manera única de hacer una tarea «al azar», ya que hay muchísimas medidas de probabilidad, así que podría resultar ambiguo. Por ello, es común que la expresión «al azar» se refiera a asumir que el espacio es equiprobable, a menos que se indique lo contraro.

Ejemplos con el enfoque clásico

Ejemplo 1. En una encuesta a 120 comensales, un restaurante encontró que $48$ personas consumen vino con sus alimentos, $78$ consumen refresco, y $66$ consumen té helado. Además, se encontró que $36$ personas consumieron cada par de bebidas con sus alimentos. Es decir, $36$ personas consumieron vino y refresco; $36$ consumieron vino y té helado; etcétera. Finalmente, el último hallazgo fue que $24$ personas consumieron todas las bebidas.

Si se eligen $2$ comensales al azar, de manera equiprobable, de este grupo de $120$, cuál es la probabilidad de que

ambos quieran únicamente té helado con sus alimentos? (Evento $A$)
ambos consuman exactamente dos de las tres opciones de bebidas? (Evento $B$)

Utilizando la información provista por la encuesta, podemos construir el siguiente diagrama de Venn-Euler:

**Figura.** Diagrama que representa los conjuntos de personas dentro de la encuesta. $U$ es la muestra de $120$ personas, $V$ son las que consumieron **vino**, $T$ las que consumieron **té helado**, y $R$ las que consumieron **refresco**.

Sin embargo, nota que nuestro espacio muestral no es $U$, porque lo que hacemos es tomar dos personas al azar. Por ello, el espacio muestral $\Omega$ consiste de todos los pares de comensales que se pueden elegir de la muestra de $120$. Por ello, $|\Omega| = \binom{120}{2} = 7140$. Por otro lado, el diagrama nos dice que hay $18$ comensales que consumieron únicamente té helado con sus alimentos. Por ello, el número de pares de comensales que consumieron únicamente té helado es $\binom{18}{2}$. Esto quiere decir que $|A| = \binom{18}{2} = 153$. En consecuencia,

\begin{align*} \Prob{A} &= \frac{|A|}{|\Omega|} = \frac{153}{7140} \approx 0.02143. \end{align*}

Esto es, la probabilidad de que las dos personas escogidas consuman únicamente té helado es aproximadamente $2.143\%$.

Ejemplo 2. Sea $X = \{1,2,3,\ldots,99,100\}$. Imagina que seleccionamos $2$ elementos de $X$ al azar, sin reemplazo. ¿Cuál será la probabilidad de que la suma de esos dos números sea par?

Para encontrar esta probabilidad, primero hay que plantear nuestro espacio muestral y el evento cuya probabilidad queremos. Lo que hacemos es seleccionar $2$ elementos de $X$ sin reemplazo, así que nuestro espacio muestral $\Omega$ debe de tener pares de números. Sin embargo, nota que son pares en los que no importa el orden, pues elegir los números $14$ y $73$ es lo mismo que escoger los números $73$ y $14$. Por ello, $\Omega$ es el conjunto de subconjuntos de $X$ que tienen exactamente dos elementos. Esto es,

\begin{align*} \Omega &= \{ A \in \mathscr{P}(X) \mid |A| = 2 \}. \end{align*}

En consecuencia, tenemos que $|\Omega| = \binom{100}{2} = 4950$. Ahora, queremos la probabilidad del evento de que la suma de los $2$ números escogidos sea par. Es decir, buscamos la probabilidad de \mathcal{B} definido como

\begin{align*} \mathcal{B} &= \{ \{a, b\} \in \Omega \mid \text{$a + b$ es par} \}. \end{align*}

Sin embargo, no parece haber una forma inmediata de calcular $|\mathcal{B}|$, con lo que podríamos calcular $\Prob{\mathcal{B}}$. No obstante, podemos descomponer a $|\mathcal{B}|$ en dos conjuntos cuya cardinalidad sí es posible calcular. Para ello, observa que los elementos de $X$ pueden ser pares o impares, sin otra opción. En consecuencia, hay $3$ casos posibles al elegir $2$ elementos de $X$. Sea $A = \{a, b\} \in \Omega$. Entonces puede pasar que

$a$ y $b$ son ambos pares. Es decir, existen $p, q \in \mathbb{Z}$ tales que $a = 2p$ y $b = 2q$. En consecuencia, $a + b = 2p + 2q = 2(p + q)$. En conclusión, si $a$ y $b$ son pares, entonces $a + b$ es par.
$a$ es par y $b$ es impar (y viceversa). En este caso, existen $p, q \in \mathbb{Z}$ tales que $a = 2p$ y $b = 2q + 1$. Por ello, $a + b = 2p + 2q + 1 = 2(p+q) + 1$. Por lo tanto, si $a$ es par y $b$ es impar, entonces $a + b$ es impar.
$a$ y $b$ son impares. Esto implica que existen $p, q \in \mathbb{Z}$ tales que $a = 2p + 1$ y $b = 2q + 1$. Por tanto, $a + b = 2p + 1 + 2q + 1 = 2(p+q+ 1)$. Así, si $a$ y $b$ son impares, entonces $a+b$ es impar.

De este modo, tenemos que $\mathcal{B}$ se puede descomponer en la unión de dos eventos:

$\mathcal{E}_{1}$ : El evento de que los dos números escogidos sean pares:\begin{align*}\mathcal{E}_{1} = \{\{a, b\} \in \Omega \mid \text{$a, b$ son pares}\}.\end{align*}
$\mathcal{E}_{2}$ : El evento de que los dos números escogidos sean impares:\begin{align*}\mathcal{E}_{2} = \{\{a, b\} \in \Omega \mid \text{$a, b$ son impares}\}.\end{align*}

Como en $X$ hay $50$ pares y $50$ impares, se tiene que $|\mathcal{E}_{1}| = |\mathcal{E}_{2}| = \binom{50}{2} = 1225$. Además, observa que $\mathcal{E}_{1} \cup \mathcal{E}_{2} = \mathcal{B}$, y que además son eventos ajenos. En consecuencia,

\begin{align*}|\mathcal{B}| &= | \mathcal{E}_{1} \cup \mathcal{E}_{2} | = | \mathcal{E}_{1} | + | \mathcal{E}_{2} | = \binom{50}{2} + \binom{50}{2} = 2450.\end{align*}

Finalmente, con esta información podemos calcular $\Prob{\mathcal{B}}$. En efecto,

\begin{align*} \Prob{ \mathcal{B}} &= \frac{|\mathcal{B}|}{|\Omega|} = \frac{2450}{4950} = \frac{49}{99} = 0.4949494949\ldots \end{align*}

Un consejo: En los problemas donde se utiliza la probabilidad clásica (es decir, se asume equiprobabilidad en un espacio finito), es recomendable que dejes el cálculo de las probabilidades hasta el final. Realmente el meollo de estos problemas es contar la cantidad de resultados que tiene el espacio muestral $\Omega$, así como el número de resultados que tiene un evento $A$. Por ello, centra tu atención en esos cálculos antes de calcular probabilidades.

Tarea moral

Demuestra que la medida de probabilidad clásica es una medida de probabilidad.
En el ejemplo de la encuesta a los comensales, verifica que
1. los números en el diagrama de Venn-Euler son las cardinalidades correctas.
2. la probabilidad del evento $B$ es $3/34 \approx 0.08824$.
Usando el conjunto $X = \{1,2,\ldots,99,100\}$ del Ejemplo 2, si se eligen 3 elementos de $X$ al azar y sin reemplazo, ¿cuál es la probabilidad de que la suma de estos 3 números sea par? Sugerencia: Procede de manera similar a como hicimos aquí, y obtén los casos en los que la suma de los $3$ números resulta en un número par.

Más adelante…

Esta entrada concluye nuestro estudio de los tres enfoques que contempla el temario de la Facultad de Ciencias para Probabilidad I. Es importante entender que los enfoques (o interpretaciones) de la probabilidad que hemos visto tienen gran importancia histórica. Sin embargo, pueden ser escritos matemáticamente a través de las herramientas que construimos al principio, que conforman el enfoque más moderno de este curso: la probabilidad axiomática. Es conocida de esta manera pues se parte de ciertos objetos matemáticos que satisfacen ciertas reglas (conocidas como axiomas). Este enfoque axiomático, que rige sobre el contenido de estas notas, se atribuye al matemático ruso Andrey Nikolaevich Kolmogorov. Además, es un enfoque flexible que nos ha permitido revisar los enfoques históricos de la probabilidad como casos particulares dentro de la teoría que hemos desarrollado.

Si te interesa saber más sobre la historia de la probabilidad, el libro Introducción a la Teoría de la Probabilidad, Vol. I, del Dr. Miguel Ángel García Álvarez tiene una sección no muy larga dedicada al panorama histórico de esta rama de las matemáticas. Además, al final de esta sección incluye varias referencias de matemáticos de suma importancia en el desarrollo de la probabilidad, como Bernoulli y Laplace, o el mismo Kolmogorov.

Entradas relacionadas

Ir a Probabilidad I
Entrada anterior del curso: Principios de Conteo 3 – Combinaciones
Siguiente entrada del curso: Probabilidad Condicional

Ecuaciones Diferenciales I: Teorema de existencia y unicidad para sistemas de ecuaciones diferenciales de primer orden

Por Omar González Franco

Deja un comentario

Tema optativo

El gran arquitecto parece ser un matemático; a aquellos que no saben matemáticas
les resulta realmente difícil sentir la profunda belleza de la naturaleza.
– Richard Feynman

Introducción

¡Hemos llegado al final de la unidad 3 del curso!.

Concluiremos presentando el teorema de existencia y unicidad para sistemas de ecuaciones diferenciales de primer orden en el caso general.

En la primera entrada de esta unidad enunciamos el teorema de existencia y unicidad en el caso general, en esta entrada retomaremos dicho teorema con la diferencia de que lo adaptaremos a la notación vectorial que ya conocemos ya que esto tiene una enorme ventaja al momento de hacer la demostración.

La demostración de este teorema, al igual que el teorema de Picard – Lindelöf, requiere de una extensa teoría preliminar. En este caso no demostraremos dicha teoría preliminar, sólo la justificaremos ya que una enorme ventaja que tenemos es que mucho de los que vimos en la primer unidad se puede extender a los sistemas de ecuaciones diferenciales, así que lo que haremos será desarrollar esta extensión generalizando los resultados para así demostrar el teorema.

Se recomienda, si lo crees necesario, revisar las tres últimas entradas de la primera unidad para recordar la teoría previa a la demostración del teorema de Picard – Lindelöf, así como la demostración misma.

Comencemos por construir el enunciado del teorema.

Teorema de existencia y unicidad para sistemas de ecuaciones diferenciales

Como vimos en la primer entrada de esta unidad, un sistema de ecuaciones diferenciales de primer orden en su forma general es de la forma

\begin{align*}
y_{1}^{\prime}(t) & = F_{1}(t, y_{1}, y_{2}, \cdots, y_{n}) \\
y_{2}^{\prime}(t) & = F_{2}(t, y_{1}, y_{2}, \cdots, y_{n}) \\
& \vdots \\
y_{n}^{\prime}(t) &= F_{n}(t, y_{1}, y_{2}, \cdots, y_{n}) \label{1} \tag{1}
\end{align*}

Donde las $F_{i}$, $i = 1, 2, 3, \cdots, n$ son funciones con valores reales que dependen de las $n + 1$ variables en un intervalo $\delta$. Sabemos que

$$\mathbf{Y}(t) = \begin{pmatrix}
y_{1}(t) \\ y_{2}(t) \\ \vdots \\ y_{n}(t)
\end{pmatrix} \hspace{1cm} y \hspace{1cm} \mathbf{Y}^{\prime}(t) = \begin{pmatrix}
y^{\prime}_{1}(t) \\ y^{\prime}_{2}(t) \\ \vdots \\ y^{\prime}_{n}(t)
\end{pmatrix} \label{2} \tag{2}$$

Con ayuda de estos vectores podemos definir el vector

$$\mathbf{F}(t, \mathbf{Y}(t)) = \begin{pmatrix}
F_{1}(t, y_{1}, y_{2}, \cdots, y_{n}) \\ F_{2}(t, y_{1}, y_{2}, \cdots, y_{n}) \\ \vdots \\ F_{n}(t, y_{1}, y_{2}, \cdots, y_{n})
\end{pmatrix} \label{3} \tag{3}$$

De manera que el sistema de ecuaciones diferenciales (\ref{1}) se puede escribir en forma vectorial como

$$\mathbf{Y}^{\prime}(t) = \mathbf{F}(t, \mathbf{Y}(t)) \label{4} \tag{4}$$

Si el sistema de ecuaciones diferenciales (\ref{4}) esta sujeto a valores iniciales

$$\mathbf{Y}(t_{0}) = \begin{pmatrix}
y_{1}(t_{0}) \\ y_{2}(t_{0}) \\ \vdots \\ y_{n}(t_{0})
\end{pmatrix} = \begin{pmatrix}
b_{1} \\ b_{2} \\ \vdots \\ b_{n}
\end{pmatrix} = \mathbf{Y}_{0} \label{5} \tag{5}$$

con $b_{i}$, $i = 1, 2, \cdots, n$ constantes, entonces tenemos un problema de valores iniciales (PVI).

Definamos, por otro lado, una región $U$ como el producto cartesiano

$$\delta \times \delta_{1} \times \delta_{2} \times \delta_{3} \times \cdots \times \delta_{n} = U \in \mathbb{R}^{n + 1} \label{6} \tag{6}$$

en donde

$$t_{0} \in \delta, \hspace{0.5cm} b_{1} \in \delta_{1}, \hspace{0.5cm} b_{2} \in \delta_{2}, \hspace{0.5cm} \cdots, \hspace{0.5cm} b_{n} \in \delta_{n}$$

de tal forma que $(t_{0}, b_{1}, b_{2}, \cdots, b_{n}) \in U$, es decir, $\mathbf{Y}(t_{0}) = \mathbf{Y}_{0} \in U$.

Con estos resultados, el teorema de existencia y unicidad para sistemas de ecuaciones diferenciales de primer orden se puede enunciar de la siguiente forma.

Teorema: Sea el problema de valores iniciales
$$\mathbf{Y}^{\prime}(t) = \mathbf{F}(t, \mathbf{Y}(t)), \hspace{1cm} \mathbf{Y}(t_{0}) = \mathbf{Y}_{0} \label{7} \tag{7}$$ Con $t_{0} \in \delta$. Supongamos que $\forall$ $i,j \in \{1, 2, 3, \cdots, n\}$, $F_{i}$ y $\dfrac{\partial F_{i}}{\partial y_{j}}$ existen y son continuas en $(t, \mathbf{Y}(t)) \in U$. Entonces existe un intervalo $|t -t_{0}| < h$, tal que existe una única solución $\mathbf{Y}(t)$ del problema de valores iniciales.

Este es el teorema que demostraremos.

Ecuación integral equivalente a un PVI

Como lo hicimos con el teorema de Picard – Lindelöf, es posible mostrar que el problema de valores iniciales (\ref{7}) es equivalente a una ecuación integral. El siguiente teorema establece este resultado.

Teorema: Sea $\mathbf{F}(t, \mathbf{Y}(t))$ continua en un dominio $R \subseteq \mathbb{R}^{n + 1}$ que contenga a $(t_{0}, \mathbf{Y}_{0})$, entonces $\mathbf{Y}(t)$ es solución del problema de valores iniciales (\ref{7}) si y sólo si es solución de la ecuación integral
$$\mathbf{Y}(t) = \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}(s)) ds \label{8} \tag{8}$$

La demostración es bastante similar a la que realizamos para el caso de ecuaciones diferenciales de primer orden. Intenta hacer la demostración. A continuación presentaremos una justificación que te puede ser de ayuda en tu demostración formal.

Justificación: Consideremos el sistema

$$\mathbf{Y}^{\prime}(t) = \mathbf{F}(t, \mathbf{Y}(t))$$

Integremos de $t_{0}$ a $t$.

$$\int_{t_{0}}^{t} \mathbf{Y}^{\prime}(s) ds = \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}(s)) ds \label{9} \tag{9}$$

Apliquemos el teorema fundamental del cálculo.

$$\mathbf{Y}(t) -\mathbf{Y}(t_{0}) = \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}(s))ds \label{10} \tag{10}$$

Como $\mathbf{Y}(t_{0}) = \mathbf{Y}_{0}$, del resultado anterior se obtiene la ecuación integral (\ref{8})

$$\mathbf{Y}(t) = \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}(s))ds$$

$\square$

Este es nuestro primer resultado generalizado. Lo siguiente que haremos será generalizar las iteraciones (o iterantes) de Picard.

Iterantes de Picard

Definición: Sea el problema de valores iniciales
$$\mathbf{Y}^{\prime}(t) = \mathbf{F}(t, \mathbf{Y}(t)), \hspace{1cm} \mathbf{Y}(t_{0}) = \mathbf{Y}_{0}$$ con solución única en alguna región $U$, dicha solución se puede construir de forma iterativa de acuerdo a la expresión
$$\mathbf{Y}_{n}(t) = \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}_{n -1}(s))ds, \hspace{1cm} n = 1, 2, 3, \cdots \label{11} \tag{11}$$ En donde se define $\mathbf{Y}_{0}(t) = \mathbf{Y}_{0}$. Estas iteraciones son las llamadas iterantes de Picard.

En su forma desglosada las iterantes de Picard se pueden escribir como

\begin{align*}
\mathbf{Y}_{0}(t) &= \mathbf{Y}_{0} \\
\mathbf{Y}_{1}(t) &= \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}_{0}(s))ds \\
\mathbf{Y}_{2}(t) &= \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}_{1}(s)) ds \\
\mathbf{Y}_{3}(t) &= \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}_{2}(s)) ds \\
\vdots \\
\mathbf{Y}_{n}(t) &= \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}_{n -1}(s))ds \label{12} \tag{12}
\end{align*}

Lo interesante de las iterantes de Picard es que, cumpliendo ciertas hipótesis, éstas convergen a la solución del PVI (\ref{7}). El siguiente teorema nos ayudará a mostrar este hecho.

Teorema: Sea $\{ \mathbf{Y}_{n}(t) \}$ con $n \in \mathbb{N}$, una sucesión de funciones que converge uniformemente a una función $\mathbf{Y}(t)$ en el intervalo $\delta = [a, b]$ y sea $\mathbf{F}(t, \mathbf{Y}(t))$ una función continua en un dominio $U \subseteq \mathbb{R}^{n + 1}$, tal que $\forall$ $t \in \delta$, $\forall$ $n \in \mathbb{N}$, $(t,\mathbf{Y}_{n}(t)) \in U$, entonces
$$\lim_{n \to \infty} \int_{a}^{b} \mathbf{F}(t, \mathbf{Y}_{n}(t)) dt = \int_{a}^{b} \lim_{n \to \infty} \mathbf{F}(t, \mathbf{Y}_{n}(t)) dt = \int_{a}^{b} \mathbf{F}(t, \mathbf{Y}(t)) dt \label{13} \tag{13}$$

La demostración para el caso de ecuaciones de primer orden la hicimos como parte de la demostración del teorema de Picard – Lindelöf. Intenta generalizar dicha demostración.

Consideremos cierto este teorema, notemos lo siguiente.

Sea $\{ \mathbf{Y}_{n}(t) \}$ una sucesión de iteraciones de Picard que convergen uniformemente a una función $\mathbf{Y}(t)$ en el intervalo $\delta$ y sea $\mathbf{F}(t, \mathbf{Y}(t))$ una función continua en $U \subseteq \mathbb{R}^{n + 1}$, tal que $\forall$ $t \in \delta$ y $\forall$ $n \in \mathbb{N}$, $(t,\mathbf{Y}_{n}(t)) \in U$, entonces

\begin{align*}
\mathbf{Y}(t) &= \lim_{n \to \infty} \mathbf{Y}_{n}(t) \\
&= \lim_{n \to \infty } \left( \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}_{n -1}(s)) ds \right ) \\
&= \mathbf{Y}_{0} + \int_{t_{0}}^{t} \lim_{n \to \infty} \mathbf{F}(s, \mathbf{Y}_{n -1}(s)) ds
\end{align*}

Usando (\ref{13}) se obtiene la ecuación integral (\ref{8}).

$$\mathbf{Y}(t) = \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}(s)) ds$$

Con este resultado mostramos que si se satisfacen las hipótesis del teorema anterior, entonces la función a la que convergen las iteraciones de Picard satisface la ecuación integral (\ref{8}), lo que es equivalente a que dicha función sea solución del PVI (\ref{7}).

Ahora bien, para que las iterantes de Picard converjan a la solución del PVI (\ref{7}) deben satisfacer las hipótesis del teorema anterior por lo que es necesario que exista un dominio $U$ en el que $(t,\mathbf{Y}_{n}(t)) \in U$ y en el que la sucesión de iteraciones $\{ \mathbf{Y}_{n}(t) \}$ converja. Debemos encontrar este dominio, para hacerlo generalicemos algunos resultados más.

Funciones Lipschitzianas

Un primer resultado que usaremos es el siguiente.

Teorema: Supongamos que $\mathbf{F}(t, \mathbf{Y}(t))$ es una función continua en una región $R \in \mathbb{R}^{n + 1}$, tal que $|t -t_{0}| \leq a$ y $\left\|\mathbf{Y}(t) -\mathbf{Y}_{0} \right\| \leq b$ y sea $I$ un intervalo en $\mathbb{R}$ definido como
$$I = \{ t \in \mathbb{R} : |t -t_{0}|< h \} \label{14} \tag{14}$$ con $h \in \mathbb{R}$, entonces $\exists$ $M > 0$, tal que $\forall$ $n \in \mathbb{N}$ y $\forall$ $t \in \mathbf{I}$.
$$\left\| \mathbf{Y}_{n}(t) -\mathbf{Y}_{0} \right\| \leq M |t -t_{0}| \label{15} \tag{15}$$

En este teorema podemos describir a la región $R$ como

$$R = \{ (t, \mathbf{Y}(t)) \in \mathbb{R}^{n + 1} : |t -t_{0}| \leq a, \left\|\mathbf{Y}(t) -\mathbf{Y}_{0} \right\| \leq b \} \label{16} \tag{16}$$

En esta región garantizamos que las iterantes de Picard están todas contenidas.

Un resultado más que necesitaremos tiene que ver con que $\mathbf{F}(t, \mathbf{Y}(t))$ sea una función lipschitziana respecto a la segunda variable. Recordando la definición que dimos para el caso de ecuaciones de primer orden, podemos definir una función lipschitziana como sigue.

Definición: Sean $U \in \mathbb{R}^{n + 1}$ y $\mathbf{F}: U \in \mathbb{R}^{n + 1} \rightarrow \mathbb{R}^{n}$. Se dice que $\mathbf{F} = \mathbf{F}(t, \mathbf{Y}(t))$ es una función lipschitziana en $U$ respecto de la segunda variable si existe una constante $L$, tal que
$$\left\| \mathbf{F}(t,\mathbf{Y}(t)) -\mathbf{F}(t, \mathbf{Y}_{0}(t)) \right\| \leq L \left\| \mathbf{Y}(t) -\mathbf{Y}_{0}(t) \right\| \label{17} \tag{17}$$ $L$ es la correspondiente constante de Lipschitz.

Un resultado sumamente útil para determinar si una función es lipschitziana es el siguiente.

Teorema: Sea $U$ un dominio convexo y $\mathbf{F}(t, \mathbf{Y}(t))$ una función tal que $\dfrac{\partial F}{\partial y_{i}}$, $i = 1, 2, \cdots ,n$ existe en $U$ y $\left\| \dfrac{\partial F}{\partial \mathbf{Y}} \right\| \leq L$, entonces $\mathbf{F}$ es una función lipschitziana respecto de la segunda variable en $U$.

Intenta generalizar la demostración.

Una herramienta más que necesitamos generalizar es el criterio mayorante de Weierstrass.

Criterio mayorante de Weierstrass: Sea $\{ \mathbf{Y}_{n}(t) \}$, $n \in \mathbb{N}$, una sucesión de funciones. Supongamos que para cada $\{ \mathbf{Y}_{n}(t) \}$ existe una constante positiva $M_{k}$, tal que:

$\left\| \mathbf{Y}_{k}(t) \right\| \leq M_{k}$, $\forall$ $k \geq 1$ y $\forall$ $t \in \delta$

La serie $\sum_{k = 0}^{\infty}M_{k}$ converge.

Entonces la serie $\sum_{k = 0}^{\infty} \mathbf{Y}_{k}(t)$ converge uniformemente en $\delta$ a una función $\mathbf{Y}(t)$.

Finalmente, recordemos el lema de Gronwall.

Lema de Gronwall: Sean $g: \delta \subseteq \mathbb{R} \rightarrow \mathbb{R}$ y $t_{0} \in \delta$, tales que
$$0 \leq g(t) \leq \alpha + \beta \int_{t_{0}}^{t} g(s) ds \label{18} \tag{18}$$ $\forall$ $t \in \delta$ con $\alpha, \beta \geq 0$ constantes, entonces $g(t) \leq \alpha e^{\beta (t -t_{0})}$.

Este resultado no requiere de generalización, lo usaremos de esta forma.

Todo lo anterior corresponde a la teoría preliminar que debemos conocer para lograr demostrar el teorema de existencia y unicidad para sistemas de ecuaciones diferenciales de primer orden. Lo visto corresponde a una generalización de la teoría preliminar al teorema de Picard – Lindelöf, por lo que las demostraciones a los resultados de esta entrada serán prácticamente una generalización de las demostraciones vistas para el caso de ecuaciones de primer orden. De tarea moral intenta demostrar todos estos resultados para lograr convencerte del siguiente resultado.

Demostración del teorema de existencia y unicidad para sistemas de ecuaciones diferenciales de primer orden

Teorema: Sea el problema de valores iniciales
$$\mathbf{Y}^{\prime}(t) = \mathbf{F}(t, \mathbf{Y}(t)), \hspace{1cm} \mathbf{Y}(t_{0}) = \mathbf{Y}_{0}$$ Con $t_{0} \in \delta$. Supongamos que $\forall$ $i,j \in \{1, 2, 3, \cdots, n\}$, $F_{i}$ y $\dfrac{\partial F_{i}}{\partial y_{j}}$ existen y son continuas en $(t, \mathbf{Y}(t)) \in U$. Entonces existe un intervalo $|t -t_{0}| < h$, tal que existe una única solución $\mathbf{Y}(t)$ del problema de valores iniciales.

Demostración: Comenzaremos por mostrar la existencia de la solución.

Consideremos las hipótesis del teorema y las dos primeras iteraciones de Picard $\mathbf{Y}_{1}(t)$ y $\mathbf{Y}_{0}(t)$, sabemos que ambas son continuas en el intervalo $I$ definido en (\ref{14}), entonces existe $M > 0$, tal que

$$\left\| \mathbf{Y}_{1}(t) -\mathbf{Y}_{0}(t) \right\| \leq M \label{19} \tag{19}$$

Queremos demostrar que la norma de la diferencia entre iterantes de Picard esta acotada, es decir, que $\forall$ $n \in \mathbb{N}$ y $\forall$ $t \in \mathbf{I}$,

$$\left\| \mathbf{Y}_{n}(t) -\mathbf{Y}_{n -1}(t) \right\| \leq M \left ( \dfrac{(L |t -t_{0}|)^{n -1}}{(n -1)!} \right) \label{20} \tag{20}$$

La prueba la haremos por inducción. El caso $n = 1$ ya lo vimos en (\ref{19}). Supongamos que es cierto para $n = k$.

$$\left\| \mathbf{Y}_{k}(t) -\mathbf{Y}_{k -1}(t) \right\| \leq M \dfrac{(L |t -t_{0}|)^{k -1}}{(k -1)!} \label{21} \tag{21}$$

Esta es nuestra hipótesis de inducción. Queremos probar que

$$\left\| \mathbf{Y}_{k + 1}(t) -\mathbf{Y}_{k}(t) \right\| \leq M \dfrac{(L |t -t_{0}|)^{k}}{k!} \label{22} \tag{22}$$

Usando la forma de la iteraciones de Picard (\ref{12}), notemos lo siguiente.

\begin{align*}
\left\| \mathbf{Y}_{k + 1}(t) -\mathbf{Y}_{k}(t) \right\| &= \left\| \left( \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}_{k}(t)) ds \right) -\left( \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}_{k -1}(s)) ds \right) \right\| \\
&= \left\| \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}_{k}(t)) -\mathbf{F}(s, \mathbf{Y}_{k -1}(s)) ds \right\| \\
&\leq \int_{t_{0}}^{t} \left\| \mathbf{F}(s, \mathbf{Y}_{k}(s)) -\mathbf{F}(s, \mathbf{Y}_{k -1}(s)) \right\| ds
\end{align*}

Como $\mathbf{F}$ es lipschitziana con respecto de la segunda variable, entonces se satisface (\ref{17}), de manera que

$$ \int_{t_{0}}^{t} \left\| \mathbf{F}(s, \mathbf{Y}_{k}(s)) -\mathbf{F}(s, \mathbf{Y}_{k -1}(s)) \right\| ds \leq \int_{t_{0}}^{t} L \left\| \mathbf{Y}_{k}(s) -\mathbf{Y}_{k -1}(s) \right\| ds \label{23} \tag{23}$$

Así,

\begin{align*}
\left\| \mathbf{Y}_{k + 1}(t) -\mathbf{Y}_{k}(t) \right\| &\leq \int_{t_{0}}^{t} L \left\| \mathbf{Y}_{k}(s) -\mathbf{Y}_{k -1}(s) \right\| ds \\
&= L \int_{t_{0}}^{t} \left\| \mathbf{Y}_{k}(s) -\mathbf{Y}_{k -1}(s) \right\| ds
\end{align*}

Usemos la hipótesis de inducción (\ref{21}).

\begin{align*}
\left\| \mathbf{Y}_{k + 1}(t) -\mathbf{Y}_{k}(t) \right\| &\leq L \int_{t_{0}}^{t} M \dfrac{(L |s -t_{0}|)^{k -1}}{(k -1)!} ds \\
&= \dfrac{ML^{k}}{(k -1)!} \int_{t_{0}}^{t} |s -t_{0}|^{k -1} ds \\
&= \dfrac{ML^{k}}{(k -1)!} \dfrac{|t -t_{0}|^{k}}{k} \\
&= M \dfrac{(L |t -t_{0}|)^{k}}{k!}
\end{align*}

Esto es,

$$ \left\| \mathbf{Y}_{k + 1}(t) -\mathbf{Y}_{k}(t) \right\| \leq M \dfrac{(L |t -t_{0}|)^{k}}{k!}$$

Hemos obtenido (\ref{22}) que es lo que queríamos probar.

Como $|t -t_{0}| \leq h$, observemos que

$$M \dfrac{(L |t -t_{0}|)^{k}}{k!} \leq M \dfrac{(Lh)^{k}}{k!} \label{24} \tag{24}$$

y sabemos que

$$\sum_{k = 0}^{\infty} M \dfrac{(Lh)^{k}}{k!} = Me^{Lh} \label{25} \tag{25}$$

Como $M$, $L$ y $h$ son valores fijos, entonces $Me^{Lh}$ es una valor fijo lo que muestra que la serie

$$\sum_{k = 0}^{\infty} M \dfrac{(Lh)^{k}}{k!} < \infty \label{26} \tag{26}$$

Es decir, la serie es convergente. Consideremos la sucesión de diferencias de iterantes de Picard consecutivas $\{ \mathbf{Y}_{n}(t) -\mathbf{Y}_{n -1}(t) \}$, $n \in \mathbb{N}$. De los resultados anteriores sabemos que

$$\left\| \mathbf{Y}_{k}(t) -\mathbf{Y}_{k -1}(t) \right\| \leq M \dfrac{(Lh)^{k -1}}{(k -1)!} \label{27} \tag{27}$$

y como $\forall$ $t \in I$,

$$\sum_{k = 1}^{\infty} M \dfrac{(Lh)^{k -1}}{(k -1)!} = M e^{Lh}$$

entonces, por el criterio mayorante de Weierstrass, se tiene que

$$\sum_{k = 1}^{\infty}(\mathbf{Y}_{k}(t) -\mathbf{Y}_{k -1}(t)) < \infty \label{28} \tag{28}$$

es decir, converge uniformemente en $I$ a una función, digamos $\hat{\mathbf{Y}}(t)$. Así

$$\mathbf{Y}_{0} + \sum_{k = 1}^{\infty}(\mathbf{Y}_{k}(t) -\mathbf{Y}_{k -1}(t)) < \infty \label{29} \tag{29}$$

también converge uniformemente en $I$ a una función, digamos $\mathbf{Y}(t)$. La sucesión de sumas parciales converge uniformemente en $I$. Para $k = 1$ en (\ref{29}) se tiene la suma parcial $S_{1}$ como

$$S_{1} = \mathbf{Y}_{0} + [\mathbf{Y}_{1}(t) -\mathbf{Y}_{0}(t)] = \mathbf{Y}_{1}(t) \label{30} \tag{30}$$

Ya que $ \mathbf{Y}_{0}(t) = \mathbf{Y}_{0}$. Para $S_{2}$, se tiene

$$S_{2} = \mathbf{Y}_{0} + [\mathbf{Y}_{1}(t) -\mathbf{Y}_{0}(t)] + [\mathbf{Y}_{2}(t) -\mathbf{Y}_{1}(t)] = \mathbf{Y}_{2}(t) \label{31} \tag{31}$$

Así sucesivamente obtendremos que

$$S_{n} = \mathbf{Y}_{n}(t) \label{32} \tag{32}$$

Por lo tanto, la sucesión de iteraciones de Picard converge uniformemente en $I$ a una función $\mathbf{Y}(t)$, esto significa que $\mathbf{Y}(t)$ es solución de la ecuación integral

$$\mathbf{Y}(t) = \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}(s)) ds$$

y por lo tanto, $\mathbf{Y}(t)$ es solución del problema de condición inicial.

Con esto queda demostrada la existencia de la solución del PVI. Concluyamos con la demostración de la unicidad.

Sea $\mathbf{Y}(t)$ la solución del PVI (\ref{7}) y supongamos que existe otra función $\mathbf{Z}(t)$ que también es solución del PVI, entonces

$$\mathbf{Y}(t) = \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}(s)) ds$$

$$\mathbf{Z}(t) = \mathbf{Y}_{0} + \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Z}(s)) ds \label{33} \tag{33}$$

Notemos lo siguiente.

\begin{align*}
\left\| \mathbf{Y}(t) -\mathbf{Z}(t) \right\| &= \left\| \int_{t_{0}}^{t} \mathbf{F}(s, \mathbf{Y}(s)) -\mathbf{F}(s, \mathbf{Z}(s)) ds \right\|\\
&\leq \int_{t_{0}}^{t} \left\| \mathbf{F}(s, \mathbf{Y}(s)) -\mathbf{F}(s, \mathbf{Z}(s)) \right\| ds \\
&\leq L \int_{t_{0}}^{t} \left\| \mathbf{Y}(s) -\mathbf{Z}(s) \right\|ds
\end{align*}

En donde se ha aplicado nuevamente la propiedad de $\mathbf{F}$ de ser lipschitziana con respecto de la segunda variable.

Definamos la función escalar

$$g(t) = \left\| \mathbf{Y}(t) -\mathbf{Z}(t) \right\|$$

Entonces el resultado anterior se puede escribir como

$$g(t) \leq L \int_{t_{0}}^{t} g(s) ds \label{34} \tag{34}$$

Notemos que esta expresión se parece a la desigualdad (\ref{18}) del lema de Gronwall con $\alpha = 0$ y $\beta = L$. Usando este lema, se obtiene

$$0 < g(t) = \left\| \mathbf{Y}(t) -\mathbf{Z}(t) \right\| \leq 0 e^{L(t -t_{0})} = 0 \label{35} \tag{35}$$

De donde necesariamente debe ocurrir que

$$\left\| \mathbf{Y}(t) -\mathbf{Z}(t) \right\| = 0 \label{36} \tag{36}$$

Por lo tanto, ambas funciones tienen que ser iguales.

$$\mathbf{Y}(t) = \mathbf{Z}(t) \label{37} \tag{37}$$

Y es así como queda demostrada la unicidad de la solución. Y, por lo tanto, queda demostrado el teorema.

$\square$

Con esto concluimos la tercera unidad del curso.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

Demostrar formalmente los teoremas vistos en la teoría preliminar de esta entrada.
Puedes guiarte de las demostraciones hechas en la primera unidad generalizando los resultados.

Más adelante…

Hemos concluido con la unidad 3 del curso.

La siguiente y última unidad del curso será un complemento de esta unidad 3, ya que hemos estudiado a los sistemas de ecuaciones diferenciales de primer orden desde una perspectiva analítica y es posible construir toda una teoría geométrica y cualitativa de estos mismos sistemas.

En la siguiente unidad estudiaremos la teoría cualitativa de las ecuaciones diferenciales.

Entradas relacionadas

Página principal del curso: Ecuaciones Diferenciales I
Entrada anterior del curso: Teorema de existencia y unicidad para sistemas lineales
Siguiente entrada del curso: Introducción a la teoría cualitativa de las ecuaciones diferenciales

Video relacionado al tema: Teorema de existencia y unicidad para sistemas de ecuaciones de primer orden

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Ecuaciones Diferenciales I – Videos: Plano fase para sistemas lineales con cero como valor propio

Por Eduardo Vera Rosales

Deja un comentario

Introducción

Vamos a finalizar esta serie de entradas referentes al plano fase de sistemas de dos ecuaciones lineales homogéneas con coeficientes constantes de la forma $$\begin{pmatrix} \dot{x} \\ \dot{y} \end{pmatrix}=\begin{pmatrix} a & b \\ c & d \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix}$$ estudiando el caso cuando el sistema tiene al menos un cero como valor propio.

En las entradas anteriores revisamos los casos cuando los valores propios son reales distintos y no nulos, son complejos o se repiten, por lo que el caso que revisaremos en esta entrada es el último por estudiar. En todos los casos anteriores el punto de equilibrio es único y se encuentra en el punto $(0,0)$ del plano fase. Sin embargo, cuando el cero es un valor propio de la matriz asociada al sistema resultará que no habrá un único punto equilibrio, sino que tendremos una infinidad de dichos puntos. Es por eso que dejamos este caso al final.

Veremos cómo se distribuyen los puntos de equilibrio en el plano fase. Finalmente las curvas solución serán muy fáciles de dibujar según el análisis que realizaremos de la solución general al sistema, que será de la forma $$\textbf{X}(t)=c_{1}\begin{pmatrix} u_{1} \\ u_{2} \end{pmatrix}+c_{2}e^{\lambda_{2} t}\begin{pmatrix} v_{1} \\ v_{2} \end{pmatrix}$$ donde $(u_{1},u_{2})$ es un vector propio asociado al valor propio $\lambda_{1}=0$ y $(v_{1},v_{2})$ es un vector propio asociado al valor propio $\lambda_{2} \neq 0$ (si $\lambda_{2}=0$ la solución general se simplifica aún más y es igualmente sencillo hacer el análisis del plano fase).

Dicho lo anterior, vamos a comenzar.

Plano fase para sistemas con cero como valor propio

En el primer video analizamos el plano fase para un sistema de ecuaciones de la forma $$\begin{pmatrix} \dot{x} \\ \dot{y} \end{pmatrix}=\begin{pmatrix} a & b \\ c & d \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix}$$ cuando este tiene a cero como un valor propio asociado.

En el segundo video dibujamos el plano fase de algunos sistemas en particular que tienen al menos un valor propio igual a cero.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

Los campos vectoriales de las imágenes fueron realizados en el siguiente enlace.

Encuentra todas las matrices de tamaño $2 \times 2$ diagonalizables cuyo único valor propio es cero.

Encuentra todos los sistemas de ecuaciones lineales homogéneos con coeficientes constantes cuyo campo vectorial se ve de la siguiente manera:

Campo vectorial 1 cero valor propio — Campo vectorial. Elaboración propia.

En el segundo video dibujamos los planos fase de los siguientes sistemas $$\begin{pmatrix} \dot{x} \\ \dot{y} \end{pmatrix}=\begin{pmatrix} -1 & 1 \\ 1 & -1 \end{pmatrix}\begin{pmatrix} x \\ y \end{pmatrix}$$ $$\begin{pmatrix} \dot{x} \\ \dot{y} \end{pmatrix}=\begin{pmatrix} 0 & 2 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} x \\ y \end{pmatrix}.$$ ¿Qué puedes decir acerca de los puntos de equilibrio en cada caso? ¿Son estables, asintóticamente estables, inestables, o ninguno de los tres?

Encuentra la solución general del siguiente sistema y dibuja su plano fase: $$\begin{pmatrix} \dot{x} \\ \dot{y} \end{pmatrix}=\begin{pmatrix} 0 & 2 \\ 0 & 5 \end{pmatrix}\begin{pmatrix} x \\ y \end{pmatrix}.$$

Resuelve el siguiente sistema y dibuja su plano fase: $$\begin{pmatrix} \dot{x} \\ \dot{y} \end{pmatrix}=\begin{pmatrix} 0 & 0 \\ 5 & 0 \end{pmatrix}\begin{pmatrix} x \\ y \end{pmatrix}.$$

Encuentra la solución general y dibuja el plano fase del siguiente sistema: $$\begin{pmatrix} \dot{x} \\ \dot{y} \end{pmatrix}=\begin{pmatrix} 4 & 6 \\ -2 & -3 \end{pmatrix}\begin{pmatrix} x \\ y \end{pmatrix}.$$

Más adelante

Hemos terminado de estudiar el plano fase para sistemas de dos ecuaciones lineales homogéneas con coeficientes constantes. Determinamos el comportamiento de las soluciones en el plano y la estabilidad de los puntos de equilibrio en función de los valores propios del sistema.

Estamos a punto de comenzar a estudiar sistemas no lineales, al menos de manera cualitativa (ya que estos sistemas no los sabemos resolver analíticamente). Pero antes vamos a hacer un resumen de todo el análisis realizado recientemente en un dibujo que clasifica las formas del plano fase según dos características de la matriz asociada al sistema: la traza (que es la suma de los elementos en la diagonal) y su determinante.

¡Hasta la próxima!

Entradas relacionadas

Ir a Ecuaciones Diferenciales I
Entrada anterior del curso: Plano fase para sistemas lineales con valores propios repetidos
Siguiente entrada del curso: El plano traza – determinante

Notas escritas relacionadas con el tema: Teoría cualitativa de los sistemas lineales homogéneos. Valores propios nulos

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Geometría Moderna I: Circunferencias de Lemoine

Por Rubén Alexander Ocampo Arellano

Deja un comentario

Introducción

En esta entrada veremos un conjunto de circunferencias que surgen de una construcción particular a partir del punto simediano o punto de Lemoine, las circunferencias de Lemoine, y su generalización, las circunferencias de Tucker.

Primera circunferencia de Lemoine

Teorema 1. Si por el punto simediano de un triángulo dado trazamos paralelas a los lados del triángulo, entonces estas tres paralelas intersecan a los lados del triángulo en seis puntos cíclicos, a dicha circunferencia se le conoce como primera circunferencia de Lemoine.

Demostración. En $\triangle ABC$, sean $K$ el punto de Lemoine, $Z’KY \parallel BC$, $X’KZ \parallel CA$, $Y’KX \parallel AB$, $X$, $X’ \in BC$, $Y$, $Y’ \in CA$, $Z$, $Z’ \in AB$.

Dado que $KY’ \parallel AZ$ y $KZ \parallel AY’$, $\square AZKY’$ es paralelogramo, por lo tanto, $AK$ biseca a $ZY’$, de esto se sigue que $ZY’$ es antiparalela a $BC$ respecto a $AB$ y $CA$.

Como $Z’Y \parallel BC$, entonces $Z’Y$ y $ZY’$ son antiparalelas respecto a $AB$ y $CA$, es decir, $\square ZZ’YY’$ es cíclico.

Igualmente podemos ver qué $XZ’$, $CA$ son antiparalelas respecto a $AB$, $BC$ y que $\square Z’XX’Z’$ es cíclico.

Como $Z’Y \parallel BC$ y $\square ZZ’YY’$ es cíclico entonces $\angle Z’ZY’ = \angle A + \angle B$.

Como $XZ’$ y $CA$ son antiparalelas entonces $\angle Z’XB = \angle A$, ya que $AB \parallel XY’$ tenemos que $\angle CXY’ = \angle B$, por lo anterior tenemos que $\angle Y’XZ’ = \angle C$.

Entonces, como los ángulos $\angle Y’XZ’$, $\angle Z’ZY’$ son suplementarios, $\square Z’XY’Z$ es cíclico, por lo tanto, $X$, $Y$, $Y’$, $Z$, $Z’$, están en la misma circunferencia.

Finalmente, como $X’$ esta en el circuncírculo de $\triangle XZZ’$ entonces el hexágono $XY’ZX’YZ’$ es cíclico.

$\blacksquare$

Proposición 1. El centro de la primera circunferencia de Lemoine es el punto medio entre el circuncentro y el punto de Lemoine.

Demostración. En la figura 1, del teorema anterior, sean $O$ el circuncentro de $\triangle ABC$ y $M= AK \cap ZY’$, considera $L$ el punto medio de $KO$, con $K$ el punto de Lemoine.

Como $\square AZKY’$ es paralelogramo, entonces $M$ es punto medio de $AK$ y $ZY’$.

En $\triangle AOK$, $LM$ es un segmento medio, por lo tanto, $ML \parallel AO$.

Ya que $ZY’$, $BC$ son antiparalelas respecto a $AB$, $CA$, entonces $ZY’$ es paralela a la tangente al circuncírculo de $\triangle ABC$ por $A$, por lo tanto, $AO \perp ZY’$.

En consecuencia, $ML \perp ZY’$, como $M$ es el punto medio de $ZY’$ entonces $L$ esta en la mediatriz de $ZY’$.

Igualmente vemos que $L$ esta en la mediatriz de $XZ’$, $YX’$, por lo tanto, $L$ es el centro de la primera circunferencia de Lemoine.

$\blacksquare$

Proposición 2. Las cuerdas de la primera circunferencia de Lemoine, contenidas en los lados del triángulo, son proporcionales a los cubos de dichos lados.

Demostración. Sean $D$ y $H_a$ las proyecciones de $K$ y $A$ en $BC$ respectivamente (figura 1), como $Y’X \parallel AB$ y $X’Z \parallel CA$ entonces $\triangle ABC$ y $\triangle KXX’$ son semejantes.

Por lo tanto,
$\dfrac{XX’}{BC} = \dfrac{KD}{AH_a} $
$= \dfrac{BC \times 2(\triangle ABC)}{AB^2 + BC^2 + CA^2} \times \dfrac{BC}{2(\triangle ABC)}$.

Donde la segunda igualdad se sigue del corolario 2 de la entrada anterior y de considerar el área de $\triangle ABC$.

$\Rightarrow XX’ = \dfrac{BC^3}{AB^ + BC^2 + CA^2}$.

De manera similar se ve que
$YY’ = \dfrac{CA^3}{AB^ + BC^2 + CA^2}$,
$ZZ’ = \dfrac{AB^3}{AB^ + BC^2 + CA^2}$.

$\blacksquare$

Segunda circunferencia de Lemoine

Teorema 2. Si por el punto simediano $K$ de un triángulo trazamos antiparalelas a los lados del triángulo, entonces estas tres antiparalelas intersecan a los lados del triángulo en seis puntos cíclicos con centro en $K$, a dicha circunferencia se le conoce como segunda circunferencia de Lemoine.

Demostración. En $\triangle ABC$ sean $K$ el punto de Lemoine, $Z’KY$ antiparalela a $BC$ respecto a $AB$ y $CA$, $X’KZ$ antiparalela a $CA$ respecto a $AB$ y $BC$, $Y’KX$ antiparalela a $AB$ respecto a $BC$ y $CA$, $X$, $X’ \in BC$, $Y$, $Y’ \in CA$, $Z$, $Z’ \in AB$.

Como $X’Z$ y $CA$ son antiparalelas, entonces $BK$ biseca a $X’Z$, de manera análoga vemos que $CK$ biseca a $Y’X$.

Dado que las antiparalelas $X’Z$ e $Y’X$ se intersecan en la $A$-simediana, entonces son iguales en magnitud.

Como resultado, concluimos que $\square XX’Y’Z$ es un rectángulo, por lo tanto, $X$, $X’$, $Y’$, $Z$, están en una circunferencia con centro en $K$.

Igualmente podemos ver que $AK$ biseca a $YZ’$ y que $XY’ = YZ’ = ZX’$.

Por lo tanto, el hexágono $XY’ZX’YZ’$ es cíclico.

Proposición 4. Las cuerdas de la segunda circunferencia de Lemoine, contenidas en los lados del triángulo son proporcionales a los cosenos de los ángulos opuestos a dichos lados, razón por la cual también es conocida como circunferencia de los cosenos.

Demostración. Dado que $Y’X$ y $AB$ son antiparalelas respecto a $BC$ y $CA$ (figura 2), entonces $\angle X’XY’ = \angle A$.

Como $\triangle Y’X’X$ es un triangulo rectángulo, entonces $\cos \angle A = \cos \angle X’XY’ = \dfrac{XX’}{Y’X}$.

Como $Y’X = X’Z = Z’Y = q$, entonces $XX’ = q \cos \angle A$.

Igualmente podemos ver que $YY’ = q \cos \angle B$ y $ZZ’ = q \cos \angle C$.

$\blacksquare$

Circunferencia de Tucker

Teorema 3. Si aplicamos una homotecia a un triángulo con centro en su punto de Lemoine entonces los lados del triángulo imagen cortaran a los lados del triángulo original en seis puntos cíclicos, a esta circunferencia se le conoce como circunferencia de Tucker.

Demostración. Sea $K$ el punto de Lemoine de $\triangle ABC$ y $\triangle A’B’C’$ su imagen bajo una homotecia con centro en $K$, entonces los lados correspondientes son paralelos.

Sean $X$, $X’$ las intersecciones de $A’B’$ y $C’A’$ con $BC$, $Y$, $Y’$ las intersecciones de $B’C’$ y $A’B’$ con $CA$, $Z$, $Z’$ las intersecciones de $C’A’$ y $B’C’$ con $AB$.

Como $AZA’Y’$ es un paralelogramo entonces $AK$ biseca $Y’Z$, por lo tanto $Y’Z$ es antiparalela a $BC$ respecto a $AB$, $CA$.

De manera análoga, los pares de rectas $XZ’$, $CA$; $YX’$, $AB$ son antiparalelas.

A partir de aquí la demostración es igual a la del teorema 1.

$\blacksquare$

Proposición 5. El centro de la circunferencia de Tucker se encuentra en la recta que une al punto de Lemoine con el circuncentro del triángulo.

Demostración. Sean $O$ el circuncentro de $\triangle ABC$ y $M$ el punto medio de $Y’Z$ (figura 3), como $\triangle ABC$ y $\triangle A’B’C’$ son homotéticos la paralela por $A’$ a $AO$ interseca a $KO$ en $O’$ el circuncentro de $\triangle A’B’C’$.

Por $M$ trazamos una paralela a $AO$ que interseca a $KO$ en $T$.

Como $A’O’ \parallel MT$ entonces $\dfrac{KA’}{A’M} =\dfrac{KO’}{O’T}$.

Como $AO \parallel MT$ entonces $\dfrac{KM}{MA} =\dfrac{KT}{TO}$.

Pero
$\dfrac{KM}{KT} = \dfrac{KA’ + A’M}{KO’ + O’T}$
$= (\dfrac{A’M \times KO’}{O’T} + A’M)(\dfrac{1}{ KO’ + O’T}) $
$= A’M(\dfrac{KO’ + O’T}{O’T})(\dfrac{1}{ KO’ + O’T}) = \dfrac{A’M}{O’T}$.

Por lo tanto, como $M$ también es el punto medio de $AA’$ por ser $\square AZA’Y’$ paralelogramo, tenemos
$1 = \dfrac{A’M}{MA} = \dfrac{O’T}{TO}$.

Es decir, $T$ es el punto medio de $OO’$.

Por otra parte $AO \perp Y’Z$, pues $Y’Z$ es paralela a la tangente al circuncírculo de $\triangle ABC$ en $A$, entonces $TM \perp Y’Z$.

Por lo tanto, $T$ esta en la mediatriz de $Y’Z$.

Igualmente vemos que $T$ esta en la mediatriz de $Z’X$, $X’Y$, en consecuencia, $T$ es el centro de la circunferencia de Tucker y está en la recta $KO$.

$\blacksquare$

Circunferencia de Taylor

Teorema 4. Dado un triángulo, las proyecciones de los vértices de su triángulo órtico en los lados del triángulo original están en una circunferencia de Tucker, a esta circunferencia se le conoce como circunferencia de Taylor.

Demostración. Sea $\triangle ABC$ y $\triangle H_aH_bH_c$ su triangulo órtico, sean $X$, $X’$ las proyecciones de $H_c$ y $H_b$ en $BC$, $Y$, $Y’$ las proyecciones de $H_a$ y $H_c$ en $CA$, $Z$, $Z’$ las proyecciones de $H_b$ y $H_a$ en $AB$.

$\square H_cBCH_b$ es cíclico pues $\angle BH_cC = \angle BH_bC = \dfrac{\pi}{2}$, así que $\angle H_bH_cZ = \angle C$.

$\angle ZH_cH_bY’$ también es cíclico pues $\angle H_cZH_b = \angle H_cY’H_b = \dfrac{\pi}{2}$, así que $\angle AY’Z = \angle H_bH_cZ = \angle C$.

Por lo tanto, $ZY’ \parallel BC$.

Igualmente vemos que $XZ’ \parallel CA$ y $YX’ \parallel AB$.

En consecuencia, el triángulo $\triangle A’B’C’$ que se forma al extender $ZY’$, $XZ’$, $YX’$, es inversamente homotético con $\triangle ABC$.

Sea $H$ el ortocentro de $\triangle ABC$, como $HH_c \parallel H_aZ’$ y $HH_b \parallel H_aY$, entonces
$\dfrac{HH_c}{H_aZ’} = \dfrac{AH}{AH_A} = \dfrac{HH_b}{H_aY}$.

Por criterio de semejanza LAL, $\triangle HH_cH_b \sim \triangle H_aZ’Y$, por lo tanto, $Z’Y \parallel H_cH_b$.

De esto último y tomando en cuenta que $\square H_cBCH_b$ es cíclico, se sigue que $\square Z’BCY$ es cíclico, es decir $Z’Y$ y $BC$ son antiparalelas respecto de $AB$, $CA$.

Por otra parte, $\square AZ’A’Y$ es paralelogramo, así que $AA’$ biseca a $Z’Y$.

Esto implica que $AA’$ es la $A$-simediana de $\triangle ABC$.

De manera análoga vemos que $BB’$ y $CC’$ son simedianas, por lo tanto, $AA’$, $BB’$, $CC’$ concurren en el punto simediano $K$ de $\triangle ABC$.

Por el teorema anterior, se sigue que $X$, $X’$, $Y$, $Y’$, $Z$, $Z’$, están en una circunferencia de Tucker.

$\blacksquare$

Más adelante…

En la siguiente entrada estudiaremos propiedades mas generales de rectas que como la mediana y la simediana, son reflexión respecto de la bisectriz de un ángulo.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

En la figura 1, muestra que:
$i)$ $X’Y = Y’Z = Z’X$,
$ii)$ el incírculo del triángulo que se forma al extender $X’Y$, $Y’Z$ y $Z’X$, es concéntrico con la primer circunferencia de Lemoine de $\triangle ABC$.
Muestra que si tres diámetros de una circunferencia tienen sus extremos en los lados de un triángulo, entonces dicha circunferencia es la segunda circunferencia de Lemoine del triángulo y su centro es el punto de Lemoine.
Muestra que el circuncírculo de un triángulo, la primera y la segunda circunferencias de Lemoine, son circunferencias de Tucker y encuentra la razón de homotecia con centro en el punto de Lemoine, que da origen a cada una.
Demuestra que el centro de la circunferencia de Taylor de un triángulo es el punto de Spieker de su triángulo órtico. En la figura 4, el incentro del triángulo medial de $\triangle H_aH_bH_c$.
En la figura 4 demuestra que:
$i)$ el punto de Lemoine de $\triangle ABC$ coincide con el punto de Gergonne del triángulo medial de su triángulo órtico, $\triangle H_aH_bH_c$,
$ii)$ el punto de Nagel del triángulo órtico $\triangle H_aH_bH_c$ es colineal con el ortocentro y el circuncentro de $\triangle A’B’C’$,
$iii)$ las bisectrices internas del triángulo medial de $\triangle H_aH_bH_c$, son perpendiculares a los lados de $\triangle ABC$.

Entradas relacionadas

Ir a Geometría Moderna I.
Entrada anterior del curso: Punto simediano.
Siguiente entrada del curso: Rectas isogonales.
Otros cursos.

Fuentes

Altshiller, N., College Geometry. New York: Dover, 2007, pp 257-260, 284-287.
Honsberger, R., Episodes in Nineteenth and Twentieth Century Euclidean Geometry. Washington: The Mathematical Association of America, 1995, pp 87-98.
Johnson, R., Advanced Euclidean Geometry. New York: Dover, 2007, pp 271-277.
Shively, L., Introducción a la Geómetra Moderna. México: Ed. Continental, 1961, pp 76-79.

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»