Hasta ahora hemos aprendido nuevos conceptos geométricos euclidianos desde producto interior y ortogonal, normas y ángulos entre vectores hasta distancias. Pero también hemos trabajado implícitamente con diversos tipos de funciones, como son las rectas o las cónicas. Las funciones participan en todas las ramas matemáticas e incluso en muchas disciplinas científicas y sociales, por lo que al principio de la unidad brindaremos las nociones de funciones necesarias que les permitirán asimilar de mejor manera los temas que hemos visto y avanzar a los temas esenciales de ésta unidad, los cuales son Transformaciones y Matrices.
Comenzaremos con el tema de transformaciones y vamos a llamar transformación en el plano a toda función que hará corresponder a cada punto del plano otro punto del mismo; es decir, las transformaciones son operaciones geométricas que nos permiten deducir una nueva figura a partir de una que previamente tenemos. La nueva figura se llama transformada de la original.
Podemos dar un primer escenario de la clasificación de transformaciones que veremos:
Isometrías: Son cambios de posición (orientación) de una determinada figura que no alteran la forma ni tamaño de ésta. Como ejemplos en este rubro tenemos las traslaciones, las rotaciones o las reflexiones (simetrías).
En la imagen tenemos el caso de una transformación de reflexión (o simetría) con respecto al eje $x=0$. Observemos que cada punto de la figura original y la imagen de cada uno de ellos bajo la reflexión se encuentran a igual distancia de una recta llamada eje de simetría.
Isomorfismos: Son cambios en una figura determinada que no alteran la forma pero sí el tamaño de ésta. Entre ellas tenemos a las homotecias y las semejanzas.
La imagen muestra un ejemplo de homotecia, la cual es una transformación del espacio (en este caso el plano) que dilata las distancias con respecto a un punto de origen $O$.
Composición de transformaciones: Es el proceso por el cual a una figura se le aplican dos o más transformaciones y éstas transformaciones pueden ser de diferente tipo. Veremos el caso de transformaciones afines.
Transformaciones ortogonales: Como las longitudes de vectores y ángulos entre ellos se definen mediante el producto interior; éste tipo de transformaciones preservan las longitudes de los vectores y los ángulos entre ellos.
Tarea moral:
Las gráficas de las funciones senoidales son contracciones y/o dilataciones de las gráficas del seno y el coseno.
\begin{align*} y &= A sen(Bx + C) + D, & y &= Acos(Bx + C) + D, \end{align*}
donde $|A|$ representa la amplitud y $|B|$ a la cantidad de veces que se repite un ciclo en el intervalo desde $0$ hasta $2 \pi$. Por otro lado $C$ determina el desplazamiento horizontal de las gráficas y $D$ el desplazamiento vertical de las gráficas. Además, $\dfrac{2 \pi}{|B|}$ es el periodo de la función y nos indica la la longitud de un ciclo.
Ejercicio 1. Identificar la amplitud, el periodo y graficar las funciones:
$y = 3 sen (2x),$
$y = 2 cos (x),$
$y = 2 + sen(x)$
$y = \dfrac{1}{2} sen \left( \dfrac{1}{2} x \right)$
Ejercicio 2. Grafiquen las siguientes funciones y analicen el efecto de las constantes con respecto a las gráficas del seno y coseno.
$y = sen(x + \pi)$
$y = cos(x+2) + 3$
Más adelante:
La tarea moral tiene un propósito, y es que recordemos cómo una función se ve afectada al variar parámetros específicos. Con ello podremos darnos cuenta que no estamos tan enajenados al tema de transformación de funciones que estaremos trabajando en esta unidad.
En la siguiente entrada repasaremos las nociones necesarias de funciones que nos permitirán definir formalmente el concepto de transformaciones y tratar posteriormente con su clasificación.
Ninguna investigación humana puede ser llamada verdadera ciencia si no puede ser demostrada matemáticamente. – Leonardo da Vinci
Introducción
En la entrada anterior estudiamos algunas propiedades de las soluciones de las ecuaciones diferenciales ordinarias, en particular vimos que una ecuación diferencial puede tener infinitas soluciones y el intervalo de solución puede ser cualquiera en el que la función esté definida, sea derivable $n$ veces y cuyas derivadas sean continuas. En esta entrada estudiaremos cómo obtener una solución particular de una solución general dados unos valores prescritos conocidos como condiciones iniciales y veremos la importancia de saber elegir el intervalo de solución en estos casos particulares.
En esta entrada también estudiaremos algunos problemas del mundo real que involucran ecuaciones diferenciales, a través de estos problemas introduciremos la idea de ecuación diferencial como modelo matemático. Los problemas que estudiaremos tienen el objetivo de presentar el análisis que debemos hacer al intentar modelar un problema usando ecuaciones diferenciales y no con el propósito de resolver el problema mismo, pues resolverlo significa determinar las soluciones de las ecuaciones diferenciales que surjan y hasta este momento aún no hemos visto métodos de resolución.
Problema con valores iniciales
Definición: En algún intervalo $\delta$ que contiene a $x_{0}$, el problema de resolver la ecuación diferencial $$\dfrac{d^{(n)}y}{dx^{(n)}} = f(x, y, y^{\prime}, \cdots, y^{(n –1)}) \label{1} \tag{1}$$ sujeto a que se cumpla $$y(x_{0}) = y_{0}, \hspace{0.5cm} y^{\prime}(x_{0}) = y_{1}, \hspace{0.5cm} \cdots, \hspace{0.5cm} y^{(n -1)}(x_{0}) = y_{n -1} \label{2} \tag{2}$$ donde $y_{0}, y_{1}, \cdots, y_{n -1}$ son contantes reales arbitrarias dadas, se llama problema con valores iniciales (PVI), o problema con valores iniciales de $n$-ésimo orden.
Definición: Los valores de $y(x)$ y de sus $n -1$ derivadas en el punto $x_{0}$, es decir $$y(x_{0}) = y_{0}, \hspace{0.5cm} y^{\prime}(x_{0}) = y_{1}, \hspace{0.5cm} \cdots, \hspace{0.5cm} y^{(n -1)}(x_{0}) = y_{n -1}$$ se llaman condiciones iniciales.
De manera resumida podemos decir que un problema con valores iniciales es la ecuación diferencial acompañada de condiciones iniciales.
En el caso de ecuaciones diferenciales de primer y segundo orden tendríamos el siguiente PVI respectivamente:
Resolver $\dfrac{d^{2}y}{dx^{2}} = f(x, y, y^{\prime})$ $\hspace{0.5cm}$ sujeto a $\hspace{0.5cm}$ $y(x_{0}) = y_{0}$ $\hspace{0.3cm}$ y $\hspace{0.3cm}$ $y^{\prime}(x_{0}) = y_{1}$
Geométricamente un PVI de primer orden significa que estamos buscando una solución $y(x)$ de la ecuación diferencial en un intervalo $\delta$ que contenga a $x_{0}$ tal que su gráfica pase por el punto $(x_{0}, y_{0})$.
En el caso del PVI de segundo orden estamos buscando una solución $y(x)$ de la ecuación diferencial en un intervalo $\delta$ que contenga a $x_{0}$ de tal manera que su gráfica no sólo pase por el punto $(x_{0}, y_{0})$, sino que también la pendiente a la curva en ese punto tenga como valor $m = y_{1}$.
En la entrada anterior vimos que las soluciones generales tienen constantes arbitrarias, las condiciones iniciales de un PVI nos permitirá determinar el valor de dichas contantes para obtener una solución particular, pues con frecuencia resolver un problema con valores iniciales de $n$-ésimo orden implica primero determinar una familia $n$-paramétrica de soluciones de la ecuación diferencial dada y después usando las $n$ condiciones iniciales en $x_{0}$ determinar los valores numéricos de las $n$ constantes de la familia. Es importante mencionar que la solución particular obtenida debe estar definida en algún intervalo $\delta$ que contenga al punto inicial $x_{0}$. Veamos un ejemplo.
(Más adelante en el curso estudiaremos la forma de obtener este tipo de soluciones). Encontrar la solución particular dadas las siguientes condiciones iniciales:
Solución: Como tarea moral verifica que en efecto la función dada es solución de la ecuación diferencial, por ahora asumiremos que lo es.
Tenemos un problema con valores iniciales, así que la solución está sujeta a las condiciones iniciales, lo que debemos hacer para obtener la solución particular no es más que aplicar las condiciones iniciales. En este caso $x_{0} = 0$, la primera condición inicial nos dice que se debe satisfacer $y(x_{0}) = y(0) = 4$, entonces evaluemos la solución en $x_{0} = 0$ y el resultado lo igualamos a $4$.
Sólo basta sustituir estos valores en la solución general de la ecuación diferencial para obtener la solución particular. Por lo tanto, la solución particular sujeta a las condiciones iniciales es:
En la entrada anterior vimos que el intervalo de solución $\delta$ no es necesariamente el dominio de la función, sino que podemos tomar cualquier intervalo en el que la solución es derivable $n$ veces con derivadas continuas en ese intervalo, en el caso de los problemas con valores iniciales es necesario que el punto $x_{0}$ pertenezca al intervalo de solución $\delta$, esto en ocasiones establecerá un intervalo limitado para la solución, así que debemos tener cuidado con los valores en los que la solución particular está definida. Para visualizar este hecho retomemos el ejemplo visto en la entrada anterior donde mostramos que la función
$$y(x) = \dfrac{1}{4 -x^{2}}$$
es solución de la ecuación diferencial
$$\dfrac{dy}{dx} = 2xy^{2}$$
Realicemos este mismo ejercicio, pero ahora visto como un problema de valores iniciales y veamos la importancia de elegir correctamente el intervalo solución.
Ejemplo: La ecuación diferencial
$$\dfrac{dy}{dx} = 2xy^{2}$$
tiene como solución general a la función
$$y(x) = -\dfrac{1}{x^{2} + c_{1}}$$
Determinar la solución particular dada la condición inicial
$$y(0) = \dfrac{1}{4}$$
Solución: La solución general es
$$y(x) = -\dfrac{1}{x^{2} + c_{1}}$$
Aplicando la condición inicial obtenemos lo siguiente.
corresponde a un PVI de $\dfrac{dy}{dx} = 2xy^{2}$ con la condición inicial $y(0) = \dfrac{1}{4}$. En la entrada anterior mostramos la gráfica de esta función.
Gráfica de la función $y(x) = \dfrac{1}{4 -x^{2}}$.
Pero ahora el intervalo de solución debe ser aquel en el que $x_{0} = 0 \in \delta$. El intervalo más grande que puede tomar la solución particular es $\delta = (-2, 2)$, pues es el intervalo donde está el punto $x_{0} = 0$ y donde la solución es continua. ¡La condición inicial ha restringido el intervalo de solución!
Punto que satisface la condición inicial $y(0) = \dfrac{1}{4}$.
$\square$
Con este ejemplo vemos que las condiciones iniciales establecen un intervalo de solución especifico, en ocasiones (como en el primer ejemplo visto en esta entrada) no habrá mayor problema con el intervalo si la función es derivable y por tanto continua es todo su dominio. Es recomendable primero determinar en donde la solución está definida (encontrar su dominio) y posteriormente revisar si se trata sólo de una solución general o si hay condiciones iniciales que determinarán una solución particular.
Existencia de una solución única
Al trabajar con problemas con valores iniciales debemos hacernos dos preguntas importantes. ¿Existe la solución del problema? y si existe la solución, ¿es única?. Más adelante estudiaremos las ecuaciones diferenciales de primer orden y retomaremos con mayor profundidad este tema, por ahora sólo vamos a enunciar un teorema que da las condiciones suficientes para garantizar la existencia y unicidad de una solución de un PVI de primer orden.
Teorema: Dada una ecuación diferencial de primer orden $$\dfrac{dy}{dx} = f(x, y) \label{3} \tag{3}$$ donde $f(x, y)$ está definida en una región rectangular $U$ en el plano $XY$, la región está definida por $a \leq x \leq b$, $c \leq y \leq d$ y contiene al punto $(x_{0}, y_{0})$ en su interior. Si $f(x, y)$ satisface las condiciones:
$f(x, y)$ es continua en $U$ y
$\dfrac{\partial f}{\partial y}$ es continua en $U$
Entonces existe algún intervalo $\delta_{0}: (x_{0} -h, x_{0} + h)$, $h > 0$, contenido en $[a, b]$, y una función única $y(x)$, definida en $\delta_{0}$, que satisface la condición inicial $y(x_{0}) = y_{0}$.
Dicho de otra manera, las condiciones para la existencia de soluciones son:
Continuidad de $f(x, y)$ en $U$.
Acotamiento de $f(x, y)$ por $U$.
Y las condiciones para la unicidad son:
Continuidad de $f(x, y)$ y $\dfrac{\partial f}{\partial y}$ en $U$.
Acotamiento de $f(x, y)$ y $\dfrac{\partial f}{\partial y}$ por $U$.
Estas condiciones son suficientes, pero no necesarias, puede existir una solución única que satisface $y(x_{0}) = y_{0}$, pero que no cumple con alguna de las condiciones anteriores o que no cumple con ninguna.
Problemas que se modelan con ecuaciones diferenciales
Las matemáticas permiten modelar muchos de los fenómenos que ocurren en en mundo real, a esta descripción matemática de un sistema de fenómenos se le denomina modelo matemático y se construyen con la intención de representar algunas características del fenómeno para después hacer predicciones. Es cierto que esto puede ser un proceso muy difícil ya que implica que las hipótesis que hagamos deben ser descritas en fórmulas muy precisas que nos permitan predecir lo que ocurrirá. Una vez construido un modelo, las predicciones se deben comparar con los datos del sistema, dependerá de la compatibilidad entre las hipótesis y las predicciones lo que defina si debemos confiar en el modelo o debemos mejorar nuestras suposiciones.
En el caso de las ecuaciones diferenciales, éstas nos permiten modelar sistemas que evolucionan con el tiempo o sistemas que implican una razón de cambio de una o más variables. En este curso consideraremos a un modelo matemático como una ecuación diferencial o un sistema de ecuaciones diferenciales que describen el comportamiento de un fenómeno que estemos estudiando. Una vez que hemos formulado un modelo matemático surge el reto de resolver las ecuaciones diferenciales para saber si la solución es consistente con los hechos conocidos acerca del comportamiento del sistema y si no lo es debemos repetir un proceso de modelado en el que vamos ajustando las hipótesis, identificamos nuevas variables o incluso incluimos leyes empíricas que se puedan aplicar al sistema.
Hasta ahora ya hemos estudiado algunas ecuaciones diferenciales, sabemos cómo verificar cuando una función es solución y hemos estudiado algunas de sus propiedades. Para concluir esta entrada vamos a analizar algunos problemas del mundo real que son modelados con ecuaciones diferenciales. En esta parte nos enfocaremos en la forma en la que surgen las ecuaciones dado un problema y no nos preocuparemos por resolverlas, pues esto es algo que aún desconocemos.
Propagación de una enfermedad contagiosa
Recientemente hemos tenido la experiencia de observar cómo es que una enfermedad contagiosa se puede propagar en la población. En términos muy generales intentemos modelar la propagación de una enfermedad contagiosa a través de una comunidad de personas que han estado en contacto con personas enfermas.
Definamos a $x(t)$ como el número de personas que están enfermos en un cierto tiempo $t$ y sea $y(t)$ el número de personas que aún no han sido expuestas al contagio en ese momento $t$. Es claro que la razón $\dfrac{dx}{dt}$ con la que se propaga la enfermedad debe ser proporcional al número de encuentros o interacciones entre los dos grupos de personas. Si suponemos que el número de interacciones es conjuntamente proporcional a $x(t)$ y $y(t)$, entonces un modelo puede ser
$$\dfrac{dx}{dt} = cxy \label{4} \tag{4}$$
donde $c$ es la constante de proporcionalidad. Consideremos una comunidad con una población fija de $n$ personas, si inicialmente nadie tiene la enfermedad entonces $y = n$, pero si a esa comunidad llega una persona enferma $x = 1$, entonces podemos construir la siguiente relación.
Esta última ecuación sería el modelo que describe la propagación de la enfermedad a través del tiempo. Una condición inicial sería que en el momento en el que llego la persona enferma a la comunidad comenzó a propagarse la enfermedad, esto es, $x(0) = 1$.
$\square$
Ley de enfriamiento de Newton
La ley de enfriamiento de Newton establece que la razón de cambio de la temperatura $T(t)$ de un cuerpo con respecto al tiempo $t$ es proporcional a la diferencia entre la temperatura del cuerpo $T(t)$ y la temperatura del medio ambiente $T_{m}$. Esta ley puede ser modelada con la siguiente ecuación diferencial.
donde $k > 0$ es la contante de proporcionalidad y $T_{m}$ es la temperatura del medio ambiente considerada también una constante. Si podemos resolver esta ecuación encontraríamos una función que podría predecir la temperatura del cuerpo en cualquier tiempo $t$.
Sin embargo, sin resolver la ecuación podemos notar que si $T > T_{m}$, entonces $\dfrac{dT}{dt} < 0$, lo que significa que el cuerpo se estaría enfriando, pues la función $T(t)$ sería una función decreciente mientras avanza el tiempo. Por otro lado, si $T < T_{m}$, entonces $\dfrac{dT}{dt} > 0$, es decir la función $T(t)$ sería una función creciente en el tiempo lo que físicamente significa que el cuerpo se esta calentando.
$\square$
Cuerpos en caída
Consideremos un objeto que es lanzado desde lo alto de un edificio, el problema que queremos analizar es hallar la forma de conocer la posición del objeto con respecto al suelo en algún tiempo $t$ después de ser lanzado y antes de tocar el suelo. Por convención consideremos que la dirección hacía arriba es positiva.
Analicemos la situación. Consideremos un edificio de altura $r_{0}$, desde esa altura se lanza un objeto de masa $m$, la velocidad inicial con la que es lanzado es $v_{0}$. El objeto al caer esta sometido a la fuerza de gravedad, la segunda ley de Newton nos dice que cuando la fuerza neta $F$ que actúa sobre un cuerpo no es cero, entonces la fuerza neta es proporcional a su aceleración $a$, estas cantidades están relacionadas por la ecuación
$$F = ma \label{8} \tag{8}$$
con $m$ la masa del cuerpo, si el objeto esta en caída la fuerza neta será su peso.
$$F = -W \label{9} \tag{9}$$
El signo menos es porque el peso del objeto es una fuerza dirigida hacia abajo. Recordando que el peso está dado como
$$W = mg \label{10} \tag{10}$$
donde $m$ es la masa del objeto y $g$ es la aceleración debido a la gravedad de la tierra, usando entonces la segunda ley de Newton podemos establecer que
$$F = ma = -mg = -W$$
es decir $a = -g$. Recordemos que la aceleración de un objeto corresponde a la tasa de cambio de la velocidad y que a su vez la velocidad es la tasa de cambio de la posición del objeto, es decir, la aceleración es la segunda derivada de la posición con respecto al tiempo, si $r(t)$ es la posición del objeto, entonces
Las condiciones iniciales son claras, al tiempo $t = 0$ el objeto se encuentra en la posición mas alta del edificio es decir $r(0) = r_{0}$ y la velocidad con la que es lanzada al tiempo $t = 0$ es $v(0) = \dot{r}(0) = v_{0}$. Resolviendo la ecuación diferencial y obteniendo la solución particular podremos predecir la posición del objeto con respecto al suelo a cualquier tiempo $t$ antes de caer por completo.
$\square$
Modelo logístico de la población
Este es uno de los modelos más estudiados y representativos al estudiar ecuaciones diferenciales. Lo que se quiere estudiar es el crecimiento de una población, queremos crear un modelo que prediga el crecimiento que puede haber en una población en función de su entorno y los recursos limitados a los que están sujetos. Para comenzar con este estudio se pueden considerar las siguientes hipótesis.
Si la población es pequeña, la tasa de crecimiento de la población es proporcional a su tamaño.
Si la población es demasiado grande para ser soportada por su entorno y recursos, la población disminuirá, en este caso la tasa de crecimiento será negativa.
Las variables involucradas en este problema son las siguientes:
Por supuesto el tiempo $t$ es la variable independiente en la que queremos predecir. Otra variable es la población $P$, esta variable es dependiente del tiempo $P = P(t)$, $k$ será el parámetro que corresponde a la razón de crecimiento en el caso de poblaciones pequeñas y $N$ será otro parámetro que establece cuando la población comienza a ser demasiado grande. El parámetro $N$ se conoce como capacidad de soporte del entorno. De acuerdo a las hipótesis anteriores, estamos suponiendo que $P(t)$ crece si $P(t) < N$ y decrece si $P(t) > N$. Ahora que conocemos las variables que estarán presente en el modelo, matemáticamente podemos escribir a las hipótesis como:
$\dfrac{dP}{dt} = kP$ $\hspace{0.5cm}$ si $P$ es pequeña.
$\dfrac{dP}{dt} < 0$ $\hspace{0.8cm}$ si $P$ es grande, tal que $P > N$
Queremos una expresión (ecuación diferencial) que involucre ambas hipótesis. Supongamos que la ecuación que buscamos es de la forma
$$\dfrac{dP}{dt} = k \alpha P \label{13} \tag{13}$$
Donde $\alpha$ es una función que debe acoplarse a las hipótesis. Para que satisfaga la primea hipótesis debe ocurrir que $\alpha$ sea cercano a $1$ cuando $P$ es pequeño y que $\alpha < 0$ cuando $P > N$. La expresión más simple que satisface esto es
$$\alpha = 1 -\dfrac{P}{N} \label{14} \tag{14}$$
Podemos notar que si $P = 0$, entonces $\alpha = 1$ y si $P > N$, entonces $\alpha < 0$. Por lo tanto, la ecuación diferencial que describe esta situación es:
$$\dfrac{dP}{dt} = k \left(1 -\dfrac{P}{N}\right) P \label{15} \tag{15}$$
Éste es el modelo logístico de la población con velocidad de crecimiento $k$ y capacidad de soporte $N$. Como podemos notar es una ecuación diferencial no lineal y su solución la analizáremos con detalle más adelante en el curso.
$\square$
Sistemas Depredador – Presa
Para concluir estudiemos otro de los modelos más estudiados en ecuaciones diferenciales, el modelo depredador – presa. En el mundo ninguna especie vive aislada y sus interacciones pueden proporcionar algunos de los modelos más interesantes por estudiar. El problema que analizaremos es en el que una especie se come a otra, con fines ilustrativos consideremos a la especie depredador como zorros y a la especie presa como conejos. Llamemos $Z(t)$ a la variable dependiente que describe el número de zorros que hay en una cierta región y sea $C(t)$ otra variable dependiente que describe el número de conejos que hay en esa misma región, ambas funciones son dependientes del tiempo $t$. Nuestras hipótesis tienen que ser tales que describan el aumento o disminución de ambas poblaciones de acuerdo a las interacciones que hay entre zorros y conejos, es claro que si hay muchos conejos los zorros tendrán alimento y su población crecerá, mientras que la de conejos disminuirá y por otro lado, si hay pocos conejos la población de zorros disminuirá (morirán por falta de alimento), mientras que la de conejos aumentará. Las hipótesis que consideraremos son las siguientes:
Si no hay zorros presentes, los conejos se reproducen a una tasa proporcional a su población y no les afecta la sobrepoblación.
Los zorros se comen a los conejos y la razón a la que los conejos son devorados es proporcional a la tasa a la que los zorros y conejos interactúan.
Sin conejos que comer, la población de zorros disminuirá a una tasa proporcional a ella misma.
La tasa de nacimientos de los zorros crece en proporción al número de conejos comidos por zorros que, por la segunda hipótesis, es proporcional a la tasa a la que los zorros y conejos interactúan.
Las variables que tenemos hasta ahora son el tiempo $t$ y las poblaciones $Z(t)$ y $C(t)$, para satisfacer las hipótesis necesitamos de parámetros que las modelen. Los parámetros que consideraremos son los siguientes:
$a$ es el coeficiente de la tasa de crecimiento de conejos.
$b$ es la constante de proporcionalidad que mide el número de interacciones conejos-zorros en las que el conejo es devorado.
$c$ es el coeficiente de la tasa de muertes de zorros.
$d$ es la constante de proporcionalidad que mide el beneficio a la población de zorros de un conejo devorado.
Tomaremos la convención de que todos estos parámetros son positivos. En este caso particular tenemos dos variables dependientes del tiempo por lo tanto será necesario encontrar dos ecuaciones que modelen al sistema. Para que sea más intuitivo entender el modelo vamos a mostrar las ecuaciones que modelan el sistema y veamos por qué son así.
La primer hipótesis nos habla de una relación proporcional en el crecimiento de la población de conejos cuando no hay zorros presentes, de ahí el término $aC$ de la primer ecuación, lo mismo ocurre con la tercera hipótesis, pero en este caso se trata de un decremento de población de zorros tras la falta de conejos, por ello el signo menos en el término $-cZ$ de la segunda ecuación. Por otro lado, la segunda y cuarta hipótesis nos habla de una interacción entre los zorros y los conejos, esta interacción puede ser modelada con el producto $CZ$, con este producto hacemos que la interacción aumente si $C$ o $Z$ aumentan, pero desaparece si $C = 0$ o $Z = 0$, así en el caso de la segunda hipótesis los conejos son devorados de manera proporcional a la interacción entre zorros y conejos, por ello agregamos el término $-bCZ$ en la primer ecuación, el signo menos indica que el número de conejos debe disminuir, pues están siendo devorados, así mismo, la cuarta hipótesis nos habla de un crecimiento en el número de zorros al comer conejos, esta interacción es modelada con el término $dCZ$, en este caso es positivo ya que los zorros están aumentando en número. Este análisis es lo que le da sentido al modelo (\ref{16}) que hemos creado.
Algo interesante que notamos es que ahora tenemos dos ecuaciones diferenciales que modelan el fenómeno. Cuando hay dos o más ecuaciones diferenciales decimos que es un sistema de ecuaciones diferenciales, en este caso este sistema de ecuaciones lo llamamos sistema de primer orden de ecuaciones diferenciales ordinarias, se dice también que el sistema es acoplado porque las tasas de cambio $\dfrac{dC}{dt}$ y $\dfrac{dZ}{dt}$ dependen tanto de $C$ como de $Z$. Los sistemas de ecuaciones diferenciales será un tema que estudiaremos en la tercera unidad del curso.
Una solución al modelo que hemos construido consiste en encontrar un par de funciones $C(t)$ y $Z(t)$ que describan las poblaciones de conejos y zorros como funciones del tiempo. Como el sistema es acoplado, no podemos determinar cada una de esas funciones de forma aislada, sino que debemos resolver ambas ecuaciones diferenciales de forma simultánea, sin embargo en este caso no es posible determinar de modo explícito formulas para $C(t)$ y $Z(t)$, no pueden ser expresadas en términos de funciones conocidas tales como polinomios, senos, cosenos, exponenciales, etcétera. Más adelante veremos que las funciones $C(t)$ y $Z(t)$ existen, pero entonces, ¿cómo conocerlas?. En la siguiente entrada estudiaremos un método cualitativo de las ecuaciones diferenciales que puede ser un método que nos ayude en estos casos, por ejemplo.
$\square$
Por supuesto estos son sólo algunos problemas ilustrativos en los que las ecuaciones diferenciales modelan algún fenómeno natural, pero la cantidad de fenómenos que involucran ecuaciones diferenciales son enormes y un tanto el objetivo es que conforme vayamos aprendiendo seamos capaces de construir nuestros propios modelos sobre algún fenómeno que observemos a nuestro alrededor.
Tarea moral
Los siguientes ejercicios no forman parte de la evaluación del curso, pero servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.
Dada la ecuación diferencial y su solución general, verificar que la función $y(x)$ es solución, determinar la solución particular dadas las condiciones iniciales y determinar el intervalo de solución $\delta$ en donde puede estar definida dicha solución.
ha sido propuesto como un modelo para un sistema depredador – presa de dos especies particulares de microorganismos (con $a$, $b$ y $c$ parámetros positivos).
¿Qué variable, $x(t)$ o $y(t)$, representa a la población depredadora? y ¿qué variable representa a la población presa?.
¿Qué le pasa a la población depredadora si la presa se extingue?.
Más adelante…
Más adelante aprenderemos a resolver ecuaciones diferenciales ordinarias de primer orden de forma analítica, una vez que estemos listos puede ser conveniente regresar a esta entrada e intentar resolver las ecuaciones diferenciales que modelan cada uno de los problemas vistos para extrapolar en los resultados.
Pero antes de estudiar métodos analíticos estudiaremos un método geométrico o mejor conocido como método cualitativo de las ecuaciones diferenciales que nos permitirá describir las soluciones sin conocer explícitamente la forma analítica de las funciones solución.
Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»
(Trabajo de titulación asesorado por la Dra. Diana Avella Alaminos)
Introducción
Ya vimos la definición de un grupo. Es un conjunto con una operación binaria que se comporta «bien», es decir, que es asociativa, tiene un neutro y tal que todo elemento tiene un inverso.
Ahora nos interesa trabajar con una subcolección de $G$, llamémosla $H$. Estudiaremos qué se necesita para que $H$ sea un grupo en sí mismo. La idea es trabajar con la misma operación de $G$, pero ahora usando sólo los elementos de $H$. Para que la operación $*$ siga siendo binaria en $H$, necesitamos que $*$ sea cerrada en $H$. Además, necesitamos que el neutro de $G$, $e_G$, sea elemento de $H$. Porque si $e_G$ deja fijos a todos los elementos de $G$, en particular deja fijos a todos los elementos de $H$. Y la tercera condición es la de los inversos, para todo elemento en $H$, su inverso también debe estar en $H$. La asociatividad, se «hereda» al restringir la operación $*$ a $H$. De esta manera, nos podremos olvidar de $G$ y concentrarnos en $H$.
En esta entrada veremos la definición formal de subgrupos y algunos ejemplos para que quede más clara la definición y la utilidad de definir un grupo dentro de otro.
Definiendo a los subgrupos
Comencemos con la definición formal de subgrupos.
Definición. (Subgrupo) Sean $G$ un grupo y $H$ un subconjunto de $G$. Decimos que $H$ es un subgrupo de $G$ si cumple lo siguiente:
El neutro $e_G$ de $G$ está en $H$, es decir, $e_G \in H$.
$H$ es cerrado con la operación, es decir, si $a, b \in H$, entonces, $ab\in H$.
Todo elemento de $H$ tiene su inverso en $H$. Es decir, si $a \in H$, entonces $a^{-1} \in H$.
Notación. $H \leq G$ denotará que $H$ es subgrupo de $G$.
Ejemplos.
Si $G$ es un grupo, $\{e\}$ y $G$ son subgrupos de $G$. Puede haber muchos más, pero al menos esos dos seguro son subgrupos.
Sea $X$ un conjunto. Entonces $\cS_X = \{f:X \to X | \; f \text{ es biyectiva en } G\}$ es un grupo con la composición. Dado $x_0 \in X$ consideramos todos los elementos de $\cS_X$ que dejan fijo a $x_0$ $\{f \in \cS_X \;|\; f(x_0) = x_0\}$. Este es un subgrupo de $\cS_X$.
Consideremos $(\z, +)$ y su subconjunto $\{n \in \z \;|\; n \text{ es múltiplo de } 2\} \leq \z$. Podemos generalizarlo, dado $m\in\z$ consideremos el conjunto de todos los múltiplos de $m$. Este conjunto se denota como $m\z := \{n \in \z \;|\; n \text{ es múltiplo de } m\} \leq \z$ y se tiene que $m\z \leq \z$.
Caracterizaciones de los subgrupos
Observación 1. Dado $G$ un grupo y $H$ un subconjunto de $G$, $H$ es un subgrupo de $G$ si y sólo si
$H \neq \emptyset$.
Si $a,b\in H$, entonces $ab^{-1}\in H$.
Demostración. La demostración quedará como ejercicio.
Observación 2. Dado $G$ un grupo y $H$ un subconjunto de $G$, $H$ es un subgrupo de $G$ si y sólo si $H$ es un grupo con la operación restringida a $H$.
Demostración.
$|\Rightarrow)$ Supongamos que $H \leq G$.
Por el inciso 2 de la definición de subgrupo, la operación es cerrada en $H$, entonces es una operación binaria en $H.$
Por el inciso 1 de la definición, $e_G \in H$, y sabemos que $e_G * a = a * e_G$ para toda $a \in G$. En particular $e_G * a = a * e_G$ para toda $a \in H$. Así $e_G$ es neutro en $H$.
Sea $a\in H$. Por el inciso 3 de la definición de subgrupo, $a^{-1}\in H$, es decir el inverso de $a$ en $G$ está en $H$, entonces existe $a^{-1} \in H$ tal que $aa^{-1} = a^{-1}a = e_G = e_H$, y así $a^{-1}$ es el inverso de $a$ en $H$.
Por lo tanto, $H$ es un grupo con la operación restringida.
$\Leftarrow |)$ Supongamos que $H$ es un grupo con la operación restrigida. Entonces, $H$ tiene un neutro $e_H \in H.$
Aquí hay que hacer una observación. En principio no sabemos que el neutro de $G$ y el neutro de $H$ son el mismo, porque $e_H$ es un neutro restringido a $H$ y puede no serlo fuera del subconjunto. Además, que sean distintos no rompe la unicidad del neutro ya que $e_H$ es el neutro en $H,$ no en $G$ así que no estamos hablando de dos neutros distintos en $G;$ y si $e_G$ es el neutro en $G,$ pero $e_G \not\in H,$ de nuevo no se rompe la unicidad pues sólo hay un neutro en $H$. Así, lo primero que tenemos que demostrar, es que $e_H = e_G$. Las siguientes operaciones las realizaremos en $G$, porque no podemos asegurar que $e_G$ es un elemento de $H$.
\begin{align*} e_H e_G &= e_H & e_G \text{ es neutro en } G \\ &= e_H e_H & e_H \text{ es neutro en } H. \end{align*}
Entonces $e_H e_G = e_H e_H$ y por la cancelación en $G$, $e_G = e_H$. Así $e_G \in H$.
Sean $a,b \in H$. Como $H$ es un grupo con la operación restringida, esta operación es una operación binaria en $H$ y por tanto cerrada. Así $ab\in H$.
Sea $a\in H$. Como $H$ es un grupo con la operación restringida, $a$ tiene un inverso en $H$, digamos $\hat{a} \in H,$ tal que $a \hat{a} = \hat{a} a = e_H$.
Sea $a^{-1}$ el inverso de $a$ en $G$. Entonces $aa^{-1} = a^{-1}a = e_G$. Como $e_H = e_G$, si sustituimos $e_H = a \hat{a}$ y $e_G = aa^{-1}$ obtenemos:
\begin{align*} a \hat{a} &= a a^{-1}\\ \hat{a} &= a^{-1} & \text{por la ley de cancelación en } G. \end{align*}
Así $a^{–1} \in H$.
Por lo tanto $H \leq G$.
$\blacksquare$
Caracterización de subgrupos finitos
Ya teniendo la definición de subgrupo, podemos considerar sólo subconjuntos finitos de un grupo $G$. En este caso basta pedir sólo dos condiciones al subconjunto para que sea un subgrupo: que sea no vacío y que sea cerrado bajo la operación.
Proposición. Sean $G$ un grupo y $H$ un subconjunto finito de $G$ y no vacío. $H$ es un subgrupo de $G$ si y sólo si $ab \in H \quad \forall a,b \in H$.
Demostración. Sea $G$ un grupo. Consideremos $H$ un subconjunto finito y no vacío de $G$.
$|\Rightarrow)$ Supongamos que $H\leq G$, entonces se cumple la definición de subgrupo. En particular se cumple el inciso 2, es decir, el producto en $H$ es cerrado.
$\Leftarrow|)$ Supongamos que el producto en $H$ es cerrado. Como $H\neq \emptyset$ consideremos $h \in H$.
Como el producto de $H$ es cerrado, tenemos que $h^n \in H$ para toda $n \in \z^+$. Entonces los elementos de la lista: $h, h^2, h^3, \cdots$ están en $H$, y como $H$ es finito debe haber repeticiones.
Sean $l, m \in \z^+$ con $l < m$ tales que $h^l = h^m$. Como $h^l \in G$ consideremos su inverso $h^{-l} \in G.$ Multiplicando por $h^{-l}$ tenemos que
$$h^m h^{-l} = h^l h^{-l} = e_G.$$
Por las leyes de los exponentes
$$h^{m-l} = e_G\quad$ con $\; m-l \in \z^+.$$
Recordemos que $h^n \in H$ para toda $n \in \z^+$, entonces $e_G \in H$. Además, $h h^{m-l-1} = e_G$. Entonces tenemos dos casos. Si $m-l-1 = 0$, entonces $h=e_G\in H$ y $h$ es su propio inverso. Si $m-l-1\in \z^+$, entonces $h^{m-l-1} \in H$, y como $h h^{m-l-1} = e_G$, entonces $h^{m-l-1}$ es el inverso de $H.$
Así $H$ es cerrado bajo inversos y por lo tanto $H$ es un subgrupo de $G$.
Tarea moral
Demuestra que el ejemplo 2 de la definición de subgrupo efectivamente es un subrupo de $\cS_X$.
Para que un subconjunto $H$ de un grupo $G$ sea un subgrupo ¿es necesario pedir que $H$ tenga al neutro o se puede deducir de la condición de cerradura bajo producto y de la cerradura de los inversos?
Demuestra la observación 1.
Prueba o da un contraejemplo: un subconjunto $H$ de un grupo $G$ es un subgrupo si y sólo si $H$ es no vacío y para cualesquiera dos elementos $a,b \in H$ se tiene que $ab \in H$.
Investiga lo que es el diagrama reticular o diagrama de Hasse de los subgrupos de un grupo.
Más adelante…
En la siguiente entrada seguiremos profundizando en los subgrupos. Especialmente analizaremos cuántas veces podemos multiplicar un elemento por sí mismo sin que se repita el resultado. En el caso en que se trate de un subgrupo finito el hecho de que existan repeticiones en las potencias de un elemento se puede justificar con los argumentos que se dieron en la prueba de la última proposición que vimos.
Hasta ahora, describimos la recta de distintas maneras en el espacio $\mathbb{R}^2$. A partir de esto, es posible ampliar esas definiciones de recta al espacio $\mathbb{R}^n$, en especial a $\mathbb{R}^3$. Para este último caso, de manera escrita lo único que tendríamos que hacer sería establecer los puntos que definen a la recta dentro de $\mathbb{R}^3$; en la parte geométrica, estamos agregando una dimensión más al graficar, por lo que tenemos más opciones aún.
En esta entrada ampliaremos esas definiciones de recta al espacio vectorial $\mathbb{R}^3$ y el siguiente paso será definir el plano en este mismo espacio a partir de las definiciones mencionadas al inicio de este párrafo.
Rectas en $\mathbb{R}^3$
Comencemos esta entrada redefiniendo la recta en el espacio $\mathbb{R}^3$ a partir de las dos definiciones que tenemos de este elemento hasta ahora.
Definición. Una recta en forma paramétrica en $\mathbb{R}^3$ consiste de tomar un punto $P \in \mathbb{R}^3$ y otro punto (o vector) dirección $Q \in \mathbb{R}^3$ y considerar el conjunto
$L=\{ P+rQ : r \in \mathbb{R} \}$
Definición. Una recta en forma baricéntrica en $\mathbb{R}^3$ consta de tomar puntos distintos $P$ y $Q$ $\in \mathbb{R}^3$ y considerar al conjunto
$L=\{ rP+sQ : r,s \in \mathbb{R}, r+s=1 \}$
En el siguiente interactivo ponle Play a los delizadores para comprender mejor estas dos definiciones de recta en el espacio. Nota que $C$ es la definición paramétrica de la recta, cuyo parámetro es $a$; mientras que $F$ es la recta en forma baricéntrica que pasa por los puntos $A$ y $E$.
Si bien los deslizadores en este interactivo sólo corren de$-2$ a $2$, recuerda que tanto $a$ como $b$ $\in \mathbb{R}$.
En esta entrada comenzamos generalizando las definiciones de recta al espacio $\mathbb{R}^3. Por lo que (siguiendo esta lógica), el siguiente paso es plantear y trabajar la idea de un plano en el espacio.
Plano en forma paramétrica
Si el considerar un punto en $\mathbb{R}^3$ al cual se le suman múltiplos de un punto director (también en $\mathbb{R}^3$) obtenemos una recta en este espacio, ¿entonces qué necesitamos para describir un plano en el espacio?
Definición. Un plano en forma paramétrica en $\mathbb{R}^3$ consiste de tomar un punto $P \in \mathbb{R}^3$ y dos puntos dirección $Q, R \in \mathbb{R}^3$ y considerar el conjunto
$\Pi = \{ P+rQ+sR : r,s \in\mathbb{R} \}$
Para continuar, analicemos esta definición por partes con ayuda de lo que hemos descrito hasta ahora en esta entrada. Al tomar $r$ fijo en la parte de la definición dada por $rQ+sR$, obtenemos una recta que pasa por $rQ$ con dirección $R$; . De manera análoga, al tomar $s$ fijo, obtenemos una recta que para por $sR$ y tiene dirección $Q$.
Tomando a $Q=(-2,5,1)$ y a $R=(3,4,5)$ como ejemplo, usa los deslizadores en el siguiente interactivo para notar qué pasa cuando fusionas las dos ideas que acabamos de discutir, al establecer un punto $C=rQ+sR$ (con $r$ y $s$ en $\mathbb{R}$).
Ojalá hayas notado que al dejar correr ambos deslizadores, el rastro del punto $C$ describe un plano que claro pasa por $Q$ y $R$, pero pasa por otro punto definido más. Dentro del mismo interactivo, utiliza la herramienta Plano por tres puntos para definir el plano del que hablamos; deja correr los deslizadores y confirma con esto que el rastro de $C$ es este plano.
Para continuar con nuestro análisis, agreguemos la parte faltante al conjunto $\Pi$, el punto $P$. Ojalá recuerdes que en la descripción paramétrica de una recta, el punto que no tiene un parámetro multiplicando es el punto por el que pasa la recta, si ese punto no está, significa que la recta pasa por el origen. Esta idea se repite análogamente en el caso del plano.
En el análisis que acabamos de realizar, el plano descrito por $rQ+sR$, es el plano que tiene como dirección a $Q$ y a $R$ y además pasa por el origen. Al agregar $P$ a la expresión, lo que se obtiene es un plano paralelo al descrito anteriormente, pero esta vez pasa por $P$, es decir, a cada punto del plano $rQ+sR$ se le sumará el punto fijo $P$.
Plano en forma baricéntrica
Continuemos con la lógica que hemos seguido hasta ahora, con lo cual el siguiente paso es definir el plano en forma baricéntrica.
Definición. Un plano en forma baricéntrica en $\mathbb{R}^3$ consta de tomar los puntos $P$, $Q$, y $R$ y considerar el conjunto
$\Pi= \{ pP+qQ+rR : p,q,r \in \mathbb{R}$ y $p+q+r=1 \}$
Al definir el plano de esta manera, lo que debes imaginar es algo distinto a la primera definición que establecimos. Piensa a $\Pi$ como un plano que pasa por los puntos $P$, $Q$ y $R$.
El siguiente interactivo sólo es la ilustración de un plano en su forma baricéntrica.
Ahora que ya definimos de maneras distintas el plano en el espacio, lo más natural sería encontrar la equivalencia entre estas dos definiciones así como lo vimos al hablar de la recta, sólo que en este caso lo formalizaremos con una proposición.
Relación entre las expresiones de un plano
Proposición. Todo plano en forma paramétrica puede expresarse en forma baricéntrica y viceversa.
Lo que nos gustaría hacer para la demostración, sería mostrar que siempre se pueden encontrar $P’$, $Q’$ y $R’$ con los cuales se puede definir un plano en forma baricéntrica de tal manera que ese conjunto sea el mismo que el conjunto que define a un plano en forma paramétrica.
Demostración.
Parte 1: Partamos de un plano en su forma paramétrica al tomar $P,Q,R \in \mathbb{R}^3$ tal que
$\Pi=\{ P+rQ+sR :r,s \in \mathbb{R} \}$
En esta parte de la demostración, nuestro objetivo es encontrar tres puntos en $\Pi$ muy específicos con los cuales podemos describir el mismo plano pero en su forma baricéntrica.
Por lo anterior y yendo directo al grano, busquemos dos puntos en el plano. Si bien podemos escoger cualesquiera valores de $r$ y $s$ para determinar ciertos puntos en el plano, facilitaremos el álgebra al escoger casos particulares de valores para $r$ y $s$ y así obtener tres puntos «prácticos» en el plano que nos servirán para la forma baricéntrica de este. Los valores de los parámetros no serán tomados de manera aleatoria. Por lo que discutimos anteriormente, podemos definir ciertos puntos (en nuestra demostración $P$’, $Q$’ y $R$’) como combinaciones lineales puntuales de $P$, $Q$, $R$.
El caso más sencillo es tomar $r=s=0$ y así obtener el punto $P$’$=P \in \Pi$.
Si ahora $r=0$ y $s=1$, tenemos $R$’$=P+R$.
Y si $r=1$ y $s=0$, obtenemos $Q$’$=P+Q$.
Ya que tenemos estos 3 puntos en $\Pi$, podemos definir el plano en su forma baricéntrica:
Para continuar, afirmamos que $\Pi=\Pi$’, y para comprobarlo, tenemos que checar que cada elemento en $\Pi$, está en $\Pi$’. La manera más sencilla de hacerlo, es tomar un elemento genérico de $\Pi$ (i.e. un elemento que «represente» a todos) y mostrar que está en $\Pi$’.
Tomemos un elemento de $\Pi$, es decir un vector de la forma $P+rQ+sR$.
Por Demostrar: Existen $a,b,c \in \mathbb{R}$, tales que $a+b+c=1$ y además
La primera condición ya cumple algo que queríamos y además, podemos despejar a $a=1-b-c$, que gracias a las otras igualdades que tenemos, conocemos su valor en términos de $r$ y $s$
$a=1-r-s$
Por lo que
$P+rQ+sR=(1-r-s)P+r(P+Q)+s(P+R)$
tal que $(1-r-s)+r+s=1$.
Hasta aquí, lo que hemos demostrado es que cualquier elemento en $\Pi$ lo podemos escribir como un elemento en $\Pi$’, esto es que $\Pi \subseteq Pi$’. Lo que sigue es realizar el camino contrario.
Ahora, lo que queremos es demostrar que $\Pi$’$\subseteq Pi$; para lo cual partiremos de un elemento en $\Pi$’ y buscaremos llegar a un elemento en $\Pi$.
Tomemos un elemento en $\Pi’$, esto es que es de la forma
$aP$’$+bQ$’$+cR$’$=aP+b(P+Q)+c(P+R)$
con $a+b+c=1$. Por medio de álgebra, queremos llegar a una expresión que represente un elemento de $\Pi$
que efectivamente está en $\Pi$, pues es un elemento de la forma $P+rQ+sR$. Por lo que $\Pi$’ $\subseteq \Pi$.
$\therefore$ $\Pi \subseteq \Pi$’ y $\Pi$’ $\subseteq Pi$, entonces $\Pi=\Pi$’. Nota que concluimos esto partiendo de un plano en su forma paramétrica y al hacer el caso de la forma baricéntrica, utilizamos los puntos definidos a partir de la primera forma mencionada.
Parte 2. Para la parte 2, sólo te dare algunos consejos para que completes la demostración, pues es bastante parecida a lo que hicimos en la parte 1. Primero, tienes que partir del plano en su forma baricéntrica, es decir
$\Pi=\{ pP+qQ+rR : p+q+r=1 \text{ con }p,q,r \in \mathbb{R} \}$
Y buscar los puntos $P$’, $Q$’ y $R$’ tales que al tomar $P$’ como punto base y $Q$’ y $R$’ como direcciones, obtengas que $\Pi=\Pi’$.
Si realizas el procedimiento de la manera correcta, llegarás a que los puntos son :
Al completar esta segunda parte, entonces la demostración estará completa.
$\square$
Dimensiones mayores a 3
Para cerrar esta entrada, enunciaremos algunas definiciones que nos ayudarán en un futuro a definir cosas más complejas.
Definición. Sean $u_1$, $u_2$, $\dots$, $u_k$ puntos en $\mathbb{R}^n$. Sean $s_1$, $s_2$, $\dots$, $s_k$ números reales. A una expresión de la forma
$s_1u_2+s_2u_2+\dots+s_ku_k$
le llamamos una combinación lineal de $u_1$, $u_2$, $\dots$ $u_k$.
Ejemplo: Sea el espacio $\mathbb{R}^5$, una combinación lineal en este es
$-5(3,1,0,-2,7)+2(-3,6,8,1,9)+(-3)(3,9,0,-1,-2)$
Definición. A una combinación lineal en donde los coeficientes suman $1$, le llamamos una combinación afín. Esto es que
$s_1+s_2+\dots+s_k=1$
Ejemplo: La combinación del ejemplo anterior no es afín, pues
$-5+2+(-3)=-5+2-3=-8+2=-6 \neq 1$
Sin embargo, podemos obtener una combinación afín con los mismos vectores.
$-4(3,1,0,-2,7)+2(-3,6,8,1,9)+3(3,9,0,-1,-2)$
Es una combinación afín, pues
$-4+2+3=-4+5=1$
Definición. Al conjunto de todas las combinaciones lineales de ciertos vectores dados $u_1$, $u_2$, $\dots$ $u_k$ $\in \mathbb{R}^n$ se le conoce como el subespacio generado por $u_1$, $u_2$, $\dots$ $u_k$ y lo denotamos como
Cerremos esta entrada con una última definición y su respectivo ejemplo.
Definición. Si $A$ es un subconjunto de $\mathbb{R}^n$y $p$ es un vector en $\mathbb{R}^n$, entonces el traslado de $A$ por el vector $p$ es el conjunto
$A+p=p+A= \{ x+p : x \in A \}$
Esta última definición nos es de utilidad para pasar de una recta o un plano que pasa por el origen a otro que pasa por cualquier punto $p$.
Ejemplo: Sea $\Pi=\{r(5,3,2)+s(-1,7,0): s,r \in mathbb{R}$ el plano que pasa por el origen y que tiene como vectores directores a $(5,3,2$ y $(-1,7,0)$. Entonces el traslado de $\Pi$ por $p=(-2,3,9)$ es el conjunto
Con lo desarrollado en esta entrada seremos capaces de definir ciertos lugares geométricos ya no sólo en el plano, si no también en el espacio. Además, desarrollamos una intuición lógica para continuar construyendo lo que resta del curso.
Tarea moral
En el párrafo siguiente a la definición de un plano en el espacio:
¿Cuál es el parámetro de la recta descrita al tomar $r$ fijo?
¿Cuál es el parámetro de la recta descrita al tomar $s$ fijo?
Completa el interactivo de la sección Plano en el espacio al dibujar el plano definido por los puntos $Q$ y $R$ del interactivo y $P=(-3,2-6)$. Estarás en lo correcto si el plano que obtienes es paralelo al definido por $Q$, $R$ y el origen.
Completa la demostración de la proposición que trata la equivalencia entre las definiciones de plano en el espacio.
¿Qué espacio geométrico define el primer ejemplo de subespacio generado? ¿y el ejemplo 2?
Da una expresión paramétrica para el plano que pasa por los puntos $P=(1,2,0)$, $Q=(1,0,1)$ y $R=(-1,0-2)$.
En la entrada pasada concluimos el estudio de algunas propiedades básicas de una medida de probabilidad. A partir de estas propiedades serás capaz de demostrar muchísimas otras más, que probablemente te encontrarás en tareas, exámenes o en las secciones de ejercicios de tus libros. Por el momento, sigamos con el contenido del curso.
Lo que sigue en el curso es ver tres enfoques de la probabilidad: la probabilidad geométrica, el enfoque frecuentista, y la definición clásica de la probabilidad. Así pues, en esta entrada veremos lo que corresponde a la probabilidad geométrica. Algunos aspectos para tratar con total formalidad este tema son más avanzados. Por ello, veremos este tema «por encima», omitiendo algunas formalidades.
Hay una sección en esta entrada cuyo título lleva un asterisco (*). Cuando las leas, no te preocupes si no entiendes las formalidades, lo importante es que entiendas los resultados.
Motivación de la probabilidad geométrica
Seguramente te ha tocado jugar o espectar algún juego de lanzar cosas. Por ejemplo, el lanzamiento de dardos, o el tiro con arco. La puntuación que obtienes en un juego de este tipo se basa en tu precisión. Es decir, tú arrojas o disparas un objeto hacia una superficie, y obtienes puntos basado en la región de esa superficie a la que le atinaste. Como ejemplo, está la diana de un juego de tiro con arco:
Figura. Diana del juego de tiro con arco. La puntuación que otorga cada región de la diana está indicada por un número dentro de dicha región.
Evidentemente, cuando estás jugando a los dardos o al tiro con arco, usas tu habilidad para intentar juntar la mayor puntuación posible. Sin embargo, podemos volverlo un tema probabilista. ¿Qué pasa si decidimos arrojar un dardo, o disparar una flecha al azar? En otras palabras, que dentro de la superficie dada, escojamos un punto al azar. ¿Cómo determinamos la probabilidad de que el punto elegido caiga dentro de una región dada?
Un primer modelo para acercarnos a este problema es trabajar en $\RR^{2}$, el plano euclidiano. Luego, tomar una región acotada de $\RR^{2}$, digamos, $\Omega$. Además, supondremos que el punto se elige de manera «uniforme» sobre la región $\Omega$. Es decir, que la probabilidad de cualquier subconjunto de $\Omega$ es proporcional a su «área». Por ejemplo, para modelar una diana, podemos tomar a $\Omega$ como un círculo.
Un poco sobre la medida y el σ-álgebra que se utiliza*
Por motivos de tiempo y prerrequisitos, no es posible tratar con mucho detalle la medida ni el σ-álgebra que usaríamos en $\RR^{2}$. Por ello, recomendamos que de esta sección extraigas las ideas y resultados, y que no hagas un esfuerzo excesivo por entender la formalidad. Lo que haremos es partir de los rectángulos en $2$ dimensiones, pues es fácil definir su área.
Definición. Un rectángulo bidimensional cerrado es un subconjunto $R \subseteq \RR^{2}$ de la forma
\[ R = [a_{1}, b_{1}] \times [a_{2}, b_{2}], \]
donde $a_{1}$, $b_{1}$, $a_{2}$ y $b_{2} \in \RR$. En consecuencia, el área de $R$ es
\[ \mu(R) = (b_{1} − a_{1})(b_{2} − a_{2}). \]
Consideraremos a $\emptyset$ como un rectángulo con $\mu(\emptyset) = 0$. Denotaremos al conjunto de todos los rectángulos bidimensionales cerrados por $\mathscr{R}(\RR^{2})$. Veremos muy por encima la manera en que se construye matemáticamente la noción de «área». Lo que haremos será aproximar el área de cualquier subconjunto $E$ de $\RR^{2}$ por afuera, a través del área de familias de rectángulos que contengan a $E$.
Definición. La medida exterior de Lebesgue $\mu^{*}(E)$ de un subconjunto $E \subseteq \RR^{2}$, es
donde el ínfimo se toma sobre las familias numerables de rectángulos cuya unión contiene a $E$. La función $\mu^{*}\colon \mathscr{P}(\RR^{2} \longrightarrow [0, \infty]$ es llamada la medida exterior de Lebesgue.
Varios conceptos en la teoría de la medida reciben su nombre en honor a Henri Lebesgue, un importantísimo matemático francés que desarrolló toda una teoría de integración de funciones.
En la definición anterior, se admite que $\mu^{*}(E)$ valga $\infty$. Esto es algo que no nos preocupará mucho en la probabilidad geométrica, pero es importante tenerlo en cuenta. Así, la función $\mu^{*}$ nos da el área de cualquier región «agradable» de $\RR^{n}$, y la obtiene aproximando por afuera con rectángulos.
Figura. Representación visual de lo que hace $\mu^{*}$. Al ser el ínfimo, nos interesa la aproximación del área de la región más refinada posible a partir de rectángulos. Haz click aquí para ir a la fuente original de esta imagen.
Ahora, lo que nos interesa es conseguir un σ-álgebra sobre la que la medida exterior de Lebesgue sea, efectivamente, una medida. La siguiente es la definición de Carathéodory (pues fue formulada por el matemático griego Constantin Carathéodory) de medibilidad. Esto es, los conjuntos que satisfacen este criterio son a los que se les podrá medir su «área».
Definición. Un subconjunto $A \subseteq \RR^{2}$ es Lebesgue-medible si para cualquier subconjunto $E \subseteq \RR^{2}$ se cumple que
Denotaremos al conjunto de todos los conjuntos Lebesgue-medibles en $\RR^{2}$ por $\mathcal{L}(\RR^{2})$. Esta condición puede interpretarse como que un conjunto es medible si divide a otros conjuntos de «buena» manera. Resulta que $\mathcal{L}(\RR^{2})$ es un σ-álgebra. Además, también se tiene que $\mu^{*}$ restringida a $\mathcal{L}(\RR^{2})$ es una medida (no de probabilidad, simplemente medida. Es lo mismo pero sin pedir que la medida de $\RR^{2}$ sea $1$). Así, se llega a la siguiente definición.
Definición. La función $\lambda\colon \mathcal{L}(\RR^{2}) \longrightarrow [0, \infty]$ definida como
la restricción de $\mu^{*}$ a $\mathcal{L}(\RR^{2})$, es llamada la medida bidimensional de Lebesgue en $\RR^{2}$.
La medida de Lebesgue asigna a cada región $E \subseteq \mathcal{L}(\RR^{2})$ (las cuales son regiones «bonitas», a las que se les puede asignar un área, en el sentido de la definición de Lebesgue-medible) el valor $\lambda(E)$, que corresponde a su área.
Definición de la probabilidad geométrica
Así, si ahora tomamos alguna región de $\RR^{2}$ para la cual su área está bien definida, podemos construir una medida de probabilidad en la que la probabilidad de cada sub-región es proporcional a su área. Si $\Omega$ es un subconjunto acotado de $\RR^{2}$ que es Lebesgue-medible, entonces su área es finita. Más aún, podemos considerar a
el conjunto de todos los subconjuntos de $\Omega$ que son Lebesgue-medibles, este es un σ-álgebra sobre $\Omega$. En consecuencia, podemos definir una medida, y dar lugar a un espacio de probabilidad.
Definición. Sea $\Omega \subseteq \RR^{2}$ un conjunto acotado y con área bien definida mayor a $0$. Sea $\mathcal{L}(\Omega)$ el conjunto de todos los subconjuntos de $\Omega$ con área bien definida. Se define la probabilidad geométrica $\mathbb{P}\colon \mathcal{L}(\Omega) \longrightarrow \RR$ como sigue. Para cada $A \in \mathcal{L}(\Omega)$, se define $\Prob{A}$ como
En la definición anterior, el «área» de $A$, que denotamos por $\text{Area}(A)$, es precisamente $\lambda(A)$, la medida bidimensional de Lebesgue. No centres mucho tu atención en el uso de los conjuntos Lebesgue-medibles ni en la medida de Lebesgue. Nuestra intención es exhibir que la noción de «área» puede ser formalizada matemáticamente, y despertar tu interés por estudiar estos temas con más profundidad. Lo importante con lo que te debes de quedar es que, a cada subconjunto de $\Omega$ con área bien definida, se le asigna una probabilidad que es la proporción entre su área y el área de $\Omega$.
Esta medida de probabilidad asume que se cumple una propiedad llamada equiprobabilidad. Esto es, para cada $A \in \mathcal{L}(\Omega)$, no importa cuáles sean los elementos de $A$, lo único que importa para determinar su probabilidad es su área.
Un primer ejemplo de probabilidad geométrica
Ejemplo. Imagina que vas a tomar un autobús en una parada. Supongamos que tú y el autobús llegarán en tiempos aleatorios a la parada, entre las 12pm y la 1pm. Es decir, los tiempos de llegada tuyo y del autobús son valores $x$, $y \in [0,60]$, pues el tiempo (en minutos) entre las 12pm y la 1pm es de $60$ minutos. Además, supongamos que cuando el autobús llega, permanece en la parada $5$ minutos antes de irse; y cuando tú llegas, esperas $20$ minutos antes de irte si el autobús no llega. ¿Cuál es la probabilidad de que tomes el autobús?
Para resolver este problema, observa que $\Omega$ en este puede considerarse como
y que dado un par ordenado $(x,y)$, $x$ es tu tiempo de llegada y $y$ es el tiempo de llegada del autobús. Gráficamente, todos los posibles resultados están dentro de un cuadrado:
Luego, tenemos que encontrar las regiones que corresponden al evento en el que tú y el autobús coinciden. Primero, sabemos que el autobús espera $5$ minutos después de llegar, por lo que tú debes de llegar dentro de esos $5$ minutos que espera. Es decir, $x$, tu tiempo de llegada, debe de ser menor o igual a $y + 5$. Así, $x \leq y + 5$, o equivalentemente, $y \geq x – 5$. Este sería un evento $A$, dado como sigue:
\[ A = \{ (x,y) \in \Omega \mid y \geq x – 5 \}. \]
Figura. El evento $A$ de todos los pares ordenados $(x,y)$ \in \Omega$ tales que $y \geq x – 5$.
Por otro lado, tú esperas el autobús por $20$ minutos, por lo que no puedes llegar más de $20$ minutos antes que el autobús. Es decir, $x$ debe de ser mayor o igual a $y − 20$. Así, $x \geq y − 20$, o equivalentemente, $y \leq x + 20$. Por ello, el evento $B$ que representa a esta situación es
\[ B = \{ (x,y) \in \Omega \mid y \leq x + 20 \}. \]
Figura. El evento $B$ de todos los pares ordenados $(x,y) \in \Omega$ tales que $y \leq x + 20$.
Intersecando ambas regiones obtenemos la región en donde tú y el autobús coinciden.
Figura. En todos los pares $(x,y) \in A \cap B$, el resultado es que tomas el autobús.
Y podemos utilizar la probabilidad geométrica para dar solución a este problema: la probabilidad de que tomes el autobús es el área de esta última región dividida entre el área total. Podemos utilizar la regla de complementación para facilitar el cálculo, pues las regiones en donde no tomas el autobús son triángulos y es más fácil calcular su área.
Figura. El área correspondiente a $(A \cap B)^\mathsf{c}$. Su área es más fácil de calcular que el área de $A \cap B$.
La región de arriba es un triángulo rectángulo cuyos catetos miden $40$, así que su área es $\frac{40^{2}}{2}$. De igual forma, la región de abajo es un triángulo rectángulo cuyos catetos miden $55$, por lo que su área es $\frac{55^{2}}{2}$. Por otro lado, el área de $\Omega$ es $60^2$, pues es un cuadrado cuyos lados miden $60$. Así, tenemos que
En conclusión, la probabilidad de que tomes el autobús es aproximadamente $0.35764$, o alternativamente, es aproximadamente un $35.764\%$.
El problema de la aguja de Buffon
En el siglo XVIII, el naturalista francés Georges-Louis Leclerc formuló un problema con un resultado muy interesante.
Supón que tenemos un piso hecho de bandas de madera, todas con la misma anchura, y dejamos caer una aguja al azar sobre el piso. ¿Cuál es la probabilidad de que la aguja caiga sobre la línea entre dos bandas?
Este problema es conocido como la aguja de Buffon en honor a su creador: Georges-Louis Leclerc, conde de Buffon. Una solución utilizando algunos hechos geométricos fue publicada por Joseph-Émile Barbier en 1860 para el caso en el que la longitud de la aguja es menor a la anchura de las tablas de madera. Para resolver este problema, sea $l$ la longitud de la aguja y sea $D$ el ancho de cada banda de madera. Asumiremos que $0 < l < D$.
Figura. Ilustración de las primeras variables en el problema. $l$ es la longitud de la aguja, y $D$ es la anchura de cada banda de madera. Las bandas se ilustran con colores alternados.
Ahora, sea $\theta$ el ángulo agudo que forma la aguja con el eje horizontal, y sea $x$ la distancia entre el centro de la aguja y la línea entre dos bandas más cercana.
Figura. Visualización de los valores $x$ y $\theta$. $\theta$ se toma siempre como el ángulo agudo que forma la aguja con el eje horizontal. Marcamos con rojo el centro de una aguja que no está sobre la línea entre dos bandas, y con verdeel centro de una aguja que sí está sobre una línea.
Observa que la aguja cae sobre la línea entre dos bandas si y sólamente si $x \leq \frac{l \cos{\theta}}{2}$. Esto pasa porque $l \cos{\theta}$ es la distancia horizontal de la aguja, así que $\frac{l \cos{\theta}}{2}$ es la distancia entre el centro de la aguja y la proyección sobre el eje horizontal de sus extremos. Por lo tanto, si la distancia entre el centro de la aguja y la línea entre dos bandas más cercana es menor o igual a $\frac{l \cos{\theta}}{2}$, la aguja atraviesa esta línea.
Figura. Comparación de $x$ con $l \cos{\theta}$. Observa cómo en la aguja de la izquierda, $x > \frac{l \cos{\theta}}{2}$, mientras que en la de la derecha, $x \leq \frac{l \cos{\theta}}{2}$.
Ahora, asumimos que los valores de $x$ y $\theta$ son aleatorios. Además, se debe de cumplir que $0 < x < \frac{D}{2}$, pues $0 < l < D$ (así que la distancia a la línea entre bandas más cercana es menor a $\frac{D}{2}$); y además $0 < \theta < \frac{\pi}{2}$. Por lo tanto, el espacio muestral de este fenómeno puede verse como
Y vimos que la aguja cae sobre la línea entre dos bandas si y sólamente si $x \leq \frac{l \cos{\theta}}{2}$, por lo que el evento $A$ que nos interesa es
\[ A = \left\lbrace (\theta,x) \in \Omega \; \middle| \; x \leq \frac{l \cos{\theta}}{2} \right\rbrace. \]
Observa que el área de $A$ se ve como en la siguiente figura:
Figura. Representación gráfica de $\Omega$ y del evento que nos interesa, $A$.
Así, el área de $A$ la podemos calcular integrando la función $\frac{l \cos{\theta}}{2}$ de $0$ a $\frac{\pi}{2}$. Así,
Una consecuencia interesante de la solución a este problema es que la probabilidad resultante involucra a $\pi$, una constante matemática muy importante. Mucho más adelante veremos una forma curiosa de aproximar el valor de $\pi$ repitiendo el experimento de la aguja de Buffon muchas veces.
Tarea moral
Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.
Sea $\Omega \subseteq \RR^{2}$ un conjunto acotado y con área bien definida. Sea $\mathcal{L}(\Omega)$ el conjunto de todos los subconjuntos de $\Omega$ que son Lebesgue-medibles, y sea $\mathbb{P}\colon \mathcal{L}(\Omega) \longrightarrow \RR$ la probabilidad geométrica. Es decir, para cada $A \in \mathcal{L}(\Omega)$, se define $\Prob{A}$ como \[ \Prob{A} = \frac{\text{Area}(A)}{\text{Area}(\Omega)}.\]Explica por qué $(\Omega, \mathcal{L}(\Omega), \mathbb{P})$ es un espacio de probabilidad. En particular, como ya acordamos que $\mathcal{L}(\Omega)$ es un σ-álgebra, basta con que expliques por qué la probabilidad geométrica es una medida de probabilidad.
Vuelve a hacer el ejercicio del autobús pero ahora supón que tú esperas al autobús durante $15$ minutos, y el autobús espera $7$ minutos.
En el problema de la aguja de Buffon, explica por qué si $l < D$ (esto es, la longitud de la aguja es menor que la anchura de las bandas), podemos concluir que $x$ (la distancia entre el centro de la aguja y la línea entre dos bandas más cercana) es menor a $\frac{D}{2}$.
Explica por qué si la longitud de la aguja $l$ es mayor a $D$ no podemos solucionar el problema de la forma en que lo hicimos.
Más adelante…
La probabilidad geométrica presenta una herramienta muy útil para dar solución a problemas con una interpretación espacial directa, como es el caso del problema de la aguja de Buffon. Además, resulta útil como una herramienta auxiliar para resolver ejercicios que no necesariamente tienen una interpretación visual directa, como el ejemplo del autobús. En conclusión, es una herramienta útil, pero que debes de tener cuidado con sus hipótesis: supone equiprobabilidad sobre el espacio muestral $\Omega$.
En la materia de Probabilidad II estudiarás a fondo la aleatoriedad en varias variables. Esto te dará herramientas más poderosas para describir la aleatoriedad sobre $\RR^2$ (y más allá) sin suponer que el espacio muestral es equiprobable.
Por lo pronto, en la siguiente entrada veremos un enfoque distinto de la probabilidad: la probabilidad frecuentista.