Archivo de la etiqueta: campos vectoriales

Cálculo Diferencial e Integral III: Multiplicadores de Lagrange

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior buscábamos optimizar un campo escalar $f$. Retomaremos este problema, pero ahora agregando restricciones al dominio de $f$. Para ello hablaremos del método de los multiplicadores de Lagrange, el cual nos permitirá dar una solución bajo ciertas condiciones de diferenciabilidad.

Esto en general es lo mejor que podremos hacer. En realidad, los problemas de este estilo son muy difíciles y no tienen una solución absoluta. Si no tenemos las condiciones del teorema de Lagrange, es posible que se tengan que hacer cosas mucho más compliadas para obtener óptimos exactos, o bien que se tengan que hacer aproximaciones numéricas.

En la demostración del teorema de los multiplicadores de Lagrange usaremos el teorema de la función implícita, lo cual es evidencia adicional de lo importante y versátil que es este resultado.

Un ejemplo para motivar la teoría

Imagina que tenemos la función $f(x,y)=x^2+y^2$ y queremos encontrar su mínimo. Esto es muy fácil. El mínimo se da cuando $x=y=0$, pues en cualquier otro valor tenemos un número positivo. Pero, ¿Qué pasaría si además queremos que los pares $(x,y)$ que usamos satisfagan también otra condición?, por ejemplo, que cumplan $$2x^2+3y^2=10$$

En este caso, la respuesta ya no es obvia. Podríamos intentar encontrar el mínimo por inspección, pero suena que será difícil. Podríamos intentar usar la teoría de la entrada anterior, pero esa teoría no nos dice nada de qué hacer con nuestra condición.

La teoría que desarrollaremos a continuación nos permitirá respondernos preguntas de este estilo. En este ejemplo en concreto, puedes pensar que la solución se obtendrá de la siguiente manera: La ecuación $2x^2+3y^2=10$ nos dibuja una elipse en el plano, como se ve en la figura 1 imagen 3. Las curvas de nivel de la superficie dibujada por la gráfica de la función $f$ corresponden a circunferencias concéntricas, cuyo centro es el origen. Al ir tomando circunferencias cada vez mas grandes en el plano comenzando con el punto $(0,0)$ nos quedaremos con la primera que toque a la elipse, de hecho la tocará en dos puntos, digamos $(x_1 ,y_1)$ y $(x_2 ,y_2)$, donde $f(x_1 ,y_1)=f(x_2 ,y_2)$ sería el mínimo buscado, es decir el mínimo que sobre la superficie $f(x,y)$ cumple con la ecuación $2x^2+3y^2=10$.

Figura 1; Imagen 1-Superior izquierda. Tenemos la gráfica de la ecuación $f(x,y)=x^2 + y^2$. Imagen 2- Inferior izquierda. Planos que intersecan a la superficie $f(x,y)$, nos dan las curvas de niver que son circunferencias concéntricas. Imagen 3- Derecha. En azul la elipse dibujada por la ecuación $2x^2 + 3y^2 =10$, y las curvas de nivel que se acercan a ella conforme cortamos mas arriba.

Pero como ahí se da una tangencia, entonces suena que justo en ese punto $(x,y)$ hay una recta simultáneamente tangente a la curva de nivel y a la elipse. Esto nos da una relación entre gradientes. El teorema de multiplicadores de Lagrange detecta y enuncia esta relación entre gradientes con precisión y formalidad, incluso cuando tenemos más de una condición. A estas condiciones también las llamamos restricciones, y están dadas por ecuaciones.

Enunciado del teorema de multiplicadores de Lagrange

A continuación enunciamos el teorema.

Teorema (multiplicadores de Lagrange). Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ es un campo escalar de clase $C^{1}$. Para $m<n$, tomamos $g_{1},\dots ,g_{m}:S\in \subset \mathbb{R}^{n}\rightarrow \mathbb{R}$ campos escalares de clase $C^{1}$ en $S$. Consideremos el conjunto $S^\ast$ donde todos los $g_i$ se anulan, es decir:

$$S^\ast=\{ \bar{x}\in S|g_{1}(\bar{x})=g_2(\bar{x})=\ldots=g_m(\bar{x})=0\}.$$

Tomemos un $\bar{x}_0$ en $S^\ast$ para el cual

$f$ tiene un extremo local en $\bar{x}_0$ para los puntos de $S^\ast$ y
$\triangledown g_{1}(\bar{x}_{0}),\dots ,\triangledown g_{m}(\bar{x}_{0})$ son linealmente independientes.

Entonces existen $\lambda _{1},\dots ,\lambda _{m}\in \mathbb{R}$, a los que llamamos multiplicadores de Lagrange tales que:

\[ \triangledown f(\bar{x}_{0})=\lambda _{1}\triangledown g_{1}(\bar{x}_{0})+\dots +\lambda _{m}\triangledown g_{m}(\bar{x}_{0}).\]

Si lo meditas un poco, al tomar $m=1$ obtenemos una situación como la del ejemplo motivador. En este caso, la conclusión es que $\triangledown f(\bar{x}_0)=\lambda \triangledown g(\bar{x}_0)$, que justo nos dice que en $\bar{x}_0$, las gráficas de los campos escalares $f$ y $g$ tienen una tangente en común.

Demostración del teorema de multiplicadores de Lagrange

Demostración. La demostración del teorema de multiplicadores de Lagrange usa varios argumentos de álgebra lineal. Esto tiene sentido, pues a final de cuentas, lo que queremos hacer es poner un gradiente ($\triangledown f(\bar{x}_0)$) como combinación lineal de otros gradientes ($\triangledown g_1(\bar{x}_0),\ldots, \triangledown g_m(\bar{x}_0)$). A grandes rasgos, lo que haremos es:

Definir un espacio $W$.
Mostrar que $\triangledown g_1(\bar{x}_0),\ldots, \triangledown g_m(\bar{x}_0)$ generan al espacio ortogonal $W^\bot$.
Mostrar que $\triangledown f(\bar{x}_0)$ es ortogonal a todo vector de $W$, por lo cual estará en $W^\bot$ y así por el inciso anterior será combinación lineal de $\triangledown g_1(\bar{x}_0),\ldots, \triangledown g_m(\bar{x}_0)$.

Para construir el espacio $W$ del que hablamos, usaremos el teorema de la función implícita y la regla de la cadena. Empecemos este argumento. Consideremos la siguiente matriz:

\[ \begin{equation} \begin{pmatrix} \frac{\partial g_{1}}{\partial x_{1}}(\bar{x}_{0}) & \dots & \frac{\partial g_{1}}{\partial x_{m}}(\bar{x}_{0}) & \frac{\partial g_{1}}{\partial x_{m+1}}(\bar{x}_{0}) & \dots & \frac{\partial g_{1}}{\partial x_{n}}(\bar{x}_{0}) \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ \frac{\partial g_{m}}{\partial x_{1}}(\bar{x}_{0}) & \dots & \frac{\partial g_{m}}{\partial x_{m}}(\bar{x}_{0}) & \frac{\partial g_{m}}{\partial x_{m+1}}(\bar{x}_{0}) & \dots & \frac{\partial g_{1}}{\partial x_{n}}(\bar{x}_{0}) \end{pmatrix}. \end{equation}\]

Dado que los vectores $\triangledown g_1(\bar{x}_0),\ldots, \triangledown g_m(\bar{x}_0)$ son linealmente independientes, el rango por renglones de esta matriz es $m$, de modo que su rango por columnas también es $m$ (tarea moral). Sin perder generalidad (quizás tras hacer una permutación de columnas, que permuta las entradas), tenemos que las primeras $m$ columnas son linealmente independientes. Así, la matriz

\[ \begin{pmatrix} \frac{\partial g_{1}}{\partial x_{1}}(\bar{x}_{0}) & \dots & \frac{\partial g_{1}}{\partial x_{m}}(\bar{x}_{0}) \\ \vdots & \ddots & \vdots \\ \frac{\partial g_{m}}{\partial x_{1}}(\bar{x}_{0}) & \dots & \frac{\partial g_{m}}{\partial x_{m}}(\bar{x}_{0}) \end{pmatrix}\]

es invertible. Hagamos $l=n-m$ y reetiquetemos las variables coordenadas $x_1,\ldots,x_m$ como $v_1,\ldots,v_m$, y las variables coordenadas $x_{m+1},\ldots,x_n$ como $u_1,\ldots, u_l$. Escribiremos $\bar{x}_0=(\bar{v}_0,\bar{u}_0)$ para referirnos al punto al que hacen referencia las hipótesis. Esto nos permite pensar $\mathbb{R}^{n}=\mathbb{R}^{m}\times \mathbb{R}^{l}$ y nos deja en el contexto del teorema de la función implícita. Como la matriz anterior es invertible, existen $U\subseteq \mathbb{R}^l$ y $V\subseteq \mathbb{R}^m$ para los cuales $\bar{u}_0\in U$, $\bar{v}_0\in V$ y hay una única función $h=(h_1,\ldots,h_m):U\to V$ de clase $C^1$ tal que para $\bar{u}\in U$ y $\bar{v}\in V$ se cumple que $g(\bar{v},\bar{u})=0$ si y sólo si $\bar{v}=h(\bar{u})$.

Definamos ahora la función $H:U\subseteq \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ como $H(\bar{u})=(h(\bar{u}),\bar{u})$, la cual es de clase $C^{1}$ en $U$.

Por cómo construimos $h$, sucede que $(h(\bar{u}),\bar{u})\in S^{*}$ para toda $\bar{u}\in U$. Por definición, esto quiere decir que para toda $i=1,\ldots,m$ tenemos que $$(g_{i}\circ H)(\bar{u})=0$$ para toda $\bar{u}\in U$. Esto quiere decir que $g_i\circ H$ es una función constante y por lo tanto su derivada en $\bar{u}_0$ es la transformación $0$. Pero otra forma de obtener la derivada es mediante la regla de la cadena como sigue:

\begin{align*} D(g_{i}\circ H)(\bar{u}_{0})&=Dg_{i}(H(\bar{u}_{0}))DH(\bar{u}_{0})\\ &=Dg_{i}(\bar{v}_{0},\bar{u}_{0})DH(\bar{u}_{0}).\end{align*}

En términos matriciales, tenemos entonces que el siguiente producto matricial es igual al vector $(0,\ldots,0)$ de $l$ entradas (evitamos poner $(\bar{v}_0,\bar{u}_0)$ para simplificar la notación):

\[ \begin{equation}\begin{pmatrix} \frac{\partial g_{i}}{\partial v_{1}}& \dots & \frac{\partial g_{i}}{\partial v_{m}} & \frac{\partial g_{i}}{\partial u_{1}} & \dots & \frac{\partial g_{i}}{\partial u_{l}} \end{pmatrix}\begin{pmatrix} \frac{\partial h_{1}}{\partial u_{1}} & \dots & \frac{\partial h_{1}}{\partial u_{l}} \\ \vdots & \ddots & \vdots \\ \frac{\partial h_{m}}{\partial u_{1}} & \dots & \frac{\partial h_{m}}{\partial u_{l}} \\ 1 & \dots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \dots & 1 \end{pmatrix}\end{equation},\]

para cada $i=1,\ldots, m$. Nos gustaría escribir esta conclusión de manera un poco más sencilla, para lo cual introducimos los siguientes vectores para cada $j=1,\ldots, l$:

\[ \bar{w}_{j}=\left( \left( \frac{\partial h_{1}}{\partial u_{j}}(\bar{u}_{0}),\dots ,\frac{\partial h_{m}}{\partial u_{j}}(\bar{u}_{0}) \right), \hat{e}_{j}\right).\]

Cada uno de estos lo pensamos como vector en $\mathbb{R}^m\times \mathbb{R}^l$. Además, son $l$ vectores linealmente independientes, pues sus entradas $\hat{e}_j$ son linealmente independientes. El espacio vectorial $W$ que generan es entonces un subespacio de $\mathbb{R}^m\times \mathbb{R}^l$, con $\dim(W)=l$.

De la ecuación $(2)$ tenemos que $\triangledown g_{i}(\bar{v}_{0},\bar{u}_{0})\cdot \bar{w}_{j}=0$ para todo $i=1,\dots ,m$, y $j=1,\dots ,l$. Se sigue que $\triangledown g_{i}(\bar{v}_{0},\bar{u}_{0})\in W^{\perp}$, donde $W^{\perp}$ es el complemento ortogonal de $W$ en $\mathbb{R}^{m}\times \mathbb{R}^{l}$. Pero además, por propiedades de espacios ortogonales tenemos que

\begin{align*}
\dim(W^{\perp})&=\dim(\mathbb{R}^{m}\times \mathbb{R}^{l})-dim(W)\\
&=m+l-l\\
&=m.
\end{align*}

Así $\dim(W^{\perp})=m$, además el conjunto $\left\{ \triangledown g_{i}(\bar{v}_{0},\bar{u}_{0}) \right\}_{i=1}^{m}$ es linealmente independiente con $m$ elementos, por tanto este conjunto es una base para $W^{\perp}$. Nuestra demostración estará terminada si logramos demostrar que $\triangledown f(\bar{v}_0,\bar{u}_0)$ también está en $W^\perp$, es decir, que es ortogonal a todo elemento de $W$.

Pensemos qué pasa al componer $f$ con $H$ en el punto $\bar{u}_0$. Afirmamos que $\bar{u}_0$ es un extremo local de $f\circ H$. En efecto, $(f\circ H)(\bar{u}_0)=f(g(\bar{u}_0),\bar{u}_0)=(\bar{v}_0,\bar{u}_0)$. Si, por ejemplo $(\bar{v}_0,\bar{u}_0)$ diera un máximo, entonces los valores $f(\bar{v},\bar{u})$ para $(\bar{v},\bar{u})$ dentro de cierta bola $B_\delta(\bar{v}_0,\bar{u}_0)$ serían menores a $f(\bar{v}_0,\bar{u}_0)$. Pero entonces los valores cercanos $\bar{u}$ a $\bar{u}_0$ cumplen $(f\circ H)(\bar{u})=f(h(\bar{u}),\bar{u})$, con $(\bar{u},h(\bar{u}))$ en $S^\ast$ y por lo tanto menor a $f(\bar{v}_0,\bar{u}_0)$ (para mínimos es análogo).

Resumiendo lo anterior, $\bar{u}_{0}$ es extremo local de $f\circ H$. Aplicando lo que aprendimos en la entrada anterior, la derivada de $f\circ H$ debe anularse en $\bar{u}_0$. Pero por regla de la cadena, dicha derivada es

\begin{align*}\triangledown (f\circ H)(\bar{u}_{0})&=D(f\circ H)(\bar{u}_{0})\\ &=Df(H(\bar{u}_{0}))DH(\bar{u}_{0})\\ &=Df(h(\bar{u}_{0}),\bar{u}_{0})DH(\bar{u}_{0})\\
&=Df(\bar{v}_0,\bar{u}_{0})DH(\bar{u}_{0})
\end{align*}

Viéndolo como multiplicación de matrices, el siguiente producto es el vector $(0,0,\ldots,0)$ de $l$ entradas:

\[ \begin{pmatrix} \frac{\partial f}{\partial v_{1}} & \dots & \frac{\partial f}{\partial v_{m}} & \frac{\partial f}{\partial u_{1}} & \dots & \frac{\partial f}{\partial u_{l}} \end{pmatrix}\begin{pmatrix} \frac{\partial h_{1}}{\partial u_{1}} & \dots & \frac{\partial h_{1}}{\partial u_{l}} \\ \vdots & \ddots & \vdots \\ \frac{\partial h_{m}}{\partial u_{1}} & \dots & \frac{\partial h_{m}}{\partial u_{l}} \\ 1 & \dots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \dots & 1 \end{pmatrix}=0 \]

De donde concluimos $\triangledown f(\bar{v}_{0},\bar{u}_{0})\cdot \bar{w}_{j}=0$ para cada $j=1,\dots l$. Esto precisamente nos dice que $\triangledown f(\bar{v}_{0},\bar{u}_{0})\in W^{\perp}$. Esto es justo lo que queríamos, pues habíamos demostrado que $\left\{ \triangledown g_{i}(\bar{v}_{0},\bar{u}_{0}) \right\}_{i=1}^{m}$ es una base de $W^{\perp}$. Por ello podemos expresar a $\triangledown f(\bar{v}_{0},\bar{u}_{0})$ como combinación lineal de esta base, es decir, existen $\lambda _{1},\dots ,\lambda _{m}$ escalares tales que:

\[ \triangledown f(\bar{v}_{0},\bar{u}_{0})=\lambda _{1}\triangledown g_{1}(\bar{v}_{0},\bar{u}_{0})+\dots +\lambda _{m}\triangledown g_{m}(\bar{v}_{0},\bar{u}_{0}). \]

$\square$

¡Qué bonita demostración! Usamos el teorema de la función implícita, la regla de la cadena (dos veces), nuestros resultados para valores extremos de la entrada anterior, y un análisis cuidadoso de ciertos espacios vectoriales.

Ejemplos del método de multiplicadores de Lagrange

Veamos algunos problemas que podemos resolver con esta nueva herramienta.

Ejemplo. Determinaremos los puntos extremos de $f(x,y)=x+2y$ bajo la condición $x^{2}+y^{2}=5$. Para poner todo en términos de nuestro teorema, definimos $g(x,y)=x^{2}+y^{2}-5$. Por el teorema de multiplicadores de Lagrange, en los puntos extremos debe existir una $\lambda$ tal que $\triangledown f(x,y)=\lambda \triangledown g(x,y)$. Calculando las parciales correspondientes, debemos tener entonces

\[ \left( 1,2 \right)=\lambda \left( 2x,2y \right).\]

Adicionalmente, recordemos que se debe satisfaces $g(x,y)=0$. Llegamos entonces al sistema de ecuaciones

\[ \left \{\begin{matrix} 1-2x\lambda=0 \\ 2-2y\lambda =0 \\ x^{2}+y^{2}-5=0 \end{matrix}\right. \]

Al despejar $x$ y $y$ en ambas ecuaciones tenemos:

\[ \begin{matrix} x=\frac{1}{2\lambda} \\ y=\frac{1}{\lambda} \\ x^{2}+y^{2}-5=0 \end{matrix}.\]

Poniendo los valores de $x$ y $y$ en la tercera ecuación, llegamos a $\left( \frac{1}{2\lambda}\right)^{2}+\left( \frac{1}{\lambda}\right)^{2}-5=0$, de donde al resolver tenemos las soluciones $\lambda _{1}=\frac{1}{2}$ y $\lambda _{2}=-\frac{1}{2}$.

Al sustituir en las ecuaciones de nuestro sistema, obtenemos como puntos críticos a $(x,y)=(-1,-2)$ y $(x,y)=(1,2)$.

Si intentamos calcular el hessiano de $f$, esto no nos dirá nada (no tendremos eigenvalores sólo positivos, ni sólo negativos). Pero esto ignora las restricciones que nos dieron. Podemos hacer una figura para entender si estos puntos son máximos o mínimos. En la Figura $1$ tenemos la gráfica de $f$, intersectada con la superfice dada por $g$. Nos damos cuenta que hay un punto máximo y uno mínimo. Al evaluar, obtenemos $f(1,2)=5$ y $f(-1,-2)=-5$. Esto nos dice que el máximo en la superficie se alcanza en $(1,2)$ y el mínimo en $(-1,-2)$.

Figura 2: Ilustración del *Ejemplo 1* la función $g(x,y)=x^{2}+y^{2}-5$ esta dibujada en azul esta impone restricción a la función $f$ que dibuja un plano en el espacio.

$\triangle$

Ejemplo. Veamos cómo minimizar la expresión $$f(x,y,z)=x^{2}+y^{2}+z^{2}$$ sujetos a la condición $x+y+z=1$. Una vez más, proponemos $g(x,y,z)=x+y+z-1$ para tener la situación del teorema de multiplicadores de Lagrange. Debe pasar que $\lambda$ $\triangledown f(x,y,z)=\lambda \triangledown g(x,y,z)$. El gradiente de $g(x,y,z)$ es de puros ceros unos, así que tenemos el sistema de ecuaciones:

\[ \left \{\begin{matrix} 2x=\lambda \\ 2y=\lambda \\ 2z=\lambda \\ x+y+z-1=0 \end{matrix}\right.\]

De las primeras tres ecuaciones tenemos $2x=2y=2z$ de donde $x=y=z$. Sustituyendo en la tercera ecuación, $3x-1=0$, es decir $x=y=z=\frac{1}{3}$. Ya que sólo tenemos una solución, ésta es el mínimo del conjunto de soluciones. En la figura 3 tenemos la ilustración de la solución de este problema, la esfera centrada en el origen de radio $\frac{1}{3}$ toca al plano $x+y+z=1$ en el punto $\left( \frac{1}{3},\frac{1}{3},\frac{1}{3}\right)$

$\triangle$

Figura 3: En azul claro el plano $x+y+z=1$, inflamos esferas centradas en el origen; desde la de radio cero vamos aumentando el radio hasta tener el radio correspondiente para el cual la esfera toque tangentemente al plano.

Más adelante…

Con esta entrada cerramos el curso de Cálculo Diferencial e Integral III. ¡¡Felicidades!! Esperamos que todas estas notas te hayan sido de ayuda para estudiar, repasar o impartir la materia. Quedamos al pendiente de cualquier duda, observación o sugerencia en la sección de comentarios de las entradas.

Tarea moral

Determina los extremos de la función $f(x,y)=xy+14$ bajo la restricción $x^{2}+y^{2}=18$
El plano $x+y+2z=2$ interseca al paraboloide $z=x^{2}+y^{2}$ en una elipse $\mathbb{E}$. Determina el punto de la elipse con el valor mayor en el eje $z$, y el punto con el valor mínimo en el mismo eje. Sugerencia: $f(x,y,z)=x+y+2z-2$, y $g(x,y,z)=x^{2}+y^{2}-z$
Determinar el máximo valor de $f(x,y,z)=x^{2}+36xy-4y^{2}-18x+8y$ bajo la restricción $3x+4y=32$
Determinar los puntos extremos de la función $f(x,y,z)=x^{2}+y^{2}+z^{2}$ bajo la restricción $xyz=4$
Demuestra que en una matriz $M$ su rango por columnas es igual a su rango por renglones. Sugerencia. Usa el teorema de reducción gaussiana. También, puedes revisar la entrada que tenemos sobre rango de matrices.

Entradas relacionadas

Ir a Cálculo Diferencial e Integral III
Entrada anterior del curso: Puntos críticos de campos escalares

Cálculo Diferencial e Integral III: Ejemplos e intuición del teorema de la función implícita

Por Alejandro Antonio Estrada Franco

Deja un comentario

Introducción

En la entrada anterior revisamos el teorema de la función implícita formalmente enunciado y demostrado. En ésta lo que haremos será reflexionar sobre él y observar con más detalle su propósito y usos.

Dicho de forma simplista pero resaltando su objetivo principal el teorema de la función implícita busca establecer las condiciones bajo las cuales podemos despejar unas variables en término de otras. Da una condición en términos de cierta diferenciabilidad. Como esbozamos en la entrada anterior, lo que el teorema nos dice es cuándo es posible despejar las variables de un sistema de ecuaciones (o funciones coordenadas de un campo vectorial) en función de ciertas las variables libres, y alrededor de una vecindad. Para hacer esto, básicamente hay que resolver un sistema de ecuaciones en donde ciertos coeficientes vienen de ciertas derivadas parciales. El teorema de la función implícita también habla de cómo derivar una función definida implícitamente respecto de cualquiera de sus derivables.

¿Por qué teorema de la función implícita?

¿Por qué este nombre? En numerosos problemas matemáticos derivados de aplicaciones diversas se utilizan modelos geométricos. Estos modelos geométricos usualmente se construyen a partir de restringir ciertas variables con ciertas ecuaciones. Pensemos en objetos geométricos en tres dimensiones. Tenemos variables $x,y,z$. Definamos $G(x,y,z):=x^{2}+y^{2}+z^{2}-1$. Podemos preguntarnos por el objeto geométrico descrito por la ecuación $G(x,y,z)=0.$ Sabemos que las ternas $(x,y,z)$ que satisfacen esto justo conforman una esfera de radio 1 centrada en el origen. Decimos que esta ecuación proporciona una representación implícita de la superficie.

Pero quizás nuestra aplicación nos lleva a preguntarnos si alguna coordenada está en términos de las otras para los puntos que están en dicha esfera. En afortunadas ocasiones es posible despejar en la ecuación $G(x,y,z)$ algunas de las variables en términos de las otras. Esto nos lleva a una o varias ecuaciones de la forma $z=g(x,y)$, en nuestro caso particular tenemos:

\begin{align*}z=\sqrt{1-x^{2}-y^{2}} && \textup{y} && z=-\sqrt{1-x^{2}-y^{2}}.\end{align*}

El teorema de la función inversa nos dice que si ciertas derivadas existen y son invertibles como transformaciones lineales, entonces podemos hacer estos despejes. De hecho, nos dice algo mejor: que podemos hacerlos alrededor de toda una vecindad donde no se anule dicha derivada. De aquí sale la idea de «función implícita». Algunas ecuaciones, aunque no permitan despejar variables, sí lo permiten «localmente» y entonces ahí hay una «función oculta».

En la gran mayoría de los casos es difícil lograr estos despejes mediante expresiones algebraicas sencillas por ejemplo en una superficie representada por la ecuación $y^{3}+z^{2}-xz+e^{zx}-4=0$ suena muy difícil que podamos despejar $z$. Sin embargo el teorema de la función implícita nos garantiza que, aunque no sepamos cómo, la variable $z$ sí se puede poner en función de las variables $x$ y $y$.

La derivada de la función implícita

Otra buena notica es que aunque no conozcamos explícitamente el despeje que nos interesa, con el teorema de la función implícita sí podemos encontrar las derivadas parciales de la función implícita que aparece. Si pensaste los problemas de la tarea moral de la entrada anterior, quizás ya hayas llegado al siguiente resultado.

Corolario. Sea $F:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ un campo escalar diferenciable con $S$ abierto. Supongamos que la ecuación $F(x_{1},\dots ,x_{n})=0$ define implícitamente a $x_{n}$ como función diferenciable de $x_{1},\dots ,x_{n-1}$ como $x_{n}=f(x_{1},\dots ,x_{n-1})$, para todos los puntos $(x_{1},\dots ,x_{n-1})\in S’\subseteq \mathbb{R}^{n-1}$, entonces para cada $k=1,2,\dots ,n-1$ la derivada parcial $\frac{\partial f}{\partial x_{k}}$ está dada por la fórmula:

\[ \begin{equation}\frac{\partial f}{\partial x_{k}}=-\frac{\frac{\partial F}{\partial x_{k}}}{\frac{\partial F}{\partial x_{n}}}\end{equation} \]

en los puntos en los que $\frac{\partial F}{\partial x_{n}}\neq 0$. Las derivadas parciales de $F$ están calculadas en el punto $(x_{1},\dots ,x_{n-1},f(x_{1},\dots ,x_{n}))$.

Demostración. Pensemos $F:\mathbb{R}^{n-1}\times \mathbb{R} \to \mathbb{R}$. Si $(x_{1},\dots x_{n})$ es tal que $F(x_{1},\dots ,x_{n})=0$, por el teorema de la función implícita tenemos a una única función $f:\mathbb{R}^{n-1}\rightarrow \mathbb{R}$ tal que $F(x_{1},\dots ,x_{n-1},f(x_{1},\dots ,x_{n-1}))=0$.

(Nota. En la entrada anterior teníamos entradas de la forma $(y,x)$ y $y$ quedaba en función de $x$. De manera totalmente análoga podemos intercambiar los papeles de $x$ y $y$, pidiendo las hipótesis correctas. De hecho, usualmente se piensa en parejas $(x,y)$ y las variables de $y$ son las que quedan en términos de las variables $x$)

Ahora, pensemos en el campo vectorial $G:S’\subseteq \mathbb{R}^{n-1}\rightarrow \mathbb{R}^{n}$ dado por $G(x_{1},\dots ,x_{n-1})=(x_{1},\dots ,x_{n-1},f(x_{1},\dots ,x_{n-1}))$. Así $(F\circ G)(x_{1},\dots ,x_{n-1})=0$. Por regla de la cadena, $DFDG=0$. Tenemos así $0=\triangledown F\cdot DG$, lo cual explícitamente es:

\[ 0=\begin{bmatrix} \frac{\partial F}{\partial x_{1}} & \dots & \frac{\partial F}{\partial x_{n}} \end{bmatrix} \begin{bmatrix} 1 & 0 & \dots & 0 \\ 0 & 1 & \dots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \dots & 1 \\ \frac{\partial f}{\partial x_{1}} & \frac{\partial f}{\partial x_{2}} & \dots & \frac{\partial f}{\partial x_{n-1}} \end{bmatrix}= \]

\[ \begin{bmatrix} \frac{\partial F}{\partial x_{1}}+\frac{\partial F}{\partial x_{n}}\frac{\partial f}{\partial x_{1}} & \frac{\partial F}{\partial x_{2}}+\frac{\partial F}{\partial x_{n}}\frac{\partial f}{\partial x_{2}} & \dots & \frac{\partial F}{\partial x_{n-1}}+\frac{\partial F}{\partial x_{n}}\frac{\partial f}{\partial x_{n-1}} \end{bmatrix}.\]

Por ello, para cada $i$ tenemos:

\[ \frac{\partial F}{\partial x_{i}}+\frac{\partial F}{\partial x_{n}}\frac{\partial f}{\partial x_{i}}=0.\]

De esta ecuación se deduce la $(1)$.

$\square$

Un primer ejemplo del teorema de la función inversa

Pasemos ahora a hacer algunas cuentas concretas para entender mejor lo que uno tiene que hacer para aplicar el teorema de la función implícita en funciones particulares.

Ejemplo. Consideremos la ecuación $y^{2}+xz+z^{2}-e^{z}-c=0$. Expresaremos a $z$ en función de $x$ e $y$, es decir, $z=f(x,y)$. Nos gustaría encontrar un valor de la constante $c$ tal que $f(0,e)=2$. Para dicha $c$, queremos calcular las derivadas parciales con respecto a $x$ y $y$ en el punto $(x,y)=(0,e)$.

Para la primera parte sustituimos $x=0$, $y=e$ y $z=2$. Tenemos $$e^{2}+0\cdot 2+2^{2}-e^{2}-c=0,$$ que es lo mismo que $4-c=0$, y esto implica $c=4$. De esta manera, estudiaremos la función $$F(x,y,z)=y^{2}+xz+z^{2}-e^{z}-4.$$

Notemos que

\begin{align*}\frac{\partial F}{\partial z}=x+2z-e^{z},&&\frac{\partial F}{\partial x}=z,&&\frac{\partial F}{\partial y}=2y,\end{align*}

por lo cual

\begin{align*} \frac{\partial f}{\partial x}=-\frac{z}{x+2z-e^{z}},&&\frac{\partial f}{\partial y}=-\frac{2y}{x+2z-e^{z}}.\end{align*}

Así para $x=0$, $y=e$ y $z=2$ al sustituir resulta

\begin{align*} \frac{\partial f}{\partial x}(0,e)=\frac{2}{e^{2}-4}&&\textup{y}&&\frac{\partial f}{\partial y}(0,e)=\frac{2e}{e^{2}-4}. \end{align*}

$\triangle$

En este ejemplo vemos cómo hemos podido calcular las derivadas parciales de $z=f(x,y)$ usando el valor de $f$ en el punto $(0,e)$, sin conocer quién es la función $f(x,y)$.

Un repaso chiquito de la demostación del teorema de la función implícita

Ahora repasaremos la demostración del teorema de la función implícita pero para un caso muy particular: Dos superficies $S_{1}$ y $S_{2}$ en el espacio con las siguientes representaciones implícitas:

$$ \textup{para}\hspace{0.3cm}S_{1}:\Psi (x,y,z)=0\hspace{1cm}\textup{y}\hspace{1cm}\textup{para}\hspace{0.3cm}S_{2}:\Gamma (x,y,z)=0.$$

Supongamos que las superficies se cortan en la curva $\mathfrak{C}$. En otras palabras, $\mathfrak{C}$ es el conjunto solución para el siguiente sistema de ecuaciones:

\[ \left \{\begin{matrix} \Psi (x,y,z)=0 \\ \Gamma (x,y,z)=0. \end{matrix} \right.\]

Supongamos que podemos despejar $x$ y $y$ en estas ecuaciones en términos de $z$ de la siguiente manera:

\[ \begin{equation}x=X(z),\hspace{1cm}y=Y(z)\hspace{0.3cm}\textup{para todo}\hspace{0.1cm}z\in (a,b).\end{equation} \]

Aquí, al reemplazar $x$ y $y$ por $X(z)$ y $Y(z)$ (respectivamente), el sistema $(2)$ se satisface. Por tanto tenemos $\Psi (X(z),Y(z),z)=0$ y $\Gamma (X(z),Y(z),z)=0$ para todo $z\in (a,b)$. Podemos calcular las derivadas $X^{\prime}(z)$, $Y^{\prime}(z)$, sin un conocimiento explícito de $X(z)$ y $Y(z)$.

¿Cómo hacemos esto? Consideramos las siguientes funciones auxiliares:

\begin{align*}
\psi (z)&=\Psi (X(z),Y(z),z),\\
\gamma (z)&=\Gamma (X(z),Y(z),z).
\end{align*}

Tenemos $\psi (z)=\gamma (z)=0$ y en consecuencia $\psi^{\prime}(z)=\gamma^{\prime}(z)=0$.

Derivando con la regla de la cadena tenemos:

\begin{align*}
\psi^{\prime}(z)&=\frac{\partial \Psi}{\partial x}X'(z)+\frac{\partial \Psi}{\partial y}Y'(z)+\frac{\partial \Psi}{\partial z},\\
\gamma^{\prime}(z)&=\frac{\partial \Gamma}{\partial x}X'(z)+\frac{\partial \Gamma}{\partial y}Y'(z)+\frac{\partial \Gamma}{\partial z}
\end{align*}

Dado que $\psi^{\prime} (z)=\gamma^{\prime}(z)=0$ tenemos el siguiente sistema de dos ecuaciones con dos incógnitas $X^{\prime}(z)$, $Y^{\prime}(z)$:

\[ \left \{\begin{matrix}\frac{\partial \Psi}{\partial x}X^{\prime}(z)+\frac{\partial \Psi}{\partial y}Y^{\prime}(z)=-\frac{\partial \Psi}{\partial z}\\ \frac{\partial \Gamma}{\partial x}X^{\prime}(z)+\frac{\partial \Gamma}{\partial y}Y^{\prime}(z)=-\frac{\partial \Gamma}{\partial z} \end{matrix} \right.\]

En los puntos en los cuales el determinante del sistema no es cero, usamos la regla de Cramer para obtener las soluciones como sigue:

\[ X^{\prime}(z)={\Large -\frac{\begin{vmatrix}\frac{\partial \Psi}{\partial z} & \frac{\partial \Psi}{\partial y}\\ \frac{\partial \Gamma}{\partial z} & \frac{\partial \Gamma }{\partial y}\end{vmatrix}}{\begin{vmatrix}\frac{\partial \Psi}{\partial x} & \frac{\partial \Psi}{\partial y} \\ \frac{\partial \Gamma}{\partial x} & \frac{\partial \Gamma}{\partial z} \end{vmatrix}} },\hspace{0.5cm}Y^{\prime}(z)={\Large -\frac{\begin{vmatrix}\frac{\partial \Psi}{\partial x} & \frac{\partial \Psi}{\partial z}\\ \frac{\partial \Gamma}{\partial x} & \frac{\partial \Gamma }{\partial z}\end{vmatrix}}{\begin{vmatrix}\frac{\partial \Psi}{\partial x} & \frac{\partial \Psi}{\partial y} \\ \frac{\partial \Gamma}{\partial x} & \frac{\partial \Gamma}{\partial z} \end{vmatrix}} }.\]

Otro ejemplo para encontrar derivadas de funciones implícitas

Veamos un último ejemplo en donde pondemos usar las ideas anteriores.

Ejemplo. Consideremos las ecuaciones $y=uv^{2}$, y $x=u+v$. Queremos ver que podemos determinar una función $h$ tal que $v=h(x,y)$ y para la cual:

\[ \frac{\partial h}{\partial x}(x,y)= \frac{h(x,y)}{3h(x,y)-2x}.\]

Además, queremos encontrar una fórmula análoga para $\frac{\partial h}{\partial y}$.

Primero, en la ecuación $x=u+v$ despejamos $u$ y sustituimos en $y=uv^{2}$, tenemos $y=(x-v)v^{2}$. De aquí $$xv^{2}-v^{3}-y=0.$$ Esto nos sugiere pensar en la función $$F(x,y,v):=xv^{2}-v^{3}-y,$$ pues nos permite representar nuestra ecuación como $F(x,y,v)=0$. Por el teorema de la función implícita (¡verifica las hipótesis!), esta ecuación define implícitamente a $v$ como función de $x$ e $y$, digamos, como $v=h(x,y)$. Aplicando las fórmulas que conocemos para las derivadas de la función implicita, tenemos lo siguiente:

\[ \frac{\partial h}{\partial x}= -\frac{\partial F /\partial x}{\partial F /\partial v}\hspace{0.5cm}\textup{y}\hspace{0.5cm}\frac{\partial h}{\partial y}=-\frac{\partial F /\partial y}{\partial F /\partial v} \]

Donde $\frac{\partial F}{\partial x}=v^{2}$, $\frac{\partial F}{\partial v}=2xv-3v^{2}$ y $\frac{\partial F}{\partial y}=-1$. Luego tenemos:

\begin{align*} \frac{\partial h}{\partial x}(x,y)&=-\frac{v^{2}}{2xv-3v^{2}}\\ &=-\frac{v}{2x-3v}\\ &=\frac{h(x,y)}{3h(x,y)-2x}.\end{align*}

Esto muestra la primera parte. Para encontra la fórmula análoga, volvemos a usar las fórmulas para derivadas de la función implícita:

\begin{align*}\frac{\partial h}{\partial y}(x,y)&=-\frac{-1}{2xv-3v^{2}}\\ &=\frac{1}{2xh(x,y)-3h^{2}(x,y)}.\end{align*}

$\triangle$

Más adelante…

Hemos cubierto el teorema de la función inversa y el teorema de la función implícita. Estos son temas teóricos profundos e importantes que tienen muchas consecuencias. Tienen también otras versiones en contextos más amplios como variedades, geometría diferencial, etc. Por el momento, dejaremos hasta aquí nuestro estudio de estos temas, pero te recomendamos de vez en cuando repasarlos, pues cada vez entenderás más de sus demostraciones y lo que significan.

Nuestra atención se enfocará ahora en otros conceptos que se pueden definir en términos de funciones de varias variables: la divergencia, el laplaciano y el rotacional. Después, hablaremos un poco de cómo la teoría que hemos desarrollado nos ayudará a encontrar puntos críticos para funciones de varias variables.

Tarea moral

Las ecuaciones $x+y=uv$ y $xy=u-v$ definen $x$ y $y$ como funciones implícitas de $u$ y $v$, sean éstas $x=X(u,v)$ y $y=Y(u,v)$. Demuestra que $\partial X/\partial u=(xv-1)/(x-y)$ si $x\neq y$, y halla las fórmulas para $\partial X/\partial v$, $\partial Y/\partial v$, $\partial Y/\partial u$.
Las tres ecuaciones \[ \left\{\begin{matrix} x^{2}-y\hspace{0.1cm}cos\hspace{0.1cm}(uv)+z^{2}=0, \\ x^{2}+y^{2}-\hspace{0.1cm}sen\hspace{0.1cm}(uv)+2z^{2}=2, \\ xy-\hspace{0.1cm}sen\hspace{0.1cm}u\hspace{0.1cm}cos\hspace{0.1cm}v+z=0 \end{matrix}\right.\] definen $x$, $y$, y $z$ como funciones de $u$ y $v$. Calcula las derivadas parciales $\partial x/\partial u$ y $\partial x/\partial v$ en el punto $x=y=1$, $u=\pi /2$, $v=0$, $z=0$.
Las ecuaciones $x+y=uv$ y $xy=u-v$ definen $x$ y $v$ como funciones de $u$ y $y$, sean éstas $x=X(u,v)$ y $v=V(u,y)$. Demuestra que $\partial X/\partial u=(u+v)/(1+yu)$ si $1+yu\neq 0$ y halla las fórmulas de $\partial X/\partial y$, $\partial V /\partial u$, $\partial V /\partial y$.
Sigue las ideas de los resultados de la entrada anterior para escribir una calca de ella pero ahora para $f:S\subseteq \mathbb{R}^{m} \times \mathbb{R}^{l}$, en donde la función que se busca tiene ahora dominio en $\mathbb{R}^{m}$ que pone a las variables del dominio $\mathbb{R}^l$ en términos de las de $\mathbb{R}^m$.
Haz un esfuerzo extra, y medita nuevamente en el teorema de la función implícita tratando de escribir una demostración de como sería el asunto para $f$ con dominio en $\mathbb{R}^{m}\times \mathbb{R}^{l}\times \mathbb{R}^{k}$. ¿Se podrá hallar la función $h$, pero ahora con dominio en $\mathbb{R}^{l}$?

Entradas relacionadas

Ir a Cálculo Diferencial e Integral III
Entrada anterior del curso: Teorema de la función inversa y demostración
Entrada siguiente del curso: Divergencia, laplaciano y rotacional

Cálculo Diferencial e Integral III: Teorema de la función implícita y demostración

Por Alejandro Antonio Estrada Franco

Deja un comentario

Introducción

En esta parte del curso estamos abordando los resultados principales de campos vectoriales y su diferenciabilidad. Hemos hablado de cómo la derivada de una composición se calcula con regla de la cadena. También, enunciamos el teorema de la función inversa, lo demostramos, y vimos un ejemplo de cómo se usa. Ahora pasaremos a otro de los resultados fundamentales en el tema: el teorema de la función implícita. Vamos a motivarlo a partir del problema de resolver sistemas de ecuaciones no lineales. Luego, lo enunciaremos formalmente y lo demostraremos. La discusión y los ejemplos los dejaremos para la siguiente entrada.

Una motivación: resolver sistemas de ecuaciones no lineales

Con lo que repasamos sobre sistemas de ecuaciones lineales, y con lo que se ve en un curso de Álgebra Lineal I, se puede entender completamente cómo resolver sistemas de eccuaciones lineales. Recordemos un poco de esto. Tomemos el siguiente sistema de ecuaciones lineales en las variables $x_1,\ldots,x_n$:

\begin{align*}
\left\{ \begin{matrix}
a_{11}x_1+a_{12}x_2+\ldots+a_{1n}x_n = b_1\\
a_{21}x_1+a_{22}x_2+\ldots+a_{2n}x_n = b_2\\
\vdots\\
a_{m1}x_1+a_{m2}x_2+\ldots+a_{mn}x_n = b_m.\\
\end{matrix} \right.
\end{align*}

Para resolverlo, se podría utilizar el proceso de reducción gaussiana. Tras hacer esto, podíamos clasificar a las variables en libres (que podían valer lo que sea) y pivote (que dependían afinmente de las libres). Esto daba todas las soluciones. Si, por decir algo, las variables pivote son $x_1,x_2,\ldots,x_m$ y las libre son $x_{m+1},\ldots,x_n$, entonces podemos reescribir lo anterior de la siguiente manera: «podemos despejar a las primeras en función de las segundas», algo así como

\begin{align*}
x_1 &= T_1(x_{m+1},\ldots,x_n)\\
x_2 &= T_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=T_m(x_{m+1},\ldots,x_n).
\end{align*}

Elegimos a $x_{m+1},\ldots,x_n$ como queramos. De ahí $x_1,\ldots,x_m$ quedan definidos afinmente con las $T_1,\ldots,T_m$. Y esto da todas las soluciones. Pero, ¿qué sucedería si tenemos un sistema de ecuaciones mucho más general?

Para plantear esto, imaginemos que ahora tenemos cualesquiera funciones $f_1,\ldots,f_m:\mathbb{R}^n\to \mathbb{R}$ y que queremos encontrar todas las soluciones $x_1,\ldots,x_n$ al siguiente sistema de ecuaciones:

\begin{equation}
\label{eq:sistemadificil}
\left\{ \begin{matrix}
f_{1}(x_{1},\dots ,x_{n})=0 \\
\vdots \\
f_{m}(x_{1},\dots ,x_{n})=0.
\end{matrix}\right.
\end{equation}

Esto es tan general como pudiéramos esperar. A la izquierda hay ceros, pero es porque si hubiera otras cosas, podríamos pasarlas a la izquierda para dejar ceros a la derecha.

Este sistema \eqref{eq:sistemadificil} parece imposible de resolver: no tenemos idea de quiénes son las funciones $f_1,\ldots, f_n$, no hay reducción gaussiana, no hay variables libres, etc. Pero imaginemos que el campo vectorial $(f_1,\ldots,f_m)$ es de clase $C^1$ alrededor de algún punto $\bar{v}_0=(x_{1}^{0},\dots,x_{n}^{0})$ en donde queremos despejar. Esto nos diría que cerca de $\bar{v}_0$ cada expresión $f_i(\bar{v})$ con $\bar{v}=(x_{1},\dots,x_{n})$ se parece muchísimo a su mejor aproximación lineal:

\[f_i(\bar{v}_0)+\triangledown f_i(\bar{v}_0)\bullet (\bar{v}-\bar{v}_0)\]

donde, tenemos:
\begin{align*}
f_i(\bar{v}_0)+\triangledown f_i(\bar{v}_0)\bullet (\bar{v}-\bar{v}_0)
&=f_i(\bar{v}_0)+\left(\frac{\partial f_i}{\partial x_1}(\bar{v}_0),\dots ,\frac{\partial f_i}{\partial x_n}(\bar{v}_0)\right)\bullet\left(x_1 -x_{1}^{0},\dots , x_n -x_{n}^{0}\right)\\ &=f_i(\bar{v}_0)+\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)(x_j -x_{j}^{0})\\ &=f_i(\bar{v}_0)+\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_j -\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_{j}^{0}\\ &=\triangledown f_i(\bar{v}_0)\bullet (\bar{v})+f_i(\bar{v}_0) -\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}} (\bar{v}_0)x_{j}^{0}\\ &=\triangledown f_i(\bar{v}_0)\bullet (\bar{v}) + \bar{b}_i,
\end{align*}

donde $\bar{b}_i=f_i(\bar{v}_0)-\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_{j}^0$. Pero entonces el sistema es prácticamente el mismo sistema que

\begin{equation}\label{eq:sistemafacil}\left \{\begin{matrix}\frac{\partial f_{1}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{1}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{1}\hspace{0.1cm}=\hspace{0.1cm}0 \\
\frac{\partial f_{2}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{2}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{2}\hspace{0.1cm}=\hspace{0.1cm}0 \\ \vdots & \vdots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{m}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{m}\hspace{0.1cm}=\hspace{0.1cm}0 \end{matrix}\right.\end{equation}

Esto se ve un poco complicado, pero cada $\frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_{0})x_{j}$ es simplemente un número real. ¡Cerquita de $\bar{v}_0$ el sistema de ecuaciones \eqref{eq:sistemadificil} es prácticamente un sistema lineal! Sería entonces de esperarse que las soluciones el sistema \eqref{eq:sistemadificil} original sean muy cercanas a las del sistema lineal \eqref{eq:sistemafacil} que sale y de nuevo recuperamos los trucos usuales: reducción gaussiana, variables libres, variables pivote, etc.

Pensando en que en el sistema \eqref{eq:sistemafacil} las variables pivote son $x_1,\ldots, x_m$ y las libres son $x_{m+1},\ldots,x_n$, entonces podemos encontrar transformaciones afines $T_1,\ldots,T_m:\mathbb{R}^n\to \mathbb{R}$ tales que las soluiones de \eqref{eq:sistemafacil} consisten en elegir $x_{m+1},\ldots,x_n$ arbitrariamente, y tomar

\begin{align*}
x_1 &= T_1(x_{m+1},\ldots,x_n)\\
x_2 &= T_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=T_m(x_{m+1},\ldots,x_n).
\end{align*}

Muy probablemente $(x_1,\ldots,x_n)$ no será una solución de \eqref{eq:sistemadificil}, pues son sistemas diferentes entre sí. Pero suena a que son tan tan cercanos, que con tantita maniobra podremos encontrar funciones $S_1,\ldots, S_m: \mathbb{R}^n\to \mathbb{R}$ tales que cualquier solución a \eqref{eq:sistemadificil} similarmente está dada por elegir $x_{m+1},\ldots, x_n$ arbitrariamente y tomar

\begin{align*}
x_1 &= S_1(x_{m+1},\ldots,x_n)\\
x_2 &= S_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=S_m(x_{m+1},\ldots,x_n).
\end{align*}

Gracias a que pudimos poner a todos los $x_1,\ldots x_m$ en función de los $x_{m+1},\ldots,x_n$, hemos logrado encontrar todas las soluciones a \eqref{eq:sistemadificil} cerca de $\bar{v}_0$. El teorema de la función inversa nos ayuda a volver precisas muchas de las cosas discutidas en esta sección.

Enunciado del teorema de la función implícita

Pensemos que tenemos algunas restricciones dadas por ecuaciones como las del sistema \eqref{eq:sistemadificil}. Lo que el teorema de la función implícita nos dirá es que bajo suficiente regularidad y algunas condiciones de invertibilidad, en una vecindad de un punto $\bar{v}_{0}$ las incógnitas $x_{1},\dots ,x_{m}$ se pueden poner en función de las incógnitas $x_{m+1},\dots ,x_{n}$, es decir, que se puede despejar como lo mencionamos al final de la sección anterior. El enunciado es el siguiente.

Teorema (de la función implícita). Sea $f:S\subseteq\mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^m$ un campo vectorial de clase $C^1$ en $S$ con funciones componentes $f_i: S\subseteq\mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}$, para $i=1,\ldots,m$.

Pensemos en el conjunto $A$ de soluciones $(y_1,\ldots,y_m,x_1,\ldots,x_l)$ del siguiente sistema de ecuaciones:

\begin{equation}
\label{eq:sistemaimplicita}
\left\{ \begin{matrix}
f_{1}(y_{1},\dots ,y_m,x_1,\ldots,x_l)=0 \\
\vdots \\
f_{m}(y_{1},\dots ,y_m,x_1,\ldots,x_l)=0.
\end{matrix}\right.
\end{equation}

Supongamos además que para el punto $$(\bar{y}_0,\bar{x}_0)=\left(y_{1}^{0},\dots ,y_{m}^{0},x_{1}^{0},\dots ,x_{l}^{0}\right)\in S\cup A$$ la matriz

\[ \begin{pmatrix} \frac{\partial f_{1}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{i}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) \end{pmatrix} \]

es invertible. Entonces existen abiertos $V\subset \mathbb{R}^{m}$ y $U\subset \mathbb{R}^l$ con $\bar{y}_0\in V$, $\bar{x}_0\in U$, para los cuales hay una única función $h:U\to V$ de clase $C^{1}$ en $V$, tal que $f(\bar{y},\bar{x})=\bar{0}$ si y sólo si $\bar{y}=h(\bar{x})$.

Sólo para aclarar algunas diferencias con lo discutido anteriormente, aquí ya estamos separando en lo que esperaremos que serán las variables libres $x_1,\ldots,x_m$ y las variables pivote $y_1,\ldots,y_l$. Estamos además estudiando el caso en el que tenemos tantas variables libres como ecuaciones, pues este caso es fácil de enunciar en términos de la invertibilidad de una matriz. El caso más general se trata con reducción gaussiana como platicamos en la sección anterior. La igualdad $\bar{y}=h(\bar{x})$ es lo que entendemos como «despejar» a los $y_i$’s en función de los $x_j$’s.

Demostración del teorema de la función implícita

Veamos la demostración del teorema.

Demostración. Definamos $F:S\subset \mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ como $F(\bar{y},\bar{x})=(f(\bar{y},\bar{x}),\bar{x})$. Dado que $f$ es de clase $C^1$, se tendrá que $F$ también (explica esto como tarea moral).

Notemos que

\begin{align*}
F(\bar{y}_{0},\bar{x}_{0})&=(f(\bar{y}_{0},\bar{x}_{0}),\bar{x}_{0})=(\bar{0},\bar{x}_0).\end{align*}

Por otro lado, notemos que la matriz jacobiana de $F$ en $(\bar{y}_0,\bar{x}_0)$ es

$$\begin{bmatrix} \frac{\partial f_{1}}{\partial \bar{y}_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{1}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) & \frac{\partial f_{1}}{\partial x_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{1}}{\partial x_{l}}(\bar{y}_{0},\bar{x}_{0}) \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) & \frac{\partial f_{m}}{\partial x_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{l}}(\bar{y}_{0},\bar{x}_{0}) \\ 0 & \dots & 0 & 1 & \dots & 0 \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ 0 & \dots & 0 & 0 & \dots & 1 \end{bmatrix}$$

esta matriz además es invertible (también tendrás que explicar ambas cosas de tarea moral).

La idea clave es que entonces podemos usar el teorema de la función inversa en $F$. Aplícandolo en este contexto, obtenemos que existe $\delta >0$ tal que $F$ es inyectiva en una bola $B_{\delta}(\bar{y}_{0},\bar{x}_{0})\subset S$. Nos dice también que $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$ es un conjunto abierto, y que $F ^{-1}:F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))\subset \mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ es de clase $C^{1}$ en $F(B_{\delta}(\bar{y}_{0},\bar{x}_{0}))$. También dice algo de quién es la derivada explícitamente, pero eso no lo necesitaremos por ahora (de tarea moral tendrás que pensar qué nos dice esto).

Como $F$ manda $(\bar{y}_0,\bar{x}_0)$ a $(\bar{0},\bar{x}_0)$ y $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$ es un abierto, entonces hay una bola abierta $W$ alrededor de $(\bar{0},\bar{x}_0)$ contenida en $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$. El conjunto $U$ que propondremos será el abierto que se obtiene al intersectar $W$ con el espacio en donde la coordenada correspondiente a $f(\bar{y},\bar{x})$ es cero. En otras palabras, $U$ es un abierto y consiste de $\bar{x}$ para los cuales existe un $\bar{y}$ tal que $F(\bar{y},\bar{x})=(\bar{0},\bar{x})$ (es decir, $f(\bar{y},\bar{x})=\bar{0}$).

Tomemos ahora un $\bar{x}\in U$. Afirmamos que hay sólo un $\bar{y}$ tal que $(\bar{y},\bar{x})\in B_{\delta}(\bar{y}_{0},\bar{x}_{0})$ y $f(\bar{y},\bar{x})=\bar{0}$. Si hubiera $\bar{y}$ y $\bar{y}’$ que satisfacen eso, tendríamos

$$F(\bar{y},\bar{x})=(f(\bar{y},\bar{x}),\bar{x})=(\bar{0},\bar{x})=(f(\bar{y}’,\bar{x}),\bar{x})=F(\bar{y}’,\bar{x}),$$

que por la inyectividad de $F$ implica $\bar{y}=\bar{y}’$. De hecho, dicho único $\bar{y}$ está en función de $F^{-1}$, que es de clase $C^1$ de modo que el conjunto de los $\bar{y}$ asignados a los $\bar{x}$ en $U$ es un abierto $V$.

Así, podemos definir $h:U\to V$ de la siguiente manera: $h(\bar{x})=\bar{y}$, donde $\bar{y}$ es el único elemento para el cual $f(\bar{y},\bar{x})=\bar{0}$ y $(\bar{y},\bar{x})\in B_{\delta}(\bar{y}_{0},\bar{x}_{0})$. De la discusión desarrollada, $h$ está bien definida y cumple con las propiedades buscadas.

Por último probemos que $h$ es de clase $C^{1}$ en $U$. Como $F^{-1}$ esta definida y, además es de clase $C^{1}$ sobre el conjunto $F(B_{\delta}(\bar{x}_{0},\bar{y}_{0}))$, si escribimos que $F^{-1}=\left( (F^{-1})_{1},\dots ,(F^{-1})_{m} \right)$, bastaría con demostrar:

\[ h(\bar{x})=\left( (F^{-1})_{1}(\bar{0},\bar{x}),\dots , (F^{-1})_{m}(\bar{0},\bar{x})\right) \]

para cada $\bar{x}\in V$. Esto se hace como sigue:

\begin{align*} (h(\bar{x}),\bar{x})&=F^{-1}(F(h(\bar{x}),\bar{x}))\\ &=F^{-1}(\bar{0},\bar{x}) \\ &=\left( (F^{-1})_{1}(\bar{0},\bar{x}),\dots ,(F^{-1})_{m}(\bar{0},\bar{x}),(F^{-1})_{m+1}(\bar{0},\bar{x}),\dots ,(F^{-1})_{m+l}(\bar{0},\bar{x}) \right). \end{align*}

Así queda terminada de la demostración de este importante teorema.

$\square$

Algunas reflexiones finales

Si quisiéramos usar de manera práctica la demostración para encontrar la función implícita $h$, necesitaríamos calcular la inversa $F^{-1}$. Sin embargo, las técnicas que tenemos hasta ahora no nos permiten hacer eso tan fácilmente. La versión del teorema de la función inversa que tenemos nos dice que hay una inversa, pero no nos dice quién es. La mayoría de las veces dar esta inversa es muy difícil, por no decir imposible.

Aunque esto parezca algo negativo, de cualquier forma tenemos un resultado muy importante. En algunos casos, sí podremos dar la función inversa con relativa facilidad. Y en otros contextos, aunque no podamos dar la inversa explícitamente, sí tendremos una base teórica robusta para demostrar otros resultados. El teorema de la función implícita es una palanca importante para otros resultados que brindan mucha luz acerca del comportamiento de los campos vectoriales.

Mas adelante…

La demostración y el desarrollo teórico tanto del teorema de la función inversa, como el de la función implícita, son muy técnicos. Dejaremos los aspectos técnicos hasta aquí y en la siguiente entrada procesaremos mejor lo que quiere decir este teorema hablando de varios ejemplos, y también de sus consecuencias.

Tarea moral

Considérese la función $T:\mathbb{R}^{3}\rightarrow \mathbb{R}^{2}$ dada por $T(x,y,z)=(x+z,y+x)$ aplica el teorema de la función implícita para obtener una función $h:\mathbb{R}\rightarrow \mathbb{R}^{2}$ tal que $(h(\bar{a}),\bar{a})$ es solución de la ecuación $T(x,y,z)=(0,0)$.
Explica con detalle por qué la función $F$ de la demostración del teorema de la función implícita es de clase $C^1$.
Verifica que en efecto $DF(\bar{y}_0,\bar{x}_0)$ es la expresión dada en la demostración del teorema. Además, justifica por qué es invertible.
Justifica con detalle por qué los conjuntos $U$ y $V$ de la demostración en efecto son conjuntos abiertos.
El teorema de la función inversa también nos dice quién es la derivada de la inversa. ¿Eso qué quiere decir en el contexto del teorema de la función implícita?

Entradas relacionadas

Ir a Cálculo Diferencial e Integral III
Entrada anterior del curso: Demostración del teorema de la función inversa
Entrada siguiente del curso: Ejemplos e intuición el teorema de la función implícita

Ecuaciones Diferenciales I: Introducción a la teoría cualitativa de las ecuaciones diferenciales

Por Omar González Franco

Deja un comentario

No hay rama de la matemática, por lo abstracta que sea, que no
pueda aplicarse algún día a los fenómenos del mundo real.
– Lobachevski

Introducción

¡Bienvenidos a la cuarta y última unidad del curso de Ecuaciones Diferenciales I!.

En esta unidad estudiaremos a las ecuaciones diferenciales ordinarias desde una perspectiva cualitativa y geométrica. En particular, estudiaremos las propiedades cualitativas de los sistemas de ecuaciones diferenciales de primer orden que vimos en la unidad anterior y, como sabemos, las ecuaciones de orden superior se pueden reducir a sistemas de ecuaciones de primer orden, lo que significa que en nuestro estudio también estaremos revisando las propiedades cualitativas de algunas de las ecuaciones vistas en la unidad 2.

La teoría cualitativa ya no es nueva para nosotros, pues en la primera unidad estudiamos desde esta perspectiva a las ecuaciones de primer orden. Recordemos que una ecuación diferencial de primer orden se puede ver, en su forma normal, como

$$\dfrac{dy}{dx} = f(x, y(x)) = f(x, y) \label{1} \tag{1}$$

Y una ecuación diferencial autónoma como

$$\dfrac{dy}{dx} = f(y(x)) = f(y) \label{2} \tag{2}$$

En esta última ecuación la variable independiente no aparece explícitamente.

Sobre la ecuación (\ref{1}) definimos los conceptos de elementos lineales, campo de pendientes, curvas integrales e isóclinas y sobre la ecuación (\ref{2}) definimos conceptos como puntos de equilibrio o puntos críticos, esquema de fases, líneas de fase, así como atractores, repulsores y nodos. Muchos de estos conceptos los generalizaremos a los sistemas lineales, además de algunos otros conceptos nuevos que definiremos.

En esta entrada daremos una introducción intuitiva al análisis cualitativo y geométrico de los sistemas lineales y a partir de la siguiente entrada comenzaremos a formalizar la teoría.

Sistemas lineales

Recordemos que un sistema de ecuaciones diferenciales de primer orden es de la forma

\begin{align*}
y_{1}^{\prime}(t) &= F_{1}(t, y_{1}, y_{2}, \cdots, y_{n}) \\
y_{2}^{\prime}(t) &= F_{2}(t, y_{1}, y_{2}, \cdots, y_{n}) \\
&\vdots \\
y_{n}^{\prime}(t) &= F_{n}(t, y_{1}, y_{2}, \cdots, y_{n}) \label{3} \tag{3}
\end{align*}

En forma vectorial se puede escribir como

$$\mathbf{Y}^{\prime}(t) = \mathbf{F}(t, \mathbf{Y}(t)) \label{4} \tag{4}$$

Si el sistema es lineal, entonces se puede escribir, en su forma normal, como

\begin{align*}
y_{1}^{\prime}(t) &= a_{11}(t)y_{1} + a_{12}(t)y_{2} + \cdots + a_{1n}(t)y_{n} + g_{1}(t) \\ y_{2}^{\prime}(t) &= a_{21}(t)y_{1} + a_{22}(t)y_{2} + \cdots + a_{2n}(t)y_{n} + g_{2}(t) \\ &\vdots \\
y_{n}^{\prime}(t) &= a_{n1}(t)y_{1} + a_{n2}(t)y_{2} + \cdots + a_{nn}(t)y_{n} + g_{n}(t) \label{5} \tag{5}
\end{align*}

En esta unidad estudiaremos a detalle la propiedades cualitativas de los sistemas lineales compuestos por dos ecuaciones diferenciales de primer orden homogéneas con coeficientes constantes por muchas razones, las cuales comentaremos al final de la entrada. Dicho sistema lo podemos escribir de la siguiente forma.

\begin{align*}
x^{\prime}(t) &= ax(t) + by(t) \\
y^{\prime}(t) &= cx(t) + dy(t) \label{6} \tag{6}
\end{align*}

En donde $a, b, c$ y $d$ son constantes. Si definimos

$$\mathbf{Y}^{\prime}(t) = \begin{pmatrix}
x^{\prime}(t) \\ y^{\prime}(t)
\end{pmatrix}, \hspace{1cm} \mathbf{Y}(t) = \begin{pmatrix}
x(t) \\ y(t)
\end{pmatrix} \hspace{1cm} y \hspace{1cm} \mathbf{A} = \begin{pmatrix}
a & b \\ c & d
\end{pmatrix}$$

entonces el sistema (\ref{6}) se puede escribir como

$${\mathbf{Y}}'(t) = \mathbf{AY}(t) \label{7} \tag{7}$$

Esta es la forma común con la que estuvimos trabajando en la unidad anterior. Si ahora definimos las funciones

$$F_{1}(t, x, y) = ax(t) + by(t) \hspace{1cm} y \hspace{1cm} F_{2}(t, x, y) = cx(t) + dy(t) \label{8} \tag{8}$$

y definimos el vector compuesto por estas funciones

$$\mathbf{F}(t, x, y) = \begin{pmatrix}
F_{1}(t, x, y) \\ F_{2}(t, x, y)
\end{pmatrix} \label{9} \tag{9}$$

entonces podemos escribir al sistema (\ref{6}) como

$$\mathbf{Y}^{\prime}(t) = \mathbf{F}(t, x, y) \label{10} \tag{10}$$

De (\ref{7}) y (\ref{10}), se obtiene que

$$\mathbf{F}(t, x, y) = \mathbf{AY}(t) \label{11} \tag{11}$$

Esta es una nueva forma de ver un sistema lineal, sin embargo nuestro interés está en hacer un análisis cualitativo y geométrico, así que es conveniente ver a la ecuación (\ref{11}) como una función de varias variables definida en un dominio $U$.

Observemos que el sistema lineal (\ref{6}) no depende explícitamente de la variable $t$, por lo que podemos escribir

\begin{align*}
x^{\prime} &= ax + by \\
y^{\prime} &= cx + dy \label{12} \tag{12}
\end{align*}

Y ahora podemos escribir

$$F_{1}(x, y) = ax + by \hspace{1cm} y \hspace{1cm} F_{2}(x, y) = cx + dy \label{13} \tag{13}$$

Es claro que $F_{1}: \mathbb{R}^{2} \rightarrow \mathbb{R}$ y $F_{2}: \mathbb{R}^{2} \rightarrow \mathbb{R}$, es decir las funciones $F_{1}$ y $F_{2}$ son funciones de dos variables cuyo dominio está formado por puntos con $2$ coordenadas y la función asocia a cada punto un número real determinado. La gráfica de estas funciones está en $\mathbb{R}^{3}$. Ahora bien, se puede definir la función

$$F(x, y) = (F_{1}(x, y), F_{2}(x, y)) = (ax + by, cx + dy) \label{14} \tag{14}$$

En este caso $F: \mathbb{R}^{2} \rightarrow \mathbb{R}^{2}$, así que ya no podemos visualizar su gráfica, sin embargo existe una técnica en la que en un mismo plano a cada elemento $(x, y) \in \mathbb{R}^{2}$ lo dibujamos como un punto y a $F(x, y)$ como un vector colocado sobre ese punto $(x, y)$. Por ejemplo, la función

$$F(x, y) = (x, y)$$

se puede visualizar como

Este tipo de bosquejos es lo que conocemos como campos vectoriales.

Finalmente consideremos las soluciones del sistema lineal (\ref{12}). En este caso lo que obtendremos al resolver el sistema serán dos funciones $x(t)$ y $y(t)$ definidas como $x: \mathbb{R} \rightarrow \mathbb{R}$ y $y: \mathbb{R} \rightarrow \mathbb{R}$. Lo que deseamos es graficar de alguna manera estas dos funciones en el mismo plano en el que se bosqueja el campo vectorial $F(x, y)$, para hacerlo definimos la función

$$f(t) = (x(t), y(t)) \label{15} \tag{15}$$

Vemos que $f: \mathbb{R}^{2} \rightarrow \mathbb{R}$, es decir, dado un valor para $t$ las soluciones $x(t)$ y $y(t)$ toman un valor particular que sirven como entrada de la función $f$ y ésta devuelve un sólo valor.

Para tener una visualización de $f$ consideremos como ejemplo la función

$$f(t) = (t, t^{2})$$

con $t \in [-2, 2]$, es decir,

$$x(t) = t \hspace{1cm} y \hspace{1cm} y(t) = t^{2}$$

Consideremos algunos valores particulares

$t = -2 \hspace{0.7cm} \rightarrow \hspace{1cm} f(-2) = (-2, 4)$.

$t = 2 \hspace{1cm} \rightarrow \hspace{1cm} f(2) = (2, 4)$.

$t = -1 \hspace{0.7cm} \rightarrow \hspace{1cm} f(-1) = (-1, 1)$.

$t = 1 \hspace{1cm} \rightarrow \hspace{1cm} f(1) = (1, 1)$.

Para visualizar estos datos lo que vamos a hacer es dibujar vectores que parten del origen hacía las coordenadas $(x(t), y(t))$ obtenidas, tal como se muestra en la siguiente figura.

Vectores correspondientes a $f(t)$ para $t = -2, -1, 1, 2$.

$f(t)$ será la curva que trazará la punta del vector a medida que $t$ tiene distintos valores. Siguiendo con el mismo ejemplo $f(t) = (t, t^{2})$ para $t \in [-2, 2]$, la curva que traza $f$ se ve de la siguiente forma.

Curva de la función $f(t) = (t, t^{2})$ para $t \in [-2, 2]$.

Observemos que $f(t) = (t, t^{2})$ no es más que la parametrización de la parábola $y(x) = x^{2}$ en el intervalo $[-2, 2]$. Es por ello que diremos que $f(t)$ es una función paramétrica.

Recordemos que un sistema de ecuaciones paramétricas permite representar una curva o superficie en el plano o en el espacio mediante una variable $t$ llamada parámetro que recorre un intervalo de números reales, considerando cada coordenada de un punto como una función dependiente del parámetro.

Concluiremos esta entrada con un ejemplo para visualizar cómo es que esta nueva forma de ver el problema de resolver un sistema lineal nos ayudará a obtener información cualitativa del mismo.

Análisis cualitativo y geométrico

Ejemplo: Hacer un análisis cualitativo y geométrico del siguiente sistema lineal homogéneo.

\begin{align*}
x^{\prime} &= 2x + 3y \\
y^{\prime} &= 2x + y \label{16} \tag{16}
\end{align*}

Solución: Primero resolvamos el sistema de forma tradicional, es decir, analíticamente.

La matriz de coeficientes es

$$\mathbf{A} = \begin{pmatrix}
2 & 3 \\ 2 & 1
\end{pmatrix} \label{17} \tag{17}$$

Los valores propios se obtienen de resolver la siguiente ecuación característica.

$$|\mathbf{A} -\lambda \mathbf{I})| = \begin{vmatrix}
2 -\lambda & 3 \\ 2 & 1-\lambda
\end{vmatrix} = \lambda^{2} -3 \lambda -4 = (\lambda + 1)(\lambda -4) = 0$$

Resolviendo se obtiene que los valores propios son

$$\lambda_{1} = -1 \hspace{1cm} y \hspace{1cm} \lambda_{2} = 4$$

Determinemos los vectores propios.

Para $\lambda_{1} = -1$, debemos resolver

$$(\mathbf{A} + \mathbf{I}) \mathbf{K} = \mathbf{0}$$

El sistema de ecuaciones que se obtiene es

\begin{align*}
3k_{1} + 3k_{2} &= 0 \\
2k_{1} + 2k_{2} &= 0
\end{align*}

De donde $k_{1} = -k_{2}$. Si elegimos $k_{2} = 1$, se obtiene $k_{1} = -1$ y entonces el primer vector propio es

$$\mathbf{K}_{1} = \begin{pmatrix}
-1 \\ 1
\end{pmatrix}$$

Para $\lambda_{2} = 4$, debemos resolver

$$(\mathbf{A} -4\mathbf{I}) \mathbf{K} = \mathbf{0}$$

El sistema de ecuaciones que se obtiene es

\begin{align*}
-2k_{1} + 3k_{2} &= 0 \\
2k_{1} -3k_{2} &= 0
\end{align*}

Se ve que $k_{1} = \dfrac{3}{2}k_{2}$, así si $k_{2} = 2$, entonces $k_{1} = 3$ y por tanto el segundo vector propio es

$$\mathbf{K}_{2} = \begin{pmatrix}
3 \\ 2
\end{pmatrix}$$

Las soluciones linealmente independientes son

$$\mathbf{\mathbf{Y}}_{1}(t) = \begin{pmatrix}
-1 \\ 1
\end{pmatrix} e^{ -t} \hspace{1cm} y \hspace{1cm}
\mathbf{\mathbf{Y}}_{2}(t) = \begin{pmatrix}
3 \\ 2
\end{pmatrix}e^{4t} \label{18} \tag{18}$$

Y por lo tanto, la solución general del sistema lineal es

$$\mathbf{\mathbf{Y}}(t) = c_{1} \begin{pmatrix}
1 \\ -1
\end{pmatrix} e^{ -t} + c_{2} \begin{pmatrix}
3 \\ 2
\end{pmatrix} e^{4t} \label{19} \tag{19}$$

Si dejamos de usar la notación matricial podemos escribir a las soluciones como

$$x(t) = c_{1} e^{-t} + 3c_{2} e^{4t} \hspace{1cm} y \hspace{1cm} y(t) = -c_{1}e^{-t} + 2c_{2} e^{4t} \label{20} \tag{20}$$

Hasta aquí es hasta donde hemos llegado con lo visto en la unidad anterior, ahora veamos el comportamiento de estas soluciones geométricamente.

Obtuvimos dos funciones, cada una de ellas depende de la variable $t$ de forma que la primer función la podemos graficar en el plano $XT$, mientras que la segunda en el plano $YT$.

La gráfica de $x(t)$ para $c_{1} = c_{2} = 1$ se ve de la siguiente forma.

Función $ x(t) = e^{-t} + 3 e^{4t}$ en el plano $XT$.

Por otro lado, la gráfica de $y(t)$ para $c_{1} = c_{2} = 1$ se ve de la siguiente forma.

Función $y(t) = -e^{-t} + 2e^{4t}$ en el plano $YT$.

De acuerdo a (\ref{15}), la función paramétrica es

$$f(t) = (c_{1}e^{-t} + 3c_{2}e^{4t}, -c_{1}e^{-t} + 2c_{2}e^{4t}) \label{21} \tag{21}$$

Para el caso particular en el que $c_{1} = c_{2} = 1$ la función paramétrica es

$$f(t) = (e^{-t} + 3e^{4t}, -e^{-t} + 2 e^{4t}) \label{22} \tag{22}$$

Grafiquemos en el plano $XY$ la trayectoria de esta función.

Trayectoria en el plano $XY$ o plano fase.

Como ejemplo, si $t = 0$, entonces $x(0) = 4$ y $y(0) = 1$, tal coordenada $(4, 1)$ corresponde al punto mostrado en el plano $XY$, así la trayectoria se forma por el conjunto de puntos $(x(t), y(t))$ correspondientes a cada valor $t \in \mathbb{R}$.

Las tres gráficas anteriores corresponden a la solución particular en la que $c_{1} = c_{2} = 1$, así cada solución particular producirá tres curvas distintas en tres planos distintos.

Nos centraremos especialmente en el plano $XY$ o también llamado plano fase. Cada una de las curvas que se pueden formar en el plano fase correspondientes a valores específicos de $c_{1}$ y $c_{2}$ se llama trayectoria.

En el siguiente plano fase se muestra un conjunto de trayectorias definidas por (\ref{21}) para distintos valores de $c_{1}$ y $c_{2}$.

Distintas trayectorias en el plano fase.

Al conjunto de trayectorias representativas en el plano fase se llama diagrama fase.

Consideremos las soluciones independientes (\ref{18}).

$$\mathbf{\mathbf{Y}}_{1} = \begin{pmatrix}
-1 \\ 1
\end{pmatrix} e^{ -t} \hspace{1cm} y \hspace{1cm}
\mathbf{\mathbf{Y}}_{2} = \begin{pmatrix}
3 \\ 2
\end{pmatrix}e^{4t}$$

Y notemos lo siguiente.

De $\mathbf{Y}_{2}$ se obtienen las funciones

$$x(t) = 3e^{4t} \hspace{1cm} y \hspace{1cm} y(t) = 2e^{4t} \label{23} \tag{23}$$

De manera que la función $y(t)$ se puede escribir en términos de $x$ como

$$y(x) = \dfrac{2}{3}x$$

con $x > 0$ y cuya gráfica en el plano $XY$ corresponde a una recta en el primer cuadrante con pendiente $\dfrac{2}{3}$.

De forma similar, si consideramos la solución $-\mathbf{Y}_{1}$ se obtienen las funciones

$$x(t) = e^{-t} \hspace{1cm} y \hspace{1cm} y(t) = -e^{t} \label{24} \tag{24}$$

De forma que $y$ en términos de $x$ se ve como

$$y(x) = -x$$

Para $x < 0$ en el plano $XY$ tendremos una recta en el segundo cuadrante con pendiente $-1$.

Consideremos ahora la solución $-\mathbf{Y}_{2}$ cuyas funciones son

$$x(t) = -3e^{4t} \hspace{1cm} y \hspace{1cm} y(t) = -2e^{4t} \label{25} \tag{25}$$

En este caso,

$$y(x) = \dfrac{2}{3}x$$

con $x < 0$, la gráfica corresponde a una recta de pendiente $ \dfrac{2}{3}$ en el tercer cuadrante.

Y finalmente de $\mathbf{Y}_{1}$ se obtienen las funciones

$$x(t) = -e^{-t} \hspace{1cm} y \hspace{1cm} y(t) = e^{-t} \label{26} \tag{26}$$

tal que,

$$y(x) = -x$$

con $x > 0$ y cuya gráfica es una recta de pendiente $-1$ en el cuarto cuadrante.

Lo interesante es que cada vector propio se puede visualizar como un vector bidimensional que se encuentra a lo largo de una de estas semirrectas.

Por ejemplo el vector propio

$$\mathbf{K}_{1} = \begin{pmatrix}
-1 \\ 1
\end{pmatrix}$$

corresponde al siguiente vector en el plano $XY$.

Mientras que el vector propio

$$\mathbf{K}_{2} = \begin{pmatrix}
3 \\ 2
\end{pmatrix}$$

corresponde al vector

A continuación se muestran las cuatro semirrectas anteriores y los vectores propios unitarios

$$\hat{\mathbf{K}}_{1} = \dfrac{\mathbf{K}_{1}}{\left\| \mathbf{K}_{1} \right\|} \hspace{1cm} y \hspace{1cm} \hat{\mathbf{K}}_{2} = \dfrac{\mathbf{K}_{2}}{\left\| \mathbf{K}_{2} \right\|}$$

sobre el mismo plano fase de antes.

Plano fase ilustrando los vectores propios.

El vector propio $\hat{\mathbf{K}}_{2}$ se encuentra junto con $y = \dfrac{2}{3}x$ en el primer cuadrante y $\hat{\mathbf{K}}_{1}$ se encuentra junto con $y =-x$ en el segundo cuadrante.

Notamos que en el plano fase las trayectorias tienen flechas que indican dirección. Para saber la dirección de las trayectorias nos apoyaremos en el campo vectorial asociado.

Definamos las funciones $F_{1}$ y $F_{2}$ de acuerdo a (\ref{13}).

$$F_{1}(x, y) = 2x + 3y, \hspace{1cm} y \hspace{1cm} F_{2}(x, y) = 2x + y \label{27} \tag{27}$$

Entonces la función $F(x, y)$ correspondiente es

$$F(x, y) = (2x + 3y, 2x + y) \label{28} \tag{28}$$

El campo vectorial será descrito por esta función. Como vimos al inicio de la entrada, para cada punto $(x, y)$ del plano fase anclaremos un vector cuya punta termina en la coordenada dada por la suma vectorial $(x, y) + F(x, y)$. Por ejemplo si $x = 0$ y $y = 1$, entonces nos situaremos en la coordenada $(0, 1)$ del plano fase, evaluando en la función $F(x, y)$ se obtiene el punto $F(0, 1) = (3, 1)$, entonces la punta del vector que parte de $(0, 1)$ terminará en la coordenada $(0, 1) + (3, 1) = (3, 2)$.

Como ejemplo dibujemos los vectores correspondientes a las siguientes evaluaciones.

$$F(0, 1) = (3, 1), \hspace{1cm} F(0, -2) = (-6, -2), \hspace{1cm} F(-3, 0) = (-6, -6)$$

$$F(0, 3) = (9, 3), \hspace{1cm} F(2, -2) = (-2, 2), \hspace{1cm} F(3, -1) = (3, 5)$$

Bosquejo de vectores dados por $F(x, y)$.

Como se puede notar, si dibujáramos todos los vectores para cada punto $(x, y)$ tendríamos un desastre de vectores, todos de distintos tamaños atravesándose entre sí y no habría forma de observar el patrón que esconde el campo vectorial. Para solucionar este problema existe la convención de escalar todos los vectores a un mismo tamaño, por su puesto esto ya no representa correctamente al campo vectorial, pero sí que es de mucha ayuda visualmente y se convierte en sólo una representación del campo vectorial.

En nuestro ejemplo la función

$$F(x, y) = (2x + 3y, 2x + y)$$

se representa por el siguiente campo vectorial.

Cómo $F(x, y) = (x^{\prime}, y^{\prime})$, entonces los vectores del campo vectorial deben ser tangentes a las trayectorias formadas por la función paramétrica $f(t) = (x(t), y(t))$. Concluimos entonces que las soluciones del sistema lineal serán trayectorias cuyos vectores del campo vectorial son tangentes a dichas trayectorias.

Campo vectorial y algunas trayectorias del sistema lineal.

Una característica observable del campo vectorial es que los vectores tienden a alejarse del origen, veremos más adelante que el origen no sólo es una solución constante $x = 0$, $y = 0$ (solución trivial) de todo sistema lineal homogéneo de $2$ ecuaciones lineales, sino que también es un punto importante en el estudio cualitativo de dichos sistemas.

Si pensamos en términos físicos, las puntas de flecha de cada trayectoria en el tiempo $t$ se mueven conforme aumenta el tiempo. Si imaginamos que el tiempo va de $-\infty$ a $\infty$, entonces examinando la solución

$$x(t) = c_{1}e^{ -t} + 3c_{2}e^{4t}, \hspace{1cm} y(t) = -c_{1}e^{ -t} + 2c_{2}e^{4t}, \hspace{1cm} c_{1} \neq 0, \hspace{0.4cm} c_{2} \neq 0$$

muestra que una trayectoria o partícula en movimiento comienza asintótica a una de las semirrectas definidas por $\mathbf{Y}_{1}$ o $ -\mathbf{Y}_{1}$ (ya que $e^{4t}$ es despreciable para $t \rightarrow -\infty$) y termina asintótica a una de las semirrectas definidas por $\mathbf{Y}_{2}$ o $ -\mathbf{Y}_{2}$ (ya que $e^{-t}$ es despreciable para $t \rightarrow \infty$).

El plano fase obtenido representa un diagrama de fase que es característico de todos los sistemas lineales homogéneos de $2 \times 2$ con valores propios reales de signos opuestos.

$\square$

Hemos concluido con el ejemplo. Lo que nos muestra este ejemplo es que es posible hacer un desarrollo geométrico sobre un sistema lineal, sin embargo esto sólo es posible si es un sistema con dos ecuaciones, ya que si aumenta el número de ecuaciones también aumentará el número de dimensiones y ya no seremos capaz de obtener gráficas. Es posible extender el plano fase a tres dimensiones (espacio fase para un sistema lineal con $3$ ecuaciones), pero nos limitaremos sólo a los sistemas de $2$ ecuaciones para hacer más sencilla la tarea. También es importante mencionar que podremos hacer este análisis siempre y cuando los coeficientes sean constantes y las ecuaciones no dependan explícitamente de la variable independiente $t$.

Con este método geométrico será posible estudiar el comportamiento de las soluciones sin la necesidad de resolver el sistema, incluso con este método podremos estudiar sistemas no lineales para los cuales aún no conocemos algún método para resolverlos.

Finalmente veremos que las propiedades del plano fase quedarán determinadas por los valores propios del sistema, de manera que en las siguientes entradas haremos un análisis para cada una de las posibilidades que existen, tales posibilidades son:

Valores propios reales y distintos:

$\lambda_{1} < \lambda_{2} < 0$.
$\lambda_{1} > \lambda_{2} > 0$.
$\lambda_{1} < 0$ y $\lambda_{2} > 0$ (como en nuestro ejemplo).

Valores propios complejos:

$\lambda_{1} = \alpha + i \beta$ y $\lambda_{2} = \alpha -i \beta$ con $\alpha < 0$.
$\lambda_{1} = \alpha + i \beta$ y $\lambda_{2} = \alpha -i \beta$ con $\alpha = 0$.
$\lambda_{1} = \alpha + i \beta$ y $\lambda_{2} = \alpha -i \beta$ con $\alpha > 0$.

Valores propios repetidos:

$\lambda_{1} = \lambda_{2} < 0$.
$\lambda_{1} = \lambda_{2} > 0$.

Valores propios nulos:

$\lambda_{1} = 0$ y $\lambda_{2} < 0$.
$\lambda_{1} = 0$ y $\lambda_{2} > 0$.
$\lambda_{1} = \lambda_{2} = 0$.

En las próximas entradas estudiaremos a detalle cada uno de estos casos.

En este enlace se tiene acceso a una excelente herramienta para visualizar el plano fase de sistemas lineales de dos ecuaciones homogéneas con coeficientes constantes y en este enlace se puede visualizar el campo vectorial asociado, además de algunas trayectorias del sistema dando clic sobre el campo vectorial.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

En la unidad anterior resolviste de tarea moral los siguientes sistemas lineales. En este caso realiza un desarrollo geométrico como lo hicimos en esta entrada e intenta describir el comportamiento de las soluciones en el plano fase. Dibuja a mano algunos vectores del campo vectorial y algunas trayectorias sobre el mismo plano fase, posteriormente verifica tu resultado visualizando el espacio fase y el campo vectorial usando los enlaces proporcionados anteriormente.

$\mathbf{Y}^{\prime} = \begin{pmatrix}
6 & -3 \\ 2 & 1
\end{pmatrix} \mathbf{Y}$

$\mathbf{Y}^{\prime} = \begin{pmatrix}
1 & -3 \\ -2 & 2
\end{pmatrix} \mathbf{Y}$

$\mathbf{Y}^{\prime} = \begin{pmatrix}
-3 & 2 \\ -1 & -1
\end{pmatrix}\mathbf{Y}$

$\mathbf{Y}^{\prime} = \begin{pmatrix}
-1 & 3 \\ -3 & 5
\end{pmatrix}\mathbf{Y}$

¿Qué características distintas identificas entre los planos fase de cada uno de los sistemas anteriores?.

Más adelante…

Esta entrada nos ha servido de introducción al estudio geométrico y cualitativo de los sistemas lineales. En la siguiente entrada formalizaremos lo que vimos en esta entrada para posteriormente hacer un análisis más detallado sobre los distintos tipos de sistemas tanto lineales como no lineales que se puedan presentar.

Entradas relacionadas

Página principal del curso: Ecuaciones Diferenciales I
Entrada anterior del curso: Teorema de existencia y unicidad para sistemas de ecuaciones diferenciales de primer orden
Siguiente entrada del curso: Sistemas autónomos, puntos de equilibrio y su estabilidad

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

El blog de Leo

Aprendiendo, creando y compartiendo matemáticas

Archivo de la etiqueta: campos vectoriales

Cálculo Diferencial e Integral III: Multiplicadores de Lagrange

Introducción

Un ejemplo para motivar la teoría

Enunciado del teorema de multiplicadores de Lagrange

Demostración del teorema de multiplicadores de Lagrange

Ejemplos del método de multiplicadores de Lagrange

Más adelante…

Tarea moral

Entradas relacionadas

Cálculo Diferencial e Integral III: Ejemplos e intuición del teorema de la función implícita

Introducción

¿Por qué teorema de la función implícita?

La derivada de la función implícita

Un primer ejemplo del teorema de la función inversa

Un repaso chiquito de la demostación del teorema de la función implícita

Otro ejemplo para encontrar derivadas de funciones implícitas

Más adelante…

Tarea moral

Entradas relacionadas

Cálculo Diferencial e Integral III: Teorema de la función implícita y demostración

Introducción

Una motivación: resolver sistemas de ecuaciones no lineales

Enunciado del teorema de la función implícita

Demostración del teorema de la función implícita

Algunas reflexiones finales

Mas adelante…

Tarea moral

Entradas relacionadas

Ecuaciones Diferenciales I: Introducción a la teoría cualitativa de las ecuaciones diferenciales

Introducción

Sistemas lineales

Análisis cualitativo y geométrico

Tarea moral

Más adelante…

Entradas relacionadas

Agradecimientos