Archivo de la etiqueta: cálculo

Álgebra Superior I: Cálculo de determinantes

Por Eduardo García Caballero

Introducción

En la entrada anterior introdujimos el concepto de determinante de matrices cuadradas. Dimos la definición para matrices de $2\times 2$. Aunque no dimos la definición en general (pues corresponde a un curso de Álgebra Lineal I), dijimos cómo se pueden calcular los determinantes de manera recursiva. Pero, ¿hay otras herramientas para hacer el cálculo de determinantes más sencillo?

En esta entrada hablaremos de más propiedades de los determinantes. Comenzaremos viendo que si en una matriz tenemos dos filas o columnas iguales, el determinante se hace igual a cero. Luego, veremos que los determinantes son lineales (por renglón o columna), que están muy contectados con las operaciones elementales y platicaremos de algunos determinantes especiales.

Linealidad por filas o columnas

El determinante «abre sumas y saca escalares», pero hay que ser muy cuidadosos, pues no lo hace para toda una matriz, sino sólo renglón a renglón, o columna a columna. Enunciemos esto en las siguientes proposiciones.

Proposición. El determinante saca escalares renglón por renglón o columna por columna. Por ejemplo, pensemos en sacar escalares por renglón. Si $k$ es un número real y tenemos una matriz de la forma
\[
\begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
\vdots & \vdots & & \vdots \\
ka_{i1} & ka_{i2} & \cdots & ka_{in} \\
\vdots & \vdots & & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{pmatrix},
\]
entonces
\[
\operatorname{det}
\begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
\vdots & \vdots & & \vdots \\
ka_{i1} & ka_{i2} & \cdots & ka_{in} \\
\vdots & \vdots & & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{pmatrix}
=
k\operatorname{det}
\begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
\vdots & \vdots & & \vdots \\
a_{i1} & a_{i2} & \cdots & a_{in} \\
\vdots & \vdots & & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{pmatrix}.
\]

No podemos dar la demostración muy formalmente, pues necesitamos de más herramientas. Pero puedes convencerte de que esta proposición es cierta pensando en lo que sucede cuando se calcula el determinante recursivamente en la fila $i$. En la matriz de la izquierda, usamos los coeficientes $ka_{i1},\ldots,ka_{in}$ para acompañar a los determinantes de las matrices de $(n-1)\times (n-1)$ que van saliendo. Pero entonces en cada término aparece $k$ y se puede factorizar. Lo que queda es $k$ veces el desarrollo recursivo de la matriz sin las $k$’s en el renglón $i$.

Ejemplo. Calculemos el determinante de la matriz $A=\begin{pmatrix} 2 & 2 & -1 \\ 0 & 2 & 3 \\ -3 & 2 & 1\end{pmatrix}$. En la primera columna hay un $0$, así que nos conviene usar esta columna para encontrar el determinante. Aplicando la regla recursiva, obtenemos que:

\begin{align*}
\det(A)=\begin{vmatrix} 2 & 2 & -1 \\ 0 & 2 & 3 \\ -3 & 2 & 1\end{vmatrix} &= (2) \begin{vmatrix} 2 & 3 \\ 2 & 1 \end{vmatrix} – (0) \begin{vmatrix} 2 & -1 \\ 2 & 1 \end{vmatrix} + (-3) \begin{vmatrix} 2 & -1 \\ 2 & 3 \end{vmatrix}\\
&=2(2\cdot 1 – 3 \cdot 2) – 0 (2 \cdot 1 – (-1)\cdot 2) – 3 (2\cdot 3 – (-1)\cdot 2)\\
&=2(-4)-0(4)-3(8)\\
&=-32.
\end{align*}

¿Qué sucedería si quisiéramos ahora el determinante de la matriz $B=\begin{pmatrix} 2 & 1 & -1 \\ 0 & 1 & 3 \\ -3 & 1 & 1\end{pmatrix}$? Podríamos hacer algo similar para desarrollar en la primera fila. Pero esta matriz está muy relacionada con la primera. La segunda columna de $B$ es $1/2$ veces la segunda columna de $A$. Por la propiedad que dijimos arriba, tendríamos entonces que $$\det(B)=\frac{1}{2}\det(A)=\frac{-32}{2}=-16.$$

$\triangle$

Ejemplo. Hay que tener mucho cuidado, pues el determinante no saca escalares con el producto escalar de matrices. Observa que si $A=\begin{pmatrix} 2 & 1 \\ 1 & 1 \end{pmatrix}$, entonces $\begin{vmatrix} 2 & 1 \\ 1 & 1 \end{vmatrix} = 2\cdot 1 – 1\cdot 1 = 1$. Sin embargo, $$\det(2A)=\begin{vmatrix} 4 & 2 \\ 2 & 2 \end{vmatrix}=4\cdot 2 – 2 \cdot 2 = 4\neq 2\det(A).$$

En vez de salir dos veces el determinante, salió cuatro veces el determinante. Esto tiene sentido de acuerdo a la propiedad anterior: sale un factor $2$ pues la primera fila es el doble, y sale otro factor $2$ porque la segunda fila también es el doble.

$\square$

Proposición. El determinante abre sumas renglón por renglón, o columa por columna. Por ejemplo, veamos el caso para columnas. Si tenemos una matriz de la forma
\[
\begin{pmatrix}
a_{11} & \cdots & a_{1i} + b_{1i} & \cdots & a_{1n} \\
a_{21} & \cdots & a_{2i} + b_{2i} & \cdots & a_{2n} \\
\vdots & & \vdots & & \vdots \\
a_{n1} & \cdots & a_{ni} + b_{ni} & \cdots & a_{nn}
\end{pmatrix},
\]
entonces este determinante es igual a
\begin{align*}
\operatorname{det}
\begin{pmatrix}
a_{11} & \cdots & a_{1i} & \cdots & a_{1n} \\
a_{21} & \cdots & a_{2i} & \cdots & a_{2n} \\
\vdots & & \vdots & & \vdots \\
a_{n1} & \cdots & a_{ni} & \cdots & a_{nn}
\end{pmatrix}
+
\operatorname{det}
\begin{pmatrix}
a_{11} & \cdots & b_{1i} & \cdots & a_{1n} \\
a_{21} & \cdots & b_{2i} & \cdots & a_{2n} \\
\vdots & & \vdots & & \vdots \\
a_{n1} & \cdots & b_{ni} & \cdots & a_{nn}
\end{pmatrix}.
\end{align*}

Una vez más, no podemos dar una demostración muy formal a estas alturas. Pero como en el caso de sacar escalares, también podemos argumentar un poco informalmente qué sucede. Si realizamos el cálculo de determinantes en la columna $i$, entonces cada término de la forma $a_{ji}+b_{ji}$ acompaña a un determinante $D_{ji}$ de una matriz de $(n-1)\times (n-1)$ que ya no incluye a esa columna. Por ley distributiva, cada sumando es entonces $(a_{ji}+b_{ji})D_{ji}=a_{ji}D_{ji}+b_{ji}D_{ji}$ (acompañado por un $+$ o un $-$). Agrupando en un lado los sumandos con $a_{ji}$’s y por otro los sumandos con $b_{ji}$’s obtenemos la identidad deseada.

Ejemplo. Las matrices $\begin{pmatrix} 5 & 2 \\ 2 & 1 \end{pmatrix}$ y $\begin{pmatrix} 2 & 5 \\ 2 & 1 \end{pmatrix}$ tienen determinantes $1$ y $-8$ respectivamente (verifícalo). De acuerdo a la propiedad anterior, el determinante de la matriz $$\begin{pmatrix} 5 + 2 & 2 + 5 \\ 2 & 1 \end{pmatrix} = \begin{pmatrix} 7 & 7 \\ 2 & 1 \end{pmatrix}$$

debería ser $1 + (-8) = -7$. Y sí, en efecto $7\cdot 1 – 2 \times 7 = -7$.

$\triangle$

Hay que tener mucho cuidado, pues en esta propiedad de la suma las dos matrices tienen que ser iguales en casi todas las filas (o columnas), excepto en una. En esa fila (o columna) es donde se da la suma. En general, no sucede que $\det(A+B)=\det(A)+\det(B)$.

Ejemplo. Puedes verificar que las matrices $A=\begin{pmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1\end{pmatrix}$ y $B=\begin{pmatrix} -1 & 0 & 0 & 0 \\ 0 & -1 & 0 & 0 \\ 0 & 0 & -1 & 0 \\ 0 & 0 & 0 & -1\end{pmatrix}$ tienen ambas determinante $1$. Sin embargo, su suma es la matriz de puros ceros, que tiene determinante $0$. Así, $$\det(A)+\det(B)=2\neq 0 = \det(A+B).$$

$\triangle$

El determinante y operaciones elementales

El siguiente resultado nos dice qué sucede al determinante de una matriz cuando le aplicamos operaciones elementales.

Teorema. Sea $A$ una matriz cuadrada.

  • Si $B$ es una matriz que se obtiene de $A$ al reescalar un renglón con el escalar $\alpha$, entonces $\det(B)=\alpha\det(A)$.
  • Si $B$ es una matriz que se obtiene de $A$ al intercambiar dos renglones, entonces $\det(B)=-\det(A)$.
  • Si $B$ es una matriz que se obtiene de $A$ al hacer una transvección, entonces $\det(B)=\det(A)$.

No nos enfocaremos mucho en demostrar estas propiedades, pues se demuestran con más generalidad en el curso de Álgebra Lineal I. Sin embargo, a partir de ellas podemos encontrar un método de cálculo de determinantes haciendo reducción gaussiana.

Teorema. Sea $A$ una matriz cuadrada. Supongamos que para llevar $A$ a su forma escalonada reducida $A_{red}$ se aplicaron algunas transvecciones, $m$ intercambios de renglones y $k$ reescalamientos por escalares no cero $\alpha_1,\ldots,\alpha_k$ (en el orden apropiado). Entonces $$\det(A)=\frac{(-1)^m\det(A_{red})}{\alpha_1\alpha_2\cdots\alpha_k}.$$ En particular:

  • Si $A_{red}$ no es la identidad, entonces $\det(A_{red})=0$ y entonces $\det(A)=0$.
  • Si $A_{red}$ es la identidad, entonces $\det(A_{red})=1$ y entonces $$\det(A)=\frac{(-1)^m}{\alpha_1\alpha_2\cdots\alpha_k}.$$

Veamos un ejemplo.

Ejemplo. Calculemos el determinante de la matriz $A=\begin{pmatrix} 2 & 2 & -2 \\ 0 & 2 & 3 \\ -3 & 2 & 1\end{pmatrix}$ usando reducción gaussiana. Multiplicamos la primera fila por $\alpha_1=1/2$ y la sumamos tres veces a la última (transvección no cambia el determinante):

$$\begin{pmatrix} 1 & 1 & -1 \\ 0 & 2 & 3 \\ 0 & 5 & -2\end{pmatrix}$$

Multiplicamos por $\alpha_2=1/5$ la segunda fila y la intercambiamos con la tercera (va $m=1$).

$$\begin{pmatrix} 1 & 1 & -1 \\ 0 & 1 & -\frac{2}{5} \\ 0 & 2 & 3\end{pmatrix}.$$

Restamos dos veces la segunda fila a la tercera (transvección no cambia el determinante)

$$\begin{pmatrix} 1 & 1 & -1 \\ 0 & 1 & -\frac{2}{5} \\ 0 & 0 & \frac{19}{5}\end{pmatrix},$$

y multiplicamos la tercera fila por $\alpha_3=5/19$:

$$\begin{pmatrix} 1 & 1 & -1 \\ 0 & 1 & -\frac{2}{5}\\ 0 & 0 & 1\end{pmatrix}.$$

Hacemos transvecciones para hacer cero las entradas arriba de la diagonal principal (transvecciones no cambian el determinante): $$\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1\end{pmatrix}.$$

Ya llegamos a la identidad. Los reescalamientos fueron por $1/2$, $1/5$ y $5/19$ y usamos en total $1$ intercambio. Así, $$\det(A)=\frac{(-1)^1}{(1/2)(1/5)(5/19)}=-38.$$

$\triangle$

Es recomendable que calcules el determinante del ejemplo anterior con la regla recursiva de expansión por menores para que verifiques que da lo mismo.

Algunos determinantes especiales

A continuación enunciamos otras propiedades que cumplen los determinantes. Todas estas puedes demostrarlas suponiendo propiedades que ya hemos enunciado.

Proposición. Para cualquier entero positivo $n$ se cumple que la matriz identidad $\mathcal{I}_n$ tiene como determinante $\operatorname{det}(\mathcal{I}_n) = 1$.

Este resultado es un caso particular de una proposición más general.

Proposición. El determinante de una matriz diagonal es igual al producto de los elementos de su diagonal; es decir,
\[
\operatorname{det}
\begin{pmatrix}
a_{11} & 0 & \cdots & 0 \\
0 & a_{22} & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & a_{nn}
\end{pmatrix}
=
a_{11} a_{12} \cdots a_{nn}.
\]

Para probar esta proposición, puedes usar la regla recursiva para hacer la expansión por la última fila (o columna) y usar inducción.

Proposición. $\operatorname{det}(A^T) = \operatorname{det}(A)$.

Este resultado también sale inductivamente. Como los determinantes se pueden expandir por renglones o columnas, entonces puedes hacer una expansión en alguna fila de $A$ y será equivalente a hacer la expansión por columnas en $A^T$.

Proposición. Si $A$ es una matriz invertible, entonces $\operatorname{det}(A^{-1}) = \dfrac{1}{\operatorname{det}(A)}$.

Para demostrar este resultado, se puede usar la proposición del determinante de la identidad, y lo que vimos la entrada pasada sobre que $\det(AB)=\det(A)\det(B)$.

Los argumentos que hemos dado son un poco informales, pero quedará en los ejercicios de esta entrada que pienses en cómo justificarlos con más formalidad.

Ejemplos interesantes de cálculo de determinantes

Las propiedades anteriores nos permiten hacer el cálculo de determinantes de varias maneras (no sólo expansión por menores). A continuación presentamos dos ejemplos que usan varias de las técnicas discutidas arriba.

Ejemplo. Calculemos el siguiente determinante:

$$\begin{vmatrix} 1 & 5 & 3 \\ 2 & 9 & 1 \\ 5 & 4 & 3 \end{vmatrix}.$$

Como aplicar transvecciones no cambia el determinante, podemos restar la primera fila a la segunda, y luego cinco veces la primera fila a la tercera y el determinante no cambia. Así, este determinante es el mismo que

$$\begin{vmatrix} 1 & 5 & 3 \\ 0 & -1 & -5 \\ 0 & -21 & -12 \end{vmatrix}.$$

Multiplicar la segunda fila por $-1$ cambia el determinante en $-1$. Y luego multiplicar la tercera por $-1$ lo vuelve a cambiar en $-1$. Entonces haciendo ambas operaciones el determinante no cambia y obtenemos que el determinante es igual a

$$\begin{vmatrix} 1 & 5 & 3 \\ 0 & 1 & 5 \\ 0 & 21 & 12 \end{vmatrix}.$$

En esta matriz podemos expandir por la primera columna en donde hay dos ceros. Por ello, el determinante es

$$\begin{vmatrix} 1 & 5 \\ 21 & 12 \end{vmatrix}= (1\cdot 12) – (5 \cdot 21) = -93.$$

$\triangle$

Ejemplo. Calculemos el siguiente determinante:

$$\begin{vmatrix} 1 & 2 & 3 & 4 \\ 2 & 3 & 4 & 1 \\ 3 & 4 & 1 & 2 \\ 4 & 1 & 2 & 3 \end{vmatrix}.$$

Hacer transvecciones no cambia el determinante, entonces podemos sumar todas las filas a la última sin alterar el determinante. Como $1+2+3+4=10$, obtenemos:

$$\begin{vmatrix} 1 & 2 & 3 & 4 \\ 2 & 3 & 4 & 1 \\ 3 & 4 & 1 & 2 \\ 10 & 10 & 10 & 10 \end{vmatrix}.$$

Ahora, la última fila tiene un factor $10$ que podemos factorizar:

$$10\cdot \begin{vmatrix} 1 & 2 & 3 & 4 \\ 2 & 3 & 4 & 1 \\ 3 & 4 & 1 & 2 \\ 1 & 1 & 1 & 1 \end{vmatrix}.$$

Ahora, podemos restar la primera columna a todas las demás, sin cambiar el determinante:

$$10\cdot \begin{vmatrix} 1 & 1 & 2 & 3 \\ 2 & 1 & 2 & -1 \\ 3 & 1 & -2 & 1 \\ 1 & 0 & 0 & 0 \end{vmatrix}.$$

Luego, podemos sumar la segunda fila a la tercera sin cambiar el determinante:

$$10\cdot \begin{vmatrix} 1 & 1 & 2 & 3 \\ 2 & 1 & 2 & -1 \\ 5 & 2 & 0 & 0 \\ 1 & 0 & 0 & 0 \end{vmatrix}.$$

Expandiendo por la última fila:

$$-10\cdot \begin{vmatrix} 1 & 2 & 3 \\ 1 & 2 & -1 \\ 2 & 0 & 0 \end{vmatrix}.$$

Expandiendo nuevamente por la última fila:

$$-10 \cdot 2 \cdot \begin{vmatrix} 2 & 3 \\ 2 & -1 \end{vmatrix}.$$

El determinante de $2\times 2$ que queda ya sale directo de la fórmula como $2\cdot (-1)-3\cdot 2 = -8$. Así, el determinante buscado es $(-10)\cdot 2 \cdot (-8)=160$.

$\triangle$

Más adelante…

Los determinantes son una propiedad fundamental de las matrices. En estas entradas apenas comenzamos a platicar un poco de ellos. Por un lado, son muy importantes algebraicamente pues ayudan a decidir cuándo una matriz es invertible. Se pueden utilizar para resolver sistemas de $n$ ecuaciones lineales en $n$ incógnitas con algo conocido como la regla de Cramer. Por otro lado, los determinantes también tienen una interpretación geométrica que es sumamente importante en geometría analítica y en cálculo integral de varias variables. En cursos posteriores en tu formación matemática te los seguirás encontrando.

Tarea moral

  1. Calcula el siguiente determinante: $$\begin{vmatrix} 1 & 1 & 1 & 1 \\ 2 & 0 & 2 & 2 \\ 0 & 3 & 3 & 0 \\ 0 & 0 & 4 & 0 \end{vmatrix}.$$ Intenta hacerlo de varias formas, aprovechando todas las herramientas que hemos discutido en esta entrada.
  2. También se pueden obtener determinantes en matrices en donde hay variables en vez de escalares. Encuentra el determinante de la matriz $$\begin{pmatrix} a & b & c \\ b & c & a \\ c & a & b \end{pmatrix}.$$
  3. Encuentra todas las matrices $A$ de $2\times 2$ que existen tales que $$\det(A+I_2)=\det(A)+1.$$
  4. Demuestra todas las propiedades de la sección de «Algunos determinantes especiales». Ahí mismo hay sugerencias de cómo puedes proceder.
  5. Revisa las entradas Álgebra Lineal I: Técnicas básicas de cálculo de determinantes y Seminario de Resolución de Problemas: Cálculo de determinantes para conocer todavía más estrategias y ejemplos de cálculo de determinantes.

Entradas relacionadas

Cálculo Diferencial e Integral III: Puntos críticos de campos escalares

Por Alejandro Antonio Estrada Franco

Introducción

En las unidades anteriores hemos desarrollado varias herramientas de la teoría de diferenciabilidad que nos permiten estudiar tanto a los campos escalares, como a los campos vectoriales. Hemos platicado un poco de las aplicaciones que esta teoría puede tener. En esta última unidad, profundizamos un poco más en cómo dichas herramientas nos permitirán hacer un análisis geométrico y cuantitativo de las funciones. Es decir, a partir de ciertas propiedades analíticas, hallaremos algunas cualidades de su comportamiento geométrico. En esta entrada estudiaremos una pregunta muy natural: ¿cuándo una función diferenciable alcanza su máximo o su mínimo? Para ello, necesitaremos definir qué quiere decir que algo sea un punto crítico de una función. Esto incluirá a los puntos más altos, los más bajos, local y globalmente y ciertos «puntos de quiebre» que llamamos puntos silla.

Introducción al estudio de los puntos críticos

Si tenemos un campo escalar $f:\mathbb{R}^n\to \mathbb{R}$, en muchas aplicaciones nos interesa poder decir cuándo alcanza sus valores máximos o mínimos. Y a veces eso sólo nos importa en una vecindad pequeña. La siguiente definición hace ciertas precisiones.

Definición. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ un campo escalar, y $\bar{a}\in S$.

  • Decimos que $f$ tiene un máximo absoluto (o máximo global) en $\bar{a}$ si $f(\bar{x})\leq f(\bar{a})$ para todo $\bar{x}\in S$. A $f(\bar{a})$ le llamamos el máximo absoluto (o máximo global) de $f$ en $S$.
  • Decimos que $f$ tiene un máximo relativo (o máximo local) en $\bar{a}$ si existe una bola abierta $B_{r}(\bar{a})$ tal que para todo $\bar{x}\in B_{r}(\bar{a})$ $f(\bar{x})\leq f(\bar{a})$.
  • Decimos que $f$ tiene un mínimo absoluto (o mínimo global) en $\bar{a}$ si $f(\bar{x})\geq f(\bar{a})$ para todo $\bar{x}\in S$. A $f(\bar{a})$ le llamamos el mínimo absoluto (o mínimo global) de $f$ en $S$.
  • Decimos que $f$ tiene un mínimo relativo (o mínimo local) en $\bar{a}$ si existe una bola abierta $B_{r}(\bar{a})$ tal que para todo $\bar{x}\in B_{r}(\bar{a})$ $f(\bar{x})\geq f(\bar{a})$.

En cualquiera de las situaciones anteriores, decimos que $f$ tiene un valor extremo (ya sea relativo o absoluto) en $\bar{a}$. Notemos que todo extremo absoluto en $S$ será extremo relativo al tomar una bola $B_{r}(\bar{a})$ que se quede contenida en $S$. Y de manera similar, todo extremo relativo se vuelve un extremo absoluto para la función restringida a la bola $B_{r}(\bar{a})$ que da la definición.

Usualmente, cuando no sabemos nada de una función $f$, puede ser muy difícil, si no imposible estudiar sus valores extremos. Sin embargo, la intuición que tenemos a partir de las funciones de una variable real es que deberíamos poder decir algo cuando la función que tenemos tiene cierta regularidad, por ejemplo, cuando es diferenciable. Por ejemplo, para funciones diferenciables $f:S\subseteq \mathbb{R}\to\mathbb{R}$ quizás recuerdes que si $f$ tiene un valor extremo en $\bar{a}\in S$, entonces $f'(\bar{a})=0$.

El siguiente teorema es el análogo en altas dimensiones de este resultado.

Teorema. Sea $f:S\subseteq \mathbb{R}^n\to \mathbb{R}$ un campo escalar. Supongamos que $f$ tiene un valor extremo en un punto interior $\bar{a}$ de $S$, y que $f$ es diferenciable en $\bar{a}$. Entonces el gradiente de $f$ se anula en $\bar{a}$, es decir, $$\triangledown f(\bar{a})=0.$$

Demostración. Demostraremos el resultado para cuando hay un máximo relativo en $\bar{a}$. El resto de los casos quedan como tarea moral. De la suposición, obtenemos que existe un $r>0$ tal que $f(\bar{x})\leq f(\bar{a})$ para todo $\bar{x}\in B_r(\bar{a})$. Escribamos $\bar{a}=(a_{1},\dots ,a_{n})$.

Para cada $i=1,\dots ,n$ tenemos:

\[ \frac{\partial f}{\partial x_{i}}(\bar{a})=\lim\limits_{\xi \to a_{i}}\frac{f(\xi \hat{e}_{i})-f(\bar{a})}{\xi -a_{i}}. \]

Además, ya que $f$ es diferenciable en $\bar{a}$ también se cumple

\[\lim\limits_{\xi \to a_{i}-}\frac{f(\xi e_{i})-f(a)}{\xi -a_{i}}=\lim\limits_{\xi \to a_{i}+}\frac{f(\xi e_i)-f(a)}{\xi -a_{i}}. \]

Dado que $f$ alcanza máximo en $\bar{a}$ tenemos que $f(\xi \hat{e}_{i})-f(\bar{a})\leq 0$. Para el límite por la izquierda tenemos $\xi-a_{i}\leq 0$, por lo tanto, en este caso

\[ \lim\limits_{\xi \to a_{i}-}\frac{f(\xi e_{i})-f(\bar{a})}{\xi -a_{i}}\geq 0.\]

Para el límite por la derecha tenemos $\xi-a_{i}\geq 0$, por lo cual

\[ \lim\limits_{\xi \to a_{i}+}\frac{f(\xi \hat{e}_{i})-f(\bar{a})}{\xi -a_{i}}\leq 0.\]

Pero la igualdad entre ambos límites dos dice entonces que

\[\frac{\partial f}{\partial x_{i}}(\bar{a}) =\lim\limits_{\xi \to a_{i}-}\frac{f(\xi \hat{e}_{i})-f(\bar{a})}{\xi -a_{i}}=0. \]

Por lo cual cada derivada parcial del campo vectorial es cero, y así el gradiente también lo es.

$\square$

Parece ser que es muy importante saber si para un campo vectorial su gradiente se anula, o no, en un punto. Por ello, introducimos dos nuevas definiciones.

Definición. Sea $f:S\subseteq \mathbb{R}^n \to \mathbb{R}$ un campo escalar diferenciable en un punto $\bar{a}$ en $S$. Diremos que $f$ tiene un punto estacionario en $\bar{a}$ si $\triangledown f(\bar{a})=0$.

Definición. Sea $f:S\subseteq \mathbb{R}^n \to \mathbb{R}$ un campo escalar y tomemos $\bar{a}$ en $S$. Diremos que $f$ tiene un punto crítico en $\bar{a}$ si o bien $f$ no es diferenciable en $\bar{a}$, o bien $f$ tiene un punto estacionario en $\bar{a}$.

Si $f$ tiene un valor extremo en $\bar{a}$ y no es diferenciable en $\bar{a}$, entonces tiene un punto crítico en $\bar{a}$. Si sí es diferenciable en $\bar{a}$ y $\bar{a}$ es un punto interior del dominio, por el teorema de arriba su gradiente se anula, así que tiene un punto estacionario y por lo tanto también un punto crítico en $\bar{a}$. La otra opción es que sea diferenciable en $\bar{a}$, pero que $\bar{a}$ no sea un punto interior del dominio.

Observación. Los valores extremos de $f$ se dan en los puntos críticos de $f$, o en puntos del dominio que no sean puntos interiores.

Esto nos da una receta para buscar valores extremos para un campo escalar. Los puntos candidatos a dar valores extremos son:

  1. Todos los puntos del dominio que no sean interiores.
  2. Aquellos puntos donde la función no sea diferenciable.
  3. Los puntos la función es diferenciable y el gradiente se anule.

Ya teniendo a estos candidatos, hay que tener cuidado, pues desafortunadamente no todos ellos serán puntos extremos. En la teoría que desarrollaremos a continuación, profundizaremos en el entendimiento de los puntos estacionarios y de los distintos comportamientos que las funciones de varias variables pueden tener.

Intuición geométrica

Para entender mejor qué quiere decir que el gradiente de un campo escalar se anuele, pensemos qué pasa en términos geomértricos en un caso particular, que podamos dibujar. Tomemos un campo escalar $f:\mathbb{R}^2\to \mathbb{R}$. La gráfica de la función $f$ es la superficie en $\mathbb{R}^{3}$ que se obtiene al variar los valores de $x,y$ en la expresión $(x,y,f(x,y))$.

Otra manera de pensar a esta gráfica es como un conjunto de nivel. Si definimos $F(x,y,z)=z-f(x,y)$, entonces la gráfica es precisamente el conjunto de nivel para $F$ en el valor $0$, pues precisamente $F(x,y,z)=0$ si y sólo si $z=f(x,y)$.

Si $f$ alcanza un extremo en $(a,b)$, entonces $\triangledown f(a,b)=0$ por lo cual $\triangledown F (a,b,f(a,b))=(0,0,1)$. Así, el gradiente es paralelo al eje $z$ y por lo tanto es un vector normal a la superficie $F(x,y,z)=0$. Esto lo podemos reinterpretar como que el plano tangente a la superficie citada en el punto $(a,b,f(a,b))$ es horizontal.

Puntos silla

Cuando la función es diferenciable y el gradiente se anula, en realida tenemos pocas situaciones que pueden ocurrir. Sin embargo, falta hablar de una de ellas. Vamos a introducirla mediante un ejemplo.

Ejemplo. Consideremos $f(x,y)=xy$. En este caso

$$\frac{\partial f}{\partial x}=y\hspace{0.5cm}\textup{y}\hspace{0.5cm}\frac{\partial f}{\partial y}=x.$$

Si $(x,y)=(0,0)$, entonces las parciales se anulan, así que el gradiente también. Por ello, $(0,0)$ es un punto estacionario (y por lo tanto también crítico). Pero veremos a continuación que $f(0,0)=0$ no es máximo relativo ni mínimo relativo.

Tomemos $r>0$ abitrario y $\varepsilon= r/\sqrt{8}$. El punto $(\varepsilon ,\varepsilon)\in B_{r}(0)$ pues $\sqrt{\varepsilon ^{2}+\varepsilon ^{2}}$ es igual a $\sqrt{r^{2}/8\hspace{0.1cm}+\hspace{0.1cm}r^{2}/8}=r/2<r$. Análogamente, tenemos que el punto $(\varepsilon,-\varepsilon)\in B_{r}(0)$. Sin embargo $f(\varepsilon,-\varepsilon)=-r^{2}/8<0$, por lo que $0$ no es un mínimo local, también $f(\varepsilon,\varepsilon)=r^{2}/8>0$, por lo que $0$ tampoco es máximo local. En la Figura 1 tenemos un bosquejo de esta gráfica.

Figura 1

$\triangle$

Los puntos como los de este ejemplo tienen un nombre especial que definimos a continuación.

Definición. Sea $f:S\subseteq \mathbb{R}^n\to\mathbb{R}$ un campo escalar y $\bar{a}$ un punto estacionario de $f$. Diremos que $\bar{a}$ es un punto silla si para todo $r>0$ existen $\bar{u},\bar{v}\in B_{r}(\bar{a})$ tales que $f(\bar{u})<f(\bar{a})$ y $f(\bar{v})>f(\bar{a})$.

Determinar la naturaleza de un punto estacionario

Cuando tenemos un punto estacionario $\bar{a}$ de una función $f:\mathbb{R}^n\to \mathbb{R}$, tenemos diferenciabilidad de $f$ en $\bar{a}$. Si tenemos que la función es de clase $C^2$ en ese punto, entonces tenemos todavía más. La intuición nos dice que probablemente podamos decir mucho mejor cómo se comporta $f$ cerca de $\bar{a}$ y con un poco de suerte entender si tiene algún valor extremo o punto silla ahí, y bajo qué circunstancias.

En efecto, podemos enunciar resultados de este estilo. Por la fórmula de Taylor tenemos que

$$f(\bar{a}+\bar{y})=f(\bar{a})+\triangledown f (\bar{a}) \cdot y + \frac{1}{2}[\bar{y}]^tH(\bar{a})[\bar{y}]+||\bar{y}||^{2}E_{2}(\bar{a},\bar{y}),$$

en donde el error $||\bar{y}||^{2}E_{2}(\bar{a},\bar{y})$ se va a cero conforme $||\bar{y}||\to 0$. Recuerda que aquí $H(\bar{a})$ es la matriz hessiana de $f$ en $\bar{a}$. Como $f:\mathbb{R}^n\to \mathbb{R}$, se tiene que $H(\bar{a})\in M_n(\mathbb{R})$.

Para un punto estacionario $\bar{a}$ se cumple que $\triangledown f(\bar{a})=0$, así que de lo anterior tenemos

\[ f(\bar{a}+\bar{y})-f(\bar{a})=\frac{1}{2}[\bar{y}]^tH(\bar{a})[\bar{y}]+||\bar{y}||^{2}E_{2}(\bar{a},\bar{y}).\]

De manera heurística, dado que $\lim\limits_{||\bar{y}||\to 0}||\bar{y}||^{2}E_{2}(\bar{a},\bar{y})=0$, estamos invitados a pensar que el signo de $f(\bar{a}+\bar{y})-f(\bar{a})$ es el mismo que el la expresión $[\bar{y}]^tH(\bar{a})[\bar{y}]$. Pero como hemos platicado anteriormente, esto es una forma cuadrática en la variable $\bar{y}$, y podemos saber si es siempre positiva, siempre negativa o una mezcla de ambas, estudiando a la matriz hessiana $H(\bar{a})$.

Esta matriz es simétrica y de entradas reales, así que por el teorema espectral es diagonalizable mediante una matriz ortogonal $P$. Tenemos entonces que $P^tAP$ es una matriz diagonal $D$. Sabemos también que las entradas de la diagonal de $D$ son los eigenvalores $\lambda_1,\ldots,\lambda_n$ de $A$ contados con la multiplicidad que aparecen en el polinomio característico.

Teorema. Sea $X$ una matriz simétrica en $M_n(\mathbb{R})$. Consideremos la forma bilineal $\mathfrak{B}(\bar{v})=[\bar{v}]^tX[\bar{v}]$. Se cumple:

  1. $\mathfrak{B}(\bar{v})>0$ para todo $\bar{v}\neq \bar{0}$ si y sólo si todos los eigenvalores de $X$ son positivos.
  2. $\mathfrak{B}(\bar{v})<0$ para todo $\bar{v}\neq \bar{0}$ si y sólo si todos los eigenvalores de $X$ son negativos.

Demostración. Veamos la demostración del inciso 1.

$\Rightarrow )$ Por la discusión anterior, existe una matriz ortogonal $P$ tal que $P^tXP$ es diagonal, con entradas $\lambda_1,\ldots,\lambda_n$ que son los eigenvalores de $X$. Así, en alguna base ortonormal $\beta$ tenemos $$\mathfrak{B}(\bar{v})=\sum_{i=1}^{n}\lambda _{i}a_{i}^{2}$$ donde $\bar{a}=(a_{1},\dots ,a_{n})$ es el vector $\bar{v}$ en la base $\beta$. Si todos los eigenvalores son positivos, claramente $\mathfrak{B}(\bar{v})>0$, para todo $\bar{v}\neq \bar{0}$.

$\Leftarrow )$ Si $\mathfrak{B}(\bar{v})>0$ para todo $\bar{v}\neq \bar{0}$ podemos elegir $\bar{v}$ como el vector $e_k$ de la base $\beta$. Para esta elección de $\bar{v}$ tenemos $\mathfrak{B}(\hat{e_{k}})=\lambda _{k}$, de modo que para toda $k$, $\lambda _{k}>0$.

El inciso $2$ es análogo y deja como tarea moral su demostración.

$\square$

A las formas cuadráticas que cumplen el primer inciso ya las habíamos llamado positivas definidas. A las que cumplen el segundo inciso las llamaremos negativas definidas.

Combinando las ideas anteriores, podemos formalmente enunciar el teorema que nos habla de cómo son los puntos estacionarios en términos de los eigenvalores de la matriz hessiana.

Teorema. Consideremos un campo escalar $f:S\subseteq \mathbb{R}^n\to \mathbb{R}$ de clase $C^2$ en un cierto punto interior $\bar{a}\in S$. Supongamos que $\bar{a}$ es un punto estacionario.

  1. Si todos los eigenvalores de $H(\bar{a})$ son positivos, $f$ tiene un mínimo relativo en $\bar{a}$.
  2. Si todos los eigenvalores de $H(\bar{a})$ son negativos, $f$ tiene un máximo relativo en $\bar{a}$.
  3. Si $H(\bar{a})$ tiene por lo menos un eigenvalor positivo, y por lo menos un eigenvalor negativo, $f$ tiene punto silla en $\bar{a}$.

Antes de continuar, verifica que los tres puntos anteriores no cubren todos los casos posibles para los eigenvalores. ¿Qué casos nos faltan?

Demostración: Definamos la forma bilineal $\mathfrak{B}(\bar{v})=[\bar{v}]^tH(\bar{a})[\bar{v}]$ y usemos el teorema de Taylor para escribir

\[ \begin{equation}\label{eq:taylor}f(\bar{a}+\bar{v})-f(\bar{a})=\frac{1}{2}\mathfrak{B}(\bar{v})+||\bar{v}||^{2}E(\bar{a},\bar{v}) \end{equation} \]

con

\[ \begin{equation}\label{eq:error}\lim\limits_{\bar{v}\to \bar{0}}E(\bar{a},\bar{v})=0. \end{equation} \]

En primer lugar haremos el caso para los eigenvalores positivos. Sean $\lambda _{1},\dots ,\lambda_{n}$ los eigenvalores de $H(\bar{a})$. Sea $\lambda _{*}=\min\{ \lambda _{1},\dots ,\lambda _{n}\}$. Si $\varepsilon <\lambda_{*}$, para cada $i=1,\dots , n$ tenemos $\lambda _{i}-\varepsilon>0$. Además, los números $\lambda _{i}-\varepsilon$ son los eigenvalores de la matriz $H(\bar{a})-\varepsilon I$, la cual es simétrica porque $H(\bar{a})$ lo es. De acuerdo con nuestro teorema anterior la forma cuadrática $[\bar{v}]^t(H(\bar{a})-\varepsilon I)[\bar{v}]$ es definida positiva, y por lo tanto

$$[\bar{v}]^tH(\bar{a})[\bar{v}]>[\bar{v}]^t\varepsilon I [\bar{v}] = \varepsilon ||\bar{v}||^2.$$

Esto funciona para todo $\varepsilon <\lambda _{*}$. Tomando $\varepsilon =\frac{1}{2}\lambda _{*}$ obtenemos $\mathfrak{B}(\bar{v})>\frac{1}{2}||\bar{v}||^2$ para todo $\bar{v}\neq \bar{0}$. Por el límite de \eqref{eq:error} tenemos que existe $r>0$ tal que $|E(\bar{a},\bar{v})|<\frac{1}{4}\lambda _{*}$ para $0<||\bar{v}||<r$. En este caso se cumple

\begin{align*}0&\leq ||\bar{v}||^{2}|E(\bar{a},\bar{v})|\\ &<\frac{1}{4}\lambda _{*}||\bar{v}||^{2}\\ &<\frac{1}{2}\mathfrak{B}(\bar{v}),\end{align*}

Luego por la ecuación \eqref{eq:taylor} tenemos
\begin{align*}
f(\bar{a}+\bar{v})-f(\bar{a})&=\frac{1}{2}\mathfrak{B}(\bar{v})+||\bar{v}||^{2}E(\bar{a},\bar{v})\\
&\geq \frac{1}{2}\mathfrak{B}(\bar{v})-||\bar{v}||^{2}|E(\bar{a},\bar{v})|\\
&>0.
\end{align*}

Esto muestra que $f$ tiene un mínimo relativo en $\bar{a}$ para la vecindad $B_{r}(\bar{a})$.

Para probar la parte $2$ se usa exactamente el mismo proceder sólo que hay que considerar la función $-f$, lo cual quedará hacer como tarea moral.

Revisemos pues la parte del punto silla, la parte $3$. Consideremos $\lambda _{1}$ y $\lambda _{2}$ dos eigenvalores de $H(\bar{a})$ tales que $\lambda _1 <0$ y $\lambda _2 >0$. Pongamos $\lambda _{*}=\min\{ |\lambda _{1}|,|\lambda _{2}|\}$. Notemos que para todo $\varepsilon \in (-\lambda _{*},\lambda _{*})$ se tiene que $\lambda _{1}-\varepsilon$ y $\lambda _{2}-\varepsilon$ son números de signos opuestos y además eigenvalores de la matriz $H(\bar{a})-\varepsilon I$. Tomando vectores en dirección de los eigenvectores $\bar{v}_1$ y $\bar{v}_2$ correspondientes a $\lambda_1$ y $\lambda_2$ notamos que $[\bar{v}](H(\bar{a})-\varepsilon I)[\bar{v}]^{t}$ toma valores positivos y negativos en toda vecindad de $\bar{0}$. Finalmente escojamos $r>0$ de tal manera que $|E(\bar{a},\bar{v})|<\frac{1}{4}\varepsilon$ cuando $0<||\bar{v}||<r$. Usando las mismas desigualdades del la parte $1$, vemos que para $\bar{v}$ en la dirección de $\bar{v}_1$ la diferencia $f(\bar{a}+\bar{v})-f(\bar{a})$ es negativa y para $\bar{v}$ en la dirección de $\bar{v}_2$ es positiva. Así, $f$ tiene un punto silla en $\bar{a}$.

$\square$

Hay algunas situaciones en las que el teorema anterior no puede ser usado. Por ejemplo, cuando los eigenvalores de $H(\bar{a})$ son todos iguales a cero. En dicho caso, el teorema no funciona y no nos dice nada de si tenemos máximo, mínimo o punto silla, y de hecho cualquiera de esas cosas puede pasar.

Ejemplos de análisis de puntos críticos

Ejemplo. Tomemos el campo escalar $f(x,y)=x^{2}+(y-1)^{2}$ y veamos cómo identificar y clasificar sus puntos estacionarios. Lo primero por hacer es encontrar el gradiente, que está dado por $$\triangledown f(x,y)=(2x,2(y-1)).$$ El gradiente se anula cuando $2x=0$ y $2(y-1)=0$, lo cual pasa si y sólo si $x=0$ y $y=1$. Esto dice que sólo hay un punto estacionario. Para determinar su naturaleza, encontraremos la matriz hessiana en este punto, así como los eigenvalores que tiene. La matriz hessiana es

\[ H(\bar{v})=\begin{pmatrix} \frac{\partial ^{2}f}{\partial x^{2}}(\bar{v}) & \frac{\partial ^{2}f}{\partial y \partial x}(\bar{v}) \\ \frac{\partial ^{2}f}{\partial x \partial y}(\bar{v}) & \frac{\partial ^{2}f}{\partial y^{2}}(\bar{v}) \end{pmatrix}=\begin{pmatrix} 2 & 0 \\ 0 & 2 \end{pmatrix}.\]

Notemos que la matriz hessiana ya está diagonalizada y es la misma para todo $\bar{v}$. En particular, en $(0,1)$ sus valores propios son $2$ y $2$, que son positivos. Así, la matriz hessiana es positiva definida y por lo tanto tenemos un mínimo local en el punto $(0,1)$. Esto lo confirma visualmente la gráfica de la Figura 2.

$\triangle$

Figura 2

Ejemplo. Veamos cómo identificar y clasificar los puntos estacionarios del campo escalar $f(x,y)=x^{3}+y^{3}-3xy.$ Localicemos primero los puntos estacionarios. Para ello calculemos el gradiente $\triangledown f(x,y)=(3x^{2}-3y,3y^{2}-3x)$. Esto nos dice que los puntos estacionarios cumplen el sistema de ecuaciones

\[\left\{ \begin{matrix} 3x^2-3y=0\\ 3y^2-3x=0.\end{matrix} \right.\]

Puedes verificar que las únicas soluciones están dadas son los puntos $(0,0)$ y $(1,1)$ (Sugerencia. Multiplica la segunda ecuación por $x$ y suma ambas). La matriz hessiana es la siguiente:

\[ H(x,y)=\begin{pmatrix} 6x & -3 \\ -3 & 6y \end{pmatrix}.\]

En $(x,y)=(0,0)$ la matriz hessiana es $\begin{pmatrix} 0 & -3 \\ -3 & 0 \end{pmatrix}$. Para encontar sus eigenvalores calculamos el polinomio característico

\begin{align*} \det(H(0,0)-\lambda I)&=\begin{vmatrix} -\lambda & -3 \\ -3 & -\lambda \end{vmatrix} \\ &= \lambda ^{2}-9.\end{align*}

Las raíces del polinomio característico (y por lo tanto los eigenvalores) son $\lambda _{1}=3$ y $\lambda _{2}=-3$. Ya que tenemos valores propios de signos distintos tenemos un punto silla en $(0,0)$.

Para $(x,y)=(1,1)$ la cuenta correspondiente de polinomio característico es

\begin{align*} \det(H(1,1)-\lambda I)&=\begin{vmatrix} 6-\lambda & -3 \\ -3 & 6-\lambda\end{vmatrix}\\ &=(6-\lambda )^{2}-9.\end{align*}

Tras manipulaciones algebraicas, las raíces son $\lambda _{1}=9$, $\lambda _{2}=3$. Como ambas son positivas, en $(1,1)$ tenemos un mínimo.

Puedes confirmar visualmente todo lo que encontramos en la gráfica de esta función, la cual está en la Figura 3.

$\triangle$

Figura 3

A continuación se muestra otro problema que se puede resolver con lo que hemos platicado. Imaginemos que queremos aproximar a la función $x^2$ mediante una función lineal $ax+b$. ¿Cuál es la mejor forma de elegir $a,b$ para que las funciones queden «cerquita» en el intervalo $[0,1]$? Esa cercanía se puede medir de muchas formas, pero una es pidiendo que una integral se haga chiquita.

Ejemplo. Determinemos qué valores de las constantes $a,b\in \mathbb{R}$ minimizan la siguiente integral

\[ \int_{0}^{1}[ax+b-x^2]^2 dx.\]

Trabajemos sobre la integral.

\begin{align*} \int_{0}^{1}[ax+b-x^{2}]^{2}dx&=\int_{0}^{1}(2abx+(a^{2}-2b)x^{2}-2ax^{3}+x^{4}+b^{2})dx\\ &=\int_{0}^{1}2abx\hspace{0.1cm}dx+\int_{0}^{1}(a^{2}-2b)x^{2}dx-\int_{0}^{1}2ax^{3}dx+\int_{0}^{1}x^{4}dx+\int_{0}^{1}b^{2}dx\\ &=b^{2}+\frac{1}{3}a^{2}+ab-\frac{2}{3}b-\frac{1}{2}a+\frac{1}{5}. \end{align*}

Es decir, tenemos

\[ \int_{0}^{1}[ax+b-x^{2}]^{2}dx=b^{2}+\frac{1}{3}a^{2}+ab-\frac{2}{3}b-\frac{1}{2}a+\frac{1}{5}.\]

Ahora definamos $f(a,b)=b^{2}+\frac{1}{3}a^{2}+ab-\frac{2}{3}b-\frac{1}{2}a+\frac{1}{5}$; basándonos en la forma general de la ecuación cuadrática de dos variables podemos comprobar rápidamente que $f$ nos dibuja una elipse en cada una de sus curvas de nivel. Continuando con nuestra misión, tenemos que $\triangledown f(a,b)=(\frac{2}{3}a+b-\frac{1}{2},2b+a-\frac{2}{3})$. Al resolver el sistema
\[\left\{\begin{matrix}\frac{2}{3}a+b-\frac{1}{2}=0\\2b+a-\frac{2}{3}=0,\end{matrix}\right.\]

hay una única solución $a=1$ y $b=-\frac{1}{6}$. Puedes verificar que la matriz hessiana es la siguiente en todo punto.

\[ H(\bar{v})=\begin{pmatrix} \frac{2}{3} & 1 \\ 1 & 2 \end{pmatrix}.\]

Para determinar si tenemos un mínimo, calculamos el polinomio característico como sigue

\begin{align*} \det(H(\bar{v})-\lambda I)&=\begin{vmatrix} \frac{2}{3}-\lambda & 1 \\ 1 & 2-\lambda \end{vmatrix}\\ &=\left( \frac{2}{3}-\lambda \right)\left( 2-\lambda\right)-1\\ &=\lambda ^{2}-\frac{8}{3}\lambda + \frac{1}{3}.\end{align*}

Esta expresión se anula para $\lambda _{1}=\frac{4+\sqrt{13}}{3}$ y $\lambda_{2}=\frac{4-\sqrt{13}}{3}$. Ambos son números positivos, por lo que en el único punto estacionario de $f$ tenemos un mínimo. Así el punto en el cual la integral se minimiza es $(a,b)=(1,-\frac{1}{6})$. Concluimos que la mejor función lineal $ax+b$ que aproxima a la función $x^2$ en el intervalo $[0,1]$ con la distancia inducida por la integral dada es la función $x-\frac{1}{6}$.

En la Figura 3 puedes ver un fragmento de la gráfica de la función $f(a,b)$ que nos interesa.

Figura 3. Gráfica de la función $f(a,b)$.

$\triangle$

Mas adelante…

La siguiente será nuestra última entrada del curso y nos permitirá resolver problemas de optimización en los que las variables que nos dan tengan ciertas restricciones. Esto debe recordarnos al teorema de la función implícita. En efecto, para demostrar los resultados de la siguiente entrada se necesitará este importante teorema, así que es recomendable que lo repases y recuerdes cómo se usa.

Tarea moral

  1. Identifica y clasifica los puntos estacionarios de los siguientes campos escalares:
    • $f(x,y)=(x-y+1)^{2}$
    • $f(x,y)=(x^{2}+y^{2})e^{-(x^{2}+y^{2})}$
    • $f(x,y)=\sin(x)\cos(x)$.
  2. Determina si hay constantes $a,b\in \mathbb{R}$ tales que el valor de la integral \[\int_{0}^{1}[ax+b-f(x)]^{2}dx \] sea mínima para $f(x)=(x^{2}+1)^{-1}$. Esto en cierto sentido nos dice «cuál es la mejor aproximación lineal para $\frac{1}{x^2+1}$».
  3. Este problema habla de lo que se conoce como el método de los mínimos cuadrados. Consideremos $n$ puntos $(x_{i},y_{i})$ en $\mathbb{R}^2$, todos distintos. En general es imposible hallar una recta que pase por todos y cada uno de estos puntos; es decir, hallar una función $f(x)=ax+b$ tal que $f(x_{i})=y_{i}$ para cada $i$. Sin embargo, sí es posible encontrar una función lineal $f(x)=ax+b$ que minimice el error cuadrático total que está dado por \[ E(a,b)=\sum_{i=1}^{n}[f(x_{i})-y_{i}]^{2}.\] Determina los valores de $a$ y $b$ para que esto ocurra. Sugerencia. Trabaja con el campo escalar $E(a,b)$ recuerda que los puntos $(x_{i},y_{i})$ son constantes.
  4. Completa la demostración de que si una matriz $X$ tiene puros eigenvalores negativos, entonces es negativa definida.
  5. En el teorema de clasificación de puntos estacionarios, muestra que en efecto si la matriz hessiana es negativa definida, entonces el punto estacionario es un punto en donde la función tiene máximo local.

Entradas relacionadas

Cálculo Diferencial e Integral III: Divergencia, laplaciano y rotacional

Por Alejandro Antonio Estrada Franco

Introducción

Después de algunas entradas muy técnicas, en las que hemos demostrado dos resultados sumamente importantes (el teorema de la función inversa y el teorema de la función implícita), pasaremos brevemente a una entrada un poco más ligera en términos de teoría, pero también relevante. En esta entrada nos volcaremos a una cara más práctica del cálculo diferencial e integral.

Recordemos que un campo vectorial es una función $F:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$. El nombre de campo vectorial está justificado con que a cada punto de un espacio base $\mathbb{R}^n$, estamos asignando otro vector, en $\mathbb{R}^m$. Si pegamos a cada vector del dominio el vector que le corresponde en a partir de $F$, podemos tener otra intuición geométrica de lo que hacen estas funciones. En la figura 1 apreciamos un ejemplo de esto, donde tenemos un campo vectorial $F$ de $\mathbb{R}^{3}$ en $\mathbb{R}^{3}$ y entonces a cada vector de $\mathbb{R}^3$ le estamos «pegando una flecha».

Figura 1

Esta manera de pensar a los campos vectoriales se presta mucho para entender propiedades físicas de los objetos: flujo eléctrico, flujo de calor, fuerza, trabajo, etc. Si pensamos en esto, otros conceptos que hemos estudiado también comienzan a tener significado. Por ejemplo, el gradiente de un campo escalar está íntimamente relacionado a otras propiedades físicas descritas por el campo escalar. Un ejemplo que hemos discutido es que el gradiente, por ejemplo, nos da la dirección de cambio máximo.

Un ejemplo más concreto sería el siguiente. Pensemos en $\mathbb{R}^{3}$ en un sólido $S$ y un campo escalar $T:S\rightarrow \mathbb{R}$ que da la temperatura de cada punto del sólido. Si consideramos la expresión $\textbf{J}=-k\triangledown T$, obtenemos lo que se conoce como el flujo de calor. Tiene sentido. Por lo que aprendemos en educación elemental, el calor va de los puntos de mayor temperatura a los de menor temperatura. El gradiente $\triangledown T$ da la dirección de máximo crecimiento. Pero entonces $-\triangledown T$ da la dirección de máximo descenso (así como su magnitud). La $k$ que aparece tiene que ver con qué tan bien el material del que hablamos transmite el calor.

Notación tradicional de los campos vectoriales

En el ámbito de las aplicaciones generalmente se usa la notación con gorros. Veamos un ejemplo de cómo escribir con esta notación. En vez de escribir para $\bar{v}\in \mathbb{R}^{3}$ la expresión $\bar{v}=(x,y,z)$, escribimos $$\bar{v}=x\hat{\imath}+y\hat{\jmath}+z\hat{k},$$ es decir, podemos pensar que $\hat{\imath}=(1,0,0)$, $\hat{\jmath}=(0,1,0)$, $\hat{k}=(0,0,1)$.

Si $F:\mathbb{R}^3\to \mathbb{R}^3$ es un campo vectorial, escribimos $$F=P\hat{\imath}+Q\hat{\jmath}+R\hat{k},$$ donde $P$, $Q$ y $R$ son los campos escalares componente, que cada uno de ellos va de $\mathbb{R}^3$ a $\mathbb{R}$.

Generalmente escribimos también $$F(x,y,z)=P(x,y,z)\hat{\imath}+Q(x,y,z)\hat{\jmath}+R(x,y,z)\hat{k}$$ tras evaluar.

Con esta notación también podemos escribir al gradiente y pensarlo como un «operador» que manda campos escalares a campos vectoriales. A este operador se le llama operador nabla. Lo escribimos de la siguiente manera:

\[ \triangledown =\frac{\partial}{\partial x}\hat{\imath}+\frac{\partial}{\partial y}\hat{\jmath}+\frac{\partial}{\partial z}\hat{k}. \]

Si tenemos un campo escalar $\phi:\mathbb{R}^3\to \mathbb{R}$, entonces el operador hace lo siguiente

\[ \triangledown \phi (x,y,z)=\frac{\partial \phi (x,y,z)}{\partial x}\hat{\imath}+\frac{\partial \phi (x,y,z)}{\partial y}\hat{\jmath}+\frac{\partial \phi (x,y,z)}{\partial z}\hat{k}.\]

Es decir, a partir de $\phi$ obtenemos su gradiente.

Líneas de flujo

Ahora introducimos el concepto de línea de flujo el cual es muy usado para campos vectoriales en el modelado fenómenos físicos.

Definición. Si $F:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ es un campo vectorial, una línea de flujo para $F$ es una función $\alpha :U\subseteq \mathbb{R}\rightarrow \mathbb{R}^{n}$ tal que $\alpha^{\prime}(t)=F(\alpha(t))$ para todo $t\in U$.

Es decir una línea de flujo es una trayectoria sobre la cual $F$ asigna en cada punto de ella su correspondiente vector tangente. En la Figura 2 tenemos una ilustración de una línea de flujo en un campo vectorial.

Figura 2

Divergencia

Supongamos que tenemos en el plano (o el espacio) una región $S$. Para cada punto $\bar{x}$ de $S$ sea $\textbf{x}(t)$ una línea de flujo que parte de $\bar{x}$ bajo el campo vectorial $F$. El conjunto de líneas $\textbf{x}(t)$ describe cómo cambia el conjunto $S$ bajo la acción de $F$ a través del tiempo. Formalizando esto un poco, en el caso del plano tomemos $F:S\subseteq \mathbb{R}^{2}\rightarrow \mathbb{R}^{2}$. Para cada $\bar{x}\in S$ podemos considerar $\gamma_x:I_{x}\subset \mathbb{R}\rightarrow \mathbb{R}^{2}$, como la trayectoria $\textbf{x}(t)$ y que es línea de flujo bajo $F$. Estas trayectorias van mostrando «cómo se va deformando $S$ a causa del campo vectorial $F$». También, consideremos al conjunto $S’=\{\bar{x}+F(\bar{x})|\bar{x}\in S \}$, al cual pensaremos como el conjunto resultante de aplicar a $S$ el campo vectorial $F$.

Estas nociones se pueden analizar a través de una herramienta llamada divergencia. La definimos a continuación, pero una demostración formal de que el operador divergencia mide la expansión del efecto de un campo vectorial es un tema que se estudia en un cuarto curso de cálculo diferencial e integral.

Figura 3. Aquí se ilustra el efecto de un campo vectorial sobre una sección $S$ del plano.

Damos la definición en $\mathbb{R}^3$, pero podrías dar una versión análoga para $\mathbb{R}^2$.

Definición. Si $F=P\hat{\imath}+Q\hat{\jmath}+R\hat{k}$ es un campo vectorial definimos la divergencia de $F$ como:

\[ \triangledown \cdot F=\frac{\partial P}{\partial x}+\frac{\partial Q}{\partial y}+\frac{\partial R}{\partial z}.\]

En dimensiones más altas, si $F=(F_{1},\dots ,F_{n})$, entonces $\triangledown \cdot F=\sum_{i=1}^{n}\frac{\partial F_{i}}{\partial x_{i}}$.

Rotacional

Figura 4

Pensemos en un fluido que se mueve de acuerdo con el flujo marcado por el campo vectorial $F$. Tenemos una forma de determinar la rotación que el fluido imprimiría sobre un sólido llevado por él. Imaginemos un remolino y una pequeña esfera solida llevada por el remolino. Lo que llamaremos el rotacional del vector nos proporcionará la información sobre las rotaciones sobre su eje que el fluido imprime a la pequeña esfera (Figura 4).

Definición. Sea $$F(x,y,z)=F_{1}(x,y,z)\hat{\imath}+F_{2}(x,y,z)\hat{\jmath}+F_{3}(x,y,z)\hat{k}.$$ Entonces definimos al rotacional de $F$ como el siguiente campo vectorial:

\[ \triangledown \times F(x,y,z)=\left( \frac{\partial F_{3}}{\partial y} – \frac{\partial F_{2}}{\partial z} \right)\hat{\imath}+\left( \frac{\partial F_{1}}{\partial z}-\frac{\partial F_{3}}{\partial x} \right)\hat{\jmath}+\left( \frac{\partial F_{2}}{\partial x}-\frac{\partial F_{1}}{\partial y} \right)\hat{k}.\]

También suele representarse por el siguiente determinante:

\[ \triangledown \times F=\begin{vmatrix} \hat{\imath} & \hat{\jmath} & \hat{k} \\ {\large \frac{\partial}{\partial x}} & {\large \frac{\partial}{\partial y}} & {\large \frac{\partial}{\partial z}} \\ F_{1} & F_{2} & F_{3} \end{vmatrix}. \]

Una visión mas clara de por qué esta expresión calcula lo que queremos se puede aprender en un cuarto curso de cálculo diferencial e integral, o bien en algún curso de aplicaciones del cálculo a la física. Por ahora veremos en los ejemplos solamente la parte operativa.

Laplaciano

Hay un operador más que surge naturalmente en las ecuaciones que involucran al gradiente y a la divergencia.

Definición. Sea $f:\mathbb{R}^3\to \mathbb{R}$ un campo escalar. El operador laplaciano se establece de la siguiente manera:

\[ \triangledown ^{2}f=\frac{\partial ^{2}f}{\partial x^{2}}\hat{\imath}+\frac{ \partial^{2}f}{\partial y^{2}}\hat{\jmath}+\frac{\partial ^{2}f}{\partial z^{2}}\hat{k}. \]

Es decir, el laplaciano consiste en aplicar el operador divergencia al gradiente de un campo escalar.

Ejemplos de problemas de los conceptos anteriores

Revisemos algunos problemas que tienen que ver con estos operadores. Esto nos permitirá ampliar nuestra visión en cuanto a la practicidad de esta herramienta matemática.

Consideremos el siguiente campo vectorial en el plano $F(x,y)=x\hat{\imath}$. Pensaremos el signo de la divergencia de $F$ como la razón del cambio de áreas bajo este campo. Interpretaremos a $F$ como aquel que asigna a cada punto del plano un vector velocidad de un fluido en el plano.

Para $x>0$ el campo apunta hacia la derecha con vectores paralelos al eje $x$ con tamaño $|x|$, para $x<0$ los vectores apuntan a la izquierda paralelamente al eje $x$ con tamaño $|x|$ (Figura 5). Por ello las longitudes de las flechas de $F$ son mas cortas en torno al origen; así cuando el fluido se mueve, se expande. Y esto coincide con el hecho de que $\triangledown \cdot F=1$.

Figura 5

En el siguiente ejemplo consideremos el campo vectorial $F(x,y)=-y\hat{\imath}+x\hat{\jmath}$. Las líneas de flujo de $F$ siguen circunferencias concéntricas centradas al origen en dirección contrarias a las manecillas del reloj. Al calcular la divergencia tenemos lo siguiente:

\[ \triangledown \cdot F=\frac{\partial }{\partial x}(-y)+\frac{\partial}{\partial y}(x)=0. \]

En la figura 6 tenemos la ilustración de cómo se ve el campo de este ejemplo. Suena razonable. En este caso el fluido no se está expandiendo, sino que más bien está rotando.

Figura 6

En el laplaciano aplicamos la divergencia a un gradiente. Pero, ¿qué pasa cuando aplicamos el rotacional a un gradiente? Consideremos una función $f$ con derivadas parciales diferenciables continuas es decir, de clase $C^{2}$. Para una función así tenemos

\[ \triangledown f(x,y,z)=(\partial f/\partial x,\partial f/ \partial y,\partial f/\partial z). \]

De acuerdo con la definición de rotacional, tenemos:

\begin{align*} \triangledown \times (\triangledown f)&= \begin{vmatrix} \hat{\imath} & \hat{\jmath} & \hat{k} \\ \frac{\partial}{\partial x} & \frac{\partial}{\partial y} & \frac{\partial}{\partial z} \\ \frac{\partial f}{\partial x} & \frac{\partial f}{\partial y} & \frac{\partial f}{\partial z} \end{vmatrix}\\ &= \left( \frac{\partial ^{2}f}{\partial y\partial z}-\frac{\partial ^{2}f}{\partial z\partial y} \right)\hat{\imath}+\left( \frac{\partial ^{2}f}{\partial z\partial x}-\frac{\partial ^{2}f}{\partial x \partial z} \right)\hat{\jmath}+\left( \frac{\partial ^{2}f}{\partial x\partial y}-\frac{\partial ^{2}f}{\partial y\partial x} \right)\hat{k}\\ &=\bar{0} \end{align*}

por la igualdad de las parciales mixtas. Es decir; si $f$ es un campo escalar cuyas derivadas parciales son diferenciables con derivada continua tenemos $\triangledown \times \triangledown f=0$.

Esto nos puede ayudar a saber si una cierta función puede obtenerse como gradiente de otra. Tomemos $G(x,y,z)= y\hat{\imath}-x\hat{\jmath}$. Notemos que las funciones en $\hat{\imath}$ y en $\hat{\jmath}$ son diferenciables con derivada continua. Entonces nos preguntaremos ¿$G$ es gradiente de un campo escalar? Para ello calculemos $\triangledown \times G$ cuyo resultado en caso afirmativo debería ser igual a cero. Sin embargo,

\[ \triangledown \times G=\begin{vmatrix} \hat{\imath} & \hat{\jmath} & \hat{k} \\ \frac{\partial}{\partial x} & \frac{\partial}{\partial y} & \frac{\partial}{\partial z} \\ y & -x & 0 \end{vmatrix}=-2\hat{k}\neq 0,\]

por lo tanto $G$ no es un gradiente.

También tenemos que la divergencia de un rotacional es igual a cero, es decir si $F$ es un campo vectorial $\triangledown \cdot (\triangledown \times F)=0$. Queda como tarea moral demostrar este hecho.

Mas adelante

Con esta entrada terminamos nuestro estudio de conceptos relacionados con campos vectoriales. Sin embargo, aún no los descartaremos por completo. Retomaremos a los campos vectoriales en la última unidad del curso. En ella, retomaremos varias partes de la teoría para establecer resultados de optimización de campos escalares, y de funciones bajo restricciones.

Tarea moral

  1. Para los siguientes campos vectoriales, halla su divergencia
    • $F(x,y)=x^{3}\hat{\imath}+x\hspace{0.1cm}sen\hspace{0.1cm}(xy)\hat{\jmath}$
    • $G(x,y,z)=e^{xy}\hat{\imath}+e^{xy}\hat{\jmath}+e^{yz}\hat{k}$.
  2. Obtén el rotacional de los siguientes campos vectoriales:
    • $F(x,y,z)=(x^{2}+y^{2}+z^{2})(3\hat{\imath}+4\hat{\jmath}+5\hat{k})$
    • $G(x,y,z)=yz\hat{\imath}+xz\hat{\jmath}+xy\hat{k}$.
  3. Dibuja algunas líneas de flujo del campo $F(x,y)=-3x\hat{\imath}-y\hat{\jmath}$. Calcula $\triangledown \cdot F$ y explica el significado del resultado de la divergencia en su relación con las líneas de flujo.
  4. Demuestra que $\triangledown \cdot (\triangledown \times F)=0$
  5. Sean $f$ y $g$ dos campos escalares diferenciables, y $F$, y $G$ dos campos vectoriales diferenciables. Demuestra las siguientes identidades (solo usa la parte operativa, piensa que todos los campos tanto los vectoriales como los escalares tienen el mismo dominio):
    1. $\triangledown \cdot gG =g(\triangledown \cdot G) + G\cdot (\triangledown g)$
    2. $\triangledown (fg)=f(\triangledown g) +g (\triangledown f)$
    3. $\triangledown \cdot (F\times G)= G\cdot (\triangledown \times F)-F\cdot (\triangledown \times G)$

Entradas relacionadas

Cálculo Diferencial e Integral III: Ejemplos e intuición del teorema de la función implícita

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior revisamos el teorema de la función implícita formalmente enunciado y demostrado. En ésta lo que haremos será reflexionar sobre él y observar con más detalle su propósito y usos.

Dicho de forma simplista pero resaltando su objetivo principal el teorema de la función implícita busca establecer las condiciones bajo las cuales podemos despejar unas variables en término de otras. Da una condición en términos de cierta diferenciabilidad. Como esbozamos en la entrada anterior, lo que el teorema nos dice es cuándo es posible despejar las variables de un sistema de ecuaciones (o funciones coordenadas de un campo vectorial) en función de ciertas las variables libres, y alrededor de una vecindad. Para hacer esto, básicamente hay que resolver un sistema de ecuaciones en donde ciertos coeficientes vienen de ciertas derivadas parciales. El teorema de la función implícita también habla de cómo derivar una función definida implícitamente respecto de cualquiera de sus derivables.

¿Por qué teorema de la función implícita?

¿Por qué este nombre? En numerosos problemas matemáticos derivados de aplicaciones diversas se utilizan modelos geométricos. Estos modelos geométricos usualmente se construyen a partir de restringir ciertas variables con ciertas ecuaciones. Pensemos en objetos geométricos en tres dimensiones. Tenemos variables $x,y,z$. Definamos $G(x,y,z):=x^{2}+y^{2}+z^{2}-1$. Podemos preguntarnos por el objeto geométrico descrito por la ecuación $G(x,y,z)=0.$ Sabemos que las ternas $(x,y,z)$ que satisfacen esto justo conforman una esfera de radio 1 centrada en el origen. Decimos que esta ecuación proporciona una representación implícita de la superficie.

Pero quizás nuestra aplicación nos lleva a preguntarnos si alguna coordenada está en términos de las otras para los puntos que están en dicha esfera. En afortunadas ocasiones es posible despejar en la ecuación $G(x,y,z)$ algunas de las variables en términos de las otras. Esto nos lleva a una o varias ecuaciones de la forma $z=g(x,y)$, en nuestro caso particular tenemos:

\begin{align*}z=\sqrt{1-x^{2}-y^{2}} && \textup{y} && z=-\sqrt{1-x^{2}-y^{2}}.\end{align*}

El teorema de la función inversa nos dice que si ciertas derivadas existen y son invertibles como transformaciones lineales, entonces podemos hacer estos despejes. De hecho, nos dice algo mejor: que podemos hacerlos alrededor de toda una vecindad donde no se anule dicha derivada. De aquí sale la idea de «función implícita». Algunas ecuaciones, aunque no permitan despejar variables, sí lo permiten «localmente» y entonces ahí hay una «función oculta».

En la gran mayoría de los casos es difícil lograr estos despejes mediante expresiones algebraicas sencillas por ejemplo en una superficie representada por la ecuación $y^{3}+z^{2}-xz+e^{zx}-4=0$ suena muy difícil que podamos despejar $z$. Sin embargo el teorema de la función implícita nos garantiza que, aunque no sepamos cómo, la variable $z$ sí se puede poner en función de las variables $x$ y $y$.

La derivada de la función implícita

Otra buena notica es que aunque no conozcamos explícitamente el despeje que nos interesa, con el teorema de la función implícita sí podemos encontrar las derivadas parciales de la función implícita que aparece. Si pensaste los problemas de la tarea moral de la entrada anterior, quizás ya hayas llegado al siguiente resultado.

Corolario. Sea $F:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ un campo escalar diferenciable con $S$ abierto. Supongamos que la ecuación $F(x_{1},\dots ,x_{n})=0$ define implícitamente a $x_{n}$ como función diferenciable de $x_{1},\dots ,x_{n-1}$ como $x_{n}=f(x_{1},\dots ,x_{n-1})$, para todos los puntos $(x_{1},\dots ,x_{n-1})\in S’\subseteq \mathbb{R}^{n-1}$, entonces para cada $k=1,2,\dots ,n-1$ la derivada parcial $\frac{\partial f}{\partial x_{k}}$ está dada por la fórmula:

\[ \begin{equation}\frac{\partial f}{\partial x_{k}}=-\frac{\frac{\partial F}{\partial x_{k}}}{\frac{\partial F}{\partial x_{n}}}\end{equation} \]

en los puntos en los que $\frac{\partial F}{\partial x_{n}}\neq 0$. Las derivadas parciales de $F$ están calculadas en el punto $(x_{1},\dots ,x_{n-1},f(x_{1},\dots ,x_{n}))$.

Demostración. Pensemos $F:\mathbb{R}^{n-1}\times \mathbb{R} \to \mathbb{R}$. Si $(x_{1},\dots x_{n})$ es tal que $F(x_{1},\dots ,x_{n})=0$, por el teorema de la función implícita tenemos a una única función $f:\mathbb{R}^{n-1}\rightarrow \mathbb{R}$ tal que $F(x_{1},\dots ,x_{n-1},f(x_{1},\dots ,x_{n-1}))=0$.

(Nota. En la entrada anterior teníamos entradas de la forma $(y,x)$ y $y$ quedaba en función de $x$. De manera totalmente análoga podemos intercambiar los papeles de $x$ y $y$, pidiendo las hipótesis correctas. De hecho, usualmente se piensa en parejas $(x,y)$ y las variables de $y$ son las que quedan en términos de las variables $x$)

Ahora, pensemos en el campo vectorial $G:S’\subseteq \mathbb{R}^{n-1}\rightarrow \mathbb{R}^{n}$ dado por $G(x_{1},\dots ,x_{n-1})=(x_{1},\dots ,x_{n-1},f(x_{1},\dots ,x_{n-1}))$. Así $(F\circ G)(x_{1},\dots ,x_{n-1})=0$. Por regla de la cadena, $DFDG=0$. Tenemos así $0=\triangledown F\cdot DG$, lo cual explícitamente es:

\[ 0=\begin{bmatrix} \frac{\partial F}{\partial x_{1}} & \dots & \frac{\partial F}{\partial x_{n}} \end{bmatrix} \begin{bmatrix} 1 & 0 & \dots & 0 \\ 0 & 1 & \dots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \dots & 1 \\ \frac{\partial f}{\partial x_{1}} & \frac{\partial f}{\partial x_{2}} & \dots & \frac{\partial f}{\partial x_{n-1}} \end{bmatrix}= \]

\[ \begin{bmatrix} \frac{\partial F}{\partial x_{1}}+\frac{\partial F}{\partial x_{n}}\frac{\partial f}{\partial x_{1}} & \frac{\partial F}{\partial x_{2}}+\frac{\partial F}{\partial x_{n}}\frac{\partial f}{\partial x_{2}} & \dots & \frac{\partial F}{\partial x_{n-1}}+\frac{\partial F}{\partial x_{n}}\frac{\partial f}{\partial x_{n-1}} \end{bmatrix}.\]

Por ello, para cada $i$ tenemos:

\[ \frac{\partial F}{\partial x_{i}}+\frac{\partial F}{\partial x_{n}}\frac{\partial f}{\partial x_{i}}=0.\]

De esta ecuación se deduce la $(1)$.

$\square$

Un primer ejemplo del teorema de la función inversa

Pasemos ahora a hacer algunas cuentas concretas para entender mejor lo que uno tiene que hacer para aplicar el teorema de la función implícita en funciones particulares.

Ejemplo. Consideremos la ecuación $y^{2}+xz+z^{2}-e^{z}-c=0$. Expresaremos a $z$ en función de $x$ e $y$, es decir, $z=f(x,y)$. Nos gustaría encontrar un valor de la constante $c$ tal que $f(0,e)=2$. Para dicha $c$, queremos calcular las derivadas parciales con respecto a $x$ y $y$ en el punto $(x,y)=(0,e)$.

Para la primera parte sustituimos $x=0$, $y=e$ y $z=2$. Tenemos $$e^{2}+0\cdot 2+2^{2}-e^{2}-c=0,$$ que es lo mismo que $4-c=0$, y esto implica $c=4$. De esta manera, estudiaremos la función $$F(x,y,z)=y^{2}+xz+z^{2}-e^{z}-4.$$

Notemos que

\begin{align*}\frac{\partial F}{\partial z}=x+2z-e^{z},&&\frac{\partial F}{\partial x}=z,&&\frac{\partial F}{\partial y}=2y,\end{align*}

por lo cual

\begin{align*} \frac{\partial f}{\partial x}=-\frac{z}{x+2z-e^{z}},&&\frac{\partial f}{\partial y}=-\frac{2y}{x+2z-e^{z}}.\end{align*}

Así para $x=0$, $y=e$ y $z=2$ al sustituir resulta

\begin{align*} \frac{\partial f}{\partial x}(0,e)=\frac{2}{e^{2}-4}&&\textup{y}&&\frac{\partial f}{\partial y}(0,e)=\frac{2e}{e^{2}-4}. \end{align*}

$\triangle$

En este ejemplo vemos cómo hemos podido calcular las derivadas parciales de $z=f(x,y)$ usando el valor de $f$ en el punto $(0,e)$, sin conocer quién es la función $f(x,y)$.

Un repaso chiquito de la demostación del teorema de la función implícita

Ahora repasaremos la demostración del teorema de la función implícita pero para un caso muy particular: Dos superficies $S_{1}$ y $S_{2}$ en el espacio con las siguientes representaciones implícitas:

$$ \textup{para}\hspace{0.3cm}S_{1}:\Psi (x,y,z)=0\hspace{1cm}\textup{y}\hspace{1cm}\textup{para}\hspace{0.3cm}S_{2}:\Gamma (x,y,z)=0.$$

Supongamos que las superficies se cortan en la curva $\mathfrak{C}$. En otras palabras, $\mathfrak{C}$ es el conjunto solución para el siguiente sistema de ecuaciones:

\[ \left \{\begin{matrix} \Psi (x,y,z)=0 \\ \Gamma (x,y,z)=0. \end{matrix} \right.\]

Supongamos que podemos despejar $x$ y $y$ en estas ecuaciones en términos de $z$ de la siguiente manera:

\[ \begin{equation}x=X(z),\hspace{1cm}y=Y(z)\hspace{0.3cm}\textup{para todo}\hspace{0.1cm}z\in (a,b).\end{equation} \]

Aquí, al reemplazar $x$ y $y$ por $X(z)$ y $Y(z)$ (respectivamente), el sistema $(2)$ se satisface. Por tanto tenemos $\Psi (X(z),Y(z),z)=0$ y $\Gamma (X(z),Y(z),z)=0$ para todo $z\in (a,b)$. Podemos calcular las derivadas $X^{\prime}(z)$, $Y^{\prime}(z)$, sin un conocimiento explícito de $X(z)$ y $Y(z)$.

¿Cómo hacemos esto? Consideramos las siguientes funciones auxiliares:

\begin{align*}
\psi (z)&=\Psi (X(z),Y(z),z),\\
\gamma (z)&=\Gamma (X(z),Y(z),z).
\end{align*}

Tenemos $\psi (z)=\gamma (z)=0$ y en consecuencia $\psi^{\prime}(z)=\gamma^{\prime}(z)=0$.

Derivando con la regla de la cadena tenemos:

\begin{align*}
\psi^{\prime}(z)&=\frac{\partial \Psi}{\partial x}X'(z)+\frac{\partial \Psi}{\partial y}Y'(z)+\frac{\partial \Psi}{\partial z},\\
\gamma^{\prime}(z)&=\frac{\partial \Gamma}{\partial x}X'(z)+\frac{\partial \Gamma}{\partial y}Y'(z)+\frac{\partial \Gamma}{\partial z}
\end{align*}

Dado que $\psi^{\prime} (z)=\gamma^{\prime}(z)=0$ tenemos el siguiente sistema de dos ecuaciones con dos incógnitas $X^{\prime}(z)$, $Y^{\prime}(z)$:

\[ \left \{\begin{matrix}\frac{\partial \Psi}{\partial x}X^{\prime}(z)+\frac{\partial \Psi}{\partial y}Y^{\prime}(z)=-\frac{\partial \Psi}{\partial z}\\ \frac{\partial \Gamma}{\partial x}X^{\prime}(z)+\frac{\partial \Gamma}{\partial y}Y^{\prime}(z)=-\frac{\partial \Gamma}{\partial z} \end{matrix} \right.\]

En los puntos en los cuales el determinante del sistema no es cero, usamos la regla de Cramer para obtener las soluciones como sigue:

\[ X^{\prime}(z)={\Large -\frac{\begin{vmatrix}\frac{\partial \Psi}{\partial z} & \frac{\partial \Psi}{\partial y}\\ \frac{\partial \Gamma}{\partial z} & \frac{\partial \Gamma }{\partial y}\end{vmatrix}}{\begin{vmatrix}\frac{\partial \Psi}{\partial x} & \frac{\partial \Psi}{\partial y} \\ \frac{\partial \Gamma}{\partial x} & \frac{\partial \Gamma}{\partial z} \end{vmatrix}} },\hspace{0.5cm}Y^{\prime}(z)={\Large -\frac{\begin{vmatrix}\frac{\partial \Psi}{\partial x} & \frac{\partial \Psi}{\partial z}\\ \frac{\partial \Gamma}{\partial x} & \frac{\partial \Gamma }{\partial z}\end{vmatrix}}{\begin{vmatrix}\frac{\partial \Psi}{\partial x} & \frac{\partial \Psi}{\partial y} \\ \frac{\partial \Gamma}{\partial x} & \frac{\partial \Gamma}{\partial z} \end{vmatrix}} }.\]

Otro ejemplo para encontrar derivadas de funciones implícitas

Veamos un último ejemplo en donde pondemos usar las ideas anteriores.

Ejemplo. Consideremos las ecuaciones $y=uv^{2}$, y $x=u+v$. Queremos ver que podemos determinar una función $h$ tal que $v=h(x,y)$ y para la cual:

\[ \frac{\partial h}{\partial x}(x,y)= \frac{h(x,y)}{3h(x,y)-2x}.\]

Además, queremos encontrar una fórmula análoga para $\frac{\partial h}{\partial y}$.

Primero, en la ecuación $x=u+v$ despejamos $u$ y sustituimos en $y=uv^{2}$, tenemos $y=(x-v)v^{2}$. De aquí $$xv^{2}-v^{3}-y=0.$$ Esto nos sugiere pensar en la función $$F(x,y,v):=xv^{2}-v^{3}-y,$$ pues nos permite representar nuestra ecuación como $F(x,y,v)=0$. Por el teorema de la función implícita (¡verifica las hipótesis!), esta ecuación define implícitamente a $v$ como función de $x$ e $y$, digamos, como $v=h(x,y)$. Aplicando las fórmulas que conocemos para las derivadas de la función implicita, tenemos lo siguiente:

\[ \frac{\partial h}{\partial x}= -\frac{\partial F /\partial x}{\partial F /\partial v}\hspace{0.5cm}\textup{y}\hspace{0.5cm}\frac{\partial h}{\partial y}=-\frac{\partial F /\partial y}{\partial F /\partial v} \]

Donde $\frac{\partial F}{\partial x}=v^{2}$, $\frac{\partial F}{\partial v}=2xv-3v^{2}$ y $\frac{\partial F}{\partial y}=-1$. Luego tenemos:

\begin{align*} \frac{\partial h}{\partial x}(x,y)&=-\frac{v^{2}}{2xv-3v^{2}}\\ &=-\frac{v}{2x-3v}\\ &=\frac{h(x,y)}{3h(x,y)-2x}.\end{align*}

Esto muestra la primera parte. Para encontra la fórmula análoga, volvemos a usar las fórmulas para derivadas de la función implícita:

\begin{align*}\frac{\partial h}{\partial y}(x,y)&=-\frac{-1}{2xv-3v^{2}}\\ &=\frac{1}{2xh(x,y)-3h^{2}(x,y)}.\end{align*}

$\triangle$

Más adelante…

Hemos cubierto el teorema de la función inversa y el teorema de la función implícita. Estos son temas teóricos profundos e importantes que tienen muchas consecuencias. Tienen también otras versiones en contextos más amplios como variedades, geometría diferencial, etc. Por el momento, dejaremos hasta aquí nuestro estudio de estos temas, pero te recomendamos de vez en cuando repasarlos, pues cada vez entenderás más de sus demostraciones y lo que significan.

Nuestra atención se enfocará ahora en otros conceptos que se pueden definir en términos de funciones de varias variables: la divergencia, el laplaciano y el rotacional. Después, hablaremos un poco de cómo la teoría que hemos desarrollado nos ayudará a encontrar puntos críticos para funciones de varias variables.

Tarea moral

  1. Las ecuaciones $x+y=uv$ y $xy=u-v$ definen $x$ y $y$ como funciones implícitas de $u$ y $v$, sean éstas $x=X(u,v)$ y $y=Y(u,v)$. Demuestra que $\partial X/\partial u=(xv-1)/(x-y)$ si $x\neq y$, y halla las fórmulas para $\partial X/\partial v$, $\partial Y/\partial v$, $\partial Y/\partial u$.
  2. Las tres ecuaciones \[ \left\{\begin{matrix} x^{2}-y\hspace{0.1cm}cos\hspace{0.1cm}(uv)+z^{2}=0, \\ x^{2}+y^{2}-\hspace{0.1cm}sen\hspace{0.1cm}(uv)+2z^{2}=2, \\ xy-\hspace{0.1cm}sen\hspace{0.1cm}u\hspace{0.1cm}cos\hspace{0.1cm}v+z=0 \end{matrix}\right.\] definen $x$, $y$, y $z$ como funciones de $u$ y $v$. Calcula las derivadas parciales $\partial x/\partial u$ y $\partial x/\partial v$ en el punto $x=y=1$, $u=\pi /2$, $v=0$, $z=0$.
  3. Las ecuaciones $x+y=uv$ y $xy=u-v$ definen $x$ y $v$ como funciones de $u$ y $y$, sean éstas $x=X(u,v)$ y $v=V(u,y)$. Demuestra que $\partial X/\partial u=(u+v)/(1+yu)$ si $1+yu\neq 0$ y halla las fórmulas de $\partial X/\partial y$, $\partial V /\partial u$, $\partial V /\partial y$.
  4. Sigue las ideas de los resultados de la entrada anterior para escribir una calca de ella pero ahora para $f:S\subseteq \mathbb{R}^{m} \times \mathbb{R}^{l}$, en donde la función que se busca tiene ahora dominio en $\mathbb{R}^{m}$ que pone a las variables del dominio $\mathbb{R}^l$ en términos de las de $\mathbb{R}^m$.
  5. Haz un esfuerzo extra, y medita nuevamente en el teorema de la función implícita tratando de escribir una demostración de como sería el asunto para $f$ con dominio en $\mathbb{R}^{m}\times \mathbb{R}^{l}\times \mathbb{R}^{k}$. ¿Se podrá hallar la función $h$, pero ahora con dominio en $\mathbb{R}^{l}$?

Entradas relacionadas

Cálculo Diferencial e Integral III: Teorema de la función implícita y demostración

Por Alejandro Antonio Estrada Franco

Introducción

En esta parte del curso estamos abordando los resultados principales de campos vectoriales y su diferenciabilidad. Hemos hablado de cómo la derivada de una composición se calcula con regla de la cadena. También, enunciamos el teorema de la función inversa, lo demostramos, y vimos un ejemplo de cómo se usa. Ahora pasaremos a otro de los resultados fundamentales en el tema: el teorema de la función implícita. Vamos a motivarlo a partir del problema de resolver sistemas de ecuaciones no lineales. Luego, lo enunciaremos formalmente y lo demostraremos. La discusión y los ejemplos los dejaremos para la siguiente entrada.

Una motivación: resolver sistemas de ecuaciones no lineales

Con lo que repasamos sobre sistemas de ecuaciones lineales, y con lo que se ve en un curso de Álgebra Lineal I, se puede entender completamente cómo resolver sistemas de eccuaciones lineales. Recordemos un poco de esto. Tomemos el siguiente sistema de ecuaciones lineales en las variables $x_1,\ldots,x_n$:

\begin{align*}
\left\{ \begin{matrix}
a_{11}x_1+a_{12}x_2+\ldots+a_{1n}x_n = b_1\\
a_{21}x_1+a_{22}x_2+\ldots+a_{2n}x_n = b_2\\
\vdots\\
a_{m1}x_1+a_{m2}x_2+\ldots+a_{mn}x_n = b_m.\\
\end{matrix} \right.
\end{align*}

Para resolverlo, se podría utilizar el proceso de reducción gaussiana. Tras hacer esto, podíamos clasificar a las variables en libres (que podían valer lo que sea) y pivote (que dependían afinmente de las libres). Esto daba todas las soluciones. Si, por decir algo, las variables pivote son $x_1,x_2,\ldots,x_m$ y las libre son $x_{m+1},\ldots,x_n$, entonces podemos reescribir lo anterior de la siguiente manera: «podemos despejar a las primeras en función de las segundas», algo así como

\begin{align*}
x_1 &= T_1(x_{m+1},\ldots,x_n)\\
x_2 &= T_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=T_m(x_{m+1},\ldots,x_n).
\end{align*}

Elegimos a $x_{m+1},\ldots,x_n$ como queramos. De ahí $x_1,\ldots,x_m$ quedan definidos afinmente con las $T_1,\ldots,T_m$. Y esto da todas las soluciones. Pero, ¿qué sucedería si tenemos un sistema de ecuaciones mucho más general?

Para plantear esto, imaginemos que ahora tenemos cualesquiera funciones $f_1,\ldots,f_m:\mathbb{R}^n\to \mathbb{R}$ y que queremos encontrar todas las soluciones $x_1,\ldots,x_n$ al siguiente sistema de ecuaciones:

\begin{equation}
\label{eq:sistemadificil}
\left\{ \begin{matrix}
f_{1}(x_{1},\dots ,x_{n})=0 \\
\vdots \\
f_{m}(x_{1},\dots ,x_{n})=0.
\end{matrix}\right.
\end{equation}

Esto es tan general como pudiéramos esperar. A la izquierda hay ceros, pero es porque si hubiera otras cosas, podríamos pasarlas a la izquierda para dejar ceros a la derecha.

Este sistema \eqref{eq:sistemadificil} parece imposible de resolver: no tenemos idea de quiénes son las funciones $f_1,\ldots, f_n$, no hay reducción gaussiana, no hay variables libres, etc. Pero imaginemos que el campo vectorial $(f_1,\ldots,f_m)$ es de clase $C^1$ alrededor de algún punto $\bar{v}_0=(x_{1}^{0},\dots,x_{n}^{0})$ en donde queremos despejar. Esto nos diría que cerca de $\bar{v}_0$ cada expresión $f_i(\bar{v})$ con $\bar{v}=(x_{1},\dots,x_{n})$ se parece muchísimo a su mejor aproximación lineal:

\[f_i(\bar{v}_0)+\triangledown f_i(\bar{v}_0)\bullet (\bar{v}-\bar{v}_0)\]

donde, tenemos:
\begin{align*}
f_i(\bar{v}_0)+\triangledown f_i(\bar{v}_0)\bullet (\bar{v}-\bar{v}_0)
&=f_i(\bar{v}_0)+\left(\frac{\partial f_i}{\partial x_1}(\bar{v}_0),\dots ,\frac{\partial f_i}{\partial x_n}(\bar{v}_0)\right)\bullet\left(x_1 -x_{1}^{0},\dots , x_n -x_{n}^{0}\right)\\ &=f_i(\bar{v}_0)+\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)(x_j -x_{j}^{0})\\ &=f_i(\bar{v}_0)+\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_j -\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_{j}^{0}\\ &=\triangledown f_i(\bar{v}_0)\bullet (\bar{v})+f_i(\bar{v}_0) -\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}} (\bar{v}_0)x_{j}^{0}\\ &=\triangledown f_i(\bar{v}_0)\bullet (\bar{v}) + \bar{b}_i,
\end{align*}

donde $\bar{b}_i=f_i(\bar{v}_0)-\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_{j}^0$. Pero entonces el sistema es prácticamente el mismo sistema que

\begin{equation}\label{eq:sistemafacil}\left \{\begin{matrix}\frac{\partial f_{1}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{1}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{1}\hspace{0.1cm}=\hspace{0.1cm}0 \\
\frac{\partial f_{2}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{2}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{2}\hspace{0.1cm}=\hspace{0.1cm}0 \\ \vdots & \vdots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{m}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{m}\hspace{0.1cm}=\hspace{0.1cm}0 \end{matrix}\right.\end{equation}

Esto se ve un poco complicado, pero cada $\frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_{0})x_{j}$ es simplemente un número real. ¡Cerquita de $\bar{v}_0$ el sistema de ecuaciones \eqref{eq:sistemadificil} es prácticamente un sistema lineal! Sería entonces de esperarse que las soluciones el sistema \eqref{eq:sistemadificil} original sean muy cercanas a las del sistema lineal \eqref{eq:sistemafacil} que sale y de nuevo recuperamos los trucos usuales: reducción gaussiana, variables libres, variables pivote, etc.

Pensando en que en el sistema \eqref{eq:sistemafacil} las variables pivote son $x_1,\ldots, x_m$ y las libres son $x_{m+1},\ldots,x_n$, entonces podemos encontrar transformaciones afines $T_1,\ldots,T_m:\mathbb{R}^n\to \mathbb{R}$ tales que las soluiones de \eqref{eq:sistemafacil} consisten en elegir $x_{m+1},\ldots,x_n$ arbitrariamente, y tomar

\begin{align*}
x_1 &= T_1(x_{m+1},\ldots,x_n)\\
x_2 &= T_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=T_m(x_{m+1},\ldots,x_n).
\end{align*}

Muy probablemente $(x_1,\ldots,x_n)$ no será una solución de \eqref{eq:sistemadificil}, pues son sistemas diferentes entre sí. Pero suena a que son tan tan cercanos, que con tantita maniobra podremos encontrar funciones $S_1,\ldots, S_m: \mathbb{R}^n\to \mathbb{R}$ tales que cualquier solución a \eqref{eq:sistemadificil} similarmente está dada por elegir $x_{m+1},\ldots, x_n$ arbitrariamente y tomar

\begin{align*}
x_1 &= S_1(x_{m+1},\ldots,x_n)\\
x_2 &= S_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=S_m(x_{m+1},\ldots,x_n).
\end{align*}

Gracias a que pudimos poner a todos los $x_1,\ldots x_m$ en función de los $x_{m+1},\ldots,x_n$, hemos logrado encontrar todas las soluciones a \eqref{eq:sistemadificil} cerca de $\bar{v}_0$. El teorema de la función inversa nos ayuda a volver precisas muchas de las cosas discutidas en esta sección.

Enunciado del teorema de la función implícita

Pensemos que tenemos algunas restricciones dadas por ecuaciones como las del sistema \eqref{eq:sistemadificil}. Lo que el teorema de la función implícita nos dirá es que bajo suficiente regularidad y algunas condiciones de invertibilidad, en una vecindad de un punto $\bar{v}_{0}$ las incógnitas $x_{1},\dots ,x_{m}$ se pueden poner en función de las incógnitas $x_{m+1},\dots ,x_{n}$, es decir, que se puede despejar como lo mencionamos al final de la sección anterior. El enunciado es el siguiente.

Teorema (de la función implícita). Sea $f:S\subseteq\mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^m$ un campo vectorial de clase $C^1$ en $S$ con funciones componentes $f_i: S\subseteq\mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}$, para $i=1,\ldots,m$.

Pensemos en el conjunto $A$ de soluciones $(y_1,\ldots,y_m,x_1,\ldots,x_l)$ del siguiente sistema de ecuaciones:

\begin{equation}
\label{eq:sistemaimplicita}
\left\{ \begin{matrix}
f_{1}(y_{1},\dots ,y_m,x_1,\ldots,x_l)=0 \\
\vdots \\
f_{m}(y_{1},\dots ,y_m,x_1,\ldots,x_l)=0.
\end{matrix}\right.
\end{equation}

Supongamos además que para el punto $$(\bar{y}_0,\bar{x}_0)=\left(y_{1}^{0},\dots ,y_{m}^{0},x_{1}^{0},\dots ,x_{l}^{0}\right)\in S\cup A$$ la matriz

\[ \begin{pmatrix} \frac{\partial f_{1}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{i}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) \end{pmatrix} \]

es invertible. Entonces existen abiertos $V\subset \mathbb{R}^{m}$ y $U\subset \mathbb{R}^l$ con $\bar{y}_0\in V$, $\bar{x}_0\in U$, para los cuales hay una única función $h:U\to V$ de clase $C^{1}$ en $V$, tal que $f(\bar{y},\bar{x})=\bar{0}$ si y sólo si $\bar{y}=h(\bar{x})$.

Sólo para aclarar algunas diferencias con lo discutido anteriormente, aquí ya estamos separando en lo que esperaremos que serán las variables libres $x_1,\ldots,x_m$ y las variables pivote $y_1,\ldots,y_l$. Estamos además estudiando el caso en el que tenemos tantas variables libres como ecuaciones, pues este caso es fácil de enunciar en términos de la invertibilidad de una matriz. El caso más general se trata con reducción gaussiana como platicamos en la sección anterior. La igualdad $\bar{y}=h(\bar{x})$ es lo que entendemos como «despejar» a los $y_i$’s en función de los $x_j$’s.

Demostración del teorema de la función implícita

Veamos la demostración del teorema.

Demostración. Definamos $F:S\subset \mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ como $F(\bar{y},\bar{x})=(f(\bar{y},\bar{x}),\bar{x})$. Dado que $f$ es de clase $C^1$, se tendrá que $F$ también (explica esto como tarea moral).

Notemos que

\begin{align*}
F(\bar{y}_{0},\bar{x}_{0})&=(f(\bar{y}_{0},\bar{x}_{0}),\bar{x}_{0})=(\bar{0},\bar{x}_0).\end{align*}

Por otro lado, notemos que la matriz jacobiana de $F$ en $(\bar{y}_0,\bar{x}_0)$ es

$$\begin{bmatrix} \frac{\partial f_{1}}{\partial \bar{y}_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{1}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) & \frac{\partial f_{1}}{\partial x_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{1}}{\partial x_{l}}(\bar{y}_{0},\bar{x}_{0}) \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) & \frac{\partial f_{m}}{\partial x_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{l}}(\bar{y}_{0},\bar{x}_{0}) \\ 0 & \dots & 0 & 1 & \dots & 0 \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ 0 & \dots & 0 & 0 & \dots & 1 \end{bmatrix}$$

esta matriz además es invertible (también tendrás que explicar ambas cosas de tarea moral).

La idea clave es que entonces podemos usar el teorema de la función inversa en $F$. Aplícandolo en este contexto, obtenemos que existe $\delta >0$ tal que $F$ es inyectiva en una bola $B_{\delta}(\bar{y}_{0},\bar{x}_{0})\subset S$. Nos dice también que $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$ es un conjunto abierto, y que $F ^{-1}:F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))\subset \mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ es de clase $C^{1}$ en $F(B_{\delta}(\bar{y}_{0},\bar{x}_{0}))$. También dice algo de quién es la derivada explícitamente, pero eso no lo necesitaremos por ahora (de tarea moral tendrás que pensar qué nos dice esto).

Como $F$ manda $(\bar{y}_0,\bar{x}_0)$ a $(\bar{0},\bar{x}_0)$ y $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$ es un abierto, entonces hay una bola abierta $W$ alrededor de $(\bar{0},\bar{x}_0)$ contenida en $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$. El conjunto $U$ que propondremos será el abierto que se obtiene al intersectar $W$ con el espacio en donde la coordenada correspondiente a $f(\bar{y},\bar{x})$ es cero. En otras palabras, $U$ es un abierto y consiste de $\bar{x}$ para los cuales existe un $\bar{y}$ tal que $F(\bar{y},\bar{x})=(\bar{0},\bar{x})$ (es decir, $f(\bar{y},\bar{x})=\bar{0}$).

Tomemos ahora un $\bar{x}\in U$. Afirmamos que hay sólo un $\bar{y}$ tal que $(\bar{y},\bar{x})\in B_{\delta}(\bar{y}_{0},\bar{x}_{0})$ y $f(\bar{y},\bar{x})=\bar{0}$. Si hubiera $\bar{y}$ y $\bar{y}’$ que satisfacen eso, tendríamos

$$F(\bar{y},\bar{x})=(f(\bar{y},\bar{x}),\bar{x})=(\bar{0},\bar{x})=(f(\bar{y}’,\bar{x}),\bar{x})=F(\bar{y}’,\bar{x}),$$

que por la inyectividad de $F$ implica $\bar{y}=\bar{y}’$. De hecho, dicho único $\bar{y}$ está en función de $F^{-1}$, que es de clase $C^1$ de modo que el conjunto de los $\bar{y}$ asignados a los $\bar{x}$ en $U$ es un abierto $V$.

Así, podemos definir $h:U\to V$ de la siguiente manera: $h(\bar{x})=\bar{y}$, donde $\bar{y}$ es el único elemento para el cual $f(\bar{y},\bar{x})=\bar{0}$ y $(\bar{y},\bar{x})\in B_{\delta}(\bar{y}_{0},\bar{x}_{0})$. De la discusión desarrollada, $h$ está bien definida y cumple con las propiedades buscadas.

Por último probemos que $h$ es de clase $C^{1}$ en $U$. Como $F^{-1}$ esta definida y, además es de clase $C^{1}$ sobre el conjunto $F(B_{\delta}(\bar{x}_{0},\bar{y}_{0}))$, si escribimos que $F^{-1}=\left( (F^{-1})_{1},\dots ,(F^{-1})_{m} \right)$, bastaría con demostrar:

\[ h(\bar{x})=\left( (F^{-1})_{1}(\bar{0},\bar{x}),\dots , (F^{-1})_{m}(\bar{0},\bar{x})\right) \]

para cada $\bar{x}\in V$. Esto se hace como sigue:

\begin{align*} (h(\bar{x}),\bar{x})&=F^{-1}(F(h(\bar{x}),\bar{x}))\\ &=F^{-1}(\bar{0},\bar{x}) \\ &=\left( (F^{-1})_{1}(\bar{0},\bar{x}),\dots ,(F^{-1})_{m}(\bar{0},\bar{x}),(F^{-1})_{m+1}(\bar{0},\bar{x}),\dots ,(F^{-1})_{m+l}(\bar{0},\bar{x}) \right). \end{align*}

Así queda terminada de la demostración de este importante teorema.

$\square$

Algunas reflexiones finales

Si quisiéramos usar de manera práctica la demostración para encontrar la función implícita $h$, necesitaríamos calcular la inversa $F^{-1}$. Sin embargo, las técnicas que tenemos hasta ahora no nos permiten hacer eso tan fácilmente. La versión del teorema de la función inversa que tenemos nos dice que hay una inversa, pero no nos dice quién es. La mayoría de las veces dar esta inversa es muy difícil, por no decir imposible.

Aunque esto parezca algo negativo, de cualquier forma tenemos un resultado muy importante. En algunos casos, sí podremos dar la función inversa con relativa facilidad. Y en otros contextos, aunque no podamos dar la inversa explícitamente, sí tendremos una base teórica robusta para demostrar otros resultados. El teorema de la función implícita es una palanca importante para otros resultados que brindan mucha luz acerca del comportamiento de los campos vectoriales.

Mas adelante

La demostración y el desarrollo teórico tanto del teorema de la función inversa, como el de la función implícita, son muy técnicos. Dejaremos los aspectos técnicos hasta aquí y en la siguiente entrada procesaremos mejor lo que quiere decir este teorema hablando de varios ejemplos, y también de sus consecuencias.

Tarea moral

  1. Considérese la función $T:\mathbb{R}^{3}\rightarrow \mathbb{R}^{2}$ dada por $T(x,y,z)=(x+z,y+x)$ aplica el teorema de la función implícita para obtener una función $h:\mathbb{R}\rightarrow \mathbb{R}^{2}$ tal que $(h(\bar{a}),\bar{a})$ es solución de la ecuación $T(x,y,z)=(0,0)$.
  2. Explica con detalle por qué la función $F$ de la demostración del teorema de la función implícita es de clase $C^1$.
  3. Verifica que en efecto $DF(\bar{y}_0,\bar{x}_0)$ es la expresión dada en la demostración del teorema. Además, justifica por qué es invertible.
  4. Justifica con detalle por qué los conjuntos $U$ y $V$ de la demostración en efecto son conjuntos abiertos.
  5. El teorema de la función inversa también nos dice quién es la derivada de la inversa. ¿Eso qué quiere decir en el contexto del teorema de la función implícita?

Entradas relacionadas