Archivo de la categoría: Matemáticas

Posts de matemáticas, la ciencia más cercana a las artes.

Cálculo Diferencial e Integral III: Introducción al teorema de la función inversa

Por Alejandro Antonio Estrada Franco

Introducción

Estamos a punto de entrar a discutir dos de los resultados principales de nuestro curso: el teorema de la función inversa y el teorema de la función implícita. Repasemos un poco qué hemos hecho hasta ahora. En las dos entradas anteriores introdujimos la noción de diferenciabilidad, la cual cuando sucede para una función $f:\mathbb{R}^n\to \mathbb{R}^m$, nos dice que $f$ se parece mucho a una función lineal en un punto dado. Vimos que esta noción implica continuidad y que tiene una regla de la cadena relacionada con el producto de matrices. También, hemos discutido cómo esta noción se relaciona con la existencia de espacios tangentes a gráficas multidimensionales.

Ahora queremos entender todavía mejor a las funciones diferenciables. Hay dos teoremas que nos permiten hacer eso. Uno es el teorema de la función inversa y el otro es el teorema de la función implícita. En esta entrada hablaremos del primero, y en un par de entradas más introduciremos el segundo resultado. El propósito del teorema de la función inversa es dar una condición bajo la cual una función es invertible, por lo menos localmente. De hecho, la mayoría de las veces sólo se puede garantizar la invertibilidad localmente, pues las funciones usualmente no son inyectivas y esto da comportamientos globales más difíciles de manejar.

Enunciar el teorema y entenderlo requiere de cierto esfuerzo. Y demostrarlo todavía más. Por esta razón, en esta entrada nos enfocaremos sólo en dar el teorema y presentar herramientas preliminares que necesitaremos para hacer su demostración.

Enunciado del teorema de la función inversa

Supongamos que tenemos $f:\mathbb{R}^n\to \mathbb{R}^n$ y que es diferenciable en el punto $\bar{a}$. Entonces, $f$ se parece mucho a una función lineal en $\bar{a}$, más o menos $f(\bar{x})\approx f(\bar{a}) + T_{\bar{a}}(\bar{x}-\bar{a})$. Así, si $T_{\bar{a}}$ es invertible, suena a que «cerquita de $\bar{a}$» la función $f(\bar{x})$ debe de ser invertible. El teorema de la función inversa pone estas ideas de manera formal.

Teorema (de la función inversa). Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el abierto $S$. Si la matriz $Df(\bar{a})$ es invertible, entonces, existe $\delta >0$ tal que:

  1. $B_{\delta}(\bar{a})\subseteq S$ y $f$ es inyectiva en $B_{\delta}(\bar{a})$.
  2. $f^{-1}:f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ es continua en $f(B_{\delta}(\bar{a}))$.
  3. $f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}$ es un conjunto abierto.
  4. $f^{-1}$ es de clase $C^{1}$ en $f(B_{\delta}(\bar{a}))$ y además, si $\bar{x}=f(\bar{v})\in f(B_{\delta}(\bar{a}))$, entonces, $Df^{-1}(\bar{x})=Df^{-1}(f(\bar{v}))=(Df(\bar{v}))^{-1}$.

Veamos qué nos dice de manera intuitiva cada una de las conclusiones del teorema.

  1. Tendremos una bola $B_\delta(\bar{a})$ dentro de la cual $f$ será inyectiva, y por lo tanto será biyectiva hacia su imagen. Así, $f$ restringida a esta bola será invertible. Es importante que sea una bola abierta, porque entonces sí tenemos toda una región «gordita» en donde pasa la invertibilidad (piensa que si fuera un cerrado, a lo mejor sólo es el punto $\bar{a}$ y esto no tiene chiste).
  2. La inversa $f^{-1}$ que existirá para $f$ será continua. Esto es lo mínimo que podríamos esperar, aunque de hecho el punto $4$ garantiza algo mucho mejor.
  3. La imagen de $f$ en la bola $B_\delta(\bar{a})$ será un conjunto abierto.
  4. Más aún, se tendrá que $f^{-1}$ será de clase $C^1$ y se podrá dar de manera explícita a su derivada en términos de la derivada de $f$ con una regla muy sencilla: simplemente la matriz que funciona para derivar $f$ le sacamos su inversa como matriz y esa funciona al evaluarla en el punto apropiado.

El teorema de la función inversa es profundo pues tanto su enunciado como su demostración combina ideas de topología, álgebra y cálculo. Por esta razón, para su demostración necesitaremos recopilar varias de las herramientas de álgebra lineal que hemos repasado en la Unidad 2 y la Unidad 5. Así mismo, necesitaremos ideas topológicas de las que hemos visto en la Unidad 3. Con ellas desarrollaremos algunos resultados auxiliares que en la siguiente entrada nos permitirán concluir la demostración.

Un criterio para campos vectoriales $C^1$

El teorema de la función inversa es para funciones de clase $C^1$. Nos conviene entender esta noción mejor. Cuando una función $f$ es de clase $C^1$, entonces es diferenciable. Pero el regreso no es cierto y hay contraejemplos. ¿Qué le falta a una función diferenciable para ser de clase $C^1$? A grandes rasgos, que las funciones derivadas $T_\bar{a}$ y $T_\bar{b}$ hagan casi lo mismo cuando $\bar{a}$ y $\bar{b}$ son cercanos. En términos de matrices, necesitaremos que la expresión $||(Df(\bar{a})-Df(\bar{b}))(\bar{x})||$ sea pequeña cuando $\bar{a}$ y $\bar{b}$ son cercanos entre sí.

El siguiente teorema será importante en nuestro camino hacia el teorema de la función inversa. Intuitivamente, para lo que lo usaremos es para aproximar una función $f$ localmente, con «cuadritos» que corresponden a los planos tangentes, porque «muy cerquita» estos planos varían muy poco si pedimos que $f$ sea de clase $C^1$. Es decir si $\bar{a}$ y $\bar{b}$ son dos puntos en el dominio de una función diferenciable, y estos están muy cerca uno del otro, sus planos tangentes serán casi el mismo. Esto nos invita a cambiar localmente a una superficie por cuadritos como más adelante se explicará con detalle.

Figura 1. En azul y en rojo dos planos que corresponden a las derivadas $T_{\bar{a}}$ y $T_{\bar{b}}$. Este cambio calculado es distintos puntos cercanos es «suave», esto se expresará con la ecuación $||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\leq \epsilon ||\bar{x}||$ ya con las diferenciales para todo $\bar{x}$.

El teorema concreto que nos interesa demostrar es la siguiente equivalencia para que una función sea de clase $C^1$.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ una función diferenciable en $S$. Se tiene que $f$ es de clase $C^{1}$ en $S$ si y sólo si para todo $\bar{a}\in S$ y para cada $\varepsilon >0$ existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, y si $\bar{b}\in B_{\delta}(\bar{a})$ se tiene $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq \varepsilon ||\bar{x}||$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. $\Rightarrow).$ Supongamos que $f$ es de clase $C^1$ en $S$, es decir, todas sus funciones componentes tienen derivadas parciales en $S$ y son continuas. Sea $\varepsilon>0$. Veremos que se puede encontrar una $\delta$ como en el enunciado.

Tomemos $\bar{a}$ y $\bar{b}$ en $S$. Expresamos a $(Df(\bar{b})-Df(\bar{a}))(\bar{x})$ como

\begin{align*}
\begin{pmatrix} \frac{\partial f_{1}}{\partial x_{1}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{1}}{\partial x_{n}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \dots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{m}}{\partial x_{n}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}\begin{pmatrix} x_{1} \\ \vdots \\ x_{n}\end{pmatrix}
\end{align*}

o equivalentemente como

\begin{align*}
\begin{pmatrix} \left( \triangledown f_{1}(\bar{b})-\triangledown f_{1}(\bar{a})\right) \cdot \bar{x} \\ \vdots \\ \left( \triangledown f_{m}(\bar{b})-\triangledown f_{m}(\bar{a})\right) \cdot \bar{x} \end{pmatrix}.
\end{align*}

De tal manera que por Cauchy-Schwarz:

\begin{align*}
||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||^2&=\sum_{i=1}^m (\left( \triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})\right)\cdot \bar{x})^2\\
&\leq \sum_{i=1}^m ||\triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})||^2||\bar{x}||^2\\
&=||\bar{x}||^2 \sum_{i=1}^m ||\triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})||^2\\
&=||\bar{x}||^2 \sum_{i=1}^m \sum_{j=1}^{n}\left( \frac{\partial f_{i}}{\partial x_{j}}(\bar{b})-\frac{\partial f_{i}}{\partial x_{j}}(\bar{a})\right) ^{2}
\end{align*}

En este punto se ve la importancia de que las parciales sean continuas. Podemos encontrar una $\delta$ que nos garantice que $B_\delta\subseteq S$ y que si $||\bar{b}-\bar{a}||<\delta$, entonces $$\left| \frac{\partial f_{i}}{\partial x_{j}}(\bar{b})-\frac{\partial f_{i}}{\partial x_{j}}(\bar{a}) \right| < \frac{\varepsilon}{\sqrt{mn}}.$$ En esta situación, podemos seguir acotando $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||^2$ como sigue:
\begin{align*}
&\leq ||\bar{x}|| \sum_{i=1}^m \sum_{j=1}^{n}\frac{\varepsilon^2}{mn}\\
&=\varepsilon^2||\bar{x}||^2.
\end{align*}

Al sacar raiz cuadrada, obtenemos la desigualdad $$||(Df(\bar{b})-Df(\bar{a}))(x)||\leq \varepsilon||\bar{x}||$$ buscada.

$\Leftarrow).$ Supongamos ahora que para cada $\varepsilon$ existe una $\delta$ como en el enunciado del teorema. Debemos ver que todas las derivadas parciales de todas las componentes son continuas. Podemos aplicar la desigualdad $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq ||\bar{x}||\varepsilon$ tomando como $\bar{x}$ cada vector $\hat{e}_i$ de la base canónica. Esto nos dice que

\[ ||Df(\bar{b})(\hat{e}_i)-Df(\bar{a})(\hat{e}_i)||< \varepsilon||\hat{e}_i|| =\varepsilon.\]

Por nuestro desarrollo anterior, para cada $i$ tenemos

\begin{align*}
\varepsilon&>||Df(\bar{b})(\hat{e}_i)-Df(\bar{a})(\hat{e}_i)||\\
&=||\left( \triangledown f_{1}(\bar{b})\cdot \hat{e}_i-\triangledown f_{1}(\bar{a})\cdot \hat{e}_i,\dots ,\triangledown f_{m}(\bar{b})\cdot \hat{e}_i-\triangledown f_{m}(\bar{a})\cdot \hat{e}_i\right)||\\
&=\left| \left|\left( \frac{\partial f_{1}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{i}}(\bar{a}),\dots ,\frac{\partial f_{m}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{i}}(\bar{a})\right) \right| \right|\\
&= \sqrt{\sum_{j=1}^{m}\left(\frac{\partial f_{j}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{j}}{\partial x_{i}}(\bar{a})\right)^{2}}.
\end{align*}

Elevando al cuadrado,

\[ \sum_{j=1}^{m}\left(\frac{\partial f_{j}}{\partial x_{i}}(b)-\frac{\partial f_{j}}{\partial x_{i}}(a)\right)^{2}<\varepsilon ^{2}.\]

Como todos los términos son no negativos, cada uno es menor a $\epsilon^2$. Así, para cada $i,j$ tenemos

\[ \left|\frac{\partial f_{j}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{j}}{\partial x_{i}}(\bar{a})\right|<\varepsilon.\]

Esto es precisamente lo que estábamos buscando: si $\bar{b}$ está lo suficientemente cerca de $\bar{a}$, cada derivada parcial en $\bar{b}$ está cerca de su correspondiente en $\bar{a}$.

$\square$

Invertibilidad de $Df(\bar{a})$ en todo un abierto

En esta sección demostraremos lo siguiente. Si $f:\mathbb{R}^n\to \mathbb{R}^n$ es un campo vectorial diferenciable en $\bar{a}$ y $Df(\bar{a})$ es invertible, entonces $Df(\bar{x})$ será invertible para cualquier $\bar{x}$ alrededor de cierta bola abierta alrededor de $\bar{a}$. Los argumentos en esta ocasión están un poco más relacionados con el álgebra lineal.

Será útil que recuerdes que una transformación lineal $T:\mathbb{R}^n \to \mathbb{R}^n$ es invertible si el único $\bar{x}\in \mathbb{R}^n$ tal que $T(\bar{x})=\bar{0}$ es $\bar{x}=\bar{0}$. El siguiente criterio es otra caracterización de invertibilidad en términos de lo que le hace $T$ a la norma de los vectores.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ una transformación lineal. La transformación $T$ es invertible si y sólo si existe $\varepsilon >0$ tal que $$||T(\bar{x})||\geq \varepsilon ||\bar{x}||$$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. $\left. \Rightarrow \right)$ Como $T$ es invertible, para todo $\bar{x}\neq \bar{0}$ sucede que $T(\bar{x})\neq \bar{0}$. En particular, esto sucede para todos los vectores en $S^{n-1}$ (recuerda que es la esfera de radio $1$ y dimensión $n-1$ centrada en $\bar{0}$). Esta esfera es compacta y consiste exactamente de los $\bar{x}\in \mathbb{R}^n$ de norma $1$.

Sabemos que las transformaciones lineales y la función norma son continuas. Por la compacidad de $S^{n-1}$, la expresión $||T(\bar{x})||$ tiene un mínimo digamos $\varepsilon$, que alcanza en $S^{n-1}$. Por el argumento del párrafo anterior, $\varepsilon>0$.

Tomemos ahora cualquier vector $\bar{x}\in \mathbb{R}^n$. Si $\bar{x}=\bar{0}$, entonces $$||T(\bar{0})||=||\bar{0}||=0\geq \varepsilon ||\bar{0}||.$$ Si $\bar{x}\neq \bar{0}$, el vector $\frac{\bar{x}}{||\bar{x}||}$ está en $S^{n-1}$, de modo que $$\left|\left|T\left(\frac{\bar{x}}{||\bar{x}||}\right)\right|\right| \geq \varepsilon.$$ Usando linealidad para sacar el factor $||\bar{x}||$ y despejando obtenemos $$||T(\bar{x})||\geq \varepsilon ||\bar{x}||,$$ como estábamos buscando.

$\left. \Leftarrow \right)$ Este lado es más sencillo. Si existe dicha $\varepsilon >0$, entonces sucede que para $\bar{x}$ en $\mathbb{R}^n$, con $\bar{x}\neq \bar{0}$ tenemos $$||T(\bar{x})||\geq \varepsilon||\bar{x}||>0.$$ Por lo tanto, $T(\bar{x})\neq \bar{0}$ y así $T$ es invertible.

$\square$

Obtengamos una consecuencia del teorema de clasificación de la sección anterior que está muy relacionada con este resultado que acabamos de demostrar.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el conjunto abierto $S$ y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces existen $\delta >0$ y $m>0$ tales que $B_{\delta}(\bar{a})\subseteq S$ y $||Df(\bar{b})(\bar{x})||\geq m||\bar{x}||$, para todo $\bar{b}\in B_{\delta}(\bar{a})$ y para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. Como $Df(\bar{a})$ es invertible, por el teorema que acabamos de demostrar existe $\varepsilon’>0$ tal que $$||Df(\bar{a})(\bar{x})||\geq \varepsilon’||\bar{x}||$$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Por nuestra caracterización de funciones $C^1$, Ahora como $f\in C^{1}$ en $S$ (abierto) para $\varepsilon =\frac{\varepsilon’}{2}>0$, existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, y $||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\leq \frac{\varepsilon’}{2}||\bar{x}||$ para todo $\bar{b}\in B_{\delta}(\bar{a})$ y para todo $\bar{x}\in \mathbb{R}^{n}$.

Por la desigualdad del triángulo, \[ ||Df(\bar{a})(\bar{x})-Df(\bar{b})(\bar{x})||+||Df(\bar{b})(\bar{x})||\geq ||Df(\bar{a})(\bar{x})||,\]

de donde

\begin{align*}
||Df(\bar{b})(\bar{x})||&\geq ||Df(\bar{a})(\bar{x})||-||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\\
&\geq \varepsilon’||\bar{x}||-\frac{\varepsilon’}{2}||\bar{x}||\\
&= \frac{\varepsilon’}{2} ||\bar{x}||.
\end{align*}

De esta manera, el resultado es cierto para la $\delta$ que dimos y para $m=\frac{\varepsilon’}{2}$.

$\square$

El siguiente corolario es consecuencia inmediata de lo discutido en esta sección y está escrito de acuerdo a la aplicación que haremos más adelante en la demostración del teorema de la función inversa.

Corolario. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ una función de clase $C^{1}$ en $S$ y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces, existe $\delta > 0$ tal que $B_{\delta}(\bar{a})\subseteq S$ y $Df(\bar{b})$ es invertible para todo $\bar{b}\in B_{\delta}(\bar{a})$.

Queda como tarea moral responder por qué este corolario es consecuencia inmediata del teorema anterior.

Un poco de intuición geométrica

Dejamos esta entrada hasta aquí, la naturaleza densamente teórica de lo que estamos haciendo puede hacer pesadas las exposiciones. Lo que hasta aquí demostramos es que para un campo vectorial $C^1$ si su derivada en $\bar{a}$ es invertible, entonces lo es en toda una vecindad que tiene a $\bar{a}$. Imaginemos al pedacito de superficie $f(B_{\delta}(\bar{a}))$ cubierto con pequeños rectángulos. En cada punto, las imágenes de estos rectángulos están muy cerquita, casi pegados a la superficie. Esto nos garantizaría la invertibilidad de $f$ en esta vecindad.

Figura 2

En la Figura 2 vemos ilustrado esto. El círculo inferior corresponde a la vecindad $B_{\delta}(\bar{a})$ en el dominio de $f$. La función $f$ levanta una porción del plano en la sabana delineada con negro arriba del círculo. En el círculo tenemos al punto $\bar{a}$ en verde agua. Sobre la sábana de arriba tenemos con el mismo color a $f(\bar{a})$. Los puntos negros pequeños dentro de la vecindad alrededor de $\bar{a}$ son alzados por $f$ a puntos negros sobre la sabana. Sobre de cada punto negro en la sabana tenemos un cuadrito rojo que representa al cachito de plano tangente cerca de la imagen de cada punto. La imagen esta llena de estos pequeños cuadritos, todos ellos representan diferenciales invertibles, esto nos permitirá asegurar la invertibilidad de $f$ en al menos una vecindad.

Más adelante…

En la siguiente entrada demostraremos el teorema de la función inversa, inciso por inciso. Es importante que estes familiarizado con los resultados de esta entrada, pues serán parte importante de la demostración.

Tarea moral

  1. ¿Qué diría el teorema de la función inversa para campos vectoriales $f:\mathbb{R}^2\to \mathbb{R}^2$? ¿Se puede usar para $$f(r,\theta)=(r\cos(\theta),r\sin(\theta))?$$ Si es así, ¿para qué valores de $r$ y $\theta$? ¿Qué diría en este caso explícitamente?
  2. Explica por qué el corolario que enunciamos en efecto se deduce de manera inmediata de lo discutido en la sección correspondiente.
  3. Revisa todas las desigualdades que usamos en esta entrada. ¿Qué resultado estamos usando? ¿Cuándo se darían estas igualdades?
  4. Demuestra que el determinante de una matriz es una función continua en términos de las entradas de la matriz. Usa esto para demostrar que si $A\in M_n(\mathbb{R})$ es una matriz y $B$ es una matriz muy cercana a $A$, entonces $B$ también es invertible.
  5. Demuestra que si una transformación $T$ es diagonalizable, entonces en el teorema de caracterización de invertibilidad se puede usar como $\epsilon$ al mínimo de la expresión $|\lambda|$ variando sobre todos los eigenvalores $\lambda$ de $T$.

Entradas relacionadas

Cálculo Diferencial e Integral III: Regla de la cadena para campos vectoriales

Por Alejandro Antonio Estrada Franco

Introducción

Tenemos ya la definición de diferenciabilidad, y su versión manejable: la matriz jacobiana. Seguiremos construyendo conceptos y herramientas del análisis de los campos vectoriales muy importantes e interesantes. A continuación, enunciaremos una nueva versión de la regla de la cadena, que nos permitirá calcular las diferenciales de composiciones de campos vectoriales entre espacios de dimensión arbitraria. Esta regla tiene numerosas aplicaciones y es sorprendentemente fácil de enunciar en términos de producto de matrices.

Primeras ideas hacia la regla de la cadena

La situación típica de regla de la cadena es considerar dos funciones diferenciables que se puedan componer. A partir de ahí, buscamos ver si la composición también es diferenciable y, en ese caso, intentamos dar la derivada de la composición en términos de las derivadas de las funciones. Veamos qué pasa en campos vectoriales.

Pensemos en $f:S_{f}\subseteq \mathbb{R}^{m}\rightarrow \mathbb{R}^{n}$, $g:S_{g}\subseteq \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}$ y en su composición $h=f\circ g$ definida sobre alguna vecindad $V\subseteq S_g$ de $\bar{a}$ y tal que $g(V)\subseteq S_f$. Pensemos que $g$ es diferenciable en $\bar{a}$ con derivada $G_\bar{a}$ y que $f$ es diferenciable en $\bar{b}:=g(\bar{a})$ con derivada $F_\bar{b}$.

Exploremos la diferenciabilidad de la composición $h$ en el punto $\bar{a}$. Para ello, tomemos un $\bar{y}\in \mathbb{R}^{l}$ tal que $\bar{a}+\bar{y}\in V$ y consideremos la siguiente expresión:

\begin{align*}
h(\bar{a}+\bar{y})-h(\bar{a})=f(g(\bar{a}+\bar{y}))-f(g(\bar{a})).
\end{align*}

Tomando $\bar{v}=g(\bar{a}+\bar{y})-g(\bar{a})$, tenemos $\bar{b}+\bar{v}=g(\bar{a})+\bar{v}=g(\bar{a}+\bar{y})$. De esta forma,

\begin{align*}
f(g(\bar{a}+\bar{y}))-f(g(\bar{a}))=f(\bar{b}+\bar{v})-f(\bar{b}).
\end{align*}

Por la diferenciabilidad de $g$ en $\bar{a}$, tenemos que podemos escribir

$$\bar{v}=G_{\bar{a}}(\bar{y})+||\bar{y}||E_{g}(\bar{a};\bar{y}),$$ con $\lim\limits_{\bar{y}\to \bar{0}}E_{g}(\bar{a};\bar{y})=0$.

Usando la diferenciabilidad de $f$ en $\bar{b}$, y la linealidad de su derivada $F_\bar{b}$, tenemos entonces que:

\begin{align*}
f(\bar{b}+\bar{v})-f(\bar{b})&=F_\bar{b}(\bar{v})+||\bar{v}||E_f(\bar{b};\bar{v})\\
&=F_\bar{b}(G_{\bar{a}}(\bar{y})+||\bar{y}||E_{g}(\bar{a};\bar{y}))+||\bar{v}||E_f(\bar{b};\bar{v})\\
&=(F_{b}\circ G_{\bar{a}})(\bar{y})+||\bar{y}||(F_{\bar{b}}\circ E_{g}(\bar{a};\bar{y}))+||\bar{v}||E_{f}(\bar{b};\bar{v}),
\end{align*}

con $\lim\limits_{\bar{y}\to \bar{0}}E_{f}(\bar{b};\bar{v})=0$.

Concatenando nuestras igualdades, podemos reescribir esto como

\[ h(\bar{a}+\bar{y})-h(\bar{a})=(F_{\bar{b}}\circ G_{\bar{a}})(\bar{y})+||\bar{y}||E_{h}(\bar{a};\bar{y}),\] en donde hemos definido

\[ E_{h}(\bar{a};\bar{y})=(F_{\bar{b}}\circ E_{g})(\bar{a};\bar{y})+\frac{||\bar{v}||}{||\bar{y}||}E_{f}(\bar{b};\bar{v}).\] Si logramos demostrar que $\lim\limits_{\bar{y}\to \bar{0}}E_{h}(\bar{a};\bar{y})=0$, entonces tendremos la diferenciabilidad buscada, así como la derivada que queremos. Dejemos esto en pausa para enunciar y demostrar un lema auxiliar.

Un lema para acotar la norma de la derivada en un punto

Probemos el siguiente resultado.

Lema. Sea $\phi:S\subseteq \mathbb{R}^l\to \mathbb{R}^m$ un campo vectorial diferenciable en un punto $\bar{c}\in S$ y $T_\bar{c}$ su derivada. Entonces, para todo $\bar{v}\in \mathbb{R}^{l}$, se tiene:

$$||T_{\bar{c}}(\bar{v})||\leq \sum_{k=1}^{m}||\triangledown \phi_{k}(\bar{c})||||\bar{v}||.$$

Donde $\phi(\bar{v})=\left( \phi_{1}(\bar{v}),\dots ,\phi_{m}(\bar{v})\right)$

Demostración. Procedemos con desigualdad del triángulo como sigue:

\begin{align*}
||T_{\bar{c}}(\bar{v})||&=\left|\left|\sum_{k=1}^{m}(\triangledown \phi_{k}(\bar{c})\cdot \bar{v})e_{k}\right|\right|\\
&\leq \sum_{k=1}^{m}||(\triangledown \phi_{k}(\bar{c})\cdot \bar{v})e_k||\\
&=\sum_{k=1}^{m}|\triangledown \phi_{k}(\bar{c})\cdot \bar{v}|
\end{align*}

y luego usamos la desigualdad de Cauchy-Schwarz en cada sumando para continuar como sigue

\begin{align*}
\leq \sum_{k=1}^{m}||\triangledown \phi_{k}(\bar{c})||||\bar{v}||,
\end{align*}

que es lo que buscábamos.

$\square$

Conclusión del análisis para regla de la cadena

Retomando el análisis para $E_{h}(\bar{a};\bar{y})$, dividamos el límite en los dos sumandos.

Primer sumando:

Como $F_{\bar{b}}$ es lineal, entonces es continua. También, sabemos que $\lim\limits_{\bar{y}\to \bar{0}}E_{g}(\bar{a};\bar{y})=0$. Así,

\begin{align*}
\lim\limits_{\bar{y}\to \bar{0}}(F_{\bar{b}}\circ E_{g})(\bar{a};\bar{y})&=F_{\bar{b}}\left(\lim\limits_{\bar{y}\to \bar{0}} E_{g}(\bar{a};\bar{y})\right)\\
&=F_\bar{b}(\bar{0})\\
&=0.
\end{align*}

Segundo sumando:

Retomando la definición de $\bar{v}$, aplicando desigualdad del triángulo y el lema que demostramos,

\begin{align*}
||\bar{v}||&=||G_{\bar{a}}(\bar{y})+||\bar{y}||E_{g}(\bar{a};\bar{y})||\\
&\leq ||G_{\bar{a}}(\bar{y})||+||\bar{y}||||E_{g}(\bar{a};\bar{y})||\\
&\leq \left(\sum_{k=1}^{m}||\triangledown g_{k}(\bar{a})||||\bar{y}||\right)+||\bar{y}||||E_{g}(\bar{a};\bar{y})||.
\end{align*}

Dividiendo ambos lados entre $||\bar{y}||$, obtenemos entonces que

$$ \frac{||\bar{v}||}{||\bar{y}||}\leq \sum_{k=1}^{m}||\triangledown g_{k}(\bar{a})||+||E_{g}(\bar{a};\bar{y})||. $$

De aquí se ve que conforme $\bar{y}\to \bar{0}$, la expresión $\frac{||\bar{v}||}{||\bar{y}||}$ está acotada superiormente por la constante $A:=\sum_{k=1}^{m}||\triangledown g_{k}(\bar{a})||.$ Además, si $\bar{y}\to \bar{0}$, entonces $\bar{v}\to \bar{0}$. Así,

\[0\leq \lim\limits_{\bar{y}\to \bar{0}}\frac{||\bar{v}||}{||\bar{y}||}E_{f}(\bar{b},\bar{v})\leq A\lim\limits_{\bar{y}\to \bar{0}}E_{f}(\bar{b},\bar{v})=0 \] pues $\lim\limits_{\bar{y}\to \bar{0}}\bar{v}=\bar{0}$ implica $\lim\limits_{\bar{y}\to \bar{0}}E_{f}(\bar{b},\bar{v})$.

Hemos concluido que $$h(\bar{a}+\bar{y})-h(\bar{a})=(F_{\bar{b}}\circ G_{\bar{a}})(\bar{y})+||\bar{y}||E_{h}(\bar{a};\bar{y}),$$

con $\lim_{\bar{y}\to \bar{0}} E_h(\bar{a};\bar{y})=0$. Esto precisamente es la definición de $h=f\circ g$ es diferenciable en $\bar{a}$, y su derivada en $\bar{a}$ es la transformación lineal dada por la composición de transformaciones lineales $F_\bar{b}\circ G_\bar{a}$.

Recapitulación de la regla de la cadena

Recapitulamos toda la discusión anterior en el siguiente teorema.

Teorema (Regla de la cadena). Sean $f:S_{f}\subseteq \mathbb{R}^{m}\rightarrow \mathbb{R}^{n}$, $g:S_{g}\subseteq \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}$ campos vectoriales. Supongamos que la composición $f\circ g$ está definida en todo un abierto $S\subseteq S_g$. Supongamos que $g$ es diferenciable en un punto $\bar{a}\in S$ con derivada $G_\bar{a}$ y $f$ es diferenciable en $\bar{b}:=g(\bar{a})$ con derivada $F_\bar{b}$. Entonces, $h$ es diferenciable en $\bar{a}$ con derivada $F_\bar{b}\circ G_\bar{a}$.

Dado que la representación matricial de la composición de dos transformaciones lineales es igual al producto de estas, podemos reescribir esto en términos de las matrices jacobianas como el siguiente producto matricial: $$Dh(\bar{a})=Df(\bar{b})Dg(\bar{a}).$$

Usos de la regla de la cadena

Hagamos algunos ejemplos de uso de regla de la cadena. En el primer ejemplo que veremos a continuación, la función $f$ es un campo escalar.

Ejemplo 1. Tomemos $g:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ campo vectorial, y $f:U\subseteq \mathbb{R}^{m}\rightarrow \mathbb{R}$ campo escalar. Consideremos $h=f\circ g$ y supongamos que se satisfacen las hipótesis del teorema de la regla de la cadena. Tenemos: \[ Df(\bar{b})=\begin{pmatrix} \frac{\partial f}{\partial x_{1}}(\bar{b}) & \dots & \frac{\partial f}{\partial x_{m}}(\bar{b}) \end{pmatrix} \] y \[ Dg(\bar{a})=\begin{pmatrix}\frac{\partial g_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial g_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial g_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial g_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix} . \]

Por la regla de la cadena tenemos $Dh(\bar{a})=Df(\bar{b})Dg(\bar{a})$ esto implica \[ \begin{pmatrix} \frac{\partial h}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial h}{\partial x_{n}}(\bar{a}) \end{pmatrix}=\begin{pmatrix} \frac{\partial f}{\partial x_{1}}(\bar{b}) & \dots & \frac{\partial f}{\partial x_{m}}(\bar{b}) \end{pmatrix}\begin{pmatrix} \frac{\partial g_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial g_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial g_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial g_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}. \]

Así \[ \begin{pmatrix} \frac{\partial h}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial h}{\partial x_{n}}(\bar{a}) \end{pmatrix}= \begin{pmatrix} \sum_{i=1}^{m}\frac{\partial f}{\partial x_{i}}(\bar{b})\frac{\partial g_{i}}{\partial x_{1}}(\bar{a}) & \dots & \sum_{i=1}^{m}\frac{\partial f}{\partial x_{i}}(\bar{b})\frac{\partial g_{i}}{\partial x_{n}}(\bar{a}) \end{pmatrix}. \]

En otras palabras, tenemos las siguientes ecuaciones para calcular cada derivada parcial de $h$: \[ \frac{\partial h}{\partial x_{j}}(\bar{a})=\sum_{i=1}^{m}\frac{\partial f}{\partial x_{i}}(\bar{b})\frac{\partial g_{i}}{\partial x_{j}}(\bar{a}).\]

$\triangle$

Ejemplo 2. Sean $\bar{a}=(s,t)$ y $\bar{b}=(x,y)$ puntos en $\mathbb{R}^{2}$. Pensemos que las entradas de $\bar{b}$ están dadas en función de las entradas de $\bar{a}$ mediante las ecuaciones $x=g_{1}(s,t)$ y $y=g_{2}(s,t)$. Pensemos que tenemos un campo escalar $f:\mathbb{R}^2\to \mathbb{R}$, y definimos $h:\mathbb{R}^2\to \mathbb{R}$ mediante $$h(s,t)=f(g_{1}(s,t),g_{2}(s,t)).$$

Por el ejemplo anterior \[ \frac{\partial h}{\partial s}=\frac{\partial f}{\partial x}\frac{\partial x}{\partial s}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial s} \] y \[ \frac{\partial h}{\partial t}=\frac{\partial f}{\partial x}\frac{\partial x}{\partial t}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial t}. \] Como tarea moral queda que reflexiones qué significa $\partial x$ cuando aparece en el «numerador» y qué significa cuando aparece en el «denominador».

$\triangle$

Ejemplo 3. Para un campo escalar $f(x,y)$ consideremos un cambio de coordenadas $x=rcos\theta$, $y=rsen\theta$ es decir tomemos la función $\phi (r,\theta)=f(rcos\theta ,rsen\theta )$.

Por el ejemplo anterior tenemos \[ \frac{\partial \phi }{\partial r}=\frac{\partial f}{\partial x}\frac{\partial x}{\partial r}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial r} \] y \[ \frac{\partial \phi }{\partial \theta }=\frac{\partial f}{\partial x}\frac{\partial x}{\partial \theta }+\frac{\partial f}{\partial y}\frac{\partial y}{\partial \theta } \] donde, haciendo las derivadas parciales tenemos: \[ \frac{\partial x}{\partial r}=cos\theta ,\hspace{1cm}\frac{\partial y}{\partial r}=sen\theta \] y \[ \frac{\partial x}{\partial \theta }=-rsen\theta,\hspace{1cm}\frac{\partial y}{\partial \theta }=-rcos\theta. \] Finalmente obtenemos: \[ \frac{\partial \phi }{\partial r }=\frac{\partial f }{\partial x }cos\theta +\frac{\partial f }{\partial y }sen\theta \] y \[ \frac{\partial \phi }{\partial \theta }=-\frac{\partial f }{\partial x }rsen\theta +\frac{\partial f }{\partial y }rcos\theta \] que son las derivadas parciales del cambio de coordenadas en el dominio de $f$.

$\triangle$

Mas adelante…

En la siguiente entrada comenzaremos a desarrollar la teoría para los importantes teoremas de la función inversa e implícita si tienes bien estudiada esta sección disfrutaras mucho de las siguientes.

Tarea moral

  1. Considera el campo escalar $F(x,y,z)=x^{2}+y sen(z)$. Imagina que $x,y,z$ están dados por valores $u$ y $v$ mediante las condiciones $x=u+v$, $y=vu$, $z=u$. Calcula $\frac{\partial F}{\partial u}$, $\frac{\partial F}{\partial v}$.
  2. Sea $g(x,y,z)=(xy,x)$, y $f(x,y)=(2x,xy^{2},y)$. Encuentra la matriz jacobiana del campo vectorial $g\circ f$. Encuentra también la matriz jacobiana del campo vectorial $f\circ g$.
  3. En la demostración del lema que dimos, hay un paso que no justificamos: el primero. Convéncete de que es cierto repasando el contenido de la entrada anterior Diferenciabilidad.
  4. Imagina que sabemos que la función $f:\mathbb{R}^n\to \mathbb{R}^n$ es invertible y derivable en $\bar{a}$ con derivada $T_\bar{a}$. Imagina que también sabemos que su inversa $f^{-1}$ es derivable en $\bar{b}=f(\bar{a})$ con derivada $S_\bar{b}$. De acuerdo a la regla de la cadena, ¿Qué podemos decir de $T_\bar{a}\circ S_\bar{b}$? En otras palabras, ¿Cómo son las matrices jacobianas entre sí, en términos de álgebra lineal?
  5. Reflexiona en cómo todas las reglas de la cadena que hemos estudiado hasta ahora son un corolario de la regla de la cadena de esta entrada.

Entradas relacionadas

Cálculo Diferencial e Integral III: Diferenciabilidad en campos vectoriales

Por Alejandro Antonio Estrada Franco

Introducción

Después de haber abordado a modo de repaso las herramientas que usaremos de álgebra lineal, estamos listos para estudiar la diferenciabilidad en funciones más generales. Ya estudiamos la diferenciabilidad en curvas (funciones $f:S\subseteq \mathbb{R}\to \mathbb{R}^m$) y en campos escalares (funciones $f:S\subseteq \mathbb{R}^n \to \mathbb{R}$). Ahora podemos estudiar la diferenciabilidad en campos vectoriales, que recuerda que ahora sí son funciones $f:S\subseteq \mathbb{R}^n\to \mathbb{R}^m$ para cualesquiera $m$ y $n$ enteros positivos.

Intuición de diferenciabilidad en campos vectoriales

Con anterioridad, hemos discutido la intuición geométrica de lo que quiere decir que un campo escalar $f:\mathbb{R}^n\to \mathbb{R}$ sea diferenciable. A grandes rasgos, estamos pidiendo que cerca de un punto $\bar{a}$ la función $f(\bar{a})$ cambie «como una función lineal». Esto quiere decir que la gráfica de la función se parece mucho a un hiperplano en $\mathbb{R}^{n+1}$ cerca del punto $\bar{a}$, tanto que de hecho podemos dar un hiperplano tangente a la gráfica en $\bar{a}$. Bajo suficiente regularidad, esta función lineal estaba dada por las derivadas parciales y estaba muy relacionada con el gradiente $\triangledown f$.

La situación para campos vectoriales es parecida. Si tenemos una función $f:\mathbb{R}^n\to \mathbb{R}^m$, entonces está dada por funciones coordenada que la expresan de la manera $f(\bar{x})=(f_1(\bar{x}),\ldots,f_m(\bar{x}))$ para cada $\bar{x}\in \mathbb{R}^n$. La diferenciabilidad que buscaremos ahora deberá suceder coordenada a coordenada, y por ello lo que pensaremos como derivada tendrá algo así como un gradiente por cada coordenada. Esto nos daría $m$ gradientes, pero una mejor forma de pensar en resumen a la derivada es como una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^m$ que nos diga con mucha precisión cuándo cambia la funciíon $f$ (cuando esto sea posible).

Para tener clara idea de lo que queremos hacer recordemos el ejemplo de campos escalares, y de aquí construiremos una generalización a campos vectoriales: Observa la Figura $1$. A la izquierda, hemos dibujado dos copias de $\mathbb{R}^n$ (pero que puedes pensar como $\mathbb{R}^2$). A la derecha, hemos dibujado la gráfica de dos funciones. Una es una función cualquiera $f:\mathbb{R}^{n}\rightarrow \mathbb{R}^m$. La otra es una transformación lineal $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^m$ que ha sido trasladada sobre el plano $xy$ y sobre el eje $z$ con la función $G(\bar{v})=T(\bar{v}-\bar{a})+f(\bar{a})$. Estas gráficas son objetos en $\mathbb{R}^n \times \mathbb{R}^m$ (ponemos un punto por cada pareja $(\bar{x},f(\bar{x}))$ con $\bar{x}\in \mathbb{R}^n$).

Como $T$ es lineal, cumple $T(\bar{0})=0$. Al hacer la traslación, obtenemos $G(\bar{a})=T(\bar{0})+f(\bar{a})=f(\bar{a})$. Así, $T$ traslada un subespacio $H$ de dimensión $n$ a un subespacio afín de dimensión $n$ que pasa por $f(\bar{a})$. Lo que buscaremos al pedir que la función $f$ sea diferenciable con derivada $T$ es que la gráfica de $f$ se parezca mucho a este subespacio $H+f(\bar{a})$, tanto que de hecho dicho subespacio lo podremos pensar como tangente a la gráfica en el punto $(\bar{a},f(\bar{a}))$.

Figura 1

Definición de diferenciabilidad para campos vectoriales

¿Cuál es la condición algebraica que pediremos? Será muy similar a lo que pasaba en campos escalares. Lo que queremos es que el cambio $f(\bar{a}+\bar{v})-f(\bar{a})$ se parezca mucho a $T(\bar{v})$ cuando $\bar{v}$ es pequeño. De hecho, tiene que parecerse tanto, tanto, que $f(\bar{a}+\bar{v})-f(\bar{a})$ debe parecerse a $T(\bar{v})$ más rápido de lo que $\bar{v}$ se va a $\bar{0}$. Esto nos lleva a plantear que la condición buscada sea la siguiente:

$$\lim_{\bar{v}\to \bar{0}}\frac{||(f(\bar{a}+\bar{v})-f(\bar{a}))-T(\bar{v})||}{||\bar{v}||}=0.$$ La Figura $2$ tiene un diagrama que ayuda a entender esto un poco mejor. Queremos que la flecha indicada en amarillo acabe muy cerca de $f(\bar{a}+\bar{v})$.

El vector $T(\bar{v}-\bar{a})+f(\bar{a})$ es el vector $T(\bar{v})$ transportado hasta el plano tangente el cual está en color rosa. La idea es que $f(\bar{a}+\bar{v})-f(\bar{a})$, que es el vector señalado con amarillo abajo, se aproxime mucho en el sentido señalado por el límite mencionado en el párrafo de arriba. De esta manera tenemos la mejor aproximación lineal. Esta definición se inspira en el polinomio de Tylor de grado 1 para funciones de una variable real.

Por supuesto, la discusión que hemos tenido sólo aplica para cuando estamos trabajando cerca del punto $\bar{a}$, así que más bien la transformación lineal de la que estamos hablando dependerá del punto $\bar{a}$. Todo esto nos lleva a nuestra primera definición formal de diferenciabilidad.

Definición. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ un campo vectorial. Decimos que $f$ es diferenciable en $\bar{a}\in Int(S)$ si existe una transformación lineal $T_{\bar{a}}:\mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ tal que

$$\lim_{\bar{v}\to \bar{0}}\frac{||f(\bar{a}+\bar{v})-f(\bar{a})-T_{\bar{a}}(\bar{v})||}{||\bar{v}||}=0.$$

En este caso, a $T_{\bar{a}}$ le llamamos la derivada de $f$ en el punto $\bar{a}$.

Antes de empezar a demostrar propiedades de esta noción, nos conviene tener una versión alternativa y totalmente equivalente.

Definición. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ un campo vectorial. Decimos que $f$ es diferenciable en $\bar{a}\in Int(S)$ si existe una transformación lineal $T_{\bar{a}}:\mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ y una función $E:\mathbb{R}^n\times \mathbb{R}^n\to \mathbb{R}^m$ de manera que $$f(\bar{a}+\bar{v})=f(\bar{a})+T_{\bar{a}}(\bar{v})+||\bar{v}||E(\bar{a};\bar{v})$$ con $$\lim_{||\bar{v}||\to 0}E(\bar{a};\bar{v})=0.$$

Esta definición es equivalente a la anterior pues si despejamos tenemos: \[E(\bar{a};\bar{v})=\frac{f(\bar{a}+\bar{v})-f(\bar{a})-T_{\bar{a}}(\bar{v})}{||\bar{v}||},\] de donde se puede verificar que se cumple una definición si y sólo si se cumple la otra. Los detalles quedan como tarea moral.

Ejemplo. Consideremos la función $f(x,y)=(x^2y^2,xy)$ y tomemos el punto $a=(1,1)$. ¿Será $f$ diferenciable en $a$? Afirmamos que sí, que la función lineal $T_a(x,y)=(2x+2y, x+y)$ cumple con la definición de límite que se pide. Veamos esto en la primera versión de la definición. Tendríamos, usando $\bar{v}=(h,k)$, que

\begin{align*}
f((1,1)&+(h,k))-f(1,1)-T_a(h,k)\\
&=((h+1)^2(k+1)^2,(h+1)(k+1))-(1,1)-(2h+2k,h+k)\\
&=(h^2k^2+2h^2k+2hk^2+h^2+k^2+4hk,hk)
\end{align*}

Dividiendo entre $\sqrt{h^2+k^2}$ que es la norma de $v$, y haciendo manipulaciones algebraicas, se obtiene

$$\left(\frac{h^2k^2+2h^2k+2hk^2+h^2+k^2+4hk}{\sqrt{h^2+k^2}},\frac{hk}{\sqrt{h^2+k^2}}\right).$$

Por la desigualdad entre la media cuadrática y la media geométrica, $$\frac{|hk|}{\sqrt{h^2+k^2}}\leq \sqrt{\frac{|hk|}{2}},$$

de modo que cuando $(h,k)\to (0,0)$, la segunda coordenada del vector que nos interesa converge a cero. La primera coordenada también se puede ver que converge a cero: el primero, segundo, tercero y sexto sumandos se acotan de manera similar, pues tienen factores $h$ o $k$ adicionales. El cuarto y quinto sumando se acotan notando que $\frac{h^2+k^2}{\sqrt{h^2+k^2}}=\sqrt{h^2+k^2}$, que también converge a cero con $h$ y $k$. Los detalles quedan de tarea moral.

$\triangle$

Diferenciabilidad implica continuidad

En el caso de las funciones de una variable real teníamos claramente que diferenciabilidad implica continuidad. Como es de esperarse, lo mismo se cumple para campos vectoriales, ya que una función diferenciable es más «suave» que una continua.

Teorema. Supongamos $f:S\subseteq \mathbb{R}^n\to\mathbb{R}^m$ es un campo vectorial diferenciable en un punto $\bar{a}$ de $S$. Entonces $f$ es continuo en $\bar{a}$.

Demostración. Si $f$ es diferenciable en $\bar{a}$ entonces cumple con la ecuación \[f(\bar{a}+\bar{v})=f(\bar{a})+T_{\bar{a}}(\bar{v})+||\bar{v}||E(\bar{a};\bar{v})\] con $E(\bar{a};\bar{v})$ una función tal que $\lim_{\bar{v}\to \bar{0}} E(\bar{a}; \bar{v})=0$ (¿Por qué es válida esta última afirmación?). Por ello:

\begin{align*}
\lim\limits_{\bar{v}\to \bar{0}}f(\bar{a}+\bar{v})&=\lim\limits_{\bar{v}\to \bar{0}}\left( f(\bar{a})+T_{\bar{a}}(\bar{v})+||\bar{v}||E(\bar{a};\bar{v}) \right)\\
&= \lim\limits_{\bar{v}\to \bar{0}}f(\bar{a})+\lim\limits_{\bar{v}\to \bar{0}}T_{\bar{a}}(\bar{v})+\lim\limits_{\bar{v}\to \bar{0}}||\bar{v}||E(\bar{a};\bar{v}).
\end{align*}

El primer sumando no depende de $\bar{v}$, así que es $f(\bar{a})$. El segundo se va a cero pues las transformaciones lineales son continuas. Finalmente, el tercer sumando se va a cero por lo que sabemos de $E(\bar{a},\bar{v})$. Así, $\lim\limits_{\bar{v}\to \bar{0}}f(\bar{a}+\bar{v})=f(\bar{a})$. Por lo tanto $f$ es continua.

$\square$.

Derivadas direccionales y derivadas parciales

Si bien tenemos dos definiciones de diferenciabilidad, aún no tenemos una manera muy práctica de encontrar o describir a la transformación lineal $T_{\bar{a}}$, que es la mejor aproximación lineal. En el ejemplo después de nuestra definición, nos dieron la transformación y funcionó, pero hasta donde hemos platicado, todavía es un misterio cómo obtenerla.

Nos gustaría tener una descripción más explícita pues queremos resolver problemas específicos como encontrar, por ejemplo, la ecuación de un hiperplano tangente. Este problema ya lo habíamos resuelto para campos escalares: si tenemos suficiente regularidad, entonces podemos construir la derivada a través de las derivadas parciales (que a su vez son derivadas direccionales). La teoría que ya desarrollamos prácticamente se puede copiar, considerando que ahora tendremos derivadas en cada función coordenada.

Lo primero que notaremos es que así como para campos escalares, para campos vectoriales también podemos definir la noción de derivadas direccionales. Pensemos en una función $f:S\subseteq \mathbb{R}^{n}\to \mathbb{R}^n$. Tomemos un vector fijo $\bar{a}\in Int=(S)$. Coloquemos una flecha que comience en $\bar{a}$ y tenga dirección dada por otro vector dado $\bar{y}\in \mathbb{R}^{n}$. Si multiplicamos a $\bar{y}$ por un escalar $h$ positivo, esto estira o encoge al vector $\bar{y}$, pero lo deja con la misma dirección. En el ejemplo de la Figura 3, al variar sobre todos los valores de $h$ se genera la recta $\bar{a}+h\bar{y}$. Si a los puntos de esta recta le aplicamos la función $f$, se obtiene un cierto lugar geométrico $$f(\bar{a}+h\bar{y})=(f_1(\bar{a}+h\bar{y}),\ldots,f_m(\bar{a}+h\bar{y})),$$ conforme se varían los valores de $h$. Lo que definiremos como derivada direccional nos permitirá hablar de un espacio afín tangente de dimensión $m$ a este lugar geométrico en el punto $f(\bar{a})$.

Figura 3

A continuación tenemos nuestra definición de derivada direccional para campos vectoriales.

Definición. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ un campo vectorial. Tomemos $\bar{a}\in Int(S)$, $\bar{y}\in \mathbb{R}^{n}$. Definimos la derivada direccional de $f$ en $\bar{a}$ en la dirección $\bar{y}$ como: \[ f'(\bar{a};\bar{y})=\lim\limits_{h\to 0}\frac{f(\bar{a}+h\bar{y})-f(\bar{a})}{h}, \] siempre y cuando el límite exista.

Notemos que $f'(\bar{a};\bar{y})$ es un vector de $\mathbb{R}^{m}$.

En los campos escalares teníamos derivadas parciales. En este caso también las tenemos y describen a las derivadas direccionales en el mismo sentido que en el caso escalar. Para formalizar las cosas, damos la definición a continuación.

Definición. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ un campo vectorial. Tomemos $\bar{a}\in Int(S)$, $\bar{y}\in \mathbb{R}^{n}$. Definimos la derivada direccional de $f$ en la coordenada $x_i$ en $a$ como la derivada parcial $f'(\bar{a};\hat{e}_i)$, donde $\hat{e}_i$ es el $i$-ésimo vector de la base canónica, siempre y cuando esta exista.

Como en el caso de los campos escalares, las derivadas direccionales pueden entenderse en términos de las derivadas parciales bajo suficiente regularidad. Tomemos $\hat{e}_1,\ldots,\hat{e}_n$ la base canónica de $\mathbb{R}^n$. Tomemos $f:S\subseteq \mathbb{R}^n\to \mathbb{R}^m$. Pensemos que todas las derivadas parciales de $f$ existen en un punto dado $\bar{a}$ y que son continuas. Expresemos a $\bar{y}$ como $\bar{y}=\alpha_1\hat{e}_1+\alpha_2\hat{e}_2+\ldots+\alpha_n\hat{e}_n$ con $\hat{e}_1,\ldots,\hat{e}_n$ la base canónica de $\mathbb{R}^n$. En esta entrada discutiremos hacia el final que bajo estas condiciones tendremos que $f'(\bar{a};\bar{y})$ existe y de hecho que $$f'(\bar{a};\bar{y})=\sum_{i=1}^n \alpha_i f'(\bar{a};\bar{e}_i).$$

El tener derivadas parciales continuas resultará una hipótesis muy fuerte y de hecho implicará todavía más que la existencia de derivadas direccionales. De hecho, como en el caso de campos escalares, esta hipótesis implicará diferenciabilidad. Antes de discutir esto, veremos en la siguiente sección qué pasa componente a componente.

Si las derivadas parciales no son continuas, no deberíamos esperar que las derivadas direccionales existan: ¡hay muchas posibles direcciones y sólo sabemos que pasa en dos de ellas! Como tarea moral, puedes pensar en un contraejemplo de un campo escalar $f:\mathbb{R}^2\to \mathbb{R}^2$ con derivadas parciales en cierto punto $\bar{a}$, pero sin alguna (o algunas) derivadas direccionales en $\bar{a}$.

Derivadas por componente

Las derivadas direccionales pueden entenderse mediante las derivadas parciales, pero también, como en el caso de las trayectorias, pueden entenderse mediante las derivadas por componente. Para pensar en ello, tomemos $\hat{e}_1,\ldots,\hat{e}_m$ la base canónica de $\mathbb{R}^m$. Tomemos $f:S\subseteq \mathbb{R}^n\to \mathbb{R}^m$ con funciones coordenadas $f(\bar{x})=\left( f_{1}(\bar{x}),\dots ,f_{m}(\bar{x})\right)$. Pensemos que las derivadas direccionales de $f_1,\ldots, f_m$ en $\bar{a}$ en la dirección $\bar{y}$ existen.

Tenemos entonces:

\begin{align*} \lim\limits_{h\to 0}\frac{f(\bar{a}+h\bar{y})-f(\bar{a})}{h} &=\lim\limits_{h\to 0}\frac{\left( f_{1}(\bar{a}+h\bar{y}),\dots ,f_{m}(\bar{a}+h\bar{y})\right) -\left( f_{1}(\bar{a}),\dots ,f_{m}(\bar{a})\right)}{h}\\ &=\lim\limits_{h\to 0}\left( \frac{f_{1}(\bar{a}+h\bar{y})-f_{1}(\bar{a})}{h},\dots ,\frac{f_{m}(\bar{a}+h\bar{y})-f_{m}(\bar{a})}{h}\right)\\ &=\lim\limits_{h\to 0}\sum_{i=1}^{m}\frac{f_{i}(\bar{a}+h\bar{y})-f_{i}(\bar{a})}{h}{\hat{e}_{i}}\\
&=\sum_{i=1}^{m}\lim\limits_{h\to 0}\frac{f_{i}(\bar{a}+h\bar{y})-f_{i}(\bar{a})}{h}{\hat{e}_{i}}\\ &=\sum_{i=1}^{m}f_{i}'(\bar{a};\bar{y}){\hat{e}_{i}}. \end{align*}

En la última igualdad estamos usando la suposición de que las derivadas existen componente a componente. Como mostramos que el límite planteado inicialmente existe, obtenemos entonces que
\begin{equation} \label{eq:porcomponente} f'(\bar{a};\bar{y})=\sum_{i=1}^{m}f_{i}'(\bar{a};\bar{y}){\hat{e}_{i}} .\end{equation}

Lo que tenemos aquí es que la derivada direccional de $f$ en $\bar{a}$ en dirección de $\bar{y}$ es la suma vectorial de cada vector de la base escalado por la derivada direccional del campo escalar $f_{i}$ en $\bar{a}$ con respecto a la dirección de $\bar{y}$.

Diferenciabilidad implica derivadas direccionales

La noción de diferenciabilidad que dimos implica la diferenciabilidad de cada una de las funciones componente $f_i$ de una función $f:\mathbb{R}^n\to \mathbb{R}^m$. Es decir, si el campo vectorial es diferenciable, entonces cada uno de los campos escalares $f_1,\ldots,f_m$ componentes son también diferenciables, pues el límite $$\lim_{\bar{v}\to \bar{0}}\frac{||f(\bar{a}+\bar{v})-f(\bar{a})-T_{\bar{a}}(\bar{v})||}{||\bar{v}||}=0$$ se cumple, y por lo tanto se cumple componente a componente. En el caso de $T_{\bar{a}}$ el $i$-ésimo componente es precisamente hacer el producto interior del $i$-ésimo renglon de la matriz que representa a $T_{\bar{a}}$ con $\bar{v}$, y entonces la derivada $\triangledown f_i(\bar{a})$ del campo escalar $f_i$ está dada precisamente por dicho $i$-ésimo renglón.

A su vez, sabemos que si un campo escalar es diferenciable, entonces existen todas las derivadas parciales. Por lo que hemos platicado en unidades anteriores, si $\bar{y}\in \mathbb{R}^{n}$ se escribe en la base canónica como $\bar{y}=\sum_{j=1}^{n}y_{j}{\hat{e}_{j}}$, al aplicar $\triangledown f_i(\bar{a})$ obtenemos

\begin{align*}
\triangledown f_i(\bar{a})(\bar{y})&=\sum_{j=1}^n y_j\triangledown f_i(\bar{a})(\hat{e}_j)\\
&=\sum_{j=1}^n y_j \frac{\partial f_i}{\partial x_j}(\bar{a}),\\
\end{align*}

lo cual abreviamos como

$$f_i'(\bar{a};\bar{y})=\left(\frac{\partial f_i}{\partial x_1}(\bar{a}), \ldots, \frac{\partial f_i}{\partial x_n}(\bar{a})\right) \cdot \bar{y}.$$

Usando esta igualdad para cada $i$ y sustituyendo la ecuación \eqref{eq:porcomponente} que obtuvimos al analizar componente por componente, obtenemos entonces que

$$f^{\prime}(\bar{a};\bar{y})=\sum_{i=1}^m \left(\left(\frac{\partial f_i}{\partial x_1}(\bar{a}), \ldots, \frac{\partial f_i}{\partial x_n}(\bar{a})\right) \cdot \bar{y}\right)\hat{e}_i.$$

¡Pero esto se puede denotar de manera mucho más compacta mediante un producto matricial! Reflexiona un poco por qué la expresión anterior dice exactamente lo mismo que la siguiente:

$$f'(\bar{a};\bar{y})= \begin{pmatrix} \frac{\partial f_{1}}{\partial y_{1}}(\bar{a}) & \dots & \frac{\partial f_{1}}{\partial y_{n}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}\begin{pmatrix} y_{1} \\ \vdots \\ y_{n} \end{pmatrix}.$$

Como tarea moral, tendrás que verificar que en un campo vectorial diferenciable en $\bar{a}$ se debe cumplir que $f'(\bar{a};\bar{y})=T_{\bar{a}}(\bar{y})$. Por lo discutido, debe pasar entonces para cada $y$ que \[ T_{\bar{a}}(\bar{y})=\begin{pmatrix} \frac{\partial f_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}\begin{pmatrix} y_{1} \\ \vdots \\ y_{n} \end{pmatrix}.\]

Esto precisamente nos está diciendo que si $f$ es diferenciable en $a$, entonces sus derivadas parciales deben existir y se debe cumplir que la forma matricial de $T_{\bar{a}}$ en las bases canónicas de $\mathbb{R}^n$ y $\mathbb{R}^m$ debe ser \begin{equation}\label{eq:jacobiana}\begin{pmatrix} \frac{\partial f_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}.\end{equation}

Matriz jacobiana

Toda la discusión anterior nos lleva a lo siguiente.

Definición. Dado un campo vectorial $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ diferenciable en un punto $\bar{a}\in Int(S)$ con derivada $T_{\bar{a}}$, a la matriz que representa a $T_{\bar{a}}$ en las bases canónicas la denotamos por $Df(\bar{a})$ y le llamamos la matriz jacobiana de $f$ en $\bar{a}$.

Por lo discutido en la sección anterior,

$$Df(\bar{a})=\begin{pmatrix} \frac{\partial f_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}.$$

Escribiremos $Df(\bar{a})(\bar{x})$ para referirnos al producto de la matriz $Df(\bar{a})$ con el vector (columna) $\bar{x}$, que precisamente coincide con $T_{\bar{a}}(\bar{x})$. Así, bajo la hipótesis de diferenciabilidad, hemos recuperado entonces lo que hace $T_{\bar{a}}$ como una multiplicación matricial, donde la matriz tiene como elementos a las derivadas parciales de las funciones coordenada en el punto $\bar{a}$.

Ejemplos de diferenciabilidad en campos vectoriales

Con todo lo discutido hasta ahora, obtenemos un método para obtener la derivada para campos vectoriales, lo que nos permitirá, por ejemplo, encontrar la transformación lineal de forma explícita y encontrar hiperplanos tangentes.

Ejemplo. Consideremos $f(x,y)=(x^{2},xy,y^{2}).$ Calculemos su diferencial en el punto $(1,-1)$. Las funciones coordenada son

\begin{align*}
f_{1}(x,y)&=x^{2}\\
f_{2}(x,y)&=xy\\
f_{3}(x,y)&=y^{2},
\end{align*}

de donde tenemos: \[ \frac{\partial f_{1}}{\partial x}(1,-1)=\left. 2x\right|_{_{(1,-1)}}=2;\hspace{3cm} \frac{\partial f_{1}}{\partial y}(1,-1)=0;\hspace{3cm}\frac{\partial f_{2}}{\partial x}(1,-1)=\left. y\right|_{_{(1,-1)}}=-1;\] \[ \frac{\partial f_{2}}{\partial y}(1,-1)=\left. x\right|_{_{(1,-1)}}=1;\hspace{3cm}\frac{\partial f_{3}}{\partial x}(1,-1)=0;\hspace{3cm}\frac{\partial f_{3}}{\partial y}(1,-1)=\left. 2y\right|_{_{(1,-1)}}=-2.\] Así \[ Df(1,-1)=\begin{pmatrix} \frac{\partial f_{1}}{\partial x}(1,-1) & \frac{\partial f_{1}}{\partial y}(1,-1) \\ \frac{\partial f_{2}}{\partial x}(1,-1) & \frac{\partial f_{2}}{\partial y}(1,-1) \\ \frac{\partial f_{3}}{\partial x}(1,-1) & \frac{\partial f_{3}}{\partial y}(1,-1) \end{pmatrix}= \begin{pmatrix} 2 & 0 \\ -1 & 1 \\ 0 & -2 \end{pmatrix}.\]

$\triangle$

Ejemplo. Ahora obtengamos el plano tangente a una superficie dada en un punto dado. Sea $\mathcal{S}$ la superficie de $\mathbb{R}^{3}$ descrita por la imagen de la función $f(x,y)=(x,y,xy^{2})$. Vamos a determinar el plano tangente a dicha superficie en el punto $(1,1,1)$. Comencemos calculando $Df(1,1)$. En primer lugar calculemos las parciales: \[ \frac{\partial f_{1}}{\partial x}(1,1)=1;\hspace{3cm}\frac{\partial f_{1}}{\partial y}(1,1)=0;\hspace{3cm}\frac{\partial f_{2}}{\partial x}(1,1)=0 \] \[ \frac{\partial f_{2}}{\partial y}(1,1)=1;\hspace{3cm}\frac{\partial f_{3}}{\partial y}(1,1)=1;\hspace{3cm}\frac{\partial f_{3}}{\partial y}(1,1)=2.\]

Por lo tanto \[ Df(1,1)=\begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 2 \end{pmatrix}.\]

Esta transformación manda al punto $(x,y)$ del plano $\mathbb{R}^2$ al punto\[ \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 2 \end{pmatrix}\begin{pmatrix} x \\ y \end{pmatrix}=\begin{pmatrix} x \\ y \\ x+2y \end{pmatrix}.\]

De modo que el plano centrado en el origen es el conjunto $$H=\{(x,y,x+2y)\in \mathbb{R}^{3}|(x,y)\in \mathbb{R}^{2}\}.$$

Pero este plano debemos todavía trasladarlo por el vector $(1,1,1)$ para que pase por el punto $f(1,1)$. Concluimos entonces que el plano tangente buscado es el conjunto

$$\{(x+1,y+1,x+2y+1)\in \mathbb{R}^{3}|(x,y)\in \mathbb{R}^{2}\}.$$

En la Figura 4 tenemos la en rojo la imagen del campo vectorial de este ejemplo y en verde la del plano tangente, el punto negro es el punto $(1,1,1)$.

Figura 4

$\triangle$

¿Y derivadas parciales implica diferenciabilidad?

Cuando un campo vectorial es diferenciable, existen todas las derivadas parciales de todos sus campos escalares coordenados. El regreso no es cierto. Sin embargo, sí se vale bajo una condición adicional de regularidad.

Definición. Diremos que un campo vectorial $f:S\subseteq \mathbb{R}^n\to \mathbb{R}^m$ es de clase $C^1$ (o simplemente es $C^1$) en un punto $\bar{a}\in S$ si todas las derivadas parciales de todas las funciones componentes de $f$ existen y son continuas en $\bar{a}$. Definimos de manera análoga lo que significa que $f$ sea de clase $C^1$ en todo $S$.

Teorema. Si $f:S\subseteq \mathbb{R}^n\to \mathbb{R}^m$ es un campo vectorial, $\bar{a}\in S$ y $f$ es $C^1$ en $\bar{a}$, entonces $f$ es diferenciable y su derivada $T_a$ tiene como forma matricial a la matriz jacobiana \eqref{eq:jacobiana}.

La prueba de este resultado se hace coordenada a coordenada, aplicando en cada una de ellas el teorema de diferenciabilidad y derivadas parciales para campos escalares que demostramos en la entrada del teorema del valor medio para campos escalares.

Más adelante

En esta entrada introdujimos el concepto de diferenciabilidad, de derivadas parciales, direccionales y por componente. Además, mostramos que cuando una función es diferenciable, entonces su derivada tiene una forma matricial muy sencilla, dada por las derivadas parciales de las componentes. Esto es nuestra primera señal de que las derivadas y las matrices están muy relacionadas entre sí. Lo que veremos en la siguiente entrada es que esta conexión se sigue dando, y de hecho nos permitirá enunciar de manera muy elegante la regla de la cadena para campos vectoriales: ¡será una multiplicación de matrices!

Después de entender mejor la diferenciabilidad, presentaremos y demostraremos teoremas clásicos e importantes de campos vectoriales: el teorema de la función inversa, y el teorema de la función implícita.

Tarea moral

  1. Completa los detalles faltantes del primer ejemplo que dimos de diferenciabilidad.
  2. Calcula la matriz jacobiana de la función $g(x,y,z)=(xz,xy,x^{2}y^{2}z^{2})$. Úsala para encontrar la ecuación del espacio tangente a la gráfica en el punto $g(2,1,0)$.
  3. Halla el campo vectorial cuya imagen es el plano tangente a la superficie dada por la ecuación $F(x,y)=x^{2}y^{2}+1$ en el punto $(1,1)$. Como ayuda al graficar $F$ en $\mathbb{R}^{3}$ nos dibuja la misma superficie que obtenemos de la imagen del campo vectorial $f(x,y)=(x,y,x^{2}y^{2}+1)$ que esta contenida en $\mathbb{R}^{3}$.
  4. Verifica que en efecto las dos definiciones de diferenciabilidad que dimos son equivalentes.
  5. Demuestra que si las parciales de cada componente de un campo vectorial existen, y son continuas, entonces la función es diferenciable. Tendrás que seguir la sugerencia dada en la última sección. Después, justifica la igualdad que dimos que escribe a las derivadas direccionales en términos de las parciales.
  6. Explica a detalle por qué la expresión a la que llegamos para $f^{\prime}(\bar{a};\bar{y})$ en efecto se puede pensar como el producto matricial mencionado.
  7. Encuentra un ejemplo de campo vectorial $f:\mathbb{R}^2\to \mathbb{R}^2$ en donde las derivadas parciales existen en algún punto $\bar{a}$, pero no todas las derivadas direccionales existen.

Entradas relacionadas

Teoría de los Conjuntos I: Buenos órdenes para cualquier conjunto

Por Gabriela Hernández Aguilar

Introducción

En esta entrada usaremos lo que aprendimos en la entrada anterior sobre el lema de Zorn para demostrar que cualquier conjunto no vacío puede ser bien ordenado.

Ordenando buenos órdenes de subconjuntos

En esta entrada demostraremos que cualquier conjunto no vacío $X$ tiene un buen orden. Si $a\in X$, entonces $(a,a)$ es un buen orden para $\{a\}\subseteq X$, así que podemos darle un buen orden a un elemento de $X$. La intuición de nuestra prueba es que podemos ir «agrandando» un buen orden para «pocos elementos» de $X$ hasta llegar a ordenar todo $X$. Sin embargo, no podemos hacer esto paso a paso. Tendremos que hacerlo de golpe usando el lema de Zorn. Para ello, daremos una noción de cuándo «un buen orden ordena más elementos de $X$ que otro y lo extiende». Nuestro resultado se obtendrá aplicando el lema de Zorn a esta noción. Comencemos con formalizarla.

Lema. Sea $X$ un conjunto y $\mathcal{B}$ la familia de todos los pares ordenados $(A,R)$ donde $A$ es un subconjunto de $X$ y $R$ es un buen orden para $A$. Definimos en $\mathcal{B}$ la relación $\leq$ como sigue: dados $(A,R),(B,R’)\in\mathcal{B}$ diremos que $(A,R)\leq(B,R’)$ si y sólo si $A\subseteq B$, $R\subseteq R’$ y para todo $x\in A$ y $y\in B\setminus A$ se cumple que $(x,y)\in R’$. Entonces, $\leq$ es una relación de orden parcial en $\mathcal{B}$.

Demostración.

Verifiquemos primero la reflexividad. Sea $(A,R)\in\mathcal{B}$. Luego, $A\subseteq A$, $R\subseteq R$ y, por vacuidad, para todo $x\in A$ y $y\in A\setminus A$ se tiene que $(x,y)\in R$, lo que muestra que $(A,R)\leq(A,R)$. Por tanto, $\leq$ es una relación reflexiva.

Verifiquemos ahora la antisimetría. Si $(A,R)\leq (B,R’)$ y $(B,R’)\leq(A,R)$, entonces, como consecuencia de la definición de $\leq$ tenemos que $A\subseteq B$, $R\subseteq R’$ y para todo $x\in A$ y $y\in B\setminus A$ se tiene que $(x,y)\in R’$; pero también, $B\subseteq A$, $R’\subseteq R$ y para todo $x\in B$ y $y\in A\setminus B$ se tiene que $(x,y)\in R$. En particular tenemos que $A\subseteq B$, $B\subseteq A$, $R\subseteq R’$ y $R’\subseteq R$, lo cual implica que $A=B$ y $R=R’$. Por tanto, $(A,R)=(B,R’)$, lo que muestra que $\leq$ es antisimétrica.

Por último mostraremos que la relación $\leq$ es transitiva. Sean $(A,R_0),(B,R_1),(C,R_2)\in\mathcal{B}$ elementos tales que $(A,R_0)\leq(B,R_1)$ y $(B,R_1)\leq(C,R_2)$. Luego, por definición de la relación $\leq$ tenemos que, $A\subseteq B$, $R_0\subseteq R_1$ y para todo $x\in A$ y $y\in B\setminus A$ se cumple que $(x,y)\in R_1$; asimismo, $B\subseteq C$, $R_1\subseteq R_2$ y para todo $x\in B$ y $y\in C\setminus B$ se cumple que $(x,y)\in R_2$. Así, como $A\subseteq B$ y $B\subseteq C$, entonces $A\subseteq C$ y, también, como $R_0\subseteq R_1$ y $R_1\subseteq R_2$, entonces $R_0\subseteq R_2$. Ahora, sean $x\in A$ y $y\in C\setminus A$ cualesquiera elementos. Si $y\in B$, entonces $x\in A$ y $y\in B\setminus A$, por lo que $(x,y)\in R_1$ y, por ende, $(x,y)\in R_2$. Si $y\notin B$, entonces $y\in C\setminus B$ y dado que $x\in A\subseteq B$, entonces $(x,y)\in R_2$. En cualquier caso $(x,y)\in R_2$, lo que demuestra que $(A,R_1)\leq(C,R_2)$.

Por lo tanto $\leq$ es una relación de orden en $\mathcal{B}$.

$\square$

Ya tenemos el conjunto parcialmente ordenado $(\mathcal{B},\leq)$ al que queremos aplicar el lema de Zorn. Pero tenemos que verificar una hipótesis importante: que cada cadena tiene cota superior. Esto lo hacemos en el siguiente lema.

Lema. Sea $X$ un conjunto y $\mathcal{B}$ y $\leq$ definidos como en el lema anterior. Entonces, en $(\mathcal{B}, \leq)$ toda cadena tiene una cota superior.

Demostración.

Sea $\mathcal{C}$ una cadena en $\mathcal{B}$. Definamos $f:\mathcal{C}\to\mathcal{P}(X)$ como sigue: si $(A,R)\in\mathcal{C}$, con $A\subseteq X$ y $R$ un buen orden en $A$, entonces $f((A,R))=A$. Ahora, notemos que si $A\subseteq X$ y $R$ es un buen orden en $A$, entonces $R\subseteq A\times A\subseteq X\times X$, es decir, $R$ es también una relación en $X$. Teniendo en cuenta esto definamos $g:\mathcal{C}\to\mathcal{P}(X\times X)$ como sigue: si $(A,R)\in\mathcal{C}$, con $A\subseteq X$ y $R$ un buen orden en $A$, entonces $g((A,R))=R$. Sean $Y_1:=f[\mathcal{C}]$ y $Y_2:=g[\mathcal{C}]$ y definamos $\mathcal{A}=\bigcup Y_1$ y $\mathcal{R}=\bigcup Y_2$.

Lo que haremos será probar que $\mathcal{A}$ es un subconjunto de $X$ y que $\mathcal{R}$ es un buen orden para $\mathcal{A}$, con lo cual tendríamos que $(\mathcal{A},\mathcal{R})\in\mathcal{B}$.

Primero, como $f((A,R))=A\subseteq X$ para cualquier $(A,R)\in\mathcal{C}$, entonces $Y_1=f[\mathcal{C}]$ es una familia de subconjuntos de $X$ y, por tanto, $\mathcal{A}=\bigcup Y_1$ es un subconjunto de $X$. Ahora, veamos que $\mathcal{R}$ es un buen orden en $\mathcal{A}$.

Lo primero que tenemos que mostrar es que $\mathcal{R}$ es efectivamente una relación en $\mathcal{A}$, es decir, que $\mathcal{R}$ es un subconjunto de $\mathcal{A}\times\mathcal{A}$. Sea $u\in\mathcal{R}$ un elemento arbitrario. Luego, $u\in g((A,R))=R$ para algún $(A,R)\in\mathcal{C}$. Dado que $u\in R$ y $R\subseteq A\times A$, entonces $u\in A\times A$. Además, como $(A,R)\in\mathcal{C}$, entonces $A=f((A,R))\in f[\mathcal{C}]$ y, en consecuencia, $A\subseteq\bigcup f[\mathcal{C}]=\mathcal{A}$, por lo que $A\times A\subseteq\mathcal{A}\times\mathcal{A}$. De este modo, como $u\in A\times A$ se sigue que $u\in\mathcal{A}\times\mathcal{A}$. Esto demuestra que $\mathcal{R}\subseteq\mathcal{A}\times\mathcal{A}$, es decir, $\mathcal{R}$ es una relación en $\mathcal{A}$.

Ahora veamos que $\mathcal{R}$ es una relación de orden en $\mathcal{A}$.

Sea $x\in\mathcal{A}$. Luego, $x\in f((A,R))=A$ para algún $(A,R)\in\mathcal{C}$. Como $R$ es un buen orden en $A$, entonces $(x,x)\in R$ y, dado que $R\subseteq\mathcal{R}$, se sigue que $(x,x)\in\mathcal{R}$. Esto prueba que $\mathcal{R}$ es una relación reflexiva.

Ahora, sean $x,y\in\mathcal{A}$ elementos tales que $(x,y)\in\mathcal{R}$ y $(y,x)\in\mathcal{R}$. Luego, $(x,y)\in g((A,R))=R$ y $(y,x)=g((B,R’))=R’$ para algunos $(A,R),(B,R’)\in\mathcal{C}$. Dado que $\mathcal{C}$ es una cadena, entonces $(A,R)\leq(B,R’)$ o $(B,R’)\leq(A,R)$, lo cual implica que $R\subseteq R’$ o $R’\subseteq R$. De modo que $(x,y),(y,x)\in R$ o $(x,y),(y,x)\in R’$. En cualquier caso podemos concluir que $x=y$ ya que tanto $R$ como $R’$ son relaciones de orden. Esto prueba que $\mathcal{R}$ es una relación antisimétrica.

Supongamos que $x,y,z\in\mathcal{A}$ son cualesquiera elementos tales que $(x,y),(y,z)\in\mathcal{R}$. Luego, $(x,y)\in g((A,R))=R$ y $(y,z)\in g((B,R’))=R’$ para algunos $(A,R),(B,R’)\in\mathcal{C}$. Ahora, como $\mathcal{C}$ es una cadena, entonces $(A,R)\leq(B,R’)$ o $(B,R’)\leq(A,R)$, por lo que $R\subseteq R’$ o $R’\subseteq R$. Así, $(x,y),(y,z)\in R$ o $(x,y),(y,z)\in R’$ y, por tanto, $(x,z)\in R$ o $(x,z)\in R’$ pues tanto $R$ como $R’$ son relaciones de orden. En cualquier caso $(x,z)\in\mathcal{R}$, ya que $R,R’\subseteq\mathcal{R}$. Esto prueba que $\mathcal{R}$ es una relación transitiva.

Por lo tanto, $\mathcal{R}$ es una relación de orden en $\mathcal{A}$.

Resta probar que $\mathcal{R}$ es un buen orden en $\mathcal{A}$. Sea pues $D\subseteq\mathcal{A}$ un conjunto no vacío. Luego, como $D\subseteq\mathcal{A}$ y $D\not=\emptyset$, entonces $D\cap f((A,R))=D\cap A\not=\emptyset$ para algún $(A,R)\in\mathcal{C}$. Luego, como $D\cap A\subseteq A$ no vacío, entonces existe el mínimo de $D\cap A$ con respecto a la relación $R$, ya que $R$ es un buen orden en $A$, es decir, existe $a_0\in D\cap A$ tal que $(a_0,x)\in R$ para todo $x\in D\cap A$. Veamos que $a_0$ es el mínimo de $D$ con respecto a la relación $\mathcal{R}$. Sea $x\in D$ cualquier elemento. Si $x\in A$, entonces $(a_0,x)\in R\subseteq\mathcal{R}$. Si ahora $x\notin A$, entonces, como $D\subseteq\mathcal{A}$, existe $(B,R’)\in\mathcal{C}\setminus\set{(A,R)}$ tal que $x\in f((B,R’))=B$. Luego, como $\mathcal{C}$ es una cadena se tiene que $(A,R)\leq(B,R’)$ o $(B,R’)\leq(A,R)$, sin embargo, no puede ocurrir que $(B,R’)\leq(A,R)$ pues de ser así tendríamos que $B\subseteq A$ y, por ende, $x\in A$ lo cual asumimos no ocurre. Así pues, necesariamente, $(A,R)\leq(B,R’)$ y, por consiguiente, $A\subseteq B$, $R\subseteq R’$ y para cualesquiera $a\in A$ y $b\in B\setminus A$ se tiene $(a,b)\in R’$. Debido a que $a_0\in A$ y $x\in B\setminus A$, entonces $(a_0,x)\in R’\subseteq\mathcal{R}$. Por lo tanto, para todo $x\in D$, $(a_0,x)\in\mathcal{R}$, lo que demuestra que $a_0$ es el mínimo de $D$ en la relación $\mathcal{R}$. Consecuentemente, $\mathcal{R}$ es un buen orden para $\mathcal{A}$.

Los argumentos anteriores nos permiten concluir que $(\mathcal{A},\mathcal{R})\in\mathcal{B}$, pues $\mathcal{A}\subseteq X$ y $\mathcal{R}$ es un buen orden para $\mathcal{A}$. Ahora, $(\mathcal{A},\mathcal{R})$ es una cota superior para $\mathcal{C}$. En efecto, si $(A,R)\in\mathcal{C}$ es cualquier elemento, entonces $A=f((A,R))\subseteq\bigcup f[\mathcal{C}]=\mathcal{A}$ y $R=g((A,R))\subseteq\bigcup g[\mathcal{C}]=\mathcal{R}$. Por último, si $x\in A$ y $y\in\mathcal{A}\setminus A$, entonces $y\in f((B,R’))=B$ para algún $(B,R’)\in\mathcal{C}$, pero dado que $\mathcal{C}$ es una cadena, entonces $(A,R)\leq(B,R’)$ o $(B,R’)\leq(A,R)$. Sin embargo, no puede ocurrir que $(B,R’)\leq(A,R)$ pues en ese caso tendríamos, en particular, que $B\subseteq A$ y por ende $y\in A$, lo que contradice la elección de $y$. Así que necesariamente, $(A,R)\leq(B,R’)$. Por consiguiente, $A\subseteq B$, $R\subseteq R’$ y para cualquier $a\in A$ y $b\in B\setminus A$, se tiene que $(a,b)\in R’$. En consecuencia, $(x,y)\in R’$ y como $R’\subseteq\mathcal{R}$, entonces $(x,y)\in\mathcal{R}$.

Por lo tanto, $A\subseteq\mathcal{A}$, $R\subseteq\mathcal{R}$ y para cualesquiera $x\in A$ y $y\in\mathcal{A}\setminus A$, $(x,y)\in\mathcal{R}$, es decir, $(A,R)\leq(\mathcal{A},\mathcal{R})$. Esto demuestra que $(\mathcal{A},\mathcal{R})$ es una cota superior para $\mathcal{C}$.

$\square$

El teorema del buen orden

Ya con los ingredientes anteriores, podemos enfocarnos en el resultado principal de esta entrada.

Teorema. (teorema del buen orden). Todo conjunto no vacío puede ser bien ordenado.

Demostración.

Sea $X$ un conjunto no vacío. Sea $\mathcal{B}$ el conjunto de todos los pares ordenados $(A,R)$ tales que $A\subseteq X$ y $R$ es un buen orden para $A$. Por uno de los lemas anteriores tenemos que $(\mathcal{B},\leq)$ es un conjunto ordenado, donde $\leq$ es la relación definida como $(A,R)\leq(B,R’)$ si y sólo si $A\subseteq B$, $R\subseteq R’$ y para todo $x\in A$ y $y\in B\setminus A$, $(x,y)\in R’$.

Antes de continuar veamos que $\mathcal{B}$ es no vacío. Como $X\not=\emptyset$, entonces existe $a\in X$. Luego, $R=\set{(a,a)}$ es un buen orden para $\set{a}$. Por tanto, $(\set{a},\set{(a,a)})\in\mathcal{B}$ y así $\mathcal{B}$ es no vacío.

Ahora, por el último lema probado, toda cadena en $\mathcal{B}$ está acotada superiormente y, como $\mathcal{B}$ es no vacío, podemos aplicar el lema de Kuratowski-Zorn y concluir que $\mathcal{B}$ tiene un elemento maximal. Sea $(A,R)$ elemento maximal de $\mathcal{B}$. Lo que probaremos es que $A=X$.

Si $X\not=A$, entonces existe $x\in X\setminus A$. Luego, definiendo $B=A\cup\set{x}$ y $R’=R\cup\set{(a,x):a\in A}\cup\set{(x,x)}$ tenemos que $R’$ es un buen orden para $B$. En efecto, primero probaremos que $R’$ es una relación de orden en $B$.

Si $u\in R’$, entonces $u\in R$ o $u\in\set{(a,x):a\in A}$ o $u=(x,x)$. Luego, como $A\subseteq B$ y $R\subseteq A\times A$, entonces $u\in A\times A\subseteq B\times B$ o $u=(a,x)\in A\times B\subseteq B\times B$ para algún $a\in A$ o $u=(x,x)\in B\times B$. En cualquier caso $u\in B\times B$ y, por tanto, $R’\subseteq B\times B$, lo que muestra que $R’$ es una relación en $B$.

Ahora, si $b\in B$, entonces $b\in A$ o $b=x$. Si $b\in A$, entonces $(b,b)\in R$ por ser $R$ una relación de orden en $A$ y, por tanto, $(b,b)\in R’$ pues $R\subseteq R’$. Si $b=x$, entonces $(b,b)\in R’$, por definición de $R’$. En cualquier caso se cumple que $(b,b)\in R’$, lo que muestra que $R’$ es una relación reflexiva.

Por otro lado, si $c,b\in B$ son tales que $(c,b)\in R’$ y $(b,c)\in R’$, entonces tenemos algunos casos:

Caso 1. $(c,b)\in R$ y $(b,c)\in R$. Luego, por ser $R$ una relación de orden se cumple que $R$ es antisimétrica, por lo que $c=b$.

Caso 2. $(c,b)\in R$ y $(b,c)\in\set{(a,x):a\in A}$. Luego, $(b,c)=(a,x)$ para algún $a\in A$ y, como $(c,b)\in R\subseteq A\times A$, entonces $(c,b)=(a_1,a_2)$ para algunos $a_1,a_2\in A$. De lo anterior se sigue que $c=a_1\in A$ pero también que $c=x\notin A$ y esto es una contradicción. Así el caso 2 no puede ocurrir.

Caso 3. $(c,b)\in R$ y $(b,c)\in\set{(x,x)}$. Este caso tampoco puede darse por las razones dadas en el caso 2.

Caso 4. $(c,b)\in\set{(a,x):a\in A}$ y $(b,c)\in\set{(a,x):a\in A}$. Luego, $(c,b)=(a_1,x)$ y $(b,c)=(a_2,x)$ para algunos $a_1,a_2\in A$. De esto se sigue que $c=a_1\in A$ y $c=x\notin A$ lo cual es una contradicción. Por lo tanto, el caso 5 tampoco pede darse.

Caso 5. $(c,b)\in\set{(a,x):a\in A}$ y $(b,c)\in\set{(x,x)}$. Luego, $(c,b)=(a_1,x)$ para algún $a_1\in A$ y $(c,b)=(x,x)$, por lo que $c=a_1\in A$ y $c=x\notin A$ lo cual es una contradicción. Por tanto, el caso 5 tampoco puede darse.

Caso 6. $(c,b)\in\set{(x,x)}$ y $(b,c)\in\set{(x,x)}$. En este caso se tiene que $b=x=c$.

Los 6 casos anteriores son las únicas posibilidades y, por tanto, concluimos que $b=c$. Esto muestra que $R’$ es una relación antisimétrica.

Ahora, sean $b,c,d\in B$ tales que $(b,c)\in R’$ y $(c,d)\in R’$. Luego, tenemos los siguientes casos:

Caso 1. $(b,c),(c,d)\in R$. En este caso se sigue que $(b,d)\in R\subseteq R’$ pues $R$ es transitiva.

Caso 2. $(b,c)\in R$ y $(c,d)\in\set{(a,x):a\in A}$. Luego, como $(b,c)\in R\subseteq A\times A$, entonces $b\in A$ y, por tanto, $(b,x)\in R’$. Ahora, como $(c,d)\in\set{(a,x):a\in A}$, entonces $d=x$ y, por tanto, $(b,d)\in R’$.

Caso 3. $(b,c)\in R$ y $(c,d)\in\set{(x,x)}$. Así como en el caso 2 se sigue que $(b,d)\in R’$.

Caso 4. $(b,c),(c,d)\in\set{(a,x):a\in A}$. En este caso se sigue que $c=d=x$ y, por tanto, $(b,c)=(b,d)\in R’$.

Caso 5. $(b,c)\in\set{(a,x):a\in A}$ y $(c,d)\in\set{(x,x)}$. Así como en el caso 3 se sigue que $c=d=x$ y, por tanto, que $(b,d)\in R’$.

Caso 6. $(b,c),(c,d)\in\set{(x,x)}$. Se sigue inmediatamente que $b=c=d=x$ y, por tanto, $(b,d)\in R’$.

Estos son los únicos casos posibles, pues no pueden ocurrir los siguientes casos:

Caso i. $(c,d)\in R$ y $(b,c)\in\set{(a,x):a\in A}$. En este caso se tendría que $c=x$ y que $c\in A$, lo cual no ocurre por la elección de $x$.

Caso ii. $(c,d)\in R$ y $(b,c)\in\set{(x,x)}$. Lo mismo que en el caso i.

Caso iii. $(c,d)\in\set{(a,x):a\in A}$ y $(b,c)\in\set{(x,x)}$. Lo mismo que en los casos i y ii.

En los únicos casos posibles se concluye que $(b,d)\in R’$, lo que muestra que $R’$ es una relación transitiva.

Por lo tanto $R’$ es una relación de orden en $B$. Ahora, sea $D\subseteq B$ no vacío. Si $D\cap A\not=\emptyset$, entonces $D\cap A$ tiene un elemento mínimo en $A$ respecto a la relación de orden $R$, es decir, existe $a_0\in D\cap A$ tal que $(a_0,a)\in R$ para todo $a\in D\cap A$. Luego, si $d\in D$ es cualquier elemento, entonces $d\in A$ o $d=x$. Si $d\in A$, entonces $(a_0,d)\in R\subseteq R’$ y, si $d=x$, entonces $(a_0,d)\in R’$ por definición de $R’$. Lo que demuestra que $a_0$ es el mínimo de $D$ con respecto a la relación de orden $R’$. Si ahora $D\cap A=\emptyset$, entonces, necesariamente, $D=\set{x}$ y, ciertamente, $D$ tiene mínimo, el cual es $x$. Por lo tanto, cualquier subconjunto no vacío de $B$ tiene elemento mínimo con respecto a la relación $R’$. Lo que muestra que $R’$ es un buen orden para $B$.

Luego, $(B,R’)\in\mathcal{B}$. Dado que $A\subseteq B$, $R\subseteq R’$ y para cualquier $a\in A$ y $b\in B\setminus A=\set{x}$ se tiene que $(a,b)\in R’$, se sigue que $(A,R)\leq(B,R’)$ y, sin embargo, $(A,R)\not=(B,R’)$, lo cual contradice la maximalidad de $(A,R)$ en $\mathcal{B}$.

Concluimos entonces que $A=X$ y, por tanto, $R$ es un buen orden para $X$. Por lo tanto, $X$ puede ser bien ordenado.

$\square$

Para culminar esta entrada, mostraremos que el teorema del buen orden implica el axioma de elección. La idea intuitiva es sencilla. Para un conjunto $X$, ¿cuál elemento elegimos de cada subconjunto no vacío de $X$? Pues damos un buen orden a $X$ y para cada subconjunto no vacío elegimos el mínimo.

Teorema. El teorema del buen orden implica el axioma de elección.

Demostración.

Sea $X$ un conjunto no vacío. Luego, por el teorema del buen orden, existe una relación $R$ en $X$ que es un buen orden en $X$. Definamos $e:\mathcal{P}(X)\setminus\set{\emptyset}\to X$ por medio de $e(B)=\min_R(B)$, donde $\min_R(B)$ denota al elemento mínimo del subconjunto no vacío $B$ de $A$ con respecto a la relación $R$. Dado que, por definición, el mínimo de un conjunto pertenece a dicho conjunto, concluimos que $e(B)\in B$ para todo $B\in\mathcal{P}(X)\setminus\set{\emptyset}$. Esto demuestra que $X$ tiene una función de elección.

$\square$

Resumen de últimas equivalencias

Podemos resumir la serie de resultados probados en esta entrada y la anterior mediante el siguiente teorema.

Teorema. Son equivalentes los siguientes resultados

  1. El axioma de elección.
  2. El lema de Tukey-Teichmüller.
  3. Principio maximal de Hausdorff.
  4. El lema de Kuratowski-Zorn.
  5. El teorema del buen orden.

Con esto damos por termnado esl estudio de algunas de las equivalencias más importantes del axioma de elección.

Tarea moral

  1. Sea $(X,\leq)$ un conjunto parcialmente ordenado en el que cualquier cadena tiene una cota superior. Muestra que para cada $a\in X$ existe un elemento $\leq-$maximal $x\in X$ tal que $a\leq x$.
  2. Sea $(L,\leq)$ un conjunto linealmente ordenado. Prueba que existe un conjunto $W\subseteq L$ tal que $\leq$ es un buen orden para $W$ y tal que para cada $x\in L$ existe $y\in W$ tal que $x\leq y$.
  3. Sea $X$ cualquier conjunto infinito. Prueba que $X$ puede ser bien ordenado de tal forma que $X$ no tenga máximo. Prueba también que $X$ puede ser bien ordenado de tal forma que tenga un máximo.

Más adelante…

En la siguiente y última entrada veremos una aplicación del axioma de elección relevante en álgebra lineal.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Cálculo Diferencial e Integral III: Teorema de la función implícita y demostración

Por Alejandro Antonio Estrada Franco

Introducción

En esta parte del curso estamos abordando los resultados principales de campos vectoriales y su diferenciabilidad. Hemos hablado de cómo la derivada de una composición se calcula con regla de la cadena. También, enunciamos el teorema de la función inversa, lo demostramos, y vimos un ejemplo de cómo se usa. Ahora pasaremos a otro de los resultados fundamentales en el tema: el teorema de la función implícita. Vamos a motivarlo a partir del problema de resolver sistemas de ecuaciones no lineales. Luego, lo enunciaremos formalmente y lo demostraremos. La discusión y los ejemplos los dejaremos para la siguiente entrada.

Una motivación: resolver sistemas de ecuaciones no lineales

Con lo que repasamos sobre sistemas de ecuaciones lineales, y con lo que se ve en un curso de Álgebra Lineal I, se puede entender completamente cómo resolver sistemas de eccuaciones lineales. Recordemos un poco de esto. Tomemos el siguiente sistema de ecuaciones lineales en las variables $x_1,\ldots,x_n$:

\begin{align*}
\left\{ \begin{matrix}
a_{11}x_1+a_{12}x_2+\ldots+a_{1n}x_n = b_1\\
a_{21}x_1+a_{22}x_2+\ldots+a_{2n}x_n = b_2\\
\vdots\\
a_{m1}x_1+a_{m2}x_2+\ldots+a_{mn}x_n = b_m.\\
\end{matrix} \right.
\end{align*}

Para resolverlo, se podría utilizar el proceso de reducción gaussiana. Tras hacer esto, podíamos clasificar a las variables en libres (que podían valer lo que sea) y pivote (que dependían afinmente de las libres). Esto daba todas las soluciones. Si, por decir algo, las variables pivote son $x_1,x_2,\ldots,x_m$ y las libre son $x_{m+1},\ldots,x_n$, entonces podemos reescribir lo anterior de la siguiente manera: «podemos despejar a las primeras en función de las segundas», algo así como

\begin{align*}
x_1 &= T_1(x_{m+1},\ldots,x_n)\\
x_2 &= T_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=T_m(x_{m+1},\ldots,x_n).
\end{align*}

Elegimos a $x_{m+1},\ldots,x_n$ como queramos. De ahí $x_1,\ldots,x_m$ quedan definidos afinmente con las $T_1,\ldots,T_m$. Y esto da todas las soluciones. Pero, ¿qué sucedería si tenemos un sistema de ecuaciones mucho más general?

Para plantear esto, imaginemos que ahora tenemos cualesquiera funciones $f_1,\ldots,f_m:\mathbb{R}^n\to \mathbb{R}$ y que queremos encontrar todas las soluciones $x_1,\ldots,x_n$ al siguiente sistema de ecuaciones:

\begin{equation}
\label{eq:sistemadificil}
\left\{ \begin{matrix}
f_{1}(x_{1},\dots ,x_{n})=0 \\
\vdots \\
f_{m}(x_{1},\dots ,x_{n})=0.
\end{matrix}\right.
\end{equation}

Esto es tan general como pudiéramos esperar. A la izquierda hay ceros, pero es porque si hubiera otras cosas, podríamos pasarlas a la izquierda para dejar ceros a la derecha.

Este sistema \eqref{eq:sistemadificil} parece imposible de resolver: no tenemos idea de quiénes son las funciones $f_1,\ldots, f_n$, no hay reducción gaussiana, no hay variables libres, etc. Pero imaginemos que el campo vectorial $(f_1,\ldots,f_m)$ es de clase $C^1$ alrededor de algún punto $\bar{v}_0=(x_{1}^{0},\dots,x_{n}^{0})$ en donde queremos despejar. Esto nos diría que cerca de $\bar{v}_0$ cada expresión $f_i(\bar{v})$ con $\bar{v}=(x_{1},\dots,x_{n})$ se parece muchísimo a su mejor aproximación lineal:

\[f_i(\bar{v}_0)+\triangledown f_i(\bar{v}_0)\bullet (\bar{v}-\bar{v}_0)\]

donde, tenemos:
\begin{align*}
f_i(\bar{v}_0)+\triangledown f_i(\bar{v}_0)\bullet (\bar{v}-\bar{v}_0)
&=f_i(\bar{v}_0)+\left(\frac{\partial f_i}{\partial x_1}(\bar{v}_0),\dots ,\frac{\partial f_i}{\partial x_n}(\bar{v}_0)\right)\bullet\left(x_1 -x_{1}^{0},\dots , x_n -x_{n}^{0}\right)\\ &=f_i(\bar{v}_0)+\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)(x_j -x_{j}^{0})\\ &=f_i(\bar{v}_0)+\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_j -\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_{j}^{0}\\ &=\triangledown f_i(\bar{v}_0)\bullet (\bar{v})+f_i(\bar{v}_0) -\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}} (\bar{v}_0)x_{j}^{0}\\ &=\triangledown f_i(\bar{v}_0)\bullet (\bar{v}) + \bar{b}_i,
\end{align*}

donde $\bar{b}_i=f_i(\bar{v}_0)-\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_{j}^0$. Pero entonces el sistema es prácticamente el mismo sistema que

\begin{equation}\label{eq:sistemafacil}\left \{\begin{matrix}\frac{\partial f_{1}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{1}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{1}\hspace{0.1cm}=\hspace{0.1cm}0 \\
\frac{\partial f_{2}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{2}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{2}\hspace{0.1cm}=\hspace{0.1cm}0 \\ \vdots & \vdots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{m}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{m}\hspace{0.1cm}=\hspace{0.1cm}0 \end{matrix}\right.\end{equation}

Esto se ve un poco complicado, pero cada $\frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_{0})x_{j}$ es simplemente un número real. ¡Cerquita de $\bar{v}_0$ el sistema de ecuaciones \eqref{eq:sistemadificil} es prácticamente un sistema lineal! Sería entonces de esperarse que las soluciones el sistema \eqref{eq:sistemadificil} original sean muy cercanas a las del sistema lineal \eqref{eq:sistemafacil} que sale y de nuevo recuperamos los trucos usuales: reducción gaussiana, variables libres, variables pivote, etc.

Pensando en que en el sistema \eqref{eq:sistemafacil} las variables pivote son $x_1,\ldots, x_m$ y las libres son $x_{m+1},\ldots,x_n$, entonces podemos encontrar transformaciones afines $T_1,\ldots,T_m:\mathbb{R}^n\to \mathbb{R}$ tales que las soluiones de \eqref{eq:sistemafacil} consisten en elegir $x_{m+1},\ldots,x_n$ arbitrariamente, y tomar

\begin{align*}
x_1 &= T_1(x_{m+1},\ldots,x_n)\\
x_2 &= T_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=T_m(x_{m+1},\ldots,x_n).
\end{align*}

Muy probablemente $(x_1,\ldots,x_n)$ no será una solución de \eqref{eq:sistemadificil}, pues son sistemas diferentes entre sí. Pero suena a que son tan tan cercanos, que con tantita maniobra podremos encontrar funciones $S_1,\ldots, S_m: \mathbb{R}^n\to \mathbb{R}$ tales que cualquier solución a \eqref{eq:sistemadificil} similarmente está dada por elegir $x_{m+1},\ldots, x_n$ arbitrariamente y tomar

\begin{align*}
x_1 &= S_1(x_{m+1},\ldots,x_n)\\
x_2 &= S_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=S_m(x_{m+1},\ldots,x_n).
\end{align*}

Gracias a que pudimos poner a todos los $x_1,\ldots x_m$ en función de los $x_{m+1},\ldots,x_n$, hemos logrado encontrar todas las soluciones a \eqref{eq:sistemadificil} cerca de $\bar{v}_0$. El teorema de la función inversa nos ayuda a volver precisas muchas de las cosas discutidas en esta sección.

Enunciado del teorema de la función implícita

Pensemos que tenemos algunas restricciones dadas por ecuaciones como las del sistema \eqref{eq:sistemadificil}. Lo que el teorema de la función implícita nos dirá es que bajo suficiente regularidad y algunas condiciones de invertibilidad, en una vecindad de un punto $\bar{v}_{0}$ las incógnitas $x_{1},\dots ,x_{m}$ se pueden poner en función de las incógnitas $x_{m+1},\dots ,x_{n}$, es decir, que se puede despejar como lo mencionamos al final de la sección anterior. El enunciado es el siguiente.

Teorema (de la función implícita). Sea $f:S\subseteq\mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^m$ un campo vectorial de clase $C^1$ en $S$ con funciones componentes $f_i: S\subseteq\mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}$, para $i=1,\ldots,m$.

Pensemos en el conjunto $A$ de soluciones $(y_1,\ldots,y_m,x_1,\ldots,x_l)$ del siguiente sistema de ecuaciones:

\begin{equation}
\label{eq:sistemaimplicita}
\left\{ \begin{matrix}
f_{1}(y_{1},\dots ,y_m,x_1,\ldots,x_l)=0 \\
\vdots \\
f_{m}(y_{1},\dots ,y_m,x_1,\ldots,x_l)=0.
\end{matrix}\right.
\end{equation}

Supongamos además que para el punto $$(\bar{y}_0,\bar{x}_0)=\left(y_{1}^{0},\dots ,y_{m}^{0},x_{1}^{0},\dots ,x_{l}^{0}\right)\in S\cup A$$ la matriz

\[ \begin{pmatrix} \frac{\partial f_{1}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{i}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) \end{pmatrix} \]

es invertible. Entonces existen abiertos $V\subset \mathbb{R}^{m}$ y $U\subset \mathbb{R}^l$ con $\bar{y}_0\in V$, $\bar{x}_0\in U$, para los cuales hay una única función $h:U\to V$ de clase $C^{1}$ en $V$, tal que $f(\bar{y},\bar{x})=\bar{0}$ si y sólo si $\bar{y}=h(\bar{x})$.

Sólo para aclarar algunas diferencias con lo discutido anteriormente, aquí ya estamos separando en lo que esperaremos que serán las variables libres $x_1,\ldots,x_m$ y las variables pivote $y_1,\ldots,y_l$. Estamos además estudiando el caso en el que tenemos tantas variables libres como ecuaciones, pues este caso es fácil de enunciar en términos de la invertibilidad de una matriz. El caso más general se trata con reducción gaussiana como platicamos en la sección anterior. La igualdad $\bar{y}=h(\bar{x})$ es lo que entendemos como «despejar» a los $y_i$’s en función de los $x_j$’s.

Demostración del teorema de la función implícita

Veamos la demostración del teorema.

Demostración. Definamos $F:S\subset \mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ como $F(\bar{y},\bar{x})=(f(\bar{y},\bar{x}),\bar{x})$. Dado que $f$ es de clase $C^1$, se tendrá que $F$ también (explica esto como tarea moral).

Notemos que

\begin{align*}
F(\bar{y}_{0},\bar{x}_{0})&=(f(\bar{y}_{0},\bar{x}_{0}),\bar{x}_{0})=(\bar{0},\bar{x}_0).\end{align*}

Por otro lado, notemos que la matriz jacobiana de $F$ en $(\bar{y}_0,\bar{x}_0)$ es

$$\begin{bmatrix} \frac{\partial f_{1}}{\partial \bar{y}_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{1}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) & \frac{\partial f_{1}}{\partial x_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{1}}{\partial x_{l}}(\bar{y}_{0},\bar{x}_{0}) \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) & \frac{\partial f_{m}}{\partial x_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{l}}(\bar{y}_{0},\bar{x}_{0}) \\ 0 & \dots & 0 & 1 & \dots & 0 \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ 0 & \dots & 0 & 0 & \dots & 1 \end{bmatrix}$$

esta matriz además es invertible (también tendrás que explicar ambas cosas de tarea moral).

La idea clave es que entonces podemos usar el teorema de la función inversa en $F$. Aplícandolo en este contexto, obtenemos que existe $\delta >0$ tal que $F$ es inyectiva en una bola $B_{\delta}(\bar{y}_{0},\bar{x}_{0})\subset S$. Nos dice también que $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$ es un conjunto abierto, y que $F ^{-1}:F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))\subset \mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ es de clase $C^{1}$ en $F(B_{\delta}(\bar{y}_{0},\bar{x}_{0}))$. También dice algo de quién es la derivada explícitamente, pero eso no lo necesitaremos por ahora (de tarea moral tendrás que pensar qué nos dice esto).

Como $F$ manda $(\bar{y}_0,\bar{x}_0)$ a $(\bar{0},\bar{x}_0)$ y $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$ es un abierto, entonces hay una bola abierta $W$ alrededor de $(\bar{0},\bar{x}_0)$ contenida en $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$. El conjunto $U$ que propondremos será el abierto que se obtiene al intersectar $W$ con el espacio en donde la coordenada correspondiente a $f(\bar{y},\bar{x})$ es cero. En otras palabras, $U$ es un abierto y consiste de $\bar{x}$ para los cuales existe un $\bar{y}$ tal que $F(\bar{y},\bar{x})=(\bar{0},\bar{x})$ (es decir, $f(\bar{y},\bar{x})=\bar{0}$).

Tomemos ahora un $\bar{x}\in U$. Afirmamos que hay sólo un $\bar{y}$ tal que $(\bar{y},\bar{x})\in B_{\delta}(\bar{y}_{0},\bar{x}_{0})$ y $f(\bar{y},\bar{x})=\bar{0}$. Si hubiera $\bar{y}$ y $\bar{y}’$ que satisfacen eso, tendríamos

$$F(\bar{y},\bar{x})=(f(\bar{y},\bar{x}),\bar{x})=(\bar{0},\bar{x})=(f(\bar{y}’,\bar{x}),\bar{x})=F(\bar{y}’,\bar{x}),$$

que por la inyectividad de $F$ implica $\bar{y}=\bar{y}’$. De hecho, dicho único $\bar{y}$ está en función de $F^{-1}$, que es de clase $C^1$ de modo que el conjunto de los $\bar{y}$ asignados a los $\bar{x}$ en $U$ es un abierto $V$.

Así, podemos definir $h:U\to V$ de la siguiente manera: $h(\bar{x})=\bar{y}$, donde $\bar{y}$ es el único elemento para el cual $f(\bar{y},\bar{x})=\bar{0}$ y $(\bar{y},\bar{x})\in B_{\delta}(\bar{y}_{0},\bar{x}_{0})$. De la discusión desarrollada, $h$ está bien definida y cumple con las propiedades buscadas.

Por último probemos que $h$ es de clase $C^{1}$ en $U$. Como $F^{-1}$ esta definida y, además es de clase $C^{1}$ sobre el conjunto $F(B_{\delta}(\bar{x}_{0},\bar{y}_{0}))$, si escribimos que $F^{-1}=\left( (F^{-1})_{1},\dots ,(F^{-1})_{m} \right)$, bastaría con demostrar:

\[ h(\bar{x})=\left( (F^{-1})_{1}(\bar{0},\bar{x}),\dots , (F^{-1})_{m}(\bar{0},\bar{x})\right) \]

para cada $\bar{x}\in V$. Esto se hace como sigue:

\begin{align*} (h(\bar{x}),\bar{x})&=F^{-1}(F(h(\bar{x}),\bar{x}))\\ &=F^{-1}(\bar{0},\bar{x}) \\ &=\left( (F^{-1})_{1}(\bar{0},\bar{x}),\dots ,(F^{-1})_{m}(\bar{0},\bar{x}),(F^{-1})_{m+1}(\bar{0},\bar{x}),\dots ,(F^{-1})_{m+l}(\bar{0},\bar{x}) \right). \end{align*}

Así queda terminada de la demostración de este importante teorema.

$\square$

Algunas reflexiones finales

Si quisiéramos usar de manera práctica la demostración para encontrar la función implícita $h$, necesitaríamos calcular la inversa $F^{-1}$. Sin embargo, las técnicas que tenemos hasta ahora no nos permiten hacer eso tan fácilmente. La versión del teorema de la función inversa que tenemos nos dice que hay una inversa, pero no nos dice quién es. La mayoría de las veces dar esta inversa es muy difícil, por no decir imposible.

Aunque esto parezca algo negativo, de cualquier forma tenemos un resultado muy importante. En algunos casos, sí podremos dar la función inversa con relativa facilidad. Y en otros contextos, aunque no podamos dar la inversa explícitamente, sí tendremos una base teórica robusta para demostrar otros resultados. El teorema de la función implícita es una palanca importante para otros resultados que brindan mucha luz acerca del comportamiento de los campos vectoriales.

Mas adelante

La demostración y el desarrollo teórico tanto del teorema de la función inversa, como el de la función implícita, son muy técnicos. Dejaremos los aspectos técnicos hasta aquí y en la siguiente entrada procesaremos mejor lo que quiere decir este teorema hablando de varios ejemplos, y también de sus consecuencias.

Tarea moral

  1. Considérese la función $T:\mathbb{R}^{3}\rightarrow \mathbb{R}^{2}$ dada por $T(x,y,z)=(x+z,y+x)$ aplica el teorema de la función implícita para obtener una función $h:\mathbb{R}\rightarrow \mathbb{R}^{2}$ tal que $(h(\bar{a}),\bar{a})$ es solución de la ecuación $T(x,y,z)=(0,0)$.
  2. Explica con detalle por qué la función $F$ de la demostración del teorema de la función implícita es de clase $C^1$.
  3. Verifica que en efecto $DF(\bar{y}_0,\bar{x}_0)$ es la expresión dada en la demostración del teorema. Además, justifica por qué es invertible.
  4. Justifica con detalle por qué los conjuntos $U$ y $V$ de la demostración en efecto son conjuntos abiertos.
  5. El teorema de la función inversa también nos dice quién es la derivada de la inversa. ¿Eso qué quiere decir en el contexto del teorema de la función implícita?

Entradas relacionadas