Archivo de la etiqueta: transformación lineal

Cálculo Diferencial e Integral III: Demostración del teorema de la función inversa

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior empezamos a hablar del teorema de la función inversa. Dimos su enunciado y probamos varias herramientas que nos ayudarán ahora con su demostración.

Recordemos que lo que queremos demostrar es lo siguiente.

Teorema (de la función inversa). Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el abierto $S$. Si $Df(\bar{a})$ es invertible, entonces, existe $\delta >0$ tal que:

  1. $B_{\delta}(\bar{a})\subseteq S$ y $f$ es inyectiva en $B_{\delta}(\bar{a})$.
  2. $f^{-1}:f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ es continua en $f(B_{\delta}(\bar{a}))$.
  3. $f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}$ es un conjunto abierto.
  4. $f^{-1}$ es de clase $C^{1}$ en $f(B_{\delta}(\bar{a}))$ y además, si $\bar{x}=f(\bar{v})\in f(B_{\delta}(\bar{a}))$, entonces, $Df^{-1}(\bar{x})=Df^{-1}(f(\bar{v}))=(Df(\bar{v}))^{-1}$.

La herramienta más importante que probamos en la entrada anterior nos dice que si una función $f:S\subseteq \mathbb{R}^n\to \mathbb{R}^n$ es de clase $C^1$, $\bar{a}\in S$ y $DF(\bar{a})$ es invertible, entonces existe una $\delta>0$ tal que $B_\delta(\bar{a})\subseteq S$ y $Df(\bar{b})$ es invertible para todo $\bar{b}\in B_\delta(\bar{a})$. Veremos cómo esta herramienta y otras que desarrollaremos en el transcurso de esta entrada nos permiten demostrar el teorema.

La función $f$ es inyectiva en una vecindad de $\bar{a}$

Vamos a enfocarnos en el punto $(1)$ del teorema. Veremos que existe la $\delta$ que hace que la función restringida a la bola de radio $\delta$ centrada en $\bar{a}$ es inyectiva. En esta parte de la prueba es conveniente que recuerdes que la norma infinito de un vector $(x_1,\ldots,x_n)\in \mathbb{R}^n$ es $$||\bar{x}||_{\infty}:=máx\{ |x_{1}|,\dots ,|x_{n}|\}.$$

Además, cumple para todo $\bar{x}\in \mathbb{R}^{n}$ que $$||\bar{x}||\leq \sqrt{n} ||\bar{x}||_{\infty}.$$

Veamos que bajo las hipótesis del problema se puede acotar $||f(\bar{u})-f(\bar{v})||$ en términos de $||\bar{u}-\bar{v}||$ dentro de cierta bola.

Proposición. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el conjunto abierto $S$, y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces existe $\delta >0$ y $\varepsilon>0$ tal que $B_{\delta}(\bar{a})\subseteq S$ y $||f(\bar{u})-f(\bar{v})||\geq \varepsilon||\bar{u}-\bar{v}||$ para cualesquiera $\bar{u},\bar{v}\in B_{\delta}(\bar{a})$.

Demostración. Por la diferenciabilidad de $f$ en $\bar{a}$, tenemos

\[ Df(\bar{a})(\bar{x})=\begin{pmatrix} \triangledown f_{1}(\bar{a})\cdot \bar{x} \\ \vdots \\ \triangledown f_{n}(\bar{a})\cdot \bar{x}\end{pmatrix} \]

para cada $\bar{a}\in S$ y cada $\bar{x}\in \mathbb{R}^{n}$.

Como $Df(\bar{a})$ es invertible, por los resultados de la entrada anterior existe un $m>0$ tal que

\[ ||Df(\bar{a})(\bar{x})||\geq m||\bar{x}|| \]

para todo $\bar{x}\in \mathbb{R}^{n}$.

También por resultados de la entrada anterior, para $\epsilon:=\frac{m}{2\sqrt{n}}>0$ existe $\delta >0$ tal que si $\bar{b}\in B_{\delta}(\bar{a})\subseteq S$ entonces

\[||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq \frac{m}{2\sqrt{n}}||\bar{x}||\]

para todo $\bar{x}\in \mathbb{R}^{n}$.

Usaremos en un momento estas desigualdades, pero por ahora fijemos nuestra atención en lo siguiente. Dados $\bar{u},\bar{v}\in B_{\delta}(\bar{a})$, tomemos el $k\in \{1,\dots ,n\}$ tal que $$||Df(\bar{a})(\bar{u}-\bar{v})||_{\infty}=|\triangledown f_{k}(\bar{a})\cdot (\bar{u}-\bar{v})|.$$

Para dicho $k$, tenemos

\begin{align*}
|\triangledown f_{k}(\bar{a})\cdot (\bar{u}- \bar{v})|&=||Df(\bar{a})(\bar{u}-\bar{v})||_{\infty}\\
&\geq \frac{1}{\sqrt{n}}||Df(\bar{a})(\bar{u}-\bar{v})||.
\end{align*}

¿Cómo podemos seguir con nuestras desigualdades? Necesitamos usar el teorema del valor medio. Bastará el que demostramos para campos escalares. Aplicándolo a $f_k$ en los puntos $\bar{u},\bar{v}$ cuyo segmento se queda en la bola convexa $B_\delta(\bar{a})$, podemos concluir que existe un vector $\bar{w}$ en el segmento $\bar{\bar{u}\bar{v}}$ que cumple

$$f_k(\bar{u})-f_k(\bar{v})=\triangledown f(\bar{w}) \cdot (\bar{u}-\bar{v}).$$

Sabemos que para cualquier vector el valor absoluto de cualquiera de sus coordenadas es en valor menor o igual que la norma del vector. Además, demostramos inicialmente unas desigualdades anteriores. Juntando esto, obtenemos la siguiente cadena de desigualdades:

\begin{align*}
||f(\bar{u})-f(\bar{v})||&\geq |f_{k}(\bar{u})-f_{k}(\bar{v})|\\
&=|\triangledown f(\bar{w}) \cdot (\bar{u}-\bar{v})|\\
&\geq |\triangledown f_k(\bar{a})\cdot (\bar{u}-\bar{v})|-|\triangledown f_k(\bar{w}) \cdot (\bar{u}-\bar{v})-\triangledown f_k(\bar{a})\cdot (\bar{u}-\bar{v})|\\
&\geq \frac{1}{\sqrt{n}}||Df(\bar{a})(\bar{u}-\bar{v})|| – ||Df(\bar{w})(\bar{u}-\bar{v})-Df(\bar{a})(\bar{u}-\bar{v})||\\
&\geq \frac{1}{\sqrt{n}}(m||\bar{u}-\bar{v}||)-\frac{m}{2\sqrt{n}}||\bar{u}-\bar{v}||\\
&=\frac{m}{2\sqrt{n}}||\bar{u}-\bar{v}||\\
&=\varepsilon||\bar{u}-\bar{v}||.
\end{align*}

La gran conclusión de esta cadena de desigualdades es que $$||f(\bar{u})-f(\bar{v})||\geq \varepsilon||\bar{u}-\bar{v}||,$$ que es lo que buscábamos.

$\square$

¡Esto es justo lo que nos pide el primer punto! Hemos encontrado una bola alrededor de $\bar{a}$ dentro de la cual si $\bar{u}\neq \bar{v}$, entonces $||f(\bar{u})-f(\bar{v})||\geq \varepsilon ||\bar{u}-\bar{v}||>0$, de modo que $f(\bar{u})\neq f(\bar{v})$. ¡La función restringida en esta bola es invertible! En términos geométricos el último teorema nos dice lo siguiente: Si $f$ es diferenciable en un abierto $S$, y $Df(\bar{a})$ es invertible, entonces hay una vecindad alrededor de $\bar{a}$ en donde $f$ «no se pega», es decir $f$ es inyectiva.

Figura 1: Si la función no es inyectiva, lo que tenemos es que proyecta el rectángulo $\mathcal{R}$ en una superficie que pega los puntos $\bar{a}$ y $\bar{b}$. Arriba una función inyectiva y abajo una que no lo es.

Ya vimos cómo encontrar una bola $B_\delta(\bar{a})$ dentro de la cual $f$ es inyectiva. Si pensamos que el contradominio es exactamente $f(B_\delta(\bar{a}))$, entonces la función también es suprayectiva. Esto hace que sea biyectiva y por tanto que tenga inversa $f^{-1}$.

La función inversa es continua

Veamos ahora que la función inversa es continua. De hecho, mostraremos algo un poco más fuerte.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el abierto $S$, y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, $f$ es inyectiva en $B_{\delta}(\bar{a})$ y además $f^{-1}:f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ es uniformemente continua en su dominio.

Demostración. La primera parte y la existencia de $f^{-1}:f(B_\delta(a))\subseteq \mathbb{R}^n \to \mathbb{R}^n$ se debe a la discusión de la sección anterior. De hecho, lo que mostramos es que existe $\delta >0$ y $\varepsilon>0$ tal que $||f(\bar{v})-f(\bar{u})||\geq \varepsilon||\bar{v}-\bar{u}||$ para todo $\bar{u},\bar{v}\in B_{\delta}(\bar{a})$.

Supongamos que nos dan un $\varepsilon^\ast$. Tomemos $\delta^\ast=\varepsilon^\ast \varepsilon$. Tomemos $\bar{x},\bar{y}$ en $f(B_\delta(\bar{a}))$ tales que $||\bar{y}-\bar{x}||<\delta ^{\ast}$. Como $\bar{x}$ y $\bar{y}$ están en dicha bola, podemos escribirlos como $\bar{x}=f(\bar{u})$, $\bar{y}=f(\bar{v})$ con $\bar{u},\bar{v}\in B_{\delta}(\bar{a})$. Notemos entonces que

\begin{align*}
||f^{-1}(\bar{y})-f^{-1}(\bar{x})||&=||\bar{v}-\bar{u}||\\
&\leq \frac{1}{\varepsilon}||f(\bar{v})-f(\bar{u})||\\
&= \frac{1}{\varepsilon}||\bar{y}-\bar{x}||\\
&<\frac{\varepsilon^\ast\varepsilon}{\varepsilon}\\
&=\varepsilon^\ast.
\end{align*}

Tenemos entonces que $f^{-1}$ es uniformemente continua en $f(B_\delta(\bar{a}))$.

$\square$

Esto demuestra el punto $(2)$ de nuestro teorema. La prueba de que el conjunto $f(B_\delta(\bar{a}))$ es abierto no es para nada sencilla como parecería ser. Una demostración muy instructiva, al nivel de este curso, se puede encontrar en el libro Cálculo diferencial de varias variables del Dr. Javier Páez Cárdenas editado por la Facultad de Ciencias de la Universidad Nacional Autónoma de México (UNAM) en las páginas 474-476.

La función inversa es diferenciable

Resta hacer la demostración de $(4)$. En esta sección veremos que la inversa $f^{-1}$ es derivable y que la derivada es precisamente lo que propone el teorema. En la siguiente sección veremos que la inversa es $C^1$.

Tomemos un punto $\bar{x}_0=f(\bar{v}_0)\in f(B_{\delta}(\bar{a}))$. Mostraremos que, en efecto, $T=(Df(\bar{v}_0))^{-1}$ es la derivada de $f^{-1}$ en $\bar{x}_0$, lo cual haremos por definición verificando que

\[ \lim\limits_{\bar{x}\to \bar{x}_{0}}\frac{f^{-1}(\bar{x})-f^{-1}(\bar{x}_{0})-T(\bar{x}-\bar{x}_{0})}{||\bar{x}-\bar{x}_{0}||}=0.\]

Para ello, introducimos la siguiente función auxiliar $g:B_{\delta}(\bar{a})\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ dada por:

\[ g(\bar{v})=\left\{ \begin{matrix} \frac{\bar{v}-\bar{v}_{0}-T(f(\bar{v})-f(\bar{v}_{0}))}{||f(\bar{v})-f(\bar{v}_{0})||} & \bar{v}\neq \bar{v}_{0} \\ \bar{0} & \bar{v}=\bar{v}_{0}. \end{matrix} \right. \]

Esta función está bien definida, pues $f$ es inyectiva en la bola $B_{\delta}(\bar{a})$. La composición $g\circ f^{-1}$ también está bien definida en el abierto $f(B_{\delta}(\bar{a}))$ y

\[ (g\circ f^{-1})(\bar{x})=\left\{ \begin{matrix} \frac{f^{-1}(\bar{x})-f^{-1}(\bar{x}_{0})-T(\bar{x}-\bar{x}_{0})}{||\bar{x}-\bar{x}_{0}||} & \bar{x}\neq \bar{x}_{0} \\ \bar{0} & \bar{x}=\bar{x}_{0} \end{matrix} \right.\]

para todo $\bar{x}\in f(B_{\delta}(\bar{a}))$. Esto nos permite poner el límite buscado como el límite de una composición de la siguiente forma:

\[ \lim\limits_{\bar{x}\to \bar{x}_{0}}\frac{f^{-1}(\bar{x})-f^{-1}(\bar{x}_{0})-T(\bar{x}-\bar{x}_{0})}{||\bar{x}-\bar{x}_{0}||}=\lim\limits_{\bar{x}\to \bar{x}_{0}}(g\circ f^{-1})(\bar{x}) \]

Como $f^{-1}$ es continua en $\bar{x}_{0}$, basta demostrar que $g$ es continua en $\bar{v}_{0}=f^{-1}(\bar{x}_{0})$. Esto equivale a probar que

\[ \lim\limits_{\bar{v}\to \bar{v}_{0}}g(\bar{v})=\lim\limits_{\bar{v}\to \bar{v}_{0}}\frac{\bar{v}-\bar{v}_{0}-(Df(\bar{v}_{0}))^{-1}(f(\bar{v})-f(\bar{v}_{0})))}{||f(\bar{v})-f(\bar{v}_{0})||}=0.\]

Hay que demostrar este último límite. Reescribimos la expresión

$$\frac{\bar{v}-\bar{v}_{0}-(Df(\bar{v}_{0}))^{-1}(f(\bar{v})-f(\bar{v}_{0}))}{||f(\bar{v})-f(\bar{v}_{0})||}$$ como

$$\frac{(Df(\bar{v}_{0}))^{-1}[Df(\bar{v}_{0})(\bar{v}-\bar{v}_{0})-(f(\bar{v})-f(\bar{v}_{0}))]}{||f(\bar{v})-f(\bar{v}_{0})||},$$

y luego multiplicamos y dividimos por $||\bar{v}-\bar{v}_0||$ y reorganizamos para obtener

\[ -\frac{||\bar{v}-\bar{v}_{0}||}{||f(\bar{v})-f(\bar{v}_{0})||}(Df(\bar{v}_{0}))^{-1}\left( \frac{f(\bar{v})-f(\bar{v}_{0})-Df(\bar{v}_{0})(\bar{v}-\bar{v}_{0})}{||\bar{v}-\bar{v}_{0}||}\right).\]

Como $(Df(\bar{v}_{0}))^{-1}$ es continua (por ser lineal) y $f$ es diferenciable en $\bar{v}_{0}$, se tiene que

\begin{align*}
\lim\limits_{\bar{v}\to \bar{v}_{0}}(Df(\bar{v}_{0}))&^{-1}\left( \frac{f(\bar{v})-f(\bar{v}_{0})-Df(\bar{v}_{0})(\bar{v}-\bar{v}_{0})}{||\bar{v}-\bar{v}_{0}||}\right)\\
&=(Df(\bar{v}_{0}))^{-1}\left( \lim\limits_{\bar{v}\to \bar{v}_{0}}\frac{f(\bar{v})-f(\bar{v}_{0})-Df(\bar{v}_{0})(\bar{v}-\bar{v}_{0})}{||\bar{v}-\bar{v}_{0}||}\right)\\
&=(Df(\bar{v}_{0}))^{-1}(\bar{0})\\
&=\bar{0}.
\end{align*}

El factor que nos falta entender es $\frac{||\bar{v}-\bar{v}_{0}||}{||f(\bar{v})-f(\bar{v}_{0})||}$. Pero por la primera proposición de esta entrada, sabemos que existe una $\epsilon>0$ que acota este factor superiormente por $\frac{1}{\epsilon}$. De esta manera,

\[ \lim\limits_{\bar{v}\to \bar{v}_{0}}g(\bar{v})=\cancelto{acotado}{\lim\limits_{\bar{v}\to \bar{v}_{0}}\frac{-||\bar{v}-\bar{v}_{0}||}{||f(\bar{v})-f(\bar{v}_{0})||}}\cancelto{0}{(Df(\bar{v}_{0}))^{-1}\left( \frac{f(\bar{v})-f(\bar{v}_{0})-Df(\bar{v}_{0})(\bar{v}-\bar{v}_{0})}{||\bar{v}-\bar{v}_{0}||}\right)}=0.\]

Esto nos dice entonces que $g$ es continua en $\bar{v}_0$ y por lo tanto:

\begin{align*}
\lim\limits_{\bar{x}\to \bar{x}_{0}}(g\circ f^{-1})(\bar{x}) &= g\left(\lim_{\bar{x}\to \bar{x}_0} f^{-1}(\bar{x})\right)\\
&=g(f^{-1}(\bar{x}_0))\\
&=g(\bar{v}_0)\\
&=\bar{0}.
\end{align*}

Por lo tanto $f^{-1}$ es diferenciable en $\bar{x}_{0}$ mediante la derivada que propusimos, es decir,

\[ Df^{-1}(\bar{x}_{0})=Df^{-1}(f(\bar{v}_{0}))=(Df(\bar{v}_{0}))^{-1}=(Df(f^{-1}(\bar{x}_{0})))^{-1} \]

para todo $\bar{x}_0\in f(B_{\delta}(\bar{a}))$.

La función inversa es de clase $C^1$

Resta verificar que $f^{-1}$ es de clase $C^{1}$ en $f(B_{\delta}(\bar{a}))$. Lo haremos con la caracterización de la entrada anterior. Tomemos una $\mu>0$. Nos gustaría ver que si $\bar{x}$ y $\bar{x}_0$ están suficientemente cerca, entonces

$$||Df^{-1}(\bar{x})(\bar{z})-Df^{-1}(\bar{x}_{0})(\bar{z})||<\mu ||\bar{z}||$$

para toda $\bar{z} \in \mathbb{R}^n$.

Recordemos que por la entrada anterior hay una $m>0$ tal que para todo $\bar{z}$ en $\mathbb{R}^n$ se cumple

\begin{equation}
\label{eq:clasec1}
\frac{1}{m}||\bar{z}||=\frac{1}{m}|Df(\bar{v})((Df(\bar{v}))^{-1})(\bar{z})||\geq ||(Df(\bar{v}))^{-1}(\bar{z})||
\end{equation}

También notemos que, si $X,Y$ son matrices invertibles en $M_n(\mathbb{R})$, tenemos:

$$X^{-1}(Y-X)Y^{-1}=X^{-1}YY^{-1}-X^{-1}XY^{-1}=X^{-1}-Y^{-1}.$$

Tomando $X=Df(\bar{v})$ y $Y=Df(\bar{v}_0)$, aplicando la igualdad anterior en un punto $\bar{x}$ en $\mathbb{R}^n$, sacando normas y usando la desigualdad \eqref{eq:clasec1}, obtenemos:

\begin{align*}
||(X^{-1}-Y^{-1})(\bar{z})||&=||(X^{-1}(Y-X)Y^{-1})(\bar{z})||\\
&\leq \frac{1}{m} ||((Y-X)Y^{-1})(\bar{z})||\\
&=\frac{1}{m}||((Df(\bar{v}_0)-Df(\bar{v}))Df^{-1}(f(\bar{v}_0)))(\bar{z})||.
\end{align*}

Como $f$ es de clase $C^1$, por la entrada anterior podemos construir una $\delta^\ast$ tal que $B_{\delta^\ast}(\bar{v}_0)\subseteq B_\delta(\bar{a})$ y para la cual si $\bar{v}$ está en $B_{\delta^\ast}(\bar{v}_0)$, entonces:

\[ \begin{equation}||(Df(\bar{v}_{0})-Df(\bar{v}))(\bar{z})||\leq m^{2}\mu||\bar{z}||\end{equation}.\]

Para todo $\bar{x}\in \mathbb{R}^{n}$.

Finalmente, como $f^{-1}$ es continua en $f(B_{\delta}(\bar{a}))$, si $\bar{x}$ y $\bar{x}_0$ están suficientemente cerca, digamos $||\bar{x}-\bar{x}_0||<\nu$, entonces

\[ \begin{equation}||f^{-1}(\bar{x})-f^{-1}(\bar{x}_{0})||=||\bar{v}-\bar{v}_{0}||<\delta ^\ast.\end{equation}.\]

Usamos todo lo anterior para establecer la siguiente cadena de desigualdades cuando $||\bar{x}-\bar{x}_0||<\nu$:

\begin{align*}
||Df^{-1}(\bar{x})(\bar{z})-Df^{-1}(\bar{x}_{0})(\bar{z})||&=||Df^{-1}(f(\bar{v}))(\bar{z})-Df^{-1}(f(\bar{v}_{0}))(\bar{z})||\\
&\leq \frac{1}{m}||[Df(\bar{v}_{0})-Df(\bar{v})](Df^{-1}(f(\bar{v}_{0})))(\bar{z})||\\
&\leq \frac{1}{m}\left( m^{2}\mu ||Df^{-1}(f(\bar{v}_{0}))(\bar{z})||\right) \\
&=m\mu ||Df^{-1}(f(\bar{v}_{0}))(\bar{z})||\\
&\leq m\mu \left( \frac{1}{m}||\bar{z}||\right)\\
&=\mu||\bar{z}||.
\end{align*}

Esto implica que $f^{-1}$ es de clase $C^1$. Como tarea moral, revisa los detalles y di explícitamente qué resultado de la entrada anterior estamos usando.

$\square$

Ejemplo del teorema de la función inversa

Ejemplo. Consideremos $\xi :\mathbb{R}^{3}\rightarrow \mathbb{R}^{3}$ dada por $\xi (r,\theta, \phi)=(r\hspace{0.15cm}sen \phi \hspace{0.15cm}cos\theta ,r\hspace{0.15cm} sen \phi \hspace{0.15cm}sen\theta ,r\hspace{0.15cm}cos \phi)$. Se tiene que $\xi$ es diferenciable en todo su dominio pues cada una de sus derivadas parciales es continua. Esta es la función de cambio de coordenadas de esféricas a rectangulares o cartesianas. La matriz jacobiana está dada como sigue.

\[ D\xi (r,\theta ,\phi )=\begin{pmatrix} sen\phi \hspace{0.1cm}cos\theta & -r\hspace{0.1cm}sen\phi \hspace{0.1cm}sen\theta & r\hspace{0.1cm}cos\phi \hspace{0.1cm}cos\theta \\ sen\phi \hspace{0.1cm}sen\theta & r\hspace{0.1cm}sen\phi \hspace{0.1cm}cos\theta & r\hspace{0.1cm}cos\phi \hspace{0.1cm}sen\theta \\ cos\phi & 0 & -r\hspace{0.1cm}sen\phi \end{pmatrix}.\]

Luego $\det(D\xi (r,\theta ,\phi ))=-r^{2}\hspace{0.1cm}sen\phi$ entonces $D\xi$ es invertible cuando $r\neq 0$ y $\phi \neq k\pi$, $k\in \mathbb{Z}$. Su inversa es:

\[ (D\xi (r,\theta ,\phi ))^{-1}=\begin{pmatrix} sen\phi \hspace{0.1cm}cos\theta & sen\phi \hspace{0.1cm}sen\theta & cos\phi \\ -\frac{sen\theta}{r\hspace{.01cm}sen\phi} & \frac{cos\theta}{r\hspace{0.1cm}sen\phi} & 0 \\ \frac{1}{r}\hspace{0.1cm}cos\theta \hspace{0.1cm}cos\phi & \frac{1}{r}\hspace{0.1cm}cos\phi \hspace{0.1cm}sen\theta & -\frac{1}{r}\hspace{0.1cm}sen\phi \end{pmatrix}.\]

El teorema de la función inversa nos garantiza la existencia local de una función $\xi ^{-1}$. En este caso, sería la función de cambio de coordenadas rectangulares a esféricas. Si $f:S\subseteq \mathbb{R}^{3}\rightarrow \mathbb{R}$ es una función $C^{1}$ dada en coordenadas esféricas; podemos asumir que $f\circ \xi ^{-1}$ es la misma función pero en términos de coordenadas rectangulares.

$\triangle$

Más adelante…

¡Lo logramos! Hemos demostrado el teorema de la función inversa, uno de los resultados cruciales de nuestro curso. El siguiente tema es el teorema de la función implícita, que será otro de nuestros resultados principales. Uno podría pensar que nuevamente tendremos que hacer una demostración larga y detallada. Pero afortunadamente la demostración del teorema de la función implícita se apoya fuertemente en el teorema de la función inversa que ya demostramos. En la siguiente entrada enunciaremos y demostraremos nuestro nuevo resultado y una entrada más adelante veremos varios ejemplos para profundizar en su entendimiento.

Tarea moral

  1. En el ejemplo que dimos, verifica que el determinante en efecto es $-r^2\sin\phi$. Verifica también que la inversa es la matriz dada.
  2. Repasa cada una de las demostraciones de esta entrada y asegúrate de entender por qué se siguen cada una de las desigualdades. Explica en qué momentos estamos usando resultados de la entrada anterior.
  3. Da la función inversa de la transformación de cambio de coordenadas polares a rectangulares $g(r,\theta)=(r\hspace{0.1cm}cos\theta , r\hspace{0.1cm}sen\theta )$.
  4. Demuestra que para todo $\bar{x}\in \mathbb{R}^{n}$ se tiene $||\bar{x}||\leq \sqrt{n}||\bar{x}||_{\infty}.$
  5. Verifica que en efecto $||\cdot||_{\infty}$ es una norma.

Entradas relacionadas

Cálculo Diferencial e Integral III: Introducción al teorema de la función inversa

Por Alejandro Antonio Estrada Franco

Introducción

Estamos a punto de entrar a discutir dos de los resultados principales de nuestro curso: el teorema de la función inversa y el teorema de la función implícita. Repasemos un poco qué hemos hecho hasta ahora. En las dos entradas anteriores introdujimos la noción de diferenciabilidad, la cual cuando sucede para una función $f:\mathbb{R}^n\to \mathbb{R}^m$, nos dice que $f$ se parece mucho a una función lineal en un punto dado. Vimos que esta noción implica continuidad y que tiene una regla de la cadena relacionada con el producto de matrices. También, hemos discutido cómo esta noción se relaciona con la existencia de espacios tangentes a gráficas multidimensionales.

Ahora queremos entender todavía mejor a las funciones diferenciables. Hay dos teoremas que nos permiten hacer eso. Uno es el teorema de la función inversa y el otro es el teorema de la función implícita. En esta entrada hablaremos del primero, y en un par de entradas más introduciremos el segundo resultado. El propósito del teorema de la función inversa es dar una condición bajo la cual una función es invertible, por lo menos localmente. De hecho, la mayoría de las veces sólo se puede garantizar la invertibilidad localmente, pues las funciones usualmente no son inyectivas y esto da comportamientos globales más difíciles de manejar.

Enunciar el teorema y entenderlo requiere de cierto esfuerzo. Y demostrarlo todavía más. Por esta razón, en esta entrada nos enfocaremos sólo en dar el teorema y presentar herramientas preliminares que necesitaremos para hacer su demostración.

Enunciado del teorema de la función inversa

Supongamos que tenemos $f:\mathbb{R}^n\to \mathbb{R}^n$ y que es diferenciable en el punto $\bar{a}$. Entonces, $f$ se parece mucho a una función lineal en $\bar{a}$, más o menos $f(\bar{x})\approx f(\bar{a}) + T_{\bar{a}}(\bar{x}-\bar{a})$. Así, si $T_{\bar{a}}$ es invertible, suena a que «cerquita de $\bar{a}$» la función $f(\bar{x})$ debe de ser invertible. El teorema de la función inversa pone estas ideas de manera formal.

Teorema (de la función inversa). Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el abierto $S$. Si la matriz $Df(\bar{a})$ es invertible, entonces, existe $\delta >0$ tal que:

  1. $B_{\delta}(\bar{a})\subseteq S$ y $f$ es inyectiva en $B_{\delta}(\bar{a})$.
  2. $f^{-1}:f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ es continua en $f(B_{\delta}(\bar{a}))$.
  3. $f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}$ es un conjunto abierto.
  4. $f^{-1}$ es de clase $C^{1}$ en $f(B_{\delta}(\bar{a}))$ y además, si $\bar{x}=f(\bar{v})\in f(B_{\delta}(\bar{a}))$, entonces, $Df^{-1}(\bar{x})=Df^{-1}(f(\bar{v}))=(Df(\bar{v}))^{-1}$.

Veamos qué nos dice de manera intuitiva cada una de las conclusiones del teorema.

  1. Tendremos una bola $B_\delta(\bar{a})$ dentro de la cual $f$ será inyectiva, y por lo tanto será biyectiva hacia su imagen. Así, $f$ restringida a esta bola será invertible. Es importante que sea una bola abierta, porque entonces sí tenemos toda una región «gordita» en donde pasa la invertibilidad (piensa que si fuera un cerrado, a lo mejor sólo es el punto $\bar{a}$ y esto no tiene chiste).
  2. La inversa $f^{-1}$ que existirá para $f$ será continua. Esto es lo mínimo que podríamos esperar, aunque de hecho el punto $4$ garantiza algo mucho mejor.
  3. La imagen de $f$ en la bola $B_\delta(\bar{a})$ será un conjunto abierto.
  4. Más aún, se tendrá que $f^{-1}$ será de clase $C^1$ y se podrá dar de manera explícita a su derivada en términos de la derivada de $f$ con una regla muy sencilla: simplemente la matriz que funciona para derivar $f$ le sacamos su inversa como matriz y esa funciona al evaluarla en el punto apropiado.

El teorema de la función inversa es profundo pues tanto su enunciado como su demostración combina ideas de topología, álgebra y cálculo. Por esta razón, para su demostración necesitaremos recopilar varias de las herramientas de álgebra lineal que hemos repasado en la Unidad 2 y la Unidad 5. Así mismo, necesitaremos ideas topológicas de las que hemos visto en la Unidad 3. Con ellas desarrollaremos algunos resultados auxiliares que en la siguiente entrada nos permitirán concluir la demostración.

Un criterio para campos vectoriales $C^1$

El teorema de la función inversa es para funciones de clase $C^1$. Nos conviene entender esta noción mejor. Cuando una función $f$ es de clase $C^1$, entonces es diferenciable. Pero el regreso no es cierto y hay contraejemplos. ¿Qué le falta a una función diferenciable para ser de clase $C^1$? A grandes rasgos, que las funciones derivadas $T_\bar{a}$ y $T_\bar{b}$ hagan casi lo mismo cuando $\bar{a}$ y $\bar{b}$ son cercanos. En términos de matrices, necesitaremos que la expresión $||(Df(\bar{a})-Df(\bar{b}))(\bar{x})||$ sea pequeña cuando $\bar{a}$ y $\bar{b}$ son cercanos entre sí.

El siguiente teorema será importante en nuestro camino hacia el teorema de la función inversa. Intuitivamente, para lo que lo usaremos es para aproximar una función $f$ localmente, con «cuadritos» que corresponden a los planos tangentes, porque «muy cerquita» estos planos varían muy poco si pedimos que $f$ sea de clase $C^1$. Es decir si $\bar{a}$ y $\bar{b}$ son dos puntos en el dominio de una función diferenciable, y estos están muy cerca uno del otro, sus planos tangentes serán casi el mismo. Esto nos invita a cambiar localmente a una superficie por cuadritos como más adelante se explicará con detalle.

Figura 1. En azul y en rojo dos planos que corresponden a las derivadas $T_{\bar{a}}$ y $T_{\bar{b}}$. Este cambio calculado es distintos puntos cercanos es «suave», esto se expresará con la ecuación $||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\leq \epsilon ||\bar{x}||$ ya con las diferenciales para todo $\bar{x}$.

El teorema concreto que nos interesa demostrar es la siguiente equivalencia para que una función sea de clase $C^1$.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ una función diferenciable en $S$. Se tiene que $f$ es de clase $C^{1}$ en $S$ si y sólo si para todo $\bar{a}\in S$ y para cada $\varepsilon >0$ existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, y si $\bar{b}\in B_{\delta}(\bar{a})$ se tiene $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq \varepsilon ||\bar{x}||$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. $\Rightarrow).$ Supongamos que $f$ es de clase $C^1$ en $S$, es decir, todas sus funciones componentes tienen derivadas parciales en $S$ y son continuas. Sea $\varepsilon>0$. Veremos que se puede encontrar una $\delta$ como en el enunciado.

Tomemos $\bar{a}$ y $\bar{b}$ en $S$. Expresamos a $(Df(\bar{b})-Df(\bar{a}))(\bar{x})$ como

\begin{align*}
\begin{pmatrix} \frac{\partial f_{1}}{\partial x_{1}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{1}}{\partial x_{n}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \dots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{m}}{\partial x_{n}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}\begin{pmatrix} x_{1} \\ \vdots \\ x_{n}\end{pmatrix}
\end{align*}

o equivalentemente como

\begin{align*}
\begin{pmatrix} \left( \triangledown f_{1}(\bar{b})-\triangledown f_{1}(\bar{a})\right) \cdot \bar{x} \\ \vdots \\ \left( \triangledown f_{m}(\bar{b})-\triangledown f_{m}(\bar{a})\right) \cdot \bar{x} \end{pmatrix}.
\end{align*}

De tal manera que por Cauchy-Schwarz:

\begin{align*}
||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||^2&=\sum_{i=1}^m (\left( \triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})\right)\cdot \bar{x})^2\\
&\leq \sum_{i=1}^m ||\triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})||^2||\bar{x}||^2\\
&=||\bar{x}||^2 \sum_{i=1}^m ||\triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})||^2\\
&=||\bar{x}||^2 \sum_{i=1}^m \sum_{j=1}^{n}\left( \frac{\partial f_{i}}{\partial x_{j}}(\bar{b})-\frac{\partial f_{i}}{\partial x_{j}}(\bar{a})\right) ^{2}
\end{align*}

En este punto se ve la importancia de que las parciales sean continuas. Podemos encontrar una $\delta$ que nos garantice que $B_\delta\subseteq S$ y que si $||\bar{b}-\bar{a}||<\delta$, entonces $$\left| \frac{\partial f_{i}}{\partial x_{j}}(\bar{b})-\frac{\partial f_{i}}{\partial x_{j}}(\bar{a}) \right| < \frac{\varepsilon}{\sqrt{mn}}.$$ En esta situación, podemos seguir acotando $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||^2$ como sigue:
\begin{align*}
&\leq ||\bar{x}|| \sum_{i=1}^m \sum_{j=1}^{n}\frac{\varepsilon^2}{mn}\\
&=\varepsilon^2||\bar{x}||^2.
\end{align*}

Al sacar raiz cuadrada, obtenemos la desigualdad $$||(Df(\bar{b})-Df(\bar{a}))(x)||\leq \varepsilon||\bar{x}||$$ buscada.

$\Leftarrow).$ Supongamos ahora que para cada $\varepsilon$ existe una $\delta$ como en el enunciado del teorema. Debemos ver que todas las derivadas parciales de todas las componentes son continuas. Podemos aplicar la desigualdad $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq ||\bar{x}||\varepsilon$ tomando como $\bar{x}$ cada vector $\hat{e}_i$ de la base canónica. Esto nos dice que

\[ ||Df(\bar{b})(\hat{e}_i)-Df(\bar{a})(\hat{e}_i)||< \varepsilon||\hat{e}_i|| =\varepsilon.\]

Por nuestro desarrollo anterior, para cada $i$ tenemos

\begin{align*}
\varepsilon&>||Df(\bar{b})(\hat{e}_i)-Df(\bar{a})(\hat{e}_i)||\\
&=||\left( \triangledown f_{1}(\bar{b})\cdot \hat{e}_i-\triangledown f_{1}(\bar{a})\cdot \hat{e}_i,\dots ,\triangledown f_{m}(\bar{b})\cdot \hat{e}_i-\triangledown f_{m}(\bar{a})\cdot \hat{e}_i\right)||\\
&=\left| \left|\left( \frac{\partial f_{1}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{i}}(\bar{a}),\dots ,\frac{\partial f_{m}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{i}}(\bar{a})\right) \right| \right|\\
&= \sqrt{\sum_{j=1}^{m}\left(\frac{\partial f_{j}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{j}}{\partial x_{i}}(\bar{a})\right)^{2}}.
\end{align*}

Elevando al cuadrado,

\[ \sum_{j=1}^{m}\left(\frac{\partial f_{j}}{\partial x_{i}}(b)-\frac{\partial f_{j}}{\partial x_{i}}(a)\right)^{2}<\varepsilon ^{2}.\]

Como todos los términos son no negativos, cada uno es menor a $\epsilon^2$. Así, para cada $i,j$ tenemos

\[ \left|\frac{\partial f_{j}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{j}}{\partial x_{i}}(\bar{a})\right|<\varepsilon.\]

Esto es precisamente lo que estábamos buscando: si $\bar{b}$ está lo suficientemente cerca de $\bar{a}$, cada derivada parcial en $\bar{b}$ está cerca de su correspondiente en $\bar{a}$.

$\square$

Invertibilidad de $Df(\bar{a})$ en todo un abierto

En esta sección demostraremos lo siguiente. Si $f:\mathbb{R}^n\to \mathbb{R}^n$ es un campo vectorial diferenciable en $\bar{a}$ y $Df(\bar{a})$ es invertible, entonces $Df(\bar{x})$ será invertible para cualquier $\bar{x}$ alrededor de cierta bola abierta alrededor de $\bar{a}$. Los argumentos en esta ocasión están un poco más relacionados con el álgebra lineal.

Será útil que recuerdes que una transformación lineal $T:\mathbb{R}^n \to \mathbb{R}^n$ es invertible si el único $\bar{x}\in \mathbb{R}^n$ tal que $T(\bar{x})=\bar{0}$ es $\bar{x}=\bar{0}$. El siguiente criterio es otra caracterización de invertibilidad en términos de lo que le hace $T$ a la norma de los vectores.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ una transformación lineal. La transformación $T$ es invertible si y sólo si existe $\varepsilon >0$ tal que $$||T(\bar{x})||\geq \varepsilon ||\bar{x}||$$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. $\left. \Rightarrow \right)$ Como $T$ es invertible, para todo $\bar{x}\neq \bar{0}$ sucede que $T(\bar{x})\neq \bar{0}$. En particular, esto sucede para todos los vectores en $S^{n-1}$ (recuerda que es la esfera de radio $1$ y dimensión $n-1$ centrada en $\bar{0}$). Esta esfera es compacta y consiste exactamente de los $\bar{x}\in \mathbb{R}^n$ de norma $1$.

Sabemos que las transformaciones lineales y la función norma son continuas. Por la compacidad de $S^{n-1}$, la expresión $||T(\bar{x})||$ tiene un mínimo digamos $\varepsilon$, que alcanza en $S^{n-1}$. Por el argumento del párrafo anterior, $\varepsilon>0$.

Tomemos ahora cualquier vector $\bar{x}\in \mathbb{R}^n$. Si $\bar{x}=\bar{0}$, entonces $$||T(\bar{0})||=||\bar{0}||=0\geq \varepsilon ||\bar{0}||.$$ Si $\bar{x}\neq \bar{0}$, el vector $\frac{\bar{x}}{||\bar{x}||}$ está en $S^{n-1}$, de modo que $$\left|\left|T\left(\frac{\bar{x}}{||\bar{x}||}\right)\right|\right| \geq \varepsilon.$$ Usando linealidad para sacar el factor $||\bar{x}||$ y despejando obtenemos $$||T(\bar{x})||\geq \varepsilon ||\bar{x}||,$$ como estábamos buscando.

$\left. \Leftarrow \right)$ Este lado es más sencillo. Si existe dicha $\varepsilon >0$, entonces sucede que para $\bar{x}$ en $\mathbb{R}^n$, con $\bar{x}\neq \bar{0}$ tenemos $$||T(\bar{x})||\geq \varepsilon||\bar{x}||>0.$$ Por lo tanto, $T(\bar{x})\neq \bar{0}$ y así $T$ es invertible.

$\square$

Obtengamos una consecuencia del teorema de clasificación de la sección anterior que está muy relacionada con este resultado que acabamos de demostrar.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el conjunto abierto $S$ y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces existen $\delta >0$ y $m>0$ tales que $B_{\delta}(\bar{a})\subseteq S$ y $||Df(\bar{b})(\bar{x})||\geq m||\bar{x}||$, para todo $\bar{b}\in B_{\delta}(\bar{a})$ y para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. Como $Df(\bar{a})$ es invertible, por el teorema que acabamos de demostrar existe $\varepsilon’>0$ tal que $$||Df(\bar{a})(\bar{x})||\geq \varepsilon’||\bar{x}||$$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Por nuestra caracterización de funciones $C^1$, Ahora como $f\in C^{1}$ en $S$ (abierto) para $\varepsilon =\frac{\varepsilon’}{2}>0$, existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, y $||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\leq \frac{\varepsilon’}{2}||\bar{x}||$ para todo $\bar{b}\in B_{\delta}(\bar{a})$ y para todo $\bar{x}\in \mathbb{R}^{n}$.

Por la desigualdad del triángulo, \[ ||Df(\bar{a})(\bar{x})-Df(\bar{b})(\bar{x})||+||Df(\bar{b})(\bar{x})||\geq ||Df(\bar{a})(\bar{x})||,\]

de donde

\begin{align*}
||Df(\bar{b})(\bar{x})||&\geq ||Df(\bar{a})(\bar{x})||-||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\\
&\geq \varepsilon’||\bar{x}||-\frac{\varepsilon’}{2}||\bar{x}||\\
&= \frac{\varepsilon’}{2} ||\bar{x}||.
\end{align*}

De esta manera, el resultado es cierto para la $\delta$ que dimos y para $m=\frac{\varepsilon’}{2}$.

$\square$

El siguiente corolario es consecuencia inmediata de lo discutido en esta sección y está escrito de acuerdo a la aplicación que haremos más adelante en la demostración del teorema de la función inversa.

Corolario. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ una función de clase $C^{1}$ en $S$ y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces, existe $\delta > 0$ tal que $B_{\delta}(\bar{a})\subseteq S$ y $Df(\bar{b})$ es invertible para todo $\bar{b}\in B_{\delta}(\bar{a})$.

Queda como tarea moral responder por qué este corolario es consecuencia inmediata del teorema anterior.

Un poco de intuición geométrica

Dejamos esta entrada hasta aquí, la naturaleza densamente teórica de lo que estamos haciendo puede hacer pesadas las exposiciones. Lo que hasta aquí demostramos es que para un campo vectorial $C^1$ si su derivada en $\bar{a}$ es invertible, entonces lo es en toda una vecindad que tiene a $\bar{a}$. Imaginemos al pedacito de superficie $f(B_{\delta}(\bar{a}))$ cubierto con pequeños rectángulos. En cada punto, las imágenes de estos rectángulos están muy cerquita, casi pegados a la superficie. Esto nos garantizaría la invertibilidad de $f$ en esta vecindad.

Figura 2

En la Figura 2 vemos ilustrado esto. El círculo inferior corresponde a la vecindad $B_{\delta}(\bar{a})$ en el dominio de $f$. La función $f$ levanta una porción del plano en la sabana delineada con negro arriba del círculo. En el círculo tenemos al punto $\bar{a}$ en verde agua. Sobre la sábana de arriba tenemos con el mismo color a $f(\bar{a})$. Los puntos negros pequeños dentro de la vecindad alrededor de $\bar{a}$ son alzados por $f$ a puntos negros sobre la sabana. Sobre de cada punto negro en la sabana tenemos un cuadrito rojo que representa al cachito de plano tangente cerca de la imagen de cada punto. La imagen esta llena de estos pequeños cuadritos, todos ellos representan diferenciales invertibles, esto nos permitirá asegurar la invertibilidad de $f$ en al menos una vecindad.

Más adelante…

En la siguiente entrada demostraremos el teorema de la función inversa, inciso por inciso. Es importante que estes familiarizado con los resultados de esta entrada, pues serán parte importante de la demostración.

Tarea moral

  1. ¿Qué diría el teorema de la función inversa para campos vectoriales $f:\mathbb{R}^2\to \mathbb{R}^2$? ¿Se puede usar para $$f(r,\theta)=(r\cos(\theta),r\sin(\theta))?$$ Si es así, ¿para qué valores de $r$ y $\theta$? ¿Qué diría en este caso explícitamente?
  2. Explica por qué el corolario que enunciamos en efecto se deduce de manera inmediata de lo discutido en la sección correspondiente.
  3. Revisa todas las desigualdades que usamos en esta entrada. ¿Qué resultado estamos usando? ¿Cuándo se darían estas igualdades?
  4. Demuestra que el determinante de una matriz es una función continua en términos de las entradas de la matriz. Usa esto para demostrar que si $A\in M_n(\mathbb{R})$ es una matriz y $B$ es una matriz muy cercana a $A$, entonces $B$ también es invertible.
  5. Demuestra que si una transformación $T$ es diagonalizable, entonces en el teorema de caracterización de invertibilidad se puede usar como $\epsilon$ al mínimo de la expresión $|\lambda|$ variando sobre todos los eigenvalores $\lambda$ de $T$.

Entradas relacionadas

Cálculo Diferencial e Integral III: Regla de la cadena para campos vectoriales

Por Alejandro Antonio Estrada Franco

Introducción

Tenemos ya la definición de diferenciabilidad, y su versión manejable: la matriz jacobiana. Seguiremos construyendo conceptos y herramientas del análisis de los campos vectoriales muy importantes e interesantes. A continuación, enunciaremos una nueva versión de la regla de la cadena, que nos permitirá calcular las diferenciales de composiciones de campos vectoriales entre espacios de dimensión arbitraria. Esta regla tiene numerosas aplicaciones y es sorprendentemente fácil de enunciar en términos de producto de matrices.

Primeras ideas hacia la regla de la cadena

La situación típica de regla de la cadena es considerar dos funciones diferenciables que se puedan componer. A partir de ahí, buscamos ver si la composición también es diferenciable y, en ese caso, intentamos dar la derivada de la composición en términos de las derivadas de las funciones. Veamos qué pasa en campos vectoriales.

Pensemos en $f:S_{f}\subseteq \mathbb{R}^{m}\rightarrow \mathbb{R}^{n}$, $g:S_{g}\subseteq \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}$ y en su composición $h=f\circ g$ definida sobre alguna vecindad $V\subseteq S_g$ de $\bar{a}$ y tal que $g(V)\subseteq S_f$. Pensemos que $g$ es diferenciable en $\bar{a}$ con derivada $G_\bar{a}$ y que $f$ es diferenciable en $\bar{b}:=g(\bar{a})$ con derivada $F_\bar{b}$.

Exploremos la diferenciabilidad de la composición $h$ en el punto $\bar{a}$. Para ello, tomemos un $\bar{y}\in \mathbb{R}^{l}$ tal que $\bar{a}+\bar{y}\in V$ y consideremos la siguiente expresión:

\begin{align*}
h(\bar{a}+\bar{y})-h(\bar{a})=f(g(\bar{a}+\bar{y}))-f(g(\bar{a})).
\end{align*}

Tomando $\bar{v}=g(\bar{a}+\bar{y})-g(\bar{a})$, tenemos $\bar{b}+\bar{v}=g(\bar{a})+\bar{v}=g(\bar{a}+\bar{y})$. De esta forma,

\begin{align*}
f(g(\bar{a}+\bar{y}))-f(g(\bar{a}))=f(\bar{b}+\bar{v})-f(\bar{b}).
\end{align*}

Por la diferenciabilidad de $g$ en $\bar{a}$, tenemos que podemos escribir

$$\bar{v}=G_{\bar{a}}(\bar{y})+||\bar{y}||E_{g}(\bar{a};\bar{y}),$$ con $\lim\limits_{\bar{y}\to \bar{0}}E_{g}(\bar{a};\bar{y})=0$.

Usando la diferenciabilidad de $f$ en $\bar{b}$, y la linealidad de su derivada $F_\bar{b}$, tenemos entonces que:

\begin{align*}
f(\bar{b}+\bar{v})-f(\bar{b})&=F_\bar{b}(\bar{v})+||\bar{v}||E_f(\bar{b};\bar{v})\\
&=F_\bar{b}(G_{\bar{a}}(\bar{y})+||\bar{y}||E_{g}(\bar{a};\bar{y}))+||\bar{v}||E_f(\bar{b};\bar{v})\\
&=(F_{b}\circ G_{\bar{a}})(\bar{y})+||\bar{y}||(F_{\bar{b}}\circ E_{g}(\bar{a};\bar{y}))+||\bar{v}||E_{f}(\bar{b};\bar{v}),
\end{align*}

con $\lim\limits_{\bar{y}\to \bar{0}}E_{f}(\bar{b};\bar{v})=0$.

Concatenando nuestras igualdades, podemos reescribir esto como

\[ h(\bar{a}+\bar{y})-h(\bar{a})=(F_{\bar{b}}\circ G_{\bar{a}})(\bar{y})+||\bar{y}||E_{h}(\bar{a};\bar{y}),\] en donde hemos definido

\[ E_{h}(\bar{a};\bar{y})=(F_{\bar{b}}\circ E_{g})(\bar{a};\bar{y})+\frac{||\bar{v}||}{||\bar{y}||}E_{f}(\bar{b};\bar{v}).\] Si logramos demostrar que $\lim\limits_{\bar{y}\to \bar{0}}E_{h}(\bar{a};\bar{y})=0$, entonces tendremos la diferenciabilidad buscada, así como la derivada que queremos. Dejemos esto en pausa para enunciar y demostrar un lema auxiliar.

Un lema para acotar la norma de la derivada en un punto

Probemos el siguiente resultado.

Lema. Sea $\phi:S\subseteq \mathbb{R}^l\to \mathbb{R}^m$ un campo vectorial diferenciable en un punto $\bar{c}\in S$ y $T_\bar{c}$ su derivada. Entonces, para todo $\bar{v}\in \mathbb{R}^{l}$, se tiene:

$$||T_{\bar{c}}(\bar{v})||\leq \sum_{k=1}^{m}||\triangledown \phi_{k}(\bar{c})||||\bar{v}||.$$

Donde $\phi(\bar{v})=\left( \phi_{1}(\bar{v}),\dots ,\phi_{m}(\bar{v})\right)$

Demostración. Procedemos con desigualdad del triángulo como sigue:

\begin{align*}
||T_{\bar{c}}(\bar{v})||&=\left|\left|\sum_{k=1}^{m}(\triangledown \phi_{k}(\bar{c})\cdot \bar{v})e_{k}\right|\right|\\
&\leq \sum_{k=1}^{m}||(\triangledown \phi_{k}(\bar{c})\cdot \bar{v})e_k||\\
&=\sum_{k=1}^{m}|\triangledown \phi_{k}(\bar{c})\cdot \bar{v}|
\end{align*}

y luego usamos la desigualdad de Cauchy-Schwarz en cada sumando para continuar como sigue

\begin{align*}
\leq \sum_{k=1}^{m}||\triangledown \phi_{k}(\bar{c})||||\bar{v}||,
\end{align*}

que es lo que buscábamos.

$\square$

Conclusión del análisis para regla de la cadena

Retomando el análisis para $E_{h}(\bar{a};\bar{y})$, dividamos el límite en los dos sumandos.

Primer sumando:

Como $F_{\bar{b}}$ es lineal, entonces es continua. También, sabemos que $\lim\limits_{\bar{y}\to \bar{0}}E_{g}(\bar{a};\bar{y})=0$. Así,

\begin{align*}
\lim\limits_{\bar{y}\to \bar{0}}(F_{\bar{b}}\circ E_{g})(\bar{a};\bar{y})&=F_{\bar{b}}\left(\lim\limits_{\bar{y}\to \bar{0}} E_{g}(\bar{a};\bar{y})\right)\\
&=F_\bar{b}(\bar{0})\\
&=0.
\end{align*}

Segundo sumando:

Retomando la definición de $\bar{v}$, aplicando desigualdad del triángulo y el lema que demostramos,

\begin{align*}
||\bar{v}||&=||G_{\bar{a}}(\bar{y})+||\bar{y}||E_{g}(\bar{a};\bar{y})||\\
&\leq ||G_{\bar{a}}(\bar{y})||+||\bar{y}||||E_{g}(\bar{a};\bar{y})||\\
&\leq \left(\sum_{k=1}^{m}||\triangledown g_{k}(\bar{a})||||\bar{y}||\right)+||\bar{y}||||E_{g}(\bar{a};\bar{y})||.
\end{align*}

Dividiendo ambos lados entre $||\bar{y}||$, obtenemos entonces que

$$ \frac{||\bar{v}||}{||\bar{y}||}\leq \sum_{k=1}^{m}||\triangledown g_{k}(\bar{a})||+||E_{g}(\bar{a};\bar{y})||. $$

De aquí se ve que conforme $\bar{y}\to \bar{0}$, la expresión $\frac{||\bar{v}||}{||\bar{y}||}$ está acotada superiormente por la constante $A:=\sum_{k=1}^{m}||\triangledown g_{k}(\bar{a})||.$ Además, si $\bar{y}\to \bar{0}$, entonces $\bar{v}\to \bar{0}$. Así,

\[0\leq \lim\limits_{\bar{y}\to \bar{0}}\frac{||\bar{v}||}{||\bar{y}||}E_{f}(\bar{b},\bar{v})\leq A\lim\limits_{\bar{y}\to \bar{0}}E_{f}(\bar{b},\bar{v})=0 \] pues $\lim\limits_{\bar{y}\to \bar{0}}\bar{v}=\bar{0}$ implica $\lim\limits_{\bar{y}\to \bar{0}}E_{f}(\bar{b},\bar{v})$.

Hemos concluido que $$h(\bar{a}+\bar{y})-h(\bar{a})=(F_{\bar{b}}\circ G_{\bar{a}})(\bar{y})+||\bar{y}||E_{h}(\bar{a};\bar{y}),$$

con $\lim_{\bar{y}\to \bar{0}} E_h(\bar{a};\bar{y})=0$. Esto precisamente es la definición de $h=f\circ g$ es diferenciable en $\bar{a}$, y su derivada en $\bar{a}$ es la transformación lineal dada por la composición de transformaciones lineales $F_\bar{b}\circ G_\bar{a}$.

Recapitulación de la regla de la cadena

Recapitulamos toda la discusión anterior en el siguiente teorema.

Teorema (Regla de la cadena). Sean $f:S_{f}\subseteq \mathbb{R}^{m}\rightarrow \mathbb{R}^{n}$, $g:S_{g}\subseteq \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}$ campos vectoriales. Supongamos que la composición $f\circ g$ está definida en todo un abierto $S\subseteq S_g$. Supongamos que $g$ es diferenciable en un punto $\bar{a}\in S$ con derivada $G_\bar{a}$ y $f$ es diferenciable en $\bar{b}:=g(\bar{a})$ con derivada $F_\bar{b}$. Entonces, $h$ es diferenciable en $\bar{a}$ con derivada $F_\bar{b}\circ G_\bar{a}$.

Dado que la representación matricial de la composición de dos transformaciones lineales es igual al producto de estas, podemos reescribir esto en términos de las matrices jacobianas como el siguiente producto matricial: $$Dh(\bar{a})=Df(\bar{b})Dg(\bar{a}).$$

Usos de la regla de la cadena

Hagamos algunos ejemplos de uso de regla de la cadena. En el primer ejemplo que veremos a continuación, la función $f$ es un campo escalar.

Ejemplo 1. Tomemos $g:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ campo vectorial, y $f:U\subseteq \mathbb{R}^{m}\rightarrow \mathbb{R}$ campo escalar. Consideremos $h=f\circ g$ y supongamos que se satisfacen las hipótesis del teorema de la regla de la cadena. Tenemos: \[ Df(\bar{b})=\begin{pmatrix} \frac{\partial f}{\partial x_{1}}(\bar{b}) & \dots & \frac{\partial f}{\partial x_{m}}(\bar{b}) \end{pmatrix} \] y \[ Dg(\bar{a})=\begin{pmatrix}\frac{\partial g_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial g_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial g_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial g_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix} . \]

Por la regla de la cadena tenemos $Dh(\bar{a})=Df(\bar{b})Dg(\bar{a})$ esto implica \[ \begin{pmatrix} \frac{\partial h}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial h}{\partial x_{n}}(\bar{a}) \end{pmatrix}=\begin{pmatrix} \frac{\partial f}{\partial x_{1}}(\bar{b}) & \dots & \frac{\partial f}{\partial x_{m}}(\bar{b}) \end{pmatrix}\begin{pmatrix} \frac{\partial g_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial g_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial g_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial g_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}. \]

Así \[ \begin{pmatrix} \frac{\partial h}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial h}{\partial x_{n}}(\bar{a}) \end{pmatrix}= \begin{pmatrix} \sum_{i=1}^{m}\frac{\partial f}{\partial x_{i}}(\bar{b})\frac{\partial g_{i}}{\partial x_{1}}(\bar{a}) & \dots & \sum_{i=1}^{m}\frac{\partial f}{\partial x_{i}}(\bar{b})\frac{\partial g_{i}}{\partial x_{n}}(\bar{a}) \end{pmatrix}. \]

En otras palabras, tenemos las siguientes ecuaciones para calcular cada derivada parcial de $h$: \[ \frac{\partial h}{\partial x_{j}}(\bar{a})=\sum_{i=1}^{m}\frac{\partial f}{\partial x_{i}}(\bar{b})\frac{\partial g_{i}}{\partial x_{j}}(\bar{a}).\]

$\triangle$

Ejemplo 2. Sean $\bar{a}=(s,t)$ y $\bar{b}=(x,y)$ puntos en $\mathbb{R}^{2}$. Pensemos que las entradas de $\bar{b}$ están dadas en función de las entradas de $\bar{a}$ mediante las ecuaciones $x=g_{1}(s,t)$ y $y=g_{2}(s,t)$. Pensemos que tenemos un campo escalar $f:\mathbb{R}^2\to \mathbb{R}$, y definimos $h:\mathbb{R}^2\to \mathbb{R}$ mediante $$h(s,t)=f(g_{1}(s,t),g_{2}(s,t)).$$

Por el ejemplo anterior \[ \frac{\partial h}{\partial s}=\frac{\partial f}{\partial x}\frac{\partial x}{\partial s}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial s} \] y \[ \frac{\partial h}{\partial t}=\frac{\partial f}{\partial x}\frac{\partial x}{\partial t}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial t}. \] Como tarea moral queda que reflexiones qué significa $\partial x$ cuando aparece en el «numerador» y qué significa cuando aparece en el «denominador».

$\triangle$

Ejemplo 3. Para un campo escalar $f(x,y)$ consideremos un cambio de coordenadas $x=rcos\theta$, $y=rsen\theta$ es decir tomemos la función $\phi (r,\theta)=f(rcos\theta ,rsen\theta )$.

Por el ejemplo anterior tenemos \[ \frac{\partial \phi }{\partial r}=\frac{\partial f}{\partial x}\frac{\partial x}{\partial r}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial r} \] y \[ \frac{\partial \phi }{\partial \theta }=\frac{\partial f}{\partial x}\frac{\partial x}{\partial \theta }+\frac{\partial f}{\partial y}\frac{\partial y}{\partial \theta } \] donde, haciendo las derivadas parciales tenemos: \[ \frac{\partial x}{\partial r}=cos\theta ,\hspace{1cm}\frac{\partial y}{\partial r}=sen\theta \] y \[ \frac{\partial x}{\partial \theta }=-rsen\theta,\hspace{1cm}\frac{\partial y}{\partial \theta }=-rcos\theta. \] Finalmente obtenemos: \[ \frac{\partial \phi }{\partial r }=\frac{\partial f }{\partial x }cos\theta +\frac{\partial f }{\partial y }sen\theta \] y \[ \frac{\partial \phi }{\partial \theta }=-\frac{\partial f }{\partial x }rsen\theta +\frac{\partial f }{\partial y }rcos\theta \] que son las derivadas parciales del cambio de coordenadas en el dominio de $f$.

$\triangle$

Mas adelante…

En la siguiente entrada comenzaremos a desarrollar la teoría para los importantes teoremas de la función inversa e implícita si tienes bien estudiada esta sección disfrutaras mucho de las siguientes.

Tarea moral

  1. Considera el campo escalar $F(x,y,z)=x^{2}+y sen(z)$. Imagina que $x,y,z$ están dados por valores $u$ y $v$ mediante las condiciones $x=u+v$, $y=vu$, $z=u$. Calcula $\frac{\partial F}{\partial u}$, $\frac{\partial F}{\partial v}$.
  2. Sea $g(x,y,z)=(xy,x)$, y $f(x,y)=(2x,xy^{2},y)$. Encuentra la matriz jacobiana del campo vectorial $g\circ f$. Encuentra también la matriz jacobiana del campo vectorial $f\circ g$.
  3. En la demostración del lema que dimos, hay un paso que no justificamos: el primero. Convéncete de que es cierto repasando el contenido de la entrada anterior Diferenciabilidad.
  4. Imagina que sabemos que la función $f:\mathbb{R}^n\to \mathbb{R}^n$ es invertible y derivable en $\bar{a}$ con derivada $T_\bar{a}$. Imagina que también sabemos que su inversa $f^{-1}$ es derivable en $\bar{b}=f(\bar{a})$ con derivada $S_\bar{b}$. De acuerdo a la regla de la cadena, ¿Qué podemos decir de $T_\bar{a}\circ S_\bar{b}$? En otras palabras, ¿Cómo son las matrices jacobianas entre sí, en términos de álgebra lineal?
  5. Reflexiona en cómo todas las reglas de la cadena que hemos estudiado hasta ahora son un corolario de la regla de la cadena de esta entrada.

Entradas relacionadas

Cálculo Diferencial e Integral III: Polinomio característico

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior estudiamos las representaciones matriciales de una transformación lineal. Vimos cómo dadas ciertas bases del espacio dominio y codominio, existe un isomorfismo entre matrices y transformaciones lineales. Así mismo, planteamos la pregunta de cómo encontrar bases para que dicha forma matricial sea sencilla. Vimos que unos conceptos cruciales para entender esta pregunta son los de eigenvalor, eigenvector y eigenespacio. Lo que haremos ahora es introducir una nueva herramienta que nos permitirá encontrar los eigenvalores de una transformación: el polinomio característico.

A partir del polinomio característico daremos un método para encontrar también a los eigenvectores y, en algunos casos especiales, encontrar una representación de una transformación lineal como matriz diagonal. Todo lo que hacemos es una versión resumida de lo que se puede encontrar en un curso más completo de álgebra lineal. Dentro del blog, te recomendamos consultar las siguientes entradas:

Polinomio característico

Pensemos en el problema de hallar los eigenvalores de una transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$. Si $\lambda \in \mathbb{R}$ es uno de estos eigenvalores, queremos poder encontrar vectores $\bar{v}\neq \bar{0}$ tales que $T(\bar{v})=\lambda \bar{v}$. Esto sucede si y sólo si $\lambda \bar{v}-T(\bar{v})=\bar{0}$, lo cual sucede si y sólo si $(\lambda \text{Id}-T)(\bar{v})=\bar{0}$, en donde $\text{Id}:\mathbb{R}^n\to \mathbb{R}^n$ es la transformación identidad de $\mathbb{R}^n$ en $\mathbb{R}^n$. Tenemos de esta manera que $\bar{v}$ es un eigenvector si y sólo si $\bar{v}\in \ker(\lambda\text{Id}-T)$.

Si existe $\bar{v}\neq \bar{0}$ tal que $\bar{v}\in \ker(\lambda \text{Id}-T)$; entonces $\ker(\lambda \text{Id}-T)\neq \{ \bar{0}\}$ por lo cual la transformación $\lambda \text{Id}-T$ no es invertible, pues no es inyectiva. Así, en ninguna base $\text{Mat}_\beta(\lambda \text{Id}-T)$ es invertible, y por tanto su determinante es $0$. Estos pasos son reversibles. Concluimos entonces que $\lambda\in \mathbb{R}$ es un eigenvalor de $T$ si y sólo si en alguna base $\beta$ se cumple que $\det(\text{Mat}_\beta(\lambda \text{Id} – T))=0.$ Esto motiva la siguiente definición.

Definición. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal. Llamamos a $\det(\text{Mat}_\beta(\lambda \text{Id} – T))$ al polinomio característico de $T$ en la base $\beta$.

Por la discusión anterior, los escalares que cumplen $\det(\text{Mat}_\beta(\lambda \text{Id} – T))=0$ son los eigenvalores $T$. Para obtener los correspondientes eigenvectores, basta con resolver $\text{Mat}_\beta(T)X=\lambda X$, lo cual es un sistema de ecuaciones en el vector de variables $X$. Las soluciones $X$ nos darán las representaciones matriciales de vectores propios $\bar{v}\in \mathbb{R}^n$ en la base $\beta$.

Por el momento parece ser que tenemos mucha notación, pues debemos considerar la base en la que estamos trabajando. Un poco más adelante veremos que en realidad la base no importa mucho para determinar el polinomio característico. Pero por ahora, veamos un ejemplo concreto de las ideas platicadas hasta ahora.

Ejemplo: Consideremos $T:\mathbb{R}^{3}\rightarrow \mathbb{R}^{3}$ dada por $T(x,y,z)=(2x+z,y+x,-z)$. Calculemos su representación matricial con respecto a la base canónica $\beta$. Para ello, realizamos las siguientes evaluaciones:
\begin{align*}
T(1,0,0)&=(2,1,0)\\
T(0,1,0)&=(0,1,0)\\
T(0,0,1)&=(1,0,-1),
\end{align*}

de donde: $$\text{Mat}_\beta=\begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix}.$$

Calculando el polinomio característico obtenemos: \[ det\begin{pmatrix} \lambda-2 & 0 & -1 \\ -1 & \lambda-1 & 0 \\ 0 & 0 & \lambda+1 \end{pmatrix}= (\lambda-2)(\lambda-1)(\lambda+1). \]

Las raíces de $(\lambda-2)(\lambda-1)(\lambda+1)$ son $\lambda_{1}=2$, $\lambda_{2}=1$ y $\lambda_{3}=-1$. Pensemos ahora en quiénes son los eigenvectores asociados a cada eigenvalor. Tomemos como ejemplo el eigenvalor $\lambda=2$. Para que $(x,y,z)$ represente a un eigenvector en la base canónica, debe pasar que:

\[ \begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = 2\begin{pmatrix} x \\ y \\ z \end{pmatrix},\]

lo cual sucede si y sólo si:

\[\begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} – 2\begin{pmatrix} x \\ y \\ z \end{pmatrix}= \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix};\]

\[\left[ \begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} – 2\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}\right] \begin{pmatrix} x \\ y \\ z \end{pmatrix}= \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix};\]

\[\begin{pmatrix} 0 & 0 & 1 \\ 1 & -1& 0 \\ 0 & 0 & -3 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}.\]

De aquí, podemos llegar a la siguiente forma escalonada reducida del sistema de ecuaciones:

\[\begin{pmatrix} 1 & -1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}.\]

En esta forma es sencillo leer las soluciones. Tenemos que $z$ es variable pivote con $z=0$, que $y$ es variable libre, y que $x$ es variable pivote dada por $x=y$. Concluimos entonces que todos los posibles eigenvectores para el eigenvalor $2$ son de la forma $(y,y,0)$, es decir $E_2=\{(y,y,0): y \in \mathbb{R}\}$.

Queda como tarea moral que encuentres los eigenvectores correspondientes a los eigenvalores $1$ y $-1$.

$\triangle$

Matrices similares

En la sección anterior definimos el polinomio de una transformación lineal en términos de la base que elegimos para representarla. En realidad, la base elegida no es muy importante. Demostraremos un poco más abajo que dos representaciones matriciales cualesquiera de una misma transformación lineal tienen el mismo polinomio característico. Para ello, comencemos con la siguiente discusión.

Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal y sean $\beta_1=\{ \bar{e}_{1}, \dots , \bar{e}_{n}\}$, $\beta_2=\{ \bar{u}_{1}, \dots , \bar{u}_{n}\}$ dos bases (ordenadas) de $\mathbb{R}^n$. Supongamos que:

\begin{align*}
A&=\text{Mat}_{\beta_1}(T)=[a_{ij}]\\
B&=\text{Mat}_{\beta_2}(T)=[b_{ij}].
\end{align*}

Por cómo se construyen las matrices $A$ y $B$, tenemos que:

\begin{align*}
T(\bar{e}_j)&=\sum_{i=1}^n a_{ij} \bar{e}_i\quad\text{para $j=1,\ldots,n$}\\
T(\bar{u}_k)&=\sum_{j=1}^n b_{jk} \bar{u}_j\quad\text{para $k=1,\ldots,n$}.
\end{align*}

Como $\beta_{1}$ es base, podemos poner a cada un de los $\bar{u}_k$ de $\beta_{2}$ en términos de la base $\beta_{1}$ mediante combinaciones lineales, digamos:

\begin{equation}
\bar{u}_{k}=\sum_{j=1}^{n}c_{jk}\bar{e}_{j}
\label{eq:valor-u}
\end{equation}

en donde los $c_{jk}$ son escalares para $j=1,\ldots, n$ y $k=1,\ldots,n$. La matriz $C$ de $n\times n$, con entradas $c_{jk}$ representa a una transformación lineal invertible, ya que es una transformación que lleva uno a uno los vectores de una base a otra. Afirmamos que $CB=AC$. Para ello, tomaremos una $k$ en $[n]$ y expresaremos $T(\bar{u}_k)$ de dos formas distintas.

Por un lado, usando \eqref{eq:valor-u} y por como es cada $T(\bar{e}_k)$ en la base $\beta_{1}$ tenemos que:

\begin{align*}
T(\bar{u}_k)&=\sum_{j=1}^n c_{jk} T(\bar{e}_j)\\
&=\sum_{j=1}^n c_{jk} \sum_{i=1}^n a_{ij} \bar{e}_i\\
&=\sum_{j=1}^n \sum_{i=1}^n (c_{jk} a_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \sum_{j=1}^n (c_{jk} a_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \left(\sum_{j=1}^n a_{ij} c_{jk}\right) \bar{e}_i.
\end{align*}

Por otro lado, usando $\eqref{eq:valor-u}$ y por como es cada $T(\bar{u}_k)$ en la base $\beta_{2}$:

\begin{align*}
T(\bar{u}_k)&=\sum_{j=1}^nb_{jk} \bar{u}_j\\
&=\sum_{j=1}^n b_{jk} \sum_{i=1}^{n}c_{ji}\bar{e}_{j} \\
&=\sum_{j=1}^n \sum_{i=1}^n (b_{jk} c_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \sum_{j=1}^n (b_{jk} c_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \left(\sum_{j=1}^n c_{ij} b_{jk} \right) \bar{e}_i.
\end{align*}

Comparemos ambas expresiones para $T(\bar{u}_k)$. La primera es una combinación lineal de los $\bar{e}_i$ y la segunda también. Como $T(\bar{u}_k)$ tiene una única expresión como combinación lineal de los $\bar{e}_i$, entonces los coeficientes de la combinación lineal deben coincidir. Concluimos que para cada $i$ se cumple:

$$\sum_{j=1}^n a_{ij} c_{jk}=\sum_{j=1}^n c_{ij} b_{jk}.$$

Pero esto precisamente nos dice que la entrada $(i,k)$ de la matriz $AC$ es igual a la entrada $(i,k)$ de la matriz $CB$. Con esto concluimos que $AC=CB$, como queríamos.

En resumen, obtuvimos que para dos matrices $A$ y $B$ que representan a la misma transformación lineal, existe una matriz invertible $C$ tal que: $B=C^{-1}AC$. Además $C$ es la matriz con entradas dadas por \eqref{eq:valor-u}.

Introduciremos una definición que nos permitirá condensar en un enunciado corto el resultado que hemos obtenido.

Definición. Dos matrices $A$ y $B$ se llamarán similares (o semejantes), cuando existe otra matriz $C$ invertible tal que $B=C^{-1}AC$.

Sintetizamos nuestro resultado de la siguiente manera.

Proposición. Si dos matrices representan a la misma transformación lineal, entonces estas matrices son similares.

El recíproco de la proposición también se cumple, tal y como lo afirma el siguiente resultado.

Proposición. Sean $A$ y $B$ matrices similares. Entonces $A$ y $B$ representan a una misma transformación lineal $T$, quizás bajo distintas bases.

Demostración: Supongamos que las matrices $A$ y $B$ son similares con $B=C^{-1}AC$, donde las matrices $A$, $B$, $C$ están dadas por entradas $A=[a_{ij}]$ $B=[b_{ij}]$, $C=[c_{jk}]$. Tomemos una base ordenada $\beta=\{\bar{e}_{1}, \dots ,\bar{e}_{n}\}$ de $\mathbb{R}^n$. Consideremos la transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^n)$ dada por $$T(\bar{e}_j)=\sum_{i=1}^n a_{ij} \bar{e}_i.$$

De esta manera $T$ tiene forma matricial $A$ en la base $\beta$.

Construyamos ahora una nueva base ordenada de $\mathbb{R}^n$ dada por vectores $\bar{u}_k$ para $k=1,\ldots,n$ construidos como sigue:

$$\bar{u}_{k}=\sum_{j=1}^{n}c_{jk}\bar{e}_{j}.$$

Como $C$ es invertible, en efecto tenemos que $\beta’:=\{\bar{u}_1,\ldots,\bar{u}_n\}$ también es base de $\mathbb{R}^n$. Además, de acuerdo con las cuentas que hicimos anteriormente, tenemos que precisamente la forma matricial de $T$ en la base $\beta’$ será $B$.

Así, hemos exhibido una transformación $T$ que en una base tiene representación $A$ y en otra tiene representación $B$.

$\square$

Juntando ambos resultados en uno solo, llegamos a lo siguiente.

Teorema. Dos matrices $A$ y $B$ en $M_n(\mathbb{R})$ son similares si y sólo si representan a una misma transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$, quizás bajo distintas bases.

El polinomio característico no depende de la base

Si dos matrices son similares, entonces comparten varias propiedades relevantes para el álgebra lineal. Veamos un ejemplo de esto.

Teorema. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal en un espacio sobre $\mathbb{R}$ de dimensión finita. Sean $\beta$ y $\beta’$ bases de $\mathbb{R}^n$. Entonces se obtiene lo mismo calculando el polinomio característico de $T$ en la base $\beta$, que en la base $\beta’$.

Demostración. Tomemos $A=\text{Mat}_{\beta}(T)$ y $B=\text{Mat}_{\beta’}(T)$. Como $A$ y $B$ representan a la misma transformación lineal $T$, entonces son similares y por lo tanto existe $C$ invertible con $B=C^{-1}AC$.

Para encontrar el polinomio característico de $T$ en la base $\beta$, necesitamos $\Mat_{\beta}(\lambda\text{Id}-T)$, que justo es $\lambda I -A$. Así mismo, en la base $\beta’$ tenemos $\lambda I – B$. Debemos mostrar que el determinante de estas dos matrices es el mismo. Para ello, procedemos como sigue:

\begin{align*}
\det(\lambda I -B) &= \det (\lambda C^{-1}C – C^{-1} A C)\\
&=\det(C^{-1}(\lambda I – A) C)\\
&=\det(C^{-1})\det(\lambda I – A) \det(C)\\
&=\det(C^{-1})\det(C)\det(\lambda I-A)\\
&=\det(I)\det(\lambda I-A)\\
&=\det(\lambda I-A).
\end{align*}

Aquí estamos usando que el determinante es multiplicativo. Cuando reordenamos expresiones con $\det$, lo hicimos pues los determinantes son reales, cuyo producto es conmutativo.

$\square$

Este teorema nos permite hablar del polinomio característico de una transformación lineal.

Concluimos esta entrada con un resultado que relaciona al polinomio característico de una transformación lineal, con la posibilidad de que exista una base cuya representación matricial sea diagonal.

Teorema. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal. Supongamos que el polinomio característico de $T$ tiene raíces distintas $\lambda_{1}, \dots ,\lambda_{n}$. Entonces se cumple lo siguiente:

  1. Si tomamos un eigenvector $\bar{u}_i$ para cada eigenvalor $\lambda_i$, entonces $\bar{u}_{1},\dots ,\bar{u}_{n}$ forman una base $\beta$ para $\mathbb{R}^n$.
  2. Con dicha base $\beta$, se cumple que $\text{Mat}_\beta(T)$ es una matriz diagonal con entradas $\lambda_{1},\dots ,\lambda_{n}$ en su diagonal.
  3. Si $\beta’$ es otra base de $\mathbb{R}^n$ y $A=\text{Mat}_{\beta’}(T)$, entonces $\text{Mat}_\beta(T) = C^{-1}AC$ para una matriz invertible $C$ con entradas dadas por \eqref{eq:valor-u}.

La demostración de este resultado queda como tarea moral.

Más adelante…

En la entrada planteamos entonces un método para encontrar los eigenvectores de una transformación $T$: 1) la transformamos en una matriz $A$, 2) encontramos el polinomio característico mediante $\det(\lambda I – A)$, 3) encontramos las raíces de este polinomio, 4) cada raíz es un eigenvalor y las soluciones al sistema lineal de ecuaciones $(\lambda I – A) X=0$ dan los vectores coordenada de los eigenvectores.

Como platicamos en la entrada, una condición suficiente para que una transformación de $\mathbb{R}^n$ a sí mismo sea diagonalizable es que tenga $n$ eigenvalores distintos. Otro resultado muy bonito de álgebra lineal es que si la transformación tiene alguna forma matricial simétrica, entonces también es diagonalizable. A esto se le conoce como el teorema espectral para matrices simétricas reales. En otros cursos de álgebra lineal se estudia la diagonalizabilidad con mucho detalle. Aquí en el blog puedes consultar el curso de Álgebra Lineal II.

Otra herramienta de álgebra lineal que usaremos en el estudio de la diferenciabilidad y continuidad de las funciones de $\mathbb{R}^{n}$ a $\mathbb{R}^{m}$ son las formas bilineales y las formas cuadráticas. En la siguiente entrada comenzaremos con estos temas.

Tarea moral

  1. Encuentra los eigenvectores faltantes del ejemplo de la sección de polinomio característico.
  2. Considera la transformación lineal $T(x,y,z)=(2x+z,y+x,-z)$ de $\mathbb{R}^3$ en $\mathbb{R}^3$. Nota que es la misma que la del ejemplo de la entrada. Encuentra su representación matricial con respecto a la base $\{(1,1,1),(1,2,3),(0,1,1)\}$ de $\mathbb{R}^3$. Verifica explícitamente que, en efecto, al calcular el polinomio característico con esta base se obtiene lo mismo que con la dada en el ejemplo.
  3. Demuestra que si $A$ y $B$ son dos representaciones matriciales de una misma transformación lineal $T$, entonces $\det(A)=\det(B)$.
  4. Sea $T:\mathbb{R}^{3}\to \mathbb{R}^{3}$ dada por $T(x,y,z)=(x+y+z,x,y)$. Encuentra los eigenvalores correspondientes a la transformación, y responde si es posible representarla con una matriz diagonal. En caso de que sí, encuentra explícitamente la base $\beta$ en la cual $\text{Mat}_{\beta}(T)$ es diagonal.
  5. Demuestra el último teorema de la entrada. Necesitarás usar resultados de la entrada anterior.

Entradas relacionadas

Álgebra Lineal I: Aplicaciones del teorema espectral, bases ortogonales y más propiedades de transformaciones lineales

Por Blanca Radillo

Introducción

Hoy es la última clase del curso. Ha sido un semestre difícil para todas y todos. El quedarnos en casa, obligados a buscar alternativas digitales que sean de fácil acceso para la mayoría de las personas, aprender a realizar toda nuestra rutina diaria en un mismo espacio; sin dudarlo, un semestre lleno de retos que de una u otra manera, haciendo prueba y error, hemos aprendido a sobrellevar.

El día de hoy terminaremos con el tema de teoría espectral. Veremos algunos problemas donde usaremos las técnicas de búsqueda de eigenvalores y eigenvectores, así como aplicaciones de uno de los teoremas más importante: el Teorema Espectral.

Matrices simétricas, matrices diagonalizables

En entradas anteriores hemos discutido sobre qué condiciones me garantizan que una matriz $A$ es diagonalizable. No volveremos a repetir cuál es la definición de matriz diagonalizable ya que en múltiples ocasiones lo hicimos.

Sabemos que una matriz simétrica en $M_n(\mathbb{R})$ siempre es diagonalizable, gracias al teorema espectral, pero el siguiente problema nos ilustra que si cambiamos de campo $F$, no tenemos la garantía de que las matrices simétricas en $M_n(F)$ también lo sean.

Problema 1. Demuestra que la matriz simétrica con coeficientes complejos

$A=\begin{pmatrix} 1 & i \\ i & -1 \end{pmatrix}$

no es diagonalizable.

Solución. Por la primera proposición de la clase «Eigenvalores y eigenvectores de transformaciones y matrices», si $A$ fuese diagonalizable, es decir, que existe una matriz invertible $P$ y una diagonal $D$ tal que $A=P^{-1}DP$, entonces $A$ y $D$ tienen los mismos eigenvalores. Entonces, encontremos los eigenvalores de $A$: buscamos $\lambda \in \mathbb{C}$ tal que $\text{det}(\lambda I-A)=0$,

\begin{align*}
\text{det}(\lambda I-A)&=\begin{vmatrix} \lambda -1 & i \\ i & \lambda +1 \end{vmatrix} \\
&=(\lambda-1)(\lambda+1)-i^2=\lambda^2 -1+1 \\
&=\lambda^2=0.
\end{align*}

Por lo tanto, el eigenvalor con multiplicidad 2 de $A$ (y también el eigenvalor de $D$) es $\lambda =0$. Si $D$ es de la forma

$D=\begin{pmatrix} a & 0 \\ 0 & b \end{pmatrix}$,

es fácil ver (y calcular) que sus eigenvalores son $a$ y $b$, pero por lo anterior, podemos concluir que $a=b=0$, y por lo tanto $D$ es la matriz cero. Si fuese así, $A=P^{-1}DP=0$, contradiciendo la definición de $A$.

$\square$

Problema 2. Sea $A$ una matriz simétrica con entradas reales y supongamos que $A^k=I$ para algún entero positivo $k$. Prueba que $A^2=I$.

Solución. Dado que $A$ es simétrica y con entradas reales, todos sus eigenvalores son reales. Más aún son $k$-raíces de la unidad, entonces deben ser $\pm 1$. Esto implica que todos los eigenvalores de $A^2$ son iguales a 1. Dado que $A^2$ también es simétrica, es diagonalizable y, dado que sus eigenvalores son iguales a 1, por lo tanto $A^2=I$.

$\square$

Más propiedades de transformaciones lineales y bases ortogonales

En otras clases como Cálculo, Análisis, hablamos de funciones continuas, discontinuas, acotadas, divergentes; mientras que en este curso nos hemos enfocado únicamente en la propiedad de linealidad de las transformaciones. Si bien no es interés de este curso, podemos adelantar que, bajo ciertas condiciones del espacio $V$, podemos tener una equivalencia entre continuidad y acotamiento de una transformación.

Decimos que la norma de una transformación está definida como

$\norm{T}=\sup_{x\in V\setminus{0}} \frac{\norm{T(x)}}{\norm{x}}$.

Por ende, decimos que una transformación es acotada si su norma es acotada, $\norm{T}<\infty$.

Problema 1. Sea $V$ un espacio euclideano y sea $T$ una transformación lineal simétrica en $V$. Sean $\lambda_1,\ldots,\lambda_n$ los eigenvalores de $T$. Prueba que

$\sup_{x\in V\setminus{0}} \frac{\norm{T(x)}}{\norm{x}} =\max_{1\leq i\leq n} |\lambda_i|.$

Solución. Renumerando a los eigenvalores, podemos decir que $\max_i |\lambda_i|=|\lambda_n|$. Sea $e_1,\ldots,e_n$ una base ortonormal de $V$ tal que $T(e_i)=\lambda_i e_i$ para todo $i$. Si $x\in V\setminus {0}$, podemos escribirlo como $x=x_1e_1+\ldots+x_n e_n$ para algunos reales $x_i$. Entonces, por linealidad de $T$,

$T(x)=\sum_{i=1}^n \lambda_i x_ie_i.$

Dado que $|\lambda_i|\leq |\lambda_n|$ para toda $i$, tenemos que

$\frac{\norm{T(x)}}{\norm{x}}=\sqrt{\frac{\sum_{i=1}^n \lambda_i^2 x_i^2}{\sum_{i=1}^n x_i^2}}\leq |\lambda_n|,$

por lo tanto

\begin{align*}
\max_{1\leq i\leq n} |\lambda_i|&=|\lambda_n|=\frac{\norm{T(e_n)}}{\norm{e_n}}\\
&\leq \sup_{x\in V\setminus{0}} \frac{\norm{T(x)}}{\norm{x}}\\
&\leq |\lambda_n|= \max_{1\leq i\leq n} |\lambda_i|.
\end{align*}

Obteniendo lo que queremos.

$\square$

Para finalizar, no olvidemos que una matriz es diagonalizable si y sólo si el espacio tiene una base de eigenvectores, y que está íntimamente relacionado con el teorema espectral.

Problema 2. Encuentra una base ortogonal consistente con los eigenvectores de la matriz

$A=\frac{1}{7}\begin{pmatrix} -2 & 6 & -3 \\ 6 & 3 & 2 \\ -3 & 2 & 6 \end{pmatrix}.$

Solución. Para encontrar los eigenvectores, primero encontrar los eigenvalores y, después, para cada eigenvalor, encontrar el/los eigenvectores correspondientes.

Calculemos:

\begin{align*}
0&=\text{det}(\lambda I-A)=\begin{vmatrix} \lambda+2/7 & -6/7 & 3/7 \\ -6/7 & \lambda-3/7 & -2/7 \\ 3/7 & -2/7 & \lambda-6/7 \end{vmatrix} \\
&= \lambda^3-\lambda^2-\lambda+1 \\
&= (\lambda -1)(\lambda^2 -1),
\end{align*}

entonces los eigenvalores de $A$ son $1,-1$, ($\lambda=1$ tiene multiplicidad 2).

Ahora, hay que encontrar los vectores $v=(x,y,z)$ tal que $Av=\lambda v$, para todo eigenvalor $\lambda$.

Si $\lambda=-1$,

$(\lambda I-A)v=\frac{1}{7}\begin{pmatrix} -5 & -6 & 3 \\ -6 & -10 & -2 \\ 3 & -2 & -13 \end{pmatrix}v=0, $

reduciendo, obtenemos que $v=(3\alpha, -2\alpha, \alpha)$ para todo $\alpha\in \mathbb{R}$.

Si $\lambda=1$, resolviendo de la misma manera $(\lambda I-A)v=(I-A)v=0$, tenemos que $v=(\beta,\gamma,-3\beta+2\gamma)$ para todo $\beta,\gamma$. Entonces el conjunto de eigenvectores es

$B=\{ v_1=(3,-2,1), \quad v_2=(1,0,-3), \quad v_3=(0,1,2) \}.$

Es fácil ver que el conjunto $B$ es linealmente independiente, más aún $\text{dim}(\mathbb{R}^3)=3=|B|$, por lo tanto, $B$ es la base consistente con los eigenvectores de $A$.

$\triangle$

Agradecemos su esfuerzo por llegar hasta el final a pesar de todas las adversidades. Esperamos pronto volver a ser sus profesores/ayudantes. Mucha suerte en la última parcial, es el último esfuerzo. Pero también les deseamos mucho éxito en su proyecto de vida. ¡Gracias!

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»