Archivo de la etiqueta: diagonalizable

Cálculo Diferencial e Integral III: Introducción al teorema de la función inversa

Por Alejandro Antonio Estrada Franco

Introducción

Estamos a punto de entrar a discutir dos de los resultados principales de nuestro curso: el teorema de la función inversa y el teorema de la función implícita. Repasemos un poco qué hemos hecho hasta ahora. En las dos entradas anteriores introdujimos la noción de diferenciabilidad, la cual cuando sucede para una función $f:\mathbb{R}^n\to \mathbb{R}^m$, nos dice que $f$ se parece mucho a una función lineal en un punto dado. Vimos que esta noción implica continuidad y que tiene una regla de la cadena relacionada con el producto de matrices. También, hemos discutido cómo esta noción se relaciona con la existencia de espacios tangentes a gráficas multidimensionales.

Ahora queremos entender todavía mejor a las funciones diferenciables. Hay dos teoremas que nos permiten hacer eso. Uno es el teorema de la función inversa y el otro es el teorema de la función implícita. En esta entrada hablaremos del primero, y en un par de entradas más introduciremos el segundo resultado. El propósito del teorema de la función inversa es dar una condición bajo la cual una función es invertible, por lo menos localmente. De hecho, la mayoría de las veces sólo se puede garantizar la invertibilidad localmente, pues las funciones usualmente no son inyectivas y esto da comportamientos globales más difíciles de manejar.

Enunciar el teorema y entenderlo requiere de cierto esfuerzo. Y demostrarlo todavía más. Por esta razón, en esta entrada nos enfocaremos sólo en dar el teorema y presentar herramientas preliminares que necesitaremos para hacer su demostración.

Enunciado del teorema de la función inversa

Supongamos que tenemos $f:\mathbb{R}^n\to \mathbb{R}^n$ y que es diferenciable en el punto $\bar{a}$. Entonces, $f$ se parece mucho a una función lineal en $\bar{a}$, más o menos $f(\bar{x})\approx f(\bar{a}) + T_{\bar{a}}(\bar{x}-\bar{a})$. Así, si $T_{\bar{a}}$ es invertible, suena a que «cerquita de $\bar{a}$» la función $f(\bar{x})$ debe de ser invertible. El teorema de la función inversa pone estas ideas de manera formal.

Teorema (de la función inversa). Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el abierto $S$. Si la matriz $Df(\bar{a})$ es invertible, entonces, existe $\delta >0$ tal que:

  1. $B_{\delta}(\bar{a})\subseteq S$ y $f$ es inyectiva en $B_{\delta}(\bar{a})$.
  2. $f^{-1}:f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ es continua en $f(B_{\delta}(\bar{a}))$.
  3. $f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}$ es un conjunto abierto.
  4. $f^{-1}$ es de clase $C^{1}$ en $f(B_{\delta}(\bar{a}))$ y además, si $\bar{x}=f(\bar{v})\in f(B_{\delta}(\bar{a}))$, entonces, $Df^{-1}(\bar{x})=Df^{-1}(f(\bar{v}))=(Df(\bar{v}))^{-1}$.

Veamos qué nos dice de manera intuitiva cada una de las conclusiones del teorema.

  1. Tendremos una bola $B_\delta(\bar{a})$ dentro de la cual $f$ será inyectiva, y por lo tanto será biyectiva hacia su imagen. Así, $f$ restringida a esta bola será invertible. Es importante que sea una bola abierta, porque entonces sí tenemos toda una región «gordita» en donde pasa la invertibilidad (piensa que si fuera un cerrado, a lo mejor sólo es el punto $\bar{a}$ y esto no tiene chiste).
  2. La inversa $f^{-1}$ que existirá para $f$ será continua. Esto es lo mínimo que podríamos esperar, aunque de hecho el punto $4$ garantiza algo mucho mejor.
  3. La imagen de $f$ en la bola $B_\delta(\bar{a})$ será un conjunto abierto.
  4. Más aún, se tendrá que $f^{-1}$ será de clase $C^1$ y se podrá dar de manera explícita a su derivada en términos de la derivada de $f$ con una regla muy sencilla: simplemente la matriz que funciona para derivar $f$ le sacamos su inversa como matriz y esa funciona al evaluarla en el punto apropiado.

El teorema de la función inversa es profundo pues tanto su enunciado como su demostración combina ideas de topología, álgebra y cálculo. Por esta razón, para su demostración necesitaremos recopilar varias de las herramientas de álgebra lineal que hemos repasado en la Unidad 2 y la Unidad 5. Así mismo, necesitaremos ideas topológicas de las que hemos visto en la Unidad 3. Con ellas desarrollaremos algunos resultados auxiliares que en la siguiente entrada nos permitirán concluir la demostración.

Un criterio para campos vectoriales $C^1$

El teorema de la función inversa es para funciones de clase $C^1$. Nos conviene entender esta noción mejor. Cuando una función $f$ es de clase $C^1$, entonces es diferenciable. Pero el regreso no es cierto y hay contraejemplos. ¿Qué le falta a una función diferenciable para ser de clase $C^1$? A grandes rasgos, que las funciones derivadas $T_\bar{a}$ y $T_\bar{b}$ hagan casi lo mismo cuando $\bar{a}$ y $\bar{b}$ son cercanos. En términos de matrices, necesitaremos que la expresión $||(Df(\bar{a})-Df(\bar{b}))(\bar{x})||$ sea pequeña cuando $\bar{a}$ y $\bar{b}$ son cercanos entre sí.

El siguiente teorema será importante en nuestro camino hacia el teorema de la función inversa. Intuitivamente, para lo que lo usaremos es para aproximar una función $f$ localmente, con «cuadritos» que corresponden a los planos tangentes, porque «muy cerquita» estos planos varían muy poco si pedimos que $f$ sea de clase $C^1$. Es decir si $\bar{a}$ y $\bar{b}$ son dos puntos en el dominio de una función diferenciable, y estos están muy cerca uno del otro, sus planos tangentes serán casi el mismo. Esto nos invita a cambiar localmente a una superficie por cuadritos como más adelante se explicará con detalle.

Figura 1. En azul y en rojo dos planos que corresponden a las derivadas $T_{\bar{a}}$ y $T_{\bar{b}}$. Este cambio calculado es distintos puntos cercanos es «suave», esto se expresará con la ecuación $||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\leq \epsilon ||\bar{x}||$ ya con las diferenciales para todo $\bar{x}$.

El teorema concreto que nos interesa demostrar es la siguiente equivalencia para que una función sea de clase $C^1$.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ una función diferenciable en $S$. Se tiene que $f$ es de clase $C^{1}$ en $S$ si y sólo si para todo $\bar{a}\in S$ y para cada $\varepsilon >0$ existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, y si $\bar{b}\in B_{\delta}(\bar{a})$ se tiene $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq \varepsilon ||\bar{x}||$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. $\Rightarrow).$ Supongamos que $f$ es de clase $C^1$ en $S$, es decir, todas sus funciones componentes tienen derivadas parciales en $S$ y son continuas. Sea $\varepsilon>0$. Veremos que se puede encontrar una $\delta$ como en el enunciado.

Tomemos $\bar{a}$ y $\bar{b}$ en $S$. Expresamos a $(Df(\bar{b})-Df(\bar{a}))(\bar{x})$ como

\begin{align*}
\begin{pmatrix} \frac{\partial f_{1}}{\partial x_{1}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{1}}{\partial x_{n}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \dots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{m}}{\partial x_{n}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}\begin{pmatrix} x_{1} \\ \vdots \\ x_{n}\end{pmatrix}
\end{align*}

o equivalentemente como

\begin{align*}
\begin{pmatrix} \left( \triangledown f_{1}(\bar{b})-\triangledown f_{1}(\bar{a})\right) \cdot \bar{x} \\ \vdots \\ \left( \triangledown f_{m}(\bar{b})-\triangledown f_{m}(\bar{a})\right) \cdot \bar{x} \end{pmatrix}.
\end{align*}

De tal manera que por Cauchy-Schwarz:

\begin{align*}
||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||^2&=\sum_{i=1}^m (\left( \triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})\right)\cdot \bar{x})^2\\
&\leq \sum_{i=1}^m ||\triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})||^2||\bar{x}||^2\\
&=||\bar{x}||^2 \sum_{i=1}^m ||\triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})||^2\\
&=||\bar{x}||^2 \sum_{i=1}^m \sum_{j=1}^{n}\left( \frac{\partial f_{i}}{\partial x_{j}}(\bar{b})-\frac{\partial f_{i}}{\partial x_{j}}(\bar{a})\right) ^{2}
\end{align*}

En este punto se ve la importancia de que las parciales sean continuas. Podemos encontrar una $\delta$ que nos garantice que $B_\delta\subseteq S$ y que si $||\bar{b}-\bar{a}||<\delta$, entonces $$\left| \frac{\partial f_{i}}{\partial x_{j}}(\bar{b})-\frac{\partial f_{i}}{\partial x_{j}}(\bar{a}) \right| < \frac{\varepsilon}{\sqrt{mn}}.$$ En esta situación, podemos seguir acotando $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||^2$ como sigue:
\begin{align*}
&\leq ||\bar{x}|| \sum_{i=1}^m \sum_{j=1}^{n}\frac{\varepsilon^2}{mn}\\
&=\varepsilon^2||\bar{x}||^2.
\end{align*}

Al sacar raiz cuadrada, obtenemos la desigualdad $$||(Df(\bar{b})-Df(\bar{a}))(x)||\leq \varepsilon||\bar{x}||$$ buscada.

$\Leftarrow).$ Supongamos ahora que para cada $\varepsilon$ existe una $\delta$ como en el enunciado del teorema. Debemos ver que todas las derivadas parciales de todas las componentes son continuas. Podemos aplicar la desigualdad $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq ||\bar{x}||\varepsilon$ tomando como $\bar{x}$ cada vector $\hat{e}_i$ de la base canónica. Esto nos dice que

\[ ||Df(\bar{b})(\hat{e}_i)-Df(\bar{a})(\hat{e}_i)||< \varepsilon||\hat{e}_i|| =\varepsilon.\]

Por nuestro desarrollo anterior, para cada $i$ tenemos

\begin{align*}
\varepsilon&>||Df(\bar{b})(\hat{e}_i)-Df(\bar{a})(\hat{e}_i)||\\
&=||\left( \triangledown f_{1}(\bar{b})\cdot \hat{e}_i-\triangledown f_{1}(\bar{a})\cdot \hat{e}_i,\dots ,\triangledown f_{m}(\bar{b})\cdot \hat{e}_i-\triangledown f_{m}(\bar{a})\cdot \hat{e}_i\right)||\\
&=\left| \left|\left( \frac{\partial f_{1}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{i}}(\bar{a}),\dots ,\frac{\partial f_{m}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{i}}(\bar{a})\right) \right| \right|\\
&= \sqrt{\sum_{j=1}^{m}\left(\frac{\partial f_{j}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{j}}{\partial x_{i}}(\bar{a})\right)^{2}}.
\end{align*}

Elevando al cuadrado,

\[ \sum_{j=1}^{m}\left(\frac{\partial f_{j}}{\partial x_{i}}(b)-\frac{\partial f_{j}}{\partial x_{i}}(a)\right)^{2}<\varepsilon ^{2}.\]

Como todos los términos son no negativos, cada uno es menor a $\epsilon^2$. Así, para cada $i,j$ tenemos

\[ \left|\frac{\partial f_{j}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{j}}{\partial x_{i}}(\bar{a})\right|<\varepsilon.\]

Esto es precisamente lo que estábamos buscando: si $\bar{b}$ está lo suficientemente cerca de $\bar{a}$, cada derivada parcial en $\bar{b}$ está cerca de su correspondiente en $\bar{a}$.

$\square$

Invertibilidad de $Df(\bar{a})$ en todo un abierto

En esta sección demostraremos lo siguiente. Si $f:\mathbb{R}^n\to \mathbb{R}^n$ es un campo vectorial diferenciable en $\bar{a}$ y $Df(\bar{a})$ es invertible, entonces $Df(\bar{x})$ será invertible para cualquier $\bar{x}$ alrededor de cierta bola abierta alrededor de $\bar{a}$. Los argumentos en esta ocasión están un poco más relacionados con el álgebra lineal.

Será útil que recuerdes que una transformación lineal $T:\mathbb{R}^n \to \mathbb{R}^n$ es invertible si el único $\bar{x}\in \mathbb{R}^n$ tal que $T(\bar{x})=\bar{0}$ es $\bar{x}=\bar{0}$. El siguiente criterio es otra caracterización de invertibilidad en términos de lo que le hace $T$ a la norma de los vectores.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ una transformación lineal. La transformación $T$ es invertible si y sólo si existe $\varepsilon >0$ tal que $$||T(\bar{x})||\geq \varepsilon ||\bar{x}||$$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. $\left. \Rightarrow \right)$ Como $T$ es invertible, para todo $\bar{x}\neq \bar{0}$ sucede que $T(\bar{x})\neq \bar{0}$. En particular, esto sucede para todos los vectores en $S^{n-1}$ (recuerda que es la esfera de radio $1$ y dimensión $n-1$ centrada en $\bar{0}$). Esta esfera es compacta y consiste exactamente de los $\bar{x}\in \mathbb{R}^n$ de norma $1$.

Sabemos que las transformaciones lineales y la función norma son continuas. Por la compacidad de $S^{n-1}$, la expresión $||T(\bar{x})||$ tiene un mínimo digamos $\varepsilon$, que alcanza en $S^{n-1}$. Por el argumento del párrafo anterior, $\varepsilon>0$.

Tomemos ahora cualquier vector $\bar{x}\in \mathbb{R}^n$. Si $\bar{x}=\bar{0}$, entonces $$||T(\bar{0})||=||\bar{0}||=0\geq \varepsilon ||\bar{0}||.$$ Si $\bar{x}\neq \bar{0}$, el vector $\frac{\bar{x}}{||\bar{x}||}$ está en $S^{n-1}$, de modo que $$\left|\left|T\left(\frac{\bar{x}}{||\bar{x}||}\right)\right|\right| \geq \varepsilon.$$ Usando linealidad para sacar el factor $||\bar{x}||$ y despejando obtenemos $$||T(\bar{x})||\geq \varepsilon ||\bar{x}||,$$ como estábamos buscando.

$\left. \Leftarrow \right)$ Este lado es más sencillo. Si existe dicha $\varepsilon >0$, entonces sucede que para $\bar{x}$ en $\mathbb{R}^n$, con $\bar{x}\neq \bar{0}$ tenemos $$||T(\bar{x})||\geq \varepsilon||\bar{x}||>0.$$ Por lo tanto, $T(\bar{x})\neq \bar{0}$ y así $T$ es invertible.

$\square$

Obtengamos una consecuencia del teorema de clasificación de la sección anterior que está muy relacionada con este resultado que acabamos de demostrar.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el conjunto abierto $S$ y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces existen $\delta >0$ y $m>0$ tales que $B_{\delta}(\bar{a})\subseteq S$ y $||Df(\bar{b})(\bar{x})||\geq m||\bar{x}||$, para todo $\bar{b}\in B_{\delta}(\bar{a})$ y para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. Como $Df(\bar{a})$ es invertible, por el teorema que acabamos de demostrar existe $\varepsilon’>0$ tal que $$||Df(\bar{a})(\bar{x})||\geq \varepsilon’||\bar{x}||$$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Por nuestra caracterización de funciones $C^1$, Ahora como $f\in C^{1}$ en $S$ (abierto) para $\varepsilon =\frac{\varepsilon’}{2}>0$, existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, y $||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\leq \frac{\varepsilon’}{2}||\bar{x}||$ para todo $\bar{b}\in B_{\delta}(\bar{a})$ y para todo $\bar{x}\in \mathbb{R}^{n}$.

Por la desigualdad del triángulo, \[ ||Df(\bar{a})(\bar{x})-Df(\bar{b})(\bar{x})||+||Df(\bar{b})(\bar{x})||\geq ||Df(\bar{a})(\bar{x})||,\]

de donde

\begin{align*}
||Df(\bar{b})(\bar{x})||&\geq ||Df(\bar{a})(\bar{x})||-||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\\
&\geq \varepsilon’||\bar{x}||-\frac{\varepsilon’}{2}||\bar{x}||\\
&= \frac{\varepsilon’}{2} ||\bar{x}||.
\end{align*}

De esta manera, el resultado es cierto para la $\delta$ que dimos y para $m=\frac{\varepsilon’}{2}$.

$\square$

El siguiente corolario es consecuencia inmediata de lo discutido en esta sección y está escrito de acuerdo a la aplicación que haremos más adelante en la demostración del teorema de la función inversa.

Corolario. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ una función de clase $C^{1}$ en $S$ y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces, existe $\delta > 0$ tal que $B_{\delta}(\bar{a})\subseteq S$ y $Df(\bar{b})$ es invertible para todo $\bar{b}\in B_{\delta}(\bar{a})$.

Queda como tarea moral responder por qué este corolario es consecuencia inmediata del teorema anterior.

Un poco de intuición geométrica

Dejamos esta entrada hasta aquí, la naturaleza densamente teórica de lo que estamos haciendo puede hacer pesadas las exposiciones. Lo que hasta aquí demostramos es que para un campo vectorial $C^1$ si su derivada en $\bar{a}$ es invertible, entonces lo es en toda una vecindad que tiene a $\bar{a}$. Imaginemos al pedacito de superficie $f(B_{\delta}(\bar{a}))$ cubierto con pequeños rectángulos. En cada punto, las imágenes de estos rectángulos están muy cerquita, casi pegados a la superficie. Esto nos garantizaría la invertibilidad de $f$ en esta vecindad.

Figura 2

En la Figura 2 vemos ilustrado esto. El círculo inferior corresponde a la vecindad $B_{\delta}(\bar{a})$ en el dominio de $f$. La función $f$ levanta una porción del plano en la sabana delineada con negro arriba del círculo. En el círculo tenemos al punto $\bar{a}$ en verde agua. Sobre la sábana de arriba tenemos con el mismo color a $f(\bar{a})$. Los puntos negros pequeños dentro de la vecindad alrededor de $\bar{a}$ son alzados por $f$ a puntos negros sobre la sabana. Sobre de cada punto negro en la sabana tenemos un cuadrito rojo que representa al cachito de plano tangente cerca de la imagen de cada punto. La imagen esta llena de estos pequeños cuadritos, todos ellos representan diferenciales invertibles, esto nos permitirá asegurar la invertibilidad de $f$ en al menos una vecindad.

Más adelante…

En la siguiente entrada demostraremos el teorema de la función inversa, inciso por inciso. Es importante que estes familiarizado con los resultados de esta entrada, pues serán parte importante de la demostración.

Tarea moral

  1. ¿Qué diría el teorema de la función inversa para campos vectoriales $f:\mathbb{R}^2\to \mathbb{R}^2$? ¿Se puede usar para $$f(r,\theta)=(r\cos(\theta),r\sin(\theta))?$$ Si es así, ¿para qué valores de $r$ y $\theta$? ¿Qué diría en este caso explícitamente?
  2. Explica por qué el corolario que enunciamos en efecto se deduce de manera inmediata de lo discutido en la sección correspondiente.
  3. Revisa todas las desigualdades que usamos en esta entrada. ¿Qué resultado estamos usando? ¿Cuándo se darían estas igualdades?
  4. Demuestra que el determinante de una matriz es una función continua en términos de las entradas de la matriz. Usa esto para demostrar que si $A\in M_n(\mathbb{R})$ es una matriz y $B$ es una matriz muy cercana a $A$, entonces $B$ también es invertible.
  5. Demuestra que si una transformación $T$ es diagonalizable, entonces en el teorema de caracterización de invertibilidad se puede usar como $\epsilon$ al mínimo de la expresión $|\lambda|$ variando sobre todos los eigenvalores $\lambda$ de $T$.

Entradas relacionadas

Álgebra Lineal I: Aplicaciones del teorema espectral, bases ortogonales y más propiedades de transformaciones lineales

Por Blanca Radillo

Introducción

Hoy es la última clase del curso. Ha sido un semestre difícil para todas y todos. El quedarnos en casa, obligados a buscar alternativas digitales que sean de fácil acceso para la mayoría de las personas, aprender a realizar toda nuestra rutina diaria en un mismo espacio; sin dudarlo, un semestre lleno de retos que de una u otra manera, haciendo prueba y error, hemos aprendido a sobrellevar.

El día de hoy terminaremos con el tema de teoría espectral. Veremos algunos problemas donde usaremos las técnicas de búsqueda de eigenvalores y eigenvectores, así como aplicaciones de uno de los teoremas más importante: el Teorema Espectral.

Matrices simétricas, matrices diagonalizables

En entradas anteriores hemos discutido sobre qué condiciones me garantizan que una matriz $A$ es diagonalizable. No volveremos a repetir cuál es la definición de matriz diagonalizable ya que en múltiples ocasiones lo hicimos.

Sabemos que una matriz simétrica en $M_n(\mathbb{R})$ siempre es diagonalizable, gracias al teorema espectral, pero el siguiente problema nos ilustra que si cambiamos de campo $F$, no tenemos la garantía de que las matrices simétricas en $M_n(F)$ también lo sean.

Problema 1. Demuestra que la matriz simétrica con coeficientes complejos

$A=\begin{pmatrix} 1 & i \\ i & -1 \end{pmatrix}$

no es diagonalizable.

Solución. Por la primera proposición de la clase «Eigenvalores y eigenvectores de transformaciones y matrices», si $A$ fuese diagonalizable, es decir, que existe una matriz invertible $P$ y una diagonal $D$ tal que $A=P^{-1}DP$, entonces $A$ y $D$ tienen los mismos eigenvalores. Entonces, encontremos los eigenvalores de $A$: buscamos $\lambda \in \mathbb{C}$ tal que $\text{det}(\lambda I-A)=0$,

\begin{align*}
\text{det}(\lambda I-A)&=\begin{vmatrix} \lambda -1 & i \\ i & \lambda +1 \end{vmatrix} \\
&=(\lambda-1)(\lambda+1)-i^2=\lambda^2 -1+1 \\
&=\lambda^2=0.
\end{align*}

Por lo tanto, el eigenvalor con multiplicidad 2 de $A$ (y también el eigenvalor de $D$) es $\lambda =0$. Si $D$ es de la forma

$D=\begin{pmatrix} a & 0 \\ 0 & b \end{pmatrix}$,

es fácil ver (y calcular) que sus eigenvalores son $a$ y $b$, pero por lo anterior, podemos concluir que $a=b=0$, y por lo tanto $D$ es la matriz cero. Si fuese así, $A=P^{-1}DP=0$, contradiciendo la definición de $A$.

$\square$

Problema 2. Sea $A$ una matriz simétrica con entradas reales y supongamos que $A^k=I$ para algún entero positivo $k$. Prueba que $A^2=I$.

Solución. Dado que $A$ es simétrica y con entradas reales, todos sus eigenvalores son reales. Más aún son $k$-raíces de la unidad, entonces deben ser $\pm 1$. Esto implica que todos los eigenvalores de $A^2$ son iguales a 1. Dado que $A^2$ también es simétrica, es diagonalizable y, dado que sus eigenvalores son iguales a 1, por lo tanto $A^2=I$.

$\square$

Más propiedades de transformaciones lineales y bases ortogonales

En otras clases como Cálculo, Análisis, hablamos de funciones continuas, discontinuas, acotadas, divergentes; mientras que en este curso nos hemos enfocado únicamente en la propiedad de linealidad de las transformaciones. Si bien no es interés de este curso, podemos adelantar que, bajo ciertas condiciones del espacio $V$, podemos tener una equivalencia entre continuidad y acotamiento de una transformación.

Decimos que la norma de una transformación está definida como

$\norm{T}=\sup_{x\in V\setminus{0}} \frac{\norm{T(x)}}{\norm{x}}$.

Por ende, decimos que una transformación es acotada si su norma es acotada, $\norm{T}<\infty$.

Problema 1. Sea $V$ un espacio euclideano y sea $T$ una transformación lineal simétrica en $V$. Sean $\lambda_1,\ldots,\lambda_n$ los eigenvalores de $T$. Prueba que

$\sup_{x\in V\setminus{0}} \frac{\norm{T(x)}}{\norm{x}} =\max_{1\leq i\leq n} |\lambda_i|.$

Solución. Renumerando a los eigenvalores, podemos decir que $\max_i |\lambda_i|=|\lambda_n|$. Sea $e_1,\ldots,e_n$ una base ortonormal de $V$ tal que $T(e_i)=\lambda_i e_i$ para todo $i$. Si $x\in V\setminus {0}$, podemos escribirlo como $x=x_1e_1+\ldots+x_n e_n$ para algunos reales $x_i$. Entonces, por linealidad de $T$,

$T(x)=\sum_{i=1}^n \lambda_i x_ie_i.$

Dado que $|\lambda_i|\leq |\lambda_n|$ para toda $i$, tenemos que

$\frac{\norm{T(x)}}{\norm{x}}=\sqrt{\frac{\sum_{i=1}^n \lambda_i^2 x_i^2}{\sum_{i=1}^n x_i^2}}\leq |\lambda_n|,$

por lo tanto

\begin{align*}
\max_{1\leq i\leq n} |\lambda_i|&=|\lambda_n|=\frac{\norm{T(e_n)}}{\norm{e_n}}\\
&\leq \sup_{x\in V\setminus{0}} \frac{\norm{T(x)}}{\norm{x}}\\
&\leq |\lambda_n|= \max_{1\leq i\leq n} |\lambda_i|.
\end{align*}

Obteniendo lo que queremos.

$\square$

Para finalizar, no olvidemos que una matriz es diagonalizable si y sólo si el espacio tiene una base de eigenvectores, y que está íntimamente relacionado con el teorema espectral.

Problema 2. Encuentra una base ortogonal consistente con los eigenvectores de la matriz

$A=\frac{1}{7}\begin{pmatrix} -2 & 6 & -3 \\ 6 & 3 & 2 \\ -3 & 2 & 6 \end{pmatrix}.$

Solución. Para encontrar los eigenvectores, primero encontrar los eigenvalores y, después, para cada eigenvalor, encontrar el/los eigenvectores correspondientes.

Calculemos:

\begin{align*}
0&=\text{det}(\lambda I-A)=\begin{vmatrix} \lambda+2/7 & -6/7 & 3/7 \\ -6/7 & \lambda-3/7 & -2/7 \\ 3/7 & -2/7 & \lambda-6/7 \end{vmatrix} \\
&= \lambda^3-\lambda^2-\lambda+1 \\
&= (\lambda -1)(\lambda^2 -1),
\end{align*}

entonces los eigenvalores de $A$ son $1,-1$, ($\lambda=1$ tiene multiplicidad 2).

Ahora, hay que encontrar los vectores $v=(x,y,z)$ tal que $Av=\lambda v$, para todo eigenvalor $\lambda$.

Si $\lambda=-1$,

$(\lambda I-A)v=\frac{1}{7}\begin{pmatrix} -5 & -6 & 3 \\ -6 & -10 & -2 \\ 3 & -2 & -13 \end{pmatrix}v=0, $

reduciendo, obtenemos que $v=(3\alpha, -2\alpha, \alpha)$ para todo $\alpha\in \mathbb{R}$.

Si $\lambda=1$, resolviendo de la misma manera $(\lambda I-A)v=(I-A)v=0$, tenemos que $v=(\beta,\gamma,-3\beta+2\gamma)$ para todo $\beta,\gamma$. Entonces el conjunto de eigenvectores es

$B=\{ v_1=(3,-2,1), \quad v_2=(1,0,-3), \quad v_3=(0,1,2) \}.$

Es fácil ver que el conjunto $B$ es linealmente independiente, más aún $\text{dim}(\mathbb{R}^3)=3=|B|$, por lo tanto, $B$ es la base consistente con los eigenvectores de $A$.

$\triangle$

Agradecemos su esfuerzo por llegar hasta el final a pesar de todas las adversidades. Esperamos pronto volver a ser sus profesores/ayudantes. Mucha suerte en la última parcial, es el último esfuerzo. Pero también les deseamos mucho éxito en su proyecto de vida. ¡Gracias!

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Lineal I: Teorema espectral para matrices simétricas reales

Por Leonardo Ignacio Martínez Sandoval

Introducción

En esta entrada demostramos el teorema espectral para matrices simétricas reales en sus dos formas. Como recordatorio, lo que probaremos es lo siguiente.

Teorema. Sea $V$ un espacio euclideano y $T:V\to V$ una transformación simétrica. Entonces, existe una base ortonormal de $V$ que consiste de eigenvectores de $T$.

Teorema. Sea $A$ una matriz simétrica en $\mathbb{R}^n$. Entonces, existe una matriz ortogonal $P$ y una matriz diagonal $D$, ambas en $\mathbb{R}^n$, tales que $$A=P^{-1}DP.$$

Para ello, usaremos los tres resultados auxiliares que demostramos en la entrada de eigenvalores de matrices simétricas reales. Los enunciados precisos están en ese enlace. Los resumimos aquí de manera un poco informal.

  • Los eigenvalores complejos de matrices simétricas reales son números reales.
  • Si una transformación $T$ es simétrica y $W$ es un subespacio estable bajo $T$, entonces $W^\bot$ también lo es. Además, $T$ restringida a $W$ o a $W^\bot$ también es simétrica.
  • Es lo mismo que una matriz sea diagonalizable, a que exista una base formada eigenvectores de la matriz.

Además de demostrar el teorema espectral, al final de la entrada probaremos una de sus consecuencias más importantes. Veremos una clasificación de las matrices que inducen formas bilineales positivas.

Demostración de la primera versión del teorema espectral

Comenzamos mostrando la siguiente versión del teorema espectral.

Teorema. Sea $V$ un espacio euclideano y $T:V\to V$ una transformación simétrica. Entonces, existe una base ortonormal de $V$ que consiste de eigenvectores de $T$.

Demostración. Como $V$ es espacio Euclideano, entonces tiene cierta dimensión finita $n$. Haremos inducción fuerte sobre $n$. Si $n=1$, el polinomio característico de $T$ es de grado $1$ y con coeficientes reales, así que tiene una raíz $\lambda$ real. Si $v$ es un eigenvector de $T$ para $\lambda$, entonces $\frac{v}{\norm{v}}$ también es eigenvector de $T$ y conforma una base ortonormal para $V$.

Supongamos que el resultado es cierto para todo espacio Euclideano de dimensión menor a $n$ y tomemos $V$ espacio Euclideano de dimensión $n$. Por el teorema fundamental del álgebra, el polinomio característico de $T$ tiene por lo menos una raíz $\lambda$ en $\mathbb{C}$. Como $T$ es simétrica, cualquier matriz $A$ que represente a $T$ también, y $\lambda$ sería una raíz del polinomio característico de $A$. Por el resultado que vimos en la entrada anterior, $\lambda$ es real.

Consideremos el kernel $W$ de la transformación $\lambda \text{id} – T$. Si $W$ es de dimensión $n$, entonces $W=V$, y por lo tanto $T(v)=\lambda v$ para todo vector $v$ en $V$, es decir, todo vector no cero de $V$ es eigenvector de $T$. De esta forma, cualquier base ortonormal de $V$ satisface la conclusión. De esta forma, podemos suponer que $W\neq V$ y que por lo tanto $1\leq \dim W \leq n-1$, y como $$V=W\oplus W^\bot,$$ se obtiene que $1\leq \dim W^\bot \leq n-1$. Sea $B$ una base ortonormal de $W$, que por lo tanto está formada por eigenvectores de $T$ con eigenvalor $\lambda$.

Como la restricción $T_1$ de $T$ a $W^\bot$ es una transformación simétrica, podemos aplicar la hipótesis inductiva y encontrar una base ortonormal $B’$ de eigenvectores de $T_1$ (y por lo tanto de $T$) para $W^\bot$.

Usando de nuevo que $$V=W\oplus W^\bot,$$ tenemos que $B\cup B’$ es una base de $V$ formada por eigenvectores de $T$.

El producto interior de dos elementos distintos de $B$, o de dos elementos distintos de $B’$ es cero, pues individualmente son bases ortonormales. El producto de un elemento de $B$ y uno de $B’$ es cero pues un elemento está en $W$ y el otro en $W^\bot$. Además, todos los elementos de $B\cup B’$ tiene norma $1$, pues vienen de bases ortogonales. Esto muestra que $B\cup B’$ es una base ortonormal de $V$ que consiste de eigenvectores de $T$.

$\square$

Demostración de la segunda versión del teorema espectral

Veamos ahora la demostración del teorema espectral en su enunciado con matrices.

Teorema. Sea $A$ una matriz simétrica en $M_n(\mathbb{R})$. Entonces, existe una matriz ortogonal $P$ y una matriz diagonal $D$, ambas en $M_n(\mathbb{R})$, tales que $$A=P^{-1}DP.$$

Demostración. Como $A$ es una matriz simétrica, la transformación $T:F^n\to F^n$ dada por $T(X)=AX$ es simétrica. Aplicando la primer versión del teorema espectral, existe una base ortonormal de $F^n$ que consiste de eigenvectores de $T$. Digamos que estos eigenvectores son $C_1,\ldots,C_n$. Por definición de $T$, estos eigenvectores de $T$ son exactamente eigenvectores de $A$.

Anteriormente demostramos que si construimos a una matriz $B$ usando a $C_1,\ldots,C_n$ como columnas y tomamos la matriz diagonal $D$ cuyas entradas son los eigenvalores correspondientes $\lambda_1,\ldots,\lambda_n$, entonces $$A=BDB^{-1}.$$

Afirmamos que la matriz $B$ es ortogonal. En efecto, la fila $j$ de la matriz $^t B$ es precisamente $C_j$. De esta forma, la entrada $(i,j)$ del producto ${^tB} B$ es precisamente el producto punto de $C_i$ con $C_j$. Como la familia $C_1,\ldots,C_n$ es ortonormal, tenemos que dicho producto punto es uno si $i=j$ y cero en otro caso. De aquí, se concluye que ${^tB} B=I_n$.

Si una matriz es ortogonal, entonces su inversa también. Esto es sencillo de demostrar y queda como tarea moral. Así, definiendo $P=B^{-1}$, tenemos la igualdad $$A=P^{-1}DP,$$ con $D$ diagonal y $P$ ortogonal, justo como lo afirma el teorema.

$\square$

Matrices positivas y positivas definidas

Una matriz $A$ simétrica en $M_n(\mathbb{R})$ induce una forma bilineal simétrica en $\mathbb{R}^n$ mediante la asignación $$(x,y) \mapsto {^t x} A y,$$ con forma cuadrática correspondiente $$x \mapsto {^t x} A x.$$

Definición. Una matriz $A$ en $M_n(\mathbb{R})$ es positiva o positiva definida si su forma bilineal asociada es positiva o positiva definida respectivamente.

Una de las aplicaciones del teorema espectral es que nos permite dar una clasificación de las matrices simétricas positivas.

Teorema. Sea $A$ una matriz simétrica. Entonces todas las siguientes afirmaciones son equivalentes:

  1. $A$ es positiva.
  2. Todos los eigenvalores de $A$ son no negativos.
  3. $A=B^2$ para alguna matriz simétrica $B$ en $M_n(\mathbb{R})$.
  4. $A= {^tC} C$ para alguna matriz $C$ en $M_n(\mathbb{R})$.

Demostración. (1) implica (2). Supongamos que $A$ es positiva y tomemos $\lambda$ un eigenvalor de $A$. Tomemos $v$ un eigenvector de eigenvalor $\lambda$. Tenemos que:
\begin{align*}
\lambda \norm{v}^2 &=\lambda {^tv} v\\
&= {^t v} (\lambda v)\\
&={^t v} Av\\
&\geq 0.
\end{align*}

Como $\norm{v}^2\geq 0$, debemos tener $\lambda \geq 0$.

(2) implica (3). Como $A$ es matriz simétrica, por el teorema espectral tiene una diagonalización $A=P^{-1}DP$ con $P$ una matriz invertible y $D$ una matriz diagonal cuyas entradas son los eigenvalores $\lambda_1,\ldots,\lambda_n$ de $A$. Como los eigenvalores son no negativos, podemos considerar la matriz diagonal $E$ cuyas entradas son los reales $\sqrt{\lambda_1},\ldots,\sqrt{\lambda_n}.$ Notemos que $E^2=D$, así que si definimos a la matriz $B=P^{-1}EP$, tenemos que $$B^2=P^{-1}E^2 P = P^{-1}DP = A.$$

Además, $B$ es simétrica pues como $E$ es diagonal y $P$ es ortogonal, tenemos que
\begin{align*}
{^tB} &= {^t P} {^t E} {^t (P^{-1})}\\
&= P^{-1} E P\\
&= B.
\end{align*}

(3) implica (4). Es inmediato, tomando $C=B$ y usando que $B$ es simétrica.

(4) implica (1). Si $A= {^tC} C$ y tomamos un vector $v$ en $\mathbb{R}^n$, tenemos que

\begin{align*}
{^t v} A v &= {^tv} {^tC} C v\\
&= {^t(Cv)} (Cv)\\
&=\norm{Cv}^2\\
&\geq 0,
\end{align*}

lo cual muestra que $A$ es positiva.

$\square$

También hay una versión de este teorema para matrices simétricas positivas definidas. Enunciarlo y demostrarlo queda como tarea moral.

En una entrada final, se verá otra consecuencia linda del teorema espectral: el teorema de descomposición polar. Dice que cualquier matriz con entradas reales se puede escribir como el producto de una matriz ortogonal y una matriz simétrica positiva.

Más allá del teorema espectral

Durante el curso introdujimos varias de las nociones fundamentales de álgebra lineal. Con ellas logramos llegar a uno de los teoremas más bellos: el teorema espectral. Sin embargo, la teoría de álgebra lineal no termina aquí. Si en tu formación matemática profundizas en el área, verás otros temas y resultados fundamentales como los siguientes:

  • El teorema de Cayley-Hamiltón: toda matriz se anula en su polinomio característico.
  • La clasificación de matrices diagonalizables: una matriz es diagonalizable si y sólo si su polinomio característico se factoriza en el campo de la matriz, y la multiplicidad algebraica de sus eigenvalores corresponde con la multiplicidad geométrica.
  • El teorema de la forma canónica de Jordan: aunque una matriz no se pueda diagonalizar, siempre puede ser llevada a una forma estándar «bonita».
  • Productos interiores con imágenes en $\mathbb{C}$, a los que también se les conoce como formas hermitianas.
  • Los polinomios mínimos de matrices y transformaciones, que comparten varias propiedades con el polinomio característico, pero dan información un poco más detallada.

Más adelante…

En esta entrada discutimos dos demostraciones del teorema espectral. Sólo nos falta discutir cómo podemos aplicarlo. En la siguiente entrada trabajaremos con algunos problemas, por ejemplo, ver cómo se usa para demostrar que una matriz simétrica no es diagonalizable.

Finalmente, discutiremos cómo podemos pensar en las nociones de continuidad y acotamiento en el álgebra lineal.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Muestra que la inversa de una matriz ortogonal es ortogonal.
  • Encuentra una base ortonormal de $\mathbb{R}^3$ conformada por eigenvectores de la matriz $\begin{pmatrix}10 & 0 & -7\\ 0 & 3 & 0 \\ -7 & 0 & 10\end{pmatrix}.$
  • Determina si la matriz anterior es positiva y/o positiva definida.
  • Enuncia y demuestra un teorema de clasificación de matrices simétricas positivas definidas.
  • Muestra que la matriz $$\begin{pmatrix}5 & 1 & 7\\1 & 10 & -7\\7 & -7 & 18\end{pmatrix}$$ es positiva.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»