Archivo de la etiqueta: invertible

Cálculo Diferencial e Integral III: Introducción al teorema de la función inversa

Por Alejandro Antonio Estrada Franco

Introducción

Estamos a punto de entrar a discutir dos de los resultados principales de nuestro curso: el teorema de la función inversa y el teorema de la función implícita. Repasemos un poco qué hemos hecho hasta ahora. En las dos entradas anteriores introdujimos la noción de diferenciabilidad, la cual cuando sucede para una función $f:\mathbb{R}^n\to \mathbb{R}^m$, nos dice que $f$ se parece mucho a una función lineal en un punto dado. Vimos que esta noción implica continuidad y que tiene una regla de la cadena relacionada con el producto de matrices. También, hemos discutido cómo esta noción se relaciona con la existencia de espacios tangentes a gráficas multidimensionales.

Ahora queremos entender todavía mejor a las funciones diferenciables. Hay dos teoremas que nos permiten hacer eso. Uno es el teorema de la función inversa y el otro es el teorema de la función implícita. En esta entrada hablaremos del primero, y en un par de entradas más introduciremos el segundo resultado. El propósito del teorema de la función inversa es dar una condición bajo la cual una función es invertible, por lo menos localmente. De hecho, la mayoría de las veces sólo se puede garantizar la invertibilidad localmente, pues las funciones usualmente no son inyectivas y esto da comportamientos globales más difíciles de manejar.

Enunciar el teorema y entenderlo requiere de cierto esfuerzo. Y demostrarlo todavía más. Por esta razón, en esta entrada nos enfocaremos sólo en dar el teorema y presentar herramientas preliminares que necesitaremos para hacer su demostración.

Enunciado del teorema de la función inversa

Supongamos que tenemos $f:\mathbb{R}^n\to \mathbb{R}^n$ y que es diferenciable en el punto $\bar{a}$. Entonces, $f$ se parece mucho a una función lineal en $\bar{a}$, más o menos $f(\bar{x})\approx f(\bar{a}) + T_{\bar{a}}(\bar{x}-\bar{a})$. Así, si $T_{\bar{a}}$ es invertible, suena a que «cerquita de $\bar{a}$» la función $f(\bar{x})$ debe de ser invertible. El teorema de la función inversa pone estas ideas de manera formal.

Teorema (de la función inversa). Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el abierto $S$. Si la matriz $Df(\bar{a})$ es invertible, entonces, existe $\delta >0$ tal que:

  1. $B_{\delta}(\bar{a})\subseteq S$ y $f$ es inyectiva en $B_{\delta}(\bar{a})$.
  2. $f^{-1}:f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ es continua en $f(B_{\delta}(\bar{a}))$.
  3. $f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}$ es un conjunto abierto.
  4. $f^{-1}$ es de clase $C^{1}$ en $f(B_{\delta}(\bar{a}))$ y además, si $\bar{x}=f(\bar{v})\in f(B_{\delta}(\bar{a}))$, entonces, $Df^{-1}(\bar{x})=Df^{-1}(f(\bar{v}))=(Df(\bar{v}))^{-1}$.

Veamos qué nos dice de manera intuitiva cada una de las conclusiones del teorema.

  1. Tendremos una bola $B_\delta(\bar{a})$ dentro de la cual $f$ será inyectiva, y por lo tanto será biyectiva hacia su imagen. Así, $f$ restringida a esta bola será invertible. Es importante que sea una bola abierta, porque entonces sí tenemos toda una región «gordita» en donde pasa la invertibilidad (piensa que si fuera un cerrado, a lo mejor sólo es el punto $\bar{a}$ y esto no tiene chiste).
  2. La inversa $f^{-1}$ que existirá para $f$ será continua. Esto es lo mínimo que podríamos esperar, aunque de hecho el punto $4$ garantiza algo mucho mejor.
  3. La imagen de $f$ en la bola $B_\delta(\bar{a})$ será un conjunto abierto.
  4. Más aún, se tendrá que $f^{-1}$ será de clase $C^1$ y se podrá dar de manera explícita a su derivada en términos de la derivada de $f$ con una regla muy sencilla: simplemente la matriz que funciona para derivar $f$ le sacamos su inversa como matriz y esa funciona al evaluarla en el punto apropiado.

El teorema de la función inversa es profundo pues tanto su enunciado como su demostración combina ideas de topología, álgebra y cálculo. Por esta razón, para su demostración necesitaremos recopilar varias de las herramientas de álgebra lineal que hemos repasado en la Unidad 2 y la Unidad 5. Así mismo, necesitaremos ideas topológicas de las que hemos visto en la Unidad 3. Con ellas desarrollaremos algunos resultados auxiliares que en la siguiente entrada nos permitirán concluir la demostración.

Un criterio para campos vectoriales $C^1$

El teorema de la función inversa es para funciones de clase $C^1$. Nos conviene entender esta noción mejor. Cuando una función $f$ es de clase $C^1$, entonces es diferenciable. Pero el regreso no es cierto y hay contraejemplos. ¿Qué le falta a una función diferenciable para ser de clase $C^1$? A grandes rasgos, que las funciones derivadas $T_\bar{a}$ y $T_\bar{b}$ hagan casi lo mismo cuando $\bar{a}$ y $\bar{b}$ son cercanos. En términos de matrices, necesitaremos que la expresión $||(Df(\bar{a})-Df(\bar{b}))(\bar{x})||$ sea pequeña cuando $\bar{a}$ y $\bar{b}$ son cercanos entre sí.

El siguiente teorema será importante en nuestro camino hacia el teorema de la función inversa. Intuitivamente, para lo que lo usaremos es para aproximar una función $f$ localmente, con «cuadritos» que corresponden a los planos tangentes, porque «muy cerquita» estos planos varían muy poco si pedimos que $f$ sea de clase $C^1$. Es decir si $\bar{a}$ y $\bar{b}$ son dos puntos en el dominio de una función diferenciable, y estos están muy cerca uno del otro, sus planos tangentes serán casi el mismo. Esto nos invita a cambiar localmente a una superficie por cuadritos como más adelante se explicará con detalle.

Figura 1. En azul y en rojo dos planos que corresponden a las derivadas $T_{\bar{a}}$ y $T_{\bar{b}}$. Este cambio calculado es distintos puntos cercanos es «suave», esto se expresará con la ecuación $||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\leq \epsilon ||\bar{x}||$ ya con las diferenciales para todo $\bar{x}$.

El teorema concreto que nos interesa demostrar es la siguiente equivalencia para que una función sea de clase $C^1$.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ una función diferenciable en $S$. Se tiene que $f$ es de clase $C^{1}$ en $S$ si y sólo si para todo $\bar{a}\in S$ y para cada $\varepsilon >0$ existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, y si $\bar{b}\in B_{\delta}(\bar{a})$ se tiene $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq \varepsilon ||\bar{x}||$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. $\Rightarrow).$ Supongamos que $f$ es de clase $C^1$ en $S$, es decir, todas sus funciones componentes tienen derivadas parciales en $S$ y son continuas. Sea $\varepsilon>0$. Veremos que se puede encontrar una $\delta$ como en el enunciado.

Tomemos $\bar{a}$ y $\bar{b}$ en $S$. Expresamos a $(Df(\bar{b})-Df(\bar{a}))(\bar{x})$ como

\begin{align*}
\begin{pmatrix} \frac{\partial f_{1}}{\partial x_{1}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{1}}{\partial x_{n}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \dots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{m}}{\partial x_{n}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}\begin{pmatrix} x_{1} \\ \vdots \\ x_{n}\end{pmatrix}
\end{align*}

o equivalentemente como

\begin{align*}
\begin{pmatrix} \left( \triangledown f_{1}(\bar{b})-\triangledown f_{1}(\bar{a})\right) \cdot \bar{x} \\ \vdots \\ \left( \triangledown f_{m}(\bar{b})-\triangledown f_{m}(\bar{a})\right) \cdot \bar{x} \end{pmatrix}.
\end{align*}

De tal manera que por Cauchy-Schwarz:

\begin{align*}
||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||^2&=\sum_{i=1}^m (\left( \triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})\right)\cdot \bar{x})^2\\
&\leq \sum_{i=1}^m ||\triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})||^2||\bar{x}||^2\\
&=||\bar{x}||^2 \sum_{i=1}^m ||\triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})||^2\\
&=||\bar{x}||^2 \sum_{i=1}^m \sum_{j=1}^{n}\left( \frac{\partial f_{i}}{\partial x_{j}}(\bar{b})-\frac{\partial f_{i}}{\partial x_{j}}(\bar{a})\right) ^{2}
\end{align*}

En este punto se ve la importancia de que las parciales sean continuas. Podemos encontrar una $\delta$ que nos garantice que $B_\delta\subseteq S$ y que si $||\bar{b}-\bar{a}||<\delta$, entonces $$\left| \frac{\partial f_{i}}{\partial x_{j}}(\bar{b})-\frac{\partial f_{i}}{\partial x_{j}}(\bar{a}) \right| < \frac{\varepsilon}{\sqrt{mn}}.$$ En esta situación, podemos seguir acotando $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||^2$ como sigue:
\begin{align*}
&\leq ||\bar{x}|| \sum_{i=1}^m \sum_{j=1}^{n}\frac{\varepsilon^2}{mn}\\
&=\varepsilon^2||\bar{x}||^2.
\end{align*}

Al sacar raiz cuadrada, obtenemos la desigualdad $$||(Df(\bar{b})-Df(\bar{a}))(x)||\leq \varepsilon||\bar{x}||$$ buscada.

$\Leftarrow).$ Supongamos ahora que para cada $\varepsilon$ existe una $\delta$ como en el enunciado del teorema. Debemos ver que todas las derivadas parciales de todas las componentes son continuas. Podemos aplicar la desigualdad $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq ||\bar{x}||\varepsilon$ tomando como $\bar{x}$ cada vector $\hat{e}_i$ de la base canónica. Esto nos dice que

\[ ||Df(\bar{b})(\hat{e}_i)-Df(\bar{a})(\hat{e}_i)||< \varepsilon||\hat{e}_i|| =\varepsilon.\]

Por nuestro desarrollo anterior, para cada $i$ tenemos

\begin{align*}
\varepsilon&>||Df(\bar{b})(\hat{e}_i)-Df(\bar{a})(\hat{e}_i)||\\
&=||\left( \triangledown f_{1}(\bar{b})\cdot \hat{e}_i-\triangledown f_{1}(\bar{a})\cdot \hat{e}_i,\dots ,\triangledown f_{m}(\bar{b})\cdot \hat{e}_i-\triangledown f_{m}(\bar{a})\cdot \hat{e}_i\right)||\\
&=\left| \left|\left( \frac{\partial f_{1}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{i}}(\bar{a}),\dots ,\frac{\partial f_{m}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{i}}(\bar{a})\right) \right| \right|\\
&= \sqrt{\sum_{j=1}^{m}\left(\frac{\partial f_{j}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{j}}{\partial x_{i}}(\bar{a})\right)^{2}}.
\end{align*}

Elevando al cuadrado,

\[ \sum_{j=1}^{m}\left(\frac{\partial f_{j}}{\partial x_{i}}(b)-\frac{\partial f_{j}}{\partial x_{i}}(a)\right)^{2}<\varepsilon ^{2}.\]

Como todos los términos son no negativos, cada uno es menor a $\epsilon^2$. Así, para cada $i,j$ tenemos

\[ \left|\frac{\partial f_{j}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{j}}{\partial x_{i}}(\bar{a})\right|<\varepsilon.\]

Esto es precisamente lo que estábamos buscando: si $\bar{b}$ está lo suficientemente cerca de $\bar{a}$, cada derivada parcial en $\bar{b}$ está cerca de su correspondiente en $\bar{a}$.

$\square$

Invertibilidad de $Df(\bar{a})$ en todo un abierto

En esta sección demostraremos lo siguiente. Si $f:\mathbb{R}^n\to \mathbb{R}^n$ es un campo vectorial diferenciable en $\bar{a}$ y $Df(\bar{a})$ es invertible, entonces $Df(\bar{x})$ será invertible para cualquier $\bar{x}$ alrededor de cierta bola abierta alrededor de $\bar{a}$. Los argumentos en esta ocasión están un poco más relacionados con el álgebra lineal.

Será útil que recuerdes que una transformación lineal $T:\mathbb{R}^n \to \mathbb{R}^n$ es invertible si el único $\bar{x}\in \mathbb{R}^n$ tal que $T(\bar{x})=\bar{0}$ es $\bar{x}=\bar{0}$. El siguiente criterio es otra caracterización de invertibilidad en términos de lo que le hace $T$ a la norma de los vectores.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ una transformación lineal. La transformación $T$ es invertible si y sólo si existe $\varepsilon >0$ tal que $$||T(\bar{x})||\geq \varepsilon ||\bar{x}||$$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. $\left. \Rightarrow \right)$ Como $T$ es invertible, para todo $\bar{x}\neq \bar{0}$ sucede que $T(\bar{x})\neq \bar{0}$. En particular, esto sucede para todos los vectores en $S^{n-1}$ (recuerda que es la esfera de radio $1$ y dimensión $n-1$ centrada en $\bar{0}$). Esta esfera es compacta y consiste exactamente de los $\bar{x}\in \mathbb{R}^n$ de norma $1$.

Sabemos que las transformaciones lineales y la función norma son continuas. Por la compacidad de $S^{n-1}$, la expresión $||T(\bar{x})||$ tiene un mínimo digamos $\varepsilon$, que alcanza en $S^{n-1}$. Por el argumento del párrafo anterior, $\varepsilon>0$.

Tomemos ahora cualquier vector $\bar{x}\in \mathbb{R}^n$. Si $\bar{x}=\bar{0}$, entonces $$||T(\bar{0})||=||\bar{0}||=0\geq \varepsilon ||\bar{0}||.$$ Si $\bar{x}\neq \bar{0}$, el vector $\frac{\bar{x}}{||\bar{x}||}$ está en $S^{n-1}$, de modo que $$\left|\left|T\left(\frac{\bar{x}}{||\bar{x}||}\right)\right|\right| \geq \varepsilon.$$ Usando linealidad para sacar el factor $||\bar{x}||$ y despejando obtenemos $$||T(\bar{x})||\geq \varepsilon ||\bar{x}||,$$ como estábamos buscando.

$\left. \Leftarrow \right)$ Este lado es más sencillo. Si existe dicha $\varepsilon >0$, entonces sucede que para $\bar{x}$ en $\mathbb{R}^n$, con $\bar{x}\neq \bar{0}$ tenemos $$||T(\bar{x})||\geq \varepsilon||\bar{x}||>0.$$ Por lo tanto, $T(\bar{x})\neq \bar{0}$ y así $T$ es invertible.

$\square$

Obtengamos una consecuencia del teorema de clasificación de la sección anterior que está muy relacionada con este resultado que acabamos de demostrar.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el conjunto abierto $S$ y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces existen $\delta >0$ y $m>0$ tales que $B_{\delta}(\bar{a})\subseteq S$ y $||Df(\bar{b})(\bar{x})||\geq m||\bar{x}||$, para todo $\bar{b}\in B_{\delta}(\bar{a})$ y para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. Como $Df(\bar{a})$ es invertible, por el teorema que acabamos de demostrar existe $\varepsilon’>0$ tal que $$||Df(\bar{a})(\bar{x})||\geq \varepsilon’||\bar{x}||$$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Por nuestra caracterización de funciones $C^1$, Ahora como $f\in C^{1}$ en $S$ (abierto) para $\varepsilon =\frac{\varepsilon’}{2}>0$, existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, y $||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\leq \frac{\varepsilon’}{2}||\bar{x}||$ para todo $\bar{b}\in B_{\delta}(\bar{a})$ y para todo $\bar{x}\in \mathbb{R}^{n}$.

Por la desigualdad del triángulo, \[ ||Df(\bar{a})(\bar{x})-Df(\bar{b})(\bar{x})||+||Df(\bar{b})(\bar{x})||\geq ||Df(\bar{a})(\bar{x})||,\]

de donde

\begin{align*}
||Df(\bar{b})(\bar{x})||&\geq ||Df(\bar{a})(\bar{x})||-||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\\
&\geq \varepsilon’||\bar{x}||-\frac{\varepsilon’}{2}||\bar{x}||\\
&= \frac{\varepsilon’}{2} ||\bar{x}||.
\end{align*}

De esta manera, el resultado es cierto para la $\delta$ que dimos y para $m=\frac{\varepsilon’}{2}$.

$\square$

El siguiente corolario es consecuencia inmediata de lo discutido en esta sección y está escrito de acuerdo a la aplicación que haremos más adelante en la demostración del teorema de la función inversa.

Corolario. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ una función de clase $C^{1}$ en $S$ y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces, existe $\delta > 0$ tal que $B_{\delta}(\bar{a})\subseteq S$ y $Df(\bar{b})$ es invertible para todo $\bar{b}\in B_{\delta}(\bar{a})$.

Queda como tarea moral responder por qué este corolario es consecuencia inmediata del teorema anterior.

Un poco de intuición geométrica

Dejamos esta entrada hasta aquí, la naturaleza densamente teórica de lo que estamos haciendo puede hacer pesadas las exposiciones. Lo que hasta aquí demostramos es que para un campo vectorial $C^1$ si su derivada en $\bar{a}$ es invertible, entonces lo es en toda una vecindad que tiene a $\bar{a}$. Imaginemos al pedacito de superficie $f(B_{\delta}(\bar{a}))$ cubierto con pequeños rectángulos. En cada punto, las imágenes de estos rectángulos están muy cerquita, casi pegados a la superficie. Esto nos garantizaría la invertibilidad de $f$ en esta vecindad.

Figura 2

En la Figura 2 vemos ilustrado esto. El círculo inferior corresponde a la vecindad $B_{\delta}(\bar{a})$ en el dominio de $f$. La función $f$ levanta una porción del plano en la sabana delineada con negro arriba del círculo. En el círculo tenemos al punto $\bar{a}$ en verde agua. Sobre la sábana de arriba tenemos con el mismo color a $f(\bar{a})$. Los puntos negros pequeños dentro de la vecindad alrededor de $\bar{a}$ son alzados por $f$ a puntos negros sobre la sabana. Sobre de cada punto negro en la sabana tenemos un cuadrito rojo que representa al cachito de plano tangente cerca de la imagen de cada punto. La imagen esta llena de estos pequeños cuadritos, todos ellos representan diferenciales invertibles, esto nos permitirá asegurar la invertibilidad de $f$ en al menos una vecindad.

Más adelante…

En la siguiente entrada demostraremos el teorema de la función inversa, inciso por inciso. Es importante que estes familiarizado con los resultados de esta entrada, pues serán parte importante de la demostración.

Tarea moral

  1. ¿Qué diría el teorema de la función inversa para campos vectoriales $f:\mathbb{R}^2\to \mathbb{R}^2$? ¿Se puede usar para $$f(r,\theta)=(r\cos(\theta),r\sin(\theta))?$$ Si es así, ¿para qué valores de $r$ y $\theta$? ¿Qué diría en este caso explícitamente?
  2. Explica por qué el corolario que enunciamos en efecto se deduce de manera inmediata de lo discutido en la sección correspondiente.
  3. Revisa todas las desigualdades que usamos en esta entrada. ¿Qué resultado estamos usando? ¿Cuándo se darían estas igualdades?
  4. Demuestra que el determinante de una matriz es una función continua en términos de las entradas de la matriz. Usa esto para demostrar que si $A\in M_n(\mathbb{R})$ es una matriz y $B$ es una matriz muy cercana a $A$, entonces $B$ también es invertible.
  5. Demuestra que si una transformación $T$ es diagonalizable, entonces en el teorema de caracterización de invertibilidad se puede usar como $\epsilon$ al mínimo de la expresión $|\lambda|$ variando sobre todos los eigenvalores $\lambda$ de $T$.

Entradas relacionadas

Álgebra Superior I: Funciones invertibles

Por Guillermo Oswaldo Cota Martínez

Introducción

Anteriormente vimos el concepto de composición entre funciones, que nos permiten saltar entre varios conjuntos de manera sencilla, revisamos algunas de sus propiedades y dimos algunos ejemplos. Ahora nos toca profundizar un poco más en la composición de funciones analizando un caso particular de funciones: las invertibles. Que en términos simples nos permiten deshacer los efectos de las operaciones

Revirtiendo las cosas.

Pensemos por un momento en un cubo rubik, hay distintas técnicas para armarlo, pero por ahora nos enfocaremos en sus movimientos. La forma en que se usa el cubo, es moviendo sus caras hasta que todas las caras tengan un solo color. Imagina que tienes un cubo en tus manos, si mueves la cara que está hasta arriba, tienes dos formas de hacerlo, girar en sentido de las manecillas del reloj y girar en sentido contrario a las manecillas del reloj. No pasa nada si no estás seguro de tu movimiento, pues siempre puedes deshacer un movimiento rotando la misma cara que volteaste en sentido contrario. Incluso si mueves varias caras, podrás regresar al estado original si recuerdas exactamente las caras que volteaste y la dirección, pues para deshacer los movimientos, tendrás que empezar por la última cara que volteaste y deberás girarla al sentido contrario al que le diste vuelta. Por ejemplo esta imagen indica dos movimientos a las caras y la forma de «deshacer» los movimientos.

En la imagen también marcamos los movimientos de mover las dos caras como $f$, por ahora imagínate que ese movimiento de girar las dos caras como lo muestra la imagen, se llama el movimiento $f$. Mientras que el movimiento de deshacerlas se llama $f^{-1}$. Entonces si realizamos primero el movimiento $f$, el movimiento $f^{-1}$ revierte lo que hizo la primera, volviendo al estado inicial. Así es como vamos a pensar en la reversibilidad de las funciones, una manera de «volver a armar» el cubo.

Funciones reversibles

Diremos que una función es reversible si existe una función $f^{-1}:Im(f) \rightarrow X$ tal que $f ^{-1}\circ f = Id$ donde $Id$ es la función identidad, es decir, es la única función que asigna a cada elemento a sí mismo, es decir $Id(x)=x$.

Algunas observaciones de las funciones invertibles. Sea $f:X \rightarrow Y$ una función invertible, entonces:

  • $f$ es inyectiva.

Demostración. Supongamos que no es inyectiva, entonces existen $x_1,x_2 \in X$ distintos tales que $f(x_1) = f(x_2)$. Como $f$ es invertible, entonces existe su función inversa $f^{-1}:Im(f) \rightarrow X$, en donde $$x_1 = f^{-1} \circ f(x_1) = f^{-1} \circ f(x_2) = x_2 $$ Siendo esta una contradicción, pues supusimos que eran distintos elementos. Así, la función es inyectiva.

$\square$

  • $f^{-1}$ es inyectiva.

Demostración. De manera similar a la demostración anterior, si $y_1,y_2 \in Dom(f^{-1})$ son tales que $f^{-1}(y_1) = f^{-1}(y_2)$, se tiene que al ser $f$ inyectiva, $$f(f^{-1}(y_1)) = f(f^{-1}(y_2)) \Rightarrow y_1=y_2$$ Llegando a que $f^{-1}$ es inyectiva.

$\square$

Así, te puedes dar una idea de lo que significan las funciones invertibles. Con estas proposiciones hemos probado además que la función $f^{-1}: Im(f) \rightarrow X$ es una biyección. ¿Te imaginas porqué? Pues resulta que la función $f^{-1}$ también es suprayectiva.

  • $f^{-1} \circ f = f \circ f^{-1}$

Demostración. Sabemos que $f^{-1} \circ f = Id$, entonces bastará demostrar que $f \circ f^{-1} = Id$. Para ello consideremos $y \in Dom(f^{-1})=Im(f) \subset Y$. Supongamos que $$f \circ f^{-1}(y)=w$$. Entonces $$f^{-1}(f \circ f^{-1}(y)) = f^{-1}(w). $$ Como la composición es asociativa, entonces: $$f^{-1}(f \circ f^{-1}(y)) = (f^{-1} \circ f) \circ f^{-1}(y) = f^{-1}(y) = f^{-1}(w)$$ Como $f^{-1}$ es inyectiva, entonces $y=w$

$\square$

  • Sea $g:Im(f) \rightarrow Z$ una función invertible, entonces $(g \circ f)^{-1} = f^{-1} \circ g^{-1}$

Demostración. Basta notar que por la asociatividad de las funciones:

$$ \begin{align*}
(g \circ f) \circ (f^{-1} \circ g^{-1}) &= g \circ (f \circ (f^{-1} \circ g^{-1})\\
&= g \circ ((f \circ f^{-1}) \circ g^{-1})\\
&= g \circ (Id \circ g^{-1}) \\
&= g \circ g^{-1} = Id
\end{align*}$$

$\square$

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Demuestra que $f^{-1}$ es suprayectiva.
  2. Demuestra que $Dom(f^{-1})=Im(f)$.
  3. Demuestra que $(f \circ (g \circ h))^{-1} = h^{-1} \circ (g^{-1} \circ f^{-1})$.
  4. Da una condición suficiente para que una función no sea invertible.

Más adelante…

Habiendo pasado por las funciones, su composición, sus propiedades y la inversa, utilizaremos estas definiciones para hablar de el tamaño de los conjuntos. Pues esta definición de funciones nos ayudan a decir «Cuántos elementos tiene un conjunto».

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Inversas de matrices de 2×2 con reducción gaussiana

Por Leonardo Ignacio Martínez Sandoval

Introducción

Es posible que sepas que una matriz $$A=\begin{pmatrix}
a & b\\
c & d
\end{pmatrix}$$de $2\times 2$ es invertible si y sólo si $ad-bc=0$, y que en ese caso la inversa está dada por $$B=\frac{1}{ad-bc}\begin{pmatrix}
d & -b\\
-c & a
\end{pmatrix}.$$ De hecho, una vez que se propone a $B$ como esta matriz, es sencillo hacer la multiplicación de matrices y verificar que en efecto tanto $AB$ como $BA$ son la matriz identidad de $2\times 2$.

Sin embargo, la idea de esta entrada es deducir que $ad-bc$ tiene que ser distinto de $0$ para que $A$ sea invertible y que, en ese caso, la inversa tiene que ser de la forma que dijimos. En esta deducción no usaremos nunca la definición ni propiedades de determinantes.

El procedimiento

Lo que haremos es aplicar el procedimiento de reducción gaussiana para encontrar inversas, es decir, le haremos reducción gaussiana a la matriz $A’=\begin{pmatrix}
a & b & 1 & 0\\
c & d & 0 & 1
\end{pmatrix}$ obtenida de «pegar» a la matriz $A$ una matriz identidad a su derecha. Es un resultado conocido que si $A$ es invertible, entonces al terminar la reducción gaussiana de $A’$ la matriz de $2\times 2$ que queda a la izquierda será la identidad y la que quede a la derecha será la inversa de $A$.

Empecemos con una matriz $A=\begin{pmatrix}
a & b\\
c & d
\end{pmatrix}$ de $2\times 2$ cualquiera. Si ambos $a$ y $c$ son iguales a $0$, entonces la primer columna de $BA$ es $0$ para toda $B$, y por lo tanto $A$ no puede tener inversa. Así, una primera condición para que $A$ tenga inversa es que $a$ o $c$ sean distintos de cero. Si $a$ fuera $0$, el primer paso de reducción gaussiana sería intercambiar las filas, así que podemos suponer sin pérdida de generalidad que $a$ no es $0$. De este modo, el primer paso de reducción gaussiana es multiplicar la primer fila por $1/a$ para que el pivote sea $1$: $$\begin{pmatrix}
1 & \frac{b}{a}& \frac{1}{a} & 0\\
c & d & 0 & 1
\end{pmatrix}$$

El siguiente paso es hacer al resto de las entradas en la columna de ese primer pivote iguales a $0$. Para eso basta restar a la segunda fila $c$ veces la primera:

$$\begin{pmatrix}
1 & \frac{b}{a}& \frac{1}{a} & 0\\
0 & d – \frac{bc}{a} & -\frac{c}{a} & 1
\end{pmatrix}=\begin{pmatrix}
1 & \frac{b}{a}& \frac{1}{a} & 0\\
0 & \frac{ad-bc}{a} & -\frac{c}{a} & 1
\end{pmatrix}.$$

Si $ad-bc=0$, entonces el pivote de la segunda fila ya no quedaría en la segunda columna, y la forma escalonada reducida no tendría a la identidad a la izquierda. Así que una segunda condición para que $A$ sea invertible es que $ad-bc$ no sea cero. Notemos que si $ad-bc$ no es cero, entonces tampoco $a$ y $c$ son simultaneamente $0$, así que nuestra condición anterior ya está capturada con pedir que $ad-bc$ no sea cero.

Sabiendo que $ad-bc$ no es cero, el siguiente paso en la reducción gaussiana es multiplicar la segunda fila por $a/(ad-bc)$ para hacer el pivote igual a $1$:

$$\begin{pmatrix}
1 & \frac{b}{a}& \frac{1}{a} & 0\\
0 & 1 & -\frac{c}{ad-bc} & \frac{a}{ad-bc}
\end{pmatrix}.$$

Finalmente, para que el pivote de la segunda columna sea la única entrada no cero, tenemos que restar a la primera fila la segunda multiplicada por $-b/a$:

$$\begin{pmatrix}
1 & 0 & \frac{1}{a}+\frac{bc}{a(ad-bc)} & -\frac{b}{ad-bc}\\
0 & 1 & -\frac{c}{ad-bc} & \frac{a}{ad-bc}
\end{pmatrix}=\begin{pmatrix}
1 & 0 & \frac{d}{ad-bc} & -\frac{b}{ad-bc}\\
0 & 1 & -\frac{c}{ad-bc} & \frac{a}{ad-bc}
\end{pmatrix}.$$

Así, basta pedir $ad-bc$ para que la reducción gaussiana deje a la identidad en la matriz de $2\times 2$ de la izquierda y, al terminar el procedimiento, tenemos a la derecha a la inversa de $A$ que es la matriz:

$$\begin{pmatrix}
\frac{d}{ad-bc} & -\frac{b}{ad-bc}\\
-\frac{c}{ad-bc} & \frac{a}{ad-bc}
\end{pmatrix}=\frac{1}{ad-bc}\begin{pmatrix}
d & -b\\
-c & a
\end{pmatrix}.$$

Esto es a lo que queríamos llegar. Por supuesto, el camino fue largo y hay formas de llegar al mismo resultado de manera más corta, pero usando más teoría.

¿Ahora qué?

Si te gustó esta entrada, puedes compartirla o revisar otras relacionadas con matemáticas a nivel universitario:

Álgebra Lineal I: Determinantes de matrices y transformaciones lineales

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la entrada anterior dimos la definición de determinante para ciertos vectores con respecto a una base. En esta entrada continuamos con la construcción de determinantes. Primero, basados en la teoría que desarrollamos anteriormente, definiremos determinantes de transformaciones lineales. Luego, mediante la cercanía entre transformaciones lineales y matrices, definimos determinantes de matrices.

Determinantes de transformaciones lineales

Ahora definiremos el determinante para transformaciones lineales. Antes de esto, necesitamos hacer algunas observaciones iniciales y demostrar un resultado.

Si tomamos un espacio vectorial $V$ de dimensión finita $n\geq 1$ sobre un campo $F$, una transformación lineal $T:V\to V$ y una forma $n$-lineal $f:V^n\to F$, se puede mostrar que la transformación $$T_f:V^n\to F$$ dada por $$T_f(x_1,\ldots,x_n)=f(T(x_1),\ldots,T(x_n))$$ también es una forma $n$-lineal. Además, se puede mostrar que si $f$ es alternante, entonces $T_f$ también lo es. Mostrar ambas cosas es relativamente sencillo y queda como tarea moral.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n\geq 1$ sobre el campo $F$. Para cualquier transformación lineal $T:V\to V$ existe un único escalar $\det T$ en $F$ tal que $$f(T(x_1),\ldots,T(x_n))=\det T\cdot f(x_1,\ldots, x_n)$$ para cualquier forma $n$-lineal alternante $f:V^n\to F$ y cualquier elección $x_1,\ldots,x_n$ de vectores en $V$.

Demostración. Fijemos una base $B=(b_1,\ldots,b_n)$ cualquiera de $V$. Llamemos $g$ a la forma $n$-lineal alternante $\det_{(b_1,\ldots,b_n)}$. Por la discusión de arriba, la asignación $T_g:V^n\to F$ dada por $$(x_1,\ldots,x_n)\mapsto g(T(x_1),\ldots,T(x_n))$$ es una forma $n$-lineal y alternante.

Por el teorema que mostramos en la entrada de determinantes de vectores, se debe cumplir que $$T_g = T_g(b_1,\ldots,b_n) \cdot g.$$ Afirmamos que $\det T:= T_g(b_1,\ldots, b_n)$ es el escalar que estamos buscando.

En efecto, para cualquier otra forma $n$-lineal alternante $f$, tenemos por el mismo teorema que $$f=f(b_1,\ldots,b_n) \cdot g.$$ Usando la linealidad de $T$ y la igualdad anterior, se tiene que

\begin{align*}
T_f &= f(b_1,\ldots,b_n)\cdot T_g\\
&=f(b_1,\ldots,b_n) \cdot \det T \cdot g\\
&= \det T \cdot f.
\end{align*}

Con esto se prueba que $\det T$ funciona para cualquier forma lineal $f$. La unicidad sale eligiendo $(x_1,\ldots,x_n)=(b_1,\ldots,b_n)$ y $f=g$ en el enunciado del teorema, pues esto forza a que $$\det T = g(T(b_1),\ldots,T(b_n)).$$

$\square$

Ahora sí, estamos listos para definir el determinante de una transformación lineal.

Definición. El escalar $\det T$ del teorema anterior es el determinante de la transformación lineal $T$.

Para obtener el valor de $\det T$, podemos entonces simplemente fijar una base $B=(b_1,\ldots,b_n)$ y el determinante estará dado por $$\det T = \det_{(b_1,\ldots,b_n)}(T(b_1),\ldots, T(b_n)).$$ Como el teorema también prueba unicidad, sin importar que base $B$ elijamos este número siempre será el mismo.

Ejemplo. Vamos a encontrar el determinante de la transformación lineal $T:\mathbb{R}^3 \to \mathbb{R}^3$ dada por $$T(x,y,z)=(2z,2y,2x).$$ Para ello, usaremos la base canónica de $\mathbb{R}^3$. Tenemos que
\begin{align*}
T(1,0,0)&=(0,0,2)=2e_3\\
T(0,1,0)&=(0,2,0)=2e_2\\
T(0,0,1)&=(2,0,0)=2e_1.
\end{align*}

De acuerdo al teorema anterior, podemos encontrar al determinante de $T$ como $$\det T = \det_{(e_1,e_2,e_3)}(2e_3,2e_2,2e_1).$$

Como el determinante (para vectores) es antisimétrico, al intercambiar las entradas $1$ y $3$ su signo cambia en $-1$. Usando la $3$-linealidad en cada entrada, podemos sacar un factor $2$ de cada una. Así, tenemos:
\begin{align*}
\det T &= \det_{(e_1,e_2,e_3)}(2e_3,2e_2,2e_1)\\
&= -\det_{(e_1,e_2,e_3)}(2e_1,2e_2,2e_3)\\
&=-8\det_{(e_1,e_2,e_3)}(e_1,e_2,e_3)\\
&=-8.
\end{align*}

Concluimos entonces que el determinante de $T$ es $-8$.

$\square$

Ejemplo. Vamos ahora a encontrar el determinante de la transformación $T:\mathbb{R}_n[x]\to \mathbb{R}_n[x]$ que deriva polinomios, es decir, tal que $T(p)=p’$. Tomemos $q_0=1,q_1=x,\ldots,q_n=x^n$ la base canónica de $\mathbb{R}_n[x]$.

Notemos que, $T(1)=0$, de modo que los vectores $T(1),\ldots,T(x^n)$ son linealmente dependientes. Así, sin tener que hacer el resto de los cálculos, podemos deducir ya que $$\det_{(q_0,\ldots,q_n)}(T(q_0),\ldots,T(q_n))=0.$$ Concluimos entonces que $\det T = 0$.

$\square$

Determinantes de matrices

La expresión $$\det T = \det_{(b_1,\ldots,b_n)}(T(b_1),\ldots, T(b_n))$$ para una transformación lineal $T$ también nos permite poner al determinante en términos de las entradas de la matriz de $T$ con respecto a la base $B$. Recordemos que dicha matriz $A_T=[a_{ij}]$ tiene en la columna $i$ las coordenadas de $b_i$ en la base $B$. En otras palabras, para cada $i$ se cumple que $$T(b_i)=\sum_{j=1}^n a_{ji}b_i.$$

Usando esta notación, obtenemos que $$\det T = \sum_{\sigma \in S_n} \text{sign}(\sigma)a_{1\sigma(1)}\cdot\ldots\cdot a_{n\sigma(n)},$$ de manera que podemos expresar a $\det T$ en términos únicamente de su matriz en la base $B$.

Esto nos motiva a definir el determinante de una matriz en general.

Definición. Para una matriz $A$ en $M_n(F)$ de entradas $A=[a_{ij}]$, el determinante de $A$ es $$\det A = \sum_{\sigma \in S_n} \text{sign}(\sigma)a_{1\sigma(1)}\cdot\ldots\cdot a_{n\sigma(n)}.$$ A $\det A$ también lo escribimos a veces en notación de «matriz con barras verticales» como sigue:

\begin{align*}
\det A = \begin{vmatrix}
a_{11} & a_{12} & \ldots & a_{1n}\\
a_{21} & a_{22} & \ldots & a_{2n}\\
\vdots & & \ddots & \vdots\\
a_{n1} & a_{n2} & \ldots & a_{nn}.
\end{vmatrix}
\end{align*}

Ejemplo. Si queremos calcular el determinante de una matriz en $M_2(F)$, digamos $$A=\begin{pmatrix} a & b \\ c & d \end{pmatrix},$$ debemos considerar dos permutaciones: la identidad y la transposición $(1,2)$.

La identidad tiene signo $1$ y le corresponde el sumando $ad$. La transposición tiene signo $-1$ y le corresponde el sumando $bc$. Así, $$\begin{vmatrix} a & b \\ c & d \end{vmatrix} = ad-bc.$$

$\square$

Retomando la discusión antes de la definición, tenemos entonces que $\det T = \det A_T$, en donde a la izquierda hablamos de un determinante de transformaciones lineales y a la derecha de uno de matrices. La matriz de $T$ depende de la base elegida, pero como vimos, el determinante de $T$ no. Esta es una conclusión muy importante, y la enunciamos como teorema en términos de matrices.

Teorema. Sean $A$ y $P$ matrices en $M_n(F)$ con $P$ invertible. El determinante de $A$ y el de $P^{-1}AP$ son iguales.

Determinantes de matrices triangulares

Terminamos esta entrada con un problema que nos ayudará a repasar la definición y que más adelante servirá para calcular determinantes.

Problema. Muestra que el determinante de una matriz triangular superior o triangular inferior es igual al producto de las entradas de su diagonal.

Solución. En una matriz triangular superior tenemos que $a_{ij}=0$ si $i>j$. Vamos a estudiar la expresión $$\sum_{\sigma \in S_n} \text{sign}(\sigma)a_{1\sigma(1)}\cdot\ldots\cdot a_{n\sigma(n)}.$$

Si una permutación $\sigma$ no es la identidad, entonces hay un entero $i$ que no deja fijo, digamos $\sigma(i)\neq i$. Tomemos a $i$ como el mayor entero que $\sigma$ no deja fijo. Notemos que $\sigma(i)$ tampoco queda fijo por $\sigma$ pues $\sigma(\sigma(i))=\sigma(i)$ implica $\sigma(i)=i$, ya que $\sigma$ es biyectiva, y estamos suponiendo $\sigma(i)\neq i$. Por la maximalidad de $i$, concluimos que $\sigma(i)<i$.Entonces el sumando correspondiente a $\sigma$ es $0$ pues tiene como factor a la entrada $a_{i\sigma(i)}=0$.

En otras palabras, la única permutación a la que le puede corresponder un sumando no cero es la identidad, cuyo signo es $1$. De esta forma,
\begin{align*}
\det(A) &= \sum_{\sigma \in S_n} \text{sign}(\sigma)a_{1\sigma(1)}\cdot\ldots\cdot a_{n\sigma(n)}\\
&=a_{11}\cdot \ldots \cdot a_{nn}.
\end{align*}

$\square$

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Muestra que la transformación $T_f$ definida en la entrada es $n$-lineal y alternante.
  • Usando la definición de determinante para transformaciones lineales, encuentra el determinante de la transformación lineal $T:\mathbb{R}^n \to \mathbb{R}^n$ dada por $$T(x_1,x_2,\ldots,x_n)=(x_2,x_3,\ldots,x_1).$$
  • Calcula por definición el determinante de las matrices $$\begin{pmatrix} 3 & 2 \\ 4 & 1\end{pmatrix}$$ y $$\begin{pmatrix} 1 & 2 & 4 \\ 1 & 3 & 9 \\ 1 & 4 & 16 \end{pmatrix}.$$
  • Calcula por definición el determinante de la matriz $$\begin{pmatrix} 1 & 1 & 1 \\ 2 & 3 & 4 \\ 4 & 9 & 16\end{pmatrix}$$ y compáralo con el de la matriz de $3\times 3$ del inciso anterior. ¿Qué notas?
  • Completa el argumento para mostrar que el determinante de una matriz triangular inferior es el producto de las entradas en su diagonal.

Más adelante…

En esta entrada planteamos cómo se define el concepto de matriz para transformaciones lineales y cómo esta definición se extiende naturalmente a la definición del determinante de una matriz, recordando que a cada transformación lineal se le puede asociar una matriz y viceversa.

En las siguientes entradas vamos a ver qué propiedades que cumplen los determinantes y aprenderemos diferentes técnicas para calcularlos. A lo largo de la unidad, desarrollaremos bastante práctica en el cálculo y la manipulación de los determinantes, ya sea el determinante de un conjunto de vectores, de una trasnformacón lineal o de una matriz.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Lineal I: Cambio de base de transformaciones lineales

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la entrada anterior definimos las matrices de cambio de base. Vimos algunas de sus propiedades básicas y mostramos cómo nos pueden ayudar para resolver el primero de los siguientes dos problemas.

  • Supongamos que tenemos dos bases $B_1$ y $B_2$ de un espacio vectorial $V$ y que tomamos un vector $v$ en $V$. Si ya sabemos la combinación lineal de elementos de $B_1$ que da $v$, ¿cómo podemos saber la combinación lineal de elementos de $B_2$ que da $v$? En otras palabras, ¿cómo podemos pasar a $v$ de su expresión en base $B_1$ a su expresión en base $B_2$?
  • Supongamos que tenemos una transformación lineal $T:V\to W$ entre dos espacios vectoriales $V$ y $W$, dos bases $B_1$ y $B_2$ de $V$ y dos bases $C_1$ y $C_2$ de $W$. Si ya sabemos qué le hace $T$ a los elementos de $V$ en términos de las bases $B_1$ y $C_1$, ¿cómo podemos saber qué hace $T$ en términos de las bases $B_2$ y $C_2$?

El objetivo de esta entrada es ver cómo con las matrices de cambio de base también podemos resolver el segundo problema. Después de hacer esto, hablaremos de una noción fundamental en álgebra lineal: la de matrices similares.

Matrices de cambio de base y transformaciones lineales

Las matrices de cambios de base nos ayudan a entender a las matrices de transformaciones lineales en bases diferentes.

Teorema. Sea $T:V\to W$ una transformación lineal entre espacios de dimensión finita $V$ y $W$. Sean $B_1$ y $B_2$ bases de $V$, y $C_1$ y $C_2$ bases de $W$. Entonces $$\Mat_{C_2,B_2}(T) = \Mat_{C_2}(C_1)\Mat_{C_1,B_1}(T)\Mat_{B_1}(B_2).$$

Observa cómo la elección de orden en la notación está rindiendo fruto. En el lado derecho «van apareciendo las bases» en el «orden natural» $C_2$, $C_1$, $B_1$, $B_2$.

Demostración. Sean $P=\Mat_{C_1}(C_2)$ y $Q=\Mat_{B_1}(B_2)$. Por un resultado de la entrada anterior, $P$ es la matriz que representa a la transformación identidad en $W$ con respecto a las bases $C_1$ y $C_2$, es decir, $P=\Mat_{C_1,C_2}(\text{id}_W)$.

Por cómo son las matrices de composiciones de transformaciones lineales, y usando que $\text{id}_W\circ T=T$, tenemos que $$\Mat_{C_1,C_2}(\text{id}_W)\Mat_{C_2,B_2}(T)=\Mat_{C_1,B_2}(T).$$

De manera análoga, $Q$ es la matriz que representa a la transformación identidad en $V$ con respecto a las bases $B_1$ y $B_2$, de donde tenemos que $$\Mat_{C_1,B_1}(T)\Mat_{B_1,B_2}(\text{id}_V)=\Mat_{C_1,B_2}(T).$$

De esta forma, $$P\Mat_{C_2,B_2}(T) = \Mat_{C_1,B_2}(T) = \Mat_{C_1,B_1}(T) Q.$$ El resultado se obtiene multiplicando por la izquierda ambos lados de esta ecuación por $P^{-1}=\Mat_{C_2}(C_1)$.

$\square$

En la siguiente entrada se verán varios ejemplos que involucran crear matrices para transformaciones lineales, matrices de cambios de base y multiplicarlas para entender una transformación lineal en distintas bases.

Por el momento, dejamos únicamente un corolario del teorema anterior, para el caso en el que tenemos una transformación lineal de un espacio vectorial a sí mismo expresado en términos de dos bases.

Corolario. Sea $T:V\to V$ una transformación lineal de un espacio vectorial $V$ de dimensión finita a sí mismo. Sean $B$ y $B’$ bases de $V$ y $P$ la matriz de cambio de base de $B$ a $B’$. Entonces $$\Mat_{B’}(T)=P^{-1}\Mat_{B}(T)P.$$

Matrices similares

Definición. Decimos que dos matrices $A$ y $B$ en $M_{n}(F)$ son similares o conjugadas si existe una matriz invertible $P$ en $M_n(F)$ tal que $B=P^{-1}AP$.

En otras palabras, $A$ y $B$ son matrices similares si representan a una misma transformación lineal en diferentes bases.

Proposición. La relación «ser similares» es una relación de equivalencia en $M_n(F)$.

Demostración. Toda matriz es similar a sí misma usando $P=I_n$, la identidad. Si $A$ y $B$ son similares con matriz invertible $P$, entonces $B$ y $A$ son similares con matriz invertible $P^{-1}$. Si $A$ y $B$ son similares con matriz invertible $P$ y $B$ y $C$ son similares con matriz invertible $Q$, notemos que $A=P^{-1}BP=P^{-1}(Q^{-1}CQ)P=(QP)^{-1}C(QP)$, de modo que $A$ y $C$ son similares con matriz invertible $QP$.

$\square$

¿Por qué es importante saber si dos matrices son similares? Resulta que dos matrices similares comparten muchas propiedades, como su traza, su determinante, su rango, etc. Para algunas matrices es más sencillo calcular estas propiedades. Así que una buena estrategia en álgebra lineal es tomar una matriz $A$ «complicada» y de ahí encontrar una matriz similar $B$ «más simple», y usar $B$ para encontrar propiedades de $A$.

Veamos un ejemplo de esto. Mediante un sencillo argumento inductivo se puede mostrar lo siguiente.

Proposición. Si $A$ y $B$ son matrices similares con $A=P^{-1}BP$, entonces $A^n=P^{-1}B^nP$.

Si $B$ fuera una matriz diagonal, entonces es fácil encontrar $B^n$: basta con elevar cada una de las entradas de su diagonal a la $n$ (lo cual es mucho más fácil que hacer productos de matrices). Así, esto da una forma muy fácil de encontrar $A^n$: basta con encontrar $B^n$, y luego hacer dos multiplicaciones de matrices más, por $P^{-1}$ a la izquierda y por $P$ a la derecha.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Deduce el corolario del teorema principal de esta entrada.
  • Considera $\mathbb{R}[x]_2$ de polinomios con coeficientes reales y grado a lo más dos. Sea $T: \mathbb{R}[x]_2$ la transformación tal qur $T(p)=p’$, el polinomio derivado. Encuentra la matriz que representa a la transformación en la base $\{1+x+x^2,1+2x,1\}$ y la matriz que representa a la transformación en la base $\{1,x,x^2\}$. Encuentra también la matriz de cambio de base de la primera a la segunda. Verifica que se cumple la conclusión del corolario.
  • Sean $A$ y $B$ matrices similares. Muestra que $A$ es invertible si y sólo si $B$ lo es.
  • Sean $A$ y $B$ matrices similares. Muestra que $A$ y $B$ tienen la misma traza.
  • Completa el argumento inductivo para demostrar la última proposición.
  • Considera la matriz con entradas complejas $A=\begin{pmatrix}1 & 0 & 0\\ 0 & i & 0\\ 0 & 0 & -1 \end{pmatrix}$. Encuentra $A^{105}$.

Más adelante…

En estas últimas dos entradas aprendimos a hacer «cambios de base», tanto para coordenadas, como para formas matriciales. También, introdujimos el concepto de similitud de matrices. Cuando $A$ es una matriz similar a una matriz diagonal, decimos que $A$ es diagonalizable. Que una matriz sea diagonalizable trae muchas ventajas. Como ya mencionamos, una de ellas es poder elevar la matriz a potencias de manera sencilla. Otra ventaja es que en las matrices diagonalizables es sencillo calcular rangos, determinantes y otras invariantes de álgebra lineal.

Una parte importante de lo que resta del curso consistirá en entender por qué las matrices simétricas con entradas reales son diagonalizables. El teorema principal del curso (el teorema espectral), consistirá en mostrar que toda matriz simétrica con entradas reales es diagonalizable mediante matrices ortogonales. Para poder demostrarlo, necesitaremos primero estudiar teoría geométrica de espacios vectoriales y teoría de determinantes.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»