Anteriormente vimos el concepto de composición entre funciones, que nos permiten saltar entre varios conjuntos de manera sencilla, revisamos algunas de sus propiedades y dimos algunos ejemplos. Ahora nos toca profundizar un poco más en la composición de funciones analizando un caso particular de funciones: las invertibles. Que en términos simples nos permiten deshacer los efectos de las operaciones
Revirtiendo las cosas.
Pensemos por un momento en un cubo rubik, hay distintas técnicas para armarlo, pero por ahora nos enfocaremos en sus movimientos. La forma en que se usa el cubo, es moviendo sus caras hasta que todas las caras tengan un solo color. Imagina que tienes un cubo en tus manos, si mueves la cara que está hasta arriba, tienes dos formas de hacerlo, girar en sentido de las manecillas del reloj y girar en sentido contrario a las manecillas del reloj. No pasa nada si no estás seguro de tu movimiento, pues siempre puedes deshacer un movimiento rotando la misma cara que volteaste en sentido contrario. Incluso si mueves varias caras, podrás regresar al estado original si recuerdas exactamente las caras que volteaste y la dirección, pues para deshacer los movimientos, tendrás que empezar por la última cara que volteaste y deberás girarla al sentido contrario al que le diste vuelta. Por ejemplo esta imagen indica dos movimientos a las caras y la forma de «deshacer» los movimientos.
En la imagen también marcamos los movimientos de mover las dos caras como $f$, por ahora imagínate que ese movimiento de girar las dos caras como lo muestra la imagen, se llama el movimiento $f$. Mientras que el movimiento de deshacerlas se llama $f^{-1}$. Entonces si realizamos primero el movimiento $f$, el movimiento $f^{-1}$ revierte lo que hizo la primera, volviendo al estado inicial. Así es como vamos a pensar en la reversibilidad de las funciones, una manera de «volver a armar» el cubo.
Funciones reversibles
Diremos que una función es reversible si existe una función $f^{-1}:Im(f) \rightarrow X$ tal que $f ^{-1}\circ f = Id$ donde $Id$ es la función identidad, es decir, es la única función que asigna a cada elemento a sí mismo, es decir $Id(x)=x$.
Algunas observaciones de las funciones invertibles. Sea $f:X \rightarrow Y$ una función invertible, entonces:
$f$ es inyectiva.
Demostración. Supongamos que no es inyectiva, entonces existen $x_1,x_2 \in X$ distintos tales que $f(x_1) = f(x_2)$. Como $f$ es invertible, entonces existe su función inversa $f^{-1}:Im(f) \rightarrow X$, en donde $$x_1 = f^{-1} \circ f(x_1) = f^{-1} \circ f(x_2) = x_2 $$ Siendo esta una contradicción, pues supusimos que eran distintos elementos. Así, la función es inyectiva.
$\square$
$f^{-1}$ es inyectiva.
Demostración. De manera similar a la demostración anterior, si $y_1,y_2 \in Dom(f^{-1})$ son tales que $f^{-1}(y_1) = f^{-1}(y_2)$, se tiene que al ser $f$ inyectiva, $$f(f^{-1}(y_1)) = f(f^{-1}(y_2)) \Rightarrow y_1=y_2$$ Llegando a que $f^{-1}$ es inyectiva.
$\square$
Así, te puedes dar una idea de lo que significan las funciones invertibles. Con estas proposiciones hemos probado además que la función $f^{-1}: Im(f) \rightarrow X$ es una biyección. ¿Te imaginas porqué? Pues resulta que la función $f^{-1}$ también es suprayectiva.
$f^{-1} \circ f = f \circ f^{-1}$
Demostración. Sabemos que $f^{-1} \circ f = Id$, entonces bastará demostrar que $f \circ f^{-1} = Id$. Para ello consideremos $y \in Dom(f^{-1})=Im(f) \subset Y$. Supongamos que $$f \circ f^{-1}(y)=w$$. Entonces $$f^{-1}(f \circ f^{-1}(y)) = f^{-1}(w). $$ Como la composición es asociativa, entonces: $$f^{-1}(f \circ f^{-1}(y)) = (f^{-1} \circ f) \circ f^{-1}(y) = f^{-1}(y) = f^{-1}(w)$$ Como $f^{-1}$ es inyectiva, entonces $y=w$
$\square$
Sea $g:Im(f) \rightarrow Z$ una función invertible, entonces $(g \circ f)^{-1} = f^{-1} \circ g^{-1}$
Demostración. Basta notar que por la asociatividad de las funciones:
$$ \begin{align*} (g \circ f) \circ (f^{-1} \circ g^{-1}) &= g \circ (f \circ (f^{-1} \circ g^{-1})\\ &= g \circ ((f \circ f^{-1}) \circ g^{-1})\\ &= g \circ (Id \circ g^{-1}) \\ &= g \circ g^{-1} = Id \end{align*}$$
$\square$
Tarea moral
A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.
Da una condición suficiente para que una función no sea invertible.
Más adelante…
Habiendo pasado por las funciones, su composición, sus propiedades y la inversa, utilizaremos estas definiciones para hablar de el tamaño de los conjuntos. Pues esta definición de funciones nos ayudan a decir «Cuántos elementos tiene un conjunto».
En entradas anteriores hablamos de las matrices en forma escalonada reducida y de cómo cualquier matriz puede ser llevada a esta forma usando el algoritmo de reducción gaussiana. Usamos esto para resolver sistemas de ecuaciones lineales arbitrarios, es decir, de la forma $AX=b$. en esta ocasión estudiaremos cómo ver si una matriz es invertible y cómo determinar inversas de matrices mediante el algoritmo de reducción gaussiana.
Inversas de matrices elementales
Recordemos que una matriz $A\in M_n(F)$ es invertible si existe una matriz $B$ tal que $AB=BA=I_n$. Dicha matriz $B$ es única, se conoce como la matriz inversa de $A$ y se denota por $A^{-1}$.
Es importante observar que las matrices elementales son invertibles, puesto que las operaciones elementales se pueden revertir (esto también nos dice que la inversa de una matriz elemental también es una matriz elemental). Por ejemplo, si la matriz $E$ se obtiene de $I_n$ intercambiando los renglones $i$ y $j$, entonces $E^{-1}$ se obtiene de $I_n$ haciendo la misma operación, por lo que $E^{-1}=E$. Por otro lado, si $E$ se obtiene de sumar $\lambda$ veces el renglón $j$ al renglón $i$ en $I_n$, entonces E^{-1} se obtiene de sumar $-\lambda$ veces el renglón $j$ al renglón $i$ en $I_n$. El argumento para reescalamientos queda como tarea moral.
Debido a su importancia, enunciaremos este resultado como una proposición.
Proposición. Las matrices elementales son invertibles y sus inversas también son matrices elementales. Como consecuencia, cualquier producto de matrices elementales es invertible.
Algunas equivalencias de matrices invertibles
Hasta el momento sólo tenemos la definición de matrices invertibles para verificar si una matriz es invertible o no. Esto es poco práctico, pues dada una matriz, tendríamos que sacar otra «de la nada».
El siguiente resultado empieza a decirnos cómo saber de manera práctica cuándo una matriz cuadrada es invertible. También habla de una propiedad importante que cumplen las matrices invertibles.
Teorema. Para una matriz $A\in M_n(F)$ las siguientes afirmaciones son equivalentes: (a) $A$ es invertible. (b) $A_{red}=I_n$. (c) $A$ es producto de matrices elementales.
Demostración. Para empezar, notemos que el producto de matrices invertibles es invertible , pues cualquier matriz elemental es invertible y las matrices invertibles son estables bajo productos. Esto prueba que (c) implica (a).
Ahora, supongamos que (a) se satisface. Recordemos que para una matriz $A\in M_{m,n}(F)$ podemos encontrar una matriz $B\in M_m(F)$ que es producto de matrices elementales y tal que $A_{red}=BA$. Como $A$ es invertible (por hipótesis) y $B$ es invertible (por la proposición de la sección anterior), entonces $BA$ es invertible y por consiguiente $A_{red}$ también lo es. En particular, todos los renglones de $A_{red}$ son distintos de cero y por lo tanto $A_{red}$ tiene $n$ pivotes, uno en cada columna. Como $A_{red}$ está en forma escalonada reducida, necesariamente $A_{red}=I_n$. Esto prueba que (a) implica (b).
Finalmente, supongamos que $(b)$ se satisface. Entonces existe una matriz $B$, la cual es producto de matrices elementales y tal que $BA=I_n$. Por la proposición anterior $B$ es invertible y $B^{-1}$ es producto de matrices elementales. Como $BA=I_n$, tenemos que $A=B^{-1}BA=B^{-1}$ y así $A$ es producto de matrices elementales, de manera que (b) implica (c).
$\square$
Ya podemos responder de manera práctica la pregunta «¿$A$ es invertible?». Para ello, basta aplicarle reducción gaussiana a $A$. Por el teorema anterior, $A$ es invertible si y sólo si la forma escalonada reducida obtenida es $I_n$. Por supuesto, esto aún no nos dice exactamente quién es la inversa.
Invertibilidad y sistemas de ecuaciones
La siguiente proposición expresa las soluciones del sistema $AX=b$ cuando $A$ es una matriz cuadrada e invertible. Para facilitar las cosas hay que tener un algoritmo para encontrar la inversa de una matriz. Más adelante veremos uno de estos algoritmos basado en reducción gaussiana.
Proposición. Si $A\in M_n(F)$ es una matriz invertible, entonces para todo $b\in F^n$ el sistema $AX=b$ tiene una única solución, dada por $X=A^{-1}b$.
Demostración. Sea $X$ una solución del sistema. Multiplicando la igualdad $AX=b$ por la izquierda por $A^{-1}$ obtenemos $A^{-1}(AX)=A^{-1}b$. Como \begin{align*} A^{-1}(AX)=(A^{-1}A)X =I_nX=X, \end{align*} concluimos que $X=A^{-1}b$, por lo tanto el sistema tiene a lo más una solución. Para ver que esta es en efecto una solución, calculamos \begin{align*} A(A^{-1}b)=(AA^{-1})b=I_nb=b. \end{align*}
$\square$
A continuación presentamos un resultado más, que relaciona matrices invertibles con que sus sistemas lineales correspondientes tengan soluciones únicas.
Teorema. Sea $A\in M_n(F)$ una matriz. Las siguientes afirmaciones son equivalentes: (a) $A$ es invertible. (b) Para toda $b\in F^n$ el sistema $AX=b$ tiene una única solución $X\in F^n$. (c) Para toda $b\in F^n$ el sistema $AX=b$ es consistente.
Demostración. Ya demostramos que (a) implica (b). Es claro que (b) implica (c) pues si el sistema tiene una única solución, en particular tiene una solución.
Así, supongamos que que (c) se satisface. Sea $A_{red}$ la forma escalonada reducida de $A$. Por una proposición ya antes mencionada en esta entrada sabemos que existe una matriz $B$ la cual es producto de matrices elementales (por lo tanto invertible) y tal que $A_{red}=BA$. Deducimos que el sistema $A_{red}X=Bb$ tiene al menos una solución para todo $b\in F^n$ (pues si $AX=b$, entonces $A_{red}X=BAX=Bb$).
Ahora, para cualquier $b’\in F^n$ podemos encontrar $b$ tal que $b’=Bb$, tomando $b=B^{-1}b’$. Aquí estamos usando que $B$ es invertible por ser producto de matrices elementales. Concluimos que el sistema $A_{red}X=b$ es consistente para cada $b\in F^n$, pero entonces cualquier renglón de $A_{red}$ debe ser distinto de cero (si la fila $i$ es cero, entonces escogiendo cada vector $b$ con la $i-$ésima coordenada igual a $1$ se obtiene un sistema inconsistente) y, como en la demostración del teorema anterior, se tiene que $A_{red}=I_n$. Usando el teorema anterior concluimos que $A$ es invertible.
$\square$
Hasta ahora, al tomar un matriz cuadrada $A$ y proponer una inversa $B$, la definición de invertibilidad nos exige mostrar ambas igualdades $AB=I_n$ y $BA=I_n$. Finalmente tenemos las herramientas necesarias para mostrar que basta mostrar una de estas igualdades para que ambas se cumplan.
Corolario. Sean $A,B\in M_n(F)$ matrices. (a) Si $AB=I_n$, entonces $A$ es invertible y $B=A^{-1}$. (b) Si $BA=I_n$, entonces $A$ es invertible y $B=A^{-1}$.
Demostración. (a) Para cada $b\in F^n$ el vector $X=Bb$ satisface \begin{align*} AX=A(Bb) =(AB)b=b, \end{align*} por lo tanto el sistema $AX=b$ es consistente para cada $b\in M_n(F)$. Por el teorema anterior, $A$ es invertible. Multiplicando la igualdad $AB=I_n$ por la izquierda por $A^{-1}$ obtenemos $B=A^{-1}AB=A^{-1}$, y así $B=A^{-1}$. (b) Por el inciso (a), sabemos que $B$ es invertible y $A=B^{-1}$, pero entonces $A$ es invertible y $A^{-1}=B$.
$\square$
Determinar inversas usando reducción gaussiana
El corolario anterior nos da una manera práctica de saber si una matriz es invertible y, en esos casos, determinar inversas de matrices. En efecto, $A$ es invertible si y sólo si podemos encontrar una matriz $X$ tal que $AX=I_n$ y de aquí $X=A^{-1}$.
La ecuación $AX=I_n$ es equivalente a los siguientes sistemas lineales: \begin{align*} AX_1=e_1, \hspace{2mm}, AX_2=e_2, \hspace{2mm} \dots , \hspace {2mm} AX_n=e_n. \end{align*} donde $e_i$ es la $i-$ésima columna de $I_n$ y $X_i$ denota la $i-$ésima columna de $X$. Ya sabemos cómo resolver sistemas lineales usando reducción gaussiana. Esto nos da una manera práctica de calcular $X$: si al menos uno de estos sistemas es inconsistente, entonces $A$ no es invertible; si todos son consistentes, entonces las soluciones $X_1,\ldots,X_n$ son las columnas de la inversa.
En la práctica, uno puede evitar resolver $n$ sistemas lineales considerando el siguiente truco:
En lugar de tomar $n$ matrices aumentadas $[A| e_i]$ considera sólo la matriz aumentada $[A|I_n]$, en la cual agregamos la matriz $I_n$ a la derecha de $A$ (de manera que $[A|I_n]$ tiene $2n$ columnas). Finalmente sólo hay que encontrar la forma escalonada reducida $[A’|X]$ de la matriz de $n\times 2n \hspace{2mm} [A|I_n]$. Si $A’$ resulta ser distinto de $I_n$, entonces $A$ no es inverible. Si $A’=I_n$, entonces la inversa de $A$ es simplemente la matriz $X$.
Ejemplo de determinar inversas
Para ilustrar lo anterior resolveremos el siguiente ejemplo práctico.
Ejemplo. Calcula la inversa de la matriz \begin{align*} A= \begin{pmatrix} 1 & 5 & 1\\ 2 & 11 & 5\\ 9 & -3 & 0 \end{pmatrix}. \end{align*}
A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.
¿Cuál sería la operación elemental inversa a aplicar un reescalamiento por un factor $c\neq 0$ en el renglón de una matriz?
Encuentra la inversa de la matriz \begin{align*} \begin{pmatrix} 1 & 2 & 1\\ 2 & 0 & 2\\ 1 & 2 & 0 \end{pmatrix}. \end{align*} mediante reducción gaussiana.
Resuelve el sistema de ecuaciones \begin{align*} \begin{cases} x+2y+2z=1\\ 2x+y+2z=4\\ 2x+2y+z=5 \end{cases} \end{align*}
Sea $A\in M_n(F)$ una matriz tal que $A_{red}\neq I_n$. Explica por qué $A$ no es invertible.
Cuando $A$ no es invertible, la matriz $[A|I_n]$ tiene forma escalonada reducida $[A_{red}|X]$, con $A_{red}\neq I_n$. ¿Qué sucede si en este caso haces la multiplicación $AX$? ¿Y la multiplicación $XA$?
Demuestra la primera proposición de esta entrada para operaciones elementales sobre las columnas.
Más adelante…
En esta entrada vimos cómo el algoritmo de reducción gaussiana nos permite saber si una matriz es invertible o no. También nos da una forma práctica de determinar inversas. Hay otras formas de hacer esto mediante determinantes. Sin embargo, el método que describimos es bastante rápido y flexible.
Ya que entendemos un poco mejor a las matrices invertibles, el siguiente paso es usarlas para desarrollar nuestra teoría de álgebra lineal. Las matrices invertibles se corresponden con transformaciones lineales que se llaman isomorfismos, las cuales detectan cuándo dos espacios vectoriales son «el mismo».
También más adelante refinaremos el concepto de ser invertible y no. Esta es una clasificación en sólo dos posibilidades. Cuando definamos y estudiamos el rango de matrices y transformaciones lineales tendremos una forma más precisa de decir «qué tanta información guarda una transformación».
Ya definimos a los determinantes para vectores, para transformaciones y para matrices. Además, mostramos algunas propiedades básicas de determinantes y las usamos para resolver varios problemas. Como hemos discutido, los determinantes guardan información importante sobre una transformación lineal o sobre una matriz. También ayudan a implementar la técnica de diagonalización la cual introdujimos hace algunas entradas y en la cual profundizaremos después. Es por esta razón que es importante tener varias técnicas para el cálculo de determinantes.
Fuera de este curso, los determinantes sirven en muchas otras áreas de las matemáticas. Cuando se hace cálculo de varias variables ayudan a enunciar el teorema del cambio de variable. En combinatoria ayudan a calcular el número de árboles generadores de una gráfica. Más adelante en tu formación matemática es probable que te encuentres con otros ejemplos.
Calculo de determinantes de $2\times 2$
Como ya discutimos anteriormente, una matriz en $M_2(F)$, digamos $A=\begin{pmatrix}a&b\\ c&d\end{pmatrix}$ tiene determinante $ad-bc$.
Problema. Calcula el determinante de la matriz $$\begin{pmatrix} 0 & 1\\ 1 & 1\end{pmatrix}^8.$$
Solución. Por la fórmula para el determinante de las matrices de $2\times 2$, se tiene que $\begin{vmatrix} 0 & 1\\ 1 & 1\end{vmatrix} = 0\cdot 1 – 1\cdot 1 = -1.$
Como el determinante es multiplicativo, $\det(A^2)=\det(A)\det(A)=(\det(A))^2$, e inductivamente se puede mostrar que para todo entero positivo $n$ se tiene que $\det(A^n)=(\det(A))^n$. De esta forma, el determinante que buscamos es $(-1)^8=1$.
$\square$
Observa que hubiera tomado más trabajo elevar la matriz a la octava potencia. Aunque esto usualmente no es recomendable, en este problema hay algo interesante que sucede con esta matriz. Llamémosla $A=\begin{pmatrix} 0 & 1\\ 1 & 1\end{pmatrix}$. Haciendo las cuentas para las primeras potencias, se tiene que \begin{align*} A&=\begin{pmatrix} 0 & 1\\ 1 & 1\end{pmatrix}\\ A^2&=\begin{pmatrix} 1 & 1\\ 1 & 2\end{pmatrix}\\ A^3&=\begin{pmatrix} 1 & 2\\ 2 & 3\end{pmatrix}\\ A^4&=\begin{pmatrix} 2 & 3\\ 3 & 5\end{pmatrix}\\ A^5&=\begin{pmatrix} 3 & 5\\ 5 & 8\end{pmatrix} \end{align*}
Aquí aparece la sucesión de Fibonacci, dada por $F_0=0$, $F_1=1$ y $F_{n+2}=F_{n+1}+F_n$ para $n\geq 0$, cuyos primeros términos son $$0,1,1,2,3,5,8,13,21,\ldots.$$ De hecho se puede probar por inducción que $$A^n=\begin{pmatrix} F_{n-1} & F_n\\ F_n & F_{n+1}\end{pmatrix}.$$
Así, por un lado el determinante de la matriz $A^n$ es $F_{n-1}F_{n+1}-F_n^2$, usando la fórmula de determinante de $2\times 2$. Por otro lado, es $(-1)^n$, por el argumento del problema. Con esto hemos demostrado que para cualquier entero $n$ tenemos la siguiente identidad para los números de Fibonacci: $$F_{n-1}F_{n+1}-F_n^2 = (-1)^n.$$
Cálculo de determinantes de $3\times 3$
Para calcular el determinante de una matriz en $M_3(F)$ por definición, digamos de $A=\begin{pmatrix}a&b&c\\ d&e&f\\ g&h&i\end{pmatrix}$, tenemos que hacer una suma de $3!=6$ términos. Si se hacen las cuentas de manera explícita, el valor que se obtiene es $$aei+bfg+cdh-ceg-afh-bdi.$$
Esto se puede recordar mediante el siguiente diagrama, en el cual se ponen la primera y la segunda columna de nuevo, a la derecha. Las diagonales hacia abajo son términos positivos y las diagonales hacia arriba son términos negativos.
Cálculo de determinantes de $3\times 3$
Veamos un ejemplo de un problema en el que se puede aprovechar esta técnica.
Problema. Determina para qué reales $a,b,c$ se tiene que los vectores $(a,b,0)$, $(a,0,b)$ y $(0,a,b)$ son una base de $\mathbb{R}^3$.
Solución. Para que estos vectores sean una base de $\mathbb{R}^3$, basta con que sean linealmente independientes, pues son $3$. Como hemos visto en entradas anteriores, para que sean linealmente independientes, es necesario y suficiente que el determinante de la matriz $\begin{pmatrix}a&b&0\\ a&0&b\\ 0&a&b\end{pmatrix}$ sea distinto de cero.
Usando la técnica de arriba, hacemos siguiente diagrama:
De aquí, vemos que el determinante es $$0+0+0-0-a^2b-ab^2=-ab(a+b).$$ Esta expresión es igual a cero si $a=0$, si $b=0$ o si $a+b=0$. En cualquier otro caso, el determinante no es cero, y por lo tanto los vectores forman una base.
$\square$
Ten mucho cuidado. Esta técnica no funciona para matrices de $4\times 4$ o más. Hay una forma sencilla de convencerse de ello. Por ejemplo, el determinante de una matriz de $4\times 4$ debe tener $4!=24$ sumandos. Si intentamos copiar la técnica de arriba, tendremos solamente $8$ sumandos ($4$ en una diagonal y $4$ en otra). Para cuando tenemos matrices de $4\times 4$ o más, tenemos que recurrir a otras técnicas.
Reducción gaussiana para determinantes
Cuando vimos el tema de sistemas de ecuaciones hablamos del algoritmo de reducción gaussiana, y vimos que este siempre lleva una matriz en $M_{m,n}(F)$ a su forma escalonada reducida mediante operaciones elementales. Cuando aplicamos el algoritmo a matrices en $M_n(F)$, siempre llegamos a una matriz triangular, en donde sabemos fácilmente calcular el determinante: es simplemente el producto de las entradas en la diagonal. Nota cómo lo anterior también se cumple para las matrices diagonales, pues son un caso particular de matrices triangulares.
Por esta razón, es fundamental para el cálculo de determinantes saber qué le hacen las operaciones elementales al determinante de una matriz.
Teorema. Las operaciones elementales tienen el siguiente efecto en el determinante de una matriz $A$:
Si todos los elementos de un renglón o columna de $A$ se multiplican por $\lambda$, entonces el determinante se multiplica por $\lambda$.
Cuando se intercambian dos renglones o columnas de $A$, el determinante se multiplica por $-1$.
Si a un renglón de $A$ se le suma un múltiplo escalar de otro renglón, entonces el determinante no cambia. Sucede algo análogo para columnas.
Demostración. El punto $1$ ya lo demostramos en la entrada anterior, en donde vimos que el determinante es homogéneo.
Para los puntos $2$ y $3$, usemos que si $e_1,\ldots e_n$ es la base canónica de $F^n$, el determinante de una matriz con renglones $R_1,\ldots,R_n$ es $$\det_{(e_1,\ldots,e_n)}(R_1,\ldots,R_n).$$
Intercambiar los renglones $i$ y $j$ es hacer $\det_{(e_1,\ldots,e_n)}(R_{\sigma(1)},\ldots,R_{\sigma(n)})$ para la transposición $\sigma$ que intercambia $i$ y $j$. Como el determinante es antisimétrico y $\sigma$ tiene signo $-1$, obtenemos la conclusión.
Hagamos ahora el tercer punto. Tomemos $i\neq j$ y un escalar $\lambda$. Si al $i$-ésimo renglón de $A$ le sumamos $\lambda$ veces el $j$-ésimo renglón de $A$, esto es lo mismo que multiplicar a $A$ por la izquierda por la matriz $B$ que tiene unos en la diagonal y $\lambda$ en la entrada $(i,j)$. La matriz $B$ es triangular, de modo que su determinante es el producto de las entradas, que es $1$. De esta forma, $$\det(BA)=\det(B)\det(A)=\det(A).$$
$\square$
Así, una estrategia para calcular el determinante de una matriz es hacer reducción gaussiana hasta llegar a una matriz diagonal (incluso es suficiente que sea triangular superior) de determinante $\Delta$. Si en el camino se hicieron $r$ intercambios de renglones y se multiplicaron los renglones por escalares $\lambda_1,\ldots,\lambda_s$, entonces el determinante de $A$ será $$\frac{(-1)^r \Delta}{\lambda_1\cdot\ldots\cdot \lambda_s}.$$
Otras propiedades para calcular determinantes
Aquí recolectamos otras propiedades de determinantes que pueden ayudar a calcularlos. Ya mostramos todas ellas, salvo la número $2$. Esta la mostramos después de la lista.
Si se descompone una columna de una matriz como suma de dos columnas, entonces el determinantes es la suma de los determinantes en los que ponemos cada columna en vez de la original.
Si $A$ es una matriz en $M_n(\mathbb{C})$, entonces el determinante de la matriz conjugada $\overline{A}$ es el conjugado del determinante de $A$.
El determinante es multiplicativo.
Si $A$ es una matriz en $M_n(F)$, el determinante de $\lambda A$ es $\lambda^n$ veces el determinante de $A$.
El determinante de una matriz triangular es el producto de sus entradas en la diagonal.
El determinante de una matriz invertible es el inverso multiplicativo del determinante de la matriz.
Una matriz tiene el mismo determinante que su transpuesta.
Proposición. Si $A$ es una matriz en $M_n(\mathbb{C})$, entonces el determinante de la matriz conjugada $\overline{A}$ es el conjugado del determinante de $A$.
Demostración. La conjugación compleja abre sumas y productos. Aplicando esto repetidas veces obtenemos la siguiente cadena de igualdades:
Hay una última técnica que es fundamental para el cálculo de determinantes: la expansión de Laplace. En algunos textos incluso se usa para definir el determinante. Probablemente la conoces: es la que consiste en hacer el determinante «con respecto a una fila o columna» y proceder de manera recursiva. Hablaremos de ella más adelante y veremos por qué funciona.
En el primer paso sumamos $1/5$ veces el primer renglón al último. Luego, sumamos $14/5$ veces el segundo renglón al último. Finalmente, sumamos $12/25$ veces el tercer renglón al último. De esta forma, nunca cambiamos el determinante de la matriz. Así, del determinante de $A$ es el mismo que el de la matriz final, que por ser triangular superior es el producto de las entradas en su diagonal. De este modo, $$\det(A) = 5\cdot 1 \cdot 5 \cdot \frac{189}{5} = 189.$$
El determinante de una matriz es igual al de su transpuesta, así que $\det(^t A)=\det(A)$. El determinante $\det(A^{-1})$ es el inverso multiplicativo de $\det(A)$, así que es $\frac{1}{189}$.
Como el determinante es multiplicativo, $$\det({^tA}A)=\det({^tA})\det(A)=189\cdot 189=35721.$$
Finalmente, usando que el determinante es homogéneo y que estamos en $M_4(\mathbb{R})$, tenemos que \begin{align*} \det(-2A)&=(-2)^4\det(A)\\ &=16\cdot 189\\ &=3024. \end{align*}
$\square$
Problema. Sean $a,b,c$ números complejos. Calculando el determinante de la matriz $$A=\begin{pmatrix}a&b&c\\ c&a&b\\ b&c&a\end{pmatrix}$$ en $M_3(\mathbb{C})$ de dos formas distintas, muestra que $$a^3+b^3+c^3-3abc=(a+b+c)(a^2+b^2+c^2-ab-bc-ca).$$
Solución. Usando la técnica para determinantes de $3\cdot 3$ tenemos que por un lado, \begin{align*} \det(A) &= a^3 + b^3 + c^3 – abc – bca – cab\\ &=a^3+b^3+c^3-3abc. \end{align*}
Por otro lado, el determinante no cambia si al primer renglón le sumamos los otros dos, así que el determinante de $A$ también es $$\begin{vmatrix}a+b+c&a+b+c&a+b+c\\ c&a&b\\ b&c&a\end{vmatrix}.$$ Como el determinante es homogéneo, podemos factorizar $a+b+c$ de la primera entrada para obtener que $$\det(A)=(a+b+c)\begin{vmatrix}1&1&1\\ c&a&b\\ b&c&a\end{vmatrix}.$$
Aplicando de nuevo la fórmula de determinantes de $3\times 3$, tenemos que $$\begin{vmatrix}1&1&1\\ c&a&b\\ b&c&a\end{vmatrix} = a^2+b^2+c^2-ab-bc-ca.$$
Concluimos entonces que $$\det(A)=(a+b+c)(a^2+b^2+c^2-ab-bc-ca).$$ Igualando ambas expresiones para $\det(A)$ obtenemos la identidad deseada.
$\square$
Tarea moral
A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.
Sea $\alpha$ un número real. Encuentra el determinante de la matriz $$\begin{pmatrix}\sin \alpha & \cos \alpha \\ -\cos \alpha & \sin \alpha \end{pmatrix}.$$
Determina para qué valores de $a$ la matriz $$\begin{pmatrix} a & 0 & a & 0 & a \\0 & a & 0 & a & 0 \\ 0 & 0 & a & 0 & 0 \\ 0 & a & 0 & a & 0 \\ a & 0 & a & 0 & a \end{pmatrix}$$ es invertible.
Sea $x$ un número complejo. Muestra que el determinante de la matriz $$\begin{pmatrix}3x^2-6x+5&2x^2-4x+2&x^2-2x\\ 2x^2-4x+2&2x^2+2x+1&x^2-x\\ x^2-2x&x^2-x&x^2\end{pmatrix}$$ es $x^6$. Sugerencia. Hay una solución simple, factorizando a la matriz como el producto de dos matrices triangulares, una superior y una inferior, una transpuesta de la otra.
Muestra que si $A=\begin{pmatrix}0& 1 \\ 1 & 1\end{pmatrix}$, entonces $$A^n=\begin{pmatrix} F_{n-1} & F_n\\ F_n & F_{n+1}\end{pmatrix},$$ donde $\{F_n\}$ es la sucesión de Fibonacci. Muestra que para los números de Fibonacci se satisface que $$F_{2n}=F_n(F_{n+1}+F_{n-1}).$$
Más adelante…
En esta entrada vimos varias formas para calcular el determinante de una matriz. Cuando nos enfrentemos con un problema que requiere el cálculo de un determinante, tenemos que elegir la que más nos convenga (o la que requiera menos pasos). La mejor forma de desarrollar un poco de «intuición» al momento de elegir el mejor método para calcular determinantes es haciendo ejercicios.
A continuación pondremos en práctica lo que aprendimos en esta entrada haciendo varios ejercicios de cálculo de determinantes.
Una de las nociones más importantes en álgebra lineal es la de «matriz invertible». Llamemos $I_n$ a la matriz identidad de $n\times n$, es decir, a la que tiene $1$ en cada entrada de la diagonal principal, y $0$ en las demás.
Una matriz $A$ de $n\times n$ es invertible si existe una matriz $B$ de $n\times n$ tal que $AB=I_n=BA$.
Una consecuencia rápida es que dicha matriz $B$ es única, así que le podemos dar la notación $A^{-1}$. De la definición (y asociatividad) se puede ver rápido que si $A_1$ y $A_2$ son invertibles, entonces su producto $A_1A_2$ también, con inversa $A_2^{-1}A_1^{-1}$, en otras palabras, «producto de invertibles es invertible».
Un detalle curioso de la definición es que pide no sólo que $AB=I_n$, sino que para la misma matriz $B$ también se tenga que $BA=I_n$. Por un lado, a priori esto tiene sentido pues el producto de matrices no es conmutativo, es decir, ocurre a veces que $AB\neq BA$. Sin embargo, como veremos más adelante en esta entrada, en la definición de matriz invertible basta con tener una de estas igualdades.
De hecho, la idea de esta entrada es presentar y demostrar varias equivalencias a la afirmación «$A$ es una matriz invertible». La presentación sigue un poco el orden de ideas del capítulo 3.4 del libro Essential Linear Algebra with Applications: A Problem-Solving Approach de Titu Andreescu. La idea es explicar el siguiente diagrama, en donde agrupamos a las equivalencias en grupitos que corresponden a partes de una mariposa:
Algunas definiciones
Antes de enunciar el resultado principal, conviene recordar algunas definiciones y un par de resultados importantes.
Una operación elemental es aplicar a una matriz de las siguientes operaciones:
Intercambio de dos filas.
Multiplicar todas las entradas de alguna de sus filas por un elemento $c$ no cero.
Sumar a una fila un múltiplo de otra fila.
Una matriz elemental es una matriz obtenida de aplicar a $I_n$ exactamente una operación elemental.
Una fila de una matriz es una fila cero si todas sus entradas son iguales a cero. A la primer entrada no cero (de izquierda a derecha) de una fila que no sea fila cero se le llama pivote. Una matriz es escalonada reducida si cumple las siguientes tres propiedades:
Todas las filas cero están hasta abajo.
En todas las filas no cero los pivotes son iguales a $1$.
Si una fila no cero $F_1$ está arriba de otra fila no cero $F_2$, entonces el pivote de $F_1$ está estrictamente a la izquierda del pivote de $F_2$.
Si una entrada tiene al pivote de una fila, entonces todas las demás entradas de la columna son iguales a $0$.
Un resultado (no trivial) es que cualquier matriz se puede llevar a una (y sólo una) matriz escalonada reducida $A_{\text{red}}$ usando únicamente operaciones elementales, a la cual le llamamos su forma escalonada reducida. Estas son todas las definiciones que necesitamos. Estamos listos para pasar al enunciado del teorema principal.
Teorema de la mariposa de equivalencias
Teorema: Sea $A$ una matriz de $n\times n$ con entradas en un campo $F$. Entonces, todas las siguientes afirmaciones son equivalentes:
$A$ es una matriz invertible.
La forma escalonada reducida $A_{\text{red}}$ de $A$ es $I_n$.
$A$ es producto de matrices elementales.
Para todo $b\in F^n$, el sistema de ecuaciones $Ax=b$ tiene una única solución $x\in F^n$.
Para todo $b\in F^n$, el sistema de ecuaciones $Ax=b$ tiene una solución $x\in F^n$.
Existe una matriz $B$ de $n\times n$ tal que $AB=I_n$.
Existe una matriz $B$ de $n\times n$ tal que $BA=I_n$.
Por supuesto, estas no son todas las formas de caracterizar una matriz invertible. Hay otras formas de hacerlo en términos de determinantes, por ejemplo. En el camino recordaremos varias de las definiciones que están en este teorema.
Le llamo el teorema de la mariposa de equivalencias porque podemos agrupar a estos números en tres «grupos» principales de equivalencias «parecidas», que además nos van a recordar cómo va la prueba.
Primero veremos la equivalencia entre 1, 2 y 3 (un ala). Luego, entre 1,4,5 (otra ala). Después, entre 1 y 6 (antena derecha). Finalmente, entre 1 y 7 (antena izquierda).
Un par de lemas auxiliar
Antes de demostrar el teorema de equivalencias, enunciamos y argumentamos dos resultados útiles
Es fácil convencerse de que aplicar una operación elemental a una matriz $A$ es lo mismo que multiplicar a $A$ por la izquierda por la matriz elemental correspondiente a la operación. Como toda matriz $A$ se puede llevar a su forma escalonada reducida mediante operaciones elementales, concluimos lo siguiente.
Lema 1: Para toda matriz $A$ existe una matriz $E$ que es producto de matrices elementales tal que $EA$ es la forma escalonada reducida de $A$, es decir $EA=A_{\text{red}}$.
También es fácil convencerse de que cada matriz elemental es invertible, pues las operaciones elementales se pueden revertir, y la inversa de la matriz elemental $M$ es precisamente la matriz elemental correspondiente a la operación inversa. Además, producto de matrices invertibles es invertible. De este modo, concluimos lo siguiente:
Lema 2: Si $E$ es una matriz que es producto de matrices elementales, entonces $E$ es invertible y también es producto de matrices elementales.
La demostración del teorema de la mariposa
Usaremos el diagrama de la mariposa para demostrar todas las equivalencias. Lo que haremos es probar una implicación por cada una de las siguientes flechas:
Empezamos con el ala izquierda de la mariposa.
(1) implica (2): Tomemos una matriz invertible $A$. Por el Lema 1, existe una matriz producto de elementales tal que $EA=A_{\text{red}}$. Como $E$ y $A$ son invertibles, entonces $A_{\text{red}}$ también es invertible.
Si $A_{\text{red}}$ tuviera una fila cero, digamos la $j$, no sería invertible. Esto sucede ya que para cualquier matriz $B$ de $n\times n$ tendríamos que la fila $j$ de $AB$ también sería cero, y entonces $AB$ nunca sería $I_n$. Como sabemos que $A_{\text{red}}$ es invertible, entonces todas sus filas no son cero y por lo tanto todas tienen pivote. Así, tenemos $n$ pivotes y por lo tanto tiene que haber exactamente un pivote por columna. Como $A_{\text{red}}$ es escalonada reducida, estos pivotes tienen que estar exactamente uno en cada entrada de la diagonal principal. Como además cada pivote es la única entrada no cero de su columna, concluimos que $A_{\text{red}}$ es la identidad.
(2) implica (3): Tomemos una matriz $A$ cuya forma escalonada reducida es la identidad. Por el Lema 1, existe una matriz producto de elementales tal que $EA=A_{\text{red}}=I_n$. Por el Lema 2, $E$ es invertible y $E^{-1}$ es producto de matrices elementales. Multiplicando por $E^{-1}$ a la izquierda a la identidad $EA=I_n$ obtenemos $A=E^{-1}$, es decir, $A$ es producto de matrices elementales.
(3) implica (1): Finalmente, si $A$ es producto de matrices elementales, por el Lema 2 tenemos que $A$ es invertible.
Con esto terminamos la primer ala de la mariposa. Notemos que cierran un ciclo, así que a partir de ahora podemos usar libremente la equivalencia entre 1, 2 y 3. Hagamos la segunda ala.
(1) implica (4): Supongamos que $A$ es invertible y tomemos cualquier $b$ en $F^n$. Notemos que $A^{-1}b$ es solución de $Ax=b$ pues satisface $A(A^{-1}b)=I_n b=b$. Además, si $x$ y $y$ son soluciones de $Ax=b$, tendríamos que $Ax=Ay$ y mutiplicando por $A^{-1}$ a la izquierda tendríamos que $x=y$. De este modo, $Ax=b$ tiene una única solución para todo $b$ en $F^n$.
(4) implica (5): Esta demostración es inmediata. Si $Ax=b$ tiene una única solución, en particular tiene una solución.
(5) implica (1): Supongemos que $Ax=b$ tiene una solución $x$ en $F^n$ para todo $b$ en $F^n$. Afirmamos que esto implica que $A_{\text{red}}x=b$ tiene solución para para todo $b$ en $F^n$. Tomemos una $b$ en $F^n$. Por el Lema 1, hay una matriz invertible $E$ tal que $A_{\red}=EA$. Por hipótesis, existe una solución $x$ para $Ax=E^{-1}b$. Tomemos esa $x$. Notemos que $A_{\text{red}}x=(EA)x=E(Ax)=E(E^{-1}b)=b$. Es decir, justo esa $x$ es solución para $A_{\text{red}}x=b$.
En particular, $A_{\text{red}}x=e_j$ tiene solución para cuando $e_j$ es el vector cuya $j$-ésima entrada es $1$ y las demás cero. Así, es imposible que la $j$-ésima fila de $A_{\text{red}}$ sea cero, ya que en caso contrario $Ax$ siempre tendría $j$-ésima entrada cero y $Ax=e_j$ no tendría solución. Como ya vimos antes, si $A_{\text{red}}$ no tiene filas cero, entonces es la identidad. Por la equivalencia entre (1) y (2) concluimos que $A$ es invertible.
Esto termina las equivalencias en la segunda ala, así que ahora podemos usar libremente las implicaciones entre 1, 2, 3, 4 y 5. Ya nada más nos faltan las antenas.
Por supuesto, las implicaciones (1) implica (6) y (1) implica (7) son triviales, pues la matriz de (1) en particular funciona para (6) y (7). Lo que falta ver son los regresos de estas implicaciones.
(6) implica (1): Supongamos que existe una matriz $B$ tal que $AB=I_n$. Tomemos $b$ en $F^n$. Notemos que $Bb$ es solución de $Ax=b$ pues $A(Bb)=(AB)b=I_nb=b$. De este modo, $Ax=b$ tiene solución para todo $b$ en $F^n$ y por la equivalencia entre (1) y (5) tenemos que $A$ es invertible. Si tomamos a su inversa $A^{-1}$ y la multiplicamos a la izquierda en la hipótesis, obtenemos $B=A^{-1}$, de modo que también $BA=I_n$.
(7) implica (1): Supongamos que existe una matriz $B$ tal que $BA=I_n$. Por la equivalencia entre (1) y (6), tenemos que $B$ es invertible, de inversa $B^{-1}$. De este modo, $A=(B^{-1}B)A=B^{-1}(BA)=B^{-1}I_n=B^{-1}$. De este modo, $A$ es la inversa de una matriz invertible y por tanto es invertible, y por lo tanto $AB=B^{-1}B=I_n$.
¡Listo! Con esto tenemos la equivalencia entre todas las afirmaciones.
¿Ahora qué?
Si te gustó esta entrada, puedes compartirla o revisar otras relacionadas con matemáticas a nivel universitario:
Uno de los teoremas clave de los cursos de cálculo de varias variables es el teorema de la función inversa (TFI). En la Facultad de Ciencias de la UNAM se estudia en la materia Cálculo III. En esta entrada me gustaría presentar de la manera más auto-contenida posible este resultado.
Platicaré un poco de las definiciones de los términos que aparecen en el enunciado, así como de la intuición de por qué el teorema es cierto. Después presentaré los ingredientes principales para una prueba. Finalmente, presentaré la prueba intentando motivarla y dividiéndola en secciones pequeñas.
El enunciado con el que trabajaremos es el siguiente:
Teorema de la función inversa. Sea $F:\mathbb{R}^n\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$ con matriz Jacobiana $DF$. Supongamos que $F(a)=b$ y que $DF(a)$ es invertible. Entonces existen vecindades abiertas $U$ y $V$ de $a$ y $b$ respectivamente para las cuales:
a) $F:U\to V$ es una biyección, b) su inversa $F^{-1}:V\to U$ es de clase $\mathcal{C}^1$ y c) $DF^{-1}(b)=DF(a)^{-1}$.
Lo que nos espera es aproximadamente lo que está en el siguiente diagrama, donde las flechas indican a grandes rasgos qué resultado se usa para probar qué otro.
Definiciones e intuición
La función con la que comenzamos es una función de $\mathbb{R}^n$ a $\mathbb{R}^n$, así que la podemos descomponer en sus funciones coordenadas de la siguiente manera: $$F(x)=(F_1(x), F_2(x),\ldots, F_n(x)).$$
Que la función sea de clase $\mathcal{C}^1$ quiere decir que las derivadas parciales con respecto a cada una de las variables existen, que estas son continuas y que localmente $F$ «se comporta» como la transformación lineal correspondiente a la matriz Jacobiana siguiente:
Entonces, a grandes rasgos lo que nos dice el teorema de la función inversa es lo siguiente. Si $F$ se comporta como una transformación lineal $T$ invertible «cerquita» del punto $a$, entonces en realidad es invertible «cerquita» del punto $a$ y más aún, la inversa se comporta como la transformación lineal $T^{-1}$ «cerquita» del punto $b=f(a)$.
Suena bastante razonable, pero hay algunos aspectos que son sorprendentes. Uno es que se garantiza la invertibilidad en todo un abierto $U$. Si no se requiriera que fuera abierto, sería chafa porque podríamos tomar $U=\{a\}$ y $V=\{b\}$ y la restricción sería trivialmente invertible. Lo otro es que el teorema también garantiza que la inversa es diferenciable, lo cual de entrada no es evidente.
Para la prueba necesitamos hablar de dos normas. Cuando tengamos un vector $x=(x_1,\ldots,x_n)$ en $\mathbb{R}^n$, $\norm{x}$ denotará la norma euclideana $$\norm{x}=\sqrt{\sum_{i=1}^nx_i^2}.$$
Necesitaremos también la norma de Frobenius. Como recordatorio, para una matriz $A=(a_{ij})$ de $n\times n$, su norma de Frobenius está dada por $$\norm{A}=\sqrt{\sum_{i=1}^n\sum_{j=1}^n a_{ij}^2},$$
o equivalentemente, si $A_i$ es el $i$-ésimo renglón de $A$, tenemos que
$$\norm{A}=\sqrt{\sum_{i=1}^n\norm{A_{i}}^2},$$
pues ambas expresiones suman todas las entradas de la matriz al cuadrado.
Ingredientes para la prueba
Pasemos ahora a algunos resultados auxiliares que es más cómodo probar desde antes. Algunos de ellos son más generales que lo que enuncio (e incluso con la misma prueba), pero con el fin de que la demostración sea auto-contenida, he decidido enunciar sólo lo que necesitamos.
Teorema del punto fijo de Banach (para $\mathbb{R}^n$). Sea $X$ un compacto de $\mathbb{R}^n$ y $\varphi:X\to X$ una función continua. Supongamos que $\varphi$ es una contracción, es decir, que existe un real $0<\lambda<1$ para el cual $\norm{\varphi(x)-\varphi(y)}\leq\lambda \norm{x-y}$ para todos $x,y \in X$.
Entonces $\varphi$ tiene un único punto fijo, es decir existe uno y sólo un punto $x_0\in X$ para el cual $\varphi(x_0)=x_0$.
Para probar el teorema del punto fijo de Banach basta tomar cualquier punto inicial $x_1$ y considerar la sucesión $\{x_m\}$ construida recursivamente con la regla $x_m=\varphi(x_{m-1})$ para $m\geq 2$. Usando que $\varphi$ es contracción y la fórmula para series geométricas se puede mostrar inductivamente que para $m>m’$ se tiene
Como $\lambda<1$, el lado derecho se hace arbitrariamente pequeño conforme $m’$ se hace grande, así que ésta es una sucesión de Cauchy. Por la compacidad de $X$ y completud de $\mathbb{R}^n$, tenemos que la sucesión converge a un punto $x_0$. Por continuidad, este punto satisface:
de donde $\norm{x-x_0}=0$, pues si no se tendría una contradicción. Así, $x=x_0$.
Desigualdades para la norma de Frobenius. Para $x\in \mathbb{R}^n$ y $A,B$ matrices reales de $n\times n$ tenemos que a) $\norm{Ax}\leq \norm{A} \norm{x}$ y b) $\norm{AB}\leq \norm{A} \norm{B}$.
La desigualdad (a) se prueba usando la desigualdad de Cauchy-Schwarz. En efecto, si $A_1,\ldots, A_n$ son los renglones de la matriz $A$, tenemos que $$Ax=(A_1\cdot x, A_2\cdot x, \ldots, A_n\cdot x),$$
entrada a entrada tenemos por Cauchy-Schwarz que
$$(A_i\cdot x)^2\leq \norm{A_i}^2\norm{x}^2,$$
de modo que sumando para $i=1,\ldots, n$ tenemos que
lo cual prueba la desigualdad (a). La desigualdad (b) se prueba de manera similar, tomando fila por fila a la matriz $A$ y columna por columna a la matriz $B$.
Desigualdad del valor medio. Sea $U\subset \mathbb{R}^n$ un abierto convexo y $F:U\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$. Sean $x,y$ puntos en $U$ para los cuales la cual la norma de Frobenius del Jacobiano $\norm{DF}$ está acotada sobre el segmento $xy$ por una constante $C$. Entonces:
$$\norm{F(x)-F(y)}\leq C \norm{x-y}.$$
La desigualdad del valor medio requiere de algunos pasos intermedios. Definamos $h=y-x$. La clave es probar las siguientes tres afirmaciones:
\begin{align*} F(x)-F(y)&=\int_0^1 DF(x+th) h \,dt\\ \norm{\int_0^1 DF(x+th) h \, dt } &\leq \int_0^1 \norm{DF(x+th)}\norm{h}\, dt\\ \int_0^1 \norm{DF(x+th)}\norm{h}\, dt &\leq C \norm{h}. \end{align*}
La primera es una «generalización» del teorema del valor medio de una variable. Se prueba coordenada a coordenada usando el Teorema Fundamental del Cálculo, la regla de la cadena y un intercambio de integral con suma (usando la continuidad de las derivadas parciales).
La segunda se prueba usando desigualdad del triángulo para integrales y la desigualdad (a) que probamos arriba para la norma de Frobenius.
La tercera se sigue de manera inmediata de la cota hipótesis para la matriz Jacobiana, pues $x+th=x+t(y-x)$ recorre el segmento $xy$ conforme $t$ recorre el intervalo $[0,1]$.
Combinando las tres afirmaciones concluimos
$$\norm{F(x)-F(y)}\leq C\norm{h}=C\norm{y-x},$$
que es justo lo que queríamos probar.
Con esto terminamos los pre-requisitos para probar el TFI. Aquí ya se ve algo interesante sucediendo. En el TFI queremos mostrar que cierta restricción es biyectiva, osea que cierto sistema de ecuaciones tiene una y sólo una solución. Esto se asemeja al teorema del punto fijo de Banach, donde, bajo ciertas condiciones de contracción, hay uno y sólo un punto fijo. El teorema de la desigualdad media puede ayudar a mostrar que una función contrae. Todo esto no es casualidad. A continuación veremos cómo combinar estos ingredientes.
Demostración del TFI
Estamos listos para dar la demostración del teorema de la función inversa. Por comodidad, aquí lo enunciamos de nuevo:
Teorema de la función inversa. Sea $F:\mathbb{R}^n\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$ con matriz Jacobiana $DF$. Supongamos que $F(a)=b$ y que $DF(a)$ es invertible. Entonces existen vecindades abiertas $U$ y $V$ de $a$ y $b$ respectivamente para las cuales:
a) $F:U\to V$ es una biyección, b) su inversa $F^{-1}:V\to U$ es de clase $\mathcal{C}^1$ y c) $DF^{-1}(b)=DF(a)^{-1}$.
Para el teorema necesitamos definir quién es el abierto $U$. Lo tomaremos como $U:=B(a,\epsilon)$, una bola abierta y centrada en $a$ de radio $\epsilon$. La idea es tomar $\epsilon$ tan pequeño como para que para $x\in U$ tengamos que $DF(x)$ sea invertible y
Ambas cosas las podemos hacer pues la asignación $x \mapsto DF(x)$ es continua ya que $F$ es de clase $\mathcal{C}^1$. En el transcurso de la prueba discutiremos la motivación de esta elección. A $V$ lo tomaremos como $F(U)$.
Lo primero que haremos es reformular parte (a) en términos de puntos fijos. Queremos que la restricción $F:U\to V$ que estamos buscando sea biyectiva. En otras palabras, para $y\in V$ queremos que la ecuación $y=F(x)$ tenga una y sólo una solución $x$ en $U$. Como por hipótesis la matriz $DF(a)$ es invertible, esto sucede si y sólo si
$$x+DF(a)^{-1}(y-F(x))=x,$$
es decir, si y sólo si $x$ es un punto fijo de la función $\varphi_y(x)=x+DF(a)^{-1}(y-F(x))$. Parece un poco artificial haber introducido a $DF(a)^{-1}$, pero como veremos a continuación tiene sentido pues nos ayudará para que $\varphi_y$ sea contracción.
Teniendo en mente que queremos usar la desigualdad del valor medio, calculamos y acotamos la norma de la derivada de $\varphi_y$ como sigue
Aquí es donde usamos (y se motiva parte de) nuestra elección de $U$: nos permite acotar $\norm{DF(a)-DF(x)}$ superiormente con $\frac{1}{2\norm{DF(a)^{-1}}} $ y por lo tanto podemos concluir la desigualdad anterior como
Por la desigualdad del valor medio, concluimos la siguiente observación clave.
Observacion. Para $y$ en $V$ tenemos que $\varphi_y$ es contracción en $U$ con factor $\lambda=\frac{1}{2}$. En otras palabras, para $x,w$ en $U$, tenemos $$\norm{\varphi_y(x)-\varphi_y(w)}\leq \frac{\norm{x-x’}}{2}.$$
La prueba a partir de ahora se divide en los siguientes pasos:
Mostrar que $F:U\to V$ es biyectiva.
Mostrar que $V$ es abierto
Mostrar que $F^{-1}:V\to U$ es diferenciable y y $DF^{-1}(b)=DF(a)^{-1}$
Mostrar que las derivadas parciales son continuas
$F:U\to V$ es biyectiva.
La suprayectividad la tenemos gratis, pues por definición $V=F(U)$.
Para la inyectividad, tomamos $y\in V$ y supongamos que existen $x$ y $w$ en $U$ tales que $F(x)=y=F(w)$. Esto quiere decir que $x$ y $w$ son puntos fijos de la contracción $\varphi_y$. Como vimos en la prueba del teorema del punto fijo de Banach, esto implica que $x=w$. Así, $x=w$, de modo que $F:U\to V$ es inyectiva y por lo tanto es biyectiva.
Nota: Aquí no estamos usamos el teorema del punto fijo de Banach pues $U$ no es compacto. Sólo estamos usando que las contracciones son inyectivas.
$V$ es abierto
Tomemos $y’$ en $V$, es decir, para la cual existe $x’$ en $U$ con $F(x’)=y’$. Queremos ver que si «$y$ está muy cerquita de $y’$» , entonces hay una solución para $F(x)=y$ con $x$ en $U$.
Como $U$ es abierto, existe $r$ tal que la bola $B(x’,2r)$ abierta de centro $x’$ y radio $2r$ se queda contenida en $U$. Tomemos $y$ en la bola $B\left(y’,\frac{r}{2\norm{DF(a)^{-1}}}\right)$. Vamos a ver que $F(x)=y$ tiene solución en $U$. Consideremos la función $\varphi_y$, pero restringida a la bola cerrada $X:=\overline{B}(x’,r)\subset U$. Mostraremos que la imagen de $\varphi_y$ se queda contenida en $\overline{B}(x’,r)$. En efecto:
\begin{align*} \norm{\varphi_y(x)-x’}&=\norm{\varphi_y(x)-\varphi_y(x’)+DF(a)^{-1}(y-y’)}\\ &\leq \norm{\varphi_y(x)-\varphi_y(x’)}+\norm{DF(a)^{-1}}\norm{y-y’}\\ &\leq \frac{\norm{x-x’}}{2}+\frac{r}{2}\leq r. \end{align*}
De este modo, $\varphi_y$ es una contracción del compacto $X$ a sí mismo. Por lo tanto, tiene un punto fijo en $X$, de modo que $F(x)=y$ para $x\in X\subset U$. Esto muestra que $V=F(U)$ es abierto.
$F^{-1}:V\to U$ es diferenciable y $DF^{-1}(b)=DF(a)^{-1}$
Vamos a demostrar que $F^{-1}:V\to U$ es diferenciable a partir de la definición de diferenciabilidad. Más aún, veremos que si $y=F(x)$ para $x$ en $U$, entonces $DF^{-1}(y)=DF(x)^{-1}$. Aquí es donde se termina de motivar nuestra elección en $U$, pues nos garantiza que a la derecha en efecto tenemos una matriz invertible.
Tomemos entonces $y=F(x)$. Nos interesa el límite cuando $\norm{h}\to 0$ de la siguiente expresión
Como $U$ es abierto, si $\norm{h}$ es pequeña entonces $y+h$ está en $U$. De este modo, existe $k$ tal que $x+k \in U$ y $F(x+k)=y+h$. Así, la expresión anterior la podemos reescribir como
Estamos listos para terminar. La desigualdad (3) también garantiza que $\norm{k}\to 0$ cuando $\norm{h}\to 0$. Así, como $F$ es diferenciable, tenemos que la expresión (4) tiende a $0$. Esto muestra que $F^{-1}$ es diferenciable en $y$ con $DF^{-1}(y)=DF(x)^{-1}$, tal como queríamos.
Las derivadas parciales son continuas
Esta parte es sencilla a partir de la parte anterior. Tenemos que:
$$DF^{-1}(b)=DF(F^{-1}(b))^{-1}$$
Por la regla de Cramer la inversa de una matriz depende continuamente de las entradas de la matriz original. Además, la asignación $b \mapsto F^{-1}(b)$ es continua. Así, las entradas de $DF^{-1}(b)$ (las derivadas parciales de $F^{-1}$) dependen continuamente de las derivadas parciales de $F$, que dependen continuamente de $b$ por hipótesis.
Con esto termina la prueba.
¿Ahora qué?
Si te gustó esta entrada, puedes compartirla o revisar otras relacionadas con matemáticas a nivel universitario: