Archivo de la etiqueta: matriz inversa

Cálculo Diferencial e Integral III: Introducción al teorema de la función inversa

Por Alejandro Antonio Estrada Franco

Introducción

Estamos a punto de entrar a discutir dos de los resultados principales de nuestro curso: el teorema de la función inversa y el teorema de la función implícita. Repasemos un poco qué hemos hecho hasta ahora. En las dos entradas anteriores introdujimos la noción de diferenciabilidad, la cual cuando sucede para una función $f:\mathbb{R}^n\to \mathbb{R}^m$, nos dice que $f$ se parece mucho a una función lineal en un punto dado. Vimos que esta noción implica continuidad y que tiene una regla de la cadena relacionada con el producto de matrices. También, hemos discutido cómo esta noción se relaciona con la existencia de espacios tangentes a gráficas multidimensionales.

Ahora queremos entender todavía mejor a las funciones diferenciables. Hay dos teoremas que nos permiten hacer eso. Uno es el teorema de la función inversa y el otro es el teorema de la función implícita. En esta entrada hablaremos del primero, y en un par de entradas más introduciremos el segundo resultado. El propósito del teorema de la función inversa es dar una condición bajo la cual una función es invertible, por lo menos localmente. De hecho, la mayoría de las veces sólo se puede garantizar la invertibilidad localmente, pues las funciones usualmente no son inyectivas y esto da comportamientos globales más difíciles de manejar.

Enunciar el teorema y entenderlo requiere de cierto esfuerzo. Y demostrarlo todavía más. Por esta razón, en esta entrada nos enfocaremos sólo en dar el teorema y presentar herramientas preliminares que necesitaremos para hacer su demostración.

Enunciado del teorema de la función inversa

Supongamos que tenemos $f:\mathbb{R}^n\to \mathbb{R}^n$ y que es diferenciable en el punto $\bar{a}$. Entonces, $f$ se parece mucho a una función lineal en $\bar{a}$, más o menos $f(\bar{x})\approx f(\bar{a}) + T_{\bar{a}}(\bar{x}-\bar{a})$. Así, si $T_{\bar{a}}$ es invertible, suena a que «cerquita de $\bar{a}$» la función $f(\bar{x})$ debe de ser invertible. El teorema de la función inversa pone estas ideas de manera formal.

Teorema (de la función inversa). Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el abierto $S$. Si la matriz $Df(\bar{a})$ es invertible, entonces, existe $\delta >0$ tal que:

  1. $B_{\delta}(\bar{a})\subseteq S$ y $f$ es inyectiva en $B_{\delta}(\bar{a})$.
  2. $f^{-1}:f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ es continua en $f(B_{\delta}(\bar{a}))$.
  3. $f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}$ es un conjunto abierto.
  4. $f^{-1}$ es de clase $C^{1}$ en $f(B_{\delta}(\bar{a}))$ y además, si $\bar{x}=f(\bar{v})\in f(B_{\delta}(\bar{a}))$, entonces, $Df^{-1}(\bar{x})=Df^{-1}(f(\bar{v}))=(Df(\bar{v}))^{-1}$.

Veamos qué nos dice de manera intuitiva cada una de las conclusiones del teorema.

  1. Tendremos una bola $B_\delta(\bar{a})$ dentro de la cual $f$ será inyectiva, y por lo tanto será biyectiva hacia su imagen. Así, $f$ restringida a esta bola será invertible. Es importante que sea una bola abierta, porque entonces sí tenemos toda una región «gordita» en donde pasa la invertibilidad (piensa que si fuera un cerrado, a lo mejor sólo es el punto $\bar{a}$ y esto no tiene chiste).
  2. La inversa $f^{-1}$ que existirá para $f$ será continua. Esto es lo mínimo que podríamos esperar, aunque de hecho el punto $4$ garantiza algo mucho mejor.
  3. La imagen de $f$ en la bola $B_\delta(\bar{a})$ será un conjunto abierto.
  4. Más aún, se tendrá que $f^{-1}$ será de clase $C^1$ y se podrá dar de manera explícita a su derivada en términos de la derivada de $f$ con una regla muy sencilla: simplemente la matriz que funciona para derivar $f$ le sacamos su inversa como matriz y esa funciona al evaluarla en el punto apropiado.

El teorema de la función inversa es profundo pues tanto su enunciado como su demostración combina ideas de topología, álgebra y cálculo. Por esta razón, para su demostración necesitaremos recopilar varias de las herramientas de álgebra lineal que hemos repasado en la Unidad 2 y la Unidad 5. Así mismo, necesitaremos ideas topológicas de las que hemos visto en la Unidad 3. Con ellas desarrollaremos algunos resultados auxiliares que en la siguiente entrada nos permitirán concluir la demostración.

Un criterio para campos vectoriales $C^1$

El teorema de la función inversa es para funciones de clase $C^1$. Nos conviene entender esta noción mejor. Cuando una función $f$ es de clase $C^1$, entonces es diferenciable. Pero el regreso no es cierto y hay contraejemplos. ¿Qué le falta a una función diferenciable para ser de clase $C^1$? A grandes rasgos, que las funciones derivadas $T_\bar{a}$ y $T_\bar{b}$ hagan casi lo mismo cuando $\bar{a}$ y $\bar{b}$ son cercanos. En términos de matrices, necesitaremos que la expresión $||(Df(\bar{a})-Df(\bar{b}))(\bar{x})||$ sea pequeña cuando $\bar{a}$ y $\bar{b}$ son cercanos entre sí.

El siguiente teorema será importante en nuestro camino hacia el teorema de la función inversa. Intuitivamente, para lo que lo usaremos es para aproximar una función $f$ localmente, con «cuadritos» que corresponden a los planos tangentes, porque «muy cerquita» estos planos varían muy poco si pedimos que $f$ sea de clase $C^1$. Es decir si $\bar{a}$ y $\bar{b}$ son dos puntos en el dominio de una función diferenciable, y estos están muy cerca uno del otro, sus planos tangentes serán casi el mismo. Esto nos invita a cambiar localmente a una superficie por cuadritos como más adelante se explicará con detalle.

Figura 1. En azul y en rojo dos planos que corresponden a las derivadas $T_{\bar{a}}$ y $T_{\bar{b}}$. Este cambio calculado es distintos puntos cercanos es «suave», esto se expresará con la ecuación $||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\leq \epsilon ||\bar{x}||$ ya con las diferenciales para todo $\bar{x}$.

El teorema concreto que nos interesa demostrar es la siguiente equivalencia para que una función sea de clase $C^1$.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ una función diferenciable en $S$. Se tiene que $f$ es de clase $C^{1}$ en $S$ si y sólo si para todo $\bar{a}\in S$ y para cada $\varepsilon >0$ existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, y si $\bar{b}\in B_{\delta}(\bar{a})$ se tiene $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq \varepsilon ||\bar{x}||$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. $\Rightarrow).$ Supongamos que $f$ es de clase $C^1$ en $S$, es decir, todas sus funciones componentes tienen derivadas parciales en $S$ y son continuas. Sea $\varepsilon>0$. Veremos que se puede encontrar una $\delta$ como en el enunciado.

Tomemos $\bar{a}$ y $\bar{b}$ en $S$. Expresamos a $(Df(\bar{b})-Df(\bar{a}))(\bar{x})$ como

\begin{align*}
\begin{pmatrix} \frac{\partial f_{1}}{\partial x_{1}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{1}}{\partial x_{n}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \dots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{m}}{\partial x_{n}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}\begin{pmatrix} x_{1} \\ \vdots \\ x_{n}\end{pmatrix}
\end{align*}

o equivalentemente como

\begin{align*}
\begin{pmatrix} \left( \triangledown f_{1}(\bar{b})-\triangledown f_{1}(\bar{a})\right) \cdot \bar{x} \\ \vdots \\ \left( \triangledown f_{m}(\bar{b})-\triangledown f_{m}(\bar{a})\right) \cdot \bar{x} \end{pmatrix}.
\end{align*}

De tal manera que por Cauchy-Schwarz:

\begin{align*}
||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||^2&=\sum_{i=1}^m (\left( \triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})\right)\cdot \bar{x})^2\\
&\leq \sum_{i=1}^m ||\triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})||^2||\bar{x}||^2\\
&=||\bar{x}||^2 \sum_{i=1}^m ||\triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})||^2\\
&=||\bar{x}||^2 \sum_{i=1}^m \sum_{j=1}^{n}\left( \frac{\partial f_{i}}{\partial x_{j}}(\bar{b})-\frac{\partial f_{i}}{\partial x_{j}}(\bar{a})\right) ^{2}
\end{align*}

En este punto se ve la importancia de que las parciales sean continuas. Podemos encontrar una $\delta$ que nos garantice que $B_\delta\subseteq S$ y que si $||\bar{b}-\bar{a}||<\delta$, entonces $$\left| \frac{\partial f_{i}}{\partial x_{j}}(\bar{b})-\frac{\partial f_{i}}{\partial x_{j}}(\bar{a}) \right| < \frac{\varepsilon}{\sqrt{mn}}.$$ En esta situación, podemos seguir acotando $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||^2$ como sigue:
\begin{align*}
&\leq ||\bar{x}|| \sum_{i=1}^m \sum_{j=1}^{n}\frac{\varepsilon^2}{mn}\\
&=\varepsilon^2||\bar{x}||^2.
\end{align*}

Al sacar raiz cuadrada, obtenemos la desigualdad $$||(Df(\bar{b})-Df(\bar{a}))(x)||\leq \varepsilon||\bar{x}||$$ buscada.

$\Leftarrow).$ Supongamos ahora que para cada $\varepsilon$ existe una $\delta$ como en el enunciado del teorema. Debemos ver que todas las derivadas parciales de todas las componentes son continuas. Podemos aplicar la desigualdad $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq ||\bar{x}||\varepsilon$ tomando como $\bar{x}$ cada vector $\hat{e}_i$ de la base canónica. Esto nos dice que

\[ ||Df(\bar{b})(\hat{e}_i)-Df(\bar{a})(\hat{e}_i)||< \varepsilon||\hat{e}_i|| =\varepsilon.\]

Por nuestro desarrollo anterior, para cada $i$ tenemos

\begin{align*}
\varepsilon&>||Df(\bar{b})(\hat{e}_i)-Df(\bar{a})(\hat{e}_i)||\\
&=||\left( \triangledown f_{1}(\bar{b})\cdot \hat{e}_i-\triangledown f_{1}(\bar{a})\cdot \hat{e}_i,\dots ,\triangledown f_{m}(\bar{b})\cdot \hat{e}_i-\triangledown f_{m}(\bar{a})\cdot \hat{e}_i\right)||\\
&=\left| \left|\left( \frac{\partial f_{1}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{i}}(\bar{a}),\dots ,\frac{\partial f_{m}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{i}}(\bar{a})\right) \right| \right|\\
&= \sqrt{\sum_{j=1}^{m}\left(\frac{\partial f_{j}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{j}}{\partial x_{i}}(\bar{a})\right)^{2}}.
\end{align*}

Elevando al cuadrado,

\[ \sum_{j=1}^{m}\left(\frac{\partial f_{j}}{\partial x_{i}}(b)-\frac{\partial f_{j}}{\partial x_{i}}(a)\right)^{2}<\varepsilon ^{2}.\]

Como todos los términos son no negativos, cada uno es menor a $\epsilon^2$. Así, para cada $i,j$ tenemos

\[ \left|\frac{\partial f_{j}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{j}}{\partial x_{i}}(\bar{a})\right|<\varepsilon.\]

Esto es precisamente lo que estábamos buscando: si $\bar{b}$ está lo suficientemente cerca de $\bar{a}$, cada derivada parcial en $\bar{b}$ está cerca de su correspondiente en $\bar{a}$.

$\square$

Invertibilidad de $Df(\bar{a})$ en todo un abierto

En esta sección demostraremos lo siguiente. Si $f:\mathbb{R}^n\to \mathbb{R}^n$ es un campo vectorial diferenciable en $\bar{a}$ y $Df(\bar{a})$ es invertible, entonces $Df(\bar{x})$ será invertible para cualquier $\bar{x}$ alrededor de cierta bola abierta alrededor de $\bar{a}$. Los argumentos en esta ocasión están un poco más relacionados con el álgebra lineal.

Será útil que recuerdes que una transformación lineal $T:\mathbb{R}^n \to \mathbb{R}^n$ es invertible si el único $\bar{x}\in \mathbb{R}^n$ tal que $T(\bar{x})=\bar{0}$ es $\bar{x}=\bar{0}$. El siguiente criterio es otra caracterización de invertibilidad en términos de lo que le hace $T$ a la norma de los vectores.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ una transformación lineal. La transformación $T$ es invertible si y sólo si existe $\varepsilon >0$ tal que $$||T(\bar{x})||\geq \varepsilon ||\bar{x}||$$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. $\left. \Rightarrow \right)$ Como $T$ es invertible, para todo $\bar{x}\neq \bar{0}$ sucede que $T(\bar{x})\neq \bar{0}$. En particular, esto sucede para todos los vectores en $S^{n-1}$ (recuerda que es la esfera de radio $1$ y dimensión $n-1$ centrada en $\bar{0}$). Esta esfera es compacta y consiste exactamente de los $\bar{x}\in \mathbb{R}^n$ de norma $1$.

Sabemos que las transformaciones lineales y la función norma son continuas. Por la compacidad de $S^{n-1}$, la expresión $||T(\bar{x})||$ tiene un mínimo digamos $\varepsilon$, que alcanza en $S^{n-1}$. Por el argumento del párrafo anterior, $\varepsilon>0$.

Tomemos ahora cualquier vector $\bar{x}\in \mathbb{R}^n$. Si $\bar{x}=\bar{0}$, entonces $$||T(\bar{0})||=||\bar{0}||=0\geq \varepsilon ||\bar{0}||.$$ Si $\bar{x}\neq \bar{0}$, el vector $\frac{\bar{x}}{||\bar{x}||}$ está en $S^{n-1}$, de modo que $$\left|\left|T\left(\frac{\bar{x}}{||\bar{x}||}\right)\right|\right| \geq \varepsilon.$$ Usando linealidad para sacar el factor $||\bar{x}||$ y despejando obtenemos $$||T(\bar{x})||\geq \varepsilon ||\bar{x}||,$$ como estábamos buscando.

$\left. \Leftarrow \right)$ Este lado es más sencillo. Si existe dicha $\varepsilon >0$, entonces sucede que para $\bar{x}$ en $\mathbb{R}^n$, con $\bar{x}\neq \bar{0}$ tenemos $$||T(\bar{x})||\geq \varepsilon||\bar{x}||>0.$$ Por lo tanto, $T(\bar{x})\neq \bar{0}$ y así $T$ es invertible.

$\square$

Obtengamos una consecuencia del teorema de clasificación de la sección anterior que está muy relacionada con este resultado que acabamos de demostrar.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el conjunto abierto $S$ y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces existen $\delta >0$ y $m>0$ tales que $B_{\delta}(\bar{a})\subseteq S$ y $||Df(\bar{b})(\bar{x})||\geq m||\bar{x}||$, para todo $\bar{b}\in B_{\delta}(\bar{a})$ y para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. Como $Df(\bar{a})$ es invertible, por el teorema que acabamos de demostrar existe $\varepsilon’>0$ tal que $$||Df(\bar{a})(\bar{x})||\geq \varepsilon’||\bar{x}||$$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Por nuestra caracterización de funciones $C^1$, Ahora como $f\in C^{1}$ en $S$ (abierto) para $\varepsilon =\frac{\varepsilon’}{2}>0$, existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, y $||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\leq \frac{\varepsilon’}{2}||\bar{x}||$ para todo $\bar{b}\in B_{\delta}(\bar{a})$ y para todo $\bar{x}\in \mathbb{R}^{n}$.

Por la desigualdad del triángulo, \[ ||Df(\bar{a})(\bar{x})-Df(\bar{b})(\bar{x})||+||Df(\bar{b})(\bar{x})||\geq ||Df(\bar{a})(\bar{x})||,\]

de donde

\begin{align*}
||Df(\bar{b})(\bar{x})||&\geq ||Df(\bar{a})(\bar{x})||-||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\\
&\geq \varepsilon’||\bar{x}||-\frac{\varepsilon’}{2}||\bar{x}||\\
&= \frac{\varepsilon’}{2} ||\bar{x}||.
\end{align*}

De esta manera, el resultado es cierto para la $\delta$ que dimos y para $m=\frac{\varepsilon’}{2}$.

$\square$

El siguiente corolario es consecuencia inmediata de lo discutido en esta sección y está escrito de acuerdo a la aplicación que haremos más adelante en la demostración del teorema de la función inversa.

Corolario. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ una función de clase $C^{1}$ en $S$ y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces, existe $\delta > 0$ tal que $B_{\delta}(\bar{a})\subseteq S$ y $Df(\bar{b})$ es invertible para todo $\bar{b}\in B_{\delta}(\bar{a})$.

Queda como tarea moral responder por qué este corolario es consecuencia inmediata del teorema anterior.

Un poco de intuición geométrica

Dejamos esta entrada hasta aquí, la naturaleza densamente teórica de lo que estamos haciendo puede hacer pesadas las exposiciones. Lo que hasta aquí demostramos es que para un campo vectorial $C^1$ si su derivada en $\bar{a}$ es invertible, entonces lo es en toda una vecindad que tiene a $\bar{a}$. Imaginemos al pedacito de superficie $f(B_{\delta}(\bar{a}))$ cubierto con pequeños rectángulos. En cada punto, las imágenes de estos rectángulos están muy cerquita, casi pegados a la superficie. Esto nos garantizaría la invertibilidad de $f$ en esta vecindad.

Figura 2

En la Figura 2 vemos ilustrado esto. El círculo inferior corresponde a la vecindad $B_{\delta}(\bar{a})$ en el dominio de $f$. La función $f$ levanta una porción del plano en la sabana delineada con negro arriba del círculo. En el círculo tenemos al punto $\bar{a}$ en verde agua. Sobre la sábana de arriba tenemos con el mismo color a $f(\bar{a})$. Los puntos negros pequeños dentro de la vecindad alrededor de $\bar{a}$ son alzados por $f$ a puntos negros sobre la sabana. Sobre de cada punto negro en la sabana tenemos un cuadrito rojo que representa al cachito de plano tangente cerca de la imagen de cada punto. La imagen esta llena de estos pequeños cuadritos, todos ellos representan diferenciales invertibles, esto nos permitirá asegurar la invertibilidad de $f$ en al menos una vecindad.

Más adelante…

En la siguiente entrada demostraremos el teorema de la función inversa, inciso por inciso. Es importante que estes familiarizado con los resultados de esta entrada, pues serán parte importante de la demostración.

Tarea moral

  1. ¿Qué diría el teorema de la función inversa para campos vectoriales $f:\mathbb{R}^2\to \mathbb{R}^2$? ¿Se puede usar para $$f(r,\theta)=(r\cos(\theta),r\sin(\theta))?$$ Si es así, ¿para qué valores de $r$ y $\theta$? ¿Qué diría en este caso explícitamente?
  2. Explica por qué el corolario que enunciamos en efecto se deduce de manera inmediata de lo discutido en la sección correspondiente.
  3. Revisa todas las desigualdades que usamos en esta entrada. ¿Qué resultado estamos usando? ¿Cuándo se darían estas igualdades?
  4. Demuestra que el determinante de una matriz es una función continua en términos de las entradas de la matriz. Usa esto para demostrar que si $A\in M_n(\mathbb{R})$ es una matriz y $B$ es una matriz muy cercana a $A$, entonces $B$ también es invertible.
  5. Demuestra que si una transformación $T$ es diagonalizable, entonces en el teorema de caracterización de invertibilidad se puede usar como $\epsilon$ al mínimo de la expresión $|\lambda|$ variando sobre todos los eigenvalores $\lambda$ de $T$.

Entradas relacionadas

Ecuaciones Diferenciales I: Exponencial de una matriz y matriz fundamental de soluciones

Por Omar González Franco

Las matemáticas son el arte de dar el mismo nombre a diferentes cosas.
– Henri Poincare

Introducción

Ya conocemos las propiedades de los sistemas de ecuaciones diferenciales lineales de primer orden, así como las de sus soluciones. Mucho de lo que vimos en las dos entradas anteriores es bastante similar a lo que desarrollamos en las dos primeras entradas de la unidad 2, sin embargo en esta entrada aprenderemos algo completamente nuevo, definiremos una herramienta matemática que nos será de bastante utilidad. ¡Se trata de la exponencial de una matriz!.

En esta entrada definiremos lo que significa $e^{\mathbf{A}t}$, donde $\mathbf{A}$ es una matriz de $n \times n$ con componentes reales constantes.

$$\mathbf{A} = \begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & & & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{pmatrix} \label{1} \tag{1}$$

Así mismo, estudiaremos algunas de sus propiedades y su utilidad en la resolución de sistemas lineales.

Operaciones sobre componentes de matrices

Muchas de las operaciones que se pueden hacer hacía una matriz son aplicables sobre cada una de las componentes que conforman a dicha matriz. Para comprender este hecho es conveniente definir lo que significa la derivada e integral de una matriz, esto nos permitirá ganar intuición.

Consideremos por un momento una matriz de $n \times n$ compuesta de funciones.

$$\mathbf{A}(t) = \begin{pmatrix}
a_{11}(t) & a_{12}(t) & \cdots & a_{1n}(t) \\
a_{21}(t) & a_{22}(t) & \cdots & a_{2n}(t) \\
\vdots & & & \vdots \\
a_{n1}(t) & a_{n2}(t) & \cdots & a_{nn}(t)
\end{pmatrix} \label{2} \tag{2}$$

donde $a_{i, j}(t)$, $i, j \in \{1, 2, 3, \cdots, n \}$ son funciones sobre algún intervalo común $\delta$. Comencemos por definir la derivada de una matriz.

Algunas reglas de derivación se enuncian a continuación.

De manera equivalente se puede definir la integral de una matriz.

Ejemplo: Calcular la derivada de la matriz

$$\mathbf{A}(t) = \begin{pmatrix}
\cos(t) & \sin(t) \\ \sin^{2}(t) & \cos^{2}(t)
\end{pmatrix}$$

Solución: Aplicamos la derivada sobre cada componente de la matriz.

$$\dfrac{d}{dt} \mathbf{A}(t) = \begin{pmatrix}
\dfrac{d}{dt} \cos(t) & \dfrac{d}{dt} \sin(t) \\ \dfrac{d}{dt} \sin^{2}(t) & \dfrac{d}{dt} \cos^{2}(t)
\end{pmatrix} = \begin{pmatrix}
-\sin(t) & \cos(t) \\ 2 \sin(t) \cos(t) & -2 \cos(t) \sin(t)
\end{pmatrix}$$

$\square$

De manera similar se puede hacer la integral de una matriz.

Definamos lo que es una serie de matrices. En este caso consideremos matrices constantes.

Si tenemos series de matrices es claro que algunas pueden o no converger. A continuación definimos la convergencia en matrices.

Con esto en mente puede resultar más comprensible la definición de la exponencial de una matriz.

Exponencial de una matriz

Recordemos que la función escalar de la exponencial se define como

$$e^{\alpha t} = 1 + \alpha t + \alpha^{2} \dfrac{t^{2}}{2!} + \cdots + \alpha^{k} \dfrac{t^{k}}{k!} = \sum_{k = 0}^{\infty} \alpha^{k} \dfrac{t^{k}}{k!} \label{9} \tag{9}$$

Con las definiciones anteriores podemos extender la serie de la exponencial anterior a una serie de matrices.

Se puede demostrar que la serie (\ref{10}) converge, sin embargo se requiere de un poco más de teoría que queda fuera de nuestro interés.

Veamos un ejemplo en el que determinemos la exponencial de una matriz.

Ejemplo: Determinar la matriz $e^{\mathbf{A}}$, en donde

$$\mathbf{A} = \begin{pmatrix}
1 & 1 \\ 1 & 1
\end{pmatrix}$$

Solución: Para determinar la matriz $e^{\mathbf{A}}$ usemos directamente la definición (\ref{10}). Sabemos que

$$\mathbf{A}^{0} = \begin{pmatrix}
1 & 0 \\ 0 & 1
\end{pmatrix} = \mathbf{I} \hspace{1cm} y \hspace{1cm} \mathbf{A}^{1} = \begin{pmatrix}
1 & 1 \\ 1 & 1
\end{pmatrix} = \begin{pmatrix}
2^{0} & 2^{0} \\ 2^{0} & 2^{0}
\end{pmatrix}$$

Ahora bien,

$$\mathbf{A}^{2} = \mathbf{AA} = \begin{pmatrix}
1 & 1 \\ 1 & 1
\end{pmatrix} \begin{pmatrix}
1 & 1 \\ 1 & 1
\end{pmatrix} = \begin{pmatrix}
2 & 2 \\ 2 & 2
\end{pmatrix} = \begin{pmatrix}
2^{1} & 2^{1} \\ 2^{1} & 2^{1}
\end{pmatrix}$$

$$\mathbf{A}^{3} = \mathbf{AA}^{2} = \begin{pmatrix}
1 & 1 \\ 1 & 1
\end{pmatrix} \begin{pmatrix}
2 & 2 \\ 2 & 2
\end{pmatrix} = \begin{pmatrix}
4 & 4 \\ 4 & 4
\end{pmatrix} = \begin{pmatrix}
2^{2} & 2^{2} \\ 2^{2} & 2^{2}
\end{pmatrix}$$

$$\mathbf{A}^{4} = \mathbf{AA}^{3} = \begin{pmatrix}
1 & 1 \\ 1 & 1
\end{pmatrix} \begin{pmatrix}
4 & 4 \\ 4 & 4
\end{pmatrix} = \begin{pmatrix}
8 & 8 \\ 8 & 8
\end{pmatrix} = \begin{pmatrix}
2^{3} & 2^{3} \\ 2^{3} & 2^{3}
\end{pmatrix}$$

$$\vdots$$

$$\mathbf{A}^{k} = \mathbf{AA}^{k -1} = \begin{pmatrix}
2^{k -1} & 2^{k -1} \\ 2^{k -1} & 2^{k -1}
\end{pmatrix}$$

$$\mathbf{A}^{k + 1} = \mathbf{AA}^{k} = \begin{pmatrix}
2^{k} & 2^{k} \\ 2^{k} & 2^{k}
\end{pmatrix}$$

$$\vdots$$

Sustituimos en (\ref{10}).

\begin{align*} e^{\begin{pmatrix}
1 & 1 \\ 1 & 1
\end{pmatrix}} &= \dfrac{1}{0!} \mathbf{A}^{0} + \dfrac{1}{1!} \mathbf{A}^{1} + \dfrac{1}{2!} \mathbf{A}^{2} + \dfrac{1}{3!} \mathbf{A}^{3} + \dfrac{1}{4!} \mathbf{A}^{4} + \cdots + \dfrac{1}{k!} \mathbf{A}^{k} + \cdots \\
&= \dfrac{1}{0!} \begin{pmatrix}
1 & 0 \\ 0 & 1
\end{pmatrix} + \dfrac{1}{1!} \begin{pmatrix}
2^{0} & 2^{0} \\ 2^{0} & 2^{0}
\end{pmatrix} + \dfrac{1}{2!} \begin{pmatrix}
2^{1} & 2^{1} \\ 2^{1} & 2^{1}
\end{pmatrix} + \dfrac{1}{3!} \begin{pmatrix}
2^{2} & 2^{2} \\ 2^{2} & 2^{2}
\end{pmatrix} + \dfrac{1}{4!} \begin{pmatrix}
2^{3} & 2^{3} \\ 2^{3} & 2^{3}
\end{pmatrix} + \cdots + \dfrac{1}{k!} \begin{pmatrix}
2^{k -1} & 2^{k -1} \\ 2^{k -1} & 2^{k -1}
\end{pmatrix} \\
&= \begin{pmatrix}
\dfrac{1}{0!}(1) & \dfrac{1}{0!}(0) \\ \dfrac{1}{0!}(0) & \dfrac{1}{0!}(1)
\end{pmatrix} + \begin{pmatrix}
\dfrac{1}{1!}(2^{0}) & \dfrac{1}{1!}(2^{0}) \\ \dfrac{1}{1!}(2^{0}) & \dfrac{1}{1!}(2^{0})
\end{pmatrix} + \begin{pmatrix}
\dfrac{1}{2!}(2^{1}) & \dfrac{1}{2!}(2^{1}) \\ \dfrac{1}{2!}(2^{1}) & \dfrac{1}{2!}(2^{1})
\end{pmatrix} + \begin{pmatrix}
\dfrac{1}{3!}(2^{2}) & \dfrac{1}{3!}(2^{2}) \\ \dfrac{1}{3!}(2^{2}) & \dfrac{1}{3!}(2^{2})
\end{pmatrix} + \cdots + \begin{pmatrix}
\dfrac{1}{k!}(2^{k -1}) & \dfrac{1}{k!}(2^{k -1}) \\ \dfrac{1}{k!}(2^{k -1}) & \dfrac{1}{k!}(2^{k -1})
\end{pmatrix} \\
&= \begin{pmatrix}
\dfrac{1}{0!}(1) + \dfrac{1}{1!}(2^{0}) + \dfrac{1}{2!}(2^{1}) + \dfrac{1}{3!}(2^{2}) + \cdots + \dfrac{1}{k!}(2^{k -1}) & \dfrac{1}{0!}(0) + \dfrac{1}{1!}(2^{0}) + \dfrac{1}{2!}(2^{1}) + \dfrac{1}{3!}(2^{2}) + \cdots + \dfrac{1}{k!}(2^{k -1}) \\ \dfrac{1}{0!}(0) + \dfrac{1}{1!}(2^{0}) + \dfrac{1}{2!}(2^{1}) + \dfrac{1}{3!}(2^{2}) + \cdots + \dfrac{1}{k!}(2^{k -1}) & \dfrac{1}{0!}(1) + \dfrac{1}{1!}(2^{0}) + \dfrac{1}{2!}(2^{1}) + \dfrac{1}{3!}(2^{2}) + \cdots + \dfrac{1}{k!}(2^{k -1})
\end{pmatrix} \\
&= \dfrac{1}{2}\begin{pmatrix}
\dfrac{1}{0!}(2) + \dfrac{1}{1!}(2^{1}) + \dfrac{1}{2!}(2^{2}) + \dfrac{1}{3!}(2^{3}) + \cdots + \dfrac{1}{k!}(2^{k}) & \dfrac{1}{0!}(0) + \dfrac{1}{1!}(2^{1}) + \dfrac{1}{2!}(2^{2}) + \dfrac{1}{3!}(2^{3}) + \cdots + \dfrac{1}{k!}(2^{k}) \\ \dfrac{1}{0!}(0) + \dfrac{1}{1!}(2^{1}) + \dfrac{1}{2!}(2^{2}) + \dfrac{1}{3!}(2^{3}) + \cdots + \dfrac{1}{k!}(2^{k}) & \dfrac{1}{0!}(2) + \dfrac{1}{1!}(2^{1}) + \dfrac{1}{2!}(2^{2}) + \dfrac{1}{3!}(2^{3}) + \cdots + \dfrac{1}{k!}(2^{k})
\end{pmatrix}
\end{align*}

¡Uff!. En la última igualdad lo que hicimos fue multiplicar por un uno en la forma $1 = \dfrac{2}{2}$, esto nos permitió hacer que la potencia de los $2$ sea la misma que en el factorial.

Escribamos la última matriz como series infinitas.

$$e^{\begin{pmatrix}
1 & 1 \\ 1 & 1
\end{pmatrix}} = \dfrac{1}{2} \begin{pmatrix}
\dfrac{1}{0!}(2) + \sum_{k = 1}^{\infty} \dfrac{2^{k}}{k!} & \dfrac{1}{0!}(0) + \sum_{k = 1}^{\infty} \dfrac{2^{k}}{k!} \\ \dfrac{1}{0!}(0) + \sum_{k = 1}^{\infty} \dfrac{2^{k}}{k!} & \dfrac{1}{0!}(2) + \sum_{k = 1}^{\infty} \dfrac{2^{k}}{k!}
\end{pmatrix}$$

Nos gustaría hacer que las series comiencen en $k = 0$. Notemos que, de acuerdo a la forma de la serie, el termino $k = 0$ daría como resultado un $1$, considerando esto la expresión anterior la podemos escribir como

$$e^{\begin{pmatrix}
1 & 1 \\ 1 & 1
\end{pmatrix}} = \dfrac{1}{2} \begin{pmatrix}
1 + \sum_{k = 0}^{\infty} \dfrac{2^{k}}{k!} & \sum_{k = 1}^{\infty} \dfrac{2^{k}}{k!} \\ \sum_{k = 1}^{\infty} \dfrac{2^{k}}{k!} & 1 + \sum_{k = 0}^{\infty} \dfrac{2^{k}}{k!}
\end{pmatrix}$$

Para las componentes de la matriz en las que la serie aún no comienza en $k = 0$ sumamos y restamos un $1$, así el $+1$ puede ser incluido en la serie.

$$e^{\begin{pmatrix}
1 & 1 \\ 1 & 1
\end{pmatrix}} = \dfrac{1}{2} \begin{pmatrix}
1 + \sum_{k = 0}^{\infty} \dfrac{2^{k}}{k!} & -1 + \sum_{k = 0}^{\infty} \dfrac{2^{k}}{k!} \\ -1 + \sum_{k = 0}^{\infty} \dfrac{2^{k}}{k!} & 1 + \sum_{k = 0}^{\infty} \dfrac{2^{k}}{k!}
\end{pmatrix}$$

Ahora todas las series comienzan en $k = 0$. Sabemos que la serie converge a un número.

$$\sum_{k = 0}^{\infty} \dfrac{2^{k}}{k!} = e^{2}$$

Por definición de convergencia en matrices, se tiene

$$e^{\begin{pmatrix}
1 & 1 \\ 1 & 1
\end{pmatrix}} = \dfrac{1}{2} \begin{pmatrix}
1 + e^{2} & -1 + e^{2} \\ -1 + e^{2} & 1 + e^{2}
\end{pmatrix}$$

Por lo tanto, la matriz que buscamos es

$$e^{\begin{pmatrix}
1 & 1 \\ 1 & 1
\end{pmatrix}} = \begin{pmatrix}
\dfrac{e^{2} + 1}{2} & \dfrac{e^{2} -1}{2} \\ \dfrac{e^{2} -1}{2} & \dfrac{e^{2} + 1}{2}
\end{pmatrix}$$

$\square$

Como se puede notar, calcular la exponencial de una matriz usando la definición puede ser una tarea bastante tediosa. Por su puesto existen métodos que nos permiten calcular este tipo de matrices de forma más sencilla, más adelante revisaremos uno de ellos.

Algunas propiedades de la exponencial de una matriz se enuncian a continuación.

No demostraremos este teorema ya que nuestro principal interés está en conocer como estos conceptos y propiedades se pueden aplicar en nuestro estudio sobre sistemas lineales.

A continuación mostraremos un resultado importante e interesante y es que la función (\ref{11}) ¡es solución del sistema lineal homogéneo $\mathbf{Y}^{\prime} = \mathbf{AY}$!.

La exponencial de una matriz y los sistemas lineales

Demostración: Consideremos la función $\mathbf{Y}(t) = e^{\mathbf{A} t}$. Apliquemos la derivada término a término de la definición (\ref{11}).

\begin{align*}
\dfrac{d}{dt} e^{\mathbf{A}t} &= \dfrac{d}{dt} \left[ \mathbf{I} + \mathbf{A}t + \mathbf{A}^{2} \dfrac{t^{2}}{2!} + \cdots + \mathbf{A}^{k}\dfrac{t^{k}}{k!} + \cdots \right] \\
&= \dfrac{d}{dt} \mathbf{I} + \dfrac{d}{dt} \left( \mathbf{A}t \right) + \dfrac{d}{dt} \left( \mathbf{A}^{2} \dfrac{t^{2}}{2!} \right) + \cdots + \dfrac{d}{dt} \left( \mathbf{A}^{k}\dfrac{t^{k}}{k!} \right) + \cdots
\end{align*}

Como las matrices $\mathbf{I}$ y $\mathbf{A}$ son constantes, entonces se tiene lo siguiente.

\begin{align*}
\dfrac{d}{dt} e^{\mathbf{A}t} &= \mathbf{0} + \mathbf{A} + \mathbf{A}^{2}t + \dfrac{1}{2!}\mathbf{A}^{3}t^{2} + \cdots + \mathbf{A}^{k} \dfrac{t^{k -1}}{(k -1)!} + \mathbf{A}^{k + 1}\dfrac{t^{k}}{k!} + \cdots \\
&= \mathbf{A} \left[ \mathbf{I} + \mathbf{A}t + \mathbf{A}^{2} \dfrac{t^{2}}{2!} + \cdots + \mathbf{A}^{k}\dfrac{t^{k}}{k!} + \cdots \right] \\
&= \mathbf{A} e^{\mathbf{A}t}
\end{align*}

Con esto hemos mostrado que

$$\dfrac{d}{dt} e^{\mathbf{A}t} = \mathbf{A} e^{\mathbf{A}t} \label{12} \tag{12}$$

Es decir,

$$\mathbf{Y}^{\prime} = \mathbf{AY}$$

$\square$

La ecuación (\ref{12}) no sólo prueba que es solución del sistema lineal, sino que además muestra cuál es la derivada de la matriz $e^{\mathbf{A} t}$.

Veamos un problema de valores iniciales.

Demostración: Consideremos la función

$$\mathbf{Y}(t) = e^{\mathbf{A} t} \mathbf{Y}_{0}$$

con $\mathbf{Y}_{0}$ un vector constante, si la derivamos obtenemos lo siguiente.

$$\mathbf{Y}^{\prime} = \dfrac{d}{dt}(e^{\mathbf{A}t} \mathbf{Y}_{0}) = \left( \mathbf{A} e^{\mathbf{A}t} \right) \mathbf{Y}_{0} = \mathbf{A} \left( e^{\mathbf{A}t} \mathbf{Y}_{0} \right) = \mathbf{AY}$$

En donde se ha hecho uso del resultado (\ref{12}). Esto muestra que la función $\mathbf{Y}(t) = e^{\mathbf{A} t} \mathbf{Y}_{0}$ es solución del sistema $\mathbf{Y}^{\prime} = \mathbf{AY}$.

Si tomamos $t = 0$ y considerando que $e^{\mathbf{A}0} = e^{\mathbf{0}} = \mathbf{I}$, se tiene

$$\mathbf{Y}(0) = e^{\mathbf{A}0} \mathbf{Y}_{0} = \mathbf{IY}_{0} = \mathbf{Y}_{0}$$

Es decir, se satisface la condición inicial $\mathbf{Y}(0) = \mathbf{Y}_{0}$.

$\square$

Nota: Es claro que la matriz $e^{\mathbf{A} t}$ es una matriz de $n \times n$, mientras que el vector constante $\mathbf{Y}_{0}$ es un vector de $n \times 1$, así que es importante el orden de las matrices, la función del teorema anterior es $\mathbf{Y}(t) = e^{\mathbf{A} t} \mathbf{Y}_{0}$ la cual esta bien definida y el resultado es una matriz de $n \times n$, mientras que la operación $\mathbf{Y}_{0} e^{\mathbf{A} t}$ no está definida de acuerdo al algoritmo de multiplicación de matrices. Cuidado con ello.

Para concluir esta entrada retomaremos el concepto de matriz fundamental de soluciones visto en la entrada anterior.

Matriz fundamental de soluciones

Retomemos la definición de matriz fundamental de soluciones.

En esta sección denotaremos por $\hat{\mathbf{Y}}(t)$ a una matriz fundamental de soluciones.

El objetivo de esta sección es mostrar que se puede determinar directamente la matriz $e^{\mathbf{A}t}$ a partir de cualquier matriz fundamental de soluciones. Antes de llegar a este resultado veamos unos resultados previos.

Demostración:

$\Rightarrow$) Por demostrar: $\hat{\mathbf{Y}}(t)$ satisface al sistema y se cumple que $W(0) \neq 0$.

Supongamos que $\hat{\mathbf{Y}}(t)$ es una matriz fundamental de soluciones del sistema $\mathbf{Y}^{\prime} = \mathbf{AY}$ conformada por los vectores solución $\mathbf{Y}_{1}, \mathbf{Y}_{2}, \cdots, \mathbf{Y}_{n}$, es decir,

$$\hat{\mathbf{Y}}(t) = \begin{pmatrix} \mathbf{Y}_{1} & \mathbf{Y}_{2} & \cdots & \mathbf{Y}_{n} \end{pmatrix} = \begin{pmatrix}
y_{11}(t) & y_{12}(t) & \cdots & y_{1n}(t) \\
y_{21}(t) & y_{22}(t) & \cdots & y_{2n}(t) \\
\vdots & & & \vdots \\
y_{n1}(t) & y_{n2}(t) & \cdots & y_{nn}(t)
\end{pmatrix}$$

Si $\mathbf{A}$ es la matriz de coeficientes (\ref{1}), entonces

$$\mathbf{A} \hat{\mathbf{Y}} = \begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & & & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{pmatrix} \begin{pmatrix}
y_{11}(t) & y_{12}(t) & \cdots & y_{1n}(t) \\
y_{21}(t) & y_{22}(t) & \cdots & y_{2n}(t) \\
\vdots & & & \vdots \\
y_{n1}(t) & y_{n2}(t) & \cdots & y_{nn}(t)
\end{pmatrix} \label{15} \tag{15}$$

La $i$-ésima columna del resultado de multiplicar estas matrices es

$$\mathbf{A} \mathbf{Y}_{i} = \begin{pmatrix}
a_{11}y_{1i}(t) + a_{12}y_{2i}(t) + \cdots + a_{1n}y_{ni}(t) \\
a_{21}y_{1i}(t) + a_{22}y_{2i}(t) + \cdots + a_{2n}y_{ni}(t) \\
\vdots \\
a_{n1}y_{1i}(t) + a_{n2}y_{2i}(t) + \cdots + a_{nn}y_{ni}(t)
\end{pmatrix} \label{16} \tag{16}$$

Identificamos que esta matriz corresponde a la derivada $\mathbf{Y}^{\prime}_{i}$ ya que cada $\mathbf{Y}_{i}$ es solución del sistema, es decir,

$$\mathbf{Y}^{\prime}_{i} =\mathbf{AY}_{i}, \hspace{1cm} i = 1, 2, \cdots, n \label{17} \tag{17}$$

Entonces $\mathbf{A\hat{Y}}(t)$ tiene por columnas a los vectores $\mathbf{Y}^{\prime}_{1}, \mathbf{Y}^{\prime}_{2}, \cdots, \mathbf{Y}^{\prime}_{n}$. Por lo tanto

$$\hat{\mathbf{Y}}^{\prime} = \mathbf{A\hat{Y}}$$

es decir, la matriz fundamental $\hat{\mathbf{Y}}(t)$ satisface al sistema.

Como $\hat{\mathbf{Y}}(t)$ es una matriz fundamental de soluciones, entonces los vectores que la componen $\mathbf{Y}_{1}, \mathbf{Y}_{2}, \cdots, \mathbf{Y}_{n}$ son linealmente independientes, de manera que $\forall$ $t \in \mathbb{R}$ el Wronskiano es distinto de cero.

$$W(\mathbf{Y}_{1}, \mathbf{Y}_{2}, \cdots, \mathbf{Y}_{n})(t) \neq 0 \label{18} \tag{18}$$

en particular se cumple para $t = 0$, es decir,

$$W( \mathbf{Y}_{1}, \mathbf{Y}_{2}, \cdots, \mathbf{Y}_{n})(0) \neq 0$$

Demostremos el regreso.

$\Leftarrow$) Por demostrar: $\hat{\mathbf{Y}}(t)$ es una matriz fundamental de soluciones.

Sea $\hat{\mathbf{Y}}(t)$ una matriz compuesta por los vectores $\mathbf{Y}_{1}(t), \mathbf{Y}_{2}(t), \cdots, \mathbf{Y}_{n}(t)$ y cuya derivada es

$$\hat{\mathbf{Y}}^{\prime} = \mathbf{A \hat{Y}}$$

entonces las columnas satisfacen

$$\mathbf{AY}_{i} = \mathbf{Y}^{\prime}_{i}$$

así $\mathbf{Y}_{i}(t)$ es solución del sistema

$$\mathbf{Y}^{\prime} = \mathbf{AY}$$

para $i = 1, 2, \cdots, n$.

Por otro lado, por hipótesis

$$W(\mathbf{Y}_{1}, \mathbf{Y}_{2}, \cdots, \mathbf{Y}_{n})(0) \neq 0$$

Como es distinto de cero en un punto, entonces lo debe ser en todo el dominio, es decir, $\forall$ $t \in \mathbb{R}$ se cumple que

$$W(\mathbf{Y}_{1}, \mathbf{Y}_{2}, \cdots, \mathbf{Y}_{n})(t) \neq 0$$

lo que significa que $\mathbf{Y}_{1}, \mathbf{Y}_{2}, \cdots, \mathbf{Y}_{n}$ son linealmente independientes.

De ambos resultados concluimos que la matriz $\hat{\mathbf{Y}}(t)$ es una matriz fundamental de soluciones.

$\square$

Veamos un resultado interesante. Ya vimos que la matriz $e^{\mathbf{A} t}$ es solución del sistema $\mathbf{Y}^{\prime} = \mathbf{AY}$, pero no solo resulta ser solución, sino que además ¡es una matriz fundamental de soluciones!.

Demostración: Anteriormente mostramos que

$$\dfrac{d}{dt} e^{\mathbf{A}t} = \mathbf{A} e^{\mathbf{A}t}$$

lo que prueba que $\mathbf{Y}(t) = e^{\mathbf{A} t}$ es solución del sistema $\mathbf{Y}^{\prime} = \mathbf{AY}$.

Supongamos que $e^{\mathbf{A} t}$ está compuesta por la matriz de vectores $\mathbf{Y}_{1}, \mathbf{Y}_{2}, \cdots, \mathbf{Y}_{n}$. Si $t = 0$, se tiene que

$$e^{\mathbf{A} 0} = e^{\mathbf{0}} = \mathbf{I}$$

y además el determinante es distinto de cero.

$$|e^{\mathbf{A} 0}| = |\mathbf{I}| = 1 \neq 0 \label{19} \tag{19}$$

o bien,

$$|e^{\mathbf{A} 0}| = W(\mathbf{Y}_{1}, \mathbf{Y}_{2}, \cdots, \mathbf{Y}_{n})(0) \neq 0 \label{20} \tag{20}$$

Por el teorema anterior concluimos que $\mathbf{Y}(t) = e^{\mathbf{A} t}$ es una matriz fundamental de soluciones del sistema lineal.

$\square$

Veamos un resultado más antes de llegar a nuestro objetivo.

Demostración: Sean $\hat{\mathbf{Y}}(t)$ y $\hat{\mathbf{Z}}(t)$ matrices fundamentales del sistema $\mathbf{Y}^{\prime} = \mathbf{AY}$. Supongamos que

$$\hat{\mathbf{Y}}(t) = \begin{pmatrix} \mathbf{Y}_{1} & \mathbf{Y}_{2} & \cdots & \mathbf{Y}_{n} \end{pmatrix} \label{22} \tag{22}$$

y

$$\hat{\mathbf{Z}}(t) = \begin{pmatrix} \mathbf{Z}_{1} & \mathbf{Z}_{2} & \cdots & \mathbf{Z}_{n} \end{pmatrix} \label{23} \tag{23}$$

Donde la $i$-ésima columna de las matrices anteriores son

$$\mathbf{Y}_{i} = \begin{pmatrix}
y_{1i} \\ y_{2i} \\ \vdots \\ y_{ni}
\end{pmatrix} \hspace{1cm} y \hspace{1cm} \mathbf{Z}_{i} = \begin{pmatrix}
z_{1i} \\ z_{2i} \\ \vdots \\ z_{ni}
\end{pmatrix} \label{24} \tag{24}$$

Como ambas matrices son matrices fundamentales de soluciones, entonces cada $\mathbf{Y}_{i}$ y cada $\mathbf{Z}_{i}$ $i = 1, 2, 3, \cdots, n$ son linealmente independientes. Esto nos permite escribir cualquier columna de $\hat{\mathbf{Y}}(t)$ como combinación lineal de las columnas de $\hat{\mathbf{Z}}(t)$, es decir, existen constantes $c_{1i}, c_{2i}, \cdots, c_{ni}$, tales que

$$\mathbf{Y}_{i}(t) = c_{1i} \mathbf{Z}_{1}(t) + c_{2i} \mathbf{Z}_{2}(t) + \cdots + c_{ni} \mathbf{Z}_{n}(t) \label{25} \tag{25}$$

Donde el índice $i$ de las constantes indica el número de columna de la matriz $\hat{\mathbf{Y}}(t)$, es decir, si definimos el vector

$$\mathbf{c}_{i} = \begin{pmatrix}
c_{1i} \\ c_{2i} \\ \vdots \\ c_{ni}
\end{pmatrix} \label{26} \tag{26}$$

podemos escribir la combinación lineal (\ref{25}) como

$$\mathbf{Y}_{i}(t) = \begin{pmatrix} \mathbf{Z}_{1} & \mathbf{Z}_{2} & \cdots & \mathbf{Z}_{n} \end{pmatrix} \begin{pmatrix}
c_{1i} \\ c_{2i} \\ \vdots \\ c_{ni}
\end{pmatrix} = \begin{pmatrix}
c_{1i}z_{11} + c_{2i}z_{12} + \cdots + c_{ni}z_{1n} \\
c_{1i}z_{21} + c_{2i}z_{22} + \cdots + c_{ni}z_{2n} \\
\vdots \\
c_{1i}z_{n1} + c_{2i}z_{n2} + \cdots + c_{ni}z_{nn}
\end{pmatrix} \label{27} \tag{27}$$

Definamos la matriz constante $\mathbf{C}$ como

$$\mathbf{C} = \begin{pmatrix} \mathbf{c_{1}} & \mathbf{c_{2}} & \cdots & \mathbf{c_{n}} \end{pmatrix} = \begin{pmatrix}
c_{11} & c_{12} & \cdots & c_{1n} \\
c_{21} & c_{22} & \cdots & c_{2n} \\
\vdots & & & \vdots \\
c_{n1} & c_{n2} & \cdots & c_{nn}
\end{pmatrix} \label{28} \tag{28}$$

En forma matricial la operación $\hat{\mathbf{Z}}(t) \mathbf{C}$ corresponde al producto de las siguientes matrices de $n \times n$.

$$\hat{\mathbf{Z}}(t) \mathbf{C} = \begin{pmatrix}
z_{11} & z_{12} & \cdots & z_{1n} \\
z_{21} & z_{22} & \cdots & z_{2n} \\
\vdots & & & \vdots\\
z_{n1} & z_{n2} & \cdots & z_{nn}
\end{pmatrix} \begin{pmatrix}
c_{11} & c_{12} & \cdots & c_{1n} \\
c_{21} & c_{22} & \cdots & c_{2n} \\
\vdots & & & \vdots \\
c_{n1} & c_{n2} & \cdots & c_{nn}
\end{pmatrix} \label{29} \tag{29}$$

Observemos con cuidado que el resultado (\ref{27}) corresponde a la $i$-ésima columna de hacer el producto $\hat{\mathbf{Z}}(t) \mathbf{C}$. Por lo tanto, las $n$ ecuaciones (\ref{25}) son equivalentes al sistema

$$\hat{\mathbf{Y}}(t) = \hat{\mathbf{Z}}(t) \mathbf{C}$$

$\square$

Hemos llegado al resultado final. Dicho resultado involucra el concepto de matriz inversa, recordemos este concepto de álgebra lineal.

La ecuación anterior queda como

$$\mathbf{AA}^{-1} = \mathbf{A}^{-1} \mathbf{A} = \mathbf{I} \label{31} \tag{31}$$

Demostremos el resultado que nos muestra cómo obtener la matriz $e^{\mathbf{A}t}$ a partir de una matriz fundamental de soluciones.

Demostración: Sabemos que $e^{\mathbf{A} t}$ y $\hat{\mathbf{Y}}(t)$ son matrices fundamentales de soluciones de $\mathbf{Y}^{\prime} = \mathbf{AY}$, de acuerdo al teorema anterior ambas funciones se relacionan de la siguiente forma.

$$e^{\mathbf{A} t} = \hat{\mathbf{Y}}(t) \mathbf{C} \label{33} \tag{33}$$

para alguna matriz constante $\mathbf{C}$.

Tomemos $t = 0$, por un lado

$$e^{\mathbf{A} 0} = e^{\mathbf{0}} = \mathbf{I}$$

Por otro lado, de (\ref{33})

$$e^{\mathbf{A} 0} = \hat{\mathbf{Y}}(0) \mathbf{C}$$

De ambas ecuaciones tenemos que

$$\hat{\mathbf{Y}}(0) \mathbf{C} = \mathbf{I} \label{34} \tag{34}$$

Esta ecuación obliga que

$$\mathbf{C} = \hat{\mathbf{Y}}^{-1}(0) \label{35} \tag{35}$$

Sustituyendo en (\ref{33}) concluimos que

$$e^{\mathbf{A} t} = \hat{\mathbf{Y}}(t) \hat{\mathbf{Y}}^{-1}(0)$$

$\square$

Finalicemos con un ejemplo.

Ejemplo: Determinar la matriz $e^{\mathbf{A} t}$, donde

$$\mathbf{A} = \begin{pmatrix}
1 & 1 & 0 \\ 1 & 1 & 0 \\ 0 & 0 & 3
\end{pmatrix}$$

Solución: Imagina lo complicado que sería este problema si lo intentáramos resolver usando la definición (\ref{11}).

En la entrada anterior vimos que una matriz fundamental de soluciones del sistema lineal

$$\mathbf{Y}^{\prime} = \begin{pmatrix}
1 & 1 & 0 \\ 1 & 1 & 0 \\ 0 & 0 & 3
\end{pmatrix} \mathbf{Y}$$

es

$$\hat{\mathbf{Y}}(t) = \begin{pmatrix}
1 & e^{2t} & 0 \\ -1 & e^{2t} & 0 \\ 0 & 0 & e^{3t}
\end{pmatrix}$$

Determinemos la matriz $e^{\mathbf{A} t}$ usando la expresión (\ref{32}).

Calcular la matriz inversa puede ser una tarea larga y debido a que no es el objetivo llevar a cabo estas operaciones se puede comprobar que la matriz inversa de $\hat{\mathbf{Y}}(t)$ es

$$\hat{\mathbf{Y}}^{-1}(t) = \begin{pmatrix}
\dfrac{1}{2} & -\dfrac{1}{2} & 0 \\ \dfrac{1}{2 e^{2t}} & \dfrac{1}{2 e^{2t}} & 0 \\ 0 & 0 & \dfrac{1}{e^{3t}}
\end{pmatrix}$$

Basta probar que $\hat{\mathbf{Y}}(t) \hat{\mathbf{Y}}^{-1}(t) = \mathbf{I}$. Para calcular la inversa se puede hacer uso de algún programa computacional. Si en la matriz inversa evaluamos en $t = 0$, se tiene

$$\hat{\mathbf{Y}}^{-1}(0) = \begin{pmatrix}
\dfrac{1}{2} & -\dfrac{1}{2} & 0 \\ \dfrac{1}{2} & \dfrac{1}{2} & 0 \\ 0 & 0 & 1
\end{pmatrix}$$

Por lo tanto,

$$e^{\mathbf{A} t} = \hat{\mathbf{Y}}(t) \hat{\mathbf{Y}}^{-1}(0) = \begin{pmatrix}
1 & e^{2t} & 0 \\ -1 & e^{2t} & 0 \\ 0 & 0 & e^{3t}
\end{pmatrix} \begin{pmatrix}
\dfrac{1}{2} & -\dfrac{1}{2} & 0 \\ \dfrac{1}{2} & \dfrac{1}{2} & 0 \\ 0 & 0 & 1
\end{pmatrix}$$

Haciendo la multiplicación de matrices correspondiente obtenemos finalmente que

$$e^{\mathbf{A} t} = \begin{pmatrix}
\dfrac{e^{2t} + 1}{2} & \dfrac{e^{2t} -1}{2} & 0 \\ \dfrac{e^{2t} -1}{2} & \dfrac{e^{2t} + 1}{2} & 0 \\ 0 & 0 & e^{3t}
\end{pmatrix}$$

$\square$

Existen otras formas de calcular la exponencial de una matriz, una de ellas es usando la transformada de Laplace y otra puede ser diagonalizando matrices. Si lo deseas puedes investigar sobre estos métodos en la literatura, por nuestra parte serán temas que no revisaremos ya que, más que obtener exponenciales de matrices, estamos interesados en obtener soluciones de sistemas de ecuaciones diferenciales, aunque como vimos, están estrechamente relacionados.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  1. Sea

    $\mathbf{A}(t) = \begin{pmatrix} \sin(2t) \\ e^{3t} \\ 8t -1 \end{pmatrix}$
  • Demostrar que la derivada de la matriz $\mathbf{A}$ es

    $\dfrac{d}{dt} \mathbf{A}(t) = \begin{pmatrix} 2 \cos(2t) \\ 3e^{3t} \\ 8 \end{pmatrix}$
  • Demostrar que la integral de $0$ a $t$ de la matriz $\mathbf{A}$ es

    $\int_{0}^{t} \mathbf{A}(s) ds = \begin{pmatrix} -\dfrac{1}{2} \cos(2t) + \dfrac{1}{2} \\ \dfrac{1}{3} e^{3t} -\dfrac{1}{3} \\ 4t^{2} -t \end{pmatrix}$
  1. Demostrar que

    $\int{\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix} ds} = t \mathbf{I} + \mathbf{C}$

    Donde,

    $\mathbf{I} = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix} \hspace{1cm} y \hspace{1cm} \mathbf{C} = \begin{pmatrix} 0 & c & c \\ c & 0 & c \\ c & c & 0 \end{pmatrix}$

    con $c$ una constante.
  1. Obtener la matriz $e^{\mathbf{A}t}$ para los siguientes casos:
  • $\mathbf{A} = \begin{pmatrix} 1 & 2 \\ 2 & 1 \end{pmatrix}$
  • $\mathbf{A} = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix}$
  • $\mathbf{A} = \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix}$
  1. Sea $\hat{\mathbf{Y}}(t)$ una matriz fundamental de soluciones del sistema $\mathbf{Y}^{\prime} = \mathbf{AY}$. Demostrar que $$e^{\mathbf{A} (t -t_{0})} = \hat{\mathbf{Y}}(t) \hat{\mathbf{Y}}^{-1}(t_{0})$$
  1. Una matriz fundamental del sistema

    $\mathbf{Y}^{\prime} = \begin{pmatrix} 1 & -1 \\ 1 & 3 \end{pmatrix} \mathbf{Y} = \mathbf{AY}$

    es

    $\hat{\mathbf{Y}}(t) = \begin{pmatrix} e^{2t} & te^{2t} \\ -e^{2t} & -(1 + t) e^{2t} \end{pmatrix}$
  • Demostrar que la matriz anterior en efecto es una matriz fundamental de soluciones del sistema.
  • Demostrar que la matriz $e^{\mathbf{A} t}$ está dada por

    $e^{\mathbf{A} t} = \begin{pmatrix} (1 -t) e^{2t} & -te^{2t} \\ te^{2t} & (1 + t) e^{2t} \end{pmatrix}$

Más adelante…

En estas tres primeras entradas de la unidad 3 establecimos la teoría básica que debemos conocer sobre los sistemas lineales de primer orden compuestos por $n$ ecuaciones diferenciales lineales de primer orden. En particular, esta entrada es de interés, pues más adelante la exponencial de una matriz volverá a aparecer cuando estudiemos métodos de resolución y cuando justifiquemos los teoremas de existencia y unicidad.

En las siguientes entradas comenzaremos a desarrollar los distintos métodos de resolución de estos sistemas lineales. En particular, en la siguiente entrada desarrollaremos el método de eliminación de variables, éste método en realidad es muy sencillo, útil y práctico en muchas ocasiones, aunque también es un método muy limitado.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»