Archivo de la etiqueta: matrices

Ecuaciones Diferenciales I: Sistemas de ecuaciones diferenciales

Por Omar González Franco

El conocimiento de las matemáticas añade vigor a la mente,
la libera del prejuicio, credulidad y superstición.
– John Arbuthnot

Introducción

¡Bienvenidos a la tercera unidad del curso de Ecuaciones Diferenciales I!.

En esta unidad estudiaremos los sistemas de ecuaciones diferenciales lineales de primer orden.

En la unidad 1 de este curso estudiamos el sistema Depredador – Presa, en nuestro análisis el modelo matemático determinado fue el siguiente sistema de ecuaciones diferenciales.

\begin{align*}
\dfrac{dC}{dt} &= aC(t) -bC(t)Z(t) \\
\dfrac{dZ}{dt} &= -cZ(t) + dC(t)Z(t)
\end{align*}

Puedes revisar la entrada correspondiente para recordar que representa cada una de las variables y constantes.

Este sistema fue nuestro primer ejemplo de un sistema de ecuaciones diferenciales y en esta unidad nuestro propósito será desarrollar distintos métodos que nos permitan resolver sistemas de hasta $n > 2$ ecuaciones diferenciales acopladas.

Es importante mencionar que a lo largo de esta unidad usaremos un enfoque matricial, por lo que es recomendable tener presente, al menos, la teoría básica sobre matrices y sus operaciones y propiedades vistas en el curso de Álgebra Lineal I.

En esta entrada comenzaremos por definir los que es un sistema de ecuaciones diferenciales, sus propiedades y veremos cómo es que la notación matricial nos puede ayudar.

¡Comencemos!

Sistemas de ecuaciones diferenciales lineales de primer orden

En esta unidad, a menos que indiquemos lo contrario, la variable independiente se denotará por $t$, mientras que las variables dependientes de $t$ por

$$y_{1} = y_{1}(t), \hspace{0.5cm} y_{2} = y_{2}(t), \hspace{0.5cm} \cdots, \hspace{0.5cm} y_{n} = y_{n}(t)$$

y las funciones $F_{i}$, $i = 1, 2, 3, \cdots, n$ son funciones con valores reales que dependen de las $n + 1$ variables en un intervalo $\delta$.

Notación: Para mayor comodidad, en esta unidad usaremos la notación de prima para la derivada.

$$\dfrac{dy}{dt} = y^{\prime}(t) \label{2} \tag{2}$$

Con esta notación el sistema de ecuaciones (\ref{1}) se puede escribir de la siguiente manera.

\begin{align*}
y_{1}^{\prime}(t) &= F_{1}(t, y_{1}, y_{2}, \cdots, y_{n}) \\
y_{2}^{\prime}(t) &= F_{2}(t, y_{1}, y_{2}, \cdots, y_{n}) \\
&\vdots \\
y_{n}^{\prime}(t) &= F_{n}(t, y_{1}, y_{2}, \cdots, y_{n}) \label{3} \tag{3}
\end{align*}

En el sistema lineal (\ref{5}) se supone que los coeficientes $a_{ij}(t)$, así como las funciones $g_{i}(t)$, $i, j = \{1, 2, 3, \cdots, n \}$ son continuas en un intervalo común $\delta$.

Ejemplo: El sistema de ecuaciones diferenciales

\begin{align*}
y_{1}^{\prime}(t) &= -3y_{1} + 4y_{2} -9y_{3} \\
y_{2}^{\prime}(t) &= 6y_{1} -y_{2} \\
y_{3}^{\prime}(t) &= 10y_{1} + 4y_{2} + 3y_{3}
\end{align*}

es un sistema lineal de primer orden compuesto por tres ecuaciones diferenciales lineales de primer orden cada una.

Notación: Si el sistema es de dos o tres ecuaciones diferenciales denotaremos por $x(t), y(t)$ o $x(t), y(t)$, $z(t)$ a las variables dependientes de $t$, respectivamente.

Considerando esta notación, el sistema del ejemplo anterior se puede escribir de la siguiente manera.

\begin{align*}
x^{\prime}(t) &= -3x + 4y -9z\\
y^{\prime}(t) &= 6x -y \\
z^{\prime}(t) &= 10x + 4y + 3z
\end{align*}

Problema de valores iniciales

Es posible demostrar la existencia y unicidad de soluciones de sistemas tanto lineales como no lineales (caso general) y de soluciones a sistemas lineales homogéneos y no homogéneos (casos particulares), sin embargo las demostraciones de estos teoremas suelen ser bastantes extensas y complejas para nosotros en estos momentos, ya que requieren de herramientas matemáticas que aún desconocemos. A continuación enunciamos el teorema de existencia y unicidad para el caso general y para el caso lineal homogéneo.

En este teorema la región $R$ se construye con el producto cartesiano de los intervalos abiertos en los que $t_{0} \in \delta$, $b_{1} \in \delta_{1}$, $b_{2} \in \delta_{2}$, $\cdots$, $b_{n} \in \delta_{n}$, así $(t_{0}, b_{1}, b_{2}, \cdots, b_{n}) \in R$.

Para el caso particular de sistemas lineales homogéneos, el teorema de existencia y unicidad se puede enunciar de la siguiente forma.

Como mencionamos antes, es complejo demostrar estos teoremas, sin embargo más adelante en esta unidad los retomaremos y los justificaremos. Por ahora hay que tener en cuenta que para el caso general se requiere de volver a algunos de los conceptos vistos para demostrar el teorema de existencia y unicidad de Picard – Lindelöf de la primera unidad y para los casos particulares ¡la definición de exponencial de una matriz nos ayudará a demostrarlos!.

Ahora veamos la utilidad de la notación matricial.

Sistemas lineales de primer orden en forma matricial

Daremos por hecho que se conocen las operaciones y propiedades básicas de las matrices, así como algunas propiedades de espacios vectoriales vistas en el curso de Álgebra Lineal I.

Definamos las siguientes matrices de funciones.

$$\mathbf{Y}(t) = \begin{pmatrix}
y_{1}(t) \\ y_{2}(t) \\ \vdots \\ y_{n}(t)
\end{pmatrix} \hspace{1cm} \Rightarrow \hspace{1cm} \mathbf{Y^{\prime}}(t) = \begin{pmatrix}
y_{1}^{\prime}(t) \\ y_{2}^{\prime}(t) \\ \vdots \\ y_{n}^{\prime}(t)
\end{pmatrix} $$

y

$$\mathbf{A}(t) = \begin{pmatrix}
a_{11}(t) & a_{12}(t) & \cdots & a_{1n}(t) \\
a_{21}(t) & a_{22}(t) & \cdots & a_{2n}(t) \\
\vdots & & & \vdots \\
a_{n1}(t) & a_{n2}(t) & \cdots & a_{nn}(t)
\end{pmatrix}, \hspace{1cm}
\mathbf{G}(t) = \begin{pmatrix}
g_{1}(t) \\ g_{2}(t) \\ \vdots \\ g_{n}(t)
\end{pmatrix}$$

Usando estas matrices, el sistema de ecuaciones diferenciales lineales de primer orden (\ref{5}) se puede escribir de la siguiente manera.

$$\begin{pmatrix}
y_{1}^{\prime}(t) \\ y_{2}^{\prime}(t) \\ \vdots \\ y_{n}^{\prime}(t)
\end{pmatrix} = \begin{pmatrix}
a_{11}(t) & a_{12}(t) & \cdots & a_{1n}(t) \\
a_{21}(t) & a_{22}(t) & \cdots & a_{2n}(t) \\
\vdots & & & \vdots \\
a_{n1}(t) & a_{n2}(t) & \cdots & a_{nn}(t)
\end{pmatrix} \begin{pmatrix}
y_{1}(t) \\ y_{2}(t) \\ \vdots \\ y_{n}(t)
\end{pmatrix} + \begin{pmatrix}
g_{1}(t) \\ g_{2}(t) \\ \vdots \\ g_{n}(t)
\end{pmatrix} \label{8} \tag{8}$$

o bien,

$$\mathbf{Y^{\prime}} = \mathbf{AY} + \mathbf{G} \label{9} \tag{9}$$

Si el sistema es homogéneo, entonces escribimos

$$\mathbf{Y^{\prime}} = \mathbf{AY} \label{10} \tag{10}$$

La solución de un sistema lineal la podemos definir como sigue.

Usando la notación matricial, un PVI se puede escribir de la siguiente manera.

El teorema de existencia y unicidad para el caso lineal se puede enunciar de la siguiente forma.

Verifica que el sistema de ecuaciones diferenciales usado como ejemplo al inicio de la entrada se puede escribir en notación matricial de la siguiente forma.

$$\mathbf{Y}^{\prime} = \begin{pmatrix}
-3 & 4 & -9 \\ 6 & -1 & 0 \\ 10 & 4 & 3
\end{pmatrix} \mathbf{Y}$$

Veamos un ejemplo más.

Ejemplo: Escribir el siguiente sistema lineal en forma matricial.

\begin{align*}
x^{\prime}(t) &= x -y + z + t + 1 \\
y^{\prime}(t) &= 2x + y -z -3t^{2} \\
z^{\prime}(t) &= x + y + z + t^{2} -t + 2
\end{align*}

Solución: Primero escribamos cada lado de las ecuaciones en una matriz.

$$\begin{pmatrix}
x^{\prime}(t) \\ y^{\prime}(t) \\ z^{\prime}(t)
\end{pmatrix} = \begin{pmatrix}
x -y + z + t -1 \\ 2x + y -z -3t^{2} \\ x + y + z + t^{2} -t + 2
\end{pmatrix}$$

La matriz derecha la separamos en dos, una que contenga a las variables dependientes y otra a la variable independiente.

$$\begin{pmatrix}
x^{\prime}(t) \\ y^{\prime}(t) \\ z^{\prime}(t)
\end{pmatrix} = \begin{pmatrix}
x -y + z \\ 2x + y -z \\ x + y + z
\end{pmatrix} + \begin{pmatrix}
t -1 \\ -3t^{2} \\ t^{2} -t + 2
\end{pmatrix}$$

Finalmente podemos escribir

$$\begin{pmatrix}
x^{\prime}(t) \\ y^{\prime}(t) \\ z^{\prime}(t)
\end{pmatrix} = \begin{pmatrix}
1 & -1 & 1 \\ 2 & 1 & -1 \\ 1 & 1 & 1
\end{pmatrix} \begin{pmatrix}
x \\ y \\ z
\end{pmatrix} + \begin{pmatrix}
t -1 \\ -3t^{2} \\ t^{2} -t + 2
\end{pmatrix}$$

O bien,

$$\mathbf{Y}^{\prime} = \begin{pmatrix}
1 & -1 & 1 \\ 2 & 1 & -1 \\ 1 & 1 & 1
\end{pmatrix} \mathbf{Y} + \begin{pmatrix}
t -1 \\ -3t^{2} \\ t^{2} -t + 2
\end{pmatrix}$$

Donde,

$$\mathbf{A} = \begin{pmatrix} 1 & -1 & 1 \\ 2 & 1 & -1 \\ 1 & 1 & 1 \end{pmatrix} \hspace{1cm} y \hspace{1cm} \mathbf{G}(t) = \begin{pmatrix} t -1 \\ -3t^{2} \\ t^{2} -t + 2 \end{pmatrix}$$

$\square$

Usando la notación matricial verifiquemos que un vector solución en efecto es solución de un sistema lineal.

Ejemplo: Probar que el vector

$$\mathbf{Y} = \begin{pmatrix}
5 \cos(t) \\ 3 \cos(t) -\sin(t)
\end{pmatrix}e^{t}$$

es solución del sistema lineal

$$\begin{pmatrix}
x^{\prime}(t) \\ y^{\prime}(t)
\end{pmatrix} = \begin{pmatrix}
-2 & 5 \\ -2 & 4
\end{pmatrix} \begin{pmatrix}
x(t) \\ y(t)
\end{pmatrix}$$

Solución: El vector dado es

$$\mathbf{Y} = \begin{pmatrix}
x(t) \\ y(t)
\end{pmatrix} = \begin{pmatrix}
5e^{t} \cos(t) \\ 3e^{t} \cos(t) -e^{t} \sin(t)
\end{pmatrix}$$

Por una lado, derivemos el vector

$$\mathbf{Y}^{\prime} = \begin{pmatrix}
x^{\prime}(t) \\ y^{\prime}(t)
\end{pmatrix} = \begin{pmatrix}
5e^{t} \cos(t) -5e^{t} \sin(t) \\ 3e^{t} \cos(t) -3e^{t} \sin(t) -e^{t} \sin(t) -e^{t} \cos(t)
\end{pmatrix}$$

Esto es,

$$\mathbf{Y}^{\prime} = \begin{pmatrix}
5 \cos(t) -5 \sin(t) \\ 2 \cos(t) -4 \sin(t)
\end{pmatrix} e^{t}$$

Por otro lado, sustituyamos los valores de $x(t)$ y $y(t)$ en el sistema y veamos si se obtiene el mismo resultado.

$$\mathbf{Y}^{\prime} = \begin{pmatrix}
-2 & 5 \\ -2 & 4
\end{pmatrix} \begin{pmatrix}
5e^{t} \cos(t) \\ 3e^{t} \cos(t) -e^{t} \sin(t)
\end{pmatrix} = \begin{pmatrix}
-10e^{t} \cos(t) + 15e^{t} \cos(t) -5e^{t} \sin(t) \\ -10e^{t} \cos(t) + 12e^{t} \cos(t) -4e^{t} \sin(t)
\end{pmatrix}$$

Esto es,

$$\mathbf{Y}^{\prime} = \begin{pmatrix}
5 \cos(t) -5 \sin(t) \\ 2 \cos(t) -4 \sin(t)
\end{pmatrix} e^{t}$$

Como el resultado es el mismo concluimos que, en efecto, el vector $\mathbf{Y}$ es solución del sistema lineal dado.

$\square$

Para concluir con esta entrada veamos un resultado interesante que nos conecta con la unidad anterior.

¡Una ecuación diferencial de orden $n \geq 2$ lineal puede ser reescrita como un sistema lineal de $n$ ecuaciones de primer orden!.

Reducción de una ecuación de orden $n$ a un sistema de ecuaciones

Consideremos una ecuación diferencial lineal de orden $n$.

$$a_{n}(x) \dfrac{d^{n}y}{dx^{n}} + a_{n -1}(x) \dfrac{d^{n -1}y}{dx^{n -1}} + \cdots + a_{1}(x) \dfrac{dy}{dx} + a_{0}(x)y = g(x) \label{13} \tag{13}$$

Para adaptar este ejercicio a la notación que estamos usando en esta entrada tomemos a $x = x(t)$ como la variable dependiente de $t$ y dividamos toda la ecuación por $a_{n}(t) \neq 0$, tal que se obtenga la siguiente ecuación de orden $n$.

$$\dfrac{dx^{n}}{dt^{n}} + b_{1}(t) \dfrac{d^{n -1}x}{dt^{n -1}} + \cdots + b_{n -2}(t) \dfrac{d^{2}x}{dt^{2}} + b_{n -1}(t) \dfrac{dx}{dt} + b_{n}(t)x = g(t) \label{14} \tag{14}$$

Ahora realicemos las siguientes definiciones.

$$y_{1} = x, \hspace{1cm} y_{2} = \dfrac{dx}{dt}, \hspace{1cm} y_{3} = \dfrac{d^{2}x}{dt^{2}}, \hspace{1cm} \cdots, \hspace{1cm} y_{n} = \dfrac{d^{n -1}x}{dt^{n -1}} \label{15} \tag{15}$$

y notemos que

$$y^{\prime}_{1} = \dfrac{dx}{dt}, \hspace{1cm} y^{\prime}_{2} = \dfrac{d^{2}x}{dt^{2}}, \hspace{1cm} y^{\prime}_{3} = \dfrac{d^{3}x}{dt^{3}}, \hspace{1cm} \cdots, \hspace{1cm} y^{\prime}_{n -1} = \dfrac{d^{n -1}x}{dt^{n -1}} \label{16} \tag{16}$$

De los resultados (\ref{15}) y (\ref{16}) obtenemos que

$$y^{\prime}_{1} = y_{2}, \hspace{1cm} y^{\prime}_{2} = y_{3}, \hspace{1cm} y^{\prime}_{3} = y_{4}, \hspace{1cm} \cdots, \hspace{1cm} y^{\prime}_{n -1} = y_{n} \label{17} \tag{17}$$

Para obtener $y^{\prime}_{n}$ sólo despejamos de la ecuación diferencial (\ref{14}).

$$y^{\prime}_{n} = \dfrac{d^{n}x}{dt^{n}} = g(t) -b_{1}(t) \dfrac{d^{n -1}x}{dt^{n -1}} -\cdots -b_{n -2}(t) \dfrac{d^{2}x}{dt^{2}} -b_{n -1}(t) \dfrac{dx}{dt} -b_{n}(t)x$$

Si usamos (\ref{15}) podemos escribir

$$y^{\prime}_{n} = g(t) -b_{1}(t)y_{n} -\cdots -b_{n -2}(t)y_{3} -b_{n -1}(t)y_{2} -b_{n}(t)y_{1} \label{18} \tag{18}$$

Con estos resultados nos damos cuenta que hemos formado un sistema lineal de $n$ ecuaciones diferenciales.

\begin{align*}
y^{\prime}_{1} &= y_{2} \\
y^{\prime}_{2} &= y_{3} \\
y^{\prime}_{3} &= y_{4} \\
&\vdots \\
y^{\prime}_{n -1} &= y_{n} \\
y^{\prime}_{n} &= g(t) -b_{1}(t)y_{n} -\cdots -b_{n -2}(t)y_{3} -b_{n -1}(t)y_{2} -b_{n}(t)y_{1}
\end{align*}

Usando la notación matricial obtenemos finalmente que

$$\begin{pmatrix}
y^{\prime}_{1}(t) \\ y^{\prime}_{2}(t) \\ \vdots \\ y^{\prime}_{n -1}(t) \\ y^{\prime}_{n}(t)
\end{pmatrix} = \begin{pmatrix}
0 & 1 & 0 & \cdots & 0 \\ 0 & 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \cdots & 1 \\ -b_{n}(t) & -b_{n-1}(t) & -b_{n-2}(t) & \cdots & -b_{1}(t)
\end{pmatrix} \begin{pmatrix}
y_{1}(t) \\ y_{2}(t) \\ \vdots \\ y_{n -1}(t) \\ y_{n}(t)
\end{pmatrix} + \begin{pmatrix}
0 \\ 0 \\ \vdots \\ 0 \\ g(t)
\end{pmatrix}$$

Esto por supuesto trae muchas ventajas, ya que en ocasiones será mucho más sencillo resolver un sistema de $n$ ecuaciones con los métodos que veremos más adelante que intentar resolver la ecuación de orden $n$ con los métodos desarrollados en la unidad anterior.

Para que quede más claro el procedimiento anterior realicemos un ejemplo.

Ejemplo: Escribir la ecuación diferencial de orden $n = 4$

$$\dfrac{d^{4}x}{dt^{4}} + 12 \dfrac{d^{3}x}{dt^{3}} -5 \dfrac{d^{2}x}{dt^{2}} + 8x = 2 \cos(t)$$

en un sistema lineal usando notación matricial.

Solución: Aplicamos las definiciones de (\ref{15}) y (\ref{16}).

$$y_{1} = x, \hspace{1cm} y_{2} = \dfrac{dx}{dt} = y^{\prime}_{1}, \hspace{1cm} y_{3} = \dfrac{d^{2}x}{dt^{2}} = y^{\prime}_{2} \hspace{1cm} y \hspace{1cm} y_{4} = \dfrac{d^{3}x}{dt^{3}} = y^{\prime}_{3}$$

Y de la ecuación diferencial obtenemos que

$$\dfrac{d^{4}x}{dt^{4}} = 2 \cos(t) -12y_{4} + 5y_{3} -8y_{1} = y^{\prime}_{4}$$

El sistema que se forma, es

\begin{align*}
y^{\prime}_{1} &= y_{2} \\
y^{\prime}_{2} &= y_{3} \\
y^{\prime}_{3} &= y_{4} \\
y^{\prime}_{4} &= 2 \cos(t) -12y_{4} + 5y_{3} -8y_{1}
\end{align*}

Por lo tanto, la ecuación diferencial de orden $4$ es equivalente al sistema lineal de $4$ ecuaciones diferenciales

$$\begin{pmatrix}
y^{\prime}_{1}(t) \\ y^{\prime}_{2}(t) \\ y^{\prime}_{3}(t) \\ y^{\prime}_{4}(t)
\end{pmatrix} = \begin{pmatrix}
0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ -8 & 0 & 5 & -12
\end{pmatrix} \begin{pmatrix}
y_{1} \\ y_{2} \\ y_{3} \\ y_{4}
\end{pmatrix} + \begin{pmatrix}
0 \\ 0 \\ 0 \\ 2 \cos (t)
\end{pmatrix}$$

$\square$

Hemos concluido con esta entrada.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  1. Escribir los siguientes sistemas lineales en forma matricial.
  • $\begin{align*}
    x^{\prime}(t) &= 3x -5y \\
    y^{\prime}(t) &= 4x + 8y
    \end{align*}$
  • $\begin{align*}
    x^{\prime}(t) &= -3x + 4y + e^{-t} \sin(2t) \\
    y^{\prime}(t) &= 5x + 9z + 4e^{-t} \cos(2t) \\
    z^{\prime}(t) &= y + 6z -e^{-t}
    \end{align*}$
  1. Reescribir los siguientes sistemas lineales sin el uso de matrices.
  • $\mathbf{Y}^{\prime} = \begin{pmatrix}
    7 & 5 & -9 \\ 4 & 1 & 1 \\ 0 & -2 & 3 \\
    \end{pmatrix} \mathbf{Y} + \begin{pmatrix}
    0 \\ 2 \\ 1
    \end{pmatrix} e^{5t} -\begin{pmatrix}
    8 \\ 0 \\ 3
    \end{pmatrix} e^{-2t}$
  • $\begin{pmatrix}
    x^{\prime}(t) \\ y^{\prime}(t) \\ z^{\prime}(t)
    \end{pmatrix} = \begin{pmatrix}
    1 & -1 & 2 \\ 3 & -4 & 1 \\ -2 & 5 & 6
    \end{pmatrix} \begin{pmatrix}
    x \\ y \\ z
    \end{pmatrix} + \begin{pmatrix}
    1 \\ 2 \\ 2
    \end{pmatrix} e^{-t} -\begin{pmatrix}
    3 \\ -1 \\ 1
    \end{pmatrix} t$
  1. Probar que el vector dado $\mathbf{Y}$ es solución del sistema lineal correspondiente.
  • $\mathbf{Y}^{\prime} = \begin{pmatrix}
    2 & 1 \\ -1 & 0
    \end{pmatrix} \mathbf{Y}, \hspace{1cm} \mathbf{Y} = \begin{pmatrix}
    1 \\ 3
    \end{pmatrix} e^{t} + \begin{pmatrix}
    4 \\ -4
    \end{pmatrix} te^{t}$
  • $\mathbf{Y}^{\prime} = \begin{pmatrix}
    1 & 0 & 1 \\ 1 & 1 & 0 \\ -2 & 0 & -1
    \end{pmatrix} \mathbf{Y}, \hspace{1cm} \mathbf{Y} = \begin{pmatrix}
    \sin(t) \\ -\dfrac{1}{2} \sin(t) -\dfrac{1}{2} \cos(t) \\ -\sin(t) + \cos(t)
    \end{pmatrix}$
  1. Escribir las siguientes ecuaciones diferenciales de orden superior en un sistema lineal usando notación matricial.
  • $\dfrac{d^{4}x}{dt^{4}} -10 \dfrac{d^{3}x}{dt^{3}} + 35 \dfrac{d^{2}x}{dt^{2}} -50 \dfrac{dx}{dt} + 24x = 0$
  • $\dfrac{d^{4}x}{dt^{4}} -4 \dfrac{d^{3}x}{dt^{3}} + 8 \dfrac{d^{2}x}{dt^{2}} -8 \dfrac{dx}{dt} + 4x = 8 \sin (2t)$

Más adelante…

Nos hemos introducido en los sistemas lineales de primer orden, en la siguiente entrada estudiaremos las propiedades de las soluciones de estos sistemas de manera muy similar que en el caso de las ecuaciones diferenciales de orden superior.

Veremos que mucho de lo visto en la unidad anterior aparecerá nuevamente, pues conceptos como dependencia e independencia lineal, conjunto fundamental de soluciones, Wronskiano, principio de superposición, entre otros, volverán a aparecer, sólo habrá que adaptarlos a los sistemas lineales.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Álgebra Lineal II: Existencia de la forma canónica de Jordan para nilpotentes

Por Elizabeth Chalnique Ríos Alvarado

Introducción

En la entrada anterior estudiamos de manera un poco más sistemática las matrices y transformaciones lineales nilpotentes. Lo que haremos ahora es enunciar el teorema de la forma canónica de Jordan para matrices nilpotentes. Este es un teorema de existencia y unicidad. En esta entrada demostraremos la parte de la existencia. En la siguiente entrada hablaremos de la unicidad y de cómo encontrar la forma canónica de Jordan de matrices nilpotentes de manera práctica.

El teorema de Jordan para nilpotentes

El teorema que queremos demostrar tiene dos versiones: la de transformaciones y la matricial. La versión en transformaciones dice lo siguiente.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$ y $T:V\to V$ una transformación lineal nilpotente. Entonces existen únicos enteros $k_1,\ldots,k_d$ tales que \begin{align*} &k_1+k_2+\ldots+k_d = n,\\ &k_1\leq k_2 \leq \ldots \leq k_d,\end{align*} y para los cuales existe una base de $V$ en la cual $T$ tiene como forma matricial a la siguiente matriz de bloques:

$$\begin{pmatrix} J_{0,k_1} & 0 & \cdots & 0 \\ 0 & J_{0,k_2} & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & J_{0,k_d}\end{pmatrix}.$$

La versión en forma matricial dice lo siguiente.

Teorema. Sea $A$ una matriz nilpotente en $M_n(F)$. Entonces existen únicos enteros $k_1,\ldots,k_d$ tales que \begin{align*} &k_1+k_2+\ldots+k_d = n,\\ &k_1\leq k_2 \leq \ldots \leq k_d,\end{align*} y para los cuales $A$ es similar a la siguiente matriz de bloques: $$\begin{pmatrix} J_{0,k_1} & 0 & \cdots & 0 \\ 0 & J_{0,k_2} & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & J_{0,k_d}\end{pmatrix}.$$

A esta matriz de bloques (ya sea para una transformación, o para una matriz) le llamamos la forma canónica de Jordan de $A$.

En vista de que dos matrices son similares si y sólo si representan a la misma transformación lineal en distintas bases, entonces ambos teoremas son totalmente equivalentes. Así, basta enfocarnos en demostrar una de las versiones. Haremos esto con la versión para transformaciones lineales.

Trasnformaciones nilpotentes y unos vectores linealmente independientes

En esta sección enunciaremos un primer resultado auxiliar para demostrar la existencia de la forma canónica de Jordan. Veremos que a partir de una transformación lineal nilpotente podemos obtener algunos vectores linealmente independientes.

Proposición. Sea $V$ un espacio vectorial de dimensión finita y $T:V\to V$ una transformación lineal de índice $k$. Sea $v$ un vector tal que $T^{k-1}(v)\neq 0$, el cual existe ya que $T^{k-1}$ no es la transformación lineal cero. Entonces:

  1. Los vectores $v$, $T(v)$, $\ldots$, $T^{k-1}(v)$ son linealmente independientes.
  2. El subespacio $W$ que generan es de dimensión $k$ y es estable bajo $T$.
  3. La transformación $T$ restringida a $W$ en la base $T^{k-1}(v)$, $T^{k-2}(v)$, $\ldots$, $T(v)$, $v$ tiene como matriz al bloque de Jordan $J_{0,k}$. Ojo. Aquí los vectores los escribimos en orden contrario, empezando con la mayor potencia de $T$ aplicada.

Demostración. Probemos las afirmaciones una por una. Para empezar, supongamos que para ciertos escalares $\alpha_0,\ldots,\alpha_{k-1}$ tenemos que $$\alpha_0v+\alpha_1T(v)+\ldots+\alpha_{k-1}T^{k-1}(v)=0.$$

Vamos a probar inductivamente de $0$ a $k-1$ que $\alpha_k=0$. Para mostrar que $\alpha_0=0$, aplicamos $T^{k-1}$ a la combinación lineal anterior para obtener:

\begin{align*}
0&=\alpha_0T^{k-1}(v)+\alpha_1T^k(v)+\ldots+\alpha_{k-1}T^{2k-2}(v)\\
&=\alpha_0T^{k-1}(v).
\end{align*}

Aquí estamos usando en todos los sumandos, excepto el primero, que $T^k=0$. Como $T^{k-1}(v)\neq 0$, concluimos que $\alpha_0=0$. Suponiendo que ya hemos mostrado $\alpha_0=\ldots=\alpha_l=0$, la combinación lineal con la que empezamos queda como $$\alpha_{l+1}T^{l+1}(v)+\alpha_{l+2}T^{l+2}(v)+\ldots+\alpha_{k-1}T^{k-1}(v)=0.$$ Aplicando $T^{k-l-2}$ y usando un argumento similar al anterior se llega a que $\alpha_{l+1}=0$. Esto muestra que la única combinación lineal de los vectores que da cero es la combinación lineal trivial, así que son linealmente independientes.

De manera inmediata obtenemos entonces que esos $k$ vectores generan un subespacio $W$ de dimensión $k$. Para ver que $W$ es $T$ estable, tomemos un elemento $w$ en $W$, es decir $$w=\alpha_0v+\alpha_1T(v)+\ldots+\alpha_{k-1}T^{k-1}(v)$$ para algunos escalares $\alpha_0,\ldots,\alpha_{k-1}$. Debemos ver que $T(w)$ está nuevamente en $W$. Haciendo las cuentas y usando nuevamente que $T^k=0$ obtenemos:

\begin{align*}
T(w)&=T(\alpha_0v+\alpha_1T(v)+\ldots+\alpha_{k-1}T^{k-1}(v))\\
&= \alpha_0T(v)+\alpha_1T^2(v)+\ldots+\alpha_{k-2}T^{k-1}(v)+\alpha_{k-1}T(v)\\
&= \alpha_0T(v)+\alpha_1T^2(v)+\ldots+\alpha_{k-2}T^{k-1}(v)\\
\end{align*}

Este vector de nuevo es combinación lineal de los vectores que nos interesan, así que $T(w)$ está en $W$, como queríamos.

La afirmación de la forma matricial es inmediata pues precisamente

$$T(T^{j}(v))=0\cdot T^{n-1}(V)+\ldots+1\cdot T^{j+1}(v)+\ldots+0\cdot T(v) + 0\cdot v,$$ de donde se lee que las columnas de dicha forma matricial justo son las del bloque de Jordan $J_{0,k}$.

$\square$

El teorema anterior da otra demostración de algo que ya habíamos mostrado en la entada anterior: el índice de una matriz en $M_n(F)$ (o de una transformación nilpotente en un espacio vectorial de dimensión $n$) no puede exceder $n$.

Encontrar un subespacio complementario y estable

Ahora veremos otro resultado auxiliar que necesitaremos para demostrar la existencia de la forma canónica de Jordan. A partir de él podemos conseguirnos un «subespacio complementario y estable» que en la prueba de la existencia nos ayudará a proceder inductivamente. Este truco ya lo hemos visto antes en la clasificación de matrices ortogonales y el la demostración del teorema espectral.

Proposición. Sea $V$ un espacio vectorial de dimensión finita $n$ y $T:V\to V$ una transformación lineal nilpotente de índice $k$. Tomemos $v$ un vector tal que $T^{k-1}(v)\neq 0$. Sea $W$ el subespacio generado por $v,T(v),\ldots,T^{k-1}(v)$. Entonces, existe un subespacio $W’$ estable bajo $T$ y tal que $T=W\oplus W’$.

La principal dificultad para probar esta proposición es una cuestión creativa: debemos saber de dónde sacar el espacio $W’$. Para ello, haremos uso de la transformación transpuesta y de un espacio ortogonal por dualidad. Como recordatorio, si $T:V\to V$ es una transformación lineal, entonces su transformación transpuesta es una transformación lineal $^tT:V^\ast \to V^\ast$ para la cual $^tT(\ell)(u)=\ell(T(u))$ para cualquier forma lineal $\ell$ y cualquier vector $u$ en $V$.

Demostración. Primero, nos enfocamos en construir $W’$. Para ello procedemos como sigue. Como $T^{k-1}(v)\neq 0$, entonces existe una forma lineal $\ell$ tal que $\ell(T^{k-1}(v))\neq 0$. Se puede mostrar que $S:=\text{ }^t T$ también es nilpotente de índice $k$. Por la proposición de la sección anterior, tenemos entonces que $\ell, S(\ell),\ldots,S^{k-1}(\ell)$ son $k$ vectores linealmente independientes en $V^\ast$ y por lo tanto que generan un subespacio $Z$ de dimensión $k$. El espacio $W’$ que propondremos será $Z^\bot$.

Debemos mostrar que:

  1. En efecto $V=W\oplus W’$.
  2. En efecto $W’$ es $T$ estable.

Para la primer parte, usando teoría de espacios ortogonales tenemos que $$\dim(W’)=\dim(Z^\bot)=n-\dim(Z)=n-k,$$ así que los subespacios tienen la dimensión correcta para ser complementarios. Además, si $u\in W\cap W’$, entonces $u$ es combinación lineal de $v, T(v),\ldots, T^{k-1}(v),$ digamos $$u=\alpha_0v+\ldots+\alpha_{k-1}T^{k-1}(v)$$ y se anula por $\ell, S(\ell),\ldots,S^{k-1}(\ell)$, lo que quiere decir que se anula por $\ell, \ell\circ T, \ldots, \ell \circ T^{k-1}$. Esto permite probar iterativamente que $\alpha_0=\ldots=\alpha_{k-1}=0$, de modo que $u=0$. Con esto, $W$ y $W’$ son de intersección trivial y dimensiones complementarias, lo cual basta para que $V=W\oplus W’$.

Para terminar, debemos ver que $W’$ es $T$ estable. Tomemos un $u$ en $W’$, es decir, tal que se anula por $\ell, \ell\circ T, \ldots, \ell \circ T^{k-1}$. Al aplicar $T$, tenemos que $T(u)$ también se anula por todas estas transformaciones. Esto se debe a que para $\ell \circ T^j$ con $j\leq k-2$ se anula ya que $\ell\circ T^j(T(u))=\ell\circ T^{j+1}(u)=0$ por cómo tomamos $u$ y para $\ell \circ T^{k-1}$ se anula pues $T$ es nilpotente de índice $k$.

$\square$

Existencia de forma canónica de Jordan para nilpotentes

La idea para encontrar la forma canónica de Jordan debe ser clara a estas alturas: se procederá por inducción, el caso base será sencillo, asumiremos la hipótesis inductiva y para hacer el paso inductivo descomponeremos al espacio $V$ mediante la proposición de la sección anterior. Veamos los detalles.

Demostración (existencia de forma canónica de Jordan para nilpotentes). Estamos listos para probar la existencia de la forma canónica de Jordan para una transformación lineal nilpotente $T:V\to V$ con $V$ un espacio vectorial de dimensión finita $n$. Procederemos por inducción en la dimensión. Si $n=1$, entonces $V$ es generado por un vector $v$ y la transformación lineal $T$ debe mandarlo al vector $0$ para ser nilpotente. En esta base, $T(v)=0$ y la matriz que representa a $T$ es entonces $(0)=J_{0,1}$.

Supongamos que existe la forma canónica de Jordan para cuando $V$ es de cualquier dimensión menor a un entero positivo dado $n$. Tomemos $V$ un espacio vectorial de dimensión $n$ y $T:V\to V$ una transformación lineal nilpontente. Si $T$ es de índice $n$, entonces $T^{n-1}(v),\ldots,T(v),v$ son linealmente independientes y por lo tanto son una base de $V$. La forma matricial de $T$ en esta base es el bloque de Jordan $J_{0,n}$, en cuyo caso terminamos.

De otra forma, el índice es un número $k<n$. Entonces, $T^{k-1}(v),\ldots,T(v),v$ generan un subespacio estable $W$ de dimensión $k$. Por la proposición de la sección anterior, podemos encontrar un subespacio complementario $W’$ de dimensión $n-k<n$ y estable bajo $T$. Como la restricción de $T$ a $W’$ tiene codominio $W’$, es nilpotente y $\dim(W)<\dim(V)$, entonces por hipótesis inductiva $W’$ tiene una base $\beta$ bajo la cual la restricción de $T$ a $W’$ tiene como forma matricial una matriz diagonal por bloques con puros bloques de Jordan del estilo $J_{0,k_j}$. Al completar $\beta$ con $T^{k-1}(v),\ldots,T(v),v$ , obtenemos una base de $V$ en la cual $T$ tiene como forma matricial una matriz diagonal por bloques con puros bloques de Jordan del estilo $J_{0,k_j}$ (que vienen de la hipótesis inductiva) y un bloque de Jordan $J_{0,k}$. Salvo quizás un reordenamiento de la base para ordenar los $k_j$ y $k$, obtenemos exactamente lo buscado.

$\square$

Más adelante…

Ya demostramos una parte fundamental del teorema que nos interesa: la existencia de la forma canónica de Jordan para transformaciones (y matrices) nilpotentes. Nos falta otra parte muy importante: la de la unicidad. Las demostraciones de unicidad típicamente son sencillas, pero en este caso no es así. Para decir de manera explícita cuál es la forma canónica de Jordan de una transformación (o matriz) nilpotente, deberemos hacer un análisis cuidadoso del rango de las potencias de la transformación (o matriz). Veremos esto en las siguientes entradas.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Verifica que la siguiente matriz es nilpotente: $$\begin{pmatrix}13 & 6 & -14 & -5\\ 2 & 0 & -4 & -2 \\ 29 & 12 & -34 & -13 \\ -45 & -18 & 54 & 21\end{pmatrix}.$$
    Siguiendo las ideas de la demostración de existencia de esta entrada, ¿cómo podrías dar la forma canónica de Jordan de esta matriz? Intenta hacerlo.
  2. Sea $V$ un espacio vectorial de dimensión finita y $T:V\to V$ una transformación lineal nilpotente de índice $k$. Demuestra que $^tT$ también es una transformación lineal nilpotente de índice $k$. ¿Cuál sería el resultado análogo para matrices?
  3. Sea $V$ un espacio vectorial de dimensión finita y $T:V \to V$ una transformación lineal tal que para cualquier $v$ en $V$ existe algún entero $n$ tal que $T^n(v)=0$. Estos $n$ pueden ser distintos para distintos $v$. Muestra que $T$ es nilpotente.
  4. Considera el subespacio $V$ de polinomios reales con grado a lo más $4$ y $D:V\to V$ la transformación lineal derivar. Da, de manera explícita, espacios $W$ y $W’$ como en las proposición de encontrar el subespacio complementario estable.
  5. Hay varios detalles que quedaron pendientes en las demostraciones de esta entrada. Revisa la entrada para encontrarlos y da las demostraciones correspondientes.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Introducción a forma canónica de Jordan

Por Leonardo Ignacio Martínez Sandoval

Introducción

En esta última unidad usaremos las herramientas desarrolladas hasta ahora para enunciar y demostrar uno de los teoremas más hermosos y útiles en álgebra lineal: el teorema de la forma canónica de Jordan. A grandes rasgos, lo que nos dice este teorema es que cualquier matriz prácticamente se puede diagonalizar. En esta primera entrada hablaremos un poco de qué puedes esperar en el transcurso de la unidad, aunque en un orden algo distinto que te ayudará a entender mejor la motivación de presentar la teoría cómo vendrá en las siguientes notas.

Bloques de Jordan

Un bloque de Jordan de tamaño $k$ y eigenvalor $\lambda$ es una matriz en $M_k(F)$ que se obtiene de comenzar con $\lambda I_k$ y agregar encima de la diagonal principal puros unos. Queda algo así:

$$J_{\lambda,k}=\begin{pmatrix} \lambda & 1 & 0 & \ldots & 0 & 0 \\ 0 & \lambda & 1 & \ldots & 0 & 0 \\ 0 & 0 & \lambda & \ldots & 0 & 0 \\ & \vdots & & \ddots & & \vdots \\ 0 & 0 & 0 & \ldots & \lambda & 1 \\ 0 & 0 & 0 & \ldots & 0 & \lambda \end{pmatrix}.$$

Puedes notar que esto es prácticamente una matriz diagonal, a excepción de la diagonal de unos que queda por encima de la diagonal principal. Esto debería sugerirte que los bloques de Jordan son casi tan amigables como las matrices diagonales. Como veremos en las siguientes entradas, es muy fácil calcularles su traza, determinante, polinomio característico, polinomio mínimo, eigenvalores, eigenvectores, etc.

A partir de los bloques de Jordan podemos formar matrices de bloques de Jordan pegando varios bloques de Jordan en una diagonal para obtener una matriz del siguiente estilo:

\begin{equation}\label{eq:Jordan}\begin{pmatrix} J_{\lambda_1,k_1} & 0 & 0 & \ldots & 0 \\ 0 & J_{\lambda_2,k_2} & 0 & \ldots & 0 \\ 0 & 0 & J_{\lambda_3,k_3} & \ldots & 0 \\ & \vdots & & \ddots & \vdots \\ 0 & 0 & 0 & \ldots & J_{\lambda_d,k_d}\end{pmatrix}.\end{equation}

Aquí pusimos muchos ceros, pero en el fondo cada uno de estos ceros son una matriz de ceros. Por ejemplo, si tenemos los tres bloques de Jordan $J_{3,2}$, $J_{-2,1}$ y $J_{5,3}$ y pegamos estos bloques, obtenemos la siguiente matriz de bloques:

$$\left( \begin{array}{cc|c|ccc} 3 & 1 & 0 & 0 & 0 & 0 \\ 0 & 3 & 0 & 0 & 0 & 0\\ \hline 0 & 0 & -2 & 0 & 0 & 0 \\ \hline 0 & 0 & 0 & 5 & 1 & 0\\ 0 & 0 & 0 & 0 & 5 & 1 \\ 0 & 0 & 0 & 0 & 0 & 5 \end{array}\right).$$

Recuerda que las líneas que dibujamos en una matriz de bloques son simplemente ayuda visual. Estas matrices también son prácticamente diagonales y, como te imaginarás, también es fácil encontrar muchas de sus propiedades.

Teorema de la forma canónica de Jordan

Si recuerdas, una de las motivaciones fuertes para que nos interesara diagonalizar una matriz $A$ es que la matriz diagonal $D$ semejante comparte muchas propiedades con $A$, pero $D$ es mucho más fácil de entender. A veces no podremos encontrar una matriz diagonal semejante a $A$, pero lo que nos dice el teorema de formas canónicas de Jordan es que prácticamente siempre podremos encontrar una matriz de bloques de Jordan semejante a $A$.

Teorema. Sea $A\in M_n(F)$ una matriz tal que su polinomio característico $\chi_A(X)$ se divide sobre $F$. Entonces, $A$ es similar a una matriz de bloques de Jordan, es decir, una matriz como en \refeq{eq:Jordan}.

En realidad, cuando enunciemos el teorema lo haremos de manera más formal, y hasta diremos en qué sentido la forma canónica de Jordan es única.

¿Por qué decimos que entonces prácticamente siempre podemos diagonalizar una matriz? En cursos más avanzados se muestra que sin importar en qué campo $F$ estemos trabajando, siempre podemos extender el campo $F$ lo suficiente como para que cualquier polinomio se divida sobre una extensión $G$ de $F$. En este campo extendido, cualquier matriz en $M_n(F)$ se puede diagonalizar.

Transformaciones y matrices nilpotentes

Para demostrar el teorema de Jordan, primero tendremos que enunciarlo y demostrarlo para una clase muy especial de matrices: las nilpotentes. Ya hemos hablado un poco de estas matrices en ejercicios particulares y algunos problemas de la tarea moral. Pero si se te pasó, una matriz $A$ en $M_n(F)$ es nilpotente cuando se puede encontrar un expontente $m$ tal que $A^m=O_n$. De manera similar, si $T$ es una transformación lineal, diremos que es nilpotente cuando $T^m=Z$ para algún exponente $m$, donde $Z$ es la transformación lineal trivial que manda todo elemento al $0$. Recuerda que aquí el exponente indica cuántas veces se compone $T$ consigo mismo. Como te imaginarás, $T$ será nilpotente si y sólo si alguna de sus formas matriciales lo es.

Las matrices nilpotentes servirán como nuestros cimientos para demostrar el teorema de la forma canónica de Jordán. Es sencillo ver que los bloques de Jordan de la forma $J_{0,k}$ son nilpotentes. También es sencillo ver que cualquier matriz de bloques de Jordan con puros eigenvalores iguales a cero es nilpotente. Nuestra primera versión del teorema de la forma canónica de Jordán nos dará algo así como un «regreso» de esta afirmación. El siguiente teorema es una versión «light» de lo que demostraremos.

Teorema. Sea $A\in M_n(F)$ una matriz nilpotente. Entonces, $A$ es similar a una matriz de bloques de Jordan, todos ellos con eigenvalor $0$.

La demostración será muy bonita, y hará uso de la teoría de dualidad de Álgebra Lineal I. Una vez que demostremos esta versión, la combinaremos con el teorema de Cayley-Hamilton de la Unidad 1 para obtener el teorema general.

Aplicaciones del teorema de Jordan

Si conocemos la forma canónica de Jordan de una matriz, podemos encontrar a partir de ella fácilmente muchas propiedades, como la traza, determinante, etc. Además de estas aplicaciones «de cálculo de propiedades», el teorema de la forma canónica de Jordán nos permitirá decir exactamente cuándo dos matrices son similares. En particular, veremos que cualquier matriz $A$ es similar a su transpuesta.

Tarea moral

En esta ocasión la tarea moral consistirá en un repaso de contenido anterior tanto de Álgebra Lineal I como Álgebra Lineal II, para que cuentes con todas las herramientas necesarias para aprovechar esta última unidad.

  1. Haz un repaso de la teoría de Matrices de bloques, para recordar a qué se refiere esta notación y cómo se pueden hacer operaciones cuando las matrices están escritas por bloques.
  2. Revisa la entrada de Matrices de cambio de base, para recordar por qué dos matrices similares en el fondo representan a la misma transformación lineal, pero en distintas bases.
  3. Repasa la teoría básica de dualidad en espacios vectoriales. Puedes comenzar con la entrada de Introducción a espacio dual. Concretamente, tendrás que recordar por lo menos hasta la teoría de Ortogonalidad y espacio ortogonal.
  4. Recuerda todo lo que podemos decir de las transformaciones triangularizables, revisando la entrada de Triangularizar y descomposición de Schur, y compara los resultados de ahí con lo que esperamos obtener sobre forma canónica de Jordan. ¿Cuál teorema dice algo más fuerte?
  5. Vuelve a leer todo el contenido relacionado con el teorema de Cayley-Hamilton para recordar no sólo qué dice, sino cómo está relacionado con los eigenespacios asociados a una transformación lineal. Puedes empezar con la entrada de Introducción al teorema de Cayley-Hamilton.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Geometría Analítica I: Producto de matrices

Por Paola Berenice García Ramírez

Introducción

En la entrada anterior definimos a un vector y a una matriz de una función lineal, podemos proceder a definir su producto. En esta entrada primero veremos cómo se realiza el producto de una matriz con un vector. Después trataremos la fuerte relación entre la composición de funciones y el producto de matrices. Con dicha relación, por último definiremos el producto de matrices cualesquiera.

Producto de una matriz con un vector

Si tenemos un matriz $A$ de $m\times n$, sabemos que una forma de ver a nuestra matriz es como un conjunto ordenado de $n$ vectores en $\mathbb{R}^n$ y entonces se escribe $A=(u_1, u_2, \cdots, u_n)$, con $u_{i} \in \mathbb{R}^n$, donde $i=1,2,\cdots,n$. También sabemos que cada vector al que haremos referencia tiene la notación $x=(x_1, x_2, \cdots, x_n )^T$.

Vamos a definir con estos conceptos al producto de una matriz $A$ por un vector $x$:

Definición. El producto de una matriz $A$ de dimensión $m\times n$ de la forma

\begin{equation*}
A = (u_1,u_2, \cdots, u_n),
\end{equation*}

por un vector de la forma

\[ x=(x_1, x_2, \cdots, x_n )^T = \left(\begin{array}{c}
x_1\\
x_2\\
\vdots\\
x_n
\end{array} \right);\]

se define por

\[ Ax = (u_1, u_2, \cdots, u_n )\left(\begin{array}{c}
x_1\\
x_2\\
\vdots\\
x_n
\end{array} \right) = x_1 u_1 + x_2 u_2 + \cdots + x_n u_n. \]

Veamos un ejemplo que nos apoye con la definición:

Ejemplo. Sean la matriz $A$ y el vector $x$ como sigue

\[ A = \left(\begin{array}{ccc}
4&7&-1\\
2&-3&1\\
5&4&-2
\end{array} \right), \hspace{0.5cm} y \hspace{0.5cm} x=(x,y,z)^T , \]

entonces el producto de la matriz $A$ con el vector $x$ será:

\[ Ax = \left(\begin{array}{ccc}
4&7&-1\\
2&-3&1\\
5&4&-2
\end{array} \right) \left(\begin{array}{c}
x\\
y\\
z
\end{array} \right) = x \left(\begin{array}{c}
4\\
2\\
5
\end{array} \right) + y \left(\begin{array}{c}
7\\
-3\\
4
\end{array} \right) + z \left(\begin{array}{c}
-1\\
1\\
-2
\end{array} \right) = \left(\begin{array}{c}
4x+7y-z\\
2x-3y+z\\
5x+4y-2z
\end{array} \right).\]

Ahora, para comprender mejor la definición del producto de matrices, que es el tema principal de esta entrada; es mejor hablar de su origen, el cual proviene de los sistemas lineales. Arthur Cayley (1821-1895) fue un matemático británico que analizaba los sistemas con dos ecuaciones y dos incógnitas:

\begin{align*}
ax + by &= x’ \\
cx + dy &= y’
\end{align*}

como transformación del plano donde a cada punto $(x,y)$ le corresponde el punto $(x’,y’)$.

A la función de $\mathbb{R}^2$ en $\mathbb{R}^2$ donde

\[ p(x) = \left(\begin{array}{c}
ax + by\\
cx + dy
\end{array} \right), \]

se le asocia la matriz

\[ \left(\begin{array}{cc}
a & b\\
c & d
\end{array} \right), \]

que es quien transforma el plano, moviendo cada punto $(x,y)$ a la posición $(x’,y’)$.

Ahora vamos a considerar otra matriz

\[ \left(\begin{array}{cc}
e & f\\
g & h
\end{array} \right), \]

quien también transformará al plano, pero el punto $(x’,y’)$ se moverá a la posición $(x´´,y´´)$ mediante el sistema:

\begin{align*}
ex’ + fy’ &= x´´ \\
gx’ + hy’ &= y´´.
\end{align*}

Si lo que deseamos es que las dos transformaciones se ejecuten una detrás de la otra, es decir, que el punto $(x,y)$ vaya a la posición $(x´´,y´´)$; entonces para la primera ecuación se tendrá:

\begin{align*}
x´´ &= ex’ + fy’\\
&= e(ax+by) + f(cx+dy)\\
&= (ae+cf)x +(be+df)y,
\end{align*}

y para la segunda ecuación tenemos:

\begin{align*}
y´´ &= gx’ + hy’\\
&= g(ax+by) + h(cx+dy)\\
&= (ag+ch)x +(bg+dh)y.
\end{align*}

En consecuencia, la composición de las dos transformaciones tiene por sistema a:

\begin{align*}
(ae+cf)x +(be+df)y &= x´´\\
(ag+ch)x +(bg+dh)y &= y´´.
\end{align*}

De hecho las definiciones de Cayley se generalizaron a cualquier dimensión. Con esta motivación vamos a definir el producto de matrices.

Multiplicación de matrices

Definición. Sean $f: \mathbb{R}^n \longrightarrow \mathbb{R}^m$ y $g: \mathbb{R}^m \longrightarrow \mathbb{R}^k$ dos funciones lineales, la composición $g \circ f: \mathbb{R}^n \longrightarrow \mathbb{R}^k$ también será lineal. Sean las matrices $A$ de tamaño $m\times n$ y $B$ de tamaño $k\times m$ que corresponden a $f$ y a $g$ respectivamente. Definimos al producto de matrices $BA$ como la matriz $k\times n$ que corresponde a la función lineal $g \circ f$.

Entonces $BA$ es la única matriz de $k\times n$ que cumple:

\begin{equation*}
(g\circ f)(x) = (BA) x, \hspace{0.25cm} \text{para todo} \hspace{0.25cm} x \in \mathbb{R}^n .
\end{equation*}

Para comprender la definición, recordemos que la matriz $A$ con tamaño $m\times n$ está asociada a la función lineal $f: \mathbb{R}^n \longrightarrow \mathbb{R}^m$ y la matriz $B$ con tamaño $k\times m$ está asociada a la función lineal $g: \mathbb{R}^m \longrightarrow \mathbb{R}^k$. La conversión se da por la convención existente en el orden en que se realiza la composición de funciones (hacia atrás).

La definición no nos indica cómo realizar la multiplicación de matrices, para lo cual conviene que recordemos primeramente que las columnas de una matriz son las imágenes de la base canónica bajo la función asociada. Entonces si $A=(u_1, u_2, \cdots, u_n )$ donde $u_i = f(e_i ) \in \mathbb{R}^m$, entonces $(g \circ f)(e_i) =g(f(e_i)) = g(u_i) = Bu_i$. Por tanto

\begin{equation*}
BA = B (u_1,u_2, \cdots, u_n) = (Bu_1, Bu_2, \cdots, Bu_n).
\end{equation*}

Ahora, para obtener las columnas de la nueva matriz, usaremos la multiplicación de $B$ por los vectores columna de $A$, que es la multiplicación que ya definimos en la primer parte de esta entrada.

Expresaremos cada una de las entradas de la matriz $BA$, pero nos conviene ver a la matriz $B$ como una columna de vectores renglón, obteniendo

\[ BA = \left(\begin{array}{c}
w_{1}^{T}\\
w_{2}^{T}\\
\vdots\\
w_{k}^{T}
\end{array} \right) \left(\begin{array}{c}
u_1, u_2, \cdots, u_n
\end{array} \right) = \left(\begin{array}{cccc}
w_1 \cdot u_1 & w_1 \cdot u_2 & \cdots & w_1 \cdot u_n\\
w_2 \cdot u_1 & w_2 \cdot u_2 & \cdots & w_2 \cdot u_n\\
\vdots& \vdots & \ddots &\vdots\\
w_k \cdot u_1 & w_k \cdot u_2 & \cdots & w_k \cdot u_n
\end{array} \right), \]

Con esta fórmula podemos ver porqué es importante que el número de filas de $B$ (los transpuestos de los vectores $w_i$) debe ser el mismo número de columnas de $A$ (los vectores $u_j$) y comprender la mecánica para obtener las entradas de una matriz $k \times n$ a partir de una matriz $B$ con tamaño $k \times m$ y una matriz $A$ con tamaño $m \times n$.

Ejemplo. Sean

\[ B = \left(\begin{array}{ccc}
2&-1&0\\
1&3&1
\end{array} \right), \hspace{0.5cm} y \hspace{0.5cm} A= \left(\begin{array}{cccc}
1&0&2&4\\
-1&-2&1&0\\
3&5&6&1
\end{array} \right), \]

El producto $BA$ está bien definido porque $B$ es de tamaño $3\times 4$ y $A$ es de tamaño $2\times 3$, por tanto $BA$ es una matriz de $2\times 4$. Las filas de $B$ serán $w_1$ y $w_2$ y las columnas de $A$ serán $u_1, u_2, u_3$ y $u_4$, es decir:

Por tanto, $BA$ es la matriz:

\[ BA = \left(\begin{array}{cccc}
3&2&3&8\\
1&-1&11&5
\end{array} \right). \]

Ejemplo. Tomemos las matrices $A$ y $B$ del ejemplo anterior, observemos que no podemos realizar el producto $AB$, ya que el número de columnas de $B$ es $4$ y el número de filas de $A$ es $2$ y éstos números no coinciden.

En conclusión, el producto de matrices no es conmutativo, de hecho, aunque existan ambos $AB$ y $BA$, éstos no tienen porqué coincidir.

Ejemplo. Sean \[ A = \left(\begin{array}{cc}
7&0\\
-1&0
\end{array} \right), \hspace{0.5cm} y \hspace{0.5cm} B= \left(\begin{array}{cc}
0&2\\
0&-5
\end{array} \right), \]

podemos calcular $AB$ y $BA$, obtenemos

\[ AB = \left(\begin{array}{cc}
0&14\\
0&-2
\end{array} \right), \hspace{0.5cm} y \hspace{0.5cm} BA= \left(\begin{array}{cc}
-2&0\\
5&0
\end{array} \right), \]

y vemos que $AB \neq BA.$

Tarea moral

  1. Aunque $A$ y $B$ no sean las matrices cero (cuyas entradas son todas cero), su producto sí puede serlo. Den un ejemplo de 2 matrices tales que $AB=0$, pero $A\neq 0$ y $B \neq 0$, donde $0$ es la matriz cero.
  2. Demuestra que si $A, B, C$ son matrices $2\times 2$, entonces $A(B+C) = AB +AC$ y $(A+B)C= AC +BC$.
  3. Demuestra que si $A,B, C$ son matrices de $3\times 3$, entonces $A(BC) = (AB)C$, es decir que el producto de matrices es asociativo. Por tanto, podemos escribir al producto simplemente como $ABC$.
  4. Sean

\[ A = \left(\begin{array}{ccc}
3&-1&4\\
2&5&-2\\
1&3&2
\end{array} \right), \hspace{0.5cm} B= \left(\begin{array}{cc}
1&3\\
-1&4\\
5&2
\end{array} \right), \hspace{0.5cm} C= \left(\begin{array}{cccc}
1&3&-1&2\\
-2&4&1&5\\
5&2&-3&1
\end{array} \right), \]

Realizar el producto de matrices $AB, BC, AC$ y justificar en caso de que no pueda efectuarse alguno de los productos.

Más adelante

En la primera parte de la unidad 3 vimos distintos tipos de transformación de funciones. Para la segunda parte definimos matrices de tamaño $m\times n$, matrices asociadas a funciones lineales y en esta entrada vimos la operación del producto de matrices.

A continuación vamos a ver algunas de las familias de matrices más representativas que están asociadas a funciones. Nos serán familiares dichas funciones porque las trabajamos en la primera parte de esta Unidad 3.

Enlaces relacionados

  • Página principal del curso:
  • Entrada anterior del curso:
  • Siguiente entrada del curso:

Geometría Analítica I: Matrices y funciones lineales

Por Paola Berenice García Ramírez

Introducción

En la entrada anterior vimos funciones lineales, un concepto fundamental y que sin él no podríamos definir formalmente al conjunto de las matrices en $\mathbb{R}^n$. Requerimos ver cómo los conceptos de función lineal y el de matriz se entrelazan; para comprender porqué a menudo se trabaja más con matrices asociadas a una función lineal cuando hablamos de transformaciones.

Matrices

Previo a la definición de nuestro interés en esta sección debemos recordarles quiénes son lo vectores canónicos de $\mathbb{R}^n$, ya que vamos a trabajar con ellos en esta entrada. Los vectores canónicos son aquellos formados por sólo una entrada igual a 1 y el resto de entradas son todas cero. Se denotan por $e_i$, donde $i=\{1,2,\cdots,n\}$ y el subíndice $i$ nos indica la posición de la entrada con 1.

Ejemplo. Si nos encontramos en $\mathbb{R}^3$, sus vectores canónicos son:

\begin{align*}
e_{1}&=(1,0,0),& e_{2}&=(0,1,0),& e_{3}&=(0,0,1).
\end{align*}

A continuación tomaremos una función lineal $f : \mathbb{R}^2 \longrightarrow \mathbb{R}^2$, donde $f(e_{1})=(4,3)$ y $f(e_{2})=(-1,2)$. Entonces $f$ se escribe como:

\begin{align*}
f(x,y) &= x(4,3) + y(-1,2)\\
&= (4x – y, 3x+2).\\
\end{align*}

Vemos que hay una clara desventaja en la forma en que representamos a $f$, porque podemos confundirnos al ordenar y separar comas. Si ahora consideramos a los vectores como columnas en lugar de filas, el reordenamiento será de la siguiente manera:

\[ f \left(\begin{array}{c}
x\\
y
\end{array} \right) = x \left(\begin{array}{c}
4\\
3
\end{array} \right) + y \left(\begin{array}{c}
-1\\
2
\end{array} \right) = \left(\begin{array}{c}
4x-y\\
3x+2y
\end{array} \right)\]

con lo cual, incluso ya no ocupamos las comas y el orden es más fácil. En consecuencia debemos definir esta notación.

Definición 1. Una matriz de orden o dimensión de $m \times n$ es una tabla con elementos con $m$ filas y $n$ columnas. Usualmente las matrices se representan con letras mayúsculas como $A, B, \cdots, etc$.

Definición 2. Un elemento o entrada de la matriz se designa mediante $a_{ij}$, donde el primer subíndice $i$ indica la fila en que se encuentra el elemento, mientras que el segundo subíndice $j$ es la columna en que lo encontramos.

Entonces una matriz de $m\times n$ es de la forma:

\[ A = \left(\begin{array}{cccc}
a_{11}&a_{12}&\cdots&a_{1n}\\
a_{21}&a_{22}&\cdots&a_{2n}\\
\vdots&\vdots&\ddots&\vdots\\
a_{m1}&a_{m2}&\cdots&a_{mn}
\end{array} \right).\]

Ejemplo. Como ejemplos de matrices tenemos a

\[ B= \left(\begin{array}{ccc}
2&3&4\\
6&-5&3\\
\end{array} \right), \hspace{1.5cm} C= \left(\begin{array}{ccc}
1&4&6\\
2&3&11\\
-7&4&8
\end{array} \right),\]

donde la matriz $B$ es de dimensión $2\times 3$, ya que tiene 2 filas y 3 columnas; mientras que $C$ es de dimensión $3\times 3$, con 3 filas y 3 columnas.

Deseamos que conozcan otra forma de definir a una matriz $A$ que nos será muy útil. A una matriz $A$ podemos verla como un conjunto ordenado de $n$ vectores en $\mathbb{R}^n$; esos vectores serán sus columnas, y entonces puede escribirse como:

\begin{equation*}
A = (u_1,u_2, \cdots, u_n),
\end{equation*}

donde

\[ u_i = \left(\begin{array}{c}
a_{1i}\\
a_{2i}\\
\vdots\\
a_{mi}
\end{array} \right) \in \mathbb{R}^m, \]

con $i=1,2,\cdots,n$.

Como escribiremos a los vectores en $\mathbb{R}^n$ como vectores columna y no como filas, entonces debemos tener otra notación que justifique dicho cambio.

Transpuesta de una matriz

Definición 3. La transpuesta de una matriz $A$ de dimensión $m \times n$ es una matriz $B$ de dimensión $n \times m$, que obtenemos después de intercambiar filas y columnas. De manera que los elementos cumplen

\begin{equation*}
b_{ij} = a_{ji},
\end{equation*}

donde $i=1,2,\cdots,m$ y $j=1,2,\cdots,n$. En general, se le denota a la transpuesta de $A$ por $A^T$.

Ejemplo. Vamos a escribir de nuevo las matrices del ejemplo anterior con sus respectivas transpuestas. Para la matriz $B$

\[ B= \left(\begin{array}{ccc}
2&3&4\\
6&-5&3\\
\end{array} \right),\]

su transpuesta $B^T$ es

\[ B^T = \left(\begin{array}{cc}
2&6\\
3&-5\\
4&3
\end{array} \right). \]

Y para la matriz $C$

\[ C= \left(\begin{array}{ccc}
1&4&6\\
2&3&11\\
-7&4&8
\end{array} \right),\]

su transpuesta $C^T$ es

\[C^T = \left(\begin{array}{ccc}
1&2&-7\\
4&3&4\\
6&11&8
\end{array} \right).\]

También nos falta definir otro concepto que nos será de utilidad con la notación que estamos construyendo.

Vectores columna

Definición 4. Un vector columna de orden $m$ es una ordenación de elementos en $m$ filas y que tiene una columna:

\[ a = \left(\begin{array}{c}
a_{1}\\
a_{2}\\
\vdots\\
a_{m}
\end{array} \right) \in \mathbb{R}^m, \]

Un vector fila de orden $n$ es una ordenación de elementos e $n$ columnas y que tiene una fila:

\begin{equation*}
c = (c_1,c_2, \cdots, c_n).
\end{equation*}

A este tipo de vectores como vemos, se les designa por una letra minúscula y de hecho la transpuesta de un vector fila es un vector columna y viceversa.

Entonces los vectores fila son los transpuestos de los vectores columna denotándolos por $x^T = (x_1,x_2, \cdots, x_n)$ o bien $x = (x_1,x_2, \cdots, x_n)^T$. Entonces, la notación que hasta ahora hemos presentado, la podemos ver reflejada con el siguiente ejemplo.

Ejemplo. Si tenemos que para $\mathbb{R}^2$ existen los dos vectores canónicos $e_1 = (1,0)$ y $e_2 = (0,1)$ y queremos representar los vectores como vectores columna, procedemos a escribir la notación de transpuesta previamente; es decir $e_1 = (1,0)^T$ y $e_2 = (0,1)^T$. Con ello podemos trabajar ahora los vectores como columnas:

\[ e_1= \left(\begin{array}{c}
1\\
0
\end{array} \right), \hspace{0.5cm} y \hspace{0.5cm} e_2 = \left(\begin{array}{c}
0\\
1
\end{array} \right).\]

Ahora tenemos las herramientas con las que podemos enlazar los conceptos de matriz con el de una función lineal; así que veamos a ver una definición muy importante para ello.

Matriz de una función lineal

Para continuar debemos observar que una matriz de tamaño $m\times n$ contiene la información de una función lineal de $\mathbb{R}^n$ en $\mathbb{R}^m$, invirtiendo el orden debido a la convención que existe debido al orden en que se realiza la composición de funciones.

Definición 5. A la matriz $A$ se le asocia la función lineal $f: \mathbb{R}^n \mapsto \mathbb{R}^m$ que manda al vector canónico $e_i \in \mathbb{R}^n$ en su i-ésima columna, es decir, $f(e_i) = u_i$, para $i=,2,\cdots,n$.

Ejemplo. Si recordamos a la función del inicio de esta entrada de $\mathbb{R}^2$ en $\mathbb{R}^2$ donde

\[ f(x) = \left(\begin{array}{c}
4x-y\\
3x+2y
\end{array} \right),\]

bueno pues a la función lineal de $\mathbb{R}^2$ en $\mathbb{R}^2$ se le asocia la matriz

\[ f(x) = \left(\begin{array}{cc}
4&-1\\
3&2
\end{array} \right).\]

Observemos bien cómo la variable $x$ está asociada a la primer columna y la variable $y$ a la segunda columna.

Tarea moral

  1. Para el primer ejercicio vamos a dar una definición:

Definición. La suma de dos matrices $A$, $B$, ambas de dimensión $m \times n$, se llama matriz suma de $A$ y $B$ y se denota $C=A+B$ a la matriz $C$ de dimensión $m \times n$ tal que

\begin{equation*}
a_{ij} = a_{ij} + b_{ij}, \hspace{0.3cm} i=1,2,\cdots,m; \hspace{0.2cm} j=1,2,\cdots,n.
\end{equation*}

Calcular la suma de $A+B$, $B+C$ y $A+C$ con las matrices:

\[ A = \left(\begin{array}{cc}
3&8\\
4&-2
\end{array} \right), \hspace{1.5cm} B= \left(\begin{array}{cc}
1&-1\\
3&-2
\end{array} \right), \hspace{1.5cm} C= \left(\begin{array}{cc}
2&-5\\
6&4
\end{array} \right).\]

2. De las siguientes matrices , calcular sus transpuestas:

\[ D = \left(\begin{array}{cc}
1&3\\
5&7\\
9&11\\
-1&4
\end{array} \right), \hspace{1.5cm} B= \left(\begin{array}{c}
-1\\
5\\
3\\
2
\end{array} \right), \hspace{1.5cm} C= \left(\begin{array}{ccc}
1&3&-5\\
4&7&-9
\end{array} \right). \]

3. De la siguiente función $g: \mathbb{R}^2 \longrightarrow \mathbb{R}^2$ dada por:

\[ g(x) = \left(\begin{array}{c}
6x-8y\\
-2x+81y
\end{array} \right),\]

¿Cuál es la matriz asociada a la función lineal?.

Más adelante

Ahora que definimos a un vector y a una matriz de una función lineal, podemos proceder a definir su producto. En la siguiente entrada primero veremos cómo se realiza el producto de una matriz con un vector y después definir el producto de matrices cualesquiera. Además se darán cuenta de la fuerte relación que hay entre la composición de funciones y el producto de funciones.

Enlaces relacionados

  • Página principal del curso:
  • Entrada anterior del curso:
  • Siguiente entrada del curso: