Archivo de la etiqueta: producto de matrices

Cálculo Diferencial e Integral III: Regla de la cadena para campos vectoriales

Por Alejandro Antonio Estrada Franco

Introducción

Tenemos ya la definición de diferenciabilidad, y su versión manejable: la matriz jacobiana. Seguiremos construyendo conceptos y herramientas del análisis de los campos vectoriales muy importantes e interesantes. A continuación, enunciaremos una nueva versión de la regla de la cadena, que nos permitirá calcular las diferenciales de composiciones de campos vectoriales entre espacios de dimensión arbitraria. Esta regla tiene numerosas aplicaciones y es sorprendentemente fácil de enunciar en términos de producto de matrices.

Primeras ideas hacia la regla de la cadena

La situación típica de regla de la cadena es considerar dos funciones diferenciables que se puedan componer. A partir de ahí, buscamos ver si la composición también es diferenciable y, en ese caso, intentamos dar la derivada de la composición en términos de las derivadas de las funciones. Veamos qué pasa en campos vectoriales.

Pensemos en $f:S_{f}\subseteq \mathbb{R}^{m}\rightarrow \mathbb{R}^{n}$, $g:S_{g}\subseteq \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}$ y en su composición $h=f\circ g$ definida sobre alguna vecindad $V\subseteq S_g$ de $\bar{a}$ y tal que $g(V)\subseteq S_f$. Pensemos que $g$ es diferenciable en $\bar{a}$ con derivada $G_\bar{a}$ y que $f$ es diferenciable en $\bar{b}:=g(\bar{a})$ con derivada $F_\bar{b}$.

Exploremos la diferenciabilidad de la composición $h$ en el punto $\bar{a}$. Para ello, tomemos un $\bar{y}\in \mathbb{R}^{l}$ tal que $\bar{a}+\bar{y}\in V$ y consideremos la siguiente expresión:

\begin{align*}
h(\bar{a}+\bar{y})-h(\bar{a})=f(g(\bar{a}+\bar{y}))-f(g(\bar{a})).
\end{align*}

Tomando $\bar{v}=g(\bar{a}+\bar{y})-g(\bar{a})$, tenemos $\bar{b}+\bar{v}=g(\bar{a})+\bar{v}=g(\bar{a}+\bar{y})$. De esta forma,

\begin{align*}
f(g(\bar{a}+\bar{y}))-f(g(\bar{a}))=f(\bar{b}+\bar{v})-f(\bar{b}).
\end{align*}

Por la diferenciabilidad de $g$ en $\bar{a}$, tenemos que podemos escribir

$$\bar{v}=G_{\bar{a}}(\bar{y})+||\bar{y}||E_{g}(\bar{a};\bar{y}),$$ con $\lim\limits_{\bar{y}\to \bar{0}}E_{g}(\bar{a};\bar{y})=0$.

Usando la diferenciabilidad de $f$ en $\bar{b}$, y la linealidad de su derivada $F_\bar{b}$, tenemos entonces que:

\begin{align*}
f(\bar{b}+\bar{v})-f(\bar{b})&=F_\bar{b}(\bar{v})+||\bar{v}||E_f(\bar{b};\bar{v})\\
&=F_\bar{b}(G_{\bar{a}}(\bar{y})+||\bar{y}||E_{g}(\bar{a};\bar{y}))+||\bar{v}||E_f(\bar{b};\bar{v})\\
&=(F_{b}\circ G_{\bar{a}})(\bar{y})+||\bar{y}||(F_{\bar{b}}\circ E_{g}(\bar{a};\bar{y}))+||\bar{v}||E_{f}(\bar{b};\bar{v}),
\end{align*}

con $\lim\limits_{\bar{y}\to \bar{0}}E_{f}(\bar{b};\bar{v})=0$.

Concatenando nuestras igualdades, podemos reescribir esto como

\[ h(\bar{a}+\bar{y})-h(\bar{a})=(F_{\bar{b}}\circ G_{\bar{a}})(\bar{y})+||\bar{y}||E_{h}(\bar{a};\bar{y}),\] en donde hemos definido

\[ E_{h}(\bar{a};\bar{y})=(F_{\bar{b}}\circ E_{g})(\bar{a};\bar{y})+\frac{||\bar{v}||}{||\bar{y}||}E_{f}(\bar{b};\bar{v}).\] Si logramos demostrar que $\lim\limits_{\bar{y}\to \bar{0}}E_{h}(\bar{a};\bar{y})=0$, entonces tendremos la diferenciabilidad buscada, así como la derivada que queremos. Dejemos esto en pausa para enunciar y demostrar un lema auxiliar.

Un lema para acotar la norma de la derivada en un punto

Probemos el siguiente resultado.

Lema. Sea $\phi:S\subseteq \mathbb{R}^l\to \mathbb{R}^m$ un campo vectorial diferenciable en un punto $\bar{c}\in S$ y $T_\bar{c}$ su derivada. Entonces, para todo $\bar{v}\in \mathbb{R}^{l}$, se tiene:

$$||T_{\bar{c}}(\bar{v})||\leq \sum_{k=1}^{m}||\triangledown \phi_{k}(\bar{c})||||\bar{v}||.$$

Donde $\phi(\bar{v})=\left( \phi_{1}(\bar{v}),\dots ,\phi_{m}(\bar{v})\right)$

Demostración. Procedemos con desigualdad del triángulo como sigue:

\begin{align*}
||T_{\bar{c}}(\bar{v})||&=\left|\left|\sum_{k=1}^{m}(\triangledown \phi_{k}(\bar{c})\cdot \bar{v})e_{k}\right|\right|\\
&\leq \sum_{k=1}^{m}||(\triangledown \phi_{k}(\bar{c})\cdot \bar{v})e_k||\\
&=\sum_{k=1}^{m}|\triangledown \phi_{k}(\bar{c})\cdot \bar{v}|
\end{align*}

y luego usamos la desigualdad de Cauchy-Schwarz en cada sumando para continuar como sigue

\begin{align*}
\leq \sum_{k=1}^{m}||\triangledown \phi_{k}(\bar{c})||||\bar{v}||,
\end{align*}

que es lo que buscábamos.

$\square$

Conclusión del análisis para regla de la cadena

Retomando el análisis para $E_{h}(\bar{a};\bar{y})$, dividamos el límite en los dos sumandos.

Primer sumando:

Como $F_{\bar{b}}$ es lineal, entonces es continua. También, sabemos que $\lim\limits_{\bar{y}\to \bar{0}}E_{g}(\bar{a};\bar{y})=0$. Así,

\begin{align*}
\lim\limits_{\bar{y}\to \bar{0}}(F_{\bar{b}}\circ E_{g})(\bar{a};\bar{y})&=F_{\bar{b}}\left(\lim\limits_{\bar{y}\to \bar{0}} E_{g}(\bar{a};\bar{y})\right)\\
&=F_\bar{b}(\bar{0})\\
&=0.
\end{align*}

Segundo sumando:

Retomando la definición de $\bar{v}$, aplicando desigualdad del triángulo y el lema que demostramos,

\begin{align*}
||\bar{v}||&=||G_{\bar{a}}(\bar{y})+||\bar{y}||E_{g}(\bar{a};\bar{y})||\\
&\leq ||G_{\bar{a}}(\bar{y})||+||\bar{y}||||E_{g}(\bar{a};\bar{y})||\\
&\leq \left(\sum_{k=1}^{m}||\triangledown g_{k}(\bar{a})||||\bar{y}||\right)+||\bar{y}||||E_{g}(\bar{a};\bar{y})||.
\end{align*}

Dividiendo ambos lados entre $||\bar{y}||$, obtenemos entonces que

$$ \frac{||\bar{v}||}{||\bar{y}||}\leq \sum_{k=1}^{m}||\triangledown g_{k}(\bar{a})||+||E_{g}(\bar{a};\bar{y})||. $$

De aquí se ve que conforme $\bar{y}\to \bar{0}$, la expresión $\frac{||\bar{v}||}{||\bar{y}||}$ está acotada superiormente por la constante $A:=\sum_{k=1}^{m}||\triangledown g_{k}(\bar{a})||.$ Además, si $\bar{y}\to \bar{0}$, entonces $\bar{v}\to \bar{0}$. Así,

\[0\leq \lim\limits_{\bar{y}\to \bar{0}}\frac{||\bar{v}||}{||\bar{y}||}E_{f}(\bar{b},\bar{v})\leq A\lim\limits_{\bar{y}\to \bar{0}}E_{f}(\bar{b},\bar{v})=0 \] pues $\lim\limits_{\bar{y}\to \bar{0}}\bar{v}=\bar{0}$ implica $\lim\limits_{\bar{y}\to \bar{0}}E_{f}(\bar{b},\bar{v})$.

Hemos concluido que $$h(\bar{a}+\bar{y})-h(\bar{a})=(F_{\bar{b}}\circ G_{\bar{a}})(\bar{y})+||\bar{y}||E_{h}(\bar{a};\bar{y}),$$

con $\lim_{\bar{y}\to \bar{0}} E_h(\bar{a};\bar{y})=0$. Esto precisamente es la definición de $h=f\circ g$ es diferenciable en $\bar{a}$, y su derivada en $\bar{a}$ es la transformación lineal dada por la composición de transformaciones lineales $F_\bar{b}\circ G_\bar{a}$.

Recapitulación de la regla de la cadena

Recapitulamos toda la discusión anterior en el siguiente teorema.

Teorema (Regla de la cadena). Sean $f:S_{f}\subseteq \mathbb{R}^{m}\rightarrow \mathbb{R}^{n}$, $g:S_{g}\subseteq \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}$ campos vectoriales. Supongamos que la composición $f\circ g$ está definida en todo un abierto $S\subseteq S_g$. Supongamos que $g$ es diferenciable en un punto $\bar{a}\in S$ con derivada $G_\bar{a}$ y $f$ es diferenciable en $\bar{b}:=g(\bar{a})$ con derivada $F_\bar{b}$. Entonces, $h$ es diferenciable en $\bar{a}$ con derivada $F_\bar{b}\circ G_\bar{a}$.

Dado que la representación matricial de la composición de dos transformaciones lineales es igual al producto de estas, podemos reescribir esto en términos de las matrices jacobianas como el siguiente producto matricial: $$Dh(\bar{a})=Df(\bar{b})Dg(\bar{a}).$$

Usos de la regla de la cadena

Hagamos algunos ejemplos de uso de regla de la cadena. En el primer ejemplo que veremos a continuación, la función $f$ es un campo escalar.

Ejemplo 1. Tomemos $g:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ campo vectorial, y $f:U\subseteq \mathbb{R}^{m}\rightarrow \mathbb{R}$ campo escalar. Consideremos $h=f\circ g$ y supongamos que se satisfacen las hipótesis del teorema de la regla de la cadena. Tenemos: \[ Df(\bar{b})=\begin{pmatrix} \frac{\partial f}{\partial x_{1}}(\bar{b}) & \dots & \frac{\partial f}{\partial x_{m}}(\bar{b}) \end{pmatrix} \] y \[ Dg(\bar{a})=\begin{pmatrix}\frac{\partial g_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial g_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial g_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial g_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix} . \]

Por la regla de la cadena tenemos $Dh(\bar{a})=Df(\bar{b})Dg(\bar{a})$ esto implica \[ \begin{pmatrix} \frac{\partial h}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial h}{\partial x_{n}}(\bar{a}) \end{pmatrix}=\begin{pmatrix} \frac{\partial f}{\partial x_{1}}(\bar{b}) & \dots & \frac{\partial f}{\partial x_{m}}(\bar{b}) \end{pmatrix}\begin{pmatrix} \frac{\partial g_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial g_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial g_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial g_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}. \]

Así \[ \begin{pmatrix} \frac{\partial h}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial h}{\partial x_{n}}(\bar{a}) \end{pmatrix}= \begin{pmatrix} \sum_{i=1}^{m}\frac{\partial f}{\partial x_{i}}(\bar{b})\frac{\partial g_{i}}{\partial x_{1}}(\bar{a}) & \dots & \sum_{i=1}^{m}\frac{\partial f}{\partial x_{i}}(\bar{b})\frac{\partial g_{i}}{\partial x_{n}}(\bar{a}) \end{pmatrix}. \]

En otras palabras, tenemos las siguientes ecuaciones para calcular cada derivada parcial de $h$: \[ \frac{\partial h}{\partial x_{j}}(\bar{a})=\sum_{i=1}^{m}\frac{\partial f}{\partial x_{i}}(\bar{b})\frac{\partial g_{i}}{\partial x_{j}}(\bar{a}).\]

$\triangle$

Ejemplo 2. Sean $\bar{a}=(s,t)$ y $\bar{b}=(x,y)$ puntos en $\mathbb{R}^{2}$. Pensemos que las entradas de $\bar{b}$ están dadas en función de las entradas de $\bar{a}$ mediante las ecuaciones $x=g_{1}(s,t)$ y $y=g_{2}(s,t)$. Pensemos que tenemos un campo escalar $f:\mathbb{R}^2\to \mathbb{R}$, y definimos $h:\mathbb{R}^2\to \mathbb{R}$ mediante $$h(s,t)=f(g_{1}(s,t),g_{2}(s,t)).$$

Por el ejemplo anterior \[ \frac{\partial h}{\partial s}=\frac{\partial f}{\partial x}\frac{\partial x}{\partial s}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial s} \] y \[ \frac{\partial h}{\partial t}=\frac{\partial f}{\partial x}\frac{\partial x}{\partial t}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial t}. \] Como tarea moral queda que reflexiones qué significa $\partial x$ cuando aparece en el «numerador» y qué significa cuando aparece en el «denominador».

$\triangle$

Ejemplo 3. Para un campo escalar $f(x,y)$ consideremos un cambio de coordenadas $x=rcos\theta$, $y=rsen\theta$ es decir tomemos la función $\phi (r,\theta)=f(rcos\theta ,rsen\theta )$.

Por el ejemplo anterior tenemos \[ \frac{\partial \phi }{\partial r}=\frac{\partial f}{\partial x}\frac{\partial x}{\partial r}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial r} \] y \[ \frac{\partial \phi }{\partial \theta }=\frac{\partial f}{\partial x}\frac{\partial x}{\partial \theta }+\frac{\partial f}{\partial y}\frac{\partial y}{\partial \theta } \] donde, haciendo las derivadas parciales tenemos: \[ \frac{\partial x}{\partial r}=cos\theta ,\hspace{1cm}\frac{\partial y}{\partial r}=sen\theta \] y \[ \frac{\partial x}{\partial \theta }=-rsen\theta,\hspace{1cm}\frac{\partial y}{\partial \theta }=-rcos\theta. \] Finalmente obtenemos: \[ \frac{\partial \phi }{\partial r }=\frac{\partial f }{\partial x }cos\theta +\frac{\partial f }{\partial y }sen\theta \] y \[ \frac{\partial \phi }{\partial \theta }=-\frac{\partial f }{\partial x }rsen\theta +\frac{\partial f }{\partial y }rcos\theta \] que son las derivadas parciales del cambio de coordenadas en el dominio de $f$.

$\triangle$

Mas adelante…

En la siguiente entrada comenzaremos a desarrollar la teoría para los importantes teoremas de la función inversa e implícita si tienes bien estudiada esta sección disfrutaras mucho de las siguientes.

Tarea moral

  1. Considera el campo escalar $F(x,y,z)=x^{2}+y sen(z)$. Imagina que $x,y,z$ están dados por valores $u$ y $v$ mediante las condiciones $x=u+v$, $y=vu$, $z=u$. Calcula $\frac{\partial F}{\partial u}$, $\frac{\partial F}{\partial v}$.
  2. Sea $g(x,y,z)=(xy,x)$, y $f(x,y)=(2x,xy^{2},y)$. Encuentra la matriz jacobiana del campo vectorial $g\circ f$. Encuentra también la matriz jacobiana del campo vectorial $f\circ g$.
  3. En la demostración del lema que dimos, hay un paso que no justificamos: el primero. Convéncete de que es cierto repasando el contenido de la entrada anterior Diferenciabilidad.
  4. Imagina que sabemos que la función $f:\mathbb{R}^n\to \mathbb{R}^n$ es invertible y derivable en $\bar{a}$ con derivada $T_\bar{a}$. Imagina que también sabemos que su inversa $f^{-1}$ es derivable en $\bar{b}=f(\bar{a})$ con derivada $S_\bar{b}$. De acuerdo a la regla de la cadena, ¿Qué podemos decir de $T_\bar{a}\circ S_\bar{b}$? En otras palabras, ¿Cómo son las matrices jacobianas entre sí, en términos de álgebra lineal?
  5. Reflexiona en cómo todas las reglas de la cadena que hemos estudiado hasta ahora son un corolario de la regla de la cadena de esta entrada.

Entradas relacionadas

Cálculo Diferencial e Integral III: Determinantes

Por Alejandro Antonio Estrada Franco

Introducción

El determinante de una matriz cuadrada es un número asociado a esta. Como veremos, los determinantes nos proporcionarán información de interés para varios problemas que se pueden poner en términos de matrices.

Recuerda que los temas de esta unidad son tratados a manera de repaso, por lo cual no nos detenemos en detallar las demostraciones, ni en extender las exposiciones de las definiciones. Para mayor detalle, te remitimos al curso de Álgebra Lineal I, específicamente comenzando con la entrada Transformaciones multilineales. Aún así, es recomendable que revises estas notas en el curso de Cálculo Diferencial e Integral III, pues sintetizamos los temas de tal manera que recuperamos los conceptos relevantes para el cálculo de varias variables. Así mismo, en ocasiones, abordamos las definiciones y resultados de manera un poco distinta, y es muy instructivo seguir los mismos conceptos abordados con un sabor ligeramente distinto.

Permutaciones

Recordemos que en la entrada anterior definimos para cada $n\in \mathbb{N}$ el conjunto $[n]=\{1, 2,\ldots, n\}$.

Definición. Una permutación del conjunto $[n]$ es una función biyectiva $\sigma :[n]\rightarrow [n]$. Una forma de escribir a $\sigma$ de manera más explícita es la siguiente:
\[ \sigma = \begin{pmatrix} 1 & 2 & \dots & n \\
\sigma(1) & \sigma(2) & \dots & \sigma(n) \end{pmatrix} \]

Podemos pensar también a una permutación como un reacomodo de los números $1, 2, …, n$. Pensado de esta manera, escribimos $\sigma =\sigma(1) \sigma(2)\dots \sigma(n)$.

El conjunto de todas las permutaciones del conjunto $[n]$ se denota como $S_n$. Una observación interesante es que $S_{n}$ tiene $n!$ elementos.

Definición. Para $\sigma \in S_{n}$, una inversión en $\sigma$ consiste en un par $(i,k)\in [n]\times [n]$ tal que $i>k$ pero $i$ precede a $k$ en $\sigma$ cuando se considera $\sigma$ como una lista. Diremos que $\sigma$ es permutación par o impar según tenga un número par o impar de inversiones.

Ejemplo. Consideremos $\sigma=12354$ permutación en $[5]$. Tenemos que $(5,4)$ es una inversión en $\sigma$ pues $5>4$ pero en la permutación $5$ precede a $4$. Al tener $\sigma$ una sola inversión, es una permutación impar.

$\triangle$

Definición. El signo de $\sigma$, denotado $\text{sign}(\sigma)$ se define como:
\[
\text{sign}(\sigma )= \begin{cases} 1 & \text{si $\sigma$ es par} \\
-1 & \text{si $\sigma$ es impar.}\end{cases}
\]

Sea $A\in M_{n}(\mathbb{R})$. Pensemos en un producto de $n$ entradas de $A$ tomadas de tal manera que se eligió una y sólo una de cada fila y columna. Podemos reordenar los números para poner en orden la fila de la que tomamos cada uno, y escribir el producto como
\begin{equation}
a_{1j_{1}} a_{2j_{2}}\dots a_{nj_{n}}.
\label{eq:producto}
\end{equation}

Así, $a_{kj_{k}}$ nos dice que en la fila $k$ tomamos la entrada de la columna $j$. Como se eligió una y sólo una entrada por columna, tenemos que $j_1,\ldots,j_n$ es una permutación de $[n]$. Y viceversa, cada permutación $\sigma =j_{1}\dots j_{n} \in S_{n}$ determina un producto como en \eqref{eq:producto}. Por ello la matriz $A$ nos entrega $n!$ productos con esta característica.

Determinantes en términos de permutaciones

A partir de las permutaciones podemos definir a los determinantes.

Definición. El determinante de la matriz $A$, denotado por $\det(A)$, se define como:
\[
\det(A)=\sum_{\sigma \in S_{n}} \left(\text{sign}(\sigma)\prod_{i=1}^{n} a_{i\sigma (i)}\right)
\]
donde
\[
\sigma = \begin{pmatrix} 1 & 2 & \dots & n \\
\sigma (1) & \sigma (2) & \dots & \sigma (n)
\end{pmatrix}
\]

Ejemplo. Para la matriz \[ A= \begin{pmatrix} 0 & 2 & 1 \\ 1 & 2 & 0 \\ 3 & 0 & 1 \end{pmatrix} \] tomemos en cuenta las permutaciones del conjunto $[3]$ las cuales son: \[ \begin{pmatrix} 1 & 2 & 3 \\ 1 & 2 & 3 \end{pmatrix}, \begin{pmatrix} 1 & 2 & 3 \\ 1 & 3 & 2 \end{pmatrix}, \begin{pmatrix} 1 & 2 & 3 \\ 2 & 1 & 3 \end{pmatrix}, \begin{pmatrix} 1 & 2 & 3 \\ 2 & 3 & 1 \end{pmatrix}, \begin{pmatrix} 1 & 2 & 3 \\ 3 & 1 & 2 \end{pmatrix}, \begin{pmatrix} 1 & 2 & 3 \\ 3 & 2 & 1 \end{pmatrix} \]

De acuerdo con la definición de determinante, tenemos:

\begin{align*}
\det(A)=&(1)a_{11}a_{22}a_{33}+(-1)a_{11}a_{23}a_{32}+(-1)a_{12}a_{21}a_{33}+\\
&(1)a_{12}a_{23}a_{31}+(1)a_{13}a_{22}a_{31}+(-1)a_{13}a_{21}a_{32}\\
=&0\cdot 2\cdot 1+(-1)0\cdot 0\cdot 0+(-1)2\cdot 1\cdot 1+\\
&(1)2\cdot 0\cdot 3+(1)1\cdot 2\cdot 3+(-1)1\cdot 1\cdot 0\\
=&4.
\end{align*}

$\triangle$

Propiedades de los determinantes

Veamos algunas de las propiedades que tienen los determinantes. Aprovecharemos para introducir algunas matrices especiales.

Definición. La matriz identidad $I\in M_{n}(\mathbb{R})$ es aquella que cumple que en las entradas de la forma $(i,i)$ son iguales a 1 y el resto de las entradas son iguales a 0.

Definición. Diremos que una matriz $A\in M_n(\mathbb{R})$ es una matriz triangular superior si cumple $a_{ij}=0$ para $i>j$. La llamaremos triangular inferior si cumple $a_{ij}=0$ para $i<j$. Finalmente, diremos que es diagonal si cumple $a_{ij}=0$ para $i\neq j$ (en otras palabras, si simultáneamente es triangular superior e inferior).

Definición. Sea $A\in M_{m,n}(\mathbb{R})$. La transpuesta de la matriz $A$, denotada por $A^t$, es la matriz en $M_{n,m}(\mathbb{R})$ cuyas entradas están definidas como $(a^{t})_{ij} =a_{ji}$.

El siguiente resultado enuncia algunas propiedades que cumplen los determinantes de la matriz identidad, de matrices transpuestas, y de matrices triangulares superiores, triangulares inferiores y diagonales.

Proposición. Sea $A\in M_{n}(\mathbb{R})$. Se cumple todo lo siguiente.

  1. $\det(A)=\det(A^{t})$.
  2. Si $A$ tiene dos filas iguales $\det(A)=0$.
  3. Si $A$ tiene dos columnas iguales $\det(A)=0$.
  4. Si $A$ es triangular superior, triangular inferior, o diagonal, $\det(A)=\prod_{i=1}^{n} a_{ii}$.
  5. $\det(I_n)=1$.

Demostración.

  1. Notemos que (tarea moral) $\text{sign}( \sigma )= \text{sign}( \sigma ^{-1})$, así tenemos que
    \begin{align*}
    \det(A^{t})&=\sum_{\sigma \in S_{n}} \text{sign}(\sigma)a_{\sigma (1) 1}\dots a_{\sigma (n) n}\\
    &=\sum_{\sigma \in S_{n}} \text{sign}(\sigma ^{-1})a_{1\sigma (1)}\dots a_{n\sigma (n)}\\
    &= \sum_{\sigma \in S_{n}} \text{sign}(\sigma)a_{1\sigma (1)}\dots a_{n\sigma (n)}\\&= \det(A).
    \end{align*}
  2. Si tenemos dos filas iguales, en cada producto $a_{1\sigma (1)}\cdots a_{n\sigma (n)}$ tenemos dos factores de la misma fila, por tanto para cada producto tenemos otro igual en la suma solo que con signo contrario (signo de la permutación correspondiente); al hacer la suma estos sumandos se anularán por pares resultando en cero.
  3. Mismo argumento que en el inciso anterior.
  4. Si tenemos una matriz triangular, ya sea superior, o inferior $\prod_{i=1}^{n} a_{i\sigma (i)}\neq 0$ sólo cuando $\sigma(i)=i$ ya que en otro caso este producto siempre tendrá algún factor cero.
  5. Es un corolario de la propiedad anterior, pues la matriz identidad es una matriz diagonal con unos en la diagonal.

$\square$

Otra propiedad muy importante del determinante es que es multiplicativo. A continuación enunciamos el resultado, y referimos al lector a la entrada Propiedades de determinantes para una demostración.

Teorema. Sean $A$ y $B$ matrices en $M_n(\mathbb{R})$. Se tiene que $$\det(AB)=\det(A)\det(B).$$

Mas adelante

En la siguiente entrada revisaremos la teoría de sistemas de ecuaciones lineales. Comenzaremos definiéndolos, y entendiéndolos a partir de las operaciones elementales que definimos en la entrada anterior. Hablaremos un poco de cómo saber cuántas soluciones tiene un sistema de ecuaciones. Así mismo veremos que en ciertos sistemas de ecuaciones lineales, podemos asociar una matriz cuyo determinante proporciona información relevante para su solución.

Un poco más adelante también hablaremos de diagonalizar matrices. A grandes rasgos, esto consiste en encontrar representaciones más sencillas para una matriz, pero que sigan compartiendo muchas propiedades con la matriz original. El determinante jugará de nuevo un papel muy importante en esta tarea.

Tarea moral

  1. Sea $\sigma \in S_{n}$. Muestra que su inversa, $\sigma ^{ -1}$ también es una permutación. Después, muestra que
    \[\text{sign}(\sigma)= \text{sign}(\sigma ^{-1}).\]
    Sugerencia: no es difícil hacerlo por inducción sobre el número de inversiones.
  2. Encuentra explícitamente cuántas inversiones tiene la permutación $\sigma$ en $S_n$ dada por $S(j)=n-j+1$.
  3. Escribe con más detalle la demostración de que una matriz y su transpuesta tienen el mismo determinante. Puedes pensarlo como sigue. Toma \[ \det(A)=\sum_{\sigma \in S_{n}} \text{sign}(\sigma)a_{1\sigma(1)}\cdot \dots \cdot a_{n\sigma (n)}.\] Supón que las filas $s$ y $t$ son iguales; para cada factor argumenta por qué \[ a_{1\sigma (1)}\cdots a_{s\sigma (s)} \cdots a_{t\sigma (t)}\cdots a_{n\sigma (n)} \] el factor \[ a_{1\sigma (1)}\cdots a_{t\sigma (t)}\cdots a_{s\sigma (s)} \cdots a_{n\sigma (n)} \] donde permutamos el $t$-ésimo factor con el $s$-ésimo también está en la suma, y por qué ambos son de signos contrarios.
  4. Demuestra que el producto de una matriz triangular superior con otra matriz triangular superior también es una matriz triangular superior. Enuncia y demuestra lo análogo para matrices triangulares inferiores, y para matrices diagonales.
  5. Argumenta con más detalle por qué el determinante de una matriz triangular superior es el produto de las entradas en su diagonal. Específicamente, detalla el argumento de las notas que dice que «en otro caso, este producto siempre tendrá algún factor cero».

Entradas relacionadas

Álgebra Lineal II: Aplicaciones del teorema de Cayley-Hamilton

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores ya enunciamos y demostramos el teorema de Cayley-Hamilton. Veremos ahora algunas aplicaciones de este resultado.

Encontrar inversas de matrices

El teorema de Cayley-Hamilton nos puede ayudar a encontrar la inversa de una matriz haciendo únicamente combinaciones lineales de potencias de la matriz. Procedemos como sigue. Supongamos que una matriz $A$ en $M_n(F)$ tiene polinomio característico $$\chi_A(x)=x^n+a_{n-1}x^{n-1}+\ldots+a_1x+a_0.$$ Como $a_0=\det(A)$, si $a_0=0$ entonces la matriz no es invertible. Supongamos entonces que $a_0\neq 0$. Por el teorema de Cayley-Hamilton tenemos que $$A^n+a_{n-1}A^{n-1}+\ldots+a_1A+a_0I_n=O_n.$$ De aquí podemos despejar la matriz identidad como sigue:

\begin{align*}
I_n&=-\frac{1}{a_0}\left( A^n+a_{n-1}A^{n-1}+\ldots+a_1A \right)\\
&=-\frac{1}{a_0}\left(A^{n-1}+a_{n-1}A^{n-2}+\ldots+a_1 I\right) A.
\end{align*}

Estos cálculos muestran que la inversa de $A$ es la matriz $$ -\frac{1}{a_0}\left(A^{n-1}+a_{n-1}A^{n-1}+\ldots+a_1 I\right).$$

Ejemplo. Supongamos que queremos encontrar la inversa de la siguiente matriz $$A=\begin{pmatrix} 2 & 2 & 0 \\ 0 & -1 & 0 \\ 1 & 1 & 1 \end{pmatrix}.$$ Su polinomio característico es $\lambda^3-2\lambda^2 – \lambda +2$. Usando la fórmula de arriba, tenemos que

$$A^{-1}=-\frac{1}{2}(A^2-2A-I).$$

Necesitamos entonces $A^2$, que es:

$$A^2=\begin{pmatrix} 4 & 2 & 0 \\ 0 & 1 & 0 \\ 3 & 2 & 1 \end{pmatrix}.$$

De aquí, tras hacer las cuentas correspondientes, obtenemos que:

$$A^{-1}=\begin{pmatrix} \frac{1}{2} & 1 & 0 \\ 0 & -1 & 0 \\ -\frac{1}{2} & 0 & 1\end{pmatrix}.$$

Puedes verificar que en efecto esta es la inversa de $A$ realizando la multiplicación correspondiente.

$\square$

El método anterior tiene ciertas ventajas y desventajas. Es práctico cuando es sencillo calcular el polinomio característico, pero puede llevar a varias cuentas. En términos de cálculos, en general reducción gaussiana funciona mejor para matrices grandes. Como ventaja, el resultado anterior tiene corolarios teóricos interesantes. Un ejemplo es el siguiente resultado.

Corolario. Si $A$ es una matriz con entradas en los enteros y determinante $1$ ó $-1$, entonces $A^{-1}$ tiene entradas enteras.

Encontrar el polinomio mínimo de una matriz

Otra de las consecuencias teóricas del teorema de Cayley-Hamilton con aplicaciones prácticas ya la discutimos en la entrada anterior.

Proposición. El polinomio mínimo de una matriz (o transformación lineal) divide a su polinomio característico.

Esto nos ayuda a encontrar el polinomio mínimo de una matriz: calculamos el polinomio característico y de ahí intentamos varios de sus divisores polinomiales para ver cuál de ellos es el de grado menor y que anule a la matriz. Algunas consideraciones prácticas son las siguientes:

  • Si el polinomio característico se factoriza totalmente sobre el campo y conocemos los eigenvalores, entonces conocemos todos los factores lineales. Basta hacer las combinaciones posibles de factores lineales para encontrar el polinomio característico (considerando posibles multiplicidades).
  • Además, para cada eigenvalor $\lambda$ ya vimos que $\lambda$ debe ser raíz no sólo del polinomio característico, sino también del polinomio mínimo. Así, debe aparecer un factor $x-\lambda$ en el polinomio mínimo para cada eigenvalor $\lambda$.

Ejemplo. Encontramos el polinomio mínimo de la siguiente matriz:

$$B=\begin{pmatrix} 2 & 0 & 4 \\ 3 & -1 & -1 \\0 & 0 & 2 \end{pmatrix}.$$

Una cuenta estándar muestra que el polinomio característico es $(x-2)^2(x+1)$. El polinomio mínimo debe ser mónico, dividir al polinomio característico y debe contener forzosamente a un factor $(x-2)$ y un factor $(x+1)$. Sólo hay dos polinomios con esas condiciones: $(x-2)(x+1)$ y $(x-2)^2(x+1)$. Si $(x-2)(x+1)$ anula a $B$, entonces es el polinomio mínimo. Si no, es el otro. Haciendo las cuentas:

\begin{align*}
(B-2I_3)(B+I_3)&=\begin{pmatrix}0 & 0 & 4 \\ 3 & -3 & -1 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} 3 & 0 & 4 \\ 3 & 0 & -1 \\ 0 & 0 & 3 \end{pmatrix}\\
&=\begin{pmatrix} 0 & 0 & 12 \\ 0 & 0 & 12 \\ 0 & 0 & 0 \end{pmatrix}.
\end{align*}

Así, $(x-2)(x+1)$ no anula a la matriz y por lo tanto el polinomio mínimo es justo el polinomio característico $(x-2)^2(x+1)$.

$\square$

Ejemplo. Consideremos la matriz $C=\begin{pmatrix} 3 & 0 & 0 \\ 0 & 3 & 0 \\ 0 & 0 & 3 \end{pmatrix}$. Su polinomio característico es $(x-3)^3$. Así, su polinomio mínimo es $x-3$, $(x-3)^2$ ó $(x-3)^3$. Nos damos cuenta rápidamente que $x-3$ sí anula a la matriz pues $A-3I_3=O_3$. De este modo, el polinomio mínimo es $x-3$.

$\square$

Clasificación de matrices con alguna condición algebraica

Si sabemos que una matriz cumple una cierta condición algebraica, entonces el teorema de Cayley-Hamilton puede ayudarnos a entender cómo debe ser esa matriz, es decir, a caracterizar a todas las matrices que cumplan la condición.

Por ejemplo, ¿quienes son todas las matrices en $M_n(\mathbb{R})$ que son su propia inversa? La condición algebraica es $A^2=I_2$. Si el polinomio característico de $A$ es $x^2+bx+c$, entonces por el teorema de Cayley-Hamilton y la hipótesis tenemos que $O_2=A^2+bA+cI_2=bA+(c+1)I_2$. De aquí tenemos un par de casos:

  • Si $b\neq 0$, podemos despejar a $A$ como $A=-\frac{c+1}{b}I_2$, es decir $A$ debe ser un múltiplo de la identidad. Simplificando la notación, $A=xI_2$. Así, la condición $A^2=I_2$ se convierte en $x^2I_2=I_2$, de donde $x^2=1$ y por lo tanto $x=\pm 1$. Esto nos da las soluciones $A=I_2$ y $A=-I_2$.
  • Si $b=0$, entonces $O_2=(c+1)I_2$, de donde $c=-1$. De este modo, el polinomio característico es $x^2-1=(x+1)(x-1)$. Se puede demostrar que aquí las soluciones son las matices semejantes a la matriz $\begin{pmatrix}1 & 0 \\ 0 & -1 \end{pmatrix}$, y sólo esas.

Más adelante…

El teorema de Cayley-Hamilton es un resultado fundamental en álgebra lineal. Vimos dos demostraciones, pero existen varias más. Discutimos brevemente algunas de sus aplicaciones, pero tiene otras tantas. De hecho, más adelante en el curso lo retomaremos para aplicarlo nuevamente.

Por ahora cambiaremos ligeramente de tema. De manera muy general, veremos cómo llevar matrices a otras matrices que sean más simples. En las siguientes entradas haremos esto mediante similaridades de matrices. Más adelante haremos esto mediante congruencias de matrices. Hacia la tercer unidad del curso encontraremos un resultado aún más restrictivo, en el que veremos que cualquier matriz simétrica real puede ser llevada a una matriz diagonal mediante una matriz que simultáneamente da una similaridad y una congruencia.

Tarea moral

  1. Encuentra el polinomio mínimo de la matriz $\begin{pmatrix}-3 & 1 & 0 & 0 \\ 0 & -3 & 0 & 0 \\ 0 & 0 & 2 & 1 \\ 0 & 0 & 0 & 2\end{pmatrix}$
  2. Encuentra la inversa de la siguiente matriz usando las técnica usada en esta entrada: $$\begin{pmatrix} 0 & 1 & 1 \\ 1 & -1 & 2\\ 2 & 2 & 1 \end{pmatrix}.$$
  3. Demuestra el corolario de matrices con entradas enteras. De hecho, muestra que es un si y sólo si: una matriz invertibles con entradas enteras cumple que su inversa tiene únicamente entradas enteras si y sólo si su determinante es $1$ ó $-1$.
  4. ¿Cómo son todas las matrices en $M_2(\mathbb{R})$ tales que $A^2=A$?
  5. ¿Cómo son todas las matrices en $M_3(\mathbb{R})$ de determinante $0$ tales que $A^3=O_3$?

Entradas relacionadas

Geometría Analítica I: Producto de matrices

Por Paola Berenice García Ramírez

Introducción

En la entrada anterior definimos a un vector y a una matriz de una función lineal, podemos proceder a definir su producto. En esta entrada primero veremos cómo se realiza el producto de una matriz con un vector. Después trataremos la fuerte relación entre la composición de funciones y el producto de matrices. Con dicha relación, por último definiremos el producto de matrices cualesquiera.

Producto de una matriz con un vector

Si tenemos un matriz $A$ de $m\times n$, sabemos que una forma de ver a nuestra matriz es como un conjunto ordenado de $n$ vectores en $\mathbb{R}^n$ y entonces se escribe $A=(u_1, u_2, \cdots, u_n)$, con $u_{i} \in \mathbb{R}^n$, donde $i=1,2,\cdots,n$. También sabemos que cada vector al que haremos referencia tiene la notación $x=(x_1, x_2, \cdots, x_n )^T$.

Vamos a definir con estos conceptos al producto de una matriz $A$ por un vector $x$:

Definición. El producto de una matriz $A$ de dimensión $m\times n$ de la forma

\begin{equation*}
A = (u_1,u_2, \cdots, u_n),
\end{equation*}

por un vector de la forma

\[ x=(x_1, x_2, \cdots, x_n )^T = \left(\begin{array}{c}
x_1\\
x_2\\
\vdots\\
x_n
\end{array} \right);\]

se define por

\[ Ax = (u_1, u_2, \cdots, u_n )\left(\begin{array}{c}
x_1\\
x_2\\
\vdots\\
x_n
\end{array} \right) = x_1 u_1 + x_2 u_2 + \cdots + x_n u_n. \]

Veamos un ejemplo que nos apoye con la definición:

Ejemplo. Sean la matriz $A$ y el vector $x$ como sigue

\[ A = \left(\begin{array}{ccc}
4&7&-1\\
2&-3&1\\
5&4&-2
\end{array} \right), \hspace{0.5cm} y \hspace{0.5cm} x=(x,y,z)^T , \]

entonces el producto de la matriz $A$ con el vector $x$ será:

\[ Ax = \left(\begin{array}{ccc}
4&7&-1\\
2&-3&1\\
5&4&-2
\end{array} \right) \left(\begin{array}{c}
x\\
y\\
z
\end{array} \right) = x \left(\begin{array}{c}
4\\
2\\
5
\end{array} \right) + y \left(\begin{array}{c}
7\\
-3\\
4
\end{array} \right) + z \left(\begin{array}{c}
-1\\
1\\
-2
\end{array} \right) = \left(\begin{array}{c}
4x+7y-z\\
2x-3y+z\\
5x+4y-2z
\end{array} \right).\]

Ahora, para comprender mejor la definición del producto de matrices, que es el tema principal de esta entrada; es mejor hablar de su origen, el cual proviene de los sistemas lineales. Arthur Cayley (1821-1895) fue un matemático británico que analizaba los sistemas con dos ecuaciones y dos incógnitas:

\begin{align*}
ax + by &= x’ \\
cx + dy &= y’
\end{align*}

como transformación del plano donde a cada punto $(x,y)$ le corresponde el punto $(x’,y’)$.

A la función de $\mathbb{R}^2$ en $\mathbb{R}^2$ donde

\[ p(x) = \left(\begin{array}{c}
ax + by\\
cx + dy
\end{array} \right), \]

se le asocia la matriz

\[ \left(\begin{array}{cc}
a & b\\
c & d
\end{array} \right), \]

que es quien transforma el plano, moviendo cada punto $(x,y)$ a la posición $(x’,y’)$.

Ahora vamos a considerar otra matriz

\[ \left(\begin{array}{cc}
e & f\\
g & h
\end{array} \right), \]

quien también transformará al plano, pero el punto $(x’,y’)$ se moverá a la posición $(x´´,y´´)$ mediante el sistema:

\begin{align*}
ex’ + fy’ &= x´´ \\
gx’ + hy’ &= y´´.
\end{align*}

Si lo que deseamos es que las dos transformaciones se ejecuten una detrás de la otra, es decir, que el punto $(x,y)$ vaya a la posición $(x´´,y´´)$; entonces para la primera ecuación se tendrá:

\begin{align*}
x´´ &= ex’ + fy’\\
&= e(ax+by) + f(cx+dy)\\
&= (ae+cf)x +(be+df)y,
\end{align*}

y para la segunda ecuación tenemos:

\begin{align*}
y´´ &= gx’ + hy’\\
&= g(ax+by) + h(cx+dy)\\
&= (ag+ch)x +(bg+dh)y.
\end{align*}

En consecuencia, la composición de las dos transformaciones tiene por sistema a:

\begin{align*}
(ae+cf)x +(be+df)y &= x´´\\
(ag+ch)x +(bg+dh)y &= y´´.
\end{align*}

De hecho las definiciones de Cayley se generalizaron a cualquier dimensión. Con esta motivación vamos a definir el producto de matrices.

Multiplicación de matrices

Definición. Sean $f: \mathbb{R}^n \longrightarrow \mathbb{R}^m$ y $g: \mathbb{R}^m \longrightarrow \mathbb{R}^k$ dos funciones lineales, la composición $g \circ f: \mathbb{R}^n \longrightarrow \mathbb{R}^k$ también será lineal. Sean las matrices $A$ de tamaño $m\times n$ y $B$ de tamaño $k\times m$ que corresponden a $f$ y a $g$ respectivamente. Definimos al producto de matrices $BA$ como la matriz $k\times n$ que corresponde a la función lineal $g \circ f$.

Entonces $BA$ es la única matriz de $k\times n$ que cumple:

\begin{equation*}
(g\circ f)(x) = (BA) x, \hspace{0.25cm} \text{para todo} \hspace{0.25cm} x \in \mathbb{R}^n .
\end{equation*}

Para comprender la definición, recordemos que la matriz $A$ con tamaño $m\times n$ está asociada a la función lineal $f: \mathbb{R}^n \longrightarrow \mathbb{R}^m$ y la matriz $B$ con tamaño $k\times m$ está asociada a la función lineal $g: \mathbb{R}^m \longrightarrow \mathbb{R}^k$. La conversión se da por la convención existente en el orden en que se realiza la composición de funciones (hacia atrás).

La definición no nos indica cómo realizar la multiplicación de matrices, para lo cual conviene que recordemos primeramente que las columnas de una matriz son las imágenes de la base canónica bajo la función asociada. Entonces si $A=(u_1, u_2, \cdots, u_n )$ donde $u_i = f(e_i ) \in \mathbb{R}^m$, entonces $(g \circ f)(e_i) =g(f(e_i)) = g(u_i) = Bu_i$. Por tanto

\begin{equation*}
BA = B (u_1,u_2, \cdots, u_n) = (Bu_1, Bu_2, \cdots, Bu_n).
\end{equation*}

Ahora, para obtener las columnas de la nueva matriz, usaremos la multiplicación de $B$ por los vectores columna de $A$, que es la multiplicación que ya definimos en la primer parte de esta entrada.

Expresaremos cada una de las entradas de la matriz $BA$, pero nos conviene ver a la matriz $B$ como una columna de vectores renglón, obteniendo

\[ BA = \left(\begin{array}{c}
w_{1}^{T}\\
w_{2}^{T}\\
\vdots\\
w_{k}^{T}
\end{array} \right) \left(\begin{array}{c}
u_1, u_2, \cdots, u_n
\end{array} \right) = \left(\begin{array}{cccc}
w_1 \cdot u_1 & w_1 \cdot u_2 & \cdots & w_1 \cdot u_n\\
w_2 \cdot u_1 & w_2 \cdot u_2 & \cdots & w_2 \cdot u_n\\
\vdots& \vdots & \ddots &\vdots\\
w_k \cdot u_1 & w_k \cdot u_2 & \cdots & w_k \cdot u_n
\end{array} \right), \]

Con esta fórmula podemos ver porqué es importante que el número de filas de $B$ (los transpuestos de los vectores $w_i$) debe ser el mismo número de columnas de $A$ (los vectores $u_j$) y comprender la mecánica para obtener las entradas de una matriz $k \times n$ a partir de una matriz $B$ con tamaño $k \times m$ y una matriz $A$ con tamaño $m \times n$.

Ejemplo. Sean

\[ B = \left(\begin{array}{ccc}
2&-1&0\\
1&3&1
\end{array} \right), \hspace{0.5cm} y \hspace{0.5cm} A= \left(\begin{array}{cccc}
1&0&2&4\\
-1&-2&1&0\\
3&5&6&1
\end{array} \right), \]

El producto $BA$ está bien definido porque $B$ es de tamaño $3\times 4$ y $A$ es de tamaño $2\times 3$, por tanto $BA$ es una matriz de $2\times 4$. Las filas de $B$ serán $w_1$ y $w_2$ y las columnas de $A$ serán $u_1, u_2, u_3$ y $u_4$, es decir:

Por tanto, $BA$ es la matriz:

\[ BA = \left(\begin{array}{cccc}
3&2&3&8\\
1&-1&11&5
\end{array} \right). \]

Ejemplo. Tomemos las matrices $A$ y $B$ del ejemplo anterior, observemos que no podemos realizar el producto $AB$, ya que el número de columnas de $B$ es $4$ y el número de filas de $A$ es $2$ y éstos números no coinciden.

En conclusión, el producto de matrices no es conmutativo, de hecho, aunque existan ambos $AB$ y $BA$, éstos no tienen porqué coincidir.

Ejemplo. Sean \[ A = \left(\begin{array}{cc}
7&0\\
-1&0
\end{array} \right), \hspace{0.5cm} y \hspace{0.5cm} B= \left(\begin{array}{cc}
0&2\\
0&-5
\end{array} \right), \]

podemos calcular $AB$ y $BA$, obtenemos

\[ AB = \left(\begin{array}{cc}
0&14\\
0&-2
\end{array} \right), \hspace{0.5cm} y \hspace{0.5cm} BA= \left(\begin{array}{cc}
-2&0\\
5&0
\end{array} \right), \]

y vemos que $AB \neq BA.$

Tarea moral

  1. Aunque $A$ y $B$ no sean las matrices cero (cuyas entradas son todas cero), su producto sí puede serlo. Den un ejemplo de 2 matrices tales que $AB=0$, pero $A\neq 0$ y $B \neq 0$, donde $0$ es la matriz cero.
  2. Demuestra que si $A, B, C$ son matrices $2\times 2$, entonces $A(B+C) = AB +AC$ y $(A+B)C= AC +BC$.
  3. Demuestra que si $A,B, C$ son matrices de $3\times 3$, entonces $A(BC) = (AB)C$, es decir que el producto de matrices es asociativo. Por tanto, podemos escribir al producto simplemente como $ABC$.
  4. Sean

\[ A = \left(\begin{array}{ccc}
3&-1&4\\
2&5&-2\\
1&3&2
\end{array} \right), \hspace{0.5cm} B= \left(\begin{array}{cc}
1&3\\
-1&4\\
5&2
\end{array} \right), \hspace{0.5cm} C= \left(\begin{array}{cccc}
1&3&-1&2\\
-2&4&1&5\\
5&2&-3&1
\end{array} \right), \]

Realizar el producto de matrices $AB, BC, AC$ y justificar en caso de que no pueda efectuarse alguno de los productos.

Más adelante

En la primera parte de la unidad 3 vimos distintos tipos de transformación de funciones. Para la segunda parte definimos matrices de tamaño $m\times n$, matrices asociadas a funciones lineales y en esta entrada vimos la operación del producto de matrices.

A continuación vamos a ver algunas de las familias de matrices más representativas que están asociadas a funciones. Nos serán familiares dichas funciones porque las trabajamos en la primera parte de esta Unidad 3.

Enlaces relacionados

  • Página principal del curso:
  • Entrada anterior del curso:
  • Siguiente entrada del curso:

Álgebra Lineal I: Problemas de producto de matrices y matrices invertibles

Por Julio Sampietro

Introducción

Esta sección consta de puros problemas para practicar los conceptos vistos en entradas previas. Las entradas anteriores correspondientes son la de producto de matrices y la de matrices invertibles.

Problemas resueltos

Problema. Encuentra todas las matrices $B\in M_3(\mathbb{C})$ que conmutan con la matriz

\begin{align*}
A=\begin{pmatrix}
1 & 0 & 0\\
0 & 0 & 0\\
0 & 0 &2
\end{pmatrix}.
\end{align*}

Solución. Sea

\begin{align*}
B=\begin{pmatrix} a & b & c\\ d & e & f \\ g & h & i \end{pmatrix}\in M_3(\mathbb{C}).
\end{align*}

Calculamos usando la regla del producto:

\begin{align*}
AB=\begin{pmatrix}
a & b & c\\ 0 & 0 & 0\\ 2 g & 2h & 2i \end{pmatrix}
\end{align*}

y

\begin{align*}
BA= \begin{pmatrix} a & 0 & 2c\\ d & 0 & 2f\\ g & 0 & 2i\end{pmatrix}.
\end{align*}

Igualando ambas matrices obtenemos que $A$ y $B$ conmutan si y sólo si se satisfacen las condiciones

\begin{align*}
\begin{cases}
b=d=f=h=0\\
2c=c\\
2g=g\end{cases}.
\end{align*}

Las últimas dos condiciones son equivalentes a que $c=g=0$. Cualquier matriz que conmuta con $A$ satisface estas condiciones y conversamente (por nuestro cálculo) si satisface estas ecuaciones conmuta con $A$. Esto nos deja como parámetros libres a $a,e,i$, es decir $B$ puede ser cualquier matriz diagonal.

$\square$

Problema. Considerando las matrices

\begin{align*}
A=\begin{pmatrix} 1 & 1 & 1\\ 0& 4 &-1\\ 9& 6 & 0 \end{pmatrix}, \hspace{2mm} B= \begin{pmatrix} -1 & 1\\ 0 & -2 \\ 1 &0 \end{pmatrix},
\end{align*}

¿cuáles de los productos $A^2, AB, BA, B^2$ tienen sentido? Calcula los que si lo tienen.

Solución. Recordamos que los productos tienen sentido si el número de columnas de la matriz de la izquierda sea el mismo que el número de filas de la matriz de la derecha. Entonces no podemos realizar los productos $BA$ o $B^2$ pues esta condición no se cumple (por ejemplo, $B$ tiene $3$ columnas, $A$ tiene $2$ filas, y estos números difieren). Calculamos entonces usando la regla del producto:

\begin{align*}
A^2 = \begin{pmatrix}
10 & 11 & 0\\
-9 & 10 & -4\\
9 & 33 & 3\end{pmatrix}, \hspace{2mm} AB= \begin{pmatrix} 0 & -1\\ -1 & -8\\ -9 &-3\end{pmatrix}.
\end{align*}

$\square$

Problema. Considera la matriz \begin{align*}
A=\begin{pmatrix} 1 & 1& 0 \\ 0 & 1 &1\\ 0 &0 & 1 \end{pmatrix}
\end{align*}

  • Demuestra que $A$ satisface que $(A-I_3)^3=O_3$
  • Calcula $A^{n}$ para cualquier entero positivo $n$.

Solución.

  • Hacemos el cálculo directamente:
    \begin{align*}
    (A-I_3)^3&= \begin{pmatrix} 0 & 1 & 0\\0 & 0 &1\\ 0 & 0 &0 \end{pmatrix}^{2} \cdot \begin{pmatrix} 0 & 1 &0 \\ 0 & 0 & 1\\ 0 & 0 &0 \end{pmatrix} \\&= \begin{pmatrix} 0 & 0 & 1\\ 0 & 0 & 0\\ 0 &0 &0\end{pmatrix}\cdot \begin{pmatrix} 0 & 1 &0 \\ 0 & 0 & 1\\ 0 & 0 &0 \end{pmatrix}\\&=O_3. \end{align*}
  • Para este tipo de problemas, una estrategia que funciona es hacer casos pequeños para hacer una conjetura, y luego demostrarla por inducción. Probando para algunos valores de $n$ conjeturamos que
    \begin{align*}
    A^{n}=\begin{pmatrix} 1 & n & \frac{n(n-1)}{2}\\ 0 & 1 & n\\ 0 & 0 &1 \end{pmatrix}.
    \end{align*}
    Lo demostramos por inducción sobre $n$, dando por cierto el caso base con $n=1$.
    Hagamos ahora el paso inductivo. Para esto usamos que $1+\dots + (n-1)= \frac{n(n-1)}{2}$.
    Nuestra hipótesis de inducción nos dice entonces que para cierto $n$ se tiene que $A^{n}=\begin{pmatrix} 1 & n & 1+\dots +(n-1) \\ 0 & 1 & n\\ 0 & 0 & 1\end{pmatrix}$. Usando que $A^{n+1}=A^{n}\cdot A$ con nuestra hipótesis de inducción se sigue:
    \begin{align*}
    A^{n+1}= A^{n}\cdot A&= \begin{pmatrix} 1 & n & 1+\dots +(n-1)\\ 0 & 1 &n\\ 0 & 0 &1\end{pmatrix} \cdot \begin{pmatrix} 1 & 1 & 0\\ 0 & 1 & 1\\ 0 & 0 & 1\end{pmatrix}\\ &= \begin{pmatrix} 1 & 1+n & 1+\dots + (n-1)+n\\ 0 & 1 & n+1\\ 0 & 0 &1\end{pmatrix}.\end{align*}
    Luego el resultado es cierto para $n+1$ y así queda demostrado el resultado.

$\square$

El siguiente problema combina temas de números complejos y de matrices invertibles. Para que lo entiendas a profundidad, es útil recordar la teoría de raíces $n$-ésimas de la unidad. Puedes revisar esta entrada del blog. El ejemplo puede parecer un poco artificial. Sin embargo, las matrices que se definen en él tienen muchas aplicaciones, por ejemplo, en procesamiento de señales.

Problema. Sea $n>1$ un natural y sea

\begin{align*}
\zeta= e^{\frac{2\pi i}{n}}= \cos \left( \frac{2\pi}{n}\right)+i\sin \left( \frac{2\pi}{n}\right).
\end{align*}

Este número puede parecer muy feo, pero es simplemente la raíz $n$-ésima de la unidad de menor argumento.

Definimos la matriz de Fourier de orden $n$, denotada por $\mathcal{F}_n$ como la matriz tal que su $(j,k)-$ésima entrada es $\zeta^{(j-1)(k-1)}$ para $1\leq j,k\leq n$.

  • a) Sea $\overline{\mathcal{F}_n}$ la matriz cuya $(j,k)-$ésima entrada es el conjugado complejo de la $(j,k)-$ésima entrada de $\mathcal{F}_n$. Demuestra que
    \begin{align*}
    \mathcal{F}_n\cdot \overline{\mathcal{F}_n} = \overline{\mathcal{F}_n}\cdot \mathcal{F}_n= nI_n.
    \end{align*}
  • b) Deduce que $\mathcal{F}_n$ es invertible y calcule su inversa.

Solución.

  • a) Sean $1\leq j,k\leq n$. Usando la regla del producto, podemos encontrar la entrada $(j,k)$ como sigue:
    \begin{align*}
    \left( \mathcal{F}_n \cdot \overline{\mathcal{F}_n} \right)_{jk} &= \sum_{l=1}^{n} \left(\mathcal{F}_n\right)_{jl} \cdot \left(\overline{\mathcal{F}_n}\right)_{lk}\\
    &= \sum_{l=1}^{n} \zeta^{(j-1)(l-1)} \cdot \overline{\zeta^{(l-1)(k-1)}}\\
    &= \sum_{l=1}^{n} \zeta^{(j-1)(l-1)-(l-1)(k-1)},
    \end{align*}
    la última igualdad se debe a que $\overline{\zeta}= \zeta^{-1}$. Así
    \begin{align*}
    \left( \mathcal{F}_n \cdot \overline{\mathcal{F}_n}\right)_{jk}=\sum_{l=1}^{n}\zeta^{(l-1)(j-k)}=\sum_{l=0}^{n-1}\left( \zeta^{j-k}\right)^{l}.
    \end{align*}
    Y la suma de la derecha es la suma de una sucesión geométrica con razón $\zeta^{j-k}$. Si $j=k$, entonces $\zeta^{j-k}=1$, así que la suma es igual a $n$ ya que cada termino es $1$ y lo sumamos $n$ veces. Si $j\neq k$ entonces $\zeta^{j-k}\neq 1$ y usamos la fórmula para una suma geométrica:
    \begin{align*}
    \sum_{l=0}^{n-1} \left( \zeta^{j-k}\right)^{l}= \frac{1-\left(\zeta^{j-k}\right)^{n}}{1-\zeta^{j-k}}=\frac{1-(\zeta^{n})^{j-k}}{1-\zeta^{j-k}}=0.\end{align*}
    Usamos en la última igualdad que $\zeta^{n}=1$. Se sigue que $\left( \mathcal{F}_n \cdot \overline{\mathcal{F}_n}\right)_{jk}$ es $n$ si $j=k$ y $0$ de otra manera, es decir
    \begin{align*}
    \mathcal{F}_n\cdot\overline{\mathcal{F}_n}=n\cdot I_n.
    \end{align*}
    La igualdad simétrica $\overline{\mathcal{F}_n}\cdot \mathcal{F}_n=n \cdot I_n$ se prueba de la misma manera y omitimos los detalles.
  • b) Por el inciso anterior, sugerimos $\frac{1}{n} \overline{\mathcal{F}_n}$, y esta satisface

    \begin{align*}
    \mathcal{F}_n \cdot \frac{1}{n} \overline{\mathcal{F}_n} = \frac{1}{n} \cdot n I_n= I_n
    \end{align*}
    y la otra igualdad se verifica de la misma manera. Por lo tanto, $\mathcal{F}_n$ es invertible y su inversa es $\frac{1}{n} \overline{\mathcal{F}_n}$.

$\square$

Problema. Sean $A,B\in M_n(\mathbb{R})$ matrices tales que

\begin{align*}
A+B=I_n \hspace{5mm} A^2+B^2=O_n
\end{align*}

Demuestra que $A$ y $B$ son invertibles y que satisfacen

\begin{align*}
(A^{-1}+B^{-1})^{n}=2^{n} I_n
\end{align*}

Solución. Observamos que las propiedades dadas nos permiten calcular

\begin{align*}
A(I_n+B-A)&= (I_n-B) (I_n+B-A)\\&=I_n+B-A-B-B^2+BA\\
&= I_n -A-B^2+BA \\&=I_n+(B-I_n)A-B^2\\ &=I_n-A^2-B^2\\&= I_n.
\end{align*}

Es decir $A^{-1}=I_n+B-A$ (falta demostrar que con esta propuesta, también se cumple $A^{-1}A=I_n$, omitimos los cálculos). Similarmente $B^{-1}= I_n+A-B$ y por tanto $A^{-1}+B^{-1}= 2\cdot I_n$ y de esta igualdad se sigue la segunda parte del problema, pues

\begin{align*}
\left(A^{-1}+B^{-1}\right)^{n}= \left( 2\cdot I_n\right)^{n}=2^{n} \cdot I_n.\end{align*}

$\square$

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»