Archivo de la etiqueta: transformaciones lineales

Álgebra Lineal I: Producto de matrices y composición de sus transformaciones

Introducción

En una entrada previa estudiamos el vínculo entre las matrices y las transformaciones lineales. Más precisamente vimos que existe una biyección entre ambos conjuntos, de manera que tener una matriz de $m\times n$ con entradas en algún campo $F$ es lo mismo que tener una transformación lineal $\varphi: F^n \to F^m$. En esta entrada, estudiaremos cómo esta correspondencia se comporta respecto a las dos operaciones ‘naturales’ en ambos: el producto de matrices y la composición de funciones.

Veremos que multiplicar matrices se corresponde con componer sus transformaciones lineales y vice versa. Esto puede explicar algunos fenómenos de la multiplicación de matrices que pueden ser extraños al principio, como la falta de conmutatividad ($AB\neq BA$) entre otros.

El producto de matrices

Sean $m,n,p$ números naturales positivos y sean $A\in M_{m,n}(F), B\in M_{n,p}(F)$ dos matrices. Es importante observar que el número de columnas de $A$ es el mismo que el de renglones de $B$. Esto es fundamental para que el producto de matrices esté definida.

Por nuestra correspondencia previa, sabemos que tanto a $A$ como a $B$ les corresponden transformaciones lineales

\begin{align*}
\varphi_{A}: F^n\to F^m \hspace{3mm} \varphi_B: F^p\to F^n
\end{align*}

Recuerda que $\varphi_A$ es la transformación que manda a $X\in F^n$ en $AX\in F^m$ y $\varphi_B$ es la transformación que manda a $Y\in F^p$ en $BY\in F^n$.

Podemos entonces preguntarnos por la composición

\begin{align*}
\varphi_A\circ \varphi_B: F^{p}\to F^m \hspace{5mm} (\varphi_A\circ \varphi_B)(X)= \varphi_A\left(\varphi_B(X)\right),
\end{align*}

la cual primero manda a un $X$ de $F^{p}$ a $BX$, y luego a este lo manda a $A(BX)$.

Como $\varphi_A$ y $\varphi_B$ son lineales, podemos verificar que la composición también lo es. Para verificar esto, si $X,Y\in F^{p}$ son arbitrarios así como $\alpha, \beta\in F$, entonces

\begin{align*}
(\varphi_A\circ \varphi_B)\left(\alpha X+\beta Y\right) &= \varphi_A\left(\varphi_B\left(\alpha X+\beta Y\right) \right)\\
&= \varphi_A\left( \alpha \varphi_B(X)+\beta \varphi_B(Y)\right)\\
&=\alpha\varphi_A\left(\varphi_B(X)\right) +\beta \varphi_A\left(\varphi_B(Y)\right)\\
&= \alpha \cdot (\varphi_A\circ \varphi_B) (X) +\beta\cdot (\varphi_A\circ \varphi_B)(Y) .
\end{align*}

Aqui la segunda igualdad se debe a que $\varphi_B$ es lineal y la tercera porque $\varphi_A$ lo es. En el resto de las igualdades estamos usando la definición de la composición.

Como $\varphi_A\circ \varphi_B$ es una transformación lineal, por el teorema de correspondencia entre matrices y transformaciones lineales, debe existir una única matriz $C\in M_{m,p}(F)$ tal que

\begin{align*}
\varphi_A\circ \varphi_B = \varphi_C.
\end{align*}

Esto motiva la siguiente (importante) definición:

Definición. El producto de dos matrices $A\in M_{m,n}(F)$ y $B\in M_{n,p}(F)$ (de nuevo, observamos que el número de renglones de $B$ y el número de columnas de $A$ deben coincidir) es la única matriz $AB\in M_{m,p}(F)$ tal que

\begin{align*}
A(B(X))=(AB)(X)
\end{align*}

Para todo $X\in F^p$.

Un truco para acordarse de la condición de compatibilidad en renglones y columnas es pensar en términos de transformaciones lineales: Sabemos que dos funciones $f$ y $g$ se pueden componer solo si el codominio de una es el dominio de la otra.

Observación. Como mencionamos previamente, podemos identificar a $F^n$ con el espacio $M_{n,1}(F)$ (esto es especialmente claro cuando escribimos un vector en columna: Tenemos $n$ renglones y una sola columna). Así, si a un vector $X\in F^n$ lo identificamos con su matriz $\widetilde{X}\in M_{n,1}(F)$ entonces podemos considerar el producto $A\widetilde{X}\in M_{m,1}(F)$, que resulta (al identificar de vuelta con $F^m$) coincide con $AX$. Es decir, pensar la aplicación $AX$ como una transformación o como un producto de matrices no afecta el resultado, aunque es recomendable (para nuestros propósitos) pensarlo como una transformación lineal.

Calculando el producto de matrices

Si bien la definición que dimos del producto tiene sentido desde una perspectiva un poco más abstracta, queremos poder calcular explícitamente el producto $AB$ sabiendo las entradas de $A$ y de $B$.

Para esto, sean $A=[a_{ij}]$ y $B=[b_{ij}]$ con tamaños como en la definición. Sea $e_1, \dots, e_p$ la base canónica de $F^p$. Entonces $(AB) e_j$ es la $j$-ésima columna de $AB$ (por una observación que hicimos aquí). Denotaremos por $C_1(A), \dots, C_n(A)$ y $C_1(B), \dots, C_p(B)$ a las columnas de $A$ y las de $B$ respectivamente. Usando la misma observación, podemos escribir

\begin{align*}
A(Be_j)&=AC_j(B)\\
&= b_{1j}C_1(A)+b_{2j}C_2(A)+\dots + b_{nj} C_n(A).
\end{align*}

Para la segunda igualdad, estamos usando la segunda parte de la observación de esta entrada. Por definición del producto, tenemos que $A(Be_j)=(AB)e_j=C_j(AB)$. Juntando esto con la igualdad anterior, tenemos

\begin{align*}
C_j(AB)= b_{1j} C_1(A)+b_{2j} C_2(A)+\dots + b_{nj} C_n(A).
\end{align*}

Estamos muy cerca de encontrar cualquier entrada $(i,j)$ del producto. Notamos que esta entrada está en la fila $i$ de $C_j(AB)$. Haciendo las operaciones entrada a entrada, obtenemos entonces que

\begin{align*}
(AB)_{ij}=a_{i1}b_{1j}+a_{i2}b_{2j} +\dots +a_{in}b_{nj}.
\end{align*}

La discusión anterior prueba el siguiente resultado.

Teorema. (Regla del producto) Sean $A=[a_{ij}]\in M_{m,n}(F)$ y $B=[b_{ij}]\in M_{n,p}(F)$. Entonces la $(i,j)$-ésima entrada de $AB$ está dada por

\begin{align*}
(AB)_{ij}= \sum_{k=1}^{n} a_{ik} b_{kj} .
\end{align*}

Hubiéramos podido dar como definición de $AB$ a la matriz con las entradas que especifica el teorema, pero esto hubiera escondido la motivación detrás de la definición: A ojos del álgebra lineal, las matrices «son» transformaciones lineales y el producto, su composición.

Lo más importante a recuperar de lo que hemos platicado hasta ahora es que el producto $AB$ se puede pensar de cualquiera de las dos formas siguientes:

  • Como la transformación lineal que corresponde a la composición de las transformaciones de $A$ y $B$.
  • Como la matriz cuyas entradas están dadas por la regla del producto.

Ambas formas de ver al producto tienen ventajas y desventajas. Usaremos una o la otra según nos convenga.

Ejemplos de producto de matrices

Ejemplo. Si $A=\begin{pmatrix} a_{11} & a_{12}\\ a_{21} & a_{22} \end{pmatrix}$ y $B=\begin{pmatrix} b_{11} & b_{12} \\ b_{21} & b_{22} \end{pmatrix}$ son matrices en $M_2(F)$, entonces el producto existe y por el teorema tenemos que

\begin{align*}
AB= \begin{pmatrix}
a_{11}b_{11}+a_{12}b_{21} & a_{11} b_{12}+ a_{12}b_{22}\\
a_{21}b_{11}+a_{22}b_{21} & a_{21}b_{12} +a_{22}b_{22}
\end{pmatrix}.
\end{align*}

Observa que si $C_1$ y $C_2$ son las dos columnas de $B$, entonces las dos columnas de $AB$ son $AC_1$ y $AC_2$. Esta es una buena forma de recordar cómo hacer el producto.

$\square$

Ejemplo. Si $A=\begin{pmatrix} a_{11} & a_{12}\\ a_{21} & a_{22}\\ a_{31} & a_{32} \end{pmatrix}$ y $B=\begin{pmatrix} b_{11} & b_{12} \\ b_{21} & b_{22} \end{pmatrix}$ entonces el producto $AB$ es una matriz de tamaño $3\times 2$, y está dada por

\begin{align*}
AB=\begin{pmatrix} a_{11} b_{11} + a_{12} b_{21} & a_{11} b_{12}+ a_{12} b_{22}\\
a_{21} b_{11} + a_{22} b_{21} & a_{21} b_{12} + a_{22} b_{22}\\
a_{31}b_{11}+a_{32}b_{21} & a_{31} b_{12} +a_{32} b_{22}
\end{pmatrix}.
\end{align*}

$\square$

Ejemplo. Tomando en cuenta el ejemplo anterior con las matrices $A=\begin{pmatrix} 1 &2 \\ 3 & 4\\ 5& 6\end{pmatrix}$ y $B=\begin{pmatrix} 1& -1\\ 0 & 2\end{pmatrix}$ entonces

\begin{align*}
AB=\begin{pmatrix} 1 & 3\\ 3 & 5 \\ 5 &7 \end{pmatrix}.
\end{align*}

$\square$

Observa que no podemos hacer el producto $BA$, pues la cantidad de columnas de $B$ es $2$, la cantidad de filas de $A$ es $3$, y estos números no coinciden.

Ejemplo. Si $A=\begin{pmatrix} 1& 0\\ 0 & 0\end{pmatrix}$ y $B=\begin{pmatrix} 0 & 0 \\ 2& 0\end{pmatrix}$ entonces podemos calcular tanto $AB$ como $BA$ y obtenemos

\begin{align*}
AB=\begin{pmatrix} 0 & 0\\
0 & 0 \end{pmatrix}=O_2 \hspace{5mm} \text{ y } \hspace{5mm} BA=\begin{pmatrix} 0 & 0 \\ 2 & 0\end{pmatrix}.
\end{align*}

$\square$

Propiedades básicas del producto

El último ejemplo de la sección pasada refleja dos cosas importantes del producto de matrices:

  • El producto no es conmutativo. Es decir, aunque existan ambos $AB$ y $BA$, estos no tienen por qué coincidir.
  • Aunque $A$ y $B$ no sean cero, su producto si puede serlo. En el ejemplo $A$ y $B$ eran distintas de cero pero $AB=O_2$.

Definición. Dos matrices $A,B\in M_n(F)$ conmutan si $AB=BA$.

Entonces uno tiene que tener cuidado cuando realiza manipulaciones algebraicas con matrices, pues muchas propiedades a las que estamos acostumbrados en campos dejan de ser ciertas.

Ejemplo. En un campo, uno generalmente usa las reglas para desarrollar cuadrados:

\begin{align*}
(a+b)^2&=a^2+2ab+b^2, \\
(a+b)(a-b)&=a^2-b^2 .
\end{align*}

Sin embargo, trabajando con matrices estas identidades dejan de ser ciertas, y son reemplazadas por una versión menos sencilla:

\begin{align*}
(A+B)^2&= A^2+AB+BA+B^2,
\\(A+B)(A-B)&=A^2-AB+BA-B^2.
\end{align*}

Estas coinciden con las correspondientes en el campo solo si $A$ y $B$ conmutan.

$\square$

Sin embargo, hay buenas noticias. Aparte de la conmutatividad, muchas otras propiedades algebraicas deseables se preservan, y las resumimos en la siguiente proposición:

Proposición. La multiplicación de matrices satisface las siguientes:

  1. Asociatividad: Se cumple que $(AB)C=A(BC)$ para cualesquiera matrices $A\in M_{m,n}(F), B\in M_{n,p}(F), C\in M_{p,q}(F)$.
  2. Compatibilidad con el producto por escalares: Se cumple que $\alpha(AB)=(\alpha A)B= A(\alpha B)$ para cualesquiera $\alpha \in F, A\in M_{m,n}(F), B\in M_{n,p}(F)$.
  3. Distributividad con respecto a la suma: Se cumplen

\begin{align*}
(A+B)C&=AC+BC\\
D(A+B)&= DA+DB
\end{align*}

para cualesquiera $A,B\in M_{m,n}(F)$, $C\in M_{n,p}(F)$ y $D\in M_{p,m}(F).$

Demostración: La demostración de estas propiedades se sigue directamente de la definición, o bien haciendo los cálculos a través de la regla del producto. Probaremos la asociatividad usando la definición, para mostrar las ventajas que tiene pensar al producto como la matriz correspondiente a la composición. Tras ver la demostración, piensa en lo tedioso que sería hacer la prueba usando la regla del producto.

Para verificar la asociatividad, basta ver que las transformaciones lineales de $(AB)C$ y $A(BC)$ son iguales (vimos en ésta entrada que si dos matrices tienen la misma transformación asociada, entonces son iguales). Es decir, que para todo $X\in F^q$ se cumple que

\begin{align*}
((AB)C)X=(A(BC))X.
\end{align*}

Por definición del producto, tenemos que

\begin{align*}
((AB)C)X= (AB)(CX)= A(B(C(X)),
\end{align*}

y desarrollando análogamente $A(BC)X$ tenemos

\begin{align*}
A(BC)X= A((BC)X)= A(B(C(X)).
\end{align*}

Comparando ambas expresiones se sigue el resultado. Como mencionamos, esto se pudo haber probado usando la regla del producto, comparando la $(i,j)$-ésima entrada de $(AB)C$ y la de $A(BC)$, verificando que ambas son iguales a

\begin{align*}
\sum_{k,l} a_{ik}b_{kl} c_{lj}.
\end{align*}

$\square$

Observación. Gracias a la asociatividad del producto, podemos escribir $ABC$ en lugar de $(AB)C$ o de $A(BC)$, aligerando la notación. Esto es más útil con más factores, por ejemplo el poder escribir $ABCD$ en lugar de $(A(BC))D$ o $A(B(CD))$. Así mismo, tampoco tenemos ambigüedad al definir el producto de cualquier número de matrices. Usaremos la notación

\begin{align*}
A^n= A\cdot A\cdot \ddots \cdot A,
\end{align*}

donde el lado derecho tiene $n$ factores. Esta es la $n$-ésima potencia de una matriz cuadrada $A$. Por construcción

\begin{align*}
A^n= A\cdot A^{n-1}.
\end{align*}

Y tomaremos como convención que $A^0=I_n$ para cualquier $A\in M_n(F)$. Dejamos como tarea moral el verificar que $I_n$ actúa como un neutro para la multiplicación, es decir que para cualquier matriz $A$ de tamaño $m\times n$ se tiene

\begin{align*}
A\cdot I_n=A \hspace{2mm} \text{ y } \hspace{2mm} I_m \cdot A=A.
\end{align*}

Acabamos esta sección con un problema para practicar los conceptos vistos.

Problema. Sea $A(x)\in M_3(\mathbb{R})$ la matriz definida por

\begin{align*}
A(x)=\begin{pmatrix} 1 & x& x^2\\ 0 & 1 & 2x\\ 0 & 0 & 1\end{pmatrix}.
\end{align*}

Demuestra que $A(x_1)A(x_2)=A(x_1+x_2)$ para cualesquiera $x_1,x_2\in \mathbb{R}$.

Solución. En este problema es más conveniente usar la regla del producto, que pensar a la composición de transformaciones. En todo problema es recomendable pensar en cuál de las formas del producto conviene más usar.

Usando la regla del producto, tenemos que

\begin{align*}
A(x_1)A(x_2)&= \begin{pmatrix} 1 & x_1 & x_1^2\\ 0 & 1 & 2x_1\\ 0 & 0 & 1 \end{pmatrix}\begin{pmatrix} 1 & x_2 & x_2^2\\ 0 & 1 & 2x_2\\ 0 & 0 & 1 \end{pmatrix}\\
&=\begin{pmatrix} 1 & x_2+x_1 & x_2^2+2x_1 x_2+x_1^2\\
0 & 1 & 2x_2+2x_1\\
0 & 0 & 1\end{pmatrix} \\
&= \begin{pmatrix} 1 & x_1+x_2 & (x_1+x_2)^2\\
0 & 1 & 2(x_1+x_2)\\
0 & 0 & 1 \end{pmatrix}.
\end{align*}

Y el lado derecho es simplemente $A(x_1+x_2)$.

$\square$

Tarea moral

  • Realiza la operación $$\begin{pmatrix}2 & 1 & 0 \\ 1 & 2 & 0 \\ 0 & -1 & 0\end{pmatrix}^4.$$
  • Toma al vector canónico $e_i$ de $F^n$ pensado como matriz en $M_{1n}(F)$ y al vector canónico $e_j$ de $F^n$ pensado como matriz en $M_{n1}(F)$. ¿Quién es el producto de matrices $e_ie_j$? ¿Quién es el producto de matrices $e_je_i$?
  • Verifica las propiedades de compatibilidad con el producto por escalares y distributividad con respecto a la suma del producto de matrices.
  • Verifica que las matrices identidad actúan como neutro para la multiplicación de matrices.
  • Recuerda (o investiga) los axiomas de un anillo con unidad y verifica que las matrices cuadradas de tamaño $n$ forman un anillo con unidad para cualquier $n$.

Más adelante…

Si bien en esta entrada definimos el producto de matrices y estudiamos su relación con la composición de matrices, esto no es más que el primer paso de un estudio más grande: Ahora nos podemos hacer preguntas sobre transformaciones lineales (por ejemplo, ¿será biyectiva o invertible?) y estudiarlas en términos de matrices y su producto. Más adelante en el curso entrará el concepto de determinante que jugará un papel fundamental para responder muchas de estas preguntas.

Entradas relacionadas

Álgebra Lineal I: Matrices como transformaciones lineales

Introducción

En la entrada pasada introdujimos el concepto de vector en $F^n$ y el concepto de matriz en $M_{m,n}(F)$. También definimos las operaciones básicas de suma y producto escalar. En esta entrada exploraremos la relación que existe entre estos. Más precisamente, veremos cómo una matriz define una función que manda vectores en vectores, y cómo algunas de estas funciones (que resultarán ser las transformaciones lineales) nos dan una matriz. Más adelante hablaremos de espacios vectoriales en general y de transformaciones lineales entre ellos. Pero es muy importante entender estos conceptos primero en una situación concreta.

Procederemos construyendo primero la transformación asociada a una matriz. Luego, verificaremos algunas propiedades de la construcción realizada. Finalmente, veremos que hay una biyección entre matrices y transformaciones lineales.

Construir una transformación a partir de una matriz

Comencemos con un campo $F$ y una matriz $A\in M_{m,n}(F)$ con entradas $a_{ij}$, es decir

\begin{align*}
A=\begin{pmatrix}
a_{11} & a_{12} & \ldots & a_{1n}\\
a_{21} & a_{22} & \ldots & a_{2n}\\
& \vdots & \ddots & \vdots\\
a_{m1} & a_{m2} & \ldots & a_{mn}
\end{pmatrix}
\end{align*}

A un vector $X=\begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix} \in F^n$ le podemos asociar un nuevo vector que denotaremos (de manera sugestiva) $AX\in F^m$ (observa el cambio de superíndice) y definimos como $$AX= \begin{pmatrix} a_{11}x_1+a_{12}x_2 +\dots+ a_{1n} x_n \\ a_{21} x_1 +a_{22} x_2 +\dots + a_{2n} x_2 \\ \vdots \\ a_{m1}x_1 +a_{m2} x_2 + \dots +a_{mn}x_n \end{pmatrix}.$$

Así, obtenemos una función de $F^n$ a $ F^m$ que manda a cada vector $X$ de $F^n$ en el vector $AX$ de $F^m$.

Ejemplo: A la matriz $$A=\begin{pmatrix} 1 & 0 & 1 &0 \\ 1 & 2 &3 &4 \\ 0 & 0 & 0 & 1 \end{pmatrix}\in M_{3,4}(\mathbb{R})$$ le asociamos entonces la función $f: \mathbb{R}^4\to \mathbb{R}^3$ definida por $$f\left( \begin{pmatrix} x \\ y \\z \\ w \end{pmatrix} \right) = A\cdot \begin{pmatrix} x \\ y \\ z \\ w \end{pmatrix} = \begin{pmatrix} x+ z\\ x+2y+3z+4w\\ w \end{pmatrix}.$$

$\square$

Observación: Si denotamos por $e_1, \dots, e_n$ a la base canónica de $F^n$ y $A\in M_{m,n}(F)$ tiene entradas $a_{ij}$ entonces

\begin{align*}
Ae_i&=\begin{pmatrix} a_{11}\cdot 0+\dots + a_{1i} \cdot 1+\dots +a_{1n}\cdot 0\\ a_{21}\cdot 0+\dots + a_{2i} \cdot 1+\dots + a_{2n}\cdot 0\\ \vdots \\ a_{n1}\cdot 0 +\dots + a_{ni} \cdot 1+ \dots + a_{nn}\cdot 0 \end{pmatrix}\\
&= \begin{pmatrix} a_{1i}\\ a_{2i}\\ \vdots \\ a_{mi} \end{pmatrix}=C_i.\end{align*}

Dónde, recordamos, $C_i$ es la $i$-ésima columna de $A$. Más generalmente, si $X=\begin{pmatrix} x_1\\ x_2 \\ \vdots \\ x_n \end{pmatrix}\in F^n$ es cualquier vector, entonces $$AX= x_1 C_1+ \dots +x_n C_n.$$

Las sutilezas de esta asignación matriz-transformación se resumen en el siguiente resultado:

Teorema: Para cualesquiera matrices $A,B\in M_{m,n} (F)$, cualesquiera vectores $X,Y\in F^n$ cualesquiera escalares $\alpha, \beta \in F$ se cumple:

  1. $A(\alpha X +\beta Y)=\alpha AX+\beta AY$
  2. $(\alpha A+ \beta B)X= \alpha A X +\beta B X$
  3. Si $AX=BX$ para toda $X\in F^n$, entonces $A=B$.

Demostración: Escribimos $A=[a_{ij}], B=[b_{ij}]$ y $X=\begin{pmatrix} x_1\\ x_2\\ \vdots \\ x_n \end{pmatrix}$ y $Y=\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}$. Así $\alpha A+ \beta B= [\alpha a_{ij}+\beta b_{ij}]$ y $\alpha X+ \beta Y= \begin{pmatrix} \alpha x_1 + \beta y_1 \\ \alpha x_2 +\beta y_2\\ \vdots \\ \alpha x_n +\beta y_n \end{pmatrix} $

  1. Por definición, la $i$-ésima coordenada de $A(\alpha X+ \beta Y)$ es $$\sum_{j=1}^{n} a_{ij}(\alpha x_j+\beta y_j)= \alpha \sum_{j=1}^n a_{ij} x_j+ \beta \sum_{j=1}^{n} a_{ij} y_j.$$ Aquí estamos las propiedades distributivas en $F$. El lado derecho de la ecuación corresponde a la $i$-ésima coordenada de $\alpha AX+\beta AY$, lo que prueba el resultado.
  2. El argumento es esencialmente el mismo, el cálculo esta vez se reduce a la igualdad $$ \sum_{j=1}^{n} \left(\alpha a_{ij}+\beta b_{ij}\right) x_j = \alpha \sum_{j=1}^{n} a_{ij} x_j +\beta \sum_{j=1}^n b_{ij} x_j.$$ Esta sabemos es verdadera por las propiedades distributivas en $F$.
  3. Por hipótesis, tenemos $A e_i = B e_i$ dónde $e_i$ denota el $i$-ésimo elemento de la base canónica de $F^n$. Por la observación anterior, esto implica que la $i$-ésima columna de $A$ es igual a la $i$-ésima columna de $B$, para todo $i$. Luego $A$ y $B$ son iguales.

$\square$

Observa que en las demostraciones (1) y (2) anteriores estamos usando las propiedades del campo $F$ para poder distribuir la suma y producto. A grandes rasgos, lo importante que estamos haciendo es ver que, gracias a que todo sucede entrada a entrada, entonces la distributividad también sucede para matrices y vectores.

La asignación que a cada matriz le asocia una función

La última condición del teorema nos dice que la asignación que manda a cada matriz $A$ a su función $\varphi_A=X\mapsto AX$ (en símbolos, la asignación $A\mapsto \varphi_A$) es inyectiva: si a dos matrices le asociamos la misma función, es porque eran la misma matriz para empezar. Esta asignación tiene como dominio el conjunto de matrices $M_{m,n} (F)$ y como codominio el conjunto de funciones $\varphi: F^n \to F^m$ que (por las parte (1) del último teorema) cumplen $$\varphi(\alpha X +\beta Y)= \alpha \varphi(X)+\beta \varphi(Y)$$ para cualesquiera $\alpha,\beta \in F$ y $X,Y\in F^n$.

A una función (o bien «transformación») $\varphi: F^n \to F^m$ que cumple esta última condición se le llama lineal. Observamos que cualquier transformación lineal satisface $\varphi(0)=0$, ya que si en la condición ponemos $\alpha=\beta=0$ tenemos que $$\varphi(0)=\varphi(0\cdot X+ 0 \cdot Y)= 0\cdot \varphi(X)+0\cdot \varphi(Y)=0.$$ En otras áreas de las matemáticas el término «lineal» denota otro tipo de transformaciones, por ejemplo las de la forma $\psi(X)=aX+b$, que nosotros llamaremos afines. Más que «función lineal» usaremos el término transformación lineal.

El siguiente teorema nos dice que la asignación $A\mapsto \varphi_A$ discutida arriba no es sólo inyectiva, si no también suprayectiva. Es decir, cualquier transformación lineal $\varphi: F^n\to F^m$ es la función asociada de alguna matriz $A\in M_{m,n}(F)$.

Teorema: Sea $\varphi: F^n\to F^m$ una transformación lineal. Existe una única matriz $A\in M_{m,n} (F)$ tal que $\varphi(X)=AX$ para toda $X\in F^n$.

Demostración: La unicidad fue establecida en el último inciso del teorema anterior, basta con verificar existencia. Sea $\varphi: F^n\to F^m$ lineal, y sea $e_1, \dots, e_n$ la base canónica para $F^n$. Construimos la matriz $A$ tal que la $i$-ésima columna $C_i$ es el vector $\varphi(e_i)\in F^m$. Así, por una observación previa, tenemos que $Ae_i= C_i = \varphi(e_i)$ para cualquier $1\leq i \leq n$.

Si $X=\begin{bmatrix} x_1\\ x_2\\ \vdots \\ x_n \end{bmatrix} \in F^n$ es cualquier vector, entonces $X=x_1 e_1 +x_2 e_2 +\dots + x_n e_n$. Como $\varphi$ es lineal, entonces

\begin{align*}
\varphi(X)&=\varphi(x_1 e_1 +x_2 e_2 + \dots + x_n e_n)\\&= x_1 \varphi(e_1)+x_2 \varphi(e_2)+\dots + x_n \varphi(e_n)\\&= x_1 C_1+ x_2 C_2 +\dots + x_n C_n= AX.
\end{align*}

La última igualdad es de nuevo una consecuencia de la observación que hicimos. Luego $\varphi(X)=AX$ para toda $X\in F^n$ y queda así probado el teorema.

$\square$

Tenemos entonces una biyección entre matrices en $M_{m,n}(F)$ y transformaciones lineales $\varphi: F^n\to F^m$. En símbolos $$M_{m,n}(F) \leftrightarrow \lbrace \varphi: F^n \to F^m \mid \varphi \text{ es lineal }\rbrace.$$

Ejemplo: Ya vimos cómo obtener la transformación lineal asociada a una matriz, ahora queremos hacer el proceso inverso. Por ejemplo, si tenemos el mapeo $f: \mathbb{R}^4 \to \mathbb{R}^3$ dado por $$f: (x,y,z,w) \mapsto (x+y-z, 3z-w, z+2y),$$ entonces ¿cuál es la matriz $A$ tal que $f(X)=AX$?

De acuerdo con nuestra demostración del teorema, las columnas de $A$ corresponden a las imágenes $f(e_i)$. Hacemos entonces el cálculo directo:

  • $f(e_1)= f(1,0,0,0)=(1,0,0)$
  • $f(e_2)=f(0,1,0,0)=(1,0,2)$
  • $f(e_3)= f(0,0,1,0)= (-1, 3,1)$
  • $f(e_4)= f(0,0,0,1)=(0,-1,0)$

Así $$A=\begin{pmatrix} 1 & 1 & -1 & 0 \\ 0 & 0 &3 & -1 \\ 0 & 2 & 1 & 0 \end{pmatrix}$$ En realidad, pudimos habernos saltado el cálculo y solo fijarnos en los coeficientes de cada coordenada: La primer coordenada de $f(x,y,z,w)$ no es más que $x+y-z= 1\cdot x+ 1\cdot y +(-1)\cdot z +0\cdot w$, acomodando estos coeficientes $[1\ 1 \ -1 \ 0]$ en las columnas correspondientes nos da el primer renglón de $A$. De manera análoga, con la segunda coordenada recuperamos el segundo renglón y con la tercer coordenada el tercero, y así recuperamos $A$.

$\square$

Tarea moral

  • Encuentra la matriz de la transformación lineal que manda al vector $(x,y,z)$ de $\mathbb{R}^3$ al vector $(x+y+z,x-y+z, x + 3y, 2y-z, 8x+z)$ de $\mathbb{R}^5$.
  • Considera la matriz $A=\begin{pmatrix} 1 & -1 & 1 \\ -1 & 1 & -1 \\ 1 & -1 & 1 \\ -2 & 2 & -2\end{pmatrix}$. Si la pensamos como transformación lineal, ¿de dónde a dónde va? ¿cómo se escribe de manera explícita $AX$ en términos de las coordenadas del vector $X$ al que se le aplica?
  • Sea $A$ la matriz del punto anterior. Sean $X=(1,2,3)$ y $Y=(3,-1,4)$. Encuentra $AX$ y $AY$. Realiza la suma $AX+AY$. Luego, por separado, realiza primero la suma $X+Y$ y usando esto encuentra el valor de $A(X+Y)$. Verifica en en efecto ambos procesos te dan el mismo resultado.
  • Explica por qué no es posible encontrar una matriz que represente a la función que manda al vector $(x,y,z,w)$ de $\mathbb{R}^4$ al vector $(x+y+z+w, xy+yz+zw+wx)$ de $\mathbb{R}^2$.
  • ¿Cuál es la matriz que representa a la transformación lineal que manda al vector $(x_1,x_2,\ldots,x_n)$ de $F^n$ al vector $(x_2,x_3,\ldots,x_n,x_1)$, también de $F^n$?

Más adelante…

La conclusión principal de esta entrada es que para entender transformaciones lineales basta con entender las matrices con entradas en el campo. Este fenómeno será muy recurrente en el álgebra lineal, y muchos problemas de transformaciones lineales se traducen en problemas de matrices y vice-versa. ¡A veces la traducción es tan inmediata que incluso se omite!

Entradas relacionadas

Álgebra Lineal I: Aplicaciones del teorema espectral, bases ortogonales y más propiedades de transformaciones lineales

Introducción

Hoy es la última clase del curso. Ha sido un semestre difícil para todas y todos. El quedarnos en casa, obligados a buscar alternativas digitales que sean de fácil acceso para la mayoría de las personas, aprender a realizar toda nuestra rutina diaria en un mismo espacio; sin dudarlo, un semestre lleno de retos que de una u otra manera, haciendo prueba y error, hemos aprendido a sobrellevar.

El día de hoy terminaremos con el tema de teoría espectral. Veremos algunos problemas donde usaremos las técnicas de búsqueda de eigenvalores y eigenvectores, así como aplicaciones de uno de los teoremas más importante: el Teorema Espectral.

Matrices simétricas, matrices diagonalizables

En entradas anteriores hemos discutido sobre qué condiciones me garantizan que una matriz $A$ es diagonalizable. No volveremos a repetir cuál es la definición de matriz diagonalizable ya que en múltiples ocasiones lo hicimos.

Sabemos que una matriz simétrica en $M_n(\mathbb{R})$ siempre es diagonalizable, gracias al teorema espectral, pero el siguiente problema nos ilustra que si cambiamos de campo $F$, no tenemos la garantía de que las matrices simétricas en $M_n(F)$ también lo sean.

Problema. Demuestra que la matriz simétrica con coeficientes complejos

$A=\begin{pmatrix} 1 & i \\ i & -1 \end{pmatrix}$

no es diagonalizable.

Solución. Por la primera proposición de la clase «Eigenvalores y eigenvectores de transformaciones y matrices», si $A$ fuese diagonalizable, es decir, que existe una matriz invertible $P$ y una diagonal $D$ tal que $A=P^{-1}DP$, entonces $A$ y $D$ tienen los mismos eigenvalores. Entonces, encontremos los eigenvalores de $A$: buscamos $\lambda \in \mathbb{C}$ tal que $\text{det}(\lambda I-A)=0$,

\begin{align*}
\text{det}(\lambda I-A)&=\begin{vmatrix} \lambda -1 & i \\ i & \lambda +1 \end{vmatrix} \\
&=(\lambda-1)(\lambda+1)-i^2=\lambda^2 -1+1 \\
&=\lambda^2=0.
\end{align*}

Por lo tanto, el eigenvalor con multiplicidad 2 de $A$ (y también el eigenvalor de $D$) es $\lambda =0$. Si $D$ es de la forma

$D=\begin{pmatrix} a & 0 \\ 0 & b \end{pmatrix}$,

es fácil ver (y calcular) que sus eigenvalores son $a$ y $b$, pero por lo anterior, podemos concluir que $a=b=0$, y por lo tanto $D$ es la matriz cero. Si fuese así, $A=P^{-1}DP=0$, contradiciendo la definición de $A$.

$\square$

Problema. Sea $A$ una matriz simétrica con entradas reales y supongamos que $A^k=I$ para algún entero positivo $k$. Prueba que $A^2=I$.

Solución. Dado que $A$ es simétrica y con entradas reales, todos sus eigenvalores son reales. Más aún son $k$-raíces de la unidad, entonces deben ser $\pm 1$. Esto implica que todos los eigenvalores de $A^2$ son iguales a 1. Dado que $A^2$ también es simétrica, es diagonalizable y, dado que sus eigenvalores son iguales a 1, por lo tanto $A^2=I$.

$\square$

Más propiedades de transformaciones lineales y bases ortogonales

En otras clases como Cálculo, Análisis, hablamos de funciones continuas, discontinuas, acotadas, divergentes; mientras que en este curso nos hemos enfocado únicamente en la propiedad de linealidad de las transformaciones. Si bien no es interés de este curso, podemos adelantar que, bajo ciertas condiciones del espacio $V$, podemos tener una equivalencia entre continuidad y acotamiento de una transformación.

Decimos que la norma de una transformación está definida como

$\norm{T}=\sup_{x\in V\setminus{0}} \frac{\norm{T(x)}}{\norm{x}}$.

Por ende, decimos que una transformación es acotada si su norma es acotada, $\norm{T}<\infty$.

Problema. Sea $V$ un espacio euclideano y sea $T$ una transformación lineal simétrica en $V$. Sean $\lambda_1,\ldots,\lambda_n$ los eigenvalores de $T$. Prueba que

$\sup_{x\in V\setminus{0}} \frac{\norm{T(x)}}{\norm{x}} =\max_{1\leq i\leq n} |\lambda_i|.$

Solución. Renumerando a los eigenvalores, podemos decir que $\max_i |\lambda_i|=|\lambda_n|$. Sea $e_1,\ldots,e_n$ una base ortonormal de $V$ tal que $T(e_i)=\lambda_i e_i$ para todo $i$. Si $x\in V\setminus {0}$, podemos escribirlo como $x=x_1e_1+\ldots+x_n e_n$ para algunos reales $x_i$. Entonces, por linealidad de $T$,

$T(x)=\sum_{i=1}^n \lambda_i x_ie_i.$

Dado que $|\lambda_i|\leq |\lambda_n|$ para toda $i$, tenemos que

$\frac{\norm{T(x)}}{\norm{x}}=\sqrt{\frac{\sum_{i=1}^n \lambda_i^2 x_i^2}{\sum_{i=1}^n x_i^2}}\leq |\lambda_n|,$

por lo tanto

\begin{align*}
\max_{1\leq i\leq n} |\lambda_i|&=|\lambda_n|=\frac{\norm{T(e_n)}}{\norm{e_n}}\\
&\leq \sup_{x\in V\setminus{0}} \frac{\norm{T(x)}}{\norm{x}}\\
&\leq |\lambda_n|= \max_{1\leq i\leq n} |\lambda_i|.
\end{align*}

Obteniendo lo que queremos.

$\square$

Para finalizar, no olvidemos que una matriz es diagonalizable si y sólo si el espacio tiene una base de eigenvectores, y que está íntimamente relacionado con el teorema espectral.

Problema. Encuentra una base ortogonal consistente con los eigenvectores de la matriz

$A=\frac{1}{7}\begin{pmatrix} -2 & 6 & -3 \\ 6 & 3 & 2 \\ -3 & 2 & 6 \end{pmatrix}.$

Solución. Para encontrar los eigenvectores, primero encontrar los eigenvalores y, después, para cada eigenvalor, encontrar el/los eigenvectores correspondientes.

Calculemos:

\begin{align*}
0&=\text{det}(\lambda I-A)=\begin{vmatrix} \lambda+2/7 & -6/7 & 3/7 \\ -6/7 & \lambda-3/7 & -2/7 \\ 3/7 & -2/7 & \lambda-6/7 \end{vmatrix} \\
&= \lambda^3-\lambda^2-\lambda+1 \\
&= (\lambda -1)(\lambda^2 -1),
\end{align*}

entonces los eigenvalores de $A$ son $1,-1$, ($\lambda=1$ tiene multiplicidad 2).

Ahora, hay que encontrar los vectores $v=(x,y,z)$ tal que $Av=\lambda v$, para todo eigenvalor $\lambda$.

Si $\lambda=-1$,

$(\lambda I-A)v=\frac{1}{7}\begin{pmatrix} -5 & -6 & 3 \\ -6 & -10 & -2 \\ 3 & -2 & -13 \end{pmatrix}v=0, $

reduciendo, obtenemos que $v=(3\alpha, -2\alpha, \alpha)$ para todo $\alpha\in \mathbb{R}$.

Si $\lambda=1$, resolviendo de la misma manera $(\lambda I-A)v=(I-A)v=0$, tenemos que $v=(\beta,\gamma,-3\beta+2\gamma)$ para todo $\beta,\gamma$. Entonces el conjunto de eigenvectores es

$B=\{ v_1=(3,-2,1), \quad v_2=(1,0,-3), \quad v_3=(0,1,2) \}.$

Es fácil ver que el conjunto $B$ es linealmente independiente, más aún $\text{dim}(\mathbb{R}^3)=3=|B|$, por lo tanto, $B$ es la base consistente con los eigenvectores de $A$.

$\square$

Agradecemos su esfuerzo por llegar hasta el final a pesar de todas las adversidades. Esperamos pronto volver a ser sus profesores/ayudantes. Mucha suerte en la última parcial, es el último esfuerzo. Pero también les deseamos mucho éxito en su proyecto de vida. ¡Gracias!

Entradas relacionadas

Álgebra Lineal I: Eigenvalores y eigenvectores de transformaciones y matrices

Introducción

En entradas anteriores ya establecimos los fundamentos para hablar de determinantes. Dimos su definición para el caso de vectores y el caso de matrices/transformaciones lineales. Enunciamos y demostramos varias de sus propiedades. Luego dedicamos toda una entrada a ver formas de calcularlos. Finalmente, vimos que nos pueden ayudar para entender mucho mejor a los sistemas de ecuaciones lineales. Entender bien estos conceptos te será de gran utilidad en tu formación matemática.

Además, los determinantes son un paso natural en uno de nuestros objetivos del curso: entender por qué las matrices simétricas reales son diagonalizables. Recuerda que una matriz $A$ en $M_n(F)$ es diagonalizable si existe una matriz diagonal $D$ y una matriz invertible $P$, ambas en $M_n(F)$, de modo que $$A=P^{-1}DP.$$

Lo que haremos en esta entrada es hablar de esos valores que aparecen en la matriz diagonal $D$ en el caso de que $A$ sea diagonalizable. Resulta que estos valores están relacionados con una pregunta muy natural en términos de lo que le hace la matriz a ciertos vectores. Y mejor aún, como veremos, hay un método para encontrar estos valores por medio de un determinante. Vamos poco a poco.

Eigenvalores y eigenvectores para transformaciones lineales

Sea $V$ un espacio vectorial sobre un campo $F$ y sea $T:V\to V$ una transformación lineal. Para fijar ideas, pensemos en $\mathbb{R}^n$ por el momento. A veces, $T$ simplemente la cambia la magnitud a un vector, sin cambiarle la dirección. Es decir, hay algunos vectores para los cuales $T$ se comporta simplemente como la multiplicación por un escalar. En símbolos, hay vectores $v$ tales que existe un valor $\lambda$ tal que $T(v)=\lambda v$.

Por supuesto, al vector $0$ siempre le pasa esto, pues como $T$ es lineal, se tiene que $T(0)=0=\lambda\cdot 0$ para cualquier escalar $\lambda$. Resulta que cuando se estudian estos vectores y escalares especiales, lo más conveniente es quitar al vector $0$ de la discusión. Estas ideas llevan a la siguiente definición.

Definición. Un eigenvalor de una transformación lineal $T:V\to V$ es un escalar $\lambda$ tal que $\lambda \text{id} – T$ no es invertible. En otras palabras, $\lambda$ es un escalar tal que existe un vector no cero en el kernel de $\lambda \text{id} – T$. A un vector $v\neq 0$ en $V$ tal que $$(\lambda \text{id} – T)v=0,$$ se le conoce como un eigenvector de $T$.

En otras palabras, $v$ es un eigenvector correspondiente a $T$ si $v$ no es cero y $T(v)=\lambda v$. A los eigenvalores y eigenvectores de $T$ también se les conoce en la bibliografía como valores propios y vectores propios de $T$.

Observa que si al conjunto de eigenvectores para un eigenvalor $\lambda$ le agregamos el vector $0$, entonces obtenemos el kernel de una transformación lineal, que sabemos que es un subespacio vectorial.

Veamos un par de ejemplos para que queden más claras las ideas.

Ejemplo. Consideremos a la transformación lineal $T:\mathbb{R}^3\to \mathbb{R}^3$ dada por $$T(x,y,z)=(-2x+15y+18z,3y+10z,z).$$

Observa que
\begin{align*}
T(1,0,0)&=(-2,0,0)\\
&=-2(1,0,0),
\end{align*}

que
\begin{align*}
T(-19,-5,1)&=((-2)(-19)+15(-5)+18,3(-5)+10, 1)\\
&=(28+75-18,-15+10,1)\\
&=(-19,-5,1),
\end{align*}

y que

\begin{align*}
T(3,1,0)&=(-6+15,3,0)\\
&=(9,3,0)\\
&=3(3,1,0).
\end{align*}

Estas igualdades muestran que $(1,0,0)$ es un eigenvector de $T$ con eigenvalor $-2$, que $(-19,-5,1)$ es un eigenvector de $T$ con eigenvalor $1$ y $(3,1,0)$ es un eigenvector de $T$ con eigenvalor $3$.

$\square$

Ejemplo. Consideremos al espacio vectorial $\mathbb{R}[x]$ de polinomios con coeficientes reales. Tomemos la transformación lineal $T$ que manda a un polinomio a su segunda derivada. ¿Quiénes son los eigenvalores y eigenvectores de $T$?

Para que $p$ sea un eigenvector con eigenvalor $\lambda$, tiene que suceder que $$p»=T(p)=\lambda p.$$

Como $p$ no es el vector cero, tiene un cierto grado. Si $\lambda \neq 0$, entonces la igualdad anterior no puede suceder, pues si $p$ es de grado mayor o igual a $2$, entonces el grado de $p»$ es menor al de $\lambda p$, y si el grado de $p$ es $0$ ó $1$, su segunda derivada es $0$, y no puede pasar $\lambda p = 0$. Así, el único eigenvalor que puede tener $T$ es $\lambda = 0$. Observa que sí es válido que los eigenvalores sean cero (los eigenvectores no).

Cuando $\lambda = 0$, tiene que pasar que $p»$ sea $0\cdot p$, es decir, el polinomio cero. Los únicos polinomios tales que su derivada es cero son los constantes y los lineales. Pero el polinomio cero por definición no es eigenvector.

Así, la respuesta final es que el único eigenvalor de $T$ es $0$, y sus eigenvectores correspondientes son los polinomios constantes distintos de cero, y los polinomios lineales.

$\square$

Eigenvalores y eigenvectores para matrices

Tenemos una definición similar para matrices. Sea $A$ una matriz en $M_n(F)$.

Definición. Un escalar $\lambda$ en $F$ es un eigenvalor de $A$ si la matriz $\lambda I_n – A$ no es invertible. En otras palabras, si existe un vector no cero $X$ en $F^n$ tal que $AX=\lambda X$. A un tal vector $X$ se le conoce como un eigenvector correspondiente al eigenvalor $\lambda$.

En otras palabras, los eigenvalores y eigenvectores de $A$ son exactamente los eigenvalores y eigenvectores de la transformación $T_A:\mathbb{F}^n\to \mathbb{F}^n$ dada por $T_A(v)=Av$.

Además, si elegimos cualquier base $B$ de un espacio de dimensión finita $V$ y $A$ es la matriz de $T$ con respecto a la base $B$, entonces para cualquier escalar $\lambda$ se tiene que $\lambda I_n – A$ es la matriz de $\lambda \text{id} – T$ con respecto a esta misma base. De aquí se deduce que los eigenvalores de $T$ son los mismos que los eigenvalores de $A$. Dos matrices que representan a $T$ difieren sólo en un cambio de base, así que obtenemos el siguiente resultado fundamental.

Proposición. Si $A$ es una matriz en $M_n(F)$ y $P$ es una matriz invertible, entonces $A$ y $P^{-1}AP$ tienen los mismos eigenvalores. En otras palabras, matrices similares tienen los mismos eigenvalores.

En el primer ejemplo tomamos la transformación lineal $T:\mathbb{R}^3\to \mathbb{R}^3$ tal que $$T(x,y,z)=(-2x+15y+18z,3y+10z,z).$$ Su matriz en la base canónica de $\mathbb{R}^3$ es $$A=\begin{pmatrix} -2 & 15 & 18\\ 0 & 3 & 10\\ 0 & 0 & 1 \end{pmatrix}.$$ En el ejemplo vimos que los eigenvalores eran $-2$, $1$ y $3$, que precisamente conciden con las entradas en la diagonal de $A$. Esto no es casualidad. El siguiente resultado muestra esto, y es una primer evidencia de la importancia de los determinantes para encontrar los eigenvalores de una matriz.

Proposición. Si $A$ es una matriz triangular (superior o inferior) en $M_n(F)$, entonces sus eigenvalores son exactamente las entradas en su diagonal principal.

Demostración. Haremos el caso para cuando $A$ es triangular superior. El otro caso queda de tarea moral.

Queremos encontrar los valores $\lambda$ para los cuales la matriz $\lambda I_n – A$ no sea invertible. La matriz $A$ es triangular superior, así que la matriz $\lambda I_n – A$ también, pues las entradas de $A$ se vuelven negativas, y luego sólo se altera la diagonal principal.

Si las entradas diagonales de $A$ son $a_{11},\ldots,a_{nn}$, entonces las entradas diagonales de $\lambda I_n -A$ son $$\lambda – a_{11},\ldots,\lambda-a_{nn}.$$

La matriz $\lambda I_n – A$ no es invertible si y sólo si su determinante es igual a cero. Como es una matriz triangular superior, su determinante es el producto de sus entradas diagonales, es decir, $$\det(\lambda I_n – A) = (\lambda – a_{11})\cdot\ldots\cdot(\lambda – a_{nn}).$$

Este producto es $0$ si y sólo si $\lambda$ es igual a alguna entrada $a_{ii}$. De esta forma, los únicos eigenvalores de $A$ son las entradas en su diagonal.

$\square$

Si $A$ es una matriz diagonalizable, entonces es semejante a una matriz diagonal $D$. Por la proposición anterior, los eigenvalores de $A$ serían entonces las entradas en la diagonal principal de $D$. Esto nos da una intuición muy importante: si acaso pudiéramos encontrar todos los eigenvalores de $A$, entonces eso podría ser un paso parcial hacia diagonalizarla.

Encontrar eigenvalores es encontrar las raíces de un polinomio

La siguiente proposición conecta eigenvalores, polinomios y determinantes.

Proposición. Sea $A$ una matriz en $M_n(F)$. Entonces la expresión $$\det(\lambda I_n – A)$$ está en $F[\lambda]$, es decir, es un polinomio en la variable $\lambda$ con coeficientes en $F$. Además, es de grado exactamente $n$.

Demostración. La fórmula para el determinante
\begin{align*}
\begin{vmatrix}
\lambda – a_{11} & -a_{12} & \ldots & -a_{1n}\\
-a_{21} & \lambda – a_{22} & \ldots & -a_{1n}\\
\vdots & & \ddots & \\
-a_{n1} & -a_{n2} & \ldots & \lambda – a_{nn}
\end{vmatrix}
\end{align*}

en términos de permutaciones nos dice que el determinante es sumas de productos de entradas de $A$. Cada una de las entradas es un polinomio en $F[\lambda]$, ya sea constante, o lineal. Como $F[\lambda]$ es cerrado bajo sumas y productos, esto prueba la primer parte de la afirmación.

Para probar que el grado es exactamente $n$, notemos que cada sumando de la expresión multiplica exactamente $n$ entradas. Como las entradas a lo mucho son de grado uno en $F[\lambda]$, entonces cada sumando es un polinomio de grado a lo más $n$. Hay una única forma que el grado sea $n$: cuando se elige la permutación identidad y entonces se obtiene el sumando $$(\lambda-a_{11})\cdot\ldots\cdot(\lambda-a_{nn}).$$

Esto termina la prueba.

$\square$

La proposición anterior nos asegura entonces que la siguiente definición tiene sentido.

Definición. Para $A$ una matriz en $M_n(F)$, el polinomio característico de $A$ es el polinomio $\chi_A(\lambda)$ en $F[\lambda]$ dado por $$\chi_A(\lambda) = \det(\lambda I_n – A).$$

De esta forma, $\lambda$ es un eigenvalor de $A$ si y sólo si es una raíz del polinomio $\chi_A(\lambda)$. Esto son buenas y malas noticias. Por un lado, nos cambia un problema de álgebra lineal a uno de polinomios, en donde a veces tenemos herramientas algebraicas que nos ayudan a encontrar raíces. Sin embargo, como se ve en cursos anteriores, también hay otros polinomios para los cuales es muy difícil encontrar sus raíces de manera exacta. Lo que salva un poco esa situación es que sí existen métodos para aproximar raíces numéricamente de manera computacional.

A pesar de la dificultad de encontrar raíces, sin duda tenemos consecuencias interesantes de esta conexión. Consideremos como ejemplo el siguiente resultado.

Proposición. Una matriz $A$ en $M_n(F)$ tiene a lo más $n$ eigenvalores distintos. Lo mismo es cierto para una transformación lineal $T:V\to V$ para $V$ un espacio vectorial de dimensión $n$.

Demostración. La matriz $A$ tiene tantos eigenvalores como raíces en $F$ tiene su polinomio característico. Como el polinomio característico es de grado exactamente $n$, tiene a lo más $n$ raíces en $F$.

La parte de transformaciones queda de tarea moral.

$\square$

Ya que encontramos los eigenvalores de una matriz o transformación, es posible que queramos encontrar uno o más eigenvectores correspondientes a ese eigenvalor. Observa que eso corresponde a encontrar una solución no trivial al sistema lineal de ecuaciones homogéneo de la forma $$(I_n-A) X = 0.$$ Para ello ya tenemos muchas herramientas, como hacer reducción Gaussiana.

Terminamos esta entrada con un ejemplo de cómo encontrar los valores propios y vectores propios en un caso concreto.

Problema. Encuentra los eigenvalores de la matriz $$A=\begin{pmatrix}1 & 0 & 0\\ 0 & 0 & -1 \\ 0 & 1 & 0 \end{pmatrix}$$ considerándola como:

  • Una matriz en $M_3(\mathbb{R})$
  • Una matriz en $M_3(\mathbb{C})$.

En el caso de $M_n(\mathbb{R})$, encuentra un eigenvector para cada eigenvalor.

Solución. Para encontrar los eigenvalores, tenemos que encontrar el determinante $$\begin{vmatrix}\lambda – 1 & 0 & 0\\ 0 & \lambda & 1 \\ 0 & -1 & \lambda \end{vmatrix}.$$

Usando expansión de Laplace en la primer columna y haciendo las operaciones, obtenemos que el determinante de $\lambda I_3 – A$ es el polinomio $$(\lambda-1)(\lambda^2+1).$$

Aquí es importante la distinción de saber en qué campo estamos trabajando. Si estamos en $M_3(\mathbb{R})$, la única raíz del polinomio es $1$. Si estamos en $M_3(\mathbb{C})$, obtenemos otras dos raíces: $i$ y $-i$.

Ahora, para cuando $A$ es matriz en $M_3(\mathbb{R})$, necesitamos encontrar un eigenvector para el eigenvalor $1$. Esto equivale a encontrar una solución al sistema de ecuaciones $$(I_3-A)X=0,$$ es decir, a $$\begin{pmatrix}0 & 0 & 0\\ 0 & 1 & 1 \\ 0 & -1 & 1\end{pmatrix}X=0.$$

Una solución para este sistema es $X=(1,0,0)$. Y en efecto, $(1,0,0)$ es eigenvector de $A$ para el eigenvalor $1$ pues no es el vector cero y $$\begin{pmatrix}1 & 0 & 0\\ 0 & 0 & -1 \\ 0 & 1 & 0 \end{pmatrix}\begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix} = \begin{pmatrix} 1 + 0 + 0 \\ 0 + 0 + 0 \\ 0 + 0 + 0 \end{pmatrix} = \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix}.$$

$\square$

Observa que la matriz anterior no es diagonalizable en $M_n(\mathbb{R})$, pues si lo fuera tendría que ser semejante a una matriz diagonal $D$ con entradas $i$ y $-i$ en la diagonal, pero entonces $D$ no sería una matriz en $M_n(\mathbb{R})$. Esto nos da otra intuición con respecto a la diagonalización de una matriz: si acaso una matriz en $M_n(F)$ es diagonalizable, entonces su polinomio característico debe tener puras raíces en $F$. Esta es una condición necesaria, pero aún no es suficiente.

Tarea moral

  • En la entrada vimos que los eigenvalores de una transformación $T$ son los eigenvalores de cualquier matriz que la represente. ¿Es cierto que los eigenvectores de $T$ son los eigenvectores de cualquier matriz que lo represente?
  • Muestra que una transformación lineal $T:V\to V$ para $V$ un espacio vectorial de dimensión $n$ tiene a lo más $n$ eigenvalores distintos.
  • Encuentra los eigenvalores de las matrices de permutación.
  • Para un real $\theta\in[0,2\pi)$ se define la matriz $$A(\theta):=\begin{pmatrix} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{pmatrix}.$$ Muestra que $A(\theta)$ tiene eigenvalores reales si y sólo si $\theta=0$ \o $\theta=\pi$. Sugerencia: Encuentra el polinomio característico (que es cuadrático) y calcula su discrimintante. Si es negativo, no tiene soluciones reales.
  • Sea $A$ una matriz en $M_n(F)$. Muestra que la matriz transpuesta $^t A$ tiene los mismos eigenvalores que $A$, y de hecho, el mismo polinomio característico que $A$. Sugerencia. Recuerda que una matriz y su transpuesta tienen el mismo determinante.

Más adelante…

En esta entrada definimos el concepto de eigenvalor y eigenvector para una transformación lineal y para una matriz; y vimos algunas de las propiedades que cumplen. En la siguiente entrada estudiaremos el concepto de polinomio característico utilizando los conceptos que hemos visto en esta entrada y enunciaremos (sin demostración) dos teoremas muy importantes. Luego, pondremos en práctica lo que hemos estudiado resolviendo algunos ejercicios.

Entradas relacionadas

Álgebra Lineal I: Problemas de definición y propiedades de determinantes

Introducción

En esta entrada haremos una serie de problemas que nos ayudarán como repaso de los temas vistos durante las últimas dos semanas. Mostraremos algunas propiedades bastante interesantes acerca de las transformaciones alternantes y antisimétricas, así como de la transformación estrella de esta semana: el determinante.

Problemas de transformaciones antisimétricas

En la entrada del miércoles 6 de mayo, hablábamos sobre la equivalencia entre transformaciones alternantes y antisimétricas, justo resaltamos que ésto no es cierto si el campo $F$ es $\mathbb{Z}_2$, y el siguiente ejemplo lo expone:

Ejemplo. Sea $f:\mathbb{Z}_2 \times \mathbb{Z}_2 \rightarrow \mathbb{Z}_2$ definido como $f(x,y)=xy$. Claramente $f$ es bilineal, pero no es alternate ya que $f(1,1)=1\neq 0$. Por otro lado, $f$ es antisimétrica, porque $f(x,y)+f(y,x)=xy+yx=2xy=0$.

$\square$

De manera natural surge la pregunta: ¿cómo podemos construir una transformación $d$-lineal antisimétrica o alternante? El siguiente problema muestra un camino para obtener una transformación antisimétrica dada un mapeo $d$-lineal $f$.

Problema. Sea $f:V^d \rightarrow W$ una transformación $d$-lineal. Demuestra que

$A(f):=\sum_{\sigma \in S_d} \text{sign}(\sigma) \sigma (f)$

es un mapeo $d$-lineal antisimétrico.

Solución. Es fácil ver que $A(f)$ es una transformación $d$-lineal, dado que $A(f)$ es una combinación lineal de mapeos $d$-lineales. Queremos probar que, para $\tau \in S_d$, $\tau (A(f))=\text{sign}(\tau) A(f)$. Notemos que

\begin{align*}
\tau(A(f)) &= \sum_{\sigma \in S_d} \text{sign}(\sigma) \tau(\sigma(f)) \\
&= \sum_{\sigma \in S_d} \text{sign}(\sigma) (\tau\sigma)(f).
\end{align*}

Usando el hecho que $\text{sign}(\tau)\text{sign}(\sigma)=\text{sign}(\tau\sigma)$ y que $\{ \tau \sigma : \sigma \in S_d \}=S_d$, obtenemos que

\begin{align*}
\text{sign}(\tau)\tau(A(f)) &= \sum_{\sigma \in S_d} \text{sign}(\tau\sigma) (\tau\sigma)(f) \\
&= \sum_{\eta \in S_d} \text{sign}(\eta) (\eta)(f) =A(f).
\end{align*}

Por lo tanto, $\tau(A(f))=\text{sign}(\tau)A(f)$.

$\square$

Problemas de determinantes

Ahora continuando con la discusiones del determinante, sabemos que éste es una forma $n$-lineal alternante, y además que cualquier otra forma $n$-lineal alternante varía de $\det(b_1,\ldots,b_n)$ únicamente por un factor multiplicativo. Otro resultado interesante ese teorema es el siguiente:

Problema. Sea $V$ un espacio vectorial sobre $F$ de dimensión finita. Sea $e_1,\ldots,e_n$ una base de $V$ y sea $T:V\rightarrow V$ una transformación lineal. Demuestra que para todo $v_1,\ldots,v_n\in V$ tenemos que

$\sum_{i=1}^n \det(v_1,\ldots,v_{i-1},T(v_i),v_{i+1},\ldots, v_n) =\text{Tr}(T)\cdot \det(v_1,\ldots,v_n),$

donde todos los determinantes están calculados en la base canónica y $\text{Tr}(T)$ es la traza de la matriz de $T$ (con respecto a la base canónica).

Solución. Definimos el mapeo $\phi:V^n\rightarrow F$ como

$\phi(v_1,\ldots,v_n)=\sum_{i=1}^n \det(v_1,\ldots,v_{i-1},T(v_i),v_{i+1},\ldots,v_n).$

Esta transformación es la suma de transformaciones $n$-lineales, por lo tanto $\phi$ es $n$-lineal. Más aún, es alternante, ya que si asumimos, por ejemplo, que $v_1=v_2$, entonces

\begin{align*}
\phi(v_1,v_1,v_3,\ldots,v_n) &=\det(T(v_1),v_1,v_3,\ldots,v_n)+ \det(v_1,T(v_1),v_3,\ldots,v_n) \\
&+ \sum_{i=3}^n \det(v_1,v_1,\ldots,v_{i-1},T(v_i),v_{i+1},\ldots,v_n) \\
&= \det(T(v_1),v_1,v_3,\ldots,v_n)+ \det(v_1,T(v_1),v_3,\ldots,v_n) \\
&= \det(T(v_1),v_1,v_3,\ldots,v_n)- \det(T(v_1),v_1,v_3,\ldots,v_n) \\
&=0,
\end{align*}

debido a que el determinante es antisimétrico.

Por el último teorema visto en la clase del viernes pasado, existe escalar $\alpha$ tal que

$\phi(v_1,\ldots,v_n)=\alpha \det(v_1,\ldots,v_n)$

para todo $v_1,\ldots,v_n$. Sea $A=[a_{ij}]$ la matriz de $T$ con respecto a la base canónica. Si tomamos $v_1=e_1,\ldots,v_n=e_n$, por el mismo teorema tenemos que

\begin{align*}
\alpha &= \phi(e_1,\ldots,e_n) \\
&=\sum_{i=1}^n \det(e_1,\ldots,e_{i-1},\sum_{j=1}^n a_{ji}e_j, e_{i+1},\ldots,e_n)\\
&=\sum_{i=1}^n \sum_{j=1}^n a_{ji}\det(e_1,\ldots,e_{i-1},e_j,e_{i+1},\ldots,e_n) \\
&= \sum_{i=1}^n a_{ii} = \text{Tr}(T).
\end{align*}

Por lo tanto, obtenemos lo que queremos.

$\square$

Por último, los siguientes dos problemas nos ilustran como podemos obtener información de las matrices de manera fácil y «bonita», usando algunas propiedades de los determinantes vistas en la sesión del martes pasado.

Problema. Sea $n$ un número impar y sean $A,B\in M_n(\mathbb{R})$ matrices tal que $A^2+B^2=0_n$. Prueba que la matriz $AB-BA$ no es invertible.

Solución. Notemos que

$(A+iB)(A-iB)=A^2+B^2+i(BA-AB)=i(BA-AB).$

Por la propiedad del determinante de un producto, tenemos que

$\det(A+iB)\det(A-iB)=i^n \det(BA-AB).$

Suponemos que $AB-BA$ es invertible, entonces $\det(BA-AB)\neq 0$. Además sabemos que

$\det(A-iB)=\det(\overline{A+iB})=\overline{\det(A+iB)},$

esto implica que $|\det(A+iB)|^2=i^n\det(BA-AB).$ Como consecuencia, $i^n$ es un número real, contradiciendo al hecho que $n$ es impar. Por lo tanto $\det(BA-AB)=0$.

$\square$

Problema. Para $1\leq i,j\leq n$, definimos $a_{ij}$ como el número de divisores positivos en común de $i$ y $j$ y definimos $b_{ij}$ igual a 1 si $j$ divide $i$ e igual a 0 si no.

  1. Probar que $A=B\cdot ^t B$, donde $A=[a_{ij}]$ y $B=[b_{ij}]$.
  2. ¿Qué podemos decir de la forma de $B$?
  3. Calcula $\det(A)$.

Solución. 1) Fijando $i,j$ tenemos que

$\det(B\cdot ^t B)_{ij}=\sum{k=1}^n b_{ik}b_{jk}.$

Notemos que $b_{ik}b_{jk}$ no es cero ($b_{ij},b_{jk}=1$) si y sólo si $k$ divide a $i$ y a $j$, esto implica que la cantidad de términos de la suma no ceros corresponde exactamente con la cantidad de los divisores en común que tengan $i$ y $j$. Por lo tanto $\det(B\cdot ^tB)_{ij}=a_{ij}$.

2) Si $i<j$, no es posible que $j$ divida a $i$. Entonces $b_{ij}=0$ para todo $i<j$, esto significa que $B$ es, al menos, triangular inferior. Un dato más que podemos asegurar es que $b_{ii}=1$ para toda $i$, por lo tanto, al menos, todos los términos de la diagonal de $B$ son iguales a 1.

3) Dada la propiedad multiplicativa del determinante, dado que $\det(B)=\det(^tB)$ y usando el inciso (1), tenemos que $\det(A)=\det(B\cdot ^tB)=(\det B)^2.$ Pero por el inciso (2), $\det B=1$, concluimos que $\det A=1$.

$\square$

Entradas relacionadas