Archivo de la etiqueta: diagonalización

Cálculo Diferencial e Integral III: Representaciones matriciales, eigenvalores y eigenvectores

Por Alejandro Antonio Estrada Franco

Introducción

Como se ha mencionado anteriormente el objetivo de introducir ideas de álgebra lineal en cálculo diferencial es poder establecer una transformación lineal que sea la mejor aproximación lineal en un punto a una función dada. Esto nos ayudará a entender a la función dada en el punto términos de otra funcion «más simple». Pero así mismo, las transformaciones lineales pueden ellas mismas pensarse en términos de transformaciones más sencillas. En esta entrada revisaremos esta idea y la conectaremos con la noción de eigenvectores.

Por un lado, recordaremos cómo es que una transformación lineal puede ser representada mediante una matriz una vez que se ha elegido una base del espacio vectorial. Luego, hablaremos de cómo elegir, de entre todas las bases, aquella que nos de una representación matricial lo más sencilla posible.

Representación matricial de las transformaciones lineales

Comencemos esta entrada repasando la importante relación entre transformaciones lineales y matrices. Denotaremos como $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ al espacio vectorial de transformaciones lineales de $\mathbb{R}^n$ a $\mathbb{R}^m$.

Si tomamos cualquier transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, entonces los valores de $T$ en cualquier vector de $\mathbb{R}^n$ quedan totalmente determinados por los valores de $T$ en los elementos de alguna base $\beta$ para $\mathbb{R}^n$. Tomemos $\gamma=\{w_{1},\dots ,w_{m}\}$ una base ordenada para $\mathbb{R}^m$, y $\beta=\{e_{1},\dots ,e_{n}\}$ una base ordenada para $\mathbb{R}^n$. Para cada $e_{k}$ tenemos:

$$\begin{equation} T(e_{k})=\sum_{i=1}^{m}t_{ik}w_{i} \end{equation},$$

para algunos escalares $t_{1k},\dots ,t_{mk}$ que justo son las componentes de $T(e_{k})$ en la base $\gamma$. Con estos escalares, podemos considerar la matriz: \[ \text{Mat}_{\gamma,\beta}(T)= \begin{pmatrix} t_{11} & \dots & t_{1n} \\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \]

Esta es llamada la representación matricial de la transformación $T$ con respecto a las bases $\beta$ y $\gamma$. Esta matriz ayuda a calcular $T$ en cualquier vector de $\mathbb{R}^n$ como explicamos a continuación.

Para cada $v\in \mathbb{R}^n$, podemos expresarlo como combinación lineal de elementos de la base $\beta$ digamos que $v=\sum_{i=1}^{n} v_{i}e_{i}$. Mediante estos coeficientes, podemos entonces asociar a $v$ al siguiente vector columna de $\mathbb{R}^n$ \[ [v]_{\beta}=\begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}, \]

al que llamamos el vector de coordenadas de $v$ con respecto a la base $\beta$.

Realicemos por un lado el siguiente cálculo:

\[ \text{Mat}_{\gamma,\beta}(T)[v]_{\beta}=\begin{pmatrix} t_{11} & \dots & t_{1n}\\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}=\begin{pmatrix} \displaystyle\sum_{k=1}^{n}t_{1k}v_{k} \\ \vdots \\ \displaystyle\sum_{k=1}^{n}t_{mk}v_{k}.\end{pmatrix} \]

Por otro lado tenemos lo siguiente:

\begin{align*}
T(v)&=T \left( \sum_{k=1}^{n}v_{k}e_{k} \right)\\&=\sum_{k=1}^{n}v_{k}T(e_{k})\\&=\sum_{k=1}^{n}v_{k}T\left( \sum_{i=1}^{m}t_{ik}w_{i} \right)\\&=\sum_{i=1}^{m}\left( \sum_{k=1}^{n}v_{k}t_{ik} \right)w_{i}.
\end{align*}

Juntando ambos cálculos: \[ [T(v)]_{\gamma}=\begin{pmatrix} \sum_{k=1}^{n}v_{k}t_{1k} \\ \vdots \\ \sum_{k=1}^{n}v_{k}t_{mk} \end{pmatrix} = \text{Mat}_{\gamma,\beta}(T)[v]_{\beta}.\]

En otras palabras, aplicar $T$ a un vector $v$ equivale a multiplicar $\text{Mat}_{\gamma,\beta}$ por el vector columna asociado a $v$ en la base $\beta$, en el sentido de que tras hacer este producto recuperamos el vector de coordenadas para $T(v)$ en la base $\gamma$.

Isomorfismo entre transformaciones lineales y matrices

Con las operaciones de suma y multiplicación por escalar que vimos en la entrada de Matrices, se tiene que $M_{m,n}\left( \mathbb{R} \right)$ es un espacio vectorial sobre $\mathbb{R}$. De igual manera $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ es un espacio vectorial sobre $\mathbb{R}$ con las siguientes operaciones:

  • Si $T$ y $U$ son dos transformaciones, la transformación $T+U$ es aquella que envía a todo vector $v\in \mathbb{R}^n$ al vector $T(v)+U(v)$.
  • Si $r\in \mathbb{R}$ la transformación $rT$ es la que a todo $v\in \mathbb{R}^n$ lo envía al vector $rT(v)$.

Queda como ejercicio que verifiques que esto dota efectivamente a $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ de estructura de espacio vectorial.

A continuación veremos que estos dos espacios vectoriales son, prácticamente, el mismo. Lo que haremos es construir una función $$\Phi :M_{m,n}\left( \mathbb{R} \right) \to\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$$ que sea biyectiva y que preserve las operaciones de suma y de producto escalar.

Para ello, tomemos una base $\beta=\{e_1,\ldots,e_n\}$ de $\mathbb{R}^{n}$ y una base $\gamma=\{u_1,\ldots,u_m\}$ de $\mathbb{R}^m$. Tomemos una matriz $A\in M_{m,n}(\mathbb{R})$. Explicaremos a continuación cómo construir la transformación $\Phi(A)$, para lo cual diremos qué hace en cada elemento de la base $\beta$. Tomaremos aquella transformación lineal $T_A\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ tal que

$$T_A(e_j)=\sum_{i=1}^n a_{ij} u_i.$$

Tomamos entonces $\varphi(A)=T_A$. Veamos que $\varphi$ tiene todas las propiedades que queremos.

  • $\Phi$ es suprayectiva. Si tenemos una transformación $T:\mathbb{R}^n\to \mathbb{R}^m$, entonces por la construcción anterior se tiene que su forma matricial $A:=\text{Mat}_{\gamma,\beta}(T)$ justo cumple $T_A=T$, de modo que $\Phi(A)=T$.
  • $\Phi$ es inyectiva. Si $A$ y $B$ son matrices distintas, entonces difieren en alguna entrada, digamos $(i,j)$. Pero entonces $T_A$ y $T_B$ difieren ya que $T_A(e_j)\neq T_B(e_j)$ ya que en las combinaciones lineadas creadas hay un coeficiente distinto. Así, $\Phi(A)\neq \Phi(B)$.
  • $\Phi $ es lineal. Para $r\in \mathbb{R}$, $A$ y $B$ matrices con entradas $a_{ij}$ y $b_{ij}$, respectivamente, se cumple que $\Phi \left( rA+B \right)=T_{(rA+B)}$ y entonces se satisface para cada $j=1,\dots ,n$ lo siguiente:
    \begin{align*}
    (rA+B)[e_{j}]_{\beta}&=rA[e_{j}]_{\beta}+B[e_{j}]_{\beta}\\&=r[T_A(e_{i})]_{\gamma}+[T_{B}(e_{i})]_{\gamma}.
    \end{align*}
    Por tanto para cada $e_{i}$ tenemos que $$T_{(rA+B)}(e_{i})=rT_{A}(e_{i})+T_{B}(e_{i})$$ y en consecuencia $$T_{(rA+B)}=rT_{A}+T_{B}.$$ Así $$\Phi (rA+B)=r\Phi (A)+\Phi(B).$$

Todo lo anterior implica que $M_{m,n}\left( \mathbb{R} \right)\simeq \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, es decir, que ambos espacios vectoriales son isomorfos.

En búsqueda de una matriz sencilla

Por lo que hemos platicado hasta ahora, a cada transformación lineal le corresponde una matriz, y viceversa. De hecho, esta asociación respeta operacionescomo la suma y el producto escalar. Esta equivalencia está dada a partir de la función $\Phi$ encontrada en la sección anterior.

Si $\Phi $ es biyectiva, ¿por qué hablamos entonces de encontrar una representación matricial simple para una transformación lineal $T$? Esto parecería no tener sentido, pues a cada transformación le corresponde una y sólo una matriz. Sin embargo, esto es cierto únicamente tras haber fijado las bases $\beta$ y $\gamma$ para $\mathbb{R}^n$ y $\mathbb{R}^m$, respectivamente. Así, dependiendo de la elección de las bases las representaciones matriciales cambian y si tenemos una transformación lineal $T$, es posible que querramos encontrar bases $\beta$ y $\gamma$ en donde la representación matricial sea sencilla.

Nos enfocaremos únicamente en transformaciones lineales que van de un espacio vectorial a sí mismo. Tomemos entonces $T:\mathbb{R}^n\to \mathbb{R}^n$ y una base $\beta$ de $\mathbb{R}^n$. Por simplicidad, escribiremos $\text{Mat}_{\beta, \beta}(T)$ simplemente como $\text{Mat}_{\beta}(T)$. Hay propiedades de $T$ que podemos leer en su matriz $\text{Mat}_{\beta}(T)$ y que no dependen de la base $\beta$ que hayamos elegido. Si con una base $\beta$ especial resulta que $\text{Mat}_{\beta}(T)$ es muy sencilla, entonces podremos leer estas propiedades de $T$ muy fácilmente. Un ejemplo es la siguiente proposición, la cual queda como tarea moral.

Proposición. La transformación lineal $T:\mathbb{R}^n\to\mathbb{R}^n$ es invertible si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.

Si $A=\text{Mat}_{\beta}(T)$ fuera muy muy sencilla, por ejemplo, si fuera una matriz diagonal, entonces podríamos saber la invertibilidad de $T$ sabiendo la invertibilidad de $A$, y la de $A$ sería muy fácil de ver pues por ser matriz diagonal bastaría hacer el producto de las entradas de su diagonal para obtener su determinante y estudiar si es distinto de cero.

Motivados por el ejemplo anterior, estudiemos la siguiente pregunta: ¿toda transformación lineal se puede representar con una matriz diagonal? Si una transformación lineal se puede representar de esta manera, diremos que es diagonalizable.

Eigenvalores, eigenvectores y eigenespacios

En lo que sigue repasaremos el aparato conceptual que nos permitirá dar una respuesta parcial de cuándo una matriz es diagonalizable. Un tratamiento mucho más detallado se puede encontrar aquí en el blog, en el curso de Álgebra Lineal II, comenzando con la entrada Eigenvectores y eigenvalores.

Para nuestro repaso, debemos introducir algunos conceptos y estudiarlos.

Definición. Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal. Diremos que un escalar $r \in \mathbb{R}$ es un eigenvalor de $T$ si existe $v\in \mathbb{R}^n\setminus\{ 0 \}$ tal que $T(v)=rv$. A dicho vector $v$ le llamaremos un eigenvector de $T$ con eigenvalor asociado $r$.

Dado un eigenvector $v\in \mathbb{R}^n$, sólo hay un eigenvalor correspondiente a este. Si $T(v)=rv$ y $T(v)=tv$, entonces $rv=tv$ de donde $(r-t)v=0$. Como $v\neq 0$, se sigue que $r=t$.

Por otro lado, para un eigenvalor $r$ puede haber más de un eigenvector con eigenvalor asociado $r$. Consideremos para un eigenvalor $r$ el conjunto $E(r)=\{ v\in V |T(v)=rv\}$. Notemos que $0\in E(r)$ y también todos los eigenvectores de $r$ están en $E(r)$. Además, $E(r)$ es un subespacio de $\mathbb{R}^n$, pues si $u,v \in E(r)$, y $a\in \mathbb{R}$, tenemos

\begin{align*}
T(au+v)&=aT(u)+T(v)\\
&=a(ru)+(rv)\\
&=r(au+v),
\end{align*}

lo cual implica que $au+v \in E(r)$.

Definición. Para una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ y un eigenvalor $r$ de $T$ llamaremos a

$$E(r)=\{ v\in V |T(v)=rv\}$$

el eigenespacio de $T$ correspondiente a $r$.

Cuando tenemos eigenvectores correspondientes a eigenvalores distintos, cumplen algo especial.

Proposición. Si $v_{1}, \dots ,v_{l}$ son eigenvectores de una transformación lineal $T:\mathbb{R}^n \rightarrow \mathbb{R}^n$ con eigenvalores correspondientes $r_{1}, \dots ,r_{l}$ distintos entonces $v_{1}, \dots ,v_{l}$ son linealmente independientes.

Demostración. La ruta para establecer la demostración de este teorema será por inducción sobre $l$. Para un conjunto con solo un eigenvector el resultado es evidente (¿por que?). Supongamos cierto para cualquier subconjunto de $l-1$ eigenvectores que pertenecen a eigenespacios distintos. Sean $v_{1}, \dots ,v_{l}$ eigenvectores en distintos eigenespacios y consideremos $\alpha _{1}, \dots ,\alpha_{l}$ escalares tales que:

\begin{equation}
\label{eq:comb-cero}
\sum_{k=1}^{l}\alpha _{k}v_{k}=0.
\end{equation}

Aplicamos $T$ a la igualdad anterior. Usando que cada $v_{k}$ es eigenvector correspondiente al eigenvalor $r_{k}$ obtenemos:

\begin{align*}
0=T(0)&=T\left(\sum_{k=1}^{l}\alpha _{k}v_{k} \right)\\&=\sum_{k=1}^{l}\alpha _{k}T(v_{k})\\&=\sum_{k=1}^{l}\alpha _{k}r_{k}v_{k}.
\end{align*}

Es decir,

\begin{equation}
\label{eq:aplicarT}
0=\sum_{k=1}^{l}\alpha _{k}r_{k}v_{k}
\end{equation}

Multipliquemos \eqref{eq:comb-cero} por $r_{l}$ y restemos el resultado de \eqref{eq:aplicarT} para obtener que

\begin{align*}
0=0-0&=\sum_{k=1}^{l}\alpha _{k}r_{k}v_{k}-r_{l}\sum_{k=1}^{l}\alpha _{k}v_{k}\\&=\sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})v_{k}.
\end{align*}

Tenemos entonces:

\[ \sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})v_{k}=0.\]

Ya que por hipótesis de inducción $v_{1}, \dots ,v_{l-1}$ son linealmente independientes entonces $\alpha _{k}(r_{k}-r_{l})=0$ para todo $k$, pero los eigenvalores son todos distintos entre sí por lo tanto para todo $k$ de $1$ a $l-1$ se tiene $r_{k}-r_{l}\neq 0$ y así $\alpha _{k}=0$. Finalmente, usando \eqref{eq:comb-cero} obtenemos $\alpha_l=0$. Por lo tanto $v_{1}, \dots ,v_{l}$ son linealmente independientes.

$\square$

Eigenvectores y transformaciones diagonalizables

Recuerda que dijimos que una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ es diagonalizable si existe una base $\beta$ de $\mathbb{R}^n$ tal que $\text{Mat}_{\beta}(T)$ es matriz diagonal. El siguiente resultado conecta las dos ideas que hemos estado explorando: los eigenvectores y la representabilidad sencilla de $T$.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ transformación lineal. Una matriz $T$ es diagonalizable si y sólo si existe una base de $\mathbb{R}^n$ conformada por eigenvectores de $T$.

En realidad la demostración consiste únicamente en entender correctamente cómo se construyen las matrices para una base dada.

Demostración. $\Rightarrow )$ Supongamos que $T$ tiene una representación matricial que es una matriz diagonal $A:=\text{Mat}_{\beta}(T)=\text{diag}(r_{1}, \dots ,r_{n})$ con respecto a la base $\beta=\{ v_{1}, \dots ,v_{n}\}$. Afirmamos que para cada $j=1,\ldots,n$ se tiene $v_j$ es eigevector de eigenvalor $r_j$. En efecto, la forma en la que se construyó la matriz $A$ nos dice que

\begin{align*}
T(e_j)&=\sum_{i=1}^n a_{ij} e_i \\&= a_{jj} e_j \\&= r_j e_j,
\end{align*}

en donde estamos usando que las entradas $a_{ij}$ de la matriz son cero si $i\neq j$ (por ser diagonal), y son $r_j$ si $i=j$. Por supuesto, como $e_j$ forma parte de una base, tampoco es el vector cero. Así, $e_j$ es eigenvector de eigenvalor $e_j$.

$\Leftarrow )$ Supongamos ahora que $v_{1},\dots ,v_{n}$ son una base $\beta$ de $\mathbb{R}^n$ conformada por eigenvectores de $T$ con eigenvalores asociados, digamos, $r_{1},\dots ,r_{n}$. Aquí se puede mostrar que $\text{Mat}_\beta(T)$ es diagonal. Queda como tarea moral hacer las cuentas.

$\square$

Hay una situación particular en la que podemos aprovechar el teorema anterior de manera inmediata: cuando la transformación tiene $n$ eigenvalores distintos. Esta consecuencia queda establecida en el siguiente resultado.

Corolario. Toda transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ tiene a lo más $n$ eigenvalores distintos. Si $T$ tiene exactamente $n$ eigenvalores distintos, entonces los eigenvectores correspondientes forman una base para $\mathbb{R}^n$ y la matriz de $T$ relativa a esa base es una matriz diagonal con los eigenvalores como elementos diagonales.

Demostración. Queda como tarea moral. Como sugerencia, recuerda que mostramos arriba que eigenvectores de eigenvalores distintos son linealmente independientes.

$\square$

Al parecer los eigenvalores, eigenvectores y eigenespacios de una transformación lineal son cruciales para poder expresarla de manera sencilla. ¿Cómo los encontramos? Esto lo veremos en la siguiente entrada.

Antes de concluir, mencionamos que hay otro teorema crucial sobre diagonalización de matrices. Diremos que una matriz $P\in M_n(\mathbb{R})$ es ortogonal si $P^tP=I$.

Teorema (el teorema espectral). Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces, existe una matriz ortogonal $P$ tal que $PAP^t$ es una matriz diagonal.

El teorema anterior nos dice no únicamente que la matriz $A$ es diagonalizable, sino que además es diagonalizable mediante un tipo muy especial de matrices. Un estudio y demostración de este teorema queda fuera de los alcances de nuestro curso, pero puedes revisar, por ejemplo la entrada teorema espectral del curso de Álgebra Lineal I que tenemos en el blog.

Más adelante

Lo que haremos en la siguiente entrada es desarrollar un método para conocer los eigenvalores de una matriz. A partir de ellos podremos encontrar sus eigenvectores. Y en ciertos casos especiales, esto nos permitirá mostrar que la transformación es diagonalizable y, de hecho, nos dará la base para la cual la matriz asociada es diagonal.

Tarea moral

  1. Considera la transformación lineal de $\mathbb{R}^{3}$ en $\mathbb{R}^{2}$, dada como $T(x,y,z)=(x+y,z+y)$. Encuentra su representación matricial con las bases canónicas de $\mathbb{R}^3$ y $\mathbb{R}^2$. Luego, encuentra su representación matricial con las bases $\{(1,2,3),(1,0,1),(0,-1,0)\}$ de $\mathbb{R}^3$ y $\{(1,1),(1,-1)\}$ de $\mathbb{R}^2$.
  2. Considera la siguiente matriz: \[ \begin{pmatrix} 1 & 0 & 2 & 3 \\ 0 & -1 & 0 & 2 \\ \end{pmatrix}\] Da una transformación lineal $T:\mathbb{R}^4\to \mathbb{R}^2$ y ciertas bases $\beta$ de $\mathbb{R}^4$ y $\gamma$ de $\mathbb{R}^2$ para las cuales esta matriz sea la representación matricial de $T$ en las bases $\beta$ y $\gamma$.
  3. Fija bases $\beta$, $\gamma$ y $\delta$ para $\mathbb{R}^n$, $\mathbb{R}^m$ y $\mathbb{R}^l$. Considera dos transformaciones lineales $T:\mathbb{R}^n\to \mathbb{R}^m$ y $S:\mathbb{R}^m\to \mathbb{R}^l$. Demuestra que:
    $$\text{Mat}_{\delta, \beta} (S \circ T) = \text{Mat}_{\delta,\gamma}(S) \text{Mat}_{\gamma, \beta} (T).$$
    En otras palabras que la «composición de transformaciones corresponde al producto de sus matrices».
  4. Sea $T:\mathbb{R}^n\to\mathbb{R}^n$ una transformación lineal y $\beta$ una base de $\mathbb{R}^n$. Demuestra que $T$ es biyectiva si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.
  5. Verifica que los vectores $v_1,\ldots,v_n$ dados en el último teorema en efecto ayudan a dar una representación matricial diagonal para $T$.
  6. La demostración del último corolario es un conjunto de sencillas consecuencias de las definiciones y teoremas desarrollados en esta entrada con respecto a los eigenvalores y eigenvectores. Realiza esta demostración.

Entradas relacionadas

Geometría Analítica I: Diagonalización ortogonal de matrices simétricas

Por Paola Lizeth Rojas Salazar

Introducción

Anteriormente, estudiamos los vectores y valores propios de las matrices simétricas, en esta entrada vamos a usar que ya sabemos muchas cosas sobre el comportamiento respecto al producto interior, para hablar sobre la diagonalización ortogonal de matrices simétricas, cuyo procedimiento inicia resolviendo su polinomio característico.

Teoremas importantes

Antes de ver el proceso para la diagonalización ortogonal de matrices simétricas, vamos a enunciar un lema y un teorema que van a justificar la «receta» a seguir para esta diagonalización.

Lema 4.12: Considera una matriz simétrica $A$. Si $\lambda_1, u$ y $\lambda_2, v$, son pares propios de $A$ con $\lambda_1\neq \lambda_2$, entonces $u$ y $v$ son ortogonales.

Demostración

Sabemos que:

\begin{equation} \lambda_1(u\cdot v)=(\lambda_1u)\cdot v= Au\cdot v=u\cdot Av=u\cdot(\lambda_2 v)=\lambda_2(u\cdot v)\end{equation}

Esto implica que $(\lambda_1 – \lambda_2)(u\cdot v)=0$

Y $\lambda_1\neq \lambda_2$, entonces $u\cdot v$=0.

Con lo que hemos terminado la demostración.

Teorema 4.13: Considera una matriz simétrica de $2×2$, $A$. Entonces existe una rotación $B\in O(2)$ tal que $B^TAB$ es diagonal de la siguiente forma:

\begin{equation}\begin{pmatrix} \lambda_1 & 0 \\ 0 & \lambda_2\end{pmatrix}\end{equation}

Con $\lambda_1$ y $\lambda_2$, los valores propios de $A$.

Demostración

Por las entradas anteriores, las siguientes implicaciones son ciertas, puedes comprobarlo tú mismo con facilidad.

Como $A$ es simétrica de $2×2$, entonces $A$ tiene valores propios $\lambda_1, \lambda_2 \in \mathbb R$.

Caso 1 $\lambda_1=\lambda_2$

Entonces $A$ es diagonal y puede tomarse a $B$ como la matriz identidad que es rotación en $O(2)$.

Caso 2 $\lambda_1\neq \lambda_2$

Consideramos a $u, v$, los vectores propios correspondientes a $\lambda_1$ y $\lambda_2$. Observa que $u$ es diferente al vector cero.

Sabemos que $u$ y $v$ son ortogonales, entonces $v$ es paralelo a $u^T$ que también es vector propio correspondiente a $\lambda_2$.

Considera $B=\frac{1}{|u|} (u, u^T)$, donde se puede comprobar fácilmente que $B$ es la matriz de una rotación y que cumple que $B^TAB$ es diagonal.

«Receta»

Ingredientes

  1. Una matriz simétrica $A=A^T$ de $2×2$

Procedimiento

  1. Resolver su polinomio característico con $det(A-\lambda I)$.
  2. Encontrar $u\neq 0$ tal que $(A-\lambda_1 I)u=0$.
  3. Declarar $B=\frac{1}{|u|} (u, u^T)$.
  4. La matriz diagonal, con entradas $\lambda_1$ y $\lambda_2$, estará dada por $B^TAB$.

Tarea moral

  1. Termina de escribir la demostración del Teorema 4.13.
  2. Demuestra que, si una matriz $A$ cualquiera, tiene dos valores propios distintos, entonces existe una matriz $B\in Gl(2)$ tal que $B^{-1}AB$ es diagonal.
  3. Encuentra la matriz $B$ de una rotación que diagonalice las siguientes matrices simétricas: Además, calcula $B^TAB$:
    • \begin{equation}A=\begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}\end{equation}
    • \begin{equation}A=\begin{pmatrix} -6 & 12 \\ 12 & 1 \end{pmatrix}\end{equation}
    • \begin{equation}A=\begin{pmatrix} -7 & -6 \\ -6 & 2 \end{pmatrix}\end{equation}

Más adelante…

Avanza a las siguientes entradas, en las que usaremos estos conocimientos para dar dos nuevas formas de clasificación de las curvas.

Álgebra Lineal II: El teorema espectral real

Por Ayax Calderón

Introducción

Por lo que estudiamos en la primera parte de este curso, ya sabemos cuándo una matriz arbitraria es diagonalizable. Lo que haremos ahora es enunciar y demostrar el teorema espectral en el caso real. Una de las cosas que nos dice es que las matrices simétricas reales son diagonalizables. Pero nos dice todavía más. También nos garantiza que la manera en la que se diagonalizan es a través de una matriz ortogonal. Esto combina mucho de la teoría que hemos cubierto. Además, gracias al teorema espectral podremos, posteriormente, demostrar el famoso teorema de descomposicion polar que nos dice cómo son todas las matrices.

Resultados preliminares para el teorema espectral real

Comencemos enunciando algunas propiedades que tienen las matrices y transformaciones simétricas. El primero habla de cómo son los eigenvalores de las matrices simétricas.

Lema. Sea $A\in M_n({\mathbb{R}})$ una matriz simétrica. Entonces todas las raíces del polinomio característico de $A$ son números reales.

Demostración. Tomemos $A\in M_n(\mathbb{R})$ y sea $\lambda$. Su polinomio característico está en $\mathbb{R}[x]$, así que por el teorema fundamental del álgebra todas sus raíces están en $\mathbb{C}$. Sea $t$ una raíz del polinomio característico de $A$.

Pensemos a $A$ como un elemento de $M_n(\mathbb{C})$. Como $\det (tI_n-A)=0$, entonces $t$ es eigenvalor y por lo tanto hay un eigenvector $X\in\mathbb{C}^n$ no nulo tal que $AX=tX$. Como el vector tiene entradas complejas, lo podemos escribir como $X=Y+iZ$ para dos vectores $Y,Z\in \mathbb{R}^n$. Así mismo, podemos escribir a $t$ como $t=a+ib$ con $a$ y $b$ números reales.

Con esta notación, de la igualdad $AX=tX$ se sigue que

\begin{align*}
AY+iAZ&=AX\\
&=(a+ib)(Y+iZ)\\
&=aY-bZ+i(aZ+bY).
\end{align*}

Igualando las partes imaginarias y las partes reales obtenemos que

\begin{equation}\label{1}
AY=aY-bZ, \hspace{4mm} AZ=aZ+bY.
\end{equation}

Usemos ahora que $A$ es simétrica. Tenemos que
\begin{equation}\label{2}
\langle AY,Z \rangle=\langle Y, AZ \rangle.
\end{equation}

Sustituyendo la primera igualdad de \eqref{1} en el lado izquierdo de \eqref{2}, y la segunda igualdad de \eqref{1} en el lado derecho de \eqref{2}, obtenemos que:

\begin{equation*}
\langle aY-bZ,Z \rangle=\langle Y, aZ+bY \rangle,
\end{equation*}

y usando la linealidad del producto interior, se obtiene que

\begin{equation*}
a\langle Y,Z \rangle – b\langle Z,Z\rangle =a\langle Y, Z \rangle + b \langle Y , Y \rangle.
\end{equation*}

Se sigue que
$$b(||Y||^2+||Z||^2)=0$$ y como $Y$ o $Z$ es distinto de cero (de lo contrario tendríamos que $X=0$), entonces concluimos que $b=0$ y con ellos que $t$ es un número real.

$\square$

El segundo lema que veremos nos dice qué sucede cuando una transformación lineal es simétrica y tomamos un subespacio estable bajo ella. Recuerda que un subespacio $W$ de un espacio vectorial $V$ es estable bajo una transformación lineal $T:V\to V$ si $T(W)\subseteq W$.

Lema. Sea $V$ un espacio euclidiano y $T:V\to V$ una transformación lineal simétrica sobre $V$. Sea $W$ un subespacio de $V$ estable bajo $T$. Entonces

  1. $W^\bot$ también es estable bajo $T$.
  2. Las restricciones de $T$ a $W$ y $W^\bot$ son transformaciones lineales simétricas sobre estos espacios.

Demostración.

1. Tomemos $x\in W^\bot$. Nos gustaría ver que $T(x)\in W^\bot$. Para ello, tomemos $y\in W$. Como $W$ es estable bajo $T$, tenemos $T(y)\in W$. Como $x\in W^\bot$, tenemos que $\langle x,T(y) \rangle =0$. Usando esto y la simetría de $T$, obtenemos entonces
$$\langle T(x),y \rangle = \langle x,T(y) \rangle=0,$$
que es lo que queríamos probar.

2. Sea $T_1$ la restricción de $T$ a$W$. Para $x,y\in W$ tenemos que
$$\langle T_1(x),y \rangle=\langle T(x),y \rangle=\langle x,T(y) \rangle =\langle x,T_1(y) \rangle ,$$ por lo tanto $T_1$ es simétrica sobre $W$. Análogamente se ve que el resultado se cumple para $W^\bot$.

$\square$

El teorema espectral real

Los dos lemas anteriores son lo que necesitamos para demostrar el teorema principal de esta entrada.

Teorema (el teorema espectral real). Sea $V$ un espacio euclidiano y $T:V\to V$ una transformación lineal simétrica. Entonces existe una base ortonormal de $V$ conformada por eigenvectores de $T$.

Demostración. Procederemos por inducción fuerte sobre $n=\dim V$. Si $n=1$, entonces el polinomio característico de $T$ es de grado $1$ y tiene coeficientes reales, por lo que tiene una raíz real $t$. Si $v$ es un eigenvector de $T$ con eigenvalor $t$, entonces $\frac{v}{||v||}$ también es eigenvector de $T$ y forma una base ortonormal de $V$. Esto termina el caso $n=1$.

Ahora supongamos que el resultado se satisface hasta dimensión $n-1$ y tomemos $V$ de dimensión $n$. Sea $B=\{e_1,e_2,\dots e_n\}$ una base ortonormal de $V$. Sea $A$ la matriz asociada a $T$ con respecto a $B$. Como $T$ es simétrica, entonces $A$ también lo es. Su polinomio característico no es constante, de modo que por el teorema fundamental del álgebra tiene por lo menos una raíz $t$, y por el primer lema de la sección anterior, se tiene que $t$ es real y por lo tanto es un eigenvalor.

Sea $W=\ker (t\text{id} -T)$ el $t$-eigenespacio de $T$. Si $W=V$, entonces $T=t\text{id}$ y así $B$ es una base ortonormal de $V$ compuesta por eigenvectores de $T$. De otro modo, $W\neq V$ y por lo tanto $k:=\dim W<n$. Tenemos que $V=W\oplus W^\bot$ y sabemos que los eigenespacios son estables bajo la transformación correspondiente. Así, por el segundo lema de la sección anterior $W^\bot$ también es estable bajo $T$ y la restricción de $T$ a $W^\bot$ es simétrica.

Podemos entonces aplicar la hipótesis inductiva a $T_{|W^\bot}$ para encontrar una base ortonormal $C=\{f_1^\bot,f_2^\bot\dots,f_{n-k}^\bot\}$ de $W^\bot$ compuesta por eigenvectores de $T$. Escogiendo una base ortonormal $D=\{f_1,f_2,\dots,f_k\}$ de $W$ (que automaticamente está formada por eigenvectores de $T$). La base $C\cup D$ de $V$ es entonces la base de eigenvectores que buscábamos.

$\square$

El teorema espectral también puede enunciarse en términos de matrices. Hacemos esto a continuación.

Observación. Si $A\in M_n(\mathbb{R})$ es una matriz simétrica, entonces la transformación lineal $T:X\mapsto AX$ sobre $\mathbb{R}^n$ es simétrica. Aplicando el teorema anterior, podemos encontrar una base ortonormal de $V$ con respecto a la cual la matriz asociada a $T$ es diagonal. Como la base canónica de $V$ es ortonormal, y como la matriz de cambio de pase entre dos bases ortonormlaes es ortogonal, obtenemos el siguiente resultado fundamental.

Teorema (el teorema espectral para matrices reales). Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces $A$ es diagonalizable y, más específicamente, existen una matriz ortogonal $P\in M_n(\mathbb{R})$ y una matriz diagonal $D\in M_n(\mathbb{R})$ tales que $$A=P^{-1}DP.$$

Así, $A$ es simultaneamente, mediante una misma matriz $P$, tanto similar como congruente a una matriz diagonal.

Aplicación a caracterizar las matrices simétricas positivas

Ya hemos dado algunas caracterizaciones para las matrices simétricas positivas. Veamos algunas caracterizaciones adicionales.

Teorema. Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces las siguientes afirmaciones son equivalentes:

  1. $A$ es positiva.
  2. Todos los eigenvalores de $A$ son no negativos.
  3. $A=B^2$ para alguna matriz simétrica $B\in M_n(\mathbb{R})$.
  4. $A=\hspace{.5mm}^tCC$ para alguna matriz $C\in M_n(\mathbb{R})$.

Demostración. 1) implica 2). Supongamos que $A$ es positiva y que $t$ es un eigenvalor de $A$ con eigenvector $v$. Como $Av=tv$, obtenemos que

\begin{align*}
t||v||^2&= t\langle v,v \rangle\\
&= \langle v, tv \rangle\\
&= \langle v, Av \rangle\\
&= \hspace{.5mm}^tvAv\\
&\geq 0,
\end{align*}
por lo tanto $t\geq 0$.

2) implica 3). Sean $t_1,\dots, t_n$ todas las raíces del polinomio característico de $A$, escritos con su multiplicidad correspondiente. Por el primer lema de la sección anterior, todos ellos son reales, y estamos suponiendo que son no negativos. Por el teorema espectral podemos encontrar una matriz $P$ y una diagonal $D$ tal que $A=P^{-1}DP$, y por lo que vimos de teoría de diagonalización, $D$ precisamente tiene como entradas en su diagonal a $t_1,t_2,\dots,t_n$. Sea $D’$ la matriz diagonal con entradas $c_i=\sqrt{t_i}$ y sea $B=P^{-1}D’P$. Como $P$ es ortogonal, $B$ es simétrica

Y además, por construcción, $B^2=P^{-1}{D’}^2P=P^{-1}DP=A$, como queríamos.

3) implica 4). Basta con tomar la matriz $B$ de (3) y tomar $C=B$. Como $B$ es simétrica, $A=B^2=\hspace{.5mm}^tBB$.

4) implica 1). Esto ya lo habíamos demostrado en un resultado anterior de caracterización de matrices simétricas.

$\square$

Más adelante…

Hemos enunciado y demostrado el teorema espectral. Lo que nos dice es muy interesante: una matriz simétrica básicamente consiste en cambiar de base a una base muy sencilla $e_1,\ldots,e_n$ (ortonormal) a traves de la matriz $P$. Luego, en esa base pasa algo muy simple: en la dirección de $e_i$, simplemente alargamos de acuerdo al eigenvalor $\lambda_i$.

Como consecuencia, veremos en la siguiente entrada que esto nos permite entender no sólo a las matrices simétricas, sino a todas, todas las matrices. Al teorema que veremos a continuación se le conoce como el teorema de descomposición polar.

Tarea moral

  1. La matriz $\begin{pmatrix} \sin \theta & \cos \theta \\ \cos \theta & \sin\theta \end{pmatrix}$ es real y simétrica, de modo que es diagonalizable. ¿Cuál es su diagonalización?
  2. Da un ejemplo de una matriz simétrica con coeficientes complejos que no sea diagonalizable.
  3. Sea $T$ una transformación lineal sobre un espacio euclidiano $V$, y supón que $V$ tiene una base ortonormal conformada por eigenvectores de $T$. Demuestra que $T$ es simétrica (por lo que el recíproco del teorema espectral se satisface).
  4. Considera la matriz $$A=\begin{pmatrix}
    1 & -2 & -2\\
    -2 & 1 & -2\\
    -2 & -2 &1\end{pmatrix}.$$
    Explica por qué $A$ es diagonalizable en $M_n(\mathbb{R})$ y encuentra una matriz $P$ tal que $P^{-1}AP$ es diagonal.
  5. Adapta el teorema de caracterización de matrices positivas visto en esta entrada a una versión para matrices positivas definidas.

Entradas relacionadas

Álgebra Lineal I: Propiedades del polinomio característico

Por Leonardo Ignacio Martínez Sandoval

Introducción

En esta entrada continuamos con el estudio de eigenvalores y eigenvectores de matrices y trasformaciones lineales. Para ello, estudiaremos más a profundidad el polinomio característico.

Como recordatorio, en una entrada pasada demostramos que si $A$ es una matriz en $M_n(F)$, entonces la expresión $\det (\lambda I_n – A)$ es un polinomio en $\lambda$ de grado $n$ con coeficientes en $F$. A partir de ello, definimos el polinomio característico de $A$ como $$\chi_A(\lambda)=\det(\lambda I_n – A).$$

En esta entrada probaremos algunas propiedades importantes del polinomio característico de matrices. Además, hablaremos de la multiplicidad algebraica de los eigenvalores. Finalmente enunciaremos sin demostración dos teoremas fundamentales en álgebra lineal: el teorema de caracterización de matrices diagonalizables y el teorema de Cayley-Hamilton.

Las raíces del polinomio característico son los eigenvalores

Ya vimos que las raíces del polinomio característico son los eigenvalores. Pero hay que tener cuidado. Deben ser las raíces que estén en el campo en el cual la matriz esté definida. Veamos un ejemplo más.

Problema. Encuentra el polinomio característico y los eigenvalores de la matriz \begin{align*}
\begin{pmatrix}
0&1&0&0\\
2&0&-1&0\\
0& 7 & 0 & 6\\
0 & 0 & 3 & 0
\end{pmatrix}.
\end{align*}

Solución. Debemos encontrar las raíces del polinomio dado por el siguiente determinante:
\begin{align*}
\begin{vmatrix}
\lambda&-1&0&0\\
-2&\lambda&1&0\\
0& -7 & \lambda & -6\\
0 & 0 & -3 & \lambda
\end{vmatrix}.
\end{align*}

Haciendo expansión de Laplace en la primer columna, tenemos que este determinante es igual a

\begin{align*}
\lambda\begin{vmatrix}
\lambda&1&0\\
-7 & \lambda & -6\\
0 & -3 & \lambda
\end{vmatrix}
+2\begin{vmatrix}
-1&0&0\\
-7 & \lambda & -6\\
0 & -3 & \lambda
\end{vmatrix}.
\end{align*}

Para calcular los determinantes de cada una de las matrices de $3\times 3$ podemos aplicar la fórmula por diagonales para obtener:
\begin{align*}
\lambda\begin{vmatrix}
\lambda&1&0\\
-7 & \lambda & -6\\
0 & -3 & \lambda
\end{vmatrix}&=
\lambda(\lambda^3-18\lambda+7\lambda)\\
&=\lambda(\lambda^3-11\lambda)\\
&=\lambda^4-11\lambda^2
\end{align*}

y
\begin{align*}
2\begin{vmatrix}
-1&0&0\\
-7 & \lambda & -6\\
0 & -3 & \lambda
\end{vmatrix}&=
2(-\lambda^2+18)\\
&=-2\lambda^2+36.
\end{align*}

Concluimos que el polinomio característico es
\begin{align*}
\lambda^4-13\lambda^2+36&=(\lambda^2-4)(\lambda^2-9)\\
&=(\lambda+2)(\lambda-2)(\lambda+3)(\lambda-3).
\end{align*}

De esta factorización, las raíces del polinomio (y por lo tanto los eigenvalores que buscamos) son $-2,2,-3,3$.

Si quisiéramos encontrar un eigenvector para, por ejemplo, el eigenvalor $-2$, tenemos que encontrar una solución no trivial al sistema lineal de ecuaciones homogéneo $$(-2I_n-A)X=0.$$

$\square$

Propiedades del polinomio característico

Veamos ahora algunas propiedades importantes del polinomio característico. El primer resultado habla del polinomio característico de matrices triangulares superiores. Un resultado análogo se cumple para matrices inferiores, y su enunciado y demostración quedan como tarea moral.

Proposición. Si $A=[a_{ij}]$ es una matriz triangular superior en $M_n(F)$, entonces su polinomio característico es $$\chi_A(\lambda)=\prod_{i=1}^n (\lambda-a_{ii}).$$

Demostración. Como $A$ es triangular superior, entonces $\lambda I_n -A$ también, y sus entradas diagonales son precisamente $\lambda-a_{ii}$ para $i=1,\ldots,n$. Como el determinante de una matriz triangular es el producto de sus entradas en la diagonal, tenemos que $$\chi_A(\lambda)=\prod_{i=1}^n (\lambda-a_{ii}).$$

$\square$

Como el polinomio característico es un determinante, podemos aprovechar otras propiedades de determinantes para obtener otros resultados.

Proposición. Una matriz y su transpuesta tienen el mismo polinomio característico.

Demostración. Sea $A$ una matriz en $M_n(F)$. Una matriz y su transpuesta tienen el mismo determinante. Además, transponer es una transformación lineal. De este modo:
\begin{align*}
\chi_A(\lambda)&=\det(\lambda I_n – A)\\
&=\det({^t(\lambda I_n-A)})\\
&=\det(\lambda({^tI_n})-{^tA})\\
&=\det(\lambda I_n – {^tA})\\
&=\chi_{^tA}(\lambda).
\end{align*}

$\square$

Ya antes habíamos mostrado que matrices similares tienen los mismos eigenvalores, pero que dos polinomios tengan las mismas raíces no necesariamente implica que sean iguales. Por ejemplo, los polinomios $$(x-1)^2(x+1) \quad \text{y} \quad (x+1)^2(x-1)$$ tienen las mismas raíces, pero no son iguales.

De esta forma, el siguiente resultado es más fuerte de lo que ya habíamos demostrado antes.

Proposición. Sean $A$ y $P$ matrices en $M_n(F)$ con $P$ invertible. Entonces $A$ y $P^{-1}AP$ tienen el mismo polinomio característico.

Demostración. El resultado se sigue de la siguiente cadena de igualdades, en donde usamos que $\det(P)\det(P^{-1})=1$ y que el determinante es multiplicativo:

\begin{align*}
\chi_{P^{-1}AP}(\lambda) &= \det(P) \chi_{P^{-1}AP}(\lambda) \det(P)^{-1}\\
&=\det(P) \det(\lambda I_n – P^{-1}AP) \det(P^{-1})\\
&=\det(P(\lambda I_n – P^{-1}AP)P^{-1})\\
&=\det(\lambda PP^{-1}-PP^{-1}APP^{-1})\\
&=\det(\lambda I_n – A)\\
&=\chi_{A}(\lambda)
\end{align*}

$\square$

Ten cuidado. El determinante es multiplicativo, pero el polinomio característico no es multiplicativo. Esto es evidente por el siguiente argumento. Si $A$ y $B$ son matrices en $M_n(F)$, entonces $\chi_A(\lambda)$ y $\chi_B(\lambda)$ son cada uno polinomios de grado $n$, así que su producto es un polinomio de grado $2n$, que por lo tanto no puede ser igual al polinomio característico $\chi_{AB}(\lambda)$ pues este es de grado $n$. Así mismo, $\chi_{A^2}(\lambda)$ no es $\chi_{A}(\lambda)^2$.

Una última propiedad que nos interesa es mostrar que el determinante de una matriz y su traza aparecen en los coeficientes del polinomio característico.

Teorema. Sea $A$ una matriz en $M_n(F)$ y $\chi_A(\lambda)$ su polinomio característico. Entonces $\chi_{A}(\lambda)$ es de la forma $$\lambda^n-(\text{tr} A) \lambda^{n-1}+\ldots+(-1)^n \det A.$$

Demostración. Tenemos que mostrar tres cosas:

  • El polinomio $\chi_{A}$ es mónico, es decir, tiene coeficiente principal $1$,
  • que el coeficiente del término de grado $n-1$ es $-\text{tr} A$ y
  • el coeficiente libre es $(-1)^n \det A$.

El coeficiente libre de un polinomio es su evaluación en cero. Usando la homogeneidad del determinante, dicho coeficiente es:
\begin{align*}
\chi_A(0)&=\det(0\cdot I_n-A)\\
&=\det(-A)\\
&=(-1)^n\det(A).
\end{align*}

Esto muestra el tercer punto.

Para el coeficiente del término de grado $n-1$ y el coeficiente principal analicemos con más detalle la fórmula del determinante
\begin{align*}
\begin{vmatrix}
\lambda – a_{11} & -a_{12} & \ldots & -a_{1n}\\
-a_{21} & \lambda – a_{22} & \ldots & -a_{1n}\\
\vdots & & \ddots & \\
-a_{n1} & -a_{n2} & \ldots & \lambda – a_{nn}
\end{vmatrix}
\end{align*}
en términos de permutaciones.

Como discutimos anteriormente, la única forma de obtener un término de grado $n$ es cuando elegimos a la permutación identidad. Pero esto también es cierto para términos de grado $n-1$, pues si no elegimos a la identidad, entonces la permutación elige por lo menos dos entradas fuera de la diagonal, y entonces el grado del producto de entradas correspondiente es a lo más $n-2$.

De este modo, los únicos términos de grado $n$ y $n-1$ vienen del producto $$(\lambda-a_{11})\cdot\ldots\cdot(\lambda-a_{nn}).$$

El único término de grado $n$ viene de elegir $\lambda$ en todos los factores, y se obtiene el sumando $\lambda^n$, lo cual muestra que el polinomio es mónico.

Los únicos términos de grado $n-1$ se obtienen de elegir $\lambda$ en $n-1$ factores y un término del estilo $-a_{ii}$. Al considerar todas las opciones, el término de grado $n-1$ es $$-(a_{11}+a_{22}+\ldots+a_{nn})\lambda^{n-1}=-(\text{tr} A) \lambda^{n-1},$$ que era lo último que debíamos mostrar.

$\square$

Ejemplo. El teorema anterior muestra que si $A$ es una matriz en $M_2(F)$, es decir, de $2\times 2$, entonces $$\chi_A(\lambda)=\lambda^2 – (\text{tr}A) \lambda +\det A.$$ De manera explícita en términos de las entradas tendríamos entonces que si $A=\begin{pmatrix} a & b \\ c & d \end{pmatrix}$, entonces su polinomio característico es $$\lambda^2-(a+d)\lambda+(ad-bc).$$

Como ejemplo, si $A=\begin{pmatrix} 5 & 2 \\ -8 & -3 \end{pmatrix}$, entonces su polinomio característico es $$\lambda^2 -2\lambda +1=(\lambda-1)^2.$$ Su único eigenvalor sería entonces $1$.

$\square$

Suma y producto de eigenvalores de matrices complejas

A veces queremos referirnos al conjunto de todos los eigenvalores de una matriz.

Definición. Para $A$ una matriz en $M_n(F)$, el espectro de $A$ es el conjunto de eigenvalores de $A$. Lo denotamos por $\text{spec} (A)$

Tenemos una definición análoga para el espectro de una transformación lineal. Esa definición da un poco de intuición de por qué los teoremas de diagonalización de matrices se llaman teoremas espectrales. La siguiente definición habla de un sentido en el cual un eigenvalor «se repite».

Definición. Sea $A$ una matriz en $M_n(F)$ y $\lambda$ un eigenvalor de $A$. La multiplicidad algebraica de $\lambda$ es el mayor entero $m_{\lambda}$ tal que $(x-\lambda)^{m_\lambda}$ divide a $\chi_A(x)$.

Cuando estamos en $\mathbb{C}$, por el teorema fundamental del álgebra todo polinomio de grado $n$ se puede factorizar en exactamente $n$ términos lineales. Además, los polinomios característicos son mónicos. De este modo, si tenemos una matriz $A$ en $M_n(\mathbb{C})$, su polinomio característico se puede factorizar como sigue:

$$\chi_A(\lambda) = \prod_{j=1}^n (\lambda-\lambda_j),$$

en donde $\lambda_1,\ldots,\lambda_n$ son eigenvalores de $A$, no necesariamente distintos, pero en donde cada eigenvalor aparece en tantos términos como su multiplicidad algebraica.

Desarrollando parcialmente el producto del lado derecho, tenemos que el coeficiente de $\lambda^{n-1}$ es $$-(\lambda_1+\ldots+\lambda_n)$$ y que el coeficiente libre es $$(-1)^n\lambda_1\cdot\ldots\cdot\lambda_n.$$ Combinando este resultado con el de la sección anterior y agrupando eigenvalores por multiplicidad, se demuestra el siguiente resultado importante. Los detalles de la demostración quedan como tarea moral.

Teorema. Sea $A$ una matriz en $M_n(\mathbb{C})$

  • La traza $A$ es igual a la suma de los eigenvalores, contando multiplicidades algebraicas, es decir: $$\text{tr} A = \sum_{\lambda \in \text{spec}(A)} m_{\lambda} \lambda.$$
  • El determinante de $A$ es igual al producto de los eigenvalores, contando multiplicidades algebraicas, es decir: $$\det A = \prod_{\lambda \in \text{spec} (A)} \lambda^{m_{\lambda}}.$$

Veamos un problema en donde se usa este teorema.

Problema. Sea $A$ una matriz en $M_n(\mathbb{C})$ tal que $A^2-4A+3I_n=0$. Muestra que el determinante de $A$ es una potencia de $3$.

Solución. Sea $\lambda$ un eigenvalor de $A$ y $v$ un eigenvector para $\lambda$. Tenemos que $$A^2v=A(\lambda v) = \lambda(Av)=\lambda^2 v.$$ De esta forma, tendríamos que
\begin{align*}
0&=(A^2-4A+3I_n)v\\
&=(\lambda^2 v – 4\lambda v + 3 v)\\
&=(\lambda^2-4\lambda+3) v.
\end{align*}

Como $v$ no es el vector $0$, debe suceder que $\lambda^2-4\lambda+3=0$. Como $\lambda^2-4\lambda+3 = (\lambda-3)(\lambda-1)$, entonces $\lambda=1$ ó $\lambda=3$. Con esto concluimos que los únicos posibles eigenvectores de $A$ son $1$ y $3$.

Como $A$ es una matriz en $\mathbb{C}$, tenemos entonces que su polinomio característico es de la forma $(x-1)^a(x-3)^b$ con $a$ y $b$ enteros no negativos tales que $a+b=n$. Pero entonces por el teorema de producto de eigenvalores, tenemos que el determinante es $1^a\cdot 3^b=3^b$, con lo que queda demostrado que es una potencia de $3$.

$\square$

Dos teoremas fundamentales de álgebra lineal (opcional)

Tenemos todo lo necesario para enunciar dos resultados de álgebra lineal. Sin embargo, las demostraciones de estos resultados requieren de más teoría, y se ven en un siguiente curso. No los demostraremos ni los usaremos en el resto de este curso, pero te pueden servir para anticipar el tipo de resultados que verás al continuar tu formación en álgebra lineal.

El primer resultado fundamental es una caracterización de las matrices que pueden diagonalizarse. Para ello necesitamos una definición adicional. Hay otro sentido en el cual un eigenvalor $\lambda$ de una matriz $A$ puede repetirse.

Definición. Sea $A$ una matriz en $M_n(F)$ y $\lambda$ un eigenvalor de $A$. La multiplicidad geométrica de $\lambda$ es la dimensión del kernel de la matriz $\lambda I_n -A$ pensada como transformación lineal.

En estos términos, el primer teorema al que nos referimos queda enunciado como sigue.

Teorema. Una matriz $A$ en $M_n(F)$ es diagonalizable si y sólo si su polinomio característico $\chi_A(\lambda)$ se puede factorizar en términos lineales en $F[\lambda]$ y además, para cada eigenvalor, su multiplicidad algebraica es igual a su multiplicidad geométrica.

Ejemplo. La matriz $$A=\begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}$$ tiene como polinomio característico a $\chi_A(\lambda)=\lambda^2+1$. Este polinomio no se puede factorizar en $\mathbb{R}[x]$, así que $A$ no es diagonalizable con matrices de entradas reales.

Sin embargo, en $\mathbb{C}$ tenemos la factorización en términos lineales $\lambda^2+1=(\lambda+i)(\lambda-i),$ que dice que $i$ y $-i$ son eigenvalores de multiplicidad algebraica $1$. Se puede mostrar que la multiplicidad geométrica también es $1$. Así, $A$ sí es diagonalizable con matrices de entradas complejas.

$\square$

El segundo resultado fundamental dice que «cualquier matriz se anula en su polinomio característico». Para definir correctamente esto, tenemos que decir qué quiere decir evaluar un polinomio en una matriz. La definición es más o menos natural.

Definición. Si $A$ es una matriz en $M_n(F)$ y $p$ es un polinomio en $F[\lambda]$ de la forma $$p(\lambda)=a_0+a_1\lambda+a_2\lambda^2+\ldots+a_n\lambda^n,$$ definimos a la matriz $p(A)$ como la matriz $$a_0I_n+a_1A+a_2A^2+\ldots+a_nA^n.$$

En estos términos, el resultado queda enunciado como sigue.

Teorema (Cayley-Hamilton). Si $A$ es una matriz en $M_n(F)$ y $\chi_A(x)$ es su polinomio característico, entonces $$\chi_A(A)=O_n.$$

Ejemplo. Tomemos de nuevo a la matriz $$A=\begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}$$ del ejemplo anterior. Su polinomio característico es $x^2+1$. En efecto, verificamos que se cumple el teorema de Cayley-Hamilton pues:
\begin{align*}
A^2+I_2 &= \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix} \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix} + \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}\\
&=\begin{pmatrix} -1 & 0 \\ 0 & -1 \end{pmatrix}+\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}\\
&=\begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}.
\end{align*}

$\square$

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Enuncia y demuestra cómo es el polinomio característico de una matriz triangular inferior.
  • Completa los detalles de la demostración del teorema de suma y producto de eigenvalores. Úsalo para encontrar la suma y producto (con multiplicidades) de los eigenvalores de la matriz $$\begin{pmatrix}5 & 0 & -1 & 2 \\ 3 & -2 & 1 & -2 \\ 0 & 0 & 0 & 5\\ 0 & 2 & 4 & 0 \end{pmatrix}.$$
  • Sea $A$ una matriz en $M_n(F)$. ¿Cómo es el polinomio característico de $-A$ en términos del polinomio característico de $A$?
  • Tomemos $A$ una matriz en $M_n(F)$ y $k$ un entero positivo. Muestra que si $\lambda$ es un eigenvalor de la matriz $A$, entonces $\lambda^k$ es un eigenvalor de la matriz $A^k$.

De la sección opcional:

  • Demuestra, haciendo todas las cuentas, el caso particular del teorema de Cayley-Hamilton para matrices de $2\times 2$.
  • Ya sabemos calcular el polinomio característico de matrices diagonales. Muestra el teorema de Cayley-Hamilton en este caso particular.
  • Las matrices diagonales trivialmente son diagonalizables. Muestra que la multiplicidad algebraica de sus eigenvalores en efecto coincide con la multiplicidad geométrica.

Más adelante…

En esta entrada estudiamos algunas propiedades de los eigenvalores y eigenvectores de transformaciones lineales y matrices; vimos cómo obtener eigenvalores de una matriz a partir del polinomio característico y enunciamos dos teoremas muy importantes como parte opcional del curso.

En la siguiente entrada haremos varios ejercicios para desarrollar un poco de práctica al obtener los eigenvalores y eigenvectores de una transformación lineal y de una matriz.

Entradas relacionadas

Álgebra Lineal I: Transformaciones multilineales

Por Leonardo Ignacio Martínez Sandoval

Introducción

Con esta entrada empieza el cuarto y último bloque del curso de Lineal I. En este último bloque hablaremos de determinantes de matrices, de eigenvectores, eigenvalores y de polinomios característicos. Además, probaremos el teorema espectral para matrices simétricas reales. Nuestro cimiento teórico para definir a los determinantes y probar sus propiedades fácilmente serán las transformaciones multilineales, que generalizan a las formas bilineales de las que ya hemos hablado.

Antes de empezar, vale la pena recapitular lo que hemos aprendido en los bloques anteriores:

  • Bloque 1: Primero, hablamos de vectores y matrices con entradas reales, y sus operaciones básicas. Luego, vimos que nos ayudan a plantear y resolver sistemas de ecuaciones lineales. Aquí hablamos de varias equivalencias de matrices invertibles. Al final de este bloque, definimos espacios vectoriales en general. En ellos hablamos de conjuntos generadores, independientes y bases. Mediante el lema de Steinitz definimos y probamos propiedades de espacios de dimensión finita.
  • Bloque 2: Vimos la teoría básica de transformaciones lineales. Hablamos de imágenes y kernels de transformaciones. Vimos cómo se comportan con independientes y bases. Luego hablamos de cómo representar transformaciones lineales entre espacios de dimensión finita usando matrices, y en particular cómo hacer cambios de base.
  • Bloque 3: Este bloque fue más «geométrico». Primero, vimos formas lineales y la teoría de dualidad y la aplicamos para ver que todo subespacio es intersección de hiperplanos. Luego, definimos formas bilineales y cuadráticas. De ahí salió la noción de producto interior, que nos permite «hacer geometría» en espacios vectoriales. Hablamos de desigualdades vectoriales, de bases ortogonales, para qué sirven y cómo encontrarlas.

La intuición que obtuvimos de formas bilineales nos ayudará a entender formas multilineales. Pero antes de entrar en este tema, que es un poco técnico, veamos un ejemplo que nos ayudará a entender lo que nos espera en este bloque.

Elevando una matriz a la 100

Considera la matriz $$A=\begin{pmatrix}-4&-10\\3&7\end{pmatrix}.$$ Imagina que para alguna aplicación queremos elevarla a la $100$. Esto probablemente lo puedas hacer a mano, y mejor aún, a computadora. Pero en aplicaciones en la vida real, puede que hacer los cálculos matriciales sea mucho incluso para una computadora. ¿Habrá una forma de que sea más fácil hacer $A^{100}$?

Resulta que para este caso en particular, sí. Considera las matrices $$B=\begin{pmatrix}3 & 5\\ 1& 2\end{pmatrix}$$ y $$D=\begin{pmatrix}1&0\\0&2\end{pmatrix}.$$ La matriz $B$ es invertible, con inversa $$B^{-1}=\begin{pmatrix}2&-5 \\-1&3\end{pmatrix},$$ como puedes verificar. Además, la matriz $A$ se puede «factorizar» así: $$A=B^{-1}DB.$$

Esto es muy útil para nuestros fines. Nota que
\begin{align*}
A^2&=(B^{-1}DB)(B^{-1}DB)\\
&=B^{-1}D^2B,
\end{align*}

y que de hecho inductivamente $A^n=B^{-1}D^n B$ para cualquier entero positivo $n$.

Por otro lado, como la matriz $D$ es diagonal, sus potencias son muy sencillas, de hecho, se puede probar inductivamente que $D^n=\begin{pmatrix}1&0\\0&2^{n}\end{pmatrix}$ para cualquier entero positivo $n$. De esta forma, podemos hacer $A^n$ con tan solo dos multiplicaciones de matrices:
\begin{align*}
A^n&=B^{-1}D^nB\\
&=\begin{pmatrix}2&-5 \\ -1&3\end{pmatrix}\begin{pmatrix}1&0\\ 0&2^{n}\end{pmatrix}\begin{pmatrix}3 & 5\\ 1& 2\end{pmatrix}\\
&=\begin{pmatrix}2&-5 \\ -1&3\end{pmatrix}\begin{pmatrix}3&5 \\ 2^n&2^{n+1}\end{pmatrix}\\
&=\begin{pmatrix}6-5\cdot 2^n& 10-5\cdot 2^{n+1}\\ -3+3\cdot 2^n & -5+3\cdot 2^{n+1}\end{pmatrix}
\end{align*}

Así, el problema que queremos resolver es sencillo ahora. Basta tomar $n=100$ para obtener $$A^{100}=\begin{pmatrix}6-5\cdot 2^{100} & 10-5\cdot 2^{101}\\ -3+3\cdot 2^{100} & -5+3\cdot 2^{101}\end{pmatrix}.$$

Si podemos escribir una matriz $A$ como $B^{-1}DB$ con $B$ invertible y $D$ diagonal, decimos que es diagonalizable. La conclusión anterior es que una matriz diagonalizable se puede elevar fácilmente a potencias.

Todo esto está muy bien pero, ¿de dónde salen las matrices $B$ y $D$? ¿toda matriz es diagonalizable? ¿qué otras ventajas tiene diagonalizar una matriz? Este tipo de preguntas son las que estudiaremos en este bloque.

Diagonalizar matrices de 2×2

El determinante de una matriz $A=\begin{pmatrix}a&b\\c&d\end{pmatrix}$ en $M_2(\mathbb{R})$, como quizás hayas visto antes, está dado por $ad-bc$. Resulta que una forma sistemática para encontrar matrices $B$ y $D$ como las del ejemplo de arriba es la siguiente:

  • Tomar una matriz $A$.
  • Considerar el polinomio $P(\lambda)=\det(\lambda I – A)$. A este polinomio se le conoce como el polinomio característico de $A$.
  • Encontrar las raíces $\lambda_1$ y $\lambda_2$ de $P(\lambda)$. A estos valores se les llama los eigenvalores de $A$.
  • Encontrar vectores $v_1$ y $v_2$ no cero tales que $(A-\lambda_1I) v_1 =0$ y $(A-\lambda_2 I)v_2 = 0$. Estos simplemente son sistemas lineales homogéneos, que ya sabemos resolver con reducción gaussiana. A estos vectores se les llama eigenvectores de $A$.
  • Usar a $\lambda_1$ y $\lambda_2$ como las entradas de la matriz diagonal $D$.
  • Usar a $v_1$ y $v_2$ como columnas de la matriz $B^{-1}$. Encontrar la inversa de $B^{-1}$ para encontrar a $B$.

¿Cómo se hace en dimensiones más altas? ¿Siempre podemos seguir este proceso esto? ¿Hay algunos tipos de matrices para los que siempre funcione? Estas son otras preguntas que responderemos en el transcurso de estas semanas.

Mientras tanto, veamos qué sucede si aplicamos este método para la matriz $A=\begin{pmatrix}-4&-10\\3&7\end{pmatrix}$ del ejemplo. Tenemos que el determinante de $\lambda I-A = \begin{pmatrix}\lambda+4&-10\\-3&\lambda – 7\end{pmatrix}$ es el polinomio \begin{align*}P(\lambda)&= (\lambda+4)(\lambda-7)+30\\ &=\lambda^2-3\lambda-28+30\\ &=\lambda^2-3\lambda+2,\end{align*} cuyas raíces son $1$ y $2$. De aquí construimos $$D=\begin{pmatrix}1&0\\0&2\end{pmatrix}.$$

Busquemos los eigenvectores. Por un lado, si queremos que suceda que $Av=v$ para un vector $v=(x,y)$, necesitamos que $$(-4x-10y, 3x+7y)=(x,y),$$ y una de las soluciones es $(x,y)=(2,-1)$. Por otro lado, si queremos que suceda que $Av=2v$ para un vector $v=(x,y)$, necesitamos que $$(-4x-10y,3x+7y)=(2x,2y),$$ y una de las soluciones es $(x,y)=(-5,3)$. De aquí construimos $$B^{-1}=\begin{pmatrix}2&-5 \\-1&3\end{pmatrix},$$ y podemos hacer reducción gaussiana para encontrar $B$. Observa que obtenemos exactamente las mismas matrices que propusimos en el ejemplo.

Nos gustaría poder hacer esto mismo en dimensiones más altas y entender cuándo y por qué funciona. Para ello, lo primero que necesitamos hacer es entender muy bien el concepto de determinante y aprender a manejar hábilmente sus propiedades principales.

Hay varias formas de definir determinante y quizás ya hayas visto algunas en cursos anteriores. En este curso definiremos determinante mediante transformaciones multilineales. Es un poco más abstracto, pero ayuda a que sea más fácil probar técnicas para trabajar con determinantes y entender por qué funcionan.

Transformaciones multilineales

En el bloque anterior ya hablamos de formas bilineales. Como recordatorio, tomábamos un espacio vectorial real $V$ y una forma bilineal era una función $b:V\times V\to \mathbb{R}$ tal que cada que fijábamos una entrada, la función era lineal en la otra. La palabra «forma» la usábamos porque la imagen caía en el campo.

Generalizaremos esta idea para más entradas, y para cuando la imagen cae en cualquier espacio vectorial. Trabajaremos en espacios vectoriales sobre un campo $F$, que puedes pensar que es $\mathbb{R}$ o $\mathbb{C}$.

Definición. Sean $V_1,\ldots, V_d$ y $W$ espacios vectoriales sobre $F$. Una función $f:V_1\times \ldots \times V_d\to W$ es multilineal si cada que fijamos una $i$ y para cada $j\neq i$ fijamos vectores $v_j$ en $V_j$, la transformación $$V_i\to W$$ dada por $$v_i\mapsto f(v_1,v_2,\ldots,v_d)$$ es lineal.

Aclaración. De nuevo, es muy importante no confundir una transformación multilineal con una transformación lineal del espacio vectorial $V_1\times \ldots \times V_d$ a $W$.

Ejemplo. Consideremos $\mathbb{R}^3=\mathbb{R}\times \mathbb{R} \times \mathbb{R}$ y consideramos la transformación $T:\mathbb{R}^3\to \mathbb{R}$ dada por $T(x,y,z)=xyz.$ Afirmamos que esta es una transformación multilineal.

Si fijamos $y$ y $z$, tenemos que mostrar que la transformación $x\mapsto xyz$ es lineal, lo cual es cierto pues para $x_1,x_2$ reales y $r$ real se cumple que
\begin{align*}
T(x_1+rx_2,y,z)&=(x_1+rx_2)yz\\
&=x_1yz + rx_2yz\\
&=T(x_1,y,z)+rT(x_2,y,z).
\end{align*}

De manera similar se prueba para las otras entradas.

Sin embargo, $T$ no es una transformación lineal. Por ejemplo, no saca escalares ya que $T(1,1,1)=1\cdot 1\cdot 1=1$ y $$T(2,2,2)=8\neq 2 = 2T(1,1,1).$$

$\square$

Las transformaciones multilineales son muy generales, y ayudan a crear algo que se llama el producto tensorial. Sin embargo, para los fines que necesitamos ahora, no hace falta tanta generalidad. Sólo nos enfocaremos en las transformaciones multilineales cuando $V_1=V_2=\ldots=V_d$, es decir, en transformaciones $f:V^d\to W$.

Definición. Para $d$ un entero positivo y $V$, $W$ espacios vectoriales, una transformación $d$-lineal es una transformación multilineal de $V^d$ a $W$.

Ejemplo. Si $V$ es un espacio vectorial real y $W=\mathbb{R}$, entonces toda forma bilineal $b:V\times V\to \mathbb{R}$ es una transformación $2$-lineal.

Ejemplo. Tomemos $V=\mathbb{R}^3$ y $d=4$. Tomemos las siguientes formas lineales en $V$:
\begin{align*}
l_1(x,y,z)&=x+y+z\\
l_2(x,y,z)&=3x-2y+z\\
l_3(x,y,z)&=y\\
l_4(x,y,z)&=x+z.
\end{align*}

Consideremos la transformación $T:V^4\to \mathbb{R}$ dada por $$T(v_1,v_2,v_3,v_4)=l_1(v_1)l_2(v_2)l_3(v_3)l_4(v_4),$$ por ejemplo, si $v_1=(1,0,0)$, $v_2=(0,1,0)$, $v_3=(0,1,1)$ y $v_4=(1,1,1)$, tenemos que

\begin{align*}
l_1(v_1)&=l_1(1,0,0)=1+0+0=1\\
l_2(v_2)&=l_2(0,1,0)=0-2+0=-2\\
l_3(v_3)&=l_3(0,1,1)=1\\
l_4(v_4)&=l_4(1,1,1)=1+1=2,
\end{align*}

y por lo tanto $$T(v_1,v_2,v_3,v_4)=(1)(-2)(1)(2)=-4.$$

Tenemos que $T$ es $4$-lineal pues para cada $i$, al fijar las tres entradas $v_j$ con $j\neq i$ tenemos que $T(v_1,v_2,v_3,v_4)$ es de la forma $cl_i(v_i)$ con $c$ un escalar. Como $l_i$ es una forma lineal, $cl_i$ también.

$\square$

Nos interesan un tipo todavía más restringido de transformaciones multilineales. Para definirlas, tenemos que hacer una pequeña desviación hacia el tema de permutaciones.

Permutaciones y signos

Tomemos un entero positivo y usemos $[n]$ para hablar del conjunto de los enteros de $1$ a $n$, es decir, $[n]:=\{1,2,\ldots,n\}$.

Definicion. Una permutación de $[n]$ es una función biyectiva $\sigma: [n]\to [n]$.

En otras palabras, una permutación básicamente «revuelve los elementos» de $[n]$. Usualmente expresamos a la permutación con la notación $$\begin{pmatrix} 1 & 2 & \ldots & n\\ \sigma(1) & \sigma(2) & \ldots & \sigma(n)\end{pmatrix}$$

Ejemplo. La función $\sigma:[3]\to [3]$ tal que $\sigma(1)=2$, $\sigma(2)=3$ y $\sigma(3)=1$ es una permutación que manda al conjunto ordenado $(1,2,3)$ al conjunto ordenado $(2,3,1)$. La expresamos como $$\begin{pmatrix} 1& 2 & 3\\ 2 & 3 & 1\end{pmatrix}.$$

$\square$

Como las permutaciones son funciones, entonces podemos componerlas. Para evitar complicar la notación, no pondremos el signo de composición $\circ$, sino simplemente permutaciones adyacentes. La composición usualmente no es conmutativa.

Ejemplo. Tomemos la permutación $\sigma_1:[4]\to [4]$ representada por $$\begin{pmatrix}1& 2 & 3 & 4 \\ 3 & 2 & 1 & 4\end{pmatrix}$$ y la permutación $\sigma_2:[4]\to [4]$ representada por $$\begin{pmatrix}1& 2 & 3 & 4 \\ 4 & 2 & 3 & 1\end{pmatrix}.$$

¿Qué hace la función $\sigma_1 \sigma_2$? Es una función de $[4]$ a $[4]$ y cumple lo siguiente:
\begin{align*}
\sigma_1(\sigma_2(1))&=\sigma_1(4)=4,\\
\sigma_1(\sigma_2(2))&=\sigma_1(2)=2,\\
\sigma_1(\sigma_2(3))&=\sigma_1(3)=1,\\
\sigma_1(\sigma_2(4))&=\sigma_1(1)=3,
\end{align*}

es decir, la composición es la permutación representada por $$\begin{pmatrix}1& 2 & 3 & 4 \\ 4 & 2 & 1 & 3\end{pmatrix}.$$

Por otro lado, la función $\sigma_2\sigma_1$ hace algo un poco diferente. También es una función de $[4]$ a $[4]$ y cumple lo siguiente:
\begin{align*}
\sigma_2(\sigma_1(1))&=\sigma_2(3)=3,\\
\sigma_2(\sigma_1(2))&=\sigma_2(2)=2,\\
\sigma_2(\sigma_1(3))&=\sigma_2(1)=4,\\
\sigma_2(\sigma_1(4))&=\sigma_2(4)=1,
\end{align*}

así que es la permutación representada por $$\begin{pmatrix}1& 2 & 3 & 4 \\ 3 & 2 & 4 & 1\end{pmatrix}.$$

$\square$

Al conjunto de permutaciones de $[n]$ le llamamos $S_n$. Tomemos una permutación $\sigma$ en $S_n$. Para dos elementos $i<j$ en $[n]$, decimos que $\sigma$ los invierte si $\sigma(i)>\sigma(j)$.

Definición. Sea $\sigma$ un elemento de $S_n$. Decimos que el signo de $\sigma$ es $1$ si invierte una cantidad par de parejas, y es $-1$ si invierte una cantidad impar de parejas. Al signo de $\sigma$ lo denotamos $\text{sign}(\sigma)$.

Ejemplo. La permutación $$\begin{pmatrix}1& 2 & 3 & 4 & 5\\ 5 & 2 & 1 & 4 & 3\end{pmatrix}$$ invierte a la pareja $(1,2)$ pues $\sigma(1)=5>2=\sigma(2)$. Todas las parejas que invierte son $(1,2)$, $(1,3)$, $(1,4)$, $(1,5)$, $(2,3)$, $(4,5)$. Estas son $6$ parejas, que son una cantidad par, así que la permutación tiene signo $1$.

La permutación identidad en $S_n$ no invierte ninguna pareja, así que tiene signo $1$.

$\square$

En la siguiente entrada combinaremos estas nociones de permutaciones y de transformaciones multilineales para hablar de antisimetría y alternancia. Por el momento, reflexiona en lo siguiente: si $\sigma$ es una permutación en $S_n$ y $f:V^n\to W$ es una transformación $n$-lineal, entonces la transformación $\sigma f:V^n \to W$ definida por $$(\sigma f)(x_1,x_2,\ldots,x_n) = f(x_{\sigma(1)},x_{\sigma(2)},\ldots,x_{\sigma(n)})$$ también es una transformación $n$-lineal.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Toma $T:V^d\to W$ una transformación $d$-lineal. Muestra que si de entre $x_1,\ldots,x_d$ elementos de $V$ alguno de ellos es el vector $0$, entonces $T(x_1,\ldots,x_d)=0$.
  • Muestra que la transformación del ejemplo de transformaciones multilineales también es lineal en la segunda y tercera entradas.
  • Supón que $l_1,\ldots,l_d$ son formas lineales de $V$ al campo $F$. Muestra que $f:V^d\to F$ dada por $$f(x_1,\ldots,x_d)=l_1(x_1)\ldots l_d(x_d)$$ es una transformación $d$-lineal.
  • Encuentra una transformación lineal $T:\mathbb{R}^3\to \mathbb{R}$ que no sea una transformación multilineal.
  • Muestra que la composición de dos permutaciones siempre es una permutación.
  • Muestra que para dos permutaciones $\sigma_1$ y $\sigma_2$ se tiene que $$\text{sign}(\sigma_1\sigma_2)=\text{sign}(\sigma_1)\text{sign}(\sigma_2).$$

Más adelante…

En esta primera entrada de la cuarta unidad hemos visto cómo la intuición que obtuvimos cuando estudiamos formas bilineales, nos ha ayudado a entender el concepto de formas multilíneales. En las siguientes entradas del blog, abordaremos el concepto de determinante y aprenderemos cómo se usa.

Para la definición de determinante y para demostrar algunas de sus propiedades , usaremos lo que aprendimos en esta entrada sobre las transformaciones multilineales. Veremos que es una herramienta del álgebra lineal bastante útil y entender detalladamente cómo funciona será fundamental para abordar uno de los teoremas más importantes del curso: el teorema espectral.

Entradas relacionadas