Archivo del Autor: Julio Sampietro

Álgebra Lineal II: Caracterizaciones de diagonalizar

Por Julio Sampietro

Introducción

Ya dimos la definición de que una matriz sea diagonalizable y encontramos buenas razones para, dada una matriz, intentar encontrar una matriz similar que sea diagonal. En esta entrada enunciaremos y demostraremos un teorema de caracterización de matrices diagonalizables, el cual nos ayudará a entender con más profundidad la diagonalizabilidad.

El teorema de caracterización

El teorema principal de esta entrada es el siguiente.

Teorema. Sea $V$ un espacio de dimensión finita sobre $F$ y $T:V\to V$ una transformación lineal. Las siguientes afirmaciones son equivalentes.

  1. $T$ es diagonalizable.
  2. Existe un polinomio $P\in F[X]$ que se divide sobre $F$ y tiene raíces distintas dos a dos, tal que $P(T)=0$.
  3. El polinomio mínimo $\mu_T$ de $T$ se divide sobre $F$ y tiene raíces distintas dos a dos.
  4. Sea $\operatorname{Sp}(T)\subset F$ el conjunto de eigenvalores de $T$. Entonces
    \begin{align*}
    \bigoplus_{\lambda \in \operatorname{Sp}(T)} \ker (T-\lambda \cdot \operatorname{Id})=V.
    \end{align*}

Demostración. Demostremos primero que $1$ implica $2$. Escogemos una base en la que $T$ se represente por una matriz diagonal $D$. Sea $P$ el polinomio cuyas raíces son las diferentes entradas de la diagonal de $D$. Entonces $P(T)$ está representada por la matriz diagonal $P(D)$ con entradas $P(d_{ii})=0$. Es decir $P(T)=0$.

Que $2$ implica $3$ se sigue de la definición del polinomio mínimo: si $P$ cumple $2$, entonces $\mu_T$ divide a $P$ y por tanto cumple $3$.

La implicación $3\Rightarrow 4$ es consecuencia del último teorema de la entrada anterior aplicado a $P=\mu_T$ y los factores lineales siendo los $P_i$.

Finalmente veamos que $4$ implica $1$. Sea $\operatorname{Sp}(T)=\{\lambda_1,\dots, \lambda_k\}$ y sea $v_1,\dots v_n$ una base de $V$ obtenida al pegar una base de $\ker(T-\lambda_1\cdot \operatorname{Id})$ a una base de $\ker(T-\lambda_2\cdot \operatorname{Id})$ y a una base de $\ker(T-\lambda_3 \cdot \operatorname{Id})$ y así sucesivamente hasta pegar una base de $\ker(T-\lambda_n\cdot \operatorname{Id})$. Entonces $v_1,\dots, v_n$ es una base de eigenvectores de $V$ y por tanto se cumple $1$.

$\square$

Consecuencias del teorema

Hacemos algunas observaciones que son consecuencia del teorema anterior.

Observación. Si $T$ es una transformación lineal diagonalizable, entonces el polinomio mínimo de $T$ es

\begin{align*}
\mu_T(X)=\prod_{\lambda \in \operatorname{Sp}(T)} (X-\lambda)
\end{align*}

dónde el producto se toma sobre todos los valores propios, contados sin multiplicidad. El mismo producto pero tomado con multiplicidades rinde el polinomio característico de $T$.

Observación. Si $T$ es cualquier transformación lineal en un espacio vectorial de dimensión finita entonces $T$ es diagonalizable si y sólo si la suma de las dimensiones de los eigenespacios coincide con la dimensión de $V$, es decir si

\begin{align*}
\sum_{\lambda \in \operatorname{Sp}(T)}\dim \ker (T-\lambda \cdot \operatorname{Id})=\dim V.
\end{align*}

Observación. Supongamos que $T$ es diagonalizable. Para cada $\lambda\in \operatorname{Sp}_T$ sea $\pi_{\lambda}$ la proyección al subespacio $\ker(T-\lambda\cdot \operatorname{Id})$. Entonces

\begin{align*}
T=\sum_{\lambda\in \operatorname{Sp}(T)} \lambda \pi_{\lambda}.
\end{align*}

Esto se sigue de la descomposición $\bigoplus_{\lambda \in \operatorname{Sp}(T)} \ker (T-\lambda \cdot \operatorname{Id})=V$ y que si

\begin{align*}
v=\sum_{\lambda \in \operatorname{Sp}(T)} v_{\lambda}, v_{\lambda}\in \ker(T-\lambda\cdot \operatorname{Id}),
\end{align*}

entonces

\begin{align*}
T(v)=\sum_{\lambda \in \operatorname{Sp}(T)} T(v_{\lambda})=\sum_{\lambda \in \operatorname{Sp}(T)} \lambda v_{\lambda}= \sum_{\lambda \in \operatorname{Sp}(T)} \lambda \pi_{\lambda}(v).
\end{align*}

Finalmente enunciamos el teorema que demostramos en su forma matricial (que es ciertamente una consecuencia del teorema para transformaciones lineales).

Teorema. Sea $A\in M_n(F)$. Entonces las siguientes afirmaciones son equivalentes.

  1. $A$ es diagonalizable en $M_n(F)$.
  2. Si $\operatorname{Sp}(A)$ es el conjunto de eigenvalores de $A$, entonces
    \begin{align*}
    \bigoplus_{\lambda \in \operatorname{Sp}(A)}\ker(\lambda \cdot I_n-A)=F^{n}.
    \end{align*}
  3. El polinomio mínimo $\mu_A$ de $A$ se divide sobre $F$ con raíces distintas dos a dos.
  4. Existe un polinomio $P\in F[X]$ que se divide sobre $F$ con raíces distintas dos a dos tal que $P(A)=O_n$.

Problemas para practicar

Terminamos esta entrada con unos cuantos problemas para aplicar los resultados vistos.

Problema 1. Considera la matriz

\begin{align*}
A=\begin{pmatrix}
0 & 1 & 0\\ 0 & 0 & 1\\ 1 & 0 & 0\end{pmatrix}.
\end{align*}

¿Es $A$ diagonalizable en $M_3(\mathbb{C})$? ¿ En $M_3(\mathbb{R})$?

Solución. El polinomio característico de $A$ está dado por $\chi_A(X)=X^3-1$. Este polinomio se divide sobre $\mathbb{C}$ con raíces distintas, ya que tenemos $3$ soluciones dadas por las raíces de la unidad. Por el teorema de Cayley-Hamilton sabemos que $\chi_A(A)=O_3$. Usando el teorema de esta entrada concluimos que $A$ es diagonalizable sobre $\mathbb{C}$.

Sin embargo, dado que el polinomio característico no se divide sobre $\mathbb{R}$ podemos deducir que $A$ no es diagonalizable en $M_3(\mathbb{R})$.

$\triangle$

Problema 2. ¿Es la matriz

\begin{align*}
A=\begin{pmatrix}
0 & 1 & 0\\ -4 & 4 & 0\\ -2 & 1 & 2\end{pmatrix}\in M_3(\mathbb{R})
\end{align*}

diagonalizable?

Solución. Comenzamos calculando el polinomio característico de $A$:

\begin{align*}
\chi_A(X)=\begin{vmatrix} X & -1 & 0 \\ 4 & X-4 & 0 \\ 2 & -1 &X-2\end{vmatrix}
&=(X-2)\begin{vmatrix} X & -1\\ 4 & X-4\end{vmatrix} \\
&= (X-2)(X^2-4X+4)\\
&= (X-2)^3.
\end{align*}

Por tanto $2$ es un eigenvalor con multiplicidad algebraíca $3$. Si $A$ fuese diagonalizable, entonces $2$ tendría multiplicidad geométrica $3$, es decir $\ker(A-2I_3)$ sería $3$-dimensional: ¡pero entonces sería todo $\mathbb{R}^3$! Esto implicaría que $A-2I_3=0$, de otra manera que $A=2I_3$, lo que claramente no es cierto.

$\triangle$

Más adelante…

En las siguientes entradas estudiaremos formas bilineales, lo que forma el segundo bloque del curso.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para repasar lo visto en esta entrada.

  1. Encuentra todos los valores de $a\in \mathbb{R}$ tales que la matriz
    \begin{align*}
    A=\begin{pmatrix} 2 & 1 &-2\\ 1 & a & -1\\ 1 & 1 & -1\end{pmatrix}\in M_3(\mathbb{R})
    \end{align*}
    sea diagonalizable.
  2. Explicita el por qué el teorema para operadores lineales implica el teorema para matrices.
  3. Calcula la $n$-ésima potencia de
    \begin{align*}
    A=\begin{pmatrix}
    1 & 3 & 3\\ 3 & 1 & 3\\ 3 & 3 & 1
    \end{pmatrix}.
    \end{align*}
    Sugerencia. Diagonaliza a $A$.
  4. Demuestra que si $T:V\to V$ es una transformación lineal con $V$ un espacio vectorial de dimensión finita sobre $\mathbb{C}$ tal que $T^2$ diagonalizable y $\ker T=\ker T^2$ entonces $T$ es diagonalizable.
  5. Si $V$ es un espacio de dimensión finita sobre $F$ y $T:V\to V$ es una transformación lineal diagonalizable fija, entonces cualquier otra transformación lineal $S:V\to V$ satisface $S\circ T=T\circ S$ si y sólo si $S$ deja invariante cada eigenespacio de $T$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Diagonalizar

Por Julio Sampietro

Introducción

En la entrada anterior estudiamos la triangularización de matrices, que consistía en llevar matrices a una forma triangular superior. En esta fortaleceremos esta idea, y buscaremos maneras de llevar una matriz a una matriz diagonal: a este proceso se le conoce como diagonalizar.

Matrices y transformaciones diagonalizables

A lo largo de esta sección fijamos $F$ un campo. Todos los espacios vectoriales se asumirán de dimensión finita.

Definición. Una matriz $A\in M_n(F)$ es llamada diagonalizable si es similar a una matriz diagonal en $M_n(F)$.

Una transformación lineal $T:V\to V$ sobre un espacio vectorial $V$ se llama diagonalizable si existe una base de $V$ tal que la matriz de $T$ respecto a esa base sea diagonal.

Es decir una matriz $A\in M_n(F)$ es diagonalizable si y sólo si podemos escribir

\begin{align*}
A=PDP^{-1}
\end{align*}

para alguna matriz invertible $P\in M_n(F)$ y una matriz diagonal $D=[d_{ij}]\in M_n(F)$. Nota que la definición implica que cualquier matriz similar a una matriz diagonalizable es a su vez diagonalizable. De misma manera, una transformación lineal es diagonalizable si su representación es diagonalizable respecto a cualquier base (aunque no será necesariamente diagonal en cualquier base).

Damos la siguiente caracterización de transformaciones diagonalizables.

Teorema. Una transformación lineal $T:V\to V$ es diagonalizable si y sólo si $V$ tiene una base compuesta por eigenvectores de $T$.

Demostración. Supongamos que $T$ es diagonalizable. Por tanto existe una base $v_1,\dots, v_n$ de $V$ tal que la matriz asociada a $T$ en esta base es diagonal. Si $(a_{ii})_{i=1}^{n}$ son las entradas diagonales de $A$, entonces por definición $T(v_{i})=a_{ii} v_i$ para todo $i=1,\dots, n$. Luego $v_1,\dots, v_n$ es una base de $V$ compuesta por eigenvectores de $T$.

Conversamente, supongamos que $T$ tiene una base $v_1,\dots, v_n$ compuesta por eigenvectores de $T$. Si $T(v_i)=d_i v_i$ entonces la matriz respecto a $v_1,\dots, v_n$ de $T$ es diagonal con entradas $d_i$.

$\square$

Primeras propiedades

Tenemos dos observaciones inmediatas.

Observación. El teorema nos proporciona una manera de diagonalizar explícitamente una matriz. Si $A\in M_n(F)$ es diagonalizable, entonces encontramos una base de $V=F^n$ formada por eigenvectores y los acomodamos como columnas de una matriz $P$. Entonces $P^{-1}AP=D$ es diagonal y $A=PDP^{-1}$.

Observación. Supongamos que $A$ es diagonalizable y que $A=PDP^{-1}$ para alguna matriz diagonal $D$ y una matriz invertible $P$.

  1. El polinomio característico de $A$ y de $D$ es el mismo, puesto que son matrices similares. De esto deducimos que
    \begin{align*}
    \prod_{i=1}^{n}(X-d_{ii})=\chi_{A}(X).
    \end{align*}
    En particular, los eigenvalores de $A$ son las entradas diagonales de $D$ (contados con multiplicidad).
  2. Sea $\lambda\in F$ un eigenvalor de $A$. Entonces la multiplicidad algebraica es igual al número de índices $i=1,\dots, n$ tales que $d_{ii}=\lambda$ (esto por el inciso anterior). Por otro lado, la dimensión geométrica de $\lambda$ como eigenvalor de $A$ o $D$ es la misma puesto que la asignación $X\mapsto P^{-1}X$ induce un isomorfismo entre $\ker(\lambda I_n-A)$ y $\ker(\lambda I_n-D)$. Pero además la multiplicidad geométrica de $\lambda$ como eigenvalor de $D$ también coincide con el número de índices $i=1,\dots, n$ tales que $\lambda_{ii}=n$, ya que el sistema $DX=\lambda X$ es equivalente a $(d_{ii}-\lambda )x_i=0$. Concluimos que en una matriz diagonalizable, la multiplicidad algebraíca y la multiplicidad geométrica coinciden.

Un par de problemas

A continuación resolvemos un par de problemas: el primero sirve para aplicar lo que hemos visto hasta ahora, y el segundo nos será útil más adelante.

Problema 1. Demuestra que la matriz

\begin{align*}
A=\begin{pmatrix}
1 & a\\ 0 & 1\end{pmatrix}
\end{align*}

no es diagonalizable si $a\neq 0$.

Solución. Supongamos que $A$ es diagonalizable y escribamos $A=PDP^{-1}$ con $P$ invertible y $D$ diagonal. Como $A$ es triangular superior con entradas diagonales iguales a $1$, deducimos que $1$ es el único eigenvalor de $A$. Por la observación anterior tenemos que las entradas diagonales de $D$ son $1$, por tanto $D=I_n$. Pero entonces $A=PI_nP^{-1}=I_n$ una contradicción si $a\neq 0$.

$\square$

El siguiente problema es más técnico, y nos servirá para demostrar uno de los teoremas fundamentales que caracteriza a las matrices diagonalizables.

Problema 2. Sea $k>1$ y sean $P_1,\dots, P_k$ polinomios primos relativos dos a dos. Si $P=P_1\cdot P_2\cdots P_k$ es su producto y $Q_i=\frac{P}{P_i}$, demuestra que los $Q_1,\dots, Q_k$ son primos relativos (es decir, no existe un polinomio que los divida a todos simultáneamente).

Solución. Supongamos que existe un polinomio $Q$ irreducible que divide a todos los $Q_i$. Puesto que $Q\mid Q_1=P_2\cdots P_k$ deducimos que $Q$ divide a $P_j$ para algún $j\in \{2,\dots, k\}$. Pero como $Q$ divide también a $Q_j$, esto quiere decir que $Q$ divide a $P_i$ para algún $i\neq j$, lo que contradice que los $P_i$ son primos relativos dos a dos.

$\square$

Un teorema de descomposición

Terminamos esta entrada con un teorema algo técnico que será de mucha utilidad en la próxima entrada, cuando caractericemos a las matrices diagonalizables.

Teorema. Sea $T$ una transformación lineal de algún espacio $V$ en si mismo (no necesariamente de dimensión finita). Entonces para cualesquiera polinomios $P_1,\dots, P_k\in F[X]$ primos relativos dos a dos se cumple que

\begin{align*}
\ker P(T)=\bigoplus_{i=1}^{k} \ker P_i(T),
\end{align*}

dónde $P=P_1\cdots P_k$.

Demostración. Consideramos a los polinomios $Q_i=\frac{P}{P_i}$ como en el problema anterior. Como son primos relativos, el teorema de Bezout nos dice que existen polinomios $R_1,\dots, R_k$ tales que

\begin{align*}
Q_1 R_1+\dots +Q_k R_k=1.
\end{align*}

Como $P_i$ divide a $P$, se sigue que $\ker P_i(T)\subset \ker P(T)$ para todo $i\in \{1,\dots, k\}$. Por otro lado si $x\in \ker P(T)$ y escribimos $x_i=(Q_i R_i)(T)(x)$, la relación anterior nos dice que

\begin{align*}
x=x_1+\dots+x_k
\end{align*}

Más aún $P_i(T)(x_i)=(P_i Q_i R_i)(T)(x)$ y $P_iQ_i R_i$ es un múltiplo de $P$. Dado que $x\in \ker P(T)\subset \ker(P_i Q_i R_i)(T)$, se sigue que $x_i\in \ker P_i(T)$, y como $x=x_1+\dots +x_k$ concluimos que

\begin{align*}
\ker P(T)=\sum_{i=1}^{k} \ker P_i(T).
\end{align*}

Queda por demostrar que si $x_i\in \ker P_i(T)$ y $x_1+\dots + x_k=0$ entonces $x_i=0$ para todo $i\in \{1,\dots, k\}$. Tenemos que

\begin{align*}
Q_1(T)(x_1)+Q_1(T)(x_2)+\dots+ Q_1(T)(x_k)=0.
\end{align*}

Pero $Q_1(T)(x_2)=\dots= Q_1(T)(x_k)=0$ dado que $Q_1$ es un múltiplo de $P_2,\dots, P_k$ y $P_2(T)(x_2)=\dots=P_k(T)(x_k)=0$. Entonces $Q_1(T)(x)=0$ y similarmente $Q_j(T)(x_j)=0$ para $j\in \{1,\dots, k\}$. Pero entonces

\begin{align*}
x_1=(R_1 Q_1)(T)(x_1)+\dots+ (R_k Q_k)(T)(x_k)=0
\end{align*}

y similarmente se demuestra que $x_2=\dots =x_k=0$. Queda demostrado el teorema.

$\square$

Más adelante…

En la próxima entrada usaremos lo demostrado en esta entrada para dar una caracterización de las matrices diagonalizables, como hicimos con las matrices triangularizables.

Tarea moral

Estos ejercicios no forman parte de la evaluación del curso, pero son útiles para practicar los conceptos vistos en esta entrada.

  1. Diagonaliza la matriz
    \begin{align*}
    A=\begin{pmatrix}
    -1 & 2\\ 4 & 1\end{pmatrix}\in M_2(\mathbb{C}).
    \end{align*}
  2. ¿Es la siguiente matriz diagonalizable?
    \begin{align*}
    B=\begin{pmatrix}
    5 & 0 & 0\\ 0 & 5 & 0\\ 1 & 0 & 5\end{pmatrix}\in M_3(\mathbb{R}).
    \end{align*}
  3. Sea $V$ un espacio vectorial de dimensión finita y $T:V\to V$ lineal. Demuestra que si $T$ es diagonalizable, entonces $T^2$ también lo es y además $\ker T=\ker T^2$.
  4. Sean $A,B\in M_n(F)$ dos matrices tales que $A$ es invertible y $AB$ es diagonalizable. Demuestra que $BA$ también lo es.
  5. Sea $A\in M_n(\mathbb{C})$ tal que existe $d>0$ con $A^{d}=I_n$. Demuestra que $A$ es diagonalizable.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Triangularizar y descomposición de Schur

Por Julio Sampietro

Introducción

En esta entrada estudiaremos el concepto de triangularizar matrices. Esto simplemente quiere decir encontrar una base respecto a la cual podamos escribir a nuestra matriz como una matriz triangular superior. Esto tiene muchas ventajas, puesto que las matrices triangulares superiores son relativamente fáciles de calcular. Como veremos, el concepto de triangularización está íntimamente ligado con los ceros de polinomios.

Matrices triangulares

Recordamos que una matriz $A=[a_{ij}]\in M_n(F)$ se dice triangular superior si $a_{ij}=0$ siempre que $i>j$, es decir si todas las entradas por debajo de la diagonal son cero. Las matrices triangulares gozan de algunas propiedades que ya hemos explorado. Por ejemplo, sus valores propios son fácilmente calculables: ¡son precisamente las entradas de la diagonal! Más explícitamente su polinomio característico es exactamente

\begin{align*}
\chi_A(X)=\prod_{i=1}^{n}(X-a_{ii}).
\end{align*}

Además forman un subespacio cerrado bajo multiplicación del espacio de todas las matrices. Puesto que son matrices ‘sencillas’, es deseable poder escribir alguna otra matriz como una matriz triangular, tal vez mediante un cambio de base: esto es precisamente triangularizar. Tenemos entonces la siguiente definición.

Definición. Diremos que una matriz es triangularizable si es similar a una matriz triangular superior.

Primero, necesitaremos de un par de conceptos sobre polinomios.

Polinomios y sus raíces

Definición. Un polinomio $P\in F[X]$ se divide sobre F si es de la forma

\begin{align*}
P(X)=c(X-a_1)\cdots (X-a_n)
\end{align*}

para algunos escalares $c,a_1,\dots, a_n\in F$ no necesariamente distintos.

Por ejemplo el polinomio $X^2+1$ no se divide sobre $\mathbb{R}$ ya que sabemos que no tiene raíces reales. Sin embargo, el mismo polinomio si se divide sobre $\mathbb{C}$: en efecto

\begin{align*}
X^2+1=(X-i)(X+i).
\end{align*}

Por otro lado, el polinomio $X^2-3X+2$ si se divide sobre $\mathbb{R}$, puesto que lo podemos escribir como

\begin{align*}
X^2-3X+2=(X-1)(X-2).
\end{align*}

Nota que el polinomio también se divide sobre $\mathbb{C}$ puesto que $\mathbb{R}\subset \mathbb{C}$. De hecho, no existe ningún polinomio con coeficientes complejos que no se divida sobre $\mathbb{C}$, este es un sorprendente resultado de Gauss:

Teorema (fundamental del Álgebra). Cualquier polinomio $P\in \mathbb{C}[X]$ se divide sobre $\mathbb{C}$.

Este teorema también se enuncia diciendo que $\mathbb{C}$ es algebraícamente cerrado. Es decir, todo polinomio con coeficientes complejos tiene al menos una raíz compleja. Es un buen ejercicio verificar que ambas versiones son equivalentes.

Por lo que mencionamos al principio, el polinomio característico de una matriz triangular superior se divide sobre el campo. Como el polinomio de matrices similares es igual, se sigue que si una matriz es triangularizable, entonces su polinomio característico se divide sobre el campo.

Problema. Da un ejemplo de una matriz $A\in M_2(\mathbb{R})$ que no sea triangularizable en $M_2(\mathbb{R})$.

Solución. Puesto que el polinomio característico de una matriz triangularizable se divide sobre el campo, es suficiente con encontrar una matriz cuyo polinomio característico no se divida sobre $\mathbb{R}$: por ejemplo $X^2+1$. Enseguida proponemos la matriz

\begin{align*}
A=\begin{pmatrix}
0 & 1 \\ -1 & 0 \end{pmatrix}.
\end{align*}

Entonces $\chi_A(X)=X^2+1$, que ya aclaramos que no se divide sobre $\mathbb{R}$. Por tanto $A$ no es triangularizable.

$\triangle$

Un teorema sobre triangularizar

Ya vimos que si $A$ es una matriz triangularizable su polinomio característico se divide sobre el campo. El siguiente teorema nos dice que el converso también es cierto.

Teorema. Sea $A\in M_n(F)$. Las siguientes afirmaciones son equivalentes:

  1. El polinomio característico de $A$ se divide sobre $F$.
  2. $A$ es similar a una matriz triangular superior.

Demostración. La discusión previa ya nos mostró que $2$ implica $1$. Probaremos el converso por inducción sobre $n$. El resultado se cumple para $n=1$ (pues toda matriz es triangular superior), así que podemos asumir que $n\geq 2$ y que el resultado se cumple para $n-1$.

Sea $\lambda\in F$ una raíz de $\chi_A$. Nota que dicha raíz existe pues estamos suponiendo que $\chi_A$ se divide sobre $F$. También escogemos un vector no-cero $v$ tal que $Av=\lambda v$, es decir, un eigenvector asociado a $\lambda$. Como $v\neq 0$, podemos completar a una base $v=v_1,\dots, v_n$ de $V=F^n$. La matriz asociada a la transformación lineal $T$ asociada a $A$ se ve entonces de la forma

\begin{align*}
\begin{pmatrix}
\lambda & \ast\\
0 & B
\end{pmatrix}
\end{align*}

para alguna $B\in M_{n-1}(F)$. Entonces podemos encontrar una matriz de cambio de base (y por tanto invertible) $P_1$ tal que

\begin{align*}
P_1 AP_1^{-1}=\begin{pmatrix}
\lambda & \ast\\
0 & B
\end{pmatrix}.
\end{align*}

Puesto que matrices similares comparten el mismo polinomio característico, tenemos que

\begin{align*}
\chi_A(X)=\chi_{P_1AP_1^{-1}}(X)=(X-\lambda)\chi_B(X).
\end{align*}

Se sigue que $\chi_B$ se divide sobre el campo. Además, $B\in M_{n-1}(F)$, por lo que podemos aplicar la hipótesis de inducción para afirmar que existe una matriz invertible $Q\in M_{n-1}(F)$ tal que $QBQ^{-1}$ es triangular superior. Luego definiendo

\begin{align*}
P_2=\begin{pmatrix}
1 & 0\\
0 & Q
\end{pmatrix},
\end{align*}

se cumple no solo que $P_2$ es invertible (¿por qué?) pero además que

\begin{align*}
P_2(P_1AP_1^{-1})P_2^{-1}=\begin{pmatrix}
\lambda & \ast\\
0 & QBQ^{-1}\end{pmatrix}.
\end{align*}

Notamos que esta última matriz es triangular superior, puesto que $QBQ^{-1}$ lo es. Esto completa la prueba.

$\square$

Un corolario importante

Combinando el teorema fundamental del álgebra junto con el teorema pasado obtenemos un corolario importante, conocido como el teorema de descomposición de Schur. Lo enunciamos como teorema.

Teorema (descomposición de Schur). Para cualquier matriz $A\in M_n(\mathbb{C})$ podemos encontrar una matriz invertible $P\in M_n(\mathbb{C})$ y una matriz triangular superior $T\in M_n(\mathbb{C})$ tal que $A=PTP^{-1}$. Por tanto toda matriz con entradas complejas es triangularizable.

Demostración. Por el teorema fundamental del álgebra, tenemos que $\chi_A$ se divide sobre $\mathbb{C}$. Luego usando el teorema anterior concluimos que $A$ es triangularizable.

$\square$

Más adelante…

En la próxima entrada veremos un concepto parecido a triangularizar pero más fuerte: diagonalizar, que consiste en llevar a una matriz a una matriz diagonal similar.

Tarea moral

A continuación presentamos algunos ejercicios que sirven para repasar los temas vistos en esta entrada.

  1. ¿Es la matriz
    \begin{align*}
    A=\begin{pmatrix}
    1 & 2 & 1\\ 3 & 2 & 2\\ 0 & 1 & 1\end{pmatrix}
    \end{align*}
    triangularizable sobre $\mathbb{R}$?
  2. Encuentra una matriz traingular superior similar a la matriz
    \begin{align*}
    \begin{pmatrix}
    1 & 2\\ 3 & 2\end{pmatrix}.
    \end{align*}
  3. Encuentra una matriz triangular superior similar a la matriz
    \begin{align*}
    \begin{pmatrix}
    1 & 0 & 0\\ 2 & 1 & 0\\ 3 & 2 & 1\end{pmatrix}.
    \end{align*}
  4. ¿Por qué la matriz $P_2$ construida en la demostración del segundo teorema es invertible?
  5. Demuestra que una matriz $A\in M_n(F)$ es nilpotente si y sólo si es similar a una matriz triangular superior con entradas cero en la diagonal.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Demostración del teorema de Cayley-Hamilton

Por Julio Sampietro

Introducción

En esta entrada demostraremos el teorema de Cayley-Hamilton. Daremos dos demostraciones de sabores muy diferentes. La primera demostración explota las propiedades de la matriz adjunta, mientras que la segunda echa mano de las familias especiales de las cuales calculamos el polinomio característico.

Primera demostración

La primera demostración del teorema de Cayley-Hamilton usa algunas propiedades de la matriz adjunta. Recordamos el teorema y lo demostramos a continuación:

Teorema. (Cayley-Hamilton)

Para cualquier matriz $A\in M_n(F)$ se cumple que

\begin{align*}
\chi_A(A)=O_n.
\end{align*}

Demostración. Sea $A\in M_n(F)$ y sea $B=XI_n-A\in M_n(K)$ dónde $K=F(X)$ es el campo de fracciones racionales en la variable $X$. Es decir, un elemento de $K$ es un cociente de la forma

\begin{align*}
\frac{A(X)}{B(X)}, \hspace{2mm} A(X),B(X)\in F[X]
\end{align*}

con $B$ no idénticamente cero.

Sea $C$ la matriz adjunta de $B$, es decir $C=\operatorname{adj}(B)$. Sus entradas son (por definición) los determinantes de las matrices de tamaño $(n-1)$ cuyas entradas son a su vez polinomios de grado a lo más $1$. Es decir cada entrada de $C$ es un polinomio de grado a lo más $n-1$. Luego, sea

\begin{align*}
c_{ij}= c_{ij}^{(0)}+c_{ij}^{(1)}X+\dots+c_{ij}^{(n-1)} X^{n-1}
\end{align*}

la $(i,j)$-ésima entrada de $C$, con $c_{ij}^{(0)},\dots, c_{ij}^{(n-1)}\in F$. Sea $C^{(k)}$ la matriz cuyas entradas son $c_{ij}^{(k)}$. Entonces

\begin{align*}
C=C^{(0)}+C^{(1)}X+\dots+ C^{(n-1)}X^{n-1}.
\end{align*}

Ahora, recuerda que

\begin{align*}
B\cdot C=B \cdot \operatorname{adj}(B)=\det(B)\cdot I_n=\chi_A(X)\cdot I_n.
\end{align*}

Es decir

\begin{align*}
(X I_n-A)\cdot \left(C^{(0)}+C^{(1)}X+\dots+C^{(n-1)}X^{n-1}\right)=\chi_A(X)\cdot I_n.
\end{align*}

Por otro lado, si escribimos a $\chi_A(X)$ como $\chi_A(X)=X^{n}+u_{n-1}X^{n-1}+\dots + u_0\in F[X]$, la igualdad anterior se convierte en

\begin{align*}
&-AC^{(0)}+(C^{(0)}-AC^{(1)})X+ (C^{(1)}-AC^{(2)})X^2+\dots + (C^{(n-2)}-AC^{(n-1)})X^{n-1}\\ &+C^{(n-1)}X^{n}= u_0 I_n+\dots + u_{n-1}I_nX^{n-1}+I_nX^{n}.
\end{align*}

Identificando los términos de cada coeficiente llegamos a

$$\left\{\begin{matrix}
-AC^{(0)}&= u_0 I_n,\\ C^{(0)}-AC^{(1)}&= u_1 I_n,\\ \vdots & \\ C^{(n-2)}-AC^{(n-1)}&=u_{n-1}I_n,\\ C^{(n-1)}&=I_n.
\end{matrix}\right.$$

Comenzando con la última igualdad, tenemos que $C^{(n-1)}=I_n$. Sustituyendo en la anterior llegamos a que $C^{(n-2)}=A+u_{n-1}I_n$, e inductivamente se cumple que

\begin{align*}
C^{(n-j-1)}=A^{j}+u_{n-1}A^{j-1}+\dots+u_1 I_n.
\end{align*}

En particular

\begin{align*}
C^{(0)}=A^{n-1}+u_{n-1}A^{n-2}+\dots+u_1 I_n.
\end{align*}

Multiplicando ambos lados por $A$ y usando que $-AC^{(0)}=u_0 I_n$ finalmente llegamos a

\begin{align*}
A^{n}+u_{n-1}A^{n-1}+\dots+ u_0 I_n=O_n.
\end{align*}

Pero esta igualdad no es nada más que $\chi_A(A)=O_n$, lo que concluye la prueba.

$\square$

Segunda demostración

Para la segunda demostración enunciaremos el teorema de una manera distinta pero equivalente (¿por qué?). Usaremos una estrategia fundada en el cálculo de polinomios característicos de familias conocidas de una entrada previa.

Teorema. (Cayley-Hamilton)

Sea $V$ un espacio vectorial de dimensión finita sobre $F$ y sea $T:V\to V$ una transformación lineal. Entonces $\chi_T(T)=0$.

Demostración. La idea es reducir el problema a transformaciones lineales para las que podemos calcular $\chi_T$ fácilmente. Sin embargo, los detalles son un poco complicados.

Fijemos $x\in V$. Para $m\geq 0$ fijamos

\begin{align*}
W_m=\operatorname{Span}(T^0(x), T^1(x), \dots, T^{m}(x)).
\end{align*}

Nota como $W_0\subset W_1\subset \dots \subset V$ y que $\dim W_m\leq \dim W_{m+1}\leq \dim V$ para todo $m\geq 0$. Entonces debe existir algún $m$ mínimo tal que $\dim W_{m-1}=\dim W_m$. Entonces como $W_{m-1}\subset W_{m}$ se tiene que $W_{m-1}=W_{m}$. Luego $T^{m}(x)\in W_{m-1}$, es decir existe una combinación lineal

\begin{align*}
T^{m}(x)=\sum_{k=0}^{m-1} a_k T^{k}(x).
\end{align*}

Nota que esto implica que $W_{m-1}$ es estable bajo $T$. Como $m$ es mínimo, los vectores $T^{0}(x),\dots, T^{m-1}(x)$ deben ser linealmente independientes: en efecto, si no lo fueran existiría una relación de dependencia entre $T^{m-1}(x)$ y términos de grado menor y así $\dim W_{m-1}=\dim W_{m-2}$ y entonces $m$ no sería mínimo. Por lo tanto forman una base para $W_{m-1}$ y respecto a esta base la matriz asociada a $T\vert_{W_{m-1}}$ es

\begin{align*}
A=\begin{pmatrix} 0 & 0 & 0 &\dots & 0 & a_0\\ 1 & 0 & 0 & \dots & 0 & a_1\\ 0 & 1 & 0 & \dots & 0 & a_2\\ \vdots & \vdots &\vdots &\ddots &\vdots &\vdots\\ 0 & 0 & 0 & \dots & 1 & a_{m-1}\end{pmatrix}.
\end{align*}

El polinomio característico de matrices como esta lo calculamos en esta entrada y es igual a $X^{m}-a_{m-1}X^{m-1}-\dots -a_0$. Entonces

\begin{align*}
\chi_{T\vert_{W_{m-1}}}(T)(x)= T^{m}(x)-\sum_{k=0}^{m-1}a_k T^{k}(x)=0.
\end{align*}

Pero como $W_{m-1}$ es $T-$estable, el polinomio característico de $T\vert_{W_{m-1}}$ divide al polinomio característico de $T$ (este es un ejercicio en la tarea moral de esta entrada) y por tanto $\chi_T(T)(x)=0$. Como $x$ fue arbitrario concluimos que $\chi_T(T)$ es la transformación cero.

$\square$

Más adelante…

En la próxima entrada veremos aplicaciones del teorema de Cayley-Hamilton.

Tarea moral

  1. Supón que $T:V\to V$ es una transformación lineal y $V$ es de dimensión finita. Demuestra que si $W$ es un subespacio $T$-estable de $V$ entonces $\chi_{T\vert_{W}}(X)$ divide a $\chi_{T}(X)$. Sugerencia. Considera una base de $W$, extiéndela a una base de $V$. ¿Cómo se ve la matriz asociada a $T$ en esta base?
  2. Explica por qué las dos versiones que dimos del teorema de Cayley-Hamilton son equivalentes.
  3. Demuestra la propiedad de la matriz adjunta que se menciona en la primera demostración.
  4. Sean $A,B,C\in M_2(\mathbb{C})$ matrices tales que $AC=CB$ y $C\neq O_n$. Demuestra que para cualquier polinomio $P$ se cumple que $P(A)C=CP(B)$. Usando esto y escogiendo un polinomio adecuado, deduce que $A$ y $B$ tienen un eigenvalor en común. Sugerencia: Usa el teorema de Cayley-Hamilton.
  5. Sea la matriz
    \begin{align*}
    A=\begin{pmatrix}
    0 & 2 & 0\\
    1 & 1 & -1\\
    -1 & 1& 1
    \end{pmatrix}.
    \end{align*}
    Usa el teorema de Cayley-Hamilton para calcular $A^{1000}$. Sugerencia: El teorema de Cayley-Hamilton te debería dar una relación entre algunas potencias de $A$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Introducción al teorema de Cayley-Hamilton

Por Julio Sampietro

Introducción

En esta entrada introducimos el teorema de Cayley-Hamilton, otro de los teoremas importantes del curso. Intuitivamente este teorema nos dice que «el polinomio característico anula al operador lineal». Es decir, si $P(\lambda)$ es el polinomio característico de una transformación lineal $T$, entonces $P(T)=0$.

Algunos ejemplos

Damos unos cuantos ejemplos para que entendamos que está pasando.

Ejemplo 1. Sea $A\in M_2(\mathbb{R})$ la matriz dada por

\begin{align*}
A=\begin{pmatrix} 0 & -1\\ 1 & 0
\end{pmatrix}.
\end{align*}

Calculemos su polinomio característico

\begin{align*}
\chi_A(X)=\det \begin{pmatrix} X & 1\\ -1 & X\end{pmatrix}=X^2+1.
\end{align*}

Así, si evaluamos al polinomio $\chi_A$ en la matriz $A$ tenemos que calcular

\begin{align*}
\chi_A(A)= A^2+I_2.
\end{align*}

Por un lado

\begin{align*}
A^2=\begin{pmatrix} 0 & 1\\ -1 & 0\end{pmatrix}\cdot \begin{pmatrix} 0 & 1 \\ -1 & 0\end{pmatrix}=\begin{pmatrix} -1 &0 \\ 0 & -1\end{pmatrix}=-I_2.
\end{align*}

Luego

\begin{align*}
\chi_A(A)=A^2+I_2= -I_2+I_2=O_2.
\end{align*}

Es decir, ¡$\chi_A(A)$ es la matriz cero!

$\triangle$

Ejemplo 2. Calculemos el polinomio característico de la matriz $A\in M_3(\mathbb{R})$ dónde $A$ está dada por

\begin{align*}
A=\begin{pmatrix}
0 & -1 & -2\\ 0 & 3 &4\\ 0 & 0 & -5.
\end{pmatrix}
\end{align*}

Notamos que $A$ es una matriz triangular superior. Por una entrada anterior sabemos que el polinomio característico es solo el producto de los monomios $(X-a_{ii})$. Es decir

\begin{align*}
\chi_A(X)=(X-0)(X-3)(X-(-5))= X(X-3)(X+5).
\end{align*}

Enseguida, evaluemos $\chi_A(A)$. Recordamos que esto quiere decir que tenemos que calcular

\begin{align*}
\chi_A(A)=A(A-3I_3)(A+5I_3).
\end{align*}

Por un lado

\begin{align*}
A-3I_3=\begin{pmatrix}
-3 & -1 & -2\\ 0 & 0 & 4\\ 0 & 0 & -8
\end{pmatrix},
\end{align*}

y por otro

\begin{align*}
A+5I_3=\begin{pmatrix}
5 & -1 & -2\\ 0 & 8 & 4\\ 0 & 0 &0
\end{pmatrix}.
\end{align*}

Así

\begin{align*}
(A-3I_3)(A+5I_3)&=\begin{pmatrix}
-3 & -1 & -2\\ 0 & 0 & 4\\ 0 & 0 & -8
\end{pmatrix}\cdot \begin{pmatrix}
5 & -1 & -2\\ 0 & 8 & 4\\ 0 & 0 &0
\end{pmatrix}\\ &=\begin{pmatrix} -15 & -5 & -2\\ 0 &0 &0 \\ 0 & 0 &0\end{pmatrix}.
\end{align*}

Finalmente

\begin{align*}
A(A-I_3)(A+5I_3)=\begin{pmatrix}
0 & -1 & -2\\ 0 & 3 &4\\ 0 & 0 & -5.
\end{pmatrix}\cdot \begin{pmatrix} -15 & -5 & -2\\ 0 &0 &0 \\ 0 & 0 &0\end{pmatrix}=O_3.
\end{align*}

Una vez más $\chi_A(A)=0$.

$\triangle$

El teorema

Los ejemplos anteriores sirven de calentamiento para enunciar el teorema de Cayley-Hamilton, que dice exactamente lo que sospechamos.

Teorema (de Cayley-Hamilton). Para cualquier matriz $A\in M_n(F)$ se cumple

\begin{align*}
\chi_A(A)=O_n.
\end{align*}

En otras palabras, si $\chi_A(X)=X^n+a_{n-1}X^{n-1}+\dots+a_0$ entonces

\begin{align*}
A^{n}+a_{n-1}A^{n-1}+\dots+a_0 I_n=O_n.
\end{align*}

Demostraremos este teorema en la próxima entrada. Uno podría sospechar que la demostración consiste en simplemente sustituir $A$ en la expresión de $\chi_A$ como sigue

\begin{align*}
\chi_A(A)= \det(AI_n-A)=\det(0)=0.
\end{align*}

Sin embargo, esta ‘prueba’ no es correcta, ya que estamos multiplicando a $A$ con $I_n$ como si fueran matrices, mientras que la expresión de $\chi_A$ se refiere a escalares. Más aún, observa como el resultado de la expresión que anotamos es el escalar cero, mientras que sabemos que $\chi_A(A)$ debería ser la matriz cero.

Concluimos esta sección con una breve aplicación del teorema de Cayley-Hamilton.

Proposición. El polinomio mínimo de una matriz $A\in M_n(F)$ divide al polinomio característico.

Demostración. Por el teorema de Cayley-Hamilton, $\chi_A(A)=0$. Luego por definición del polinomio mínimo se sigue que $\mu_A(X)$ divide a $\chi_A(X)$.

$\square$

Más adelante…

En la próxima entrada demostraremos el teorema de Cayley-Hamilton, y luego pasaremos a dar aplicaciones de este.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. En una entrada anterior calculamos el polinomio característico de una matriz nilpotente. Explica por qué el teorema de Cayley-Hamilton es compatible con dicho cálculo. De otra manera, verifica el teorema de Cayley-Hamilton en ese caso particular.
  2. Sea $A\in M_3(\mathbb{R})$ tal que $\operatorname{Tr}(A)=\operatorname{Tr}(A^2)=0$. Usa el teorema de Cayley-Hamilton para demostrar que existe un $\alpha\in \mathbb{R}$ tal que $A^3=\alpha I_3$.
  3. Calcula el polinomio característico de $A\in M_2(\mathbb{C})$ donde
    \begin{align*}
    A=\begin{pmatrix} 0 & -1\\ 1 & 0\end{pmatrix}.
    \end{align*}
    Es decir, $A$ es la misma matriz que en el ejemplo pero pensada como una matriz compleja. Verifica que $\chi_A(A)=O_2$.
  4. Verifica que $\chi_A(A)=O_3$ con
    \begin{align*}
    A= \begin{pmatrix} 1 & 0 & -1\\ 1 & 1 & 1 \\ 0 & 2 & 1\end{pmatrix}\in M_3(\mathbb{R}).
    \end{align*}
  5. Sea $A\in M_n(\mathbb{R})$ una matriz tal que $A$ y $3A$ son similares. Demuestra que $A^n=O_n$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»