Archivo de la etiqueta: diagonalizar

Cálculo Diferencial e Integral III: Polinomio característico

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior estudiamos las representaciones matriciales de una transformación lineal. Vimos cómo dadas ciertas bases del espacio dominio y codominio, existe un isomorfismo entre matrices y transformaciones lineales. Así mismo, planteamos la pregunta de cómo encontrar bases para que dicha forma matricial sea sencilla. Vimos que unos conceptos cruciales para entender esta pregunta son los de eigenvalor, eigenvector y eigenespacio. Lo que haremos ahora es introducir una nueva herramienta que nos permitirá encontrar los eigenvalores de una transformación: el polinomio característico.

A partir del polinomio característico daremos un método para encontrar también a los eigenvectores y, en algunos casos especiales, encontrar una representación de una transformación lineal como matriz diagonal. Todo lo que hacemos es una versión resumida de lo que se puede encontrar en un curso más completo de álgebra lineal. Dentro del blog, te recomendamos consultar las siguientes entradas:

Polinomio característico

Pensemos en el problema de hallar los eigenvalores de una transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$. Si $\lambda \in \mathbb{R}$ es uno de estos eigenvalores, queremos poder encontrar vectores $\bar{v}\neq \bar{0}$ tales que $T(\bar{v})=\lambda \bar{v}$. Esto sucede si y sólo si $\lambda \bar{v}-T(\bar{v})=\bar{0}$, lo cual sucede si y sólo si $(\lambda \text{Id}-T)(\bar{v})=\bar{0}$, en donde $\text{Id}:\mathbb{R}^n\to \mathbb{R}^n$ es la transformación identidad de $\mathbb{R}^n$ en $\mathbb{R}^n$. Tenemos de esta manera que $\bar{v}$ es un eigenvector si y sólo si $\bar{v}\in \ker(\lambda\text{Id}-T)$.

Si existe $\bar{v}\neq \bar{0}$ tal que $\bar{v}\in \ker(\lambda \text{Id}-T)$; entonces $\ker(\lambda \text{Id}-T)\neq \{ \bar{0}\}$ por lo cual la transformación $\lambda \text{Id}-T$ no es invertible, pues no es inyectiva. Así, en ninguna base $\text{Mat}_\beta(\lambda \text{Id}-T)$ es invertible, y por tanto su determinante es $0$. Estos pasos son reversibles. Concluimos entonces que $\lambda\in \mathbb{R}$ es un eigenvalor de $T$ si y sólo si en alguna base $\beta$ se cumple que $\det(\text{Mat}_\beta(\lambda \text{Id} – T))=0.$ Esto motiva la siguiente definición.

Definición. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal. Llamamos a $\det(\text{Mat}_\beta(\lambda \text{Id} – T))$ al polinomio característico de $T$ en la base $\beta$.

Por la discusión anterior, los escalares que cumplen $\det(\text{Mat}_\beta(\lambda \text{Id} – T))=0$ son los eigenvalores $T$. Para obtener los correspondientes eigenvectores, basta con resolver $\text{Mat}_\beta(T)X=\lambda X$, lo cual es un sistema de ecuaciones en el vector de variables $X$. Las soluciones $X$ nos darán las representaciones matriciales de vectores propios $\bar{v}\in \mathbb{R}^n$ en la base $\beta$.

Por el momento parece ser que tenemos mucha notación, pues debemos considerar la base en la que estamos trabajando. Un poco más adelante veremos que en realidad la base no importa mucho para determinar el polinomio característico. Pero por ahora, veamos un ejemplo concreto de las ideas platicadas hasta ahora.

Ejemplo: Consideremos $T:\mathbb{R}^{3}\rightarrow \mathbb{R}^{3}$ dada por $T(x,y,z)=(2x+z,y+x,-z)$. Calculemos su representación matricial con respecto a la base canónica $\beta$. Para ello, realizamos las siguientes evaluaciones:
\begin{align*}
T(1,0,0)&=(2,1,0)\\
T(0,1,0)&=(0,1,0)\\
T(0,0,1)&=(1,0,-1),
\end{align*}

de donde: $$\text{Mat}_\beta=\begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix}.$$

Calculando el polinomio característico obtenemos: \[ det\begin{pmatrix} \lambda-2 & 0 & -1 \\ -1 & \lambda-1 & 0 \\ 0 & 0 & \lambda+1 \end{pmatrix}= (\lambda-2)(\lambda-1)(\lambda+1). \]

Las raíces de $(\lambda-2)(\lambda-1)(\lambda+1)$ son $\lambda_{1}=2$, $\lambda_{2}=1$ y $\lambda_{3}=-1$. Pensemos ahora en quiénes son los eigenvectores asociados a cada eigenvalor. Tomemos como ejemplo el eigenvalor $\lambda=2$. Para que $(x,y,z)$ represente a un eigenvector en la base canónica, debe pasar que:

\[ \begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = 2\begin{pmatrix} x \\ y \\ z \end{pmatrix},\]

lo cual sucede si y sólo si:

\[\begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} – 2\begin{pmatrix} x \\ y \\ z \end{pmatrix}= \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix};\]

\[\left[ \begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} – 2\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}\right] \begin{pmatrix} x \\ y \\ z \end{pmatrix}= \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix};\]

\[\begin{pmatrix} 0 & 0 & 1 \\ 1 & -1& 0 \\ 0 & 0 & -3 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}.\]

De aquí, podemos llegar a la siguiente forma escalonada reducida del sistema de ecuaciones:

\[\begin{pmatrix} 1 & -1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}.\]

En esta forma es sencillo leer las soluciones. Tenemos que $z$ es variable pivote con $z=0$, que $y$ es variable libre, y que $x$ es variable pivote dada por $x=y$. Concluimos entonces que todos los posibles eigenvectores para el eigenvalor $2$ son de la forma $(y,y,0)$, es decir $E_2=\{(y,y,0): y \in \mathbb{R}\}$.

Queda como tarea moral que encuentres los eigenvectores correspondientes a los eigenvalores $1$ y $-1$.

$\triangle$

Matrices similares

En la sección anterior definimos el polinomio de una transformación lineal en términos de la base que elegimos para representarla. En realidad, la base elegida no es muy importante. Demostraremos un poco más abajo que dos representaciones matriciales cualesquiera de una misma transformación lineal tienen el mismo polinomio característico. Para ello, comencemos con la siguiente discusión.

Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal y sean $\beta_1=\{ \bar{e}_{1}, \dots , \bar{e}_{n}\}$, $\beta_2=\{ \bar{u}_{1}, \dots , \bar{u}_{n}\}$ dos bases (ordenadas) de $\mathbb{R}^n$. Supongamos que:

\begin{align*}
A&=\text{Mat}_{\beta_1}(T)=[a_{ij}]\\
B&=\text{Mat}_{\beta_2}(T)=[b_{ij}].
\end{align*}

Por cómo se construyen las matrices $A$ y $B$, tenemos que:

\begin{align*}
T(\bar{e}_j)&=\sum_{i=1}^n a_{ij} \bar{e}_i\quad\text{para $j=1,\ldots,n$}\\
T(\bar{u}_k)&=\sum_{j=1}^n b_{jk} \bar{u}_j\quad\text{para $k=1,\ldots,n$}.
\end{align*}

Como $\beta_{1}$ es base, podemos poner a cada un de los $\bar{u}_k$ de $\beta_{2}$ en términos de la base $\beta_{1}$ mediante combinaciones lineales, digamos:

\begin{equation}
\bar{u}_{k}=\sum_{j=1}^{n}c_{jk}\bar{e}_{j}
\label{eq:valor-u}
\end{equation}

en donde los $c_{jk}$ son escalares para $j=1,\ldots, n$ y $k=1,\ldots,n$. La matriz $C$ de $n\times n$, con entradas $c_{jk}$ representa a una transformación lineal invertible, ya que es una transformación que lleva uno a uno los vectores de una base a otra. Afirmamos que $CB=AC$. Para ello, tomaremos una $k$ en $[n]$ y expresaremos $T(\bar{u}_k)$ de dos formas distintas.

Por un lado, usando \eqref{eq:valor-u} y por como es cada $T(\bar{e}_k)$ en la base $\beta_{1}$ tenemos que:

\begin{align*}
T(\bar{u}_k)&=\sum_{j=1}^n c_{jk} T(\bar{e}_j)\\
&=\sum_{j=1}^n c_{jk} \sum_{i=1}^n a_{ij} \bar{e}_i\\
&=\sum_{j=1}^n \sum_{i=1}^n (c_{jk} a_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \sum_{j=1}^n (c_{jk} a_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \left(\sum_{j=1}^n a_{ij} c_{jk}\right) \bar{e}_i.
\end{align*}

Por otro lado, usando $\eqref{eq:valor-u}$ y por como es cada $T(\bar{u}_k)$ en la base $\beta_{2}$:

\begin{align*}
T(\bar{u}_k)&=\sum_{j=1}^nb_{jk} \bar{u}_j\\
&=\sum_{j=1}^n b_{jk} \sum_{i=1}^{n}c_{ji}\bar{e}_{j} \\
&=\sum_{j=1}^n \sum_{i=1}^n (b_{jk} c_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \sum_{j=1}^n (b_{jk} c_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \left(\sum_{j=1}^n c_{ij} b_{jk} \right) \bar{e}_i.
\end{align*}

Comparemos ambas expresiones para $T(\bar{u}_k)$. La primera es una combinación lineal de los $\bar{e}_i$ y la segunda también. Como $T(\bar{u}_k)$ tiene una única expresión como combinación lineal de los $\bar{e}_i$, entonces los coeficientes de la combinación lineal deben coincidir. Concluimos que para cada $i$ se cumple:

$$\sum_{j=1}^n a_{ij} c_{jk}=\sum_{j=1}^n c_{ij} b_{jk}.$$

Pero esto precisamente nos dice que la entrada $(i,k)$ de la matriz $AC$ es igual a la entrada $(i,k)$ de la matriz $CB$. Con esto concluimos que $AC=CB$, como queríamos.

En resumen, obtuvimos que para dos matrices $A$ y $B$ que representan a la misma transformación lineal, existe una matriz invertible $C$ tal que: $B=C^{-1}AC$. Además $C$ es la matriz con entradas dadas por \eqref{eq:valor-u}.

Introduciremos una definición que nos permitirá condensar en un enunciado corto el resultado que hemos obtenido.

Definición. Dos matrices $A$ y $B$ se llamarán similares (o semejantes), cuando existe otra matriz $C$ invertible tal que $B=C^{-1}AC$.

Sintetizamos nuestro resultado de la siguiente manera.

Proposición. Si dos matrices representan a la misma transformación lineal, entonces estas matrices son similares.

El recíproco de la proposición también se cumple, tal y como lo afirma el siguiente resultado.

Proposición. Sean $A$ y $B$ matrices similares. Entonces $A$ y $B$ representan a una misma transformación lineal $T$, quizás bajo distintas bases.

Demostración: Supongamos que las matrices $A$ y $B$ son similares con $B=C^{-1}AC$, donde las matrices $A$, $B$, $C$ están dadas por entradas $A=[a_{ij}]$ $B=[b_{ij}]$, $C=[c_{jk}]$. Tomemos una base ordenada $\beta=\{\bar{e}_{1}, \dots ,\bar{e}_{n}\}$ de $\mathbb{R}^n$. Consideremos la transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^n)$ dada por $$T(\bar{e}_j)=\sum_{i=1}^n a_{ij} \bar{e}_i.$$

De esta manera $T$ tiene forma matricial $A$ en la base $\beta$.

Construyamos ahora una nueva base ordenada de $\mathbb{R}^n$ dada por vectores $\bar{u}_k$ para $k=1,\ldots,n$ construidos como sigue:

$$\bar{u}_{k}=\sum_{j=1}^{n}c_{jk}\bar{e}_{j}.$$

Como $C$ es invertible, en efecto tenemos que $\beta’:=\{\bar{u}_1,\ldots,\bar{u}_n\}$ también es base de $\mathbb{R}^n$. Además, de acuerdo con las cuentas que hicimos anteriormente, tenemos que precisamente la forma matricial de $T$ en la base $\beta’$ será $B$.

Así, hemos exhibido una transformación $T$ que en una base tiene representación $A$ y en otra tiene representación $B$.

$\square$

Juntando ambos resultados en uno solo, llegamos a lo siguiente.

Teorema. Dos matrices $A$ y $B$ en $M_n(\mathbb{R})$ son similares si y sólo si representan a una misma transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$, quizás bajo distintas bases.

El polinomio característico no depende de la base

Si dos matrices son similares, entonces comparten varias propiedades relevantes para el álgebra lineal. Veamos un ejemplo de esto.

Teorema. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal en un espacio sobre $\mathbb{R}$ de dimensión finita. Sean $\beta$ y $\beta’$ bases de $\mathbb{R}^n$. Entonces se obtiene lo mismo calculando el polinomio característico de $T$ en la base $\beta$, que en la base $\beta’$.

Demostración. Tomemos $A=\text{Mat}_{\beta}(T)$ y $B=\text{Mat}_{\beta’}(T)$. Como $A$ y $B$ representan a la misma transformación lineal $T$, entonces son similares y por lo tanto existe $C$ invertible con $B=C^{-1}AC$.

Para encontrar el polinomio característico de $T$ en la base $\beta$, necesitamos $\Mat_{\beta}(\lambda\text{Id}-T)$, que justo es $\lambda I -A$. Así mismo, en la base $\beta’$ tenemos $\lambda I – B$. Debemos mostrar que el determinante de estas dos matrices es el mismo. Para ello, procedemos como sigue:

\begin{align*}
\det(\lambda I -B) &= \det (\lambda C^{-1}C – C^{-1} A C)\\
&=\det(C^{-1}(\lambda I – A) C)\\
&=\det(C^{-1})\det(\lambda I – A) \det(C)\\
&=\det(C^{-1})\det(C)\det(\lambda I-A)\\
&=\det(I)\det(\lambda I-A)\\
&=\det(\lambda I-A).
\end{align*}

Aquí estamos usando que el determinante es multiplicativo. Cuando reordenamos expresiones con $\det$, lo hicimos pues los determinantes son reales, cuyo producto es conmutativo.

$\square$

Este teorema nos permite hablar del polinomio característico de una transformación lineal.

Concluimos esta entrada con un resultado que relaciona al polinomio característico de una transformación lineal, con la posibilidad de que exista una base cuya representación matricial sea diagonal.

Teorema. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal. Supongamos que el polinomio característico de $T$ tiene raíces distintas $\lambda_{1}, \dots ,\lambda_{n}$. Entonces se cumple lo siguiente:

  1. Si tomamos un eigenvector $\bar{u}_i$ para cada eigenvalor $\lambda_i$, entonces $\bar{u}_{1},\dots ,\bar{u}_{n}$ forman una base $\beta$ para $\mathbb{R}^n$.
  2. Con dicha base $\beta$, se cumple que $\text{Mat}_\beta(T)$ es una matriz diagonal con entradas $\lambda_{1},\dots ,\lambda_{n}$ en su diagonal.
  3. Si $\beta’$ es otra base de $\mathbb{R}^n$ y $A=\text{Mat}_{\beta’}(T)$, entonces $\text{Mat}_\beta(T) = C^{-1}AC$ para una matriz invertible $C$ con entradas dadas por \eqref{eq:valor-u}.

La demostración de este resultado queda como tarea moral.

Más adelante…

En la entrada planteamos entonces un método para encontrar los eigenvectores de una transformación $T$: 1) la transformamos en una matriz $A$, 2) encontramos el polinomio característico mediante $\det(\lambda I – A)$, 3) encontramos las raíces de este polinomio, 4) cada raíz es un eigenvalor y las soluciones al sistema lineal de ecuaciones $(\lambda I – A) X=0$ dan los vectores coordenada de los eigenvectores.

Como platicamos en la entrada, una condición suficiente para que una transformación de $\mathbb{R}^n$ a sí mismo sea diagonalizable es que tenga $n$ eigenvalores distintos. Otro resultado muy bonito de álgebra lineal es que si la transformación tiene alguna forma matricial simétrica, entonces también es diagonalizable. A esto se le conoce como el teorema espectral para matrices simétricas reales. En otros cursos de álgebra lineal se estudia la diagonalizabilidad con mucho detalle. Aquí en el blog puedes consultar el curso de Álgebra Lineal II.

Otra herramienta de álgebra lineal que usaremos en el estudio de la diferenciabilidad y continuidad de las funciones de $\mathbb{R}^{n}$ a $\mathbb{R}^{m}$ son las formas bilineales y las formas cuadráticas. En la siguiente entrada comenzaremos con estos temas.

Tarea moral

  1. Encuentra los eigenvectores faltantes del ejemplo de la sección de polinomio característico.
  2. Considera la transformación lineal $T(x,y,z)=(2x+z,y+x,-z)$ de $\mathbb{R}^3$ en $\mathbb{R}^3$. Nota que es la misma que la del ejemplo de la entrada. Encuentra su representación matricial con respecto a la base $\{(1,1,1),(1,2,3),(0,1,1)\}$ de $\mathbb{R}^3$. Verifica explícitamente que, en efecto, al calcular el polinomio característico con esta base se obtiene lo mismo que con la dada en el ejemplo.
  3. Demuestra que si $A$ y $B$ son dos representaciones matriciales de una misma transformación lineal $T$, entonces $\det(A)=\det(B)$.
  4. Sea $T:\mathbb{R}^{3}\to \mathbb{R}^{3}$ dada por $T(x,y,z)=(x+y+z,x,y)$. Encuentra los eigenvalores correspondientes a la transformación, y responde si es posible representarla con una matriz diagonal. En caso de que sí, encuentra explícitamente la base $\beta$ en la cual $\text{Mat}_{\beta}(T)$ es diagonal.
  5. Demuestra el último teorema de la entrada. Necesitarás usar resultados de la entrada anterior.

Entradas relacionadas

Álgebra Lineal II: Caracterizaciones de diagonalizar

Por Julio Sampietro

Introducción

Ya dimos la definición de que una matriz sea diagonalizable y encontramos buenas razones para, dada una matriz, intentar encontrar una matriz similar que sea diagonal. En esta entrada enunciaremos y demostaremos un teorema de caracterización de matrices diagonalizables, el cual nos ayudará a entender con más profundidad la diagonalizabilidad.

El teorema de caracterización

El teorema principal de esta entrada es el siguiente.

Teorema. Sea $V$ un espacio de dimensión finita sobre $F$ y $T:V\to V$ una transformación lineal. Las siguientes afirmaciones son equivalentes.

  1. $T$ es diagonalizable.
  2. Existe un polinomio $P\in F[X]$ que se divide sobre $F$ y tiene raíces distintas dos a dos, tal que $P(T)=0$.
  3. El polinomio mínimo $\mu_T$ de $T$ se divide sobre $F$ y tiene raíces distintas dos a dos.
  4. Sea $\operatorname{Sp}(T)\subset F$ el conjunto de eigenvalores de $T$. Entonces
    \begin{align*}
    \bigoplus_{\lambda \in \operatorname{Sp}(T)} \ker (T-\lambda \cdot \operatorname{Id})=V.
    \end{align*}

Demostración. Demostremos primero que $1$ implica $2$. Escogemos una base en la que $T$ se represente por una matriz diagonal $D$. Sea $P$ el polinomio cuyas raíces son las diferentes entradas de la diagonal de $D$. Entonces $P(T)$ está representada por la matriz diagonal $P(D)$ con entradas $P(d_{ii})=0$. Es decir $P(T)=0$.

Que $2$ implica $3$ se sigue de la definición del polinomio mínimo: si $P$ cumple $2$, entonces $\mu_T$ divide a $P$ y por tanto cumple $3$.

La implicación $3\Rightarrow 4$ es consecuencia del último teorema de la entrada anterior aplicado a $P=\mu_T$ y los factores lineales siendo los $P_i$.

Finalmente veamos que $4$ implica $1$. Sea $\operatorname{Sp}(T)=\{\lambda_1,\dots, \lambda_k\}$ y sea $v_1,\dots v_n$ una base de $V$ obtenida al pegar una base de $\ker(T-\lambda_1\cdot \operatorname{Id})$ a una base de $\ker(T-\lambda_2\cdot \operatorname{Id})$ y a una base de $\ker(T-\lambda_3 \cdot \operatorname{Id})$ y así sucesivamente hasta pegar una base de $\ker(T-\lambda_n\cdot \operatorname{Id})$. Entonces $v_1,\dots, v_n$ es una base de eigenvectores de $V$ y por tanto se cumple $1$.

$\square$

Consecuencias del teorema

Hacemos algunas observaciones que son consecuencia del teorema anterior.

Observación. Si $T$ es una transformación lineal diagonalizable, entonces el polinomio mínimo de $T$ es

\begin{align*}
\mu_T(X)=\prod_{\lambda \in \operatorname{Sp}(T)} (X-\lambda)
\end{align*}

dónde el producto se toma sobre todos los valores propios, contados sin multiplicidad. El mismo producto pero tomado con multiplicidades rinde el polinomio característico de $T$.

Observación. Si $T$ es cualquier transformación lineal en un espacio vectorial de dimensión finita entonces $T$ es diagonalizable si y sólo si la suma de las dimensiones de los eigenespacios coincide con la dimensión de $V$, es decir si

\begin{align*}
\sum_{\lambda \in \operatorname{Sp}(T)}\dim \ker (T-\lambda \cdot \operatorname{Id})=\dim V.
\end{align*}

Observación. Supongamos que $T$ es diagonalizable. Para cada $\lambda\in \operatorname{Sp}_T$ sea $\pi_{\lambda}$ la proyección al subespacio $\ker(T-\lambda\cdot \operatorname{Id})$. Entonces

\begin{align*}
T=\sum_{\lambda\in \operatorname{Sp}(T)} \lambda \pi_{\lambda}.
\end{align*}

Esto se sigue de la descomposición $\bigoplus_{\lambda \in \operatorname{Sp}(T)} \ker (T-\lambda \cdot \operatorname{Id})=V$ y que si

\begin{align*}
v=\sum_{\lambda \in \operatorname{Sp}(T)} v_{\lambda}, v_{\lambda}\in \ker(T-\lambda\cdot \operatorname{Id}),
\end{align*}

entonces

\begin{align*}
T(v)=\sum_{\lambda \in \operatorname{Sp}(T)} T(v_{\lambda})=\sum_{\lambda \in \operatorname{Sp}(T)} \lambda v_{\lambda}= \sum_{\lambda \in \operatorname{Sp}(T)} \lambda \pi_{\lambda}(v).
\end{align*}

Finalmente enunciamos el teorema que demostramos en su forma matricial (que es ciertamente una consecuencia del teorema para transformaciones lineales).

Teorema. Sea $A\in M_n(F)$. Entonces las siguientes afirmaciones son equivalentes.

  1. $A$ es diagonalizable en $M_n(F)$.
  2. Si $\operatorname{Sp}(A)$ es el conjunto de eigenvalores de $A$, entonces
    \begin{align*}
    \bigoplus_{\lambda \in \operatorname{Sp}(A)}\ker(\lambda \cdot I_n-A)=F^{n}.
    \end{align*}
  3. El polinomio mínimo $\mu_A$ de $A$ se divide sobre $F$ con raíces distintas dos a dos.
  4. Existe un polinomio $P\in F[X]$ que se divide sobre $F$ con raíces distintas dos a dos tal que $P(A)=O_n$.

Problemas para practicar

Terminamos esta entrada con unos cuantos problemas para aplicar los resultados vistos.

Problema. Considera la matriz

\begin{align*}
A=\begin{pmatrix}
0 & 1 & 0\\ 0 & 0 & 1\\ 1 & 0 & 0\end{pmatrix}.
\end{align*}

¿Es $A$ diagonalizable en $M_3(\mathbb{C})$? ¿ En $M_3(\mathbb{R})$?

Solución. El polinomio característico de $A$ está dado por $\chi_A(X)=X^3-1$. Este polinomio se divide sobre $\mathbb{C}$ con raíces distintas, ya que tenemos $3$ soluciones dadas por las raíces de la unidad. Por el teorema de Cayley-Hamilton sabemos que $\chi_A(A)=O_3$. Usando el teorema de esta entrada concluimos que $A$ es diagonalizable sobre $\mathbb{C}$.

Sin embargo, dado que el polinomio característico no se divide sobre $\mathbb{R}$ podemos deducir que $A$ no es diagonalizable en $M_3(\mathbb{R})$.

$\square$

Problema. ¿Es la matriz

\begin{align*}
A=\begin{pmatrix}
0 & 1 & 0\\ -4 & 4 & 0\\ -2 & 1 & 2\end{pmatrix}\in M_3(\mathbb{R})
\end{align*}

diagonalizable?

Solución. Comenzamos calculando el polinomio característico de $A$:

\begin{align*}
\chi_A(X)=\begin{vmatrix} X & -1 & 0 \\ 4 & X-4 & 0 \\ 2 & -1 &X-2\end{vmatrix}
&=(X-2)\begin{vmatrix} X & -1\\ 4 & X-4\end{vmatrix} \\
&= (X-2)(X^2-4X+4)\\
&= (X-2)^3.
\end{align*}

Por tanto $2$ es un eigenvalor con multiplicidad algebraíca $3$. Si $A$ fuese diagonalizable, entonces $2$ tendría multiplicidad geométrica $3$, es decir $\ker(A-2I_3)$ sería $3$-dimensional: ¡pero entonces sería todo $\mathbb{R}^3$! Esto implicaría que $A-2I_3=0$, de otra manera que $A=2I_3$, lo que claramente no es cierto.

$\square$

Más adelante…

En las siguientes entradas estudiaremos formas bilineales, lo que forma el segundo bloque del curso.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para repasar lo visto en esta entrada.

  1. Encuentra todos los valores de $a\in \mathbb{R}$ tales que la matriz
    \begin{align*}
    A=\begin{pmatrix} 2 & 1 &-2\\ 1 & a & -1\\ 1 & 1 & -1\end{pmatrix}\in M_3(\mathbb{R})
    \end{align*}
    sea diagonalizable.
  2. Explicita el por qué el teorema para operadores lineales implica el teorema para matrices.
  3. Calcula la $n$-ésima potencia de
    \begin{align*}
    A=\begin{pmatrix}
    1 & 3 & 3\\ 3 & 1 & 3\\ 3 & 3 & 1
    \end{pmatrix}.
    \end{align*}
    Sugerencia. Diagonaliza a $A$.
  4. Demuestra que si $T:V\to V$ es una transformación lineal con $V$ un espacio vectorial de dimensión finita sobre $\mathbb{C}$ tal que $T^2$ diagonalizable y $\ker T=\ker T^2$ entonces $T$ es diagonalizable.
  5. Si $V$ es un espacio de dimensión finita sobre $F$ y $T:V\to V$ es una transformación lineal diagonalizable fija, entonces cualquier otra transformación lineal $S:V\to V$ satisface $S\circ T=T\circ S$ si y sólo si $S$ deja invariante cada eigenespacio de $T$.

Entradas relacionadas

Álgebra Lineal II: Diagonalizar

Por Julio Sampietro

Introducción

En la entrada anterior estudiamos la triangularización de matrices, que consistía en llevar matrices a una forma triangular superior. En esta fortaleceremos esta idea, y buscaremos maneras de llevar una matriz a una matriz diagonal: a este proceso se le conoce como diagonalizar.

Matrices y transformaciones diagonalizables

A lo largo de esta sección fijamos $F$ un campo. Todos los espacios vectoriales se asumirán de dimensión finita.

Definición. Una matriz $A\in M_n(F)$ es llamada diagonalizable si es similar a una matriz diagonal en $M_n(F)$.

Una transformación lineal $T:V\to V$ sobre un espacio vectorial $V$ se llama diagonalizable si existe una base de $V$ tal que la matriz de $T$ respecto a esa base sea diagonal.

Es decir una matriz $A\in M_n(F)$ es diagonalizable si y sólo si podemos escribir

\begin{align*}
A=PDP^{-1}
\end{align*}

para alguna matriz invertible $P\in M_n(F)$ y una matriz diagonal $D=[d_{ij}]\in M_n(F)$. Nota que la definición implica que cualquier matriz similar a una matriz diagonalizable es a su vez diagonalizable. De misma manera, una transformación lineal es diagonalizable si su representación es diagonalizable respecto a cualquier base (aunque no será necesariamente diagonal en cualquier base).

Damos la siguiente caracterización de transformaciones diagonalizables.

Teorema. Una transformación lineal $T:V\to V$ es diagonalizable si y sólo si $V$ tiene una base compuesta por eigenvectores de $T$.

Demostración. Supongamos que $T$ es diagonalizable. Por tanto existe una base $v_1,\dots, v_n$ de $V$ tal que la matriz asociada a $T$ en esta base es diagonal. Si $(a_{ii})_{i=1}^{n}$ son las entradas diagonales de $A$, entonces por definición $T(v_{i})=a_{ii} v_i$ para todo $i=1,\dots, n$. Luego $v_1,\dots, v_n$ es una base de $V$ compuesta por eigenvectores de $T$.

Conversamente, supongamos que $T$ tiene una base $v_1,\dots, v_n$ compuesta por eigenvectores de $T$. Si $T(v_i)=d_i v_i$ entonces la matriz respecto a $v_1,\dots, v_n$ de $T$ es diagonal con entradas $d_i$.

$\square$

Primeras propiedades

Tenemos dos observaciones inmediatas.

Observación. El teorema nos proporciona una manera de diagonalizar explícitamente una matriz. Si $A\in M_n(F)$ es diagonalizable, entonces encontramos una base de $V=F^n$ formada por eigenvectores y los acomodamos como columnas de una matriz $P$. Entonces $P^{-1}AP=D$ es diagonal y $A=PDP^{-1}$.

Observación. Supongamos que $A$ es diagonalizable y que $A=PDP^{-1}$ para alguna matriz diagonal $D$ y una matriz invertible $P$.

  1. El polinomio característico de $A$ y de $D$ es el mismo, puesto que son matrices similares. De esto deducimos que
    \begin{align*}
    \prod_{i=1}^{n}(X-d_{ii})=\chi_{A}(X).
    \end{align*}
    En particular, los eigenvalores de $A$ son las entradas diagonales de $D$ (contados con multiplicidad).
  2. Sea $\lambda\in F$ un eigenvalor de $A$. Entonces la multiplicidad algebraica es igual al número de índices $i=1,\dots, n$ tales que $d_{ii}=\lambda$ (esto por el inciso anterior). Por otro lado, la dimensión geométrica de $\lambda$ como eigenvalor de $A$ o $D$ es la misma puesto que la asignación $X\mapsto P^{-1}X$ induce un isomorfismo entre $\ker(\lambda I_n-A)$ y $\ker(\lambda I_n-D)$. Pero además la multiplicidad geométrica de $\lambda$ como eigenvalor de $D$ también coincide con el número de índices $i=1,\dots, n$ tales que $\lambda_{ii}=n$, ya que el sistema $DX=\lambda X$ es equivalente a $(d_{ii}-\lambda )x_i=0$. Concluimos que en una matriz diagonalizable, la multiplicidad algebraíca y la multiplicidad geométrica coinciden.

Un par de problemas

A continuación resolvemos un par de problemas: el primero sirve para aplicar lo que hemos visto hasta ahora, y el segundo nos será útil más adelante.

Problema. Demuestra que la matriz

\begin{align*}
A=\begin{pmatrix}
1 & a\\ 0 & 1\end{pmatrix}
\end{align*}

no es diagonalizable si $a\neq 0$.

Solución. Supongamos que $A$ es diagonalizable y escribamos $A=PDP^{-1}$ con $P$ invertible y $D$ diagonal. Como $A$ es triangular superior con entradas diagonales iguales a $1$, deducimos que $1$ es el único eigenvalor de $A$. Por la observación anterior tenemos que las entradas diagonales de $D$ son $1$, por tanto $D=I_n$. Pero entonces $A=PI_nP^{-1}=I_n$ una contradicción si $a\neq 0$.

$\square$

El siguiente problema es más técnico, y nos servirá para demostrar uno de los teoremas fundamentales que caracteriza a las matrices diagonalizables.

Problema. Sea $k>1$ y sean $P_1,\dots, P_k$ polinomios primos relativos dos a dos. Si $P=P_1\cdot P_2\cdots P_k$ es su producto y $Q_i=\frac{P}{P_i}$, demuestra que los $Q_1,\dots, Q_k$ son primos relativos (es decir, no existe un polinomio que los divida a todos simultáneamente).

Solución. Supongamos que existe un polinomio $Q$ irreducible que divide a todos los $Q_i$. Puesto que $Q\mid Q_1=P_2\cdots P_k$ deducimos que $Q$ divide a $P_j$ para algún $j\in \{2,\dots, k\}$. Pero como $Q$ divide también a $Q_j$, esto quiere decir que $Q$ divide a $P_i$ para algún $i\neq j$, lo que contradice que los $P_i$ son primos relativos dos a dos.

$\square$

Un teorema de descomposición

Terminamos esta entrada con un teorema algo técnico que será de mucha utilidad en la próxima entrada, cuando caractericemos a las matrices diagonalizables.

Teorema. Sea $T$ una transformación lineal de algún espacio $V$ en si mismo (no necesariamente de dimensión finita). Entonces para cualesquiera polinomios $P_1,\dots, P_k\in F[X]$ primos relativos dos a dos se cumple que

\begin{align*}
\ker P(T)=\bigoplus_{i=1}^{k} \ker P_i(T),
\end{align*}

dónde $P=P_1\cdots P_k$.

Demostración. Consideramos a los polinomios $Q_i=\frac{P}{P_i}$ como en el problema anterior. Como son primos relativos, el teorema de Bezout nos dice que existen polinomios $R_1,\dots, R_k$ tales que

\begin{align*}
Q_1 R_1+\dots +Q_k R_k=1.
\end{align*}

Como $P_i$ divide a $P$, se sigue que $\ker P_i(T)\subset \ker P(T)$ para todo $i\in \{1,\dots, k\}$. Por otro lado si $x\in \ker P(T)$ y escribimos $x_i=(Q_i R_i)(T)(x)$, la relación anterior nos dice que

\begin{align*}
x=x_1+\dots+x_k
\end{align*}

Más aún $P_i(T)(x_i)=(P_i Q_i R_i)(T)(x)$ y $P_iQ_i R_i$ es un múltiplo de $P$. Dado que $x\in \ker P(T)\subset \ker(P_i Q_i R_i)(T)$, se sigue que $x_i\in \ker P_i(T)$, y como $x=x_1+\dots +x_k$ concluimos que

\begin{align*}
\ker P(T)=\sum_{i=1}^{k} \ker P_i(T).
\end{align*}

Queda por demostrar que si $x_i\in \ker P_i(T)$ y $x_1+\dots + x_k=0$ entonces $x_i=0$ para todo $i\in \{1,\dots, k\}$. Tenemos que

\begin{align*}
Q_1(T)(x_1)+Q_1(T)(x_2)+\dots+ Q_1(T)(x_k)=0.
\end{align*}

Pero $Q_1(T)(x_2)=\dots= Q_1(T)(x_k)=0$ dado que $Q_1$ es un múltiplo de $P_2,\dots, P_k$ y $P_2(T)(x_2)=\dots=P_k(T)(x_k)=0$. Entonces $Q_1(T)(x)=0$ y similarmente $Q_j(T)(x_j)=0$ para $j\in \{1,\dots, k\}$. Pero entonces

\begin{align*}
x_1=(R_1 Q_1)(T)(x_1)+\dots+ (R_k Q_k)(T)(x_k)=0
\end{align*}

y similarmente se demuestra que $x_2=\dots =x_k=0$. Queda demostrado el teorema.

$\square$

Más adelante…

En la próxima entrada usaremos lo demostrado en esta entrada para dar una caracterización de las matrices diagonalizables, como hicimos con las matrices triangularizables.

Tarea moral

Estos ejercicios no forman parte de la evaluación del curso, pero son útiles para practicar los conceptos vistos en esta entrada.

  1. Diagonaliza la matriz
    \begin{align*}
    A=\begin{pmatrix}
    -1 & 2\\ 4 & 1\end{pmatrix}\in M_2(\mathbb{C}).
    \end{align*}
  2. ¿Es la siguiente matriz diagonalizable?
    \begin{align*}
    B=\begin{pmatrix}
    5 & 0 & 0\\ 0 & 5 & 0\\ 1 & 0 & 5\end{pmatrix}\in M_3(\mathbb{R}).
    \end{align*}
  3. Sea $V$ un espacio vectorial de dimensión finita y $T:V\to V$ lineal. Demuestra que si $T$ es diagonalizable, entonces $T^2$ también lo es y además $\ker T=\ker T^2$.
  4. Sean $A,B\in M_n(F)$ dos matrices tales que $A$ es invertible y $AB$ es diagonalizable. Demuestra que $BA$ también lo es.
  5. Sea $A\in M_n(\mathbb{C})$ tal que existe $d>0$ con $A^{d}=I_n$. Demuestra que $A$ es diagonalizable.

Entradas relacionadas

Seminario de Resolución de Problemas: El teorema espectral y matrices positivas

Por Leonardo Ignacio Martínez Sandoval

Introducción

En esta entrada hablaremos de matrices simétricas y de matrices positivas. Nos enfocaremos en el caso en el que sus entradas sean números reales. Ambos tipos de matrices son fundamentales en la teoría de álgebra lineal. Tanto para las matrices simétricas como para las positivas hay resultados de caracterización que podemos utilizar en varios problemas matemáticos.

El teorema espectral para matrices simétricas reales

Si $A$ es una matriz de $m\times n$, su transpuesta $^tA$ es la matriz de $n\times m$ que se obtiene de reflejar a las entradas de $A$ en su diagonal principal. Otra forma de decirlo es que si en términos de entradas tenemos $A=[a_{ij}]$, entonces $^tA=[a_{ji}]$. Una matriz y su transpuesta comparten muchas propiedades, como su determinante, su polinomio característico, su rango, sus eigenvalores, etc.

Decimos que una matriz es simétrica si es igual a su transpuesta. Una matriz es ortogonal si es invertible y $^tA = A^{-1}$. Las matrices simétricas y ortogonales con entradas reales son muy importantes y cumplen propiedades bonitas.

Teorema (teorema espectral). Si $A$ es una matriz de $n\times n$ con entradas reales y simétrica, entonces:

  • Sus eigenvalores $\lambda_1,\ldots,\lambda_n$ (contando multiplicidades), son todos reales.
  • Existe una matriz ortogonal $P$ de $n\times n$ y con entradas reales tal que si tomamos a $D$ la matriz diagonal de $n\times n$ cuyas entradas en la diagonal principal son $\lambda_1,\ldots,\lambda_n$, entonces $$A=P^{-1}DP.$$

No todas las matrices se pueden diagonalizar. Cuando una matriz sí se puede diagonalizar, entonces algunas operaciones se hacen más sencillas. Por ejemplo si $A=P^{-1}DP$ como en el teorema anterior, entonces
\begin{align*}
A^2&=(P^{-1}DP)(P^{-1}DP)\\
&=P^{-1}DDP\\
&=P^{-1}D^2P,
\end{align*}

y de manera inductiva se puede probar que $A^k=P^{-1}D^kP$. Elevar la matriz $D$ a la $k$-ésima potencia es sencillo, pues como es una matriz diagonal, su $k$-ésima potencia consiste simplemente en elevar cada una de las entradas en su diagonal a la $k$.

Problema. Sea $A$ una matriz de $n\times n$ simétrica y de entradas reales. Muestra que si $A^k = O_n$ para algún entero positivo $k$, entonces $A=O_n$.

Sugerencia pre-solución. La discusión anterior te permite enunciar la hipótesis en términos de los eigenvalores de $A$. Modifica el problema a demostrar que todos ellos son cero.

Solución. Como $A$ es simétrica y de entradas reales, entonces sus eigenvalores $\lambda_1,\ldots, \lambda_n$ son reales y es diagonalizable. Digamos que su diagonalización es $P^{-1} D P$. Tenemos que $$O_n = A^k = P^{-1} D^k P.$$ Multiplicando por la matriz $P$ a la izquierda, y la matriz $P^{-1}$ a la derecha, tenemos que $D^k=O_n$. Las entradas de $D^k$ son $\lambda_1^k,\ldots,\lambda_n^k$, y la igualdad anterior muestra que todos estos números son iguales a cero. De este modo, $$\lambda_1=\ldots=\lambda_n=0.$$

Concluimos que $D=O_n$, y que por lo tanto $A=P^{-1} O_n P = O_n$.

$\square$

Veamos ahora un bello problema que motiva una fórmula para los números de Fibonacci desde la teoría del álgebra lineal.

Problema. Toma la matriz $$A=\begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix}.$$ Calcula las primeras potencias de $A$ a mano. Conjetura y muestra cómo es $A^n$ en términos de la sucesión de Fibonacci. A partir de esto, encuentra una fórmula para el $n$-ésimo término de la sucesión de Fibonacci.

Sugerencia pre-solución. Para empezar, haz las primeras potencias y busca un patrón. Luego, para la demostración de esa parte, procede por inducción. Hay varias formas de escribir a la sucesión de Fibonacci, usa una notación que sea cómoda.

Solución. Al calcular las primeras potencias de la matriz $A$ obtenemos:

\begin{align*}
A&=\begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix},\\
A^2&=\begin{pmatrix} 1 & 1 \\ 1 & 2 \end{pmatrix},\\
A^3&=\begin{pmatrix} 1 & 2 \\ 2& 3 \end{pmatrix},\\
A^4&=\begin{pmatrix} 2 & 3 \\ 3 & 5 \end{pmatrix},\\
A^5&=\begin{pmatrix} 3 & 5 \\ 5 & 8 \end{pmatrix}.
\end{align*}

Al parecer, en las entradas de $A$ van apareciendo los números de Fibonacci. Seamos más concretos. Definimos $F_0=0$, $F_1=1$ y para $n\geq 0$ definimos $$F_{n+2}=F_{n}+F_{n+1}.$$ La conjetura es que para todo entero $n\geq 1$, se tiene que $$A^n=\begin{pmatrix} F_{n-1} & F_n \\ F_n & F_{n+1}\end{pmatrix}.$$

Esto se puede probar por inducción. Arriba ya hicimos el caso $n=1$. Supongamos la conjetura cierta hasta un entero $n$ dado, y consideremos la matriz $A^{n+1}$. Tenemos haciendo el producto de matrices, usando la hipótesis inductiva y la recursión de Fibonacci, que

\begin{align*}
A^{n+1}&=AA^n\\
& =\begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix} \begin{pmatrix} F_{n-1} & F_n \\ F_n & F_{n+1} \end{pmatrix}\\
&= \begin{pmatrix} F_n & F_{n+1} \\ F_{n-1} + F_n & F_n + F_{n+1} \end{pmatrix}\\
&=\begin{pmatrix} F_n & F_{n+1} \\ F_{n+1} & F_{n+2} \end{pmatrix}.
\end{align*}

Esto termina el argumento inductivo y prueba la conjetura.

Para encontrar una fórmula para los Fibonaccis, lo que haremos ahora es usar el teorema espectral. Esto lo podemos hacer pues la matriz $A$ es de entradas reales y simétrica. Para encontrar la matriz diagonal de la factorización, necesitamos a los eigenvalores de $A$. Su polinomio característico es $$\begin{vmatrix} \lambda & -1 \\ – 1 & \lambda -1 \end{vmatrix}=\lambda^2-\lambda -1.$$

Usando la fórmula cuadrática, las raíces de este polinomio (y por tanto, los eigenvalores de $A$) son $$\frac{1\pm \sqrt{5}}{2}.$$ Por el momento, para simplificar la notación, llamemos $\alpha$ a la de signo más y $\beta$ a la raíz de signo menos. Por el teorema espectral, existe una matriz invertible $P$ de $2\times 2$ tal que $$A=P^{-1}\begin{pmatrix} \alpha & 0 \\ 0 & \beta \end{pmatrix} P.$$

De esta forma, $$A^n = P^{-1}\begin{pmatrix} \alpha^n & 0 \\ 0 & \beta^n \end{pmatrix} P.$$

Aquí no es tan importante determinar concretamente $P$ ni realizar las cuentas, sino darnos cuenta de que tras realizarlas cada entrada será una combinación lineal de $\alpha^n$ y $\beta^n$ y de que los coeficientes de esta combinación lineal ya no dependen de $n$, sino sólo de las entradas de $P$. En particular, la entrada superior derecha de $A^n$ por un lado es $F_n$, y por otro lado es $r\alpha^n + s\beta ^n$.

¿Cómo obtenemos los valores de $\alpha$ y $\beta$? Basta substituir $n=1$ y $n=2$ para obtener un sistema de ecuaciones en $\alpha$ y $\beta$. Aquí abajo usamos que como $\alpha$ y $\beta$ son raíces de $x^2-x-1$, entonces $\alpha^2=\alpha+1$, $\beta^2=\beta+1$ y $\alpha+\beta = 1$.

$$\begin{cases}
1= F_1 = r \alpha + s \beta \\
1= F_2 = r \alpha^2 + s \beta^2 = r + s + 1.
\end{cases}$$

De aquí, obtenemos la solución
\begin{align*}
r&=\frac{1}{\alpha-\beta} = \frac{1}{\sqrt{5}}\\
s&=-r = -\frac{1}{\sqrt{5}}.
\end{align*}

Finalmente, todo este trabajo se resume a que una fórmula para los números de Fibonacci es $$F_n=\frac{\left(\frac{1+\sqrt{5}}{2}\right)^n – \left(\frac{1-\sqrt{5}}{2}\right)^n}{\sqrt{5}}.$$

$\square$

Matrices positivas y positivas definidas

Por definición, una matriz simétrica $A$ de $n\times n$ con entradas reales es positiva si para cualquier vector (columna) $v$ en $\mathbb{R}^n$ se tiene que $$^t v A v \geq 0.$$ Aquí $^tv$ es la transposición de $v$, es decir, el mismo vector, pero como vector fila.

Si además la igualdad se da sólo para el vector $v=0$, entonces decimos que $A$ es positiva definida. Un ejemplo sencillo de matriz positiva es la matriz $A=\begin{pmatrix} 1 & -1 \\ -1 & 1\end{pmatrix},$ pues para cualquier vector $v=(x,y)$ se tiene que $$^t v A v = x^2-2xy+y^2=(x-y)^2\geq 0.$$ Sin embargo, esta matriz no es positiva definida pues la expresión anterior se anula en vectores no cero como $(1,1)$. Como puedes verificar, un ejemplo de matriz positiva definida es $$B=\begin{pmatrix} 3 & 0 \\ 0 & 4 \end{pmatrix}.$$

Las matrices reales que son positivas definidas son importantes pues caracterizan todos los productos interiores en $\mathbb{R}^n$. Una vez que se tiene un producto interior en un espacio vectorial de dimensión finita, se pueden aprovechar muchas de sus propiedades o consecuencias, por ejemplo, la desigualdad de Cauchy-Schwarz o la existencia de bases ortogonales para hacer descomposiciones de Fourier.

Para cuando se quieren resolver problemas, es muy útil conocer varias equivalencias de que una matriz sea positiva.

Equivalencias para matrices positivas

El siguiente resultado enuncia algunas de las equivalencias para que una matriz sea positiva

Teorema. Sea $A$ una matriz simétrica. Entonces todas las siguientes afirmaciones son equivalentes:

  1. $A$ es positiva.
  2. Todos los eigenvalores de $A$ son no negativos.
  3. $A=B^2$ para alguna matriz simétrica $B$ en $M_n(\mathbb{R})$.
  4. $A= {^tC} C$ para alguna matriz $C$ en $M_n(\mathbb{R})$.

Hay un resultado análogo para cuando se quiere determinar si una matriz $A$ es positiva definida. En ese caso, los eigenvalores tienen que ser todos positivos. Para los puntos $3$ y $4$ se necesita además que $B$ y $C$ sean invertibles.

Problema. Sea $A$ una matriz de $n\times n$ con entradas reales, simétrica y positiva. Muestra que si $$\text{tr}(A) = n \sqrt[n]{\det(A)},$$ entonces $A$ conmuta con cualquier matriz de $n\times n$.

Sugerencia pre-solución. Necesitarás usar que matrices similares tienen la misma traza y el mismo determinante, o una versión particular para este problema.

Solución. Las siguientes son propiedades de la traza y el determinante:

  • El determinante de una matriz diagonal es el producto de las entradas en su diagonal.
  • Si tenemos dos matrices similares, entonces tienen la misma traza.

En particular, las hipótesis implican, por el teorema espectral, que $A$ se puede diagonalizar con matrices $A=P^{-1} D P$, donde $D$ es la matriz diagonal que tiene en su diagonal principal a los eigenvalores $\lambda_1,\ldots,\lambda_n$ de $A$, y $P^{-1}$ es una matriz invertible. Como $A$ y $D$ son similares, se tiene que
\begin{align*}
\text{tr}(A)=\text{tr}(D)=\lambda_1+\ldots+\lambda_n\\
\det(A)=\det(D)=\lambda_1\cdot\ldots\cdot\lambda_n.
\end{align*}

Como $A$ es positiva, entonces todos sus eigenvalores son no negativos, así que satisfacen la desigualdad MA-MG:

$$\frac{\lambda_1+\ldots+\lambda_n}{n} \geq \sqrt[n]{\lambda_1\cdot\ldots\cdot\lambda_n}.$$

Por la última hipótesis del problema, esta desigualdad es de hecho una igualdad. Pero la igualdad en MA-MG se alcanza si y sólo si todos los números son iguales entre sí. Tenemos entonces que todos los eigenvalores son iguales a un cierto valor $\lambda$, y entonces $D=\lambda I_n$. Como cualquier múltiplo escalar de la matriz identidad conmuta con cualquier matriz de $n\times n$, tendríamos entonces que

\begin{align*}
A&=P^{-1}D P \\
&=P^{-1}(\lambda I_n) P\\
&=(\lambda I_n) (P^{-1}P)\\
&=\lambda I_n.
\end{align*}

Con esto probamos que $A$ es de hecho un múltiplo de la matriz identidad, y por lo tanto conmuta con cualquier matriz de $n\times n$.

$\square$

Más problemas

Puedes encontrar más problemas del teorema espectral, de formas y matrices positivas en la Sección 10.2 y la Sección 10.8 del libro Essential Linear Algebra de Titu Andreescu.

Álgebra Lineal I: Eigenvalores y eigenvectores de transformaciones y matrices

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores ya establecimos los fundamentos para hablar de determinantes. Dimos su definición para el caso de vectores y el caso de matrices/transformaciones lineales. Enunciamos y demostramos varias de sus propiedades. Luego dedicamos toda una entrada a ver formas de calcularlos. Finalmente, vimos que nos pueden ayudar para entender mucho mejor a los sistemas de ecuaciones lineales. Entender bien estos conceptos te será de gran utilidad en tu formación matemática.

Además, los determinantes son un paso natural en uno de nuestros objetivos del curso: entender por qué las matrices simétricas reales son diagonalizables. Recuerda que una matriz $A$ en $M_n(F)$ es diagonalizable si existe una matriz diagonal $D$ y una matriz invertible $P$, ambas en $M_n(F)$, de modo que $$A=P^{-1}DP.$$

Lo que haremos en esta entrada es hablar de esos valores que aparecen en la matriz diagonal $D$ en el caso de que $A$ sea diagonalizable. Resulta que estos valores están relacionados con una pregunta muy natural en términos de lo que le hace la matriz a ciertos vectores. Y mejor aún, como veremos, hay un método para encontrar estos valores por medio de un determinante. Vamos poco a poco.

Eigenvalores y eigenvectores para transformaciones lineales

Sea $V$ un espacio vectorial sobre un campo $F$ y sea $T:V\to V$ una transformación lineal. Para fijar ideas, pensemos en $\mathbb{R}^n$ por el momento. A veces, $T$ simplemente la cambia la magnitud a un vector, sin cambiarle la dirección. Es decir, hay algunos vectores para los cuales $T$ se comporta simplemente como la multiplicación por un escalar. En símbolos, hay vectores $v$ tales que existe un valor $\lambda$ tal que $T(v)=\lambda v$.

Por supuesto, al vector $0$ siempre le pasa esto, pues como $T$ es lineal, se tiene que $T(0)=0=\lambda\cdot 0$ para cualquier escalar $\lambda$. Resulta que cuando se estudian estos vectores y escalares especiales, lo más conveniente es quitar al vector $0$ de la discusión. Estas ideas llevan a la siguiente definición.

Definición. Un eigenvalor de una transformación lineal $T:V\to V$ es un escalar $\lambda$ tal que $\lambda \text{id} – T$ no es invertible. En otras palabras, $\lambda$ es un escalar tal que existe un vector no cero en el kernel de $\lambda \text{id} – T$. A un vector $v\neq 0$ en $V$ tal que $$(\lambda \text{id} – T)v=0,$$ se le conoce como un eigenvector de $T$.

En otras palabras, $v$ es un eigenvector correspondiente a $T$ si $v$ no es cero y $T(v)=\lambda v$. A los eigenvalores y eigenvectores de $T$ también se les conoce en la bibliografía como valores propios y vectores propios de $T$.

Observa que si al conjunto de eigenvectores para un eigenvalor $\lambda$ le agregamos el vector $0$, entonces obtenemos el kernel de una transformación lineal, que sabemos que es un subespacio vectorial.

Veamos un par de ejemplos para que queden más claras las ideas.

Ejemplo. Consideremos a la transformación lineal $T:\mathbb{R}^3\to \mathbb{R}^3$ dada por $$T(x,y,z)=(-2x+15y+18z,3y+10z,z).$$

Observa que
\begin{align*}
T(1,0,0)&=(-2,0,0)\\
&=-2(1,0,0),
\end{align*}

que
\begin{align*}
T(-19,-5,1)&=((-2)(-19)+15(-5)+18,3(-5)+10, 1)\\
&=(28+75-18,-15+10,1)\\
&=(-19,-5,1),
\end{align*}

y que

\begin{align*}
T(3,1,0)&=(-6+15,3,0)\\
&=(9,3,0)\\
&=3(3,1,0).
\end{align*}

Estas igualdades muestran que $(1,0,0)$ es un eigenvector de $T$ con eigenvalor $-2$, que $(-19,-5,1)$ es un eigenvector de $T$ con eigenvalor $1$ y $(3,1,0)$ es un eigenvector de $T$ con eigenvalor $3$.

$\square$

Ejemplo. Consideremos al espacio vectorial $\mathbb{R}[x]$ de polinomios con coeficientes reales. Tomemos la transformación lineal $T$ que manda a un polinomio a su segunda derivada. ¿Quiénes son los eigenvalores y eigenvectores de $T$?

Para que $p$ sea un eigenvector con eigenvalor $\lambda$, tiene que suceder que $$p»=T(p)=\lambda p.$$

Como $p$ no es el vector cero, tiene un cierto grado. Si $\lambda \neq 0$, entonces la igualdad anterior no puede suceder, pues si $p$ es de grado mayor o igual a $2$, entonces el grado de $p»$ es menor al de $\lambda p$, y si el grado de $p$ es $0$ ó $1$, su segunda derivada es $0$, y no puede pasar $\lambda p = 0$. Así, el único eigenvalor que puede tener $T$ es $\lambda = 0$. Observa que sí es válido que los eigenvalores sean cero (los eigenvectores no).

Cuando $\lambda = 0$, tiene que pasar que $p»$ sea $0\cdot p$, es decir, el polinomio cero. Los únicos polinomios tales que su derivada es cero son los constantes y los lineales. Pero el polinomio cero por definición no es eigenvector.

Así, la respuesta final es que el único eigenvalor de $T$ es $0$, y sus eigenvectores correspondientes son los polinomios constantes distintos de cero, y los polinomios lineales.

$\square$

Eigenvalores y eigenvectores para matrices

Tenemos una definición similar para matrices. Sea $A$ una matriz en $M_n(F)$.

Definición. Un escalar $\lambda$ en $F$ es un eigenvalor de $A$ si la matriz $\lambda I_n – A$ no es invertible. En otras palabras, si existe un vector no cero $X$ en $F^n$ tal que $AX=\lambda X$. A un tal vector $X$ se le conoce como un eigenvector correspondiente al eigenvalor $\lambda$.

En otras palabras, los eigenvalores y eigenvectores de $A$ son exactamente los eigenvalores y eigenvectores de la transformación $T_A:\mathbb{F}^n\to \mathbb{F}^n$ dada por $T_A(v)=Av$.

Además, si elegimos cualquier base $B$ de un espacio de dimensión finita $V$ y $A$ es la matriz de $T$ con respecto a la base $B$, entonces para cualquier escalar $\lambda$ se tiene que $\lambda I_n – A$ es la matriz de $\lambda \text{id} – T$ con respecto a esta misma base. De aquí se deduce que los eigenvalores de $T$ son los mismos que los eigenvalores de $A$. Dos matrices que representan a $T$ difieren sólo en un cambio de base, así que obtenemos el siguiente resultado fundamental.

Proposición. Si $A$ es una matriz en $M_n(F)$ y $P$ es una matriz invertible, entonces $A$ y $P^{-1}AP$ tienen los mismos eigenvalores. En otras palabras, matrices similares tienen los mismos eigenvalores.

En el primer ejemplo tomamos la transformación lineal $T:\mathbb{R}^3\to \mathbb{R}^3$ tal que $$T(x,y,z)=(-2x+15y+18z,3y+10z,z).$$ Su matriz en la base canónica de $\mathbb{R}^3$ es $$A=\begin{pmatrix} -2 & 15 & 18\\ 0 & 3 & 10\\ 0 & 0 & 1 \end{pmatrix}.$$ En el ejemplo vimos que los eigenvalores eran $-2$, $1$ y $3$, que precisamente conciden con las entradas en la diagonal de $A$. Esto no es casualidad. El siguiente resultado muestra esto, y es una primer evidencia de la importancia de los determinantes para encontrar los eigenvalores de una matriz.

Proposición. Si $A$ es una matriz triangular (superior o inferior) en $M_n(F)$, entonces sus eigenvalores son exactamente las entradas en su diagonal principal.

Demostración. Haremos el caso para cuando $A$ es triangular superior. El otro caso queda de tarea moral.

Queremos encontrar los valores $\lambda$ para los cuales la matriz $\lambda I_n – A$ no sea invertible. La matriz $A$ es triangular superior, así que la matriz $\lambda I_n – A$ también, pues las entradas de $A$ se vuelven negativas, y luego sólo se altera la diagonal principal.

Si las entradas diagonales de $A$ son $a_{11},\ldots,a_{nn}$, entonces las entradas diagonales de $\lambda I_n -A$ son $$\lambda – a_{11},\ldots,\lambda-a_{nn}.$$

La matriz $\lambda I_n – A$ no es invertible si y sólo si su determinante es igual a cero. Como es una matriz triangular superior, su determinante es el producto de sus entradas diagonales, es decir, $$\det(\lambda I_n – A) = (\lambda – a_{11})\cdot\ldots\cdot(\lambda – a_{nn}).$$

Este producto es $0$ si y sólo si $\lambda$ es igual a alguna entrada $a_{ii}$. De esta forma, los únicos eigenvalores de $A$ son las entradas en su diagonal.

$\square$

Si $A$ es una matriz diagonalizable, entonces es semejante a una matriz diagonal $D$. Por la proposición anterior, los eigenvalores de $A$ serían entonces las entradas en la diagonal principal de $D$. Esto nos da una intuición muy importante: si acaso pudiéramos encontrar todos los eigenvalores de $A$, entonces eso podría ser un paso parcial hacia diagonalizarla.

Encontrar eigenvalores es encontrar las raíces de un polinomio

La siguiente proposición conecta eigenvalores, polinomios y determinantes.

Proposición. Sea $A$ una matriz en $M_n(F)$. Entonces la expresión $$\det(\lambda I_n – A)$$ está en $F[\lambda]$, es decir, es un polinomio en la variable $\lambda$ con coeficientes en $F$. Además, es de grado exactamente $n$.

Demostración. La fórmula para el determinante
\begin{align*}
\begin{vmatrix}
\lambda – a_{11} & -a_{12} & \ldots & -a_{1n}\\
-a_{21} & \lambda – a_{22} & \ldots & -a_{1n}\\
\vdots & & \ddots & \\
-a_{n1} & -a_{n2} & \ldots & \lambda – a_{nn}
\end{vmatrix}
\end{align*}

en términos de permutaciones nos dice que el determinante es sumas de productos de entradas de $A$. Cada una de las entradas es un polinomio en $F[\lambda]$, ya sea constante, o lineal. Como $F[\lambda]$ es cerrado bajo sumas y productos, esto prueba la primer parte de la afirmación.

Para probar que el grado es exactamente $n$, notemos que cada sumando de la expresión multiplica exactamente $n$ entradas. Como las entradas a lo mucho son de grado uno en $F[\lambda]$, entonces cada sumando es un polinomio de grado a lo más $n$. Hay una única forma que el grado sea $n$: cuando se elige la permutación identidad y entonces se obtiene el sumando $$(\lambda-a_{11})\cdot\ldots\cdot(\lambda-a_{nn}).$$

Esto termina la prueba.

$\square$

La proposición anterior nos asegura entonces que la siguiente definición tiene sentido.

Definición. Para $A$ una matriz en $M_n(F)$, el polinomio característico de $A$ es el polinomio $\chi_A(\lambda)$ en $F[\lambda]$ dado por $$\chi_A(\lambda) = \det(\lambda I_n – A).$$

De esta forma, $\lambda$ es un eigenvalor de $A$ si y sólo si es una raíz del polinomio $\chi_A(\lambda)$. Esto son buenas y malas noticias. Por un lado, nos cambia un problema de álgebra lineal a uno de polinomios, en donde a veces tenemos herramientas algebraicas que nos ayudan a encontrar raíces. Sin embargo, como se ve en cursos anteriores, también hay otros polinomios para los cuales es muy difícil encontrar sus raíces de manera exacta. Lo que salva un poco esa situación es que sí existen métodos para aproximar raíces numéricamente de manera computacional.

A pesar de la dificultad de encontrar raíces, sin duda tenemos consecuencias interesantes de esta conexión. Consideremos como ejemplo el siguiente resultado.

Proposición. Una matriz $A$ en $M_n(F)$ tiene a lo más $n$ eigenvalores distintos. Lo mismo es cierto para una transformación lineal $T:V\to V$ para $V$ un espacio vectorial de dimensión $n$.

Demostración. La matriz $A$ tiene tantos eigenvalores como raíces en $F$ tiene su polinomio característico. Como el polinomio característico es de grado exactamente $n$, tiene a lo más $n$ raíces en $F$.

La parte de transformaciones queda de tarea moral.

$\square$

Ya que encontramos los eigenvalores de una matriz o transformación, es posible que queramos encontrar uno o más eigenvectores correspondientes a ese eigenvalor. Observa que eso corresponde a encontrar una solución no trivial al sistema lineal de ecuaciones homogéneo de la forma $$(I_n-A) X = 0.$$ Para ello ya tenemos muchas herramientas, como hacer reducción Gaussiana.

Terminamos esta entrada con un ejemplo de cómo encontrar los valores propios y vectores propios en un caso concreto.

Problema. Encuentra los eigenvalores de la matriz $$A=\begin{pmatrix}1 & 0 & 0\\ 0 & 0 & -1 \\ 0 & 1 & 0 \end{pmatrix}$$ considerándola como:

  • Una matriz en $M_3(\mathbb{R})$
  • Una matriz en $M_3(\mathbb{C})$.

En el caso de $M_n(\mathbb{R})$, encuentra un eigenvector para cada eigenvalor.

Solución. Para encontrar los eigenvalores, tenemos que encontrar el determinante $$\begin{vmatrix}\lambda – 1 & 0 & 0\\ 0 & \lambda & 1 \\ 0 & -1 & \lambda \end{vmatrix}.$$

Usando expansión de Laplace en la primer columna y haciendo las operaciones, obtenemos que el determinante de $\lambda I_3 – A$ es el polinomio $$(\lambda-1)(\lambda^2+1).$$

Aquí es importante la distinción de saber en qué campo estamos trabajando. Si estamos en $M_3(\mathbb{R})$, la única raíz del polinomio es $1$. Si estamos en $M_3(\mathbb{C})$, obtenemos otras dos raíces: $i$ y $-i$.

Ahora, para cuando $A$ es matriz en $M_3(\mathbb{R})$, necesitamos encontrar un eigenvector para el eigenvalor $1$. Esto equivale a encontrar una solución al sistema de ecuaciones $$(I_3-A)X=0,$$ es decir, a $$\begin{pmatrix}0 & 0 & 0\\ 0 & 1 & 1 \\ 0 & -1 & 1\end{pmatrix}X=0.$$

Una solución para este sistema es $X=(1,0,0)$. Y en efecto, $(1,0,0)$ es eigenvector de $A$ para el eigenvalor $1$ pues no es el vector cero y $$\begin{pmatrix}1 & 0 & 0\\ 0 & 0 & -1 \\ 0 & 1 & 0 \end{pmatrix}\begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix} = \begin{pmatrix} 1 + 0 + 0 \\ 0 + 0 + 0 \\ 0 + 0 + 0 \end{pmatrix} = \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix}.$$

$\square$

Observa que la matriz anterior no es diagonalizable en $M_n(\mathbb{R})$, pues si lo fuera tendría que ser semejante a una matriz diagonal $D$ con entradas $i$ y $-i$ en la diagonal, pero entonces $D$ no sería una matriz en $M_n(\mathbb{R})$. Esto nos da otra intuición con respecto a la diagonalización de una matriz: si acaso una matriz en $M_n(F)$ es diagonalizable, entonces su polinomio característico debe tener puras raíces en $F$. Esta es una condición necesaria, pero aún no es suficiente.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • En la entrada vimos que los eigenvalores de una transformación $T$ son los eigenvalores de cualquier matriz que la represente. ¿Es cierto que los eigenvectores de $T$ son los eigenvectores de cualquier matriz que lo represente?
  • Muestra que una transformación lineal $T:V\to V$ para $V$ un espacio vectorial de dimensión $n$ tiene a lo más $n$ eigenvalores distintos.
  • Encuentra los eigenvalores de las matrices de permutación.
  • Para un real $\theta\in[0,2\pi)$ se define la matriz $$A(\theta):=\begin{pmatrix} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{pmatrix}.$$ Muestra que $A(\theta)$ tiene eigenvalores reales si y sólo si $\theta=0$ \o $\theta=\pi$. Sugerencia: Encuentra el polinomio característico (que es cuadrático) y calcula su discrimintante. Si es negativo, no tiene soluciones reales.
  • Sea $A$ una matriz en $M_n(F)$. Muestra que la matriz transpuesta $^t A$ tiene los mismos eigenvalores que $A$, y de hecho, el mismo polinomio característico que $A$. Sugerencia. Recuerda que una matriz y su transpuesta tienen el mismo determinante.

Más adelante…

En esta entrada definimos el concepto de eigenvalor y eigenvector para una transformación lineal y para una matriz; y vimos algunas de las propiedades que cumplen. En la siguiente entrada estudiaremos el concepto de polinomio característico utilizando los conceptos que hemos visto en esta entrada y enunciaremos (sin demostración) dos teoremas muy importantes. Luego, pondremos en práctica lo que hemos estudiado resolviendo algunos ejercicios.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»