Álgebra Lineal II: Aplicar polinomios a transformaciones lineales y matrices

Por Julio Sampietro

Introducción

Varios de los resultados fundamentales de Álgebra Lineal se obtienen al combinar las idea de transformaciones lineales con la de polinomios. El objetivo de esta entrada es introducir el concepto de «aplicar polinomios a matrices» o equivalentemente «aplicar polinomios a transformaciones lineales». La idea fundamental es simple: las potencias en los polinomios se convierten en repetidas aplicaciones de la transformación y las constantes en múltiplos de la identidad. Si bien esta idea es simple, más adelante veremos aplicaciones importantes y con un gran alcance. Uno de los resultados cruciales que surge de esta idea es el conocido teorema de Cayley-Hamilton.

Primeras construcciones

Sea $V$ un espacio vectorial sobre un campo $F$, y sea $T:V\to V$ una transformación lineal. Definimos a la transformación $T^n:V\to V$ para cualquier $n\in \mathbb{N}$ inductivamente a través de

\begin{align*}
T^0=\operatorname{Id}, \hspace{5mm} T^{i+1}= T\circ T^{i},
\end{align*}

donde, recordamos, $\operatorname{Id}$ es la transformación identidad. Intuitivamente, $T^n$ es la «$n$-ésima composición» de $T$. Por ejemplo, $T^3(v)$ no es más que $T(T(T(v)))$ y $T^0(v)$ es simplemente «no usar $T$ para nada», es decir, $\operatorname{Id}(v)=v$. Al componer iteradamente $T$, sigue siendo una transformación lineal de $V$ a $V$, así que $T^n$ es transformación lineal de $V$ a $V$ para todo entero $n\geq 0$.

Ya que hablamos de «potencias» de una transformación lineal, podemos rápidamente hacer sentido de un «polinomio evaluado en una transformación lineal». Si $$P(X)=a_0+a_1X+a_2X^2+\dots + a_n X^n\in F[X]$$ es un polinomio, definimos $P(T):V\to V$ como

\begin{align*}
P(T):= a_0 T^{0}+ a_1 T^1+ a_2 T^2+\dots +a_n T^n.
\end{align*}

Como las transformaciones lineales de $V$ a $V$ son cerradas bajo combinaciones lineales, entonces $P(T)$ también es una transformación lineal de $V$ a $V$.

Ejemplo. Tomemos a la transformación $T:\mathbb{R}^2\to \mathbb{R}^2$ dada por $T(x,y)=(2x-2y,x+y)$. Tomemos al polinomio $P(x)=x^3-2x+4$. ¿Quién es la transformación $P(T)$? Calculemos primero las «potencias» de $T$:

\begin{align*}
T^0(x,y)&=(x,y)\\
T^1(x,y)&=T(x,y)\\
&=(2x-2y,x+y)\\
T^2(x,y)&=T(T(x,y))\\
&=T(2x-2y,x+y)\\
&=(2(2x-2y)-2(x+y),(2x-2y)+(x+y))\\
&=(2x-6y,3x-y)\\
T^3(x,y)&=T(2x-6y,3x-y)\\
&=(-2x-10y,5x-7y).
\end{align*}

Ahora sí, ya podemos saber qué hace $P(T)$. Tenemos:

\begin{align*}
P(T)(x,y)&=(T^3-2T+4\text{Id})(x,y)\\
&=(-2x-10y,5x-7y)-2(2x-2y,x+y)+4(x,y)\\
&=(-2x-6y,3x-5y).
\end{align*}

$\triangle$

Sumas y productos de polinomios

Las operaciones suma y producto de polinomios se traducen, respectivamente, a suma y composición de las evaluaciones en transformaciones lineales. Esta es una linda propiedad que podemos hacer precisa gracias a la siguiente proposición.

Proposición. Si $P_1, P_2\in F[X]$ son dos polinomios y $T:V\to V$ es una transformación lineal, entonces

  1. $ (P_1+P_2)(T)=P_1(T)+P_2(T)$,
  2. $(P_1P_2)(T)=P_1(T)\circ P_2(T)$.

Te invitamos a demostrar esta proposición. Advertimos que, sin embargo, no se cumplen identidades como $$P(T_1+T_2)=P(T_1)+P(T_2)$$ o bien $$P(T_1\circ T_2)=P(T_1)\circ P(T_2).$$ Un contraejemplo para la primera identidad podría ser tomar$P(X)=X^2$ y $T_1=T_2=\operatorname{Id}$. En este caso

\begin{align*}
P(T_1+T_2)&=(T_1+T_2)^2\\&= 4\operatorname{Id}\\&\neq 2\operatorname{Id}\\&=P(T_1)+P(T_2).
\end{align*}

Dejamos como ejercicio el verificar que la segunda identidad tampoco es cierta en general. Fijando $T$, podemos juntar a todas las transformaciones de la forma $P(T)$ para algún $P$ en la siguiente estructura.

Definición. La $F$-álgebra generada por la transformación $T$ es el conjunto

\begin{align*}
F[T]=\lbrace P(T)\mid P\in F[X]\rbrace.
\end{align*}

Una consecuencia de la proposición anterior (es más, ¡una mera traducción!) es la siguiente.

Proposición. Para cualesquiera $x,y\in F[T]$ y $c\in F$ se cumple que $x+cy\in F[T]$ y $x\circ y\in F[T].$ Es decir, $F[T]$ es un subespacio del espacio de todas las transformaciones lineales de $V$ en $V$ que además es estable bajo composición.

También puedes verificar que $F[T]$ es el subespacio más chico (en el sentido de contención) del espacio de transformaciones lineales en $V$ que contiene a $T$, a $\operatorname{Id}$ y que es cerrado bajo composiciones.

Lo mismo pero con matrices

Desde Álgebra Lineal I sabemos que una transformación lineal se corresponde de manera biunívoca (fijando una base) con una matriz. Nuestra discusión previa se puede adaptar a este vocabulario, y eso es lo que haremos ahora.

Si $A\in M_n(F)$ es una matriz cuadrada de orden $n$ con coeficientes en $F$, podemos entender a $A^n$ simplemente como el $n$-ésimo producto de $A$ consigo misma. Luego si $$P(X)=a_0+a_1X+a_2 X^2+\dots +a_n X^n\in F[X]$$ es un polinomio, definimos

\begin{align*}
P(A):= a_0 I_n +a_1 A+ a_2 A^2+\dots+ a_n A^n.
\end{align*}

Se cumple que $(PQ)(A)=P(A)\cdot Q(A)$ para cualesquiera polinomios $P,Q$ y cualquier matriz $A$. Similarmente el álgebra generada por $A$ se define como

\begin{align*}
F[A]=\lbrace P(A)\mid P\in F[X]\rbrace,
\end{align*}

y es un subespacio de $M_n(F)$ que es cerrado bajo producto de matrices.

Ejemplo. Consideremos la matriz $A=\begin{pmatrix}2&-2\\1&1\end{pmatrix}$. Consideremos el polinomio $P(x)=x^3-2x+4$. ¿Quién es la matriz $P(A)$? Usando la definición, primero nos enfocaremos en encontrar las potencias de $A$. Puedes verificar por tu cuenta que:

\begin{align*}
A^0&=\begin{pmatrix}1&0\\0&1\end{pmatrix}\\
A^1&=\begin{pmatrix}2&-2\\1&1\end{pmatrix}\\
A^2&=\begin{pmatrix}2&-6\\3&-1\end{pmatrix}\\
A^3&=\begin{pmatrix}-2&-10\\5&-7\end{pmatrix}
\end{align*}

De esta manera,

\begin{align*}
P(A)&=A^3-2A+4I_2\\
&=\begin{pmatrix}-2&-10\\5&-7\end{pmatrix} – 2 \begin{pmatrix}2&-2\\1&1\end{pmatrix} + 4 \begin{pmatrix}1&0\\0&1\end{pmatrix}\\
&=\begin{pmatrix}-2&-6 \\ 3 & -5 \end{pmatrix}.
\end{align*}

$\triangle$

Este ejemplo se parece mucho al ejemplo que hicimos cuando evaluamos un polinomio en una transformación $T$. Esto no es casualidad, y se puede resumir en la siguiente observación.

Observación. Si $A$ es la matriz asociada a $T$ en alguna base, entonces $P(A)$ es la matriz asociada a $P(T)$ en dicha base.

Unos problemas para calentar

A continuación veremos algunos unos cuantos problemas resueltos para que te familiarices con los conceptos que acabamos de ver de manera un poco más teórica.

Problema 1.

  1. Si $A,B\in M_n(F)$ son matrices con $B$ invertible, demuestra que para cualquier $P\in F[X]$ se cumple
    \begin{align*}
    P(BAB^{-1})=BP(A)B^{-1}.
    \end{align*}
  2. Demuestra que si $A,B\in M_n(F)$ son similares, entonces $P(A)$ y $P(B)$ son similares para cualquier $P\in F[X]$.

Solución.

  1. Primero supongamos que $P(X)=X^k$ para alguna $k\geq 1$. Necesitamos demostrar que $\left(BAB^{-1}\right)^{k}= BA^{k}B^{-1}$, y esto lo podemos verificar sencillamente pues
    \begin{align*}
    (BAB^{-1})\cdot (BAB^{-1})\cdots (BAB^{-1})&= BA(B^{-1} B) A \cdots (B^{-1}B)AB^{-1}\\
    &= BA^{k}B^{-1},
    \end{align*}
    donde usamos que $BB^{-1}=I_n$. Más generalmente, si $P(X)=a_0+a_1 X+a_2X^2+\dots +a_n X^n$ entonces
    \begin{align*}
    P(BAB^{-1})&= \sum_{i=0}^{n} a_i (BAB^{-1})^{i}\\
    &= \sum_{i=0}^{n}a_i BA^{i}B^{-1}\\
    &= B\left(\sum_{i=0}^{n} a_i A^{i}\right)B^{-1}\\
    &= BP(A)B^{-1}
    \end{align*}
    que es lo que queríamos demostrar.
  2. Como $A$ y $B$ son similares, existe $C$ invertible tal que $A=CBC^{-1}$. Por el inciso anterior tenemos
    \begin{align*}
    P(A)=P(CBC^{-1})=CP(B)C^{-1}.
    \end{align*}
    Así, $P(A)$ y $P(B)$ son similares.

$\square$

Problema 2. Considera la matriz

\begin{align*}
A=\begin{pmatrix}
0 & 1 & -1\\
-2 & 0 & 3\\
0 & 0 & 4
\end{pmatrix}
\end{align*}

así como el polinomio $P(X)=X^2+2X-1$. Calcula $P(A)$.

Solución. Es cuestión de hacer los cálculos. Vemos que

\begin{align*}
A^2= \begin{pmatrix}
-2 & 0 & -1\\
0 & -2 & 14\\
0 & 0 & 16
\end{pmatrix}
\end{align*}

y así

\begin{align*}
P(A)&=A^2+2A-I_3\\&=\begin{pmatrix}
-2 & 0 & -1\\
0 & -2 & 14\\
0 & 0 & 16
\end{pmatrix} + 2\begin{pmatrix}
0 & 1 & -1\\
-2 & 0 & 3\\
0 & 0 & 4
\end{pmatrix} -\begin{pmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1
\end{pmatrix}\\
&=\begin{pmatrix}
-3 & 2 & -3\\
-4 & -3 & 20\\
0 & 0 & 23
\end{pmatrix}.
\end{align*}

$\triangle$

Problema 3. Si $A$ es simétrica, demuestra que $P(A)$ es simétrica para cualquier polinomio $P$.

Solución. La demostración se basa en los siguientes hechos:

  1. Si $A=(a_{ij})$ y $B=(b_{ij})$ son matrices simétricas y $c\in F$ es un escalar, entonces $A+cB$ es simétrica, puesto que
    \begin{align*}
    (A+cB)_{ij}= a_{ij}+cb_{ij}= a_{ji}+cb_{ji}= (A+cB)_{ji}.
    \end{align*}
  2. Si $A,B$ son simétricas, su producto es una matriz simétrica. De nuevo, basta con hacer el cálculo
    \begin{align*}
    (AB)_{ij}=\sum_{k=1}^{n} a_{ik}b_{kj}=\sum_{k=1}^{n} b_{jk}a_{ki}= (AB)_{ji} .
    \end{align*}
  3. Usando el inciso anterior, se sigue que si $A$ es simétrica, entonces $A^{k}$ es simétrica para toda $k\geq 1$. Además, $I_n$ es simétrica y por el primer punto tenemos que toda combinación lineal de matrices simétricas es simétrica. En particular $P(A)$ es simétrica.

$\square$

Problema 4. Sea $V$ el espacio vectorial de todas las funciones $f:\mathbb{R}\to \mathbb{R}$ infinitamente diferenciables. Sea $T:V\to V$ dada por $T:f\mapsto f’$. ¿Puedes encontrar un polinomio $P\in \mathbb{R}(X)$ distinto de cero tal que $P(T)=0$?

Solución. No es posible encontrar dicho polinomio. Suponiendo que sí, tendríamos que $P(T)$ es una ecuación diferencial polinomial de orden $n$, es decir, a cada función la evaluamos en una combinación

\begin{align*}
a_0f+a_1f’+a_2f»+\dots + a_n f^{n}
\end{align*}

donde $f^n$ es la $n$-ésima derivada. Si $P(T)$ es idénticamente cero, tenemos que toda función suave $f$ satisface esta ecuación. En particular tenemos que la constante $g(x)=1$ la satisface. Así $g’=g»=\dots=g^{n}=0$ y entonces

\begin{align*}
P(T)(g)= a_0 g+a_1g+\dots +a_ng^{n}=a_0=0.
\end{align*}

Concluimos que $a_0=0$. Luego, si consideramos a la función identidad $h(x)=x$ entonces también se tiene que cumplir la ecuación (recordamos que ya eliminamos el término $a_0$). Así

\begin{align*}
P(T)(h)= a_1h’+a_2h»+\dots +a_nh^{n}= a_1=0,
\end{align*}

donde usamos que $h'(x)=1$ y todas las derivadas de orden superior son cero. Continuando con este proceso (evaluando en $x^2,x^3,\ldots$) llegamos a que todos los coeficientes $a_i$ son cero. Esto quiere decir que el polinomio era nulo en primer lugar.

$\triangle$

Más adelante…

En entradas subsecuentes estudiaremos polinomios de matrices con propiedades especiales, como por ejemplo el polinomio mínimo, que se distinguen por sus deseables propiedades algebraicas. Este es el primer paso hacia el teorema de Cayley-Hamilton.

Tarea moral

Aquí hay unos ejercicios para que practiques lo visto en esta entrada.

  1. Compara el ejemplo que se dio de evaluar un polinomio en una transformación $T$ con el de evaluar un polinomio en una matriz $A$. ¿Por qué se parecen tanto?
  2. Considera $V$ el espacio vectorial de funciones $C^\infty$ en el intervalo $[0,2\pi]$ y $D:V\to V$ a la transformación que manda una función a su derivada, es decir $D(f)=f’$. Encuentra un polinomio $P$ tal que $P(D)(\sin(x)+\cos(x))$ sea la función cero.
  3. Demuestra que si $A$ es una matriz diagonal, $P(A)$ también es diagonal.
  4. Si
    \begin{align*}
    A=\begin{pmatrix}
    1 & 2\\
    0 &-1\end{pmatrix}
    \end{align*}
    y $P(X)=X^3-X^2+X-1$, calcula $P(A)$.
  5. Generaliza el último problema de la entrada como sigue: Si $V$ es un espacio vectorial y $T:V\to V$ es tal que existen elementos $v_i$ con $i\in \mathbb{N}$ que cumplen $T^{i}(v_i)\neq 0$ y $T^{j}(v_i)=0$ para $j>i$, entonces no existe $P$ no nulo tal que $P(T)$ sea cero.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

5 comentarios en “Álgebra Lineal II: Aplicar polinomios a transformaciones lineales y matrices

  1. Antonio Mayorquin

    Hola,
    En Problemas para Calentar, el problema 2 usa el polinomio P(x)=x²+2x-1, pero en la solución al usar matrices se usa +Id, en vez del negativo correspondiente -Id. Esto cambia la solución, pero de otra manera esta bien.
    Buen día.

    Responder
  2. Jaqueline Vazquez

    Hola, en el ejemplo de «primeras construcciones»
    T^3(x,y) = (-2x-10y,7x-5y) y ahí está escrito al revés, entonces igual cambia un poquito las cuentitas para sacar p(T).

    Responder
  3. Sebastian

    En la entrada de polinomio mínimo de transformaciones lineales , hacen referencia a esta entrada en un teorema, pero no veo en donde, y no se me ocurre como puedo resolverlo

    Responder
    1. Leonardo Ignacio Martínez SandovalLeo

      Hola Sebastián. Ya vi a cuál te refieres. En realidad, no es consecuencia de algo de esta entrada de aquí, sino más bien de una cosa anterior en la teoría, que es resolver sistemas de ecuaciones con el teorema de Rouché-Capelli. La idea general es que el rango de una matriz es el mismo cuando la piensas con entradas en un campo, que en cualquier extensión del campo. La entrada que te servirá para entender esto mejor es la de acá: https://blog.nekomath.com/algebra-lineal-i-determinantes-en-sistemas-de-ecuaciones-lineales-y-regla-de-cramer/

      Responder

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.