Álgebra Lineal II: Polinomio mínimo de transformaciones lineales y matrices

Introducción

Anteriormente definimos qué quiere decir evaluar un polinomio en una matriz o en una transformación lineal. En esta entrada definiremos uno de los objetos más importantes del álgebra lineal: el polinomio mínimo. Si bien al principio nos va a costar un poco calcularlo, esto se compensa por la cantidad de propiedades teóricas que cumple. Comenzaremos dando su definición, y mostrando su existencia y unicidad. Luego exploraremos algunas propiedades y veremos ejemplos, seguido de un pequeño teorema de cambio de campos. Finalmente introduciremos un objeto similar (el polinomio mínimo puntual) y haremos unos ejercicios para cerrar.

El concepto de polinomio mínimo podría resultarle familiar a los más algebraicos de mente: ¡todo se debe a que trabajamos con dominios de ideales principales, o incluso euclidianos! Si has trabajado anteriormente con conceptos como el mínimo común múltiplo en enteros, puede que varios de los argumentos de esta entrada te suenen conocidos.

Existencia y unicidad

Comenzamos con un espacio vectorial V de dimensión n sobre un campo F. Fijando una transformación lineal T:V\to V, queremos entender para qué polinomios se cumple que P(T)=0. Nota como podríamos haber cambiado la pregunta: si fijamos un polinomio P, podríamos buscar todas las transformaciones T tales que P(T)=0. Ésta pregunta la estudiaremos más adelante.

Definimos el conjunto

    \begin{align*}I(T)=\lbrace P\in F[X]\mid P(T)=0\rbrace.\end{align*}

El polinomio cero pertenece a I(T) de manera trivial. Una cosa importante es que este conjunto I(T) que vamos a estudiar en verdad es «interesante», en el sentido de que debemos ver que hay más polinomios adentro y no es únicamente el conjunto \lbrace 0\rbrace. Una manera de ver esto es sabiendo que el espacio de transformaciones lineales de V en V tiene dimensión n^2 (lo puedes pensar como el espacio de matrices). Entonces, las n^2+1 transformaciones \operatorname{Id}, T, T^2, \dots, T^{n^2} no pueden ser todas linealmente independientes: uno de los corolarios del lema de Steinitz es que en un espacio de dimensión n a lo más se pueden tener n vectores linealmente independientes. Entonces existe una combinación lineal no trivial y nula

    \begin{align*}a_0 \operatorname{Id}+a_1 T+\dots + a_{n^2} T^{n^2}=0.\end{align*}

Luego a_0+a_1X+\dots+a_{n^2}X^{n^2} es un polinomio no cero tal que P(T)=0, es decir P\in I(T).

Con el argumento de arriba vimos que I(T) es «interesante» en el sentido de que tiene polinomios no cero. El siguiente teorema se puede entender como que I(T) se puede describir muy fácilmente.

Teorema. Existe un único polinomio mónico, distinto de cero \mu_T tal que I(T) es precisamente el conjunto de múltiplos de \mu_T. Es decir

    \begin{align*}I(T)=\mu_T \cdot F[X]=\lbrace \mu_T \cdot P(X)\mid P(X)\in F[X]\rbrace.\end{align*}

La demostración hará uso del algoritmo de la división para polinomios. Te lo compartimos aquí, sin demostración, por si no lo conoces o no lo recuerdas.

Teorema (algoritmo de la división en \mathbb{F}[x]). Sean f(x) y g(x) polinomios en F[x], donde g(x) no es el polinomio cero. Entonces, existen únicos polinomios q(x) y r(x) en F[x] tales que

    \[f(x)=q(x)g(x)+r(x),\]

en donde r(x) es el polinomio cero, o \deg(r(x))<\deg(g(x)).

Si te interesa saber cómo se demuestra, puedes seguir la teoría de polinomios disponible en la Unidad 4 del curso de Álgebra Superior II.

Demostración. Una de las proposiciones de la entrada pasada nos dice que I(T) es un subespacio de F[X]. Por otro lado si P\in I(T) y Q\in F[X] entonces

    \begin{align*}(PQ)(T)= P(T)\circ Q(T)=0\circ Q(T)=0.\end{align*}

Lo que discutimos antes de enunciar el teorema nos dice que I(T)\neq\{0\}. Escogemos entonces P\in I(T) un polinomio no cero de grado mínimo. Podemos suponer sin perdida de generalidad que P es mónico, de no serlo, podemos dividir a P por su coeficiente principal sin cambiar el grado.

La ecuación previa nos indica que todos los múltiplos de P también están en I(T). Veamos que todo elemento de I(T) es de hecho un múltiplo de P. Si S\in I(T), usamos el algoritmo de la división polinomial para escribir S=QP+R con Q,R\in F[X]. Aquí hay dos casos, que R sea el polinomio cero, o bien que no lo sea y entonces \deg R <\deg P. Nota que R=S-QP\in I(T) dado que I(T) es un subespacio de F[X] y S,QP\in I(T). Si R\neq 0, entonces como \deg R<\deg P llegamos a una contradicción de la minimalidad del grado de P. Luego R=0 y por tanto S=QP. Entonces I(T) es precisamente el conjunto de todos los múltiplos de P y así podemos tomar \mu_T=P.

Para verificar la unicidad de \mu_T, si otro polinomio S tuviera las mismas propiedades, entonces S dividiría a \mu_T y \mu_T dividiría a S. Sin embargo, como ambos son mónicos se sigue que deben ser iguales: en efecto, si \mu_T=S\cdot Q y S=\mu_T \cdot R entonces \deg Q=\deg R=0, porlo tanto son constantes, y como el coeficiente principal de ambos es 1, se sigue que ambos son la constante 1 y así \mu_T=S. Esto completa la demostración.

\square

Definición. Al polinomio \mu_T se le conoce como el polinomio mínimo de T.

Primeras propiedades y ejemplos

Debido a su importancia, recalcamos las propiedades esenciales del polinomio mínimo \mu_T:

  • Es mónico y cumple \mu_T(T)=0.
  • Para cualquier otro polinomio P\in F[X], sucede que P(T)=0 si y sólo si \mu_T divide a P.

Toda la teoría que hemos trabajado hasta ahora se traduce directamente a matrices usando exactamente los mismos argumentos. Lo enunciamos de todas maneras: si A\in M_n(F) es una matriz cuadrada, entonces existe un único polinomio mónico \mu_A\in F[X] con las siguientes propiedades:

  • \mu_A(A)=O_n,
  • si P\in F[X], entonces P(A)=O_n si y sólo si \mu_A divide a P.

Como jerga, a veces diremos que un polinomio «anula T» si P(T)=0. En este sentido los polinomios que anulan a T son precisamente los múltiplos de \mu_T.

Vimos antes de enunciar el teorema que podemos encontrar un polinomio P no cero de grado menor o igual a n^2 tal que P(T)=0. Como \mu_T divide a P se sigue que \deg \mu_T\leq n^2. Esta cota resulta ser débil, y de hecho un objeto que hemos estudiado previamente nos ayudará a mejorarla: el polinomio característico. Este también va a anular a T y con ello obtendremos una mejor cota: \deg \mu_T\leq n.

Ejemplo. Si A=O_n, entonces \mu_A=X. En efecto, \mu_A(A)=0 y además es el polinomio de menor grado que cumple esto, pues ningún polinomio constante y no cero anula a O_n (¿por qué?). Nota como además I(A) es precisamente el conjunto de polinomios sin término constante.

\square

Ejemplo. Considera la matriz A\in M_2(\mathbb{R}) dada por

    \begin{align*}A= \begin{pmatrix}0 & -1\\1 & 0\end{pmatrix}.\end{align*}

Nos proponemos calcular \mu_A. Nota que A satisface A^2=-I_2. Por tanto el polinomio P(X)=X^2+1 cumple P(A)=0. Así, \mu_A tiene que dividir a este polinomio ¡pero este es irreducible sobre los números reales! En efecto, si existiese un factor propio de P sobre \mathbb{R}, tendríamos que la ecuación X^2=-1 tiene solución, y sabemos que este no es el caso. Entonces \mu_A tiene que ser X^2+1.

\square

Ejemplo. Sean d_1,\dots, d_n\in F escalares y A una matriz diagonal tal que [a_{ii}]=d_i. Los elementos pueden no ser distintos entre sí, así que escogemos una colección máxima d_{i_1},\dots, d_{i_k} de elementos distintos. Para cualquier polinomio P, tenemos que P(A) es simplemente la matriz diagonal con entradas P(d_i) (esto porque el producto A^n tiene como entradas a d_i^n). Entonces para que P(A)=0 se tiene que cumplir que P(d_i)=0, y para que esto pase es suficiente que P(d_{i_k})=0. Eso quiere decir que P tiene al menos a los d_{i_k} como raíces, y entonces (X-d_{i_1})(X-d_{i_2})\cdots  (X-d_{i_k}) divide a P.

Nota como esto es suficiente: encontramos un polinomio mónico, (X-d_{i_1})(X-d_{i_2})\cdots (X-d_{i_k)) que divide a cualquier P tal que P(A)=0. Así

    \begin{align*}\mu_A(X)=(X-d_{i_1})\cdots (X-d_{i_k}).\end{align*}

\square

Cambio de campos

En uno de los ejemplos argumentamos que el polinomio mínimo era X^2+1 porque este es irreducible sobre \mathbb{R}. Pero, ¿qué pasaría si cambiáramos nuestro campo a \mathbb{C}? La situación puede ser incluso más delicada: a una matriz con entradas racionales la podemos considerar como una instancia particular de una matriz con entradas reales, que a su vez podemos considerar como una matriz compleja. ¿Hay tres polinomios mínimos distintos? El siguiente teorema nos da una respuesta tranquilizante.

Teorema. Sean F_1\subset F_2 dos campos y A\in M_n(F_1) una matriz, entonces el polinomio mínimo de A vista como elemento de M_n(F_1) y el polinomio mínimo de A vista como elemento de M_n(F_2) son iguales.

Demostración. Sea \mu_1 el polinomio de A\in M_n(F_1) y \mu_2 el polinomio mínimo de A\in M_n(F_2). Puesto que F_1[X]\subset F_2[X], se tiene que \mu_1\in F_2[X] y además \mu_1(A)=0 por definición. Luego \mu_2 necesariamente divide a \mu_1. Sean d_1=\deg \mu_1 y d_2=\deg \mu_2, basta verificar que d_2\geq d_1 y para que esto se cumpla basta con encontrar P\in F_1[X] de grado a lo más d_2 tal que P(A)=0 (entonces \mu_1 dividiría a este polinomio y se sigue la desigualdad).

Desarrollando que \mu_2(A)=0 en todas sus letras (o mejor dicho, en todos sus coeficientes) se tiene

    \begin{align*}a_0 I_n+ a_1 A+\dots + a_{d_2} A^{d_2}=O_n.\end{align*}

Esto es equivalente a tener n^2 ecuaciones homogéneas en las variables a_0,\dots, a_{d_2}. Como A tiene entradas en F_1 los coeficientes de estas ecuaciones todos pertenecen a F_1. Tenemos un sistema de ecuaciones con coeficientes en F_1 que tiene una solución no trivial en F_2: tiene automáticamente una solución no trivial en F_1 por un ejercicio de la entrada de Álgebra Lineal I de resolver sistemas de ecuaciones usando determinantes. Esto nos da el polinomio buscado.

\square

Mínimos puntuales

Ahora hablaremos (principalmente a través de problemas resueltos) de otro objeto muy parecido al polinomio mínimo: el polinomio mínimo puntual. Este es, esencialmente un «polinomio mínimo en un punto». Más específicamente si T:V\to V es lineal con polinomio mínimo \mu_T y x\in V definimos

    \begin{align*}I_x=\lbrace P\in F[X]\mid P(T)(x)=0\rbrace.\end{align*}

Nota que la suma y diferencia de dos elementos en I_x también está en I_x.

Problema. Demuestra que existe un único polinomio mónico \mu_x\in F[X] tal que I_x es el conjunto de múltiplos de \mu_x en F[X]. Más aún, demuestra que \mu_x divide a \mu_T.

Solución. El caso x=0 se queda como ejercicio. Asumamos entonces que x\neq 0. Nota que \mu_T\in I_x puesto que \mu_T(T)=0. Sea \mu_x el polinomio mónico de menor grado en I_x. Demostraremos que I_x=\mu_x\cdot F[X].

Primero si P\in \mu_x \cdot F[X] entonces por definición P=\mu_x Q para algún Q\in F[X] y entonces

    \begin{align*}P(T)(x)=Q(T)(\mu_x(T)(x))=Q(T)(0)=0.\end{align*}

Así P\in I_x, y queda demostrado que \mu_x \cdot F[X]\subset I_x.

Conversamente, si P\in I_x podemos usar el algoritmo de la división para llegar a una expresión de la forma P=Q\mu_x+R para algunos polinomios Q,R con \deg R<\deg \mu_x. Supongamos que R\neq 0. Similarmente a como procedimos antes, se cumple que R= P-Q\mu_x\in I_x dado que I_x es cerrado bajo sumas y diferencias. Dividiendo por el coeficiente principal de R, podemos asumir que R es mónico. Entonces R es un polinomio mónico de grado estrictamente menor que el grado de \mu_x, una contradicción a nuestra suposición: \mu_x es el polinomio de grado menor con esta propiedad. Luego R=0 y \mu_x divide a P.

Así queda probado que si P\in I_x entonces P\in \mu_x\cdot F[X], lo que concluye la primera parte del problema. Para la segunda, vimos que \mu_T\in I_x y por tanto \mu_x divide a \mu_T.

\square

Problema. Sea V_x el subespacio generado por x, T(x), T^2(x), \dots. Demuestra que V_x es un subespacio de V de dimensión \deg \mu_x, estable bajo T.

Solución. Es claro que V_x es un subespacio de V. Además, dado que T manda a generadores en generadores, también es estable bajo T. Sea d=\deg\mu_x. Demostraremos que x, T(x),\dots, T^{d-1}(x) forman una base de V_x, lo que concluiría el ejercicio.

Veamos que son linealmente independientes. Si

    \[a_0x+a_1T(x)+a_2T^2(x)+\dots+a_{d-1}T^{d-1}(x)=0\]

para algunos escalares a_i no todos cero, entonces el polinomio

    \begin{align*}P=a_0+a_1X+\dots+a_{d-1}X^{d-1}\end{align*}

es un elemento de I_x, pues P(T)(x)=0. Luego \mu_x necesariamente divide a P, pero esto es imposible puesto que el grado de P es d-1, estrictamente menor que el grado de \mu_x. Luego los a_i deben ser todos nulos, lo que muestra que x,T(x),T^2(x),\dots,T^{d-1}(x) es una colección linealmente independiente.

Sea W el espacio generado por x,T(x),\dots, T^{d-1}(x). Afirmamos que W es invariante bajo T. Es claro que T(x)\in W, similarmente T(T(x))=T^2(x)\in W y así sucesivamente. El único elemento «sospechoso» es T^{d-1}(x), para el cual basta verificar que T(T^{d-1}(x))=T^d(x)\in W. Dado que \mu_x(T)(x)=0 y \mu_x es mónico de grado d, existen escalares b_i (más precisamente, los coeficientes de \mu_x) no todos cero tales que

    \begin{align*}T^{d}(x)+b_{d-1}T^{d-1}(x)+\dots+b_0 x=0.\end{align*}

Esto nos muestra que podemos expresar a T^d(x) en términos de x, T(x),\dots, T^{d-1}(x) y por tanto T^d(x) pertenece a W.

Ahora, dado que W es estable bajo T y contiene a x, se cumple que T^{k}(x)\in W para todo k\geq 0. En particular V_x\leq W. Luego V_x=W (la otra contención es clara) y x,T(x),\dots, T^{d-1}(x) genera a W, o sea a V_x.

Mostramos entonces que x,T(x),\dots, T^{d-1}(x) es una base para V_x y así \dim V_x=d.

\square

Unos ejercicios para terminar

Presentamos unos últimos ejercicios para calcular polinomios mínimos.

Problema. Calcula el polinomio mínimo de A donde

    \begin{align*}A= \begin{pmatrix}0 & 1 & 0\\1 & 0 & 0\\0 & 0 & 1\end{pmatrix}.\end{align*}

Solución. A estas alturas no tenemos muchas herramientas que usar. Comenzamos con calcular A^2:

    \begin{align*}A^2= \begin{pmatrix}0 & 1 & 0\\1 & 0 & 0\\0 & 0 & 1\end{pmatrix}\cdot \begin{pmatrix}0 & 1 & 0\\1 & 0 & 0\\0 & 0 & 1\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0\\ 0 &1 & 0 \\ 0 & 0 & 1\end{pmatrix}.\end{align*}

Entonces en particular A^2=I_3. Así, el polinomio mínimo \mu_A tiene que dividir a X^2-1. Este último se factoriza como (X-1)(X+1), pero es claro que A no satisface ni A-I_3=0 ni A+I_3=0. Entonces \mu_A no puede dividir propiamente a X^2-1, y por tanto tienen que ser iguales.

\square

Problema. Calcula el polinomio mínimo de la matriz A con

    \begin{align*}A=\begin{pmatrix}1 & 2\\0 & 1\end{pmatrix}.\end{align*}

Solución. Nota como

    \begin{align*}A-I_2=\begin{pmatrix} 0 & 2\\ 0 & 0\end{pmatrix}\end{align*}

y es fácil verificar que el cuadrado de la matriz de la derecha es cero. Así (A-I_2)^2=0, o sea, el polinomio P(X)=(X-1)^2 anula a A. Similarmente al problema anterior, \mu_A tiene que dividir a P, pero P sólo tiene un factor: X-1. Dado que A no satisface A-I_2=0 se tiene que \mu_A no puede dividir propiamente a P, y entonces tienen que ser iguales. Luego \mu_A=(X-1)^2=X^2-2X+1.

\square

Más adelante

En las entradas subsecuentes repasaremos los eigenvalores y eigenvectores de una matriz, y (como mencionamos) ligaremos el polinomio característico de una matriz con su polinomio mínimo para entender mejor a ambos.

Tarea moral

Aquí unos ejercicios para practicar lo que vimos.

  1. Encuentra una matriz A cuyo polinomio mínimo sea X^2. Para cada n, ¿puedes encontrar una matriz cuyo polinomio mínimo sea X^n?
  2. Encuentra una matriz A cuyo polinomio mínimo sea X^2-1. Para cada n, ¿puedes encontrar una matriz cuyo polinomio mínimo sea X^n-1?
  3. Encuentra el polinomio de la matriz A en M_n(F) cuyas entradas son todas 1.
  4. Si T:M_n(\mathbb{R})\to M_n(\mathbb{R}) es la transformación que manda a cada matriz en su transpuesta, encuentra el polinomio mínimo de T.
  5. Sea V un espacio vectorial y x,y vectores linealmente independientes. Sea T:V\to V una transformación lineal. ¿Cómo son los polinomios P tales que P(T) se anula en todo el subespacio generado por x y y? ¿Cómo se relacionan con los polinomios mínimos puntuales de T para x y y?

6 comentarios en “Álgebra Lineal II: Polinomio mínimo de transformaciones lineales y matrices

  1. Alosno Alejandro Colín Cruz

    Buenas tardes, en la demostración de la existencia del polinomio mínimo dice «Lo que discutimos antes de enunciar el teorema nos dice que I(T)\neq\{0\}. Escogemos entonces P\in I(T) un polinomio no cero de grado mínimo».
    Podrían por favor decir explicitamente porque podemos tomar (como garantizar su existencia) ese polinomio, tengo una idea de como argumentarlo pero no se si esta bien ya que en mi argumento creo que se debe uasr Aximona de Elección.
    A lo mejor me estoy volando mucho.

    Responder
    1. LeoLeo

      Hola Alonso. Si quieres decirlo de manera muy muy formal, lo que se está usando de fondo es el principio del buen orden. Ya se mostró que el conjunto de polinomios no cero es no vacío. Ahora considera A el conjunto de naturales que sean grado de alguno de estos polinomios. Como A no es vacío, por el principio de buen orden tiene un mínimo. Es decir, hay un polinomio de grado mínimo de los que nos interesan.

      Responder
  2. Alonso Alejandro Colín Cruz

    Buenas tardes, en uno de los ejemplos dice «Sean d_1,\dots, d_n\in F escalares y A una matriz diagonal tal que [a_{ii}]=d_i. Los elementos pueden no ser distintos entre sí, así que escogemos una colección máxima d_{i_1},\dots, d_{i_k} de elementos distintos», podrían por favor explicitamente argumentar por qué se puede escoger esa colección máxima de elementos disjuntos?
    Saludos.

    Responder
    1. LeoLeo

      Básicamente, aquí los vas tomando uno por uno. Tomas d_1. Luego, si d_2 es igual, lo ignoras. Si no, lo tomas. Y así sucesivamente. Al llegar a d_k, si ya aparecía antes, lo ignoras. Si no, lo tomas. Esto te hará tomar uno de cada uno de los elementos distintos que hay.

      Responder
  3. Alonso Alejandro Colín Cruz

    Buenas tardes, en el teorema de cambio de campos dice «Tenemos un sistema de ecuaciones con coeficientes en F_1 que tiene una solución no trivial en F_2: tiene automáticamente una solución no trivial en F_1 por un ejercicio de la entrada anterior», podrían por favor decir a que ejercicio se refieren?
    La verdad es que busque en los ejercicios y no se me ocurre como probarlo a partir de alguno de los ejercicios de la entrada anterior.
    Saludos.

    Responder
    1. LeoLeo

      Hola Alonso. Ya cambiamos la redacción de esa parte, pues en realidad no es un ejercicio de la entrada exactamente anterior, sino más bien es consecuencia de la teoría de sistemas de ecuaciones que se estudia en Álgebra Lineal I.

      Responder

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.