Archivo de la etiqueta: ceros

Álgebra Lineal II: Polinomio mínimo de transformaciones lineales y matrices

Por Julio Sampietro

Introducción

Anteriormente definimos qué quiere decir evaluar un polinomio en una matriz o en una transformación lineal. En esta entrada definiremos uno de los objetos más importantes del álgebra lineal: el polinomio mínimo. Si bien al principio nos va a costar un poco calcularlo, esto se compensa por la cantidad de propiedades teóricas que cumple. Comenzaremos dando su definición, y mostrando su existencia y unicidad. Luego exploraremos algunas propiedades y veremos ejemplos, seguido de un pequeño teorema de cambio de campos. Finalmente introduciremos un objeto similar (el polinomio mínimo puntual) y haremos unos ejercicios para cerrar.

El concepto de polinomio mínimo podría resultarle familiar a los más algebraicos de mente: ¡todo se debe a que trabajamos con dominios de ideales principales, o incluso euclidianos! Si has trabajado anteriormente con conceptos como el mínimo común múltiplo en enteros, puede que varios de los argumentos de esta entrada te suenen conocidos.

Existencia y unicidad

Comenzamos con un espacio vectorial V de dimensión n sobre un campo F. Fijando una transformación lineal T:VV, queremos entender para qué polinomios se cumple que P(T)=0. Nota como podríamos haber cambiado la pregunta: si fijamos un polinomio P, podríamos buscar todas las transformaciones T tales que P(T)=0. Ésta pregunta la estudiaremos más adelante.

Definimos el conjunto

I(T)={PF[X]P(T)=0}.

El polinomio cero pertenece a I(T) de manera trivial. Una cosa importante es que este conjunto I(T) que vamos a estudiar en verdad es «interesante», en el sentido de que debemos ver que hay más polinomios adentro y no es únicamente el conjunto {0}. Una manera de ver esto es sabiendo que el espacio de transformaciones lineales de V en V tiene dimensión n2 (lo puedes pensar como el espacio de matrices). Entonces, las n2+1 transformaciones Id,T,T2,,Tn2 no pueden ser todas linealmente independientes: uno de los corolarios del lema de Steinitz es que en un espacio de dimensión n a lo más se pueden tener n vectores linealmente independientes. Entonces existe una combinación lineal no trivial y nula

a0Id+a1T++an2Tn2=0.

Luego a0+a1X++an2Xn2 es un polinomio no cero tal que P(T)=0, es decir PI(T).

Con el argumento de arriba vimos que I(T) es «interesante» en el sentido de que tiene polinomios no cero. El siguiente teorema se puede entender como que I(T) se puede describir muy fácilmente.

Teorema. Existe un único polinomio mónico, distinto de cero μT tal que I(T) es precisamente el conjunto de múltiplos de μT. Es decir

I(T)=μTF[X]={μTP(X)P(X)F[X]}.

La demostración hará uso del algoritmo de la división para polinomios. Te lo compartimos aquí, sin demostración, por si no lo conoces o no lo recuerdas.

Teorema (algoritmo de la división en F[x]). Sean M(x) y N(x) polinomios en F[x], donde N(x) no es el polinomio cero. Entonces, existen únicos polinomios Q(x) y R(x) en F[x] tales que M(x)=Q(x)N(x)+R(x), en donde R(x) es el polinomio cero, o deg(R(x))<deg(G(x)).

Si te interesa saber cómo se demuestra, puedes seguir la teoría de polinomios disponible en la Unidad 4 del curso de Álgebra Superior II.

Demostración. Veamos primero que I(T) es un subespacio de F[X]. Para ello, tomemos polinomios P(x), Q(x) en I(T), y un escalar αF. Una de las proposiciones de la entrada pasada nos permite abrir la expresión (P+αQ)(T) como P(T)+αQ(T)=0+α0=0, de modo que P+αQ está en I(T) y por lo tanto I(T) es un subespacio de F[X].

Por otro lado si PI(T) y QF[X] entonces

(PQ)(T)=P(T)Q(T)=0Q(T)=0.

Lo que discutimos antes de enunciar el teorema nos dice que I(T){0}. Tomemos entonces PI(T) un polinomio no cero de grado mínimo. Podemos suponer sin perdida de generalidad que P es mónico, de no serlo, podemos dividir a P por su coeficiente principal sin cambiar el grado.

La ecuación previa nos indica que todos los múltiplos polinomiales de P también están en I(T). Veamos que todo elemento de I(T) es de hecho un múltiplo de P. Si SI(T), usamos el algoritmo de la división polinomial para escribir S=QP+R con Q,RF[X]. Aquí hay dos casos: que R sea el polinomio cero, o bien que no lo sea y entonces degR<degP. Nota que R=SQPI(T) dado que I(T) es un subespacio de F[X] y S,QPI(T). Si R0, entonces como degR<degP llegamos a una contradicción de la minimalidad del grado de P. Luego R=0 y por tanto S=QP. Entonces I(T) es precisamente el conjunto de todos los múltiplos de P y así podemos tomar μT=P.

Para verificar la unicidad de μT, si otro polinomio S tuviera las mismas propiedades, entonces S dividiría a μT y μT dividiría a S. Sin embargo, como ambos son mónicos se sigue que deben ser iguales: en efecto, si μT=SQ y S=μTR entonces degQ=degR=0, porlo tanto son constantes, y como el coeficiente principal de ambos es 1, se sigue que ambos son la constante 1 y así μT=S. Esto completa la demostración.

◻

Definición. Al polinomio μT se le conoce como el polinomio mínimo de T.

Primeras propiedades y ejemplos

Debido a su importancia, recalcamos las propiedades esenciales del polinomio mínimo μT:

  • Es mónico.
  • Cumple μT(T)=0.
  • Para cualquier otro polinomio PF[X], sucede que P(T)=0 si y sólo si μT divide a P.

Toda la teoría que hemos trabajado hasta ahora se traduce directamente a matrices usando exactamente los mismos argumentos. Lo enunciamos de todas maneras: si AMn(F) es una matriz cuadrada, entonces existe un único polinomio μAF[X] con las siguientes propiedades:

  • Es mónico.
  • Cumple μA(A)=On.
  • Si PF[X], entonces P(A)=On si y sólo si μA divide a P.

Como jerga, a veces diremos que un polinomio «anula T» si P(T)=0. En este sentido los polinomios que anulan a T son precisamente los múltiplos de μT.

Vimos antes de enunciar el teorema que podemos encontrar un polinomio P no cero de grado menor o igual a n2 tal que P(T)=0. Como μT divide a P se sigue que degμTn2. Esta cota resulta ser débil, y de hecho un objeto que hemos estudiado previamente nos ayudará a mejorarla: el polinomio característico. Este también va a anular a T y con ello obtendremos una mejor cota: degμTn.

Ejemplo 1. Si A=On, entonces μA=X. En efecto, μA(A)=0 y además es el polinomio de menor grado que cumple esto, pues ningún polinomio constante y no cero anula a On (¿por qué?). Nota como además I(A) es precisamente el conjunto de polinomios sin término constante.

Ejemplo 2. Considera la matriz AM2(R) dada por

A=(0110).

Nos proponemos calcular μA. Nota que A satisface A2=I2. Por tanto el polinomio P(X)=X2+1 cumple P(A)=0. Así, μA tiene que dividir a este polinomio ¡pero este es irreducible sobre los números reales! En efecto, si existiese un factor propio de P sobre R, tendríamos que la ecuación X2=1 tiene solución, y sabemos que este no es el caso. Entonces μA tiene que ser X2+1.

Ejemplo 3. Sean d1,,dnF escalares y A una matriz diagonal tal que [aii]=di. Los elementos pueden no ser distintos entre sí, así que escogemos una colección máxima di1,,dik de elementos distintos. Para cualquier polinomio P, tenemos que P(A) es simplemente la matriz diagonal con entradas P(di) (esto porque el producto An tiene como entradas a din). Entonces para que P(A)=0 se tiene que cumplir que P(di)=0, y para que esto pase es suficiente que P(dik)=0. Eso quiere decir que P tiene al menos a los dik como raíces, y entonces (Xdi1)(Xdi2)(Xdik) divide a P.

Nota como esto es suficiente: encontramos un polinomio mónico, (Xdi1)(Xdi2)(Xdik) que divide a cualquier P tal que P(A)=0. Así

μA(X)=(Xdi1)(Xdik).

Cambio de campos

En uno de los ejemplos argumentamos que el polinomio mínimo era X2+1 porque este es irreducible sobre R. Pero, ¿qué pasaría si cambiáramos nuestro campo a C? La situación puede ser incluso más delicada: a una matriz con entradas racionales la podemos considerar como una instancia particular de una matriz con entradas reales, que a su vez podemos considerar como una matriz compleja. ¿Hay tres polinomios mínimos distintos? El siguiente teorema nos da una respuesta tranquilizante.

Teorema. Sean F1F2 dos campos y AMn(F1) una matriz, entonces el polinomio mínimo de A vista como elemento de Mn(F1) y el polinomio mínimo de A vista como elemento de Mn(F2) son iguales.

Demostración. Sea μ1 el polinomio de AMn(F1) y μ2 el polinomio mínimo de AMn(F2). Puesto que F1[X]F2[X], se tiene que μ1F2[X] y además μ1(A)=0 por definición. Luego μ2 necesariamente divide a μ1. Sean d1=degμ1 y d2=degμ2, basta verificar que d2d1 y para que esto se cumpla basta con encontrar PF1[X] de grado a lo más d2 tal que P(A)=0 (entonces μ1 dividiría a este polinomio y se sigue la desigualdad).

Desarrollando que μ2(A)=0 en todas sus letras (o mejor dicho, en todos sus coeficientes) se tiene

a0In+a1A++ad2Ad2=On.

Esto es equivalente a tener n2 ecuaciones homogéneas en las variables a0,,ad2. Como A tiene entradas en F1 los coeficientes de estas ecuaciones todos pertenecen a F1. Tenemos un sistema de ecuaciones con coeficientes en F1 que tiene una solución no trivial en F2: tiene automáticamente una solución no trivial en F1 por un ejercicio de la entrada de Álgebra Lineal I de resolver sistemas de ecuaciones usando determinantes. Esto nos da el polinomio buscado.

◻

Mínimos puntuales

Ahora hablaremos (principalmente a través de problemas resueltos) de otro objeto muy parecido al polinomio mínimo: el polinomio mínimo puntual. Este es, esencialmente un «polinomio mínimo en un punto». Más específicamente si T:VV es lineal con polinomio mínimo μT y xV definimos

Ix={PF[X]P(T)(x)=0}.

Nota que la suma y diferencia de dos elementos en Ix también está en Ix.

Problema 1. Demuestra que existe un único polinomio mónico μxF[X] tal que Ix es el conjunto de múltiplos de μx en F[X]. Más aún, demuestra que μx divide a μT.

Solución. El caso x=0 se queda como ejercicio. Asumamos entonces que x0. Nota que μTIx puesto que μT(T)=0. Sea μx el polinomio mónico de menor grado en Ix. Demostraremos que Ix=μxF[X].

Primero si PμxF[X] entonces por definición P=μxQ para algún QF[X] y entonces

P(T)(x)=Q(T)(μx(T)(x))=Q(T)(0)=0.

Así PIx, y queda demostrado que μxF[X]Ix.

Conversamente, si PIx podemos usar el algoritmo de la división para llegar a una expresión de la forma P=Qμx+R para algunos polinomios Q,R con degR<degμx. Supongamos que R0. Similarmente a como procedimos antes, se cumple que R=PQμxIx dado que Ix es cerrado bajo sumas y diferencias. Dividiendo por el coeficiente principal de R, podemos asumir que R es mónico. Entonces R es un polinomio mónico de grado estrictamente menor que el grado de μx, una contradicción a nuestra suposición: μx es el polinomio de grado menor con esta propiedad. Luego R=0 y μx divide a P.

Así queda probado que si PIx entonces PμxF[X], lo que concluye la primera parte del problema. Para la segunda, vimos que μTIx y por tanto μx divide a μT.

◻

Problema 2. Sea Vx el subespacio generado por x,T(x),T2(x),. Demuestra que Vx es un subespacio de V de dimensión degμx, estable bajo T.

Solución. Es claro que Vx es un subespacio de V. Además, dado que T manda a generadores en generadores, también es estable bajo T. Sea d=degμx. Demostraremos que x,T(x),,Td1(x) forman una base de Vx, lo que concluiría el ejercicio.

Veamos que son linealmente independientes. Si a0x+a1T(x)+a2T2(x)++ad1Td1(x)=0 para algunos escalares ai no todos cero, entonces el polinomio

P=a0+a1X++ad1Xd1

es un elemento de Ix, pues P(T)(x)=0. Luego μx necesariamente divide a P, pero esto es imposible puesto que el grado de P es d1, estrictamente menor que el grado de μx. Luego los ai deben ser todos nulos, lo que muestra que x,T(x),T2(x),,Td1(x) es una colección linealmente independiente.

Sea W el espacio generado por x,T(x),,Td1(x). Afirmamos que W es invariante bajo T. Es claro que T(x)W, similarmente T(T(x))=T2(x)W y así sucesivamente. El único elemento «sospechoso» es Td1(x), para el cual basta verificar que T(Td1(x))=Td(x)W. Dado que μx(T)(x)=0 y μx es mónico de grado d, existen escalares bi (más precisamente, los coeficientes de μx) no todos cero tales que

Td(x)+bd1Td1(x)++b0x=0.

Esto nos muestra que podemos expresar a Td(x) en términos de x,T(x),,Td1(x) y por tanto Td(x) pertenece a W.

Ahora, dado que W es estable bajo T y contiene a x, se cumple que Tk(x)W para todo k0. En particular VxW. Luego Vx=W (la otra contención es clara) y x,T(x),,Td1(x) genera a W, o sea a Vx.

Mostramos entonces que x,T(x),,Td1(x) es una base para Vx y así dimVx=d.

◻

Unos ejercicios para terminar

Presentamos unos últimos ejercicios para calcular polinomios mínimos.

Problema 1. Calcula el polinomio mínimo de A donde

A=(010100001).

Solución. A estas alturas no tenemos muchas herramientas que usar. Comenzamos con calcular A2:

A2=(010100001)(010100001)=(100010001).

Entonces en particular A2=I3. Así, el polinomio mínimo μA tiene que dividir a X21. Este último se factoriza como (X1)(X+1), pero es claro que A no satisface ni AI3=0 ni A+I3=0. Entonces μA no puede dividir propiamente a X21, y por tanto tienen que ser iguales.

Problema 2. Calcula el polinomio mínimo de la matriz A con

A=(1201).

Solución. Nota como

AI2=(0200)

y es fácil verificar que el cuadrado de la matriz de la derecha es cero. Así (AI2)2=0, o sea, el polinomio P(X)=(X1)2 anula a A. Similarmente al problema anterior, μA tiene que dividir a P, pero P sólo tiene un factor: X1. Dado que A no satisface AI2=0 se tiene que μA no puede dividir propiamente a P, y entonces tienen que ser iguales. Luego μA=(X1)2=X22X+1.

Más adelante…

En las entradas subsecuentes repasaremos los eigenvalores y eigenvectores de una matriz, y (como mencionamos) ligaremos el polinomio característico de una matriz con su polinomio mínimo para entender mejor a ambos.

Tarea moral

Aquí unos ejercicios para practicar lo que vimos.

  1. Encuentra una matriz A cuyo polinomio mínimo sea X2. Para cada n, ¿puedes encontrar una matriz cuyo polinomio mínimo sea Xn?
  2. Encuentra una matriz A cuyo polinomio mínimo sea X21. Para cada n, ¿puedes encontrar una matriz cuyo polinomio mínimo sea Xn1?
  3. Encuentra el polinomio de la matriz A en Mn(F) cuyas entradas son todas 1.
  4. Si T:Mn(R)Mn(R) es la transformación que manda a cada matriz en su transpuesta, encuentra el polinomio mínimo de T.
  5. Sea V un espacio vectorial y x,y vectores linealmente independientes. Sea T:VV una transformación lineal. ¿Cómo son los polinomios P tales que P(T) se anula en todo el subespacio generado por x y y? ¿Cómo se relacionan con los polinomios mínimos puntuales de T para x y y?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Seminario de Resolución de Problemas: El teorema de Rolle

Por Leonardo Ignacio Martínez Sandoval

Introducción

Las funciones continuas son bonitas pues tienen la propiedad del valor intermedio y además alcanzan sus valores extremos. Las funciones diferenciables en un intervalo también tienen un par de teoremas que hablan acerca de algo que sucede «dentro del intervalo». Estos son el teorema de Rolle y el teorema del valor medio. Ambos nos permiten encontrar en el intervalo un punto en el que la derivada tiene un valor específico.

Teorema de Rolle. Sean a<b reales y f:[a,b]R una función continua en el intervalo [a,b] y diferenciable en el intervalo (a,b). Supongamos que f(a)=f(b). Entonces existe un punto c(a,b) tal que f(c)=0.

Teorema del valor medio. Sean a<b reales y f:[a,b]R una función continua en el intervalo [a,b] y diferenciable en el intervalo (a,b). Entonces existe un punto c(a,b) tal que f(c)=f(b)f(a)ba.

El teorema del valor medio parece más general. Sin embargo, en cierto sentido, estos dos teoremas son «equivalentes», en el sentido de que uno de ellos nos ayuda a probar al otro de manera fácil, y viceversa.

Ya dimos las demostraciones de ambos teoremas en la entrada anterior, que habla del teorema del valor extremo. En esta entrada nos enfocaremos en ver cómo podemos usar el teorema de Rolle para resolver problemas. En la siguiente veremos algunos ejemplos del uso del teorema del valor medio.

Problemas resueltos con teorema de Rolle

Hay algunos problemas que parece que pueden ser resueltos con el teorema del valor intermedio (el de funciones continuas), pero para los cuales no es sencillo encontrar un intervalo correcto en el cual aplicar el teorema. En estas ocasiones, a veces el teorema de Rolle puede entrar al rescate.

Problema. Muestra que 5x44x+1 tiene una raíz real entre 0 y 1.

Sugerencia pre-solución. Primero, convéncete de que no es sencillo resolver este problema usando el teorema del valor intermedio. Luego, escribe a la función como la derivada de otra y aplica el teorema de Rolle. Funciona trabajar hacia atrás: si f es derivada de una función, ¿quién tendría que ser esta función?

Solución. La idea es expresar a f(x)=5x44x+1 como la derivada de una función y aplicar el teorema de Rolle. Para ello, podemos integrar o verificar por inspección que si g(x)=x52x2+x, entonces g(x)=f(x). Ahora, notemos que g(0)=g(1)=0. Por el teorema de Rolle, debe existir un c en (0,1) tal que f(c)=g(c)=0, es decir, esta c es justo una raíz de f, como queríamos.

◻

En algunas ocasiones hay que aplicar el teorema del valor medio repetidas veces dentro de un mismo problema.

Problema. Demuestra que f(x)=x4432x2+bx+c puede tener como mucho dos ceros el intervalo [1,1], sin importar los valores de b y de c.

Sugerencia pre-solución. Procede por contradicción, suponiendo que hay más de dos ceros. Aplica el teorema del valor medio dos veces.

Solución. Supongamos que f tiene tres o más ceros en ese intervalo, y que son r,s,t, con 1r<s<t<1. Tenemos que f(r)=f(s) y que f(s)=f(t), pues estos tres valores son 0. Por el teorema de Rolle, tenemos que f(x)=x33x+b debe tener al menos un cero p en el intervalo (r,s) y al menos un cero q en el intervalo (s,t). Aplicando de nuevo el teorema de Rolle, tenemos que f»(x)=3x23 debe tener un cero en el intervalo (p,q). Pero 1<p<q<1 y f»(x) sólo tiene como ceros a 1 y 1. Esto es una contradicción.

◻

Veamos un ejemplo más, en donde es necesario aplicar el teorema de Rolle varias veces y usar otras propiedades de diferenciabilidad.

Problema. Supongamos que la funciónes f:RR y g:RR son diferenciables y que f(x)g(x)f(x)g(x) para todo real x. Muestra que si f(x)=0 tiene al menos 2020 soluciones distintas, entonces g(x)=0 tiene al menos 1010 soluciones distintas.

Sugerencia pre-solución. Modifica el problema y generalízalo de la siguiente manera: bajo las hipótesis del problema, se tiene que entre cualesquiera dos ceros de f hay un cero de g. Para demostrar esto, procede por contradicción.

Solución. Mostraremos que entre cualesquiera dos ceros de f hay un cero de g. Para ello, procedamos por contradicción. Supongamos a<b son ceros de f y que g no tiene ningún cero en el intervalo [a,b].

Consideremos la función f/g. Como g no se anula en [a,b], tenemos que f/g es continua en [a,b] y diferenciable en (a,b). Además, f(a)/g(a)=f(b)/g(b)=0. Con esto, por el teorema de Rolle tendríamos que la derivada de f/g en algún punto c en (a,b) es cero. Pero esto es una contradicción, pues la derivada en c es f(c)g(c)f(c)g(c)g2(c), que por hipótesis nunca es 0. De esta forma, entre cualesquiera dos ceros de f debe haber un cero de g.

Para resolver el problema original, consideremos los 2020 ceros que tiene f, digamos a1<<a2020. En cada uno de los intervalos [a2i1,a2i] para i=1,,1010 debe haber un cero de g, y como estos son intervalos disjuntos, estos deben ser ceros distintos. De este modo, tenemos al menos 1010 ceros de g.

◻

Más problemas

Hay más problemas en los que se usa el teorema de Rolle en la Sección 6.5 el libro Problem Solving through Problems de Loren Larson.