Archivo de la etiqueta: transformaciones

Álgebra Lineal II: Transformaciones ortogonales, isometrías y sus propiedades

Por Ayax Calderón

Introducción

En entradas anteriores hemos estudiado algunas transformaciones lineales especiales con respecto a la transformación adjunta asociada. Estudiamos, por ejemplo, las transformaciones normales que son aquellas que conmutan con su adjunta. El siguiente paso es estudiar las transformaciones lineales entre espacios euclidianos que preservan las distancias. Estas transformaciones son muy importantes, pues son aquellas transformaciones que además de ser lineales, coinciden con nuestra intuición de movimiento rígido. Veremos que esta condición garantiza que la transformación en cuestión preserva el producto interior de un espacio a otro.

Isometrías y transformaciones ortogonales

Definición. Sean V1,V2 espacios euclidianos con productos interiores ,1 y ,2, y con correspondientes normas ||||1 y ||||2. Una isometría entre V1 y V2 es un isomorfismo T:V1V2 tal que para cualesquiera x,yV1 se cumple que T(x),T(y)2=x,y1.

Por lo tanto, una isometría es una transformación lineal biyectiva que preserva el producto interior. El siguiente problema nos da una mejor idea de esta preservación.

Problema. Sea T:V1V2 un isomorfismo de espacios vectoriales. Las siguientes dos condiciones son equivalentes.

  1. T(x),T(y)2=x,y1 para cualesquiera x,yV1.
  2. ||T(x)||2=||x||1 para cualquier xV1.

Solución. (1)(2). Tomando y=x se obtiene
||T(x)||22=||x||12 y por lo tanto ||T(x)||2=||x||1, lo cual muestra el inciso 2.

(2)(1). Usando la identidad de polarización y la linealidad de T, podemos mostrar que
T(x),T(y)2=||T(x)+T(y)||22||T(x)||22||T(y)||222=||T(x+y)||22||T(x)||22||T(y)||222=||x+y||22||x||22||y||222=x,y1, lo cual muestra 1.

◻

Observación. Si T es una transformación como la del problema anterior, entonces T es automáticamente inyectiva: si T(x)=0, entonces ||T(x)||2=0, de donde ||x||1=0 y por lo tanto x=0. Recuerda que si T es transformación lineal y ker(T)={0}, entonces T es inyectiva.

Definición. Sea V un espacio euclidiano. Diremos que una transformación lineal T:VV es ortogonal si T es una isometría de V en V. En otras palabras, T es ortogonal si T es biyectiva y para cualesquiera x,yV se tiene que T(x),T(y)=x,y.

Nota que la biyectividad de T es consecuencia de la relación anterior, gracias a la observación. Por lo tanto T es ortogonal si y sólo si T preserva el producto interior.

Similarmente, diremos que una matriz AMn(R) es ortogonal si
AtA=In.

Estas nociones de ortogonalidad parecen algo distintas entre sí, pero la siguiente sección ayudará a entender la conexión que existe entre ellas.

Ejemplo. La matriz (0110) es ortogonal, pues (0110)(0110)=(1001).

Equivalencias de transformaciones ortogonales

Entendamos un poco más qué quiere decir que una matriz AMn(R) sea ortogonal. Supongamos que sus filas son R1,,Rn. Notemos que la entrada (i,j) de la matriz AtA es precisamente el producto punto Ri,Rj. De esta manera, pedir que AtA=In es equivalente a pedir que Ri,Rj={1si i=j0en otro caso..

Esto es exactamente lo mismo que pedir que los vectores R1,,Rn formen una base ortonormal de Rn.

También, de la igualdad AtA=In obtenemos que A y tA son inversas, de modo que también tenemos tAA=In, de donde tA también es ortogonal. Así, las filas de tA también son una base ortonormal de Rn, pero estas filas son precisamente las columnas de A. Por lo tanto, prácticamente hemos probado el siguiente teorema.

Teorema. Sea AMn(R) una matriz y considera a Rn con el producto interior canónico. Las siguientes afirmaciones son equivalentes:

  1. A es ortogonal.
  2. Las filas de A forman una base ortonormal de Rn.
  3. Las columnas de A forman una base ortonormal de Rn.
  4. Para cualquier xRn se tiene ||Ax||=||x||.

Las afirmaciones restantes quedan como tarea moral. Tenemos un resultado muy similar para el caso de transformaciones lineales.

Teorema. Sea V un espacio euclidiano y T:VV una transformación lineal. Demuestra que las siguientes afirmaciones son equivalentes:

  1. T es ortogonal, es decir, T(x),T(y)=x,y para cualesquiera x,yV.
  2. ||T(x)||=||x|| para cualquier xV.
  3. TT=Id.

Demostración.(1)(2). Haciendo la sustitución x=y.

(2)(3). Usando polarización (haz los detalles de tarea moral)

(3)(1). Pensemos que 2 se satisface. Entonces

TT(x)x,y=y,T(T(x))x,y=T(x),T(y)x,y=0

para cualesquiera x,yV y por lo tanto T(T(x))=x, lo que prueba (4).

(4)(1). Si (4) se satisface, entonces T es biyectiva, con inversa T, por lo que bastará ver que se cumple (3) (pues a su vez implica (2). Notemos que para cualquier xV tenemos: ||T(x)||2=T(x),T(x)=x,T(T(x))=x,x=||x||2. Se concluye el resultado deseado.

◻

Las transformaciones ortogonales forman un grupo

Las propiedades anteriores nos hablan de una transformación ortogonal. Sin embargo, al tomar un espacio vectorial V y considerar todas las posibles transformaciones ortogonales, tenemos una estructura algebraica bonita: un grupo. Este es el contenido del siguiente teorema.

Teorema. Sea V un espacio euclideano y O(V) el conjunto de transformaciones ortogonales de V. Se tiene que O(V) es un grupo bajo composición. En otras palabras, la composición de dos transformaciones ortogonales es una transformación ortogonal y la inversa de una transformación ortogonal es una transformación ortogonal.

Demostración. Veamos la cerradura por composición. Sean T1,T2 transformaciones lineales ortogonales de V. Entonces T1T2 es lineal y además
||(T1T2)(x)||=||T1(T2(x))||=||T2(x)||=||x||
para todo xV. Por lo tanto T1T2 es una transformación lineal ortogonal.

Análogamente tenemos que si T es ortogonal, entonces
||x||=||T(T1(x))||=||T1(x)||
para todo xV, lo que muestra que T1 es ortogonal.

◻

Definición. A O(V) se le conoce como el grupo ortogonal de V.

Más adelante…

En esta entrada definimos y estudiamos las transformaciones ortogonales. También hablamos de las matrices ortogonales. Dimos algunas caracterizaciones para este tipo de transformaciones. Vimos que las transformaciones ortogonales de un espacio vectorial forman un grupo O(V).

Las transformaciones que fijan el producto interior también fijan la norma y las distancias, de modo que geométricamente son muy importantes. En cierto sentido, entender quiénes son las transformaciones ortogonales de un espacio vectorial nos ayuda a entender «de qué maneras podemos cambiarlo linealmente, pero sin cambiar su métrica». En las siguientes entradas entenderemos con más profundidad al grupo O(Rn), el cual nos dará un excelente ejemplo de este fenómeno.

Tarea moral

  1. Verifica que la matriz
    A=(35454535) es ortogonal.
  2. Sea β una base ortnormal de un espacio euclidiano V y sea β otra base de V. Sea P la matriz de cambio de base de β a β. Demuestra que β es ortonormal si y sólo si P es ortogonal.
  3. Termina las demostraciones de las caracterizaciones de matrices ortogonales y de transformaciones ortogonales.
  4. Demuestra que el producto de matrices ortogonales es también una matriz ortogonal.
  5. Encuentra todas las posibles transformaciones ortogonales de R.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Geometría Analítica I: Introducción a transformaciones

Por Paola Berenice García Ramírez

Introducción

Hasta ahora hemos aprendido nuevos conceptos geométricos euclidianos desde producto interior y ortogonal, normas y ángulos entre vectores hasta distancias. Pero también hemos trabajado implícitamente con diversos tipos de funciones, como son las rectas o las cónicas. Las funciones participan en todas las ramas matemáticas e incluso en muchas disciplinas científicas y sociales, por lo que al principio de la unidad brindaremos las nociones de funciones necesarias que les permitirán asimilar de mejor manera los temas que hemos visto y avanzar a los temas esenciales de ésta unidad, los cuales son Transformaciones y Matrices.

Comenzaremos con el tema de transformaciones y vamos a llamar transformación en el plano a toda función que hará corresponder a cada punto del plano otro punto del mismo; es decir, las transformaciones son operaciones geométricas que nos permiten deducir una nueva figura a partir de una que previamente tenemos. La nueva figura se llama transformada de la original.

Podemos dar un primer escenario de la clasificación de transformaciones que veremos:

  • Isometrías: Son cambios de posición (orientación) de una determinada figura que no alteran la forma ni tamaño de ésta. Como ejemplos en este rubro tenemos las traslaciones, las rotaciones o las reflexiones (simetrías).

En la imagen tenemos el caso de una transformación de reflexión (o simetría) con respecto al eje x=0. Observemos que cada punto de la figura original y la imagen de cada uno de ellos bajo la reflexión se encuentran a igual distancia de una recta llamada eje de simetría.

  • Isomorfismos: Son cambios en una figura determinada que no alteran la forma pero sí el tamaño de ésta. Entre ellas tenemos a las homotecias y las semejanzas.

La imagen muestra un ejemplo de homotecia, la cual es una transformación del espacio (en este caso el plano) que dilata las distancias con respecto a un punto de origen O.

  • Composición de transformaciones: Es el proceso por el cual a una figura se le aplican dos o más transformaciones y éstas transformaciones pueden ser de diferente tipo. Veremos el caso de transformaciones afines.
  • Transformaciones ortogonales: Como las longitudes de vectores y ángulos entre ellos se definen mediante el producto interior; éste tipo de transformaciones preservan las longitudes de los vectores y los ángulos entre ellos.

Tarea moral:

Las gráficas de las funciones senoidales son contracciones y/o dilataciones de las gráficas del seno y el coseno.

y=Asen(Bx+C)+D,y=Acos(Bx+C)+D,

donde |A| representa la amplitud y |B| a la cantidad de veces que se repite un ciclo en el intervalo desde 0 hasta 2π. Por otro lado C determina el desplazamiento horizontal de las gráficas y D el desplazamiento vertical de las gráficas. Además, 2π|B| es el periodo de la función y nos indica la la longitud de un ciclo.

Ejercicio 1. Identificar la amplitud, el periodo y graficar las funciones:

  • y=3sen(2x),
  • y=2cos(x),
  • y=2+sen(x)
  • y=12sen(12x)

Ejercicio 2. Grafiquen las siguientes funciones y analicen el efecto de las constantes con respecto a las gráficas del seno y coseno.

  • y=sen(x+π)
  • y=cos(x+2)+3

Más adelante:

La tarea moral tiene un propósito, y es que recordemos cómo una función se ve afectada al variar parámetros específicos. Con ello podremos darnos cuenta que no estamos tan enajenados al tema de transformación de funciones que estaremos trabajando en esta unidad.

En la siguiente entrada repasaremos las nociones necesarias de funciones que nos permitirán definir formalmente el concepto de transformaciones y tratar posteriormente con su clasificación.

Entradas relacionadas

  • Página principal del curso:
  • Entrada anterior del curso:
  • Siguiente entrada del curso:

Álgebra Lineal II: Polinomio característico

Por Julio Sampietro

Introducción

En el transcurso de esta unidad hemos construido varios de los objetos algebraicos que nos interesan. En primer lugar, dejamos claro qué quería decir evaluar un polinomio en una matriz o transformación lineal. Esto nos llevó a preguntarnos por aquellos polinomios que anulan a una matriz o transformación lineal. De manera natural, descubrimos que aquellos polinomios que anulan son múltiplos de un polinomio especial asociado a la matriz o transformación lineal llamado polinomio mínimo.

De manera un poco separada, comenzamos a estudiar los eigenvalores, eigenvectores y eigenespacios de una transformación lineal y en la entrada anterior nos enfocamos en varias de sus propiedades principales. Uno de los resultados clave que encontramos es que los eigenvalores de una matriz o transformación lineal son las raíces del polinomio mínimo que estén en el campo en el que estemos trabajando.

Aunque este resultado sea interesante de manera teórica, en la práctica debemos hacer algo diferente pues no es tan sencillo encontrar el polinomio mínimo de una matriz o transformación lineal. Es por esto que ahora estudiaremos con profundidad otro objeto que resultará fundamental en nuestro estudio: el polinomio característico. Ya nos encontramos con él anteriormente. Si A es una matriz en Mn(F), dicho polinomio en la variable λ es el determinante det(λInA).

Esta entrada es más bien una introducción, así que nos enfocaremos en probar las cosas más básicas de este objeto. Lo primero, y más importante, es verificar que en efecto es un polinomio (y con ciertas características específicas). También, aprovecharemos para calcularlo en varios contextos (y campos) diferentes.

Definición de polinomio característico

Comencemos con una matriz AMn(F). Vimos que encontrar los eigenvalores de A se reduce a encontrar las soluciones de la ecuación

det(λInA)=0

en F. Vamos a estudiar más a detalle la expresión de la izquierda.

El siguiente teorema va un poco más allá y de hecho estudia expresiones un poco más generales.

Teorema. Sean A,BMn(F) dos matrices. Existe un polinomio PF[X] tal que para todo xF se cumple

P(x)=det(xA+B).

Si denotamos a este polinomio por P(X)=det(XA+B), entonces

det(XA+B)=det(A)Xn+αn1Xn1++α1X+detB

para algunas expresiones polinomiales α1,,αn1 con coeficientes enteros en las entradas de A y B.

Demostración. Consideremos el siguiente polinomio en la variable X y coeficientes en F, es decir, el siguiente polinomio en F[X]:

P(X)=σSnsign(σ)(a1σ(1)X+b1σ(1))(anσ(n)X+bnσ(n)).

Por construcción, P es un polinomio cuyos coeficientes son expresiones polinomiales enteras en las entradas de A y B. Más aún, se cumple que P(x)=det(xA+B) para xF (podría ser útil revisar la entrada sobre determinantes para convencerte de ello). El término constante lo obtenemos al evaluar en X=0, pero eso no es más que P(0)=det(0A+B)=det(B). Finalmente para cada σSn tenemos que el primer término de cada sumando es

sign(σ)(a1σ(1)X+b1σ(1))(anσ(n)X+bnσ(n))

Notemos que la única manera de obtener un término Xn en esta expresión es cuando en cada binomio que se está multiplicando se usa el término X. Así, el coeficiente de Xn es sign(σ)a1σ(1)anσ(n)Xn.

Agrupando todos los sumandos para todas las σ y comparando con la definición del determinante llegamos a que P(X)=det(A)Xn+, es decir el término de orden n es en efecto det(A).

◻

Del teorema se sigue que si A y B tienen entradas enteras o racionales, det(XA+B) tiene coeficientes enteros o racionales respectivamente.

Enseguida podemos definir (gracias al teorema) el siguiente objeto:

Definición. El polinomio característico de la matriz AMn(F) es el polinomio χAF[X] definido por

χA(X)=det(XInA).

Una observación inmediata es que, de acuerdo al teorema, el coeficiente principal de χA(X) tiene coeficiente det(In)=1. En otras palabras, acabamos de demostrar la siguiente propiedad fundamental del polinomio característico.

Proposición. El polinomio característico de una matriz en Mn(F) siempre tiene grado exactamente n y además es un polinomio mónico, es decir, que el coeficiente que acompaña al término de grado n es igual a 1.

Veamos un ejemplo sencillo.

Ejemplo. Si queremos calcular el polinomio característico de

A=(1110)M2(R)

entonces usamos la definición

χA(X)=det(XI2A)=|X111X|=X(X1)+1.

Y así los eigenvalores de A son las raíces reales de χA(X). Es decir, tenemos que resolver

0=x(x1)+1=x2x+1.

Sin embargo, el discriminante de esta ecuación cuadrática es (1)24(1)(1)=3, el cual es un real negativo, por lo que no tenemos eigenvalores reales. Si estuviéramos trabajando en C tendríamos dos eigenvalores complejos:

x1,2=1±i32.

De aquí, ¿cómo encontramos los eigenvectores y eigenespacios? Basta con resolver los sistemas lineales homogéneos de ecuaciones (Ax1I2)X=0 para encontrar el x1-eigenespacio y (Ax2)X=0 para encontrar el x2-eigenespacio.

Algunos cálculos de polinomios característicos

Ya que calcular polinomios característicos se reduce a calcular determinantes, te recomendamos fuertemente que recuerdes las propiedades que tienen los determinantes. Sobre todo, aquellas que permiten calcularlos.

¡A calcular polinomios característicos!

Problema 1. Encuentra el polinomio característico y los eigenvalores de A dónde A es

A=(0100201007060030)M4(R).

Solución. Usamos la expansión de Laplace respecto al primer renglón:

χA(X)=det(XI4A)=|X1002X1007X6003X|=X|X107X603X|+|2100X603X|=X(X311X)2(X218)=X413X2+36.

Después, para encontrar los eigenvalores de A tenemos que encontrar las raíces reales de la ecuación

x413x2+36=0.

Sin embargo, no hay que desalentarse por ver una ecuación de grado 4. Si hacemos el cambio y=x2 podemos llevar nuestro problema a resolver

y213y+36=0.

¡Es una ecuación de segundo orden! Esta la podemos resolver usando ‘la chicharronera’ y obtenemos como soluciones y1=4 y y2=9. Pero todavía tenemos que resolver x2=y1 y x2=y2. Al resolver estas últimas dos ecuaciones obtenemos que x=±2,±3 son los eigenvalores de A.

Problema 2. Calcula el polinomio característico y los eigenvalores de la matriz

A=(101110101)M3(F2).

Solución. Nota que estamos trabajando en el campo de dos elementos F2, por lo que 1=1. Usando la definición:

χA(X)=det(XI3A)=|X1011X1010X1|=|X+1011X+1010X+1|.

Aquí estamos usando repetidamente 1=1. Usamos otra vez la expansión de Laplace en el primer renglón para llegar a

χA(X)=(X+1)|X+100X+1|+|1X+110|=(X+1)3(X+1).

Luego, si queremos encontrar los eigenvalores de A tenemos que resolver

(x+1)3(x+1)=0.

Si bien existen varias maneras de resolver la ecuación, podemos simplemente sustituir los únicos valores posibles de x : 0 o 1. Sustituyendo es fácil ver que ambos satisfacen la ecuación, por lo que los eigenvalores de A son 0 y 1.

Más adelante…

En la próxima entrada calcularemos el polinomio característico de una variedad de matrices importantes: triangulares superiores, nilpotentes, etc. Esto nos permitirá entender mejor al polinomio característico y lidiar con muchos casos para facilitarnos los cálculos más adelante.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Demuestra que 0 es un eigenvalor de una matriz A si y sólo si det(A)=0.
  • ¿Una matriz compleja de tamaño n tiene necesariamente n eigenvalores distintos?
  • Calcular el polinomio característico y los eigenvalores de
    A=(120012201)M3(F3).
  • Usando la fórmula del determinante para matrices de tamaño 2, encuentra un criterio simple para saber si una matriz con entradas reales de tamaño 2 tiene dos, uno o ningún eigenvalor real.
  • Da un criterio simple para saber si una matriz de tamaño 2 con entradas complejas tiene eigenvalores puramente imaginarios.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Eigenvectores y eigenvalores

Por Julio Sampietro

Introducción

En esta entrada revisitamos los conceptos de eigenvalores y eigenvectores de una transformación lineal. Estos son esenciales para entender a las transformaciones lineales, y tienen un rango de aplicabilidad impresionante: aparecen en la física, las ecuaciones diferenciales parciales, la ciencia de datos, la topología algebraica y la probabilidad.

Primero enunciaremos la definición, después veremos un primer ejemplo para convencernos de que no son objetos imposibles de calcular. Luego daremos un método para vislumbrar una manera más sencilla de hacer dicho cálculo y concluiremos con unos ejercicios.

Eigen-definiciones

Comenzamos con V un espacio vectorial sobre F y T:VV una transformación lineal.

Definición. Un eigenvalor (también conocido como valor propio) de T es un escalar λF tal que λIdT no es invertible. Un eigenvector (también conocido como vector propio o λ-eigenvector) correspondiente a λ es un vector no-cero de ker(λIdT). A este kernel se le conoce como el eigenespacio correspondiente a λ (o λ-eigenespacio).

Entonces un λ-eigenvector es por definición distinto de cero y satisface

T(v)=λv.

Hay que tener cuidado. se permite que λ=0 sea eigenvalor, pero no se permite que v=0 sea eigenvector.

La colección de todos los eigenvectores, junto con el vector cero, es el eigenespacio asociado a λ. Podemos enunciar definiciones análogas con matrices.

Definición. Sea AMn(F) una matriz cuadrada. Un escalar λF es un eigenvalor de A si existe un vector XFn distinto de cero (un eigenvector) tal que AX=λX. En este caso el subespacio

ker(λInA):={XFnAX=λX}

es el λ-eigenespacio de A.

Puedes verificar que ambas definiciones se corresponden en el siguiente sentido:

Si V es un espacio de dimensión finita y T:VV es una transformación lineal, podemos escoger cualquier base de V y asociarle a T su forma matricial, digamos A, en esta base. Los eigenvalores de T son precisamente los eigenvalores de A. ¡Pero cuidado! Los eigenvectores de A dependerán de la base elegida.

Un primer ejemplo

Seguimos con un sencillo pero importante ejemplo.

Ejemplo 1. Considera la matriz

A=(0110).

Busquemos los eigenvectores y eigenvalores de A, pensando a A como una matriz con entradas complejas. Sea λC un eigenvalor y X un eigenvector asociado. Entonces se cumple la relación AX=λX. Si X=(x1,x2) entonces la condición mencionada es equivalente al par de ecuaciones

x2=λx1,x1=λx2.

Sustituyendo una en la otra obtenemos

x2=λ2x2.

Si x2=0 entonces x1=0 y así X es un vector nulo, lo que es imposible por definición (recuerda que pedimos que los eigenvectores sean distintos de cero). Entonces x20 y podemos dividir por x2 a la ecuación previa, de manera que λ2=1, o sea λ=±i. Conversamente, i y i son eigenvalores. En efecto, podemos tomar x2=1 y x1=λ como soluciones del problema anterior y obtener un vector propio asociado. De hecho, el eigenespacio está dado por

ker(λI2A)={(λx2,x2)x2C}

y esto no es más que la recta generada por el vector v=(λ,1)C2. Por lo tanto, vista como una matriz compleja, A tiene dos eigenvalores distintos ±i y dos eigenespacios, los generados por (i,1) y (i,1).

Por otro lado, veamos qué pasa si pensamos a A como una matriz con entradas reales. Haciendo las mismas cuentas llegamos a la misma ecuación, x2=λ2x2. Podemos reescribirla factorizando el término x2:

(λ2+1)x2=0.

Como λ esta vez es un número real, λ2+1 siempre es distinto de cero. Entonces para que el producto sea cero, tiene que ocurrir que x2=0, ¡pero entonces x1=0 y así X=0! En conclusión: vista como una matriz con entradas reales, A no tiene eigenvalores, y por tanto no tiene eigenespacios. La moraleja es que los eigenvalores y eigenvectores dependen mucho del campo en el que trabajemos.

¿Cómo calcularlos?

Si bien el ejemplo anterior resultó simple, no es difícil imaginar que matrices más complicadas y más grandes pueden resultar en procedimientos menos claros. En general:

  • ¿Cómo podemos calcular los eigenvalores?
  • ¿Cómo podemos calcular los eigenespacios de manera eficiente?
  • ¿Cómo podemos calcular los eigenvectores?

Una vez calculados los eigenvalores, calcular los eigenespacios se reduce a resolver el sistema de ecuaciones homogéneo (AλIn)X=0, lo cual ya hemos hecho muchas veces mediante reducción gaussiana. Luego, calcular los eigenvectores simplemente es tomar los elementos no cero del eigenespacio. Sin embargo, el cálculo de eigenvalores involucra encontrar raíces de polinomios lo cual de entrada no es obvio. Un primer paso es la siguiente observación que enunciamos como proposición.

Proposición. Un escalar λF es un eigenvalor de AMn(F) si y sólo si

det(λInA)=0.

Demostración. El sistema (λInA)X=0 tiene soluciones no triviales si y sólo si la matriz λInA no es invertible. A su vez, la matriz λInA no es invertible si y sólo si su determinante es nulo. El resultado se sigue.

◻

Regresemos a nuestra pregunta. Si

A=(a11a12a1na21a22a2nan1an2ann)

entonces la proposición nos dice que podemos calcular los valores propios de A resolviendo la ecuación polinomial

|λa11a12a1na21λa22a2nan1an2λann|=0

en F. Esta es una ecuación polinomial de grado n, y si el grado es mayor a 4 en general no existe una fórmula para resolverla en términos de radicales (aunque claro que hay casos particulares que si podemos resolver sin mucho problema).

Problema 2. Queremos calcular los eigenvalores de A, donde A está dada por

A=(100001010).

Solución. Como vimos en la proposición, esto se reduce a calcular las raíces del polinomio

|λ1000λ101λ|=0.

Calculando el determinante vemos que esto es de hecho

(λ1)(λ2+1)=0.

Sin embargo tenemos que recordar que las raíces dependen de nuestro campo de elección. Como no comentamos nada sobre el campo en el cual trabajamos, consideraremos dos casos. Si el campo es C entonces los eigenvalores son 1 y ±i. Si trabajamos sobre R entonces tenemos un único eigenvalor: 1.

Ejercicios

Acabamos esta entrada con unos ejercicios para reforzar lo que vimos.

Problema 1. Encuentra todos los números reales x tales que la matriz

A=(1x21)

tiene exactamente dos eigenvalores distintos. La misma pregunta para ningún eigenvalor.

Solución. El número de eigenvalores va a estar dado por el número de raíces del polinomio det(λI2A). Es decir, tenemos que trabajar la ecuación

det(λI2A)=|λ1x2λ1|=0.

Que a su vez se reduce a

(λ1)22x=0.

Y para que tenga dos soluciones basta con que 2x sea un número positivo. En efecto, en ese caso podemos despejar y resolver

λ=1±2x.

Como 2x es positivo solo si x lo es, podemos concluir que la condición necesaria y suficiente es que x sea un real positivo. Similarmente, si x es un número negativo no tendremos ningún eigenvalor.

Problema 2. Sea V el conjunto de todas las matrices AM2(C) tales que v=(12) es un eigenvector de A. Demuestra que V es un subespacio de M2(C) y da una base.

Solución. Supongamos que v es un eigenvector de A, con eigenvalor λ, y que es eigenvector de B, con eigenvalor μ. Entonces

(A+cB)(v)=Av+cBv=λv+cμv=(λ+cμ)v

por lo que v es eigenvector de A+cB con eigenvalor λ+cμ. Esto demuestra que V es un subespacio. Para darnos una idea de cómo podría ser una base para V, comencemos con una matriz genérica A=(abcd) tal que AV. Entonces A tiene que satisfacer Av=λv para algún λ. Escribamos esto más explícitamente

(abcd)(12)=(a+2bc+2d)=(λ2λ).

Así se desprenden dos ecuaciones

{a+2b=λc+2d=2λ.

Sabemos que λ es un parámetro libre, pues puede ser cualquier eigenvalor. Si conocemos a λ entonces necesitamos alguna de las variables, a o b para determinar a la otra y lo mismo con c y d. Entonces escojamos b y d como variables libres. Enseguida nuestra matriz es de la forma (reemplazando a a y c por sus valores en b y d):

A=(λ2bb2λ2dd)=b(2100)+d(0021)+λ(1020).

Entonces proponemos como base

β={(2100),(0021),(1020)}.

Ya vimos que β genera a V, y dejamos la independencia lineal como ejercicio.

◻

Más adelante…

En las próximas entradas desarrollaremos las propiedades relevantes de los eigenvalores y eigenvectores para eventualmente llegar al polinomio característico y establecer el puente con el polinomio mínimo.

Tarea moral

Aquí unos ejercicios para que repases el material de esta entrada.

  1. Encuentra todos los eigenvalores de la matriz A=(110021001)M3(C).
  2. Completa la demostración del último ejercicio de la sección de ejercicios, verificando que las soluciones encontradas son matrices linealmente independientes. ¿Puedes generalizar este ejercicio de alguna manera?
  3. Encuentra los eigenvalores de la matriz AMn(R) cuyas entradas son puros 2.
  4. Da contraejemplos para cada una de las siguientes afirmaciones:
    1. Si u y v son eigenvectores de A, entonces u+v es eigenvector de A.
    2. Si λ es eigenvalor de A y μ es eigenvalor de B, entonces λμ es eigenvalor de AB.
    3. Si A y B son formas matriciales de una misma transformación T y v es eigenvector de A, entonces v es eigenvector de B.
  5. Considera la transformación derivada en R[x]. ¿Quienes son sus eigenvectores y eigenvalores? Como sugerencia, estudia el coeficiente de mayor grado.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Polinomio mínimo de transformaciones lineales y matrices

Por Julio Sampietro

Introducción

Anteriormente definimos qué quiere decir evaluar un polinomio en una matriz o en una transformación lineal. En esta entrada definiremos uno de los objetos más importantes del álgebra lineal: el polinomio mínimo. Si bien al principio nos va a costar un poco calcularlo, esto se compensa por la cantidad de propiedades teóricas que cumple. Comenzaremos dando su definición, y mostrando su existencia y unicidad. Luego exploraremos algunas propiedades y veremos ejemplos, seguido de un pequeño teorema de cambio de campos. Finalmente introduciremos un objeto similar (el polinomio mínimo puntual) y haremos unos ejercicios para cerrar.

El concepto de polinomio mínimo podría resultarle familiar a los más algebraicos de mente: ¡todo se debe a que trabajamos con dominios de ideales principales, o incluso euclidianos! Si has trabajado anteriormente con conceptos como el mínimo común múltiplo en enteros, puede que varios de los argumentos de esta entrada te suenen conocidos.

Existencia y unicidad

Comenzamos con un espacio vectorial V de dimensión n sobre un campo F. Fijando una transformación lineal T:VV, queremos entender para qué polinomios se cumple que P(T)=0. Nota como podríamos haber cambiado la pregunta: si fijamos un polinomio P, podríamos buscar todas las transformaciones T tales que P(T)=0. Ésta pregunta la estudiaremos más adelante.

Definimos el conjunto

I(T)={PF[X]P(T)=0}.

El polinomio cero pertenece a I(T) de manera trivial. Una cosa importante es que este conjunto I(T) que vamos a estudiar en verdad es «interesante», en el sentido de que debemos ver que hay más polinomios adentro y no es únicamente el conjunto {0}. Una manera de ver esto es sabiendo que el espacio de transformaciones lineales de V en V tiene dimensión n2 (lo puedes pensar como el espacio de matrices). Entonces, las n2+1 transformaciones Id,T,T2,,Tn2 no pueden ser todas linealmente independientes: uno de los corolarios del lema de Steinitz es que en un espacio de dimensión n a lo más se pueden tener n vectores linealmente independientes. Entonces existe una combinación lineal no trivial y nula

a0Id+a1T++an2Tn2=0.

Luego a0+a1X++an2Xn2 es un polinomio no cero tal que P(T)=0, es decir PI(T).

Con el argumento de arriba vimos que I(T) es «interesante» en el sentido de que tiene polinomios no cero. El siguiente teorema se puede entender como que I(T) se puede describir muy fácilmente.

Teorema. Existe un único polinomio mónico, distinto de cero μT tal que I(T) es precisamente el conjunto de múltiplos de μT. Es decir

I(T)=μTF[X]={μTP(X)P(X)F[X]}.

La demostración hará uso del algoritmo de la división para polinomios. Te lo compartimos aquí, sin demostración, por si no lo conoces o no lo recuerdas.

Teorema (algoritmo de la división en F[x]). Sean M(x) y N(x) polinomios en F[x], donde N(x) no es el polinomio cero. Entonces, existen únicos polinomios Q(x) y R(x) en F[x] tales que M(x)=Q(x)N(x)+R(x), en donde R(x) es el polinomio cero, o deg(R(x))<deg(G(x)).

Si te interesa saber cómo se demuestra, puedes seguir la teoría de polinomios disponible en la Unidad 4 del curso de Álgebra Superior II.

Demostración. Veamos primero que I(T) es un subespacio de F[X]. Para ello, tomemos polinomios P(x), Q(x) en I(T), y un escalar αF. Una de las proposiciones de la entrada pasada nos permite abrir la expresión (P+αQ)(T) como P(T)+αQ(T)=0+α0=0, de modo que P+αQ está en I(T) y por lo tanto I(T) es un subespacio de F[X].

Por otro lado si PI(T) y QF[X] entonces

(PQ)(T)=P(T)Q(T)=0Q(T)=0.

Lo que discutimos antes de enunciar el teorema nos dice que I(T){0}. Tomemos entonces PI(T) un polinomio no cero de grado mínimo. Podemos suponer sin perdida de generalidad que P es mónico, de no serlo, podemos dividir a P por su coeficiente principal sin cambiar el grado.

La ecuación previa nos indica que todos los múltiplos polinomiales de P también están en I(T). Veamos que todo elemento de I(T) es de hecho un múltiplo de P. Si SI(T), usamos el algoritmo de la división polinomial para escribir S=QP+R con Q,RF[X]. Aquí hay dos casos: que R sea el polinomio cero, o bien que no lo sea y entonces degR<degP. Nota que R=SQPI(T) dado que I(T) es un subespacio de F[X] y S,QPI(T). Si R0, entonces como degR<degP llegamos a una contradicción de la minimalidad del grado de P. Luego R=0 y por tanto S=QP. Entonces I(T) es precisamente el conjunto de todos los múltiplos de P y así podemos tomar μT=P.

Para verificar la unicidad de μT, si otro polinomio S tuviera las mismas propiedades, entonces S dividiría a μT y μT dividiría a S. Sin embargo, como ambos son mónicos se sigue que deben ser iguales: en efecto, si μT=SQ y S=μTR entonces degQ=degR=0, porlo tanto son constantes, y como el coeficiente principal de ambos es 1, se sigue que ambos son la constante 1 y así μT=S. Esto completa la demostración.

◻

Definición. Al polinomio μT se le conoce como el polinomio mínimo de T.

Primeras propiedades y ejemplos

Debido a su importancia, recalcamos las propiedades esenciales del polinomio mínimo μT:

  • Es mónico.
  • Cumple μT(T)=0.
  • Para cualquier otro polinomio PF[X], sucede que P(T)=0 si y sólo si μT divide a P.

Toda la teoría que hemos trabajado hasta ahora se traduce directamente a matrices usando exactamente los mismos argumentos. Lo enunciamos de todas maneras: si AMn(F) es una matriz cuadrada, entonces existe un único polinomio μAF[X] con las siguientes propiedades:

  • Es mónico.
  • Cumple μA(A)=On.
  • Si PF[X], entonces P(A)=On si y sólo si μA divide a P.

Como jerga, a veces diremos que un polinomio «anula T» si P(T)=0. En este sentido los polinomios que anulan a T son precisamente los múltiplos de μT.

Vimos antes de enunciar el teorema que podemos encontrar un polinomio P no cero de grado menor o igual a n2 tal que P(T)=0. Como μT divide a P se sigue que degμTn2. Esta cota resulta ser débil, y de hecho un objeto que hemos estudiado previamente nos ayudará a mejorarla: el polinomio característico. Este también va a anular a T y con ello obtendremos una mejor cota: degμTn.

Ejemplo 1. Si A=On, entonces μA=X. En efecto, μA(A)=0 y además es el polinomio de menor grado que cumple esto, pues ningún polinomio constante y no cero anula a On (¿por qué?). Nota como además I(A) es precisamente el conjunto de polinomios sin término constante.

Ejemplo 2. Considera la matriz AM2(R) dada por

A=(0110).

Nos proponemos calcular μA. Nota que A satisface A2=I2. Por tanto el polinomio P(X)=X2+1 cumple P(A)=0. Así, μA tiene que dividir a este polinomio ¡pero este es irreducible sobre los números reales! En efecto, si existiese un factor propio de P sobre R, tendríamos que la ecuación X2=1 tiene solución, y sabemos que este no es el caso. Entonces μA tiene que ser X2+1.

Ejemplo 3. Sean d1,,dnF escalares y A una matriz diagonal tal que [aii]=di. Los elementos pueden no ser distintos entre sí, así que escogemos una colección máxima di1,,dik de elementos distintos. Para cualquier polinomio P, tenemos que P(A) es simplemente la matriz diagonal con entradas P(di) (esto porque el producto An tiene como entradas a din). Entonces para que P(A)=0 se tiene que cumplir que P(di)=0, y para que esto pase es suficiente que P(dik)=0. Eso quiere decir que P tiene al menos a los dik como raíces, y entonces (Xdi1)(Xdi2)(Xdik) divide a P.

Nota como esto es suficiente: encontramos un polinomio mónico, (Xdi1)(Xdi2)(Xdik) que divide a cualquier P tal que P(A)=0. Así

μA(X)=(Xdi1)(Xdik).

Cambio de campos

En uno de los ejemplos argumentamos que el polinomio mínimo era X2+1 porque este es irreducible sobre R. Pero, ¿qué pasaría si cambiáramos nuestro campo a C? La situación puede ser incluso más delicada: a una matriz con entradas racionales la podemos considerar como una instancia particular de una matriz con entradas reales, que a su vez podemos considerar como una matriz compleja. ¿Hay tres polinomios mínimos distintos? El siguiente teorema nos da una respuesta tranquilizante.

Teorema. Sean F1F2 dos campos y AMn(F1) una matriz, entonces el polinomio mínimo de A vista como elemento de Mn(F1) y el polinomio mínimo de A vista como elemento de Mn(F2) son iguales.

Demostración. Sea μ1 el polinomio de AMn(F1) y μ2 el polinomio mínimo de AMn(F2). Puesto que F1[X]F2[X], se tiene que μ1F2[X] y además μ1(A)=0 por definición. Luego μ2 necesariamente divide a μ1. Sean d1=degμ1 y d2=degμ2, basta verificar que d2d1 y para que esto se cumpla basta con encontrar PF1[X] de grado a lo más d2 tal que P(A)=0 (entonces μ1 dividiría a este polinomio y se sigue la desigualdad).

Desarrollando que μ2(A)=0 en todas sus letras (o mejor dicho, en todos sus coeficientes) se tiene

a0In+a1A++ad2Ad2=On.

Esto es equivalente a tener n2 ecuaciones homogéneas en las variables a0,,ad2. Como A tiene entradas en F1 los coeficientes de estas ecuaciones todos pertenecen a F1. Tenemos un sistema de ecuaciones con coeficientes en F1 que tiene una solución no trivial en F2: tiene automáticamente una solución no trivial en F1 por un ejercicio de la entrada de Álgebra Lineal I de resolver sistemas de ecuaciones usando determinantes. Esto nos da el polinomio buscado.

◻

Mínimos puntuales

Ahora hablaremos (principalmente a través de problemas resueltos) de otro objeto muy parecido al polinomio mínimo: el polinomio mínimo puntual. Este es, esencialmente un «polinomio mínimo en un punto». Más específicamente si T:VV es lineal con polinomio mínimo μT y xV definimos

Ix={PF[X]P(T)(x)=0}.

Nota que la suma y diferencia de dos elementos en Ix también está en Ix.

Problema 1. Demuestra que existe un único polinomio mónico μxF[X] tal que Ix es el conjunto de múltiplos de μx en F[X]. Más aún, demuestra que μx divide a μT.

Solución. El caso x=0 se queda como ejercicio. Asumamos entonces que x0. Nota que μTIx puesto que μT(T)=0. Sea μx el polinomio mónico de menor grado en Ix. Demostraremos que Ix=μxF[X].

Primero si PμxF[X] entonces por definición P=μxQ para algún QF[X] y entonces

P(T)(x)=Q(T)(μx(T)(x))=Q(T)(0)=0.

Así PIx, y queda demostrado que μxF[X]Ix.

Conversamente, si PIx podemos usar el algoritmo de la división para llegar a una expresión de la forma P=Qμx+R para algunos polinomios Q,R con degR<degμx. Supongamos que R0. Similarmente a como procedimos antes, se cumple que R=PQμxIx dado que Ix es cerrado bajo sumas y diferencias. Dividiendo por el coeficiente principal de R, podemos asumir que R es mónico. Entonces R es un polinomio mónico de grado estrictamente menor que el grado de μx, una contradicción a nuestra suposición: μx es el polinomio de grado menor con esta propiedad. Luego R=0 y μx divide a P.

Así queda probado que si PIx entonces PμxF[X], lo que concluye la primera parte del problema. Para la segunda, vimos que μTIx y por tanto μx divide a μT.

◻

Problema 2. Sea Vx el subespacio generado por x,T(x),T2(x),. Demuestra que Vx es un subespacio de V de dimensión degμx, estable bajo T.

Solución. Es claro que Vx es un subespacio de V. Además, dado que T manda a generadores en generadores, también es estable bajo T. Sea d=degμx. Demostraremos que x,T(x),,Td1(x) forman una base de Vx, lo que concluiría el ejercicio.

Veamos que son linealmente independientes. Si a0x+a1T(x)+a2T2(x)++ad1Td1(x)=0 para algunos escalares ai no todos cero, entonces el polinomio

P=a0+a1X++ad1Xd1

es un elemento de Ix, pues P(T)(x)=0. Luego μx necesariamente divide a P, pero esto es imposible puesto que el grado de P es d1, estrictamente menor que el grado de μx. Luego los ai deben ser todos nulos, lo que muestra que x,T(x),T2(x),,Td1(x) es una colección linealmente independiente.

Sea W el espacio generado por x,T(x),,Td1(x). Afirmamos que W es invariante bajo T. Es claro que T(x)W, similarmente T(T(x))=T2(x)W y así sucesivamente. El único elemento «sospechoso» es Td1(x), para el cual basta verificar que T(Td1(x))=Td(x)W. Dado que μx(T)(x)=0 y μx es mónico de grado d, existen escalares bi (más precisamente, los coeficientes de μx) no todos cero tales que

Td(x)+bd1Td1(x)++b0x=0.

Esto nos muestra que podemos expresar a Td(x) en términos de x,T(x),,Td1(x) y por tanto Td(x) pertenece a W.

Ahora, dado que W es estable bajo T y contiene a x, se cumple que Tk(x)W para todo k0. En particular VxW. Luego Vx=W (la otra contención es clara) y x,T(x),,Td1(x) genera a W, o sea a Vx.

Mostramos entonces que x,T(x),,Td1(x) es una base para Vx y así dimVx=d.

◻

Unos ejercicios para terminar

Presentamos unos últimos ejercicios para calcular polinomios mínimos.

Problema 1. Calcula el polinomio mínimo de A donde

A=(010100001).

Solución. A estas alturas no tenemos muchas herramientas que usar. Comenzamos con calcular A2:

A2=(010100001)(010100001)=(100010001).

Entonces en particular A2=I3. Así, el polinomio mínimo μA tiene que dividir a X21. Este último se factoriza como (X1)(X+1), pero es claro que A no satisface ni AI3=0 ni A+I3=0. Entonces μA no puede dividir propiamente a X21, y por tanto tienen que ser iguales.

Problema 2. Calcula el polinomio mínimo de la matriz A con

A=(1201).

Solución. Nota como

AI2=(0200)

y es fácil verificar que el cuadrado de la matriz de la derecha es cero. Así (AI2)2=0, o sea, el polinomio P(X)=(X1)2 anula a A. Similarmente al problema anterior, μA tiene que dividir a P, pero P sólo tiene un factor: X1. Dado que A no satisface AI2=0 se tiene que μA no puede dividir propiamente a P, y entonces tienen que ser iguales. Luego μA=(X1)2=X22X+1.

Más adelante…

En las entradas subsecuentes repasaremos los eigenvalores y eigenvectores de una matriz, y (como mencionamos) ligaremos el polinomio característico de una matriz con su polinomio mínimo para entender mejor a ambos.

Tarea moral

Aquí unos ejercicios para practicar lo que vimos.

  1. Encuentra una matriz A cuyo polinomio mínimo sea X2. Para cada n, ¿puedes encontrar una matriz cuyo polinomio mínimo sea Xn?
  2. Encuentra una matriz A cuyo polinomio mínimo sea X21. Para cada n, ¿puedes encontrar una matriz cuyo polinomio mínimo sea Xn1?
  3. Encuentra el polinomio de la matriz A en Mn(F) cuyas entradas son todas 1.
  4. Si T:Mn(R)Mn(R) es la transformación que manda a cada matriz en su transpuesta, encuentra el polinomio mínimo de T.
  5. Sea V un espacio vectorial y x,y vectores linealmente independientes. Sea T:VV una transformación lineal. ¿Cómo son los polinomios P tales que P(T) se anula en todo el subespacio generado por x y y? ¿Cómo se relacionan con los polinomios mínimos puntuales de T para x y y?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»