Archivo de la etiqueta: transformaciones

Álgebra Lineal II: Polinomio mínimo de transformaciones lineales y matrices

Por Julio Sampietro

Introducción

Anteriormente definimos qué quiere decir evaluar un polinomio en una matriz o en una transformación lineal. En esta entrada definiremos uno de los objetos más importantes del álgebra lineal: el polinomio mínimo. Si bien al principio nos va a costar un poco calcularlo, esto se compensa por la cantidad de propiedades teóricas que cumple. Comenzaremos dando su definición, y mostrando su existencia y unicidad. Luego exploraremos algunas propiedades y veremos ejemplos, seguido de un pequeño teorema de cambio de campos. Finalmente introduciremos un objeto similar (el polinomio mínimo puntual) y haremos unos ejercicios para cerrar.

El concepto de polinomio mínimo podría resultarle familiar a los más algebraicos de mente: ¡todo se debe a que trabajamos con dominios de ideales principales, o incluso euclidianos! Si has trabajado anteriormente con conceptos como el mínimo común múltiplo en enteros, puede que varios de los argumentos de esta entrada te suenen conocidos.

Existencia y unicidad

Comenzamos con un espacio vectorial $V$ de dimensión $n$ sobre un campo $F$. Fijando una transformación lineal $T:V\to V$, queremos entender para qué polinomios se cumple que $P(T)=0$. Nota como podríamos haber cambiado la pregunta: si fijamos un polinomio $P$, podríamos buscar todas las transformaciones $T$ tales que $P(T)=0$. Ésta pregunta la estudiaremos más adelante.

Definimos el conjunto

\begin{align*}
I(T)=\lbrace P\in F[X]\mid P(T)=0\rbrace.
\end{align*}

El polinomio cero pertenece a $I(T)$ de manera trivial. Una cosa importante es que este conjunto $I(T)$ que vamos a estudiar en verdad es «interesante», en el sentido de que debemos ver que hay más polinomios adentro y no es únicamente el conjunto $\lbrace 0\rbrace$. Una manera de ver esto es sabiendo que el espacio de transformaciones lineales de $V$ en $V$ tiene dimensión $n^2$ (lo puedes pensar como el espacio de matrices). Entonces, las $n^2+1$ transformaciones $\operatorname{Id}, T, T^2, \dots, T^{n^2}$ no pueden ser todas linealmente independientes: uno de los corolarios del lema de Steinitz es que en un espacio de dimensión $n$ a lo más se pueden tener $n$ vectores linealmente independientes. Entonces existe una combinación lineal no trivial y nula

\begin{align*}
a_0 \operatorname{Id}+a_1 T+\dots + a_{n^2} T^{n^2}=0.
\end{align*}

Luego $a_0+a_1X+\dots+a_{n^2}X^{n^2}$ es un polinomio no cero tal que $P(T)=0$, es decir $P\in I(T)$.

Con el argumento de arriba vimos que $I(T)$ es «interesante» en el sentido de que tiene polinomios no cero. El siguiente teorema se puede entender como que $I(T)$ se puede describir muy fácilmente.

Teorema. Existe un único polinomio mónico, distinto de cero $\mu_T$ tal que $I(T)$ es precisamente el conjunto de múltiplos de $\mu_T$. Es decir

\begin{align*}
I(T)=\mu_T \cdot F[X]=\lbrace \mu_T \cdot P(X)\mid P(X)\in F[X]\rbrace.
\end{align*}

La demostración hará uso del algoritmo de la división para polinomios. Te lo compartimos aquí, sin demostración, por si no lo conoces o no lo recuerdas.

Teorema (algoritmo de la división en $\mathbb{F}[x]$). Sean $M(x)$ y $N(x)$ polinomios en $F[x]$, donde $N(x)$ no es el polinomio cero. Entonces, existen únicos polinomios $Q(x)$ y $R(x)$ en $F[x]$ tales que $$M(x)=Q(x)N(x)+R(x),$$ en donde $R(x)$ es el polinomio cero, o $\deg(R(x))<\deg(G(x))$.

Si te interesa saber cómo se demuestra, puedes seguir la teoría de polinomios disponible en la Unidad 4 del curso de Álgebra Superior II.

Demostración. Veamos primero que $I(T)$ es un subespacio de $F[X]$. Para ello, tomemos polinomios $P(x)$, $Q(x)$ en $I(T)$, y un escalar $\alpha\in F$. Una de las proposiciones de la entrada pasada nos permite abrir la expresión $(P+\alpha Q)(T)$ como $P(T)+\alphaQ(T)=0+\alpha\cdot 0 = 0$, de modo que $P+\alpha Q$ está en $I(T)$ y por lo tanto $I(T)$ es un subespacio de $F[X]$.

Por otro lado si $P\in I(T)$ y $Q\in F[X]$ entonces

\begin{align*}
(PQ)(T)= P(T)\circ Q(T)=0\circ Q(T)=0.
\end{align*}

Lo que discutimos antes de enunciar el teorema nos dice que $I(T)\neq\{0\}$. Tomemos entonces $P\in I(T)$ un polinomio no cero de grado mínimo. Podemos suponer sin perdida de generalidad que $P$ es mónico, de no serlo, podemos dividir a $P$ por su coeficiente principal sin cambiar el grado.

La ecuación previa nos indica que todos los múltiplos polinomiales de $P$ también están en $I(T)$. Veamos que todo elemento de $I(T)$ es de hecho un múltiplo de $P$. Si $S\in I(T)$, usamos el algoritmo de la división polinomial para escribir $S=QP+R$ con $Q,R\in F[X]$. Aquí hay dos casos: que $R$ sea el polinomio cero, o bien que no lo sea y entonces $\deg R <\deg P$. Nota que $R=S-QP\in I(T)$ dado que $I(T)$ es un subespacio de $F[X]$ y $S,QP\in I(T)$. Si $R\neq 0$, entonces como $\deg R<\deg P$ llegamos a una contradicción de la minimalidad del grado de $P$. Luego $R=0$ y por tanto $S=QP$. Entonces $I(T)$ es precisamente el conjunto de todos los múltiplos de $P$ y así podemos tomar $\mu_T=P$.

Para verificar la unicidad de $\mu_T$, si otro polinomio $S$ tuviera las mismas propiedades, entonces $S$ dividiría a $\mu_T$ y $\mu_T$ dividiría a $S$. Sin embargo, como ambos son mónicos se sigue que deben ser iguales: en efecto, si $\mu_T=S\cdot Q$ y $S=\mu_T \cdot R$ entonces $\deg Q=\deg R=0$, porlo tanto son constantes, y como el coeficiente principal de ambos es $1$, se sigue que ambos son la constante $1$ y así $\mu_T=S$. Esto completa la demostración.

$\square$

Definición. Al polinomio $\mu_T$ se le conoce como el polinomio mínimo de $T$.

Primeras propiedades y ejemplos

Debido a su importancia, recalcamos las propiedades esenciales del polinomio mínimo $\mu_T$:

  • Es mónico.
  • Cumple $\mu_T(T)=0$.
  • Para cualquier otro polinomio $P\in F[X]$, sucede que $P(T)=0$ si y sólo si $\mu_T$ divide a $P$.

Toda la teoría que hemos trabajado hasta ahora se traduce directamente a matrices usando exactamente los mismos argumentos. Lo enunciamos de todas maneras: si $A\in M_n(F)$ es una matriz cuadrada, entonces existe un único polinomio $\mu_A\in F[X]$ con las siguientes propiedades:

  • Es mónico.
  • Cumple $\mu_A(A)=O_n$.
  • Si $P\in F[X]$, entonces $P(A)=O_n$ si y sólo si $\mu_A$ divide a $P$.

Como jerga, a veces diremos que un polinomio «anula $T$» si $P(T)=0$. En este sentido los polinomios que anulan a $T$ son precisamente los múltiplos de $\mu_T$.

Vimos antes de enunciar el teorema que podemos encontrar un polinomio $P$ no cero de grado menor o igual a $n^2$ tal que $P(T)=0$. Como $\mu_T$ divide a $P$ se sigue que $\deg \mu_T\leq n^2$. Esta cota resulta ser débil, y de hecho un objeto que hemos estudiado previamente nos ayudará a mejorarla: el polinomio característico. Este también va a anular a $T$ y con ello obtendremos una mejor cota: $\deg \mu_T\leq n$.

Ejemplo 1. Si $A=O_n$, entonces $\mu_A=X$. En efecto, $\mu_A(A)=0$ y además es el polinomio de menor grado que cumple esto, pues ningún polinomio constante y no cero anula a $O_n$ (¿por qué?). Nota como además $I(A)$ es precisamente el conjunto de polinomios sin término constante.

$\triangle$

Ejemplo 2. Considera la matriz $A\in M_2(\mathbb{R})$ dada por

\begin{align*}
A= \begin{pmatrix}
0 & -1\\
1 & 0
\end{pmatrix}.
\end{align*}

Nos proponemos calcular $\mu_A$. Nota que $A$ satisface $A^2=-I_2$. Por tanto el polinomio $P(X)=X^2+1$ cumple $P(A)=0$. Así, $\mu_A$ tiene que dividir a este polinomio ¡pero este es irreducible sobre los números reales! En efecto, si existiese un factor propio de $P$ sobre $\mathbb{R}$, tendríamos que la ecuación $X^2=-1$ tiene solución, y sabemos que este no es el caso. Entonces $\mu_A$ tiene que ser $X^2+1$.

$\triangle$

Ejemplo 3. Sean $d_1,\dots, d_n\in F$ escalares y $A$ una matriz diagonal tal que $[a_{ii}]=d_i$. Los elementos pueden no ser distintos entre sí, así que escogemos una colección máxima $d_{i_1},\dots, d_{i_k}$ de elementos distintos. Para cualquier polinomio $P$, tenemos que $P(A)$ es simplemente la matriz diagonal con entradas $P(d_i)$ (esto porque el producto $A^n$ tiene como entradas a $d_i^n$). Entonces para que $P(A)=0$ se tiene que cumplir que $P(d_i)=0$, y para que esto pase es suficiente que $P(d_{i_k})=0$. Eso quiere decir que $P$ tiene al menos a los $d_{i_k}$ como raíces, y entonces $(X-d_{i_1})(X-d_{i_2})\cdots (X-d_{i_k})$ divide a $P$.

Nota como esto es suficiente: encontramos un polinomio mónico, $(X-d_{i_1})(X-d_{i_2})\cdots (X-d_{i_k})$ que divide a cualquier $P$ tal que $P(A)=0$. Así

\begin{align*}
\mu_A(X)=(X-d_{i_1})\cdots (X-d_{i_k}).
\end{align*}

$\triangle$

Cambio de campos

En uno de los ejemplos argumentamos que el polinomio mínimo era $X^2+1$ porque este es irreducible sobre $\mathbb{R}$. Pero, ¿qué pasaría si cambiáramos nuestro campo a $\mathbb{C}$? La situación puede ser incluso más delicada: a una matriz con entradas racionales la podemos considerar como una instancia particular de una matriz con entradas reales, que a su vez podemos considerar como una matriz compleja. ¿Hay tres polinomios mínimos distintos? El siguiente teorema nos da una respuesta tranquilizante.

Teorema. Sean $F_1\subset F_2$ dos campos y $A\in M_n(F_1)$ una matriz, entonces el polinomio mínimo de $A$ vista como elemento de $M_n(F_1)$ y el polinomio mínimo de $A$ vista como elemento de $M_n(F_2)$ son iguales.

Demostración. Sea $\mu_1$ el polinomio de $A\in M_n(F_1)$ y $\mu_2$ el polinomio mínimo de $A\in M_n(F_2)$. Puesto que $F_1[X]\subset F_2[X]$, se tiene que $\mu_1\in F_2[X]$ y además $\mu_1(A)=0$ por definición. Luego $\mu_2$ necesariamente divide a $\mu_1$. Sean $d_1=\deg \mu_1$ y $d_2=\deg \mu_2$, basta verificar que $d_2\geq d_1$ y para que esto se cumpla basta con encontrar $P\in F_1[X]$ de grado a lo más $d_2$ tal que $P(A)=0$ (entonces $\mu_1$ dividiría a este polinomio y se sigue la desigualdad).

Desarrollando que $\mu_2(A)=0$ en todas sus letras (o mejor dicho, en todos sus coeficientes) se tiene

\begin{align*}
a_0 I_n+ a_1 A+\dots + a_{d_2} A^{d_2}=O_n.
\end{align*}

Esto es equivalente a tener $n^2$ ecuaciones homogéneas en las variables $a_0,\dots, a_{d_2}$. Como $A$ tiene entradas en $F_1$ los coeficientes de estas ecuaciones todos pertenecen a $F_1$. Tenemos un sistema de ecuaciones con coeficientes en $F_1$ que tiene una solución no trivial en $F_2$: tiene automáticamente una solución no trivial en $F_1$ por un ejercicio de la entrada de Álgebra Lineal I de resolver sistemas de ecuaciones usando determinantes. Esto nos da el polinomio buscado.

$\square$

Mínimos puntuales

Ahora hablaremos (principalmente a través de problemas resueltos) de otro objeto muy parecido al polinomio mínimo: el polinomio mínimo puntual. Este es, esencialmente un «polinomio mínimo en un punto». Más específicamente si $T:V\to V$ es lineal con polinomio mínimo $\mu_T$ y $x\in V$ definimos

\begin{align*}
I_x=\lbrace P\in F[X]\mid P(T)(x)=0\rbrace.
\end{align*}

Nota que la suma y diferencia de dos elementos en $I_x$ también está en $I_x$.

Problema 1. Demuestra que existe un único polinomio mónico $\mu_x\in F[X]$ tal que $I_x$ es el conjunto de múltiplos de $\mu_x$ en $F[X]$. Más aún, demuestra que $\mu_x$ divide a $\mu_T$.

Solución. El caso $x=0$ se queda como ejercicio. Asumamos entonces que $x\neq 0$. Nota que $\mu_T\in I_x$ puesto que $\mu_T(T)=0$. Sea $\mu_x$ el polinomio mónico de menor grado en $I_x$. Demostraremos que $I_x=\mu_x\cdot F[X]$.

Primero si $P\in \mu_x \cdot F[X]$ entonces por definición $P=\mu_x Q$ para algún $Q\in F[X]$ y entonces

\begin{align*}
P(T)(x)=Q(T)(\mu_x(T)(x))=Q(T)(0)=0.
\end{align*}

Así $P\in I_x$, y queda demostrado que $\mu_x \cdot F[X]\subset I_x$.

Conversamente, si $P\in I_x$ podemos usar el algoritmo de la división para llegar a una expresión de la forma $P=Q\mu_x+R$ para algunos polinomios $Q,R$ con $\deg R<\deg \mu_x$. Supongamos que $R\neq 0$. Similarmente a como procedimos antes, se cumple que $R= P-Q\mu_x\in I_x$ dado que $I_x$ es cerrado bajo sumas y diferencias. Dividiendo por el coeficiente principal de $R$, podemos asumir que $R$ es mónico. Entonces $R$ es un polinomio mónico de grado estrictamente menor que el grado de $\mu_x$, una contradicción a nuestra suposición: $\mu_x$ es el polinomio de grado menor con esta propiedad. Luego $R=0$ y $\mu_x$ divide a $P$.

Así queda probado que si $P\in I_x$ entonces $P\in \mu_x\cdot F[X]$, lo que concluye la primera parte del problema. Para la segunda, vimos que $\mu_T\in I_x$ y por tanto $\mu_x$ divide a $\mu_T$.

$\square$

Problema 2. Sea $V_x$ el subespacio generado por $x, T(x), T^2(x), \dots$. Demuestra que $V_x$ es un subespacio de $V$ de dimensión $\deg \mu_x$, estable bajo $T$.

Solución. Es claro que $V_x$ es un subespacio de $V$. Además, dado que $T$ manda a generadores en generadores, también es estable bajo $T$. Sea $d=\deg\mu_x$. Demostraremos que $x, T(x),\dots, T^{d-1}(x)$ forman una base de $V_x$, lo que concluiría el ejercicio.

Veamos que son linealmente independientes. Si $$a_0x+a_1T(x)+a_2T^2(x)+\dots+a_{d-1}T^{d-1}(x)=0$$ para algunos escalares $a_i$ no todos cero, entonces el polinomio

\begin{align*}
P=a_0+a_1X+\dots+a_{d-1}X^{d-1}
\end{align*}

es un elemento de $I_x$, pues $P(T)(x)=0$. Luego $\mu_x$ necesariamente divide a $P$, pero esto es imposible puesto que el grado de $P$ es $d-1$, estrictamente menor que el grado de $\mu_x$. Luego los $a_i$ deben ser todos nulos, lo que muestra que $x,T(x),T^2(x),\dots,T^{d-1}(x)$ es una colección linealmente independiente.

Sea $W$ el espacio generado por $x,T(x),\dots, T^{d-1}(x)$. Afirmamos que $W$ es invariante bajo $T$. Es claro que $T(x)\in W$, similarmente $T(T(x))=T^2(x)\in W$ y así sucesivamente. El único elemento «sospechoso» es $T^{d-1}(x)$, para el cual basta verificar que $T(T^{d-1}(x))=T^d(x)\in W$. Dado que $\mu_x(T)(x)=0$ y $\mu_x$ es mónico de grado $d$, existen escalares $b_i$ (más precisamente, los coeficientes de $\mu_x$) no todos cero tales que

\begin{align*}
T^{d}(x)+b_{d-1}T^{d-1}(x)+\dots+b_0 x=0.
\end{align*}

Esto nos muestra que podemos expresar a $T^d(x)$ en términos de $x, T(x),\dots, T^{d-1}(x)$ y por tanto $T^d(x)$ pertenece a $W$.

Ahora, dado que $W$ es estable bajo $T$ y contiene a $x$, se cumple que $T^{k}(x)\in W$ para todo $k\geq 0$. En particular $V_x\leq W$. Luego $V_x=W$ (la otra contención es clara) y $x,T(x),\dots, T^{d-1}(x)$ genera a $W$, o sea a $V_x$.

Mostramos entonces que $x,T(x),\dots, T^{d-1}(x)$ es una base para $V_x$ y así $\dim V_x=d$.

$\square$

Unos ejercicios para terminar

Presentamos unos últimos ejercicios para calcular polinomios mínimos.

Problema 1. Calcula el polinomio mínimo de $A$ donde

\begin{align*}
A= \begin{pmatrix}
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\end{pmatrix}.
\end{align*}

Solución. A estas alturas no tenemos muchas herramientas que usar. Comenzamos con calcular $A^2$:

\begin{align*}
A^2= \begin{pmatrix}
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\end{pmatrix}\cdot \begin{pmatrix}
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0\\ 0 &1 & 0 \\ 0 & 0 & 1\end{pmatrix}.
\end{align*}

Entonces en particular $A^2=I_3$. Así, el polinomio mínimo $\mu_A$ tiene que dividir a $X^2-1$. Este último se factoriza como $(X-1)(X+1)$, pero es claro que $A$ no satisface ni $A-I_3=0$ ni $A+I_3=0$. Entonces $\mu_A$ no puede dividir propiamente a $X^2-1$, y por tanto tienen que ser iguales.

$\triangle$

Problema 2. Calcula el polinomio mínimo de la matriz $A$ con

\begin{align*}
A=\begin{pmatrix}
1 & 2\\
0 & 1
\end{pmatrix}.
\end{align*}

Solución. Nota como

\begin{align*}
A-I_2=\begin{pmatrix} 0 & 2\\ 0 & 0\end{pmatrix}
\end{align*}

y es fácil verificar que el cuadrado de la matriz de la derecha es cero. Así $(A-I_2)^2=0$, o sea, el polinomio $P(X)=(X-1)^2$ anula a $A$. Similarmente al problema anterior, $\mu_A$ tiene que dividir a $P$, pero $P$ sólo tiene un factor: $X-1$. Dado que $A$ no satisface $A-I_2=0$ se tiene que $\mu_A$ no puede dividir propiamente a $P$, y entonces tienen que ser iguales. Luego $\mu_A=(X-1)^2=X^2-2X+1$.

$\triangle$

Más adelante…

En las entradas subsecuentes repasaremos los eigenvalores y eigenvectores de una matriz, y (como mencionamos) ligaremos el polinomio característico de una matriz con su polinomio mínimo para entender mejor a ambos.

Tarea moral

Aquí unos ejercicios para practicar lo que vimos.

  1. Encuentra una matriz $A$ cuyo polinomio mínimo sea $X^2$. Para cada $n$, ¿puedes encontrar una matriz cuyo polinomio mínimo sea $X^n$?
  2. Encuentra una matriz $A$ cuyo polinomio mínimo sea $X^2-1$. Para cada $n$, ¿puedes encontrar una matriz cuyo polinomio mínimo sea $X^n-1$?
  3. Encuentra el polinomio de la matriz $A$ en $M_n(F)$ cuyas entradas son todas $1$.
  4. Si $T:M_n(\mathbb{R})\to M_n(\mathbb{R})$ es la transformación que manda a cada matriz en su transpuesta, encuentra el polinomio mínimo de $T$.
  5. Sea $V$ un espacio vectorial y $x,y$ vectores linealmente independientes. Sea $T:V\to V$ una transformación lineal. ¿Cómo son los polinomios $P$ tales que $P(T)$ se anula en todo el subespacio generado por $x$ y $y$? ¿Cómo se relacionan con los polinomios mínimos puntuales de $T$ para $x$ y $y$?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Aplicar polinomios a transformaciones lineales y matrices

Por Julio Sampietro

Introducción

Varios de los resultados fundamentales de Álgebra Lineal se obtienen al combinar las idea de transformaciones lineales con la de polinomios. El objetivo de esta entrada es introducir el concepto de «aplicar polinomios a matrices» o equivalentemente «aplicar polinomios a transformaciones lineales». La idea fundamental es simple: las potencias en los polinomios se convierten en repetidas aplicaciones de la transformación y las constantes en múltiplos de la identidad. Si bien esta idea es simple, más adelante veremos aplicaciones importantes y con un gran alcance. Uno de los resultados cruciales que surge de esta idea es el conocido teorema de Cayley-Hamilton.

Primeras construcciones

Sea $V$ un espacio vectorial sobre un campo $F$, y sea $T:V\to V$ una transformación lineal. Definimos a la transformación $T^n:V\to V$ para cualquier $n\in \mathbb{N}$ inductivamente a través de

\begin{align*}
T^0=\operatorname{Id}, \hspace{5mm} T^{i+1}= T\circ T^{i},
\end{align*}

donde, recordamos, $\operatorname{Id}$ es la transformación identidad. Intuitivamente, $T^n$ es la «$n$-ésima composición» de $T$. Por ejemplo, $T^3(v)$ no es más que $T(T(T(v)))$ y $T^0(v)$ es simplemente «no usar $T$ para nada», es decir, $\operatorname{Id}(v)=v$. Al componer iteradamente $T$, sigue siendo una transformación lineal de $V$ a $V$, así que $T^n$ es transformación lineal de $V$ a $V$ para todo entero $n\geq 0$.

Ya que hablamos de «potencias» de una transformación lineal, podemos rápidamente hacer sentido de un «polinomio evaluado en una transformación lineal». Si $$P(X)=a_0+a_1X+a_2X^2+\dots + a_n X^n\in F[X]$$ es un polinomio, definimos $P(T):V\to V$ como

\begin{align*}
P(T):= a_0 T^{0}+ a_1 T^1+ a_2 T^2+\dots +a_n T^n.
\end{align*}

Como las transformaciones lineales de $V$ a $V$ son cerradas bajo combinaciones lineales, entonces $P(T)$ también es una transformación lineal de $V$ a $V$.

Ejemplo. Tomemos a la transformación $T:\mathbb{R}^2\to \mathbb{R}^2$ dada por $T(x,y)=(2x-2y,x+y)$. Tomemos al polinomio $P(x)=x^3-2x+4$. ¿Quién es la transformación $P(T)$? Calculemos primero las «potencias» de $T$:

\begin{align*}
T^0(x,y)&=(x,y)\\
T^1(x,y)&=T(x,y)\\
&=(2x-2y,x+y)\\
T^2(x,y)&=T(T(x,y))\\
&=T(2x-2y,x+y)\\
&=(2(2x-2y)-2(x+y),(2x-2y)+(x+y))\\
&=(2x-6y,3x-y)\\
T^3(x,y)&=T(2x-6y,3x-y)\\
&=(-2x-10y,5x-7y).
\end{align*}

Ahora sí, ya podemos saber qué hace $P(T)$. Tenemos:

\begin{align*}
P(T)(x,y)&=(T^3-2T+4\text{Id})(x,y)\\
&=(-2x-10y,5x-7y)-2(2x-2y,x+y)+4(x,y)\\
&=(-2x-6y,3x-5y).
\end{align*}

$\triangle$

Sumas y productos de polinomios

Las operaciones suma y producto de polinomios se traducen, respectivamente, a suma y composición de las evaluaciones en transformaciones lineales. Esta es una linda propiedad que podemos hacer precisa gracias a la siguiente proposición.

Proposición. Si $P_1, P_2\in F[X]$ son dos polinomios y $T:V\to V$ es una transformación lineal, entonces

  1. $ (P_1+P_2)(T)=P_1(T)+P_2(T)$,
  2. $(P_1P_2)(T)=P_1(T)\circ P_2(T)$.

Te invitamos a demostrar esta proposición. Advertimos que, sin embargo, no se cumplen identidades como $$P(T_1+T_2)=P(T_1)+P(T_2)$$ o bien $$P(T_1\circ T_2)=P(T_1)\circ P(T_2).$$ Un contraejemplo para la primera identidad podría ser tomar$P(X)=X^2$ y $T_1=T_2=\operatorname{Id}$. En este caso

\begin{align*}
P(T_1+T_2)&=(T_1+T_2)^2\\&= 4\operatorname{Id}\\&\neq 2\operatorname{Id}\\&=P(T_1)+P(T_2).
\end{align*}

Dejamos como ejercicio el verificar que la segunda identidad tampoco es cierta en general. Fijando $T$, podemos juntar a todas las transformaciones de la forma $P(T)$ para algún $P$ en la siguiente estructura.

Definición. La $F$-álgebra generada por la transformación $T$ es el conjunto

\begin{align*}
F[T]=\lbrace P(T)\mid P\in F[X]\rbrace.
\end{align*}

Una consecuencia de la proposición anterior (es más, ¡una mera traducción!) es la siguiente.

Proposición. Para cualesquiera $x,y\in F[T]$ y $c\in F$ se cumple que $x+cy\in F[T]$ y $x\circ y\in F[T].$ Es decir, $F[T]$ es un subespacio del espacio de todas las transformaciones lineales de $V$ en $V$ que además es estable bajo composición.

También puedes verificar que $F[T]$ es el subespacio más chico (en el sentido de contención) del espacio de transformaciones lineales en $V$ que contiene a $T$, a $\operatorname{Id}$ y que es cerrado bajo composiciones.

Lo mismo pero con matrices

Desde Álgebra Lineal I sabemos que una transformación lineal se corresponde de manera biunívoca (fijando una base) con una matriz. Nuestra discusión previa se puede adaptar a este vocabulario, y eso es lo que haremos ahora.

Si $A\in M_n(F)$ es una matriz cuadrada de orden $n$ con coeficientes en $F$, podemos entender a $A^n$ simplemente como el $n$-ésimo producto de $A$ consigo misma. Luego si $$P(X)=a_0+a_1X+a_2 X^2+\dots +a_n X^n\in F[X]$$ es un polinomio, definimos

\begin{align*}
P(A):= a_0 I_n +a_1 A+ a_2 A^2+\dots+ a_n A^n.
\end{align*}

Se cumple que $(PQ)(A)=P(A)\cdot Q(A)$ para cualesquiera polinomios $P,Q$ y cualquier matriz $A$. Similarmente el álgebra generada por $A$ se define como

\begin{align*}
F[A]=\lbrace P(A)\mid P\in F[X]\rbrace,
\end{align*}

y es un subespacio de $M_n(F)$ que es cerrado bajo producto de matrices.

Ejemplo. Consideremos la matriz $A=\begin{pmatrix}2&-2\\1&1\end{pmatrix}$. Consideremos el polinomio $P(x)=x^3-2x+4$. ¿Quién es la matriz $P(A)$? Usando la definición, primero nos enfocaremos en encontrar las potencias de $A$. Puedes verificar por tu cuenta que:

\begin{align*}
A^0&=\begin{pmatrix}1&0\\0&1\end{pmatrix}\\
A^1&=\begin{pmatrix}2&-2\\1&1\end{pmatrix}\\
A^2&=\begin{pmatrix}2&-6\\3&-1\end{pmatrix}\\
A^3&=\begin{pmatrix}-2&-10\\5&-7\end{pmatrix}
\end{align*}

De esta manera,

\begin{align*}
P(A)&=A^3-2A+4I_2\\
&=\begin{pmatrix}-2&-10\\5&-7\end{pmatrix} – 2 \begin{pmatrix}2&-2\\1&1\end{pmatrix} + 4 \begin{pmatrix}1&0\\0&1\end{pmatrix}\\
&=\begin{pmatrix}-2&-6 \\ 3 & -5 \end{pmatrix}.
\end{align*}

$\triangle$

Este ejemplo se parece mucho al ejemplo que hicimos cuando evaluamos un polinomio en una transformación $T$. Esto no es casualidad, y se puede resumir en la siguiente observación.

Observación. Si $A$ es la matriz asociada a $T$ en alguna base, entonces $P(A)$ es la matriz asociada a $P(T)$ en dicha base.

Unos problemas para calentar

A continuación veremos algunos unos cuantos problemas resueltos para que te familiarices con los conceptos que acabamos de ver de manera un poco más teórica.

Problema 1.

  1. Si $A,B\in M_n(F)$ son matrices con $B$ invertible, demuestra que para cualquier $P\in F[X]$ se cumple
    \begin{align*}
    P(BAB^{-1})=BP(A)B^{-1}.
    \end{align*}
  2. Demuestra que si $A,B\in M_n(F)$ son similares, entonces $P(A)$ y $P(B)$ son similares para cualquier $P\in F[X]$.

Solución.

  1. Primero supongamos que $P(X)=X^k$ para alguna $k\geq 1$. Necesitamos demostrar que $\left(BAB^{-1}\right)^{k}= BA^{k}B^{-1}$, y esto lo podemos verificar sencillamente pues
    \begin{align*}
    (BAB^{-1})\cdot (BAB^{-1})\cdots (BAB^{-1})&= BA(B^{-1} B) A \cdots (B^{-1}B)AB^{-1}\\
    &= BA^{k}B^{-1},
    \end{align*}
    donde usamos que $BB^{-1}=I_n$. Más generalmente, si $P(X)=a_0+a_1 X+a_2X^2+\dots +a_n X^n$ entonces
    \begin{align*}
    P(BAB^{-1})&= \sum_{i=0}^{n} a_i (BAB^{-1})^{i}\\
    &= \sum_{i=0}^{n}a_i BA^{i}B^{-1}\\
    &= B\left(\sum_{i=0}^{n} a_i A^{i}\right)B^{-1}\\
    &= BP(A)B^{-1}
    \end{align*}
    que es lo que queríamos demostrar.
  2. Como $A$ y $B$ son similares, existe $C$ invertible tal que $A=CBC^{-1}$. Por el inciso anterior tenemos
    \begin{align*}
    P(A)=P(CBC^{-1})=CP(B)C^{-1}.
    \end{align*}
    Así, $P(A)$ y $P(B)$ son similares.

$\square$

Problema 2. Considera la matriz

\begin{align*}
A=\begin{pmatrix}
0 & 1 & -1\\
-2 & 0 & 3\\
0 & 0 & 4
\end{pmatrix}
\end{align*}

así como el polinomio $P(X)=X^2+2X-1$. Calcula $P(A)$.

Solución. Es cuestión de hacer los cálculos. Vemos que

\begin{align*}
A^2= \begin{pmatrix}
-2 & 0 & -1\\
0 & -2 & 14\\
0 & 0 & 16
\end{pmatrix}
\end{align*}

y así

\begin{align*}
P(A)&=A^2+2A-I_3\\&=\begin{pmatrix}
-2 & 0 & -1\\
0 & -2 & 14\\
0 & 0 & 16
\end{pmatrix} + 2\begin{pmatrix}
0 & 1 & -1\\
-2 & 0 & 3\\
0 & 0 & 4
\end{pmatrix} -\begin{pmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1
\end{pmatrix}\\
&=\begin{pmatrix}
-3 & 2 & -3\\
-4 & -3 & 20\\
0 & 0 & 23
\end{pmatrix}.
\end{align*}

$\triangle$

Problema 3. Si $A$ es simétrica, demuestra que $P(A)$ es simétrica para cualquier polinomio $P$.

Solución. La demostración se basa en los siguientes hechos:

  1. Si $A=(a_{ij})$ y $B=(b_{ij})$ son matrices simétricas y $c\in F$ es un escalar, entonces $A+cB$ es simétrica, puesto que
    \begin{align*}
    (A+cB)_{ij}= a_{ij}+cb_{ij}= a_{ji}+cb_{ji}= (A+cB)_{ji}.
    \end{align*}
  2. Si $A,B$ son simétricas, su producto es una matriz simétrica. De nuevo, basta con hacer el cálculo
    \begin{align*}
    (AB)_{ij}=\sum_{k=1}^{n} a_{ik}b_{kj}=\sum_{k=1}^{n} b_{jk}a_{ki}= (AB)_{ji} .
    \end{align*}
  3. Usando el inciso anterior, se sigue que si $A$ es simétrica, entonces $A^{k}$ es simétrica para toda $k\geq 1$. Además, $I_n$ es simétrica y por el primer punto tenemos que toda combinación lineal de matrices simétricas es simétrica. En particular $P(A)$ es simétrica.

$\square$

Problema 4. Sea $V$ el espacio vectorial de todas las funciones $f:\mathbb{R}\to \mathbb{R}$ infinitamente diferenciables. Sea $T:V\to V$ dada por $T:f\mapsto f’$. ¿Puedes encontrar un polinomio $P\in \mathbb{R}(X)$ distinto de cero tal que $P(T)=0$?

Solución. No es posible encontrar dicho polinomio. Suponiendo que sí, tendríamos que $P(T)$ es una ecuación diferencial polinomial de orden $n$, es decir, a cada función la evaluamos en una combinación

\begin{align*}
a_0f+a_1f’+a_2f»+\dots + a_n f^{n}
\end{align*}

donde $f^n$ es la $n$-ésima derivada. Si $P(T)$ es idénticamente cero, tenemos que toda función suave $f$ satisface esta ecuación. En particular tenemos que la constante $g(x)=1$ la satisface. Así $g’=g»=\dots=g^{n}=0$ y entonces

\begin{align*}
P(T)(g)= a_0 g+a_1g+\dots +a_ng^{n}=a_0=0.
\end{align*}

Concluimos que $a_0=0$. Luego, si consideramos a la función identidad $h(x)=x$ entonces también se tiene que cumplir la ecuación (recordamos que ya eliminamos el término $a_0$). Así

\begin{align*}
P(T)(h)= a_1h’+a_2h»+\dots +a_nh^{n}= a_1=0,
\end{align*}

donde usamos que $h'(x)=1$ y todas las derivadas de orden superior son cero. Continuando con este proceso (evaluando en $x^2,x^3,\ldots$) llegamos a que todos los coeficientes $a_i$ son cero. Esto quiere decir que el polinomio era nulo en primer lugar.

$\triangle$

Más adelante…

En entradas subsecuentes estudiaremos polinomios de matrices con propiedades especiales, como por ejemplo el polinomio mínimo, que se distinguen por sus deseables propiedades algebraicas. Este es el primer paso hacia el teorema de Cayley-Hamilton.

Tarea moral

Aquí hay unos ejercicios para que practiques lo visto en esta entrada.

  1. Compara el ejemplo que se dio de evaluar un polinomio en una transformación $T$ con el de evaluar un polinomio en una matriz $A$. ¿Por qué se parecen tanto?
  2. Considera $V$ el espacio vectorial de funciones $C^\infty$ en el intervalo $[0,2\pi]$ y $D:V\to V$ a la transformación que manda una función a su derivada, es decir $D(f)=f’$. Encuentra un polinomio $P$ tal que $P(D)(\sin(x)+\cos(x))$ sea la función cero.
  3. Demuestra que si $A$ es una matriz diagonal, $P(A)$ también es diagonal.
  4. Si
    \begin{align*}
    A=\begin{pmatrix}
    1 & 2\\
    0 &-1\end{pmatrix}
    \end{align*}
    y $P(X)=X^3-X^2+X-1$, calcula $P(A)$.
  5. Generaliza el último problema de la entrada como sigue: Si $V$ es un espacio vectorial y $T:V\to V$ es tal que existen elementos $v_i$ con $i\in \mathbb{N}$ que cumplen $T^{i}(v_i)\neq 0$ y $T^{j}(v_i)=0$ para $j>i$, entonces no existe $P$ no nulo tal que $P(T)$ sea cero.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Introducción al curso

Por Leonardo Ignacio Martínez Sandoval

Introducción

En esta serie de entradas continuaremos platicando acerca de álgebra lineal. Son una continuación a las entradas de Álgebra Lineal I que también se encuentran disponibles en el blog. En el transcurso de ellas, cubriremos los temas que establece el temario de la materia Álgebra Lineal II de la Licenciatura en Matemáticas de la UNAM.

Primero comenzaremos dando un pequeño repaso de lo que se ha visto en Álgebra Lineal I y después daremos un pequeño panorama de lo que se cubrirá en este curso.

Algunos recordatorios de Álgebra Lineal I

En el primer curso de álgebra lineal se establecieron muchos fundamentos del área, relacionados con espacios vectoriales, transformaciones lineales, matrices y más. A continuación damos un breve recordatorio de cada unidad temática. Usaremos letras cursivas para mencionar términos que ya deberías conocer. Si algunos de ellos no los recuerdas. Usaremos letras negritas para hacer énfasis en resultados fundamentales del primer curso, que es muy importante que recuerdes qué dicen y cómo se usan. Todo esto lo puedes encontrar en las notas anteriores.

En la primer parte de ese curso, recordamos las definiciones básicas de vector, matriz y transformación lineal, pero únicamente nos enfocamos en un espacio vectorial muy sencillo: $F^n$, que consiste de todos los vectores con $n$ entradas en un campo $F$. Se definieron operaciones de suma y producto escalar en este espacio. También hablamos de cómo multiplicar matrices. Esto fue suficiente para plantear la idea de resolver sistemas de ecuaciones lineales. Primero estudiamos los sistemas de ecuaciones lineales homogéneos, pues de acuerdo al principio de superposición, esto es suficiente. Luego, vimos el algoritmo de reducción gaussiana, que nos permite llevar cualquier matriz a su forma escalonada reducida. Esto resulta fundamental para calcular todo tipo de cosas en álgebra lineal: resolver sistemas de ecuaciones, invertir matrices, encontrar determinantes, encontrar espacios generados, etc.

En la segunda parte introdujimos el concepto de espacio vectorial en general. Hablamos de $F^n$, pero también del espacio de matrices $M_{m,n}(F)$, del espacio de polinomios $F[x]$, de los espacios de polinomios de grado a lo más $n$, $F_n[x]$, y de algunos otros como los de funciones con ciertas propiedades (continuas, diferenciables, limitadas a un intervalo, acotadas, etc.) A partir de las nociones de combinación lineal, independencia lineal y generadores, desarrollamos la teoría de dimensión. Un resultado crucial en dimensión finita es el lema de Steinitz. Tras hablar de un espacio vectorial, comenzamos a hablar de «funciones bonitas» entre ellos. Las primeras que tratamos fueron las transformaciones lineales. Un resultado crucial es que, en dimensión finita y tras elegir una base cada transformación lineal corresponde a una matriz y viceversa. Como bases distintas dan matrices distintas, fue necesario discutir qué sucede al cambiar de base, por lo que se introdujeron matrices de cambio de base. Otro resultado crucial es el teorema rango-nulidad.

La tercera parte fue mucho más geométrica. En ella hablamos de las formas lineales y de las formas bilineales. A partir de las formas lineales construimos a los espacios duales y desarrollamos la teoría de dualidad. Definimos el concepto de hiperplano. Una de las principales aplicaciones de la teoría de dualidad fue mostrar que en dimensión finita todo subespacio es intersección de hiperplanos. En el caso de formas bilineales, nos enfocamos mucho más en aquellas que van a $\mathbb{R}$. A partir de ellas definimos formas cuadráticas. Estudiamos el caso muy especial de espacios euclideanos, que son, a grandes rasgos espacios vectoriales reales con una forma bilineal «bonita». En este tipo de espacios se puede hablar de normas, distancias y ángulos. Los resultados cruciales fueron la desigualdad de Cauchy-Schwarz y la existencia de bases ortonormales. Para encontrarlas, hablamos del proceso de Gram-Schmidt.

Finalmente, vino la unidad 4 en la que se desarrolló de manera formal el concepto de determinante, tanto para vectores, como para matrices y transformaciones lineales. Para ello fue importante hablar de formas $n$-lineales (que en cierta forma generalizan a las bilineales) con propiedades especiales, como ser alternantes. Se vieron muchas propiedades de los determinantes para entenderlos a profundidad de manera teórica y práctica, en particular la expansión de Laplace. Se vio cómo los determinantes pueden ayudar a resolver sistemas de ecuaciones mediante las fórmulas de Cramer. También, con toda la teoría desarrollada hasta aquí pudimos finalmente entender con mucha profundidad los sistemas de ecuaciones lineales mediante el teorema de Rouché-Capelli. Para cerrar el curso, vimos muy por encima las ideas de eigenvalores, eigenvectores y polinomio característico. Esto nos llevó a la idea de diagonalización. Juntando toda la teoría del curso, llegamos a la cereza del pastel: el teorema espectral para matrices simétricas reales.

La idea general del segundo curso

El teorema espectral para matrices simétricas reales es un resultado precioso: bajo ciertas condiciones nos permite «llevar» una transformación (o matriz) a una «forma sencilla». Nos debe de dar la intuición de que toda la teoría que se desarrolló anteriormente la podemos utilizar para demostrar muchos otros resultados lindos de ese estilo. En Álgebra Lineal II haremos precisamente esto.

En la primer parte del curso profundizaremos en la teoría de eigenespacios, que nos permitirán entender mucho mejor cómo son los eigenvectores. Para hacer eso, será importante introducir un nuevo polinomio: el polinomio mínimo. Mostraremos muchas más propiedades de eigenvectores, eigenvalores, polinomios mínimos y característicos. Usaremos estas ideas para profundizar en las nociones de diagonalización y triangulización y enunciaremos teoremas que nos permitirán saber cuándo una matriz (o transformación) se puede llevar mediante un cambio de base a una forma más sencilla. En esta primer parte también demostraremos el bello teorema de Cayley-Hamilton, que afirma que cualquier matriz se anula en su polinomio característico.

Después de esto, en la segunda parte del curso trabajaremos para entender mejor a las formas bilineales que introdujimos en el primer curso. Ya no sólo nos limitaremos a aquellas que caen a los reales, sino que hablaremos también de aquellas que caen al campo $\mathbb{C}$ de los números complejos. Uno podría pensar que el tratamiento es análogo, pero esto dista mucho de la realidad: se requiere pensar en nuevas definiciones que involucren a los conjugados de las entradas de las matrices.

Tras establecer las propiedades principales que nos interesan en espacios vectoriales sobre $\mathbb{R}$ y $\mathbb{C}$, retomaremos la idea de demostrar teoremas de diagonalización. Ahora tendremos el teorema espectral para matrices reales y el teorema espectral para matrices complejas. Además de garantizarnos una diagonalización, estos teoremas nos garantizan que esa diagonalización es de una forma muy especial. Veremos las consecuencias teóricas que esto tiene.

Finalmente, en la última unidad temática, veremos que aunque las matrices no sean diagonalizables, en realidad no todo está perdido. Hablaremos de la forma canónica de Jordan, que es algo así como una versión débil de diagonalizar. Terminaremos el curso aprovechando todo lo visto hasta ahora para ver que cualquier matriz, sin importar sobre qué campo esté, siempre podrá ser llevada a esta forma tras un cambio de base.

Más adelante…

En la siguiente entrada ya comenzaremos con el contenido teórico del curso. Lo primero que haremos es formalizar qué quiere decir «aplicar un polinomio a una transformación lineal» y qué qué quiere decir aplicarlo a una matriz.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Recuerda el algoritmo de reducción gaussiana y úsalo para determinar si la matriz $\begin{pmatrix} 1 & 5 & 0 \\ 0 & 1 & 2 \\ 5 & 3 & -1\end{pmatrix}$ es invertible y, en caso de que sí, encontrar su inversa. Hazlo a mano y comprueba tu respuesta con alguna calculadora de forma escalonada reducida en línea.
  2. Encuentra una base ortogonal para el espacio de polinomios $\mathbb{R}_4[x]$ de grado a lo más $4$ con producto bilineal $\langle p, q \rangle = \sum_{j=0}^4 p(j)q(j)$. Encuentra la forma matricial de la transformación «derivar» en esta base y da su determinante.
  3. Escribe al subespacio de matrices antisimétricas en $M_3(\mathbb{R})$ como intersección de hiperplanos. ¿Qué dimensión tiene?
  4. Encuentra un sistema de $4$ ecuaciones lineales en $5$ variables cuyo espacio de soluciones tenga dimensión $2$. Después, resuélvelo usando los siguientes dos métodos: reducción gaussiana y fórmulas de Cramer.
  5. Explica qué nos garantiza el teorema espectral visto en el curso anterior para las matrices $A=\begin{pmatrix} 1 & 2 & 3 \\ 2 & 0 & 1 \\ 3 & 1 & 4 \end{pmatrix}$ y $B=\begin{pmatrix} 0 & 1 & -1 \\ 1 & 2 & -4 \\ 0 & 0 & 2 \end{pmatrix}$. Encuentra el polinomio característico de cada una de estas matrices. Esboza (sin hacerlo) cómo encontrarías los valores y vectores propios de $A$ y $B$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal I: Problemas de vectores, matrices y matrices como transformaciones lineales

Por Julio Sampietro

Introducción

Esta entrada consiste de puros problemas resueltos. Mediante la solución de estos problemas se puede poner en práctica los conceptos vistos anteriormente. En específico, aquí repasamos los conceptos de suma y producto escalar que vimos al inicio, así como la idea de la entrada anterior de relacionar a matrices con transformaciones lineales.

Problemas resueltos

Problema 1. Escribe de manera explicita la matriz $A=[a_{ij}]\in M_{2,3}(\mathbb{R})$ tal que

\begin{align*}
a_{ij}=\begin{cases} 1 & \text{si } i+j \text{ es par}\\ 0 & \text{si } i+j\text{ es impar}\end{cases}
\end{align*}

Solución. Tomemos como ejemplo a la entrada $a_{11}$. Como $1+1=2$ y $2$ es par, entonces la entrada $a_{11}$ será igual a $1$. De manera similar, obtenemos que $a_{12}=0$ pues $1+2=3$, que es un número impar. Siguiendo de este modo, obtenemos que
\begin{align*}
A=\begin{pmatrix} 1 & 0 & 1\\
0 & 1& 0 \end{pmatrix}.
\end{align*}

$\triangle$

Problema 2. Para cada par de matrices $(A,B)$, explica cuáles de las operaciones $A+2B$ y $A-B$ tienen sentido, y cuando tengan sentido, haz el cálculo.

  1. \begin{align*}
    A= \begin{pmatrix} 1 & 1& 0\\
    0& 1 & 1\\
    1 & 0 & 1 \end{pmatrix} \hspace{5mm} \text{y}\hspace{5mm} B=\begin{pmatrix} 1 &2 &3\\
    7 & 8 & 9\\
    4 & 5 & 6
    \end{pmatrix}.
    \end{align*}
  2. \begin{align*}
    A=\begin{pmatrix} 192450916\\1\\0 \\1\\2\end{pmatrix} \hspace{5mm} \text{y} \hspace{5mm} B= \begin{pmatrix} -1\\ 0 \\ 199\\ 2020\\ 0\\ 3\end{pmatrix}.
    \end{align*}
  3. \begin{align*}
    A= \begin{pmatrix} 1 & 1 & 2\\
    3 & 5 & 8 \end{pmatrix} \hspace{5mm} \text{y} \hspace{5mm}B= \begin{pmatrix} 1&-1 & 1\\ 2 & 4 & 8 \end{pmatrix}.
    \end{align*}

Solución:

  1. Dado que ambas matrices tienen el mismo tamaño, podemos calcular ambas operaciones. Tenemos que hacer las operaciones entrada a entrada. Así, la primer entrada de $A+2B$ será $1+2\cdot 1 = 3$. Haciendo lo mismo para cada entrada, obtenemos que
    \begin{align*}
    A+2B= \begin{pmatrix}
    3 & 5 & 6\\
    14 & 17 & 19\\
    9 & 10 & 13
    \end{pmatrix}
    \end{align*}
    De manera similar, obtenemos que \begin{align*}A-B=\begin{pmatrix} 0 &-1 & -3 \\ -7 & -7 & -8\\ -3 & -5 &-5\end{pmatrix}.\end{align*}
  2. En este caso las operaciones no tienen sentido, pues una matriz tiene 5 renglones y la otra 6.
  3. Observamos que ambas matrices tienen el mismo tamaño, por lo que sí podemos calcular ambas operaciones: \begin{align*}
    A+2B= \begin{pmatrix}
    3 & -1 & 4\\ 7 & 13 & 24
    \end{pmatrix} \hspace{5mm} \text{y} \hspace{5mm} A-B=\begin{pmatrix} 0 &2 & 1 \\ 1 & 1 & 0 \end{pmatrix}.\end{align*}

$\triangle$

Problema 3.

  • a) Considera la función $f: \mathbb{R}^2\to \mathbb{R}^2$ dada por
    \begin{align*}
    f(x,y)=(x^2,y^2).
    \end{align*}
    ¿Es $f$ una transformación lineal?
  • b) Responde la misma pregunta reemplazando $\mathbb{R}$ por $\mathbb{F}_2$.

Solución.

  • a) No, $f$ no es lineal. Vamos a ver un ejemplo en el cual no «abre sumas». Por un lado, tenemos por definición que $f(2,0)=(4,0)$. Por otro lado, tenemos que $(2,0)=(1,0)+(1,0)$ y que $f(1,0)+f(1,0)= (2,0)$. Es decir
    \begin{align*}
    f( (1,0)+(1,0) ) \neq f(1,0)+f(1,0).
    \end{align*}
  • b) Si cambiamos el dominio por $\mathbb{F}_2$ entonces $f$ sí es lineal. Lo podemos verificar:
    \begin{align*}
    f(x+y,z+w)&= \left((x+y)^2, (z+w)^2\right)\\
    &= \left( x^2+y^2+2xy, z^2+w^2+2wz\right)\\
    &=\left(x^2+y^2, z^2+w^2\right)\\
    &= \left(x^2,z^2\right)+\left(y^2,w^2\right)\\
    &= f(x,z)+f(y,w).
    \end{align*}
    En estas igualdades estamos usando que $\mathbb{F}_2$ es el campo con dos elementos, en donde se cumple que $2=1+1=0$, por lo cual $2xy=0=2wz$.
    Por otro lado, si $\alpha\in \mathbb{F}_2$ es un escalar, entonces
    \begin{align*}
    f(\alpha\cdot(x,y))&= f(\alpha x, \alpha y)\\
    &= (\alpha^2 x^2, \alpha^2 y^2)\\
    &= \alpha^2 \cdot (x^2,y^2)\\
    &= \alpha \cdot f(x,y).
    \end{align*}
    De nuevo estamos usando las propiedades del campo $\mathbb{F}_2$ en la última igualdad. Como $\mathbb{F}_2$ es el campo con $2$ elementos, los valores de $\alpha, x,y $ sólo pueden ser $0$ o $1$. Como $0^2=0$ y $1^2=1$, tenemos la igualdad. Concluimos que $f$ es lineal.
  • b)’ Otra manera de resolver el inciso b) es observar que en $\mathbb{F}_2$, $x^2=x$ para todo $x$ (esto lo usamos con $\alpha, x, y$ en la prueba pasada). Luego la función $f$ coincide con la función identidad, y es más fácil verificar que ésta es lineal.

$\triangle$

Problema 4. Da un ejemplo de un mapeo $f:\mathbb{R}^2\to \mathbb{R}$ que no sea lineal, pero que cumpla

\begin{align*}
f(av)= af(v)
\end{align*}

para cualesquiera $v\in \mathbb{R}^2$ y $a\in \mathbb{R}$.

Solución. Proponemos

\begin{align*}
f(x,y)= \begin{cases} x & \text{si } y=0\\
y & \text{si } y\neq 0
\end{cases}.
\end{align*}

Verifiquemos que $f$ cumple la compatibilidad con escalares. Primero, si $a=0$ es claro que

\begin{align*}
f(av) &= f(0,0)\\
&= 0\\
&= 0 \cdot f(v)\\
&= a\cdot f(v).
\end{align*}

Entonces si $a=0$ se cumple la condición. Ahora supongamos que $a\neq 0$, tenemos dos subcasos que verificar:

  • Si $v=(x,y)$ con $y\neq 0$, entonces $av= (ax,ay)$ y $ay\neq 0$ (pues el producto de reales no nulos es no nulo), por lo que
    \begin{align*}
    f(av)&= f(ax,ay)\\
    &= ay\\
    &= a\cdot f(x,y)=a\cdot f(v).
    \end{align*}
  • Si $v=(x,0)$ entonces $av= (ax,0)$ y así
    \begin{align*}
    f(av)&= f(ax,0)\\
    &= ax\\
    &= a\cdot f(x,0)=a\cdot f(v).
    \end{align*}

Así verificamos que $f$ cumple con la condición buscada. Para ver que $f$ no es lineal, observamos que

  • $f(1,0)=1$
  • $f(0,1)=1$
  • $f(1,1)=1$

Y así tenemos

\begin{align*}
f(0,1)+f(1,0)&= 2\\
&\neq 1\\
&= f(1,1)\\
&=f((1,0)+(0,1))
\end{align*}

Es decir, existen $u$ y $v$ vectores tales que $f(u+v)\neq f(u)+f(v)$, por lo que $f$ no es lineal.

$\triangle$

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Lineal I: Determinantes de vectores e independencia lineal

Por Leonardo Ignacio Martínez Sandoval

Introducción

En este cuarto y último bloque del curso comenzamos hablando de transformaciones multilineales y de permutaciones. Luego, nos enfocamos en las transformaciones multilineales antisimétricas y alternantes. Con la teoría que hemos desarrollado hasta ahora, estamos listos para definir determinantes de vectores, de transformaciones lineales y de matrices.

En esta entrada comenzaremos con la definición de determinantes de vectores. En la siguiente entrada hablaremos acerca de determinantes de matrices y de transformaciones lineales. Después de definir determinantes, probaremos varias de las propiedades que satisfacen. Posteriormente, hablaremos de varias técnicas que nos permitirán calcular una amplia variedad de determinantes para tipos especiales de matrices.

Determinantes de vectores

Para empezar, definiremos qué es el determinante de un conjunto de vectores en un espacio de dimensión finita con respecto a una base.

Definición. Sea $B=(b_1,\ldots,b_n)$ una base de un espacio vectorial $V$ de dimensión finita $n$ y $x_1,\ldots,x_n$ vectores de $V$. Cada uno de los $x_i$ se puede escribir como $$x_i=\sum_{j=1}^n a_{ji}b_j.$$

El determinante de $x_1,\ldots,x_n$ con respecto a $(b_1,\ldots,b_n)$ es $$\sum_{\sigma \in S_n} \text{sign}(\sigma)a_{1\sigma(1)}\cdot\ldots\cdot a_{n\sigma(n)},$$ y lo denotamos por $\det_{(b_1,\ldots,b_n)} (x_1,\ldots,x_n)$.

Observa que estamos sumando tantos términos como elementos en $S_n$. Como existen $n!$ permutaciones de un conjunto de $n$ elementos, entonces la suma de la derecha tiene $n!$ sumandos.

Ejemplo. Consideremos la base $b_1=1$, $b_2=1+x$ y $b_3=1+x+x^2$ del espacio vectorial $\mathbb{R}_2[x]$ de polinomios con coeficientes reales y grado a lo más $2$. Tomemos los polinomios $v_1=1$, $v_2=2x$ y $v_3=3x^2$. Vamos a calcular el determinante de $v_1, v_2, v_3$ con respecto a la base $(b_1,b_2,b_3)$.

Para hacer eso, lo primero que tenemos que hacer es expresar a $v_1, v_2, v_3$ en términos de la base. Hacemos esto a continuación:
\begin{align*}
v_1&= 1\cdot b_1 + 0 \cdot b_2 + 0 \cdot b_3\\
v_2&= -2\cdot b_1 + 2 \cdot b_2 + 0 \cdot b_3\\
v_3&= 0 \cdot b_1 – 3 \cdot b_2 +3 b_3.
\end{align*}

De aquí, obtenemos
\begin{align*}
a_{11}&=1, a_{21}=0, a_{31}=0,\\
a_{12}&=-2, a_{22}=2, a_{32}=0,\\
a_{13}&=0, a_{23}=-3, a_{33}=3.
\end{align*}

Si queremos calcular el determinante, tenemos que considerar las $3!=3\cdot 2 \cdot 1 = 6$ permutaciones en $S_3$. Estas permutaciones son

\begin{align*}
\sigma_1 &= \begin{pmatrix}1 & 2 & 3 \\ 1 & 2 & 3\end{pmatrix}\\
\sigma_2 &= \begin{pmatrix}1 & 2 & 3 \\ 1 & 3 & 2\end{pmatrix}\\
\sigma_3 &= \begin{pmatrix}1 & 2 & 3 \\ 2 & 1 & 3\end{pmatrix}\\
\sigma_4 &= \begin{pmatrix}1 & 2 & 3 \\ 2 & 3 & 1\end{pmatrix}\\
\sigma_5 &= \begin{pmatrix}1 & 2 & 3 \\ 3 & 2 & 1\end{pmatrix}\\
\sigma_6 &= \begin{pmatrix}1 & 2 & 3 \\ 3 & 1 & 2\end{pmatrix}.
\end{align*}

Los signos de $\sigma_1,\ldots,\sigma_6$ son, como puedes verificar, $1$, $-1$, $-1$, $1$, $-1$ y $1$, respectivamente.

El sumando correspondiente a $\sigma_1$ es
\begin{align}
\text{sign}(\sigma_1) &a_{1\sigma_1(1)}a_{2\sigma_1(2)}a_{3\sigma_1(3)}\\
&= 1 \cdot a_{11}a_{22}a_{33}\\
&=1\cdot 1\cdot 2 \cdot 3 = 6.
\end{align}

El sumando correspondiente a $\sigma_2$ es
\begin{align}
\text{sign}(\sigma_2) &a_{1\sigma_2(1)}a_{2\sigma_2(2)}a_{3\sigma_2(3)}\\
&= (-1) \cdot a_{11}a_{23}a_{32}\\
&=(-1) \cdot 1\cdot (-3) \cdot 0 = 0.
\end{align}

Continuando de esta manera, se puede ver que los sumandos correspondientes a $\sigma_1,\ldots,\sigma_6$ son $$+6,-0,-0,+0,-0,+0,$$ respectivamente de modo que el determinante es $6$.

$\triangle$

La expresión de determinante puede parecer algo complicada, pero a través de ella podemos demostrar fácilmente algunos resultados. Consideremos como ejemplo el siguiente resultado.

Proposición. Sea $B=(b_1,\ldots,b_n)$ una base de un espacio vectorial $V$ de dimensión finita $n$. El determinante de $B$ con respecto a sí mismo es $1$.

Demostración. Cuando escribimos a $b_i$ en términos de la base $b$, tenemos que $$b_i=\sum_{j=1}^n a_{ji} b_j.$$ Como la expresión en una base es única, debemos tener $a_{ii}=1$ y $a_{ji}=0$ si $j\neq i$. Ahora, veamos qué le sucede al determinante $$\sum_{\sigma \in S_n} \text{sign}(\sigma)a_{1\sigma(1)}\cdot\ldots\cdot a_{n\sigma(n)}.$$

Si $\sigma$ es una permutación tal que $\sigma(i)\neq i$ para alguna $i$, entonces en el producto del sumando correspondiente a $\sigma$ aparece $a_{i\sigma(i)}=0$, de modo que ese sumando es cero. En otras palabras, el único sumando no cero es cuando $\sigma$ es la permutación identidad.

Como el signo de la identidad es $1$ y cada $a_{ii}$ es $1$, tenemos que el determinante es
\begin{align*}
\sum_{\sigma \in S_n} \text{sign}&(\sigma)a_{1\sigma(1)}\cdot\ldots\cdot a_{n\sigma(n)} \\
&=a_{11}\cdot\ldots\cdot a_{nn}\\
&= 1\cdot\ldots\cdot 1 \\
& = 1.
\end{align*}

$\square$

El determinante es una forma $n$-lineal alternante

La razón por la cual hablamos de transformaciones $n$-lineales antisimétricas y alternantes antes de hablar de determinantes es que, en cierto sentido, los determinantes de vectores son las únicas transformaciones de este tipo. Los siguientes resultados formalizan esta intuición.

Teorema. Sea $B=(b_1,\ldots,b_n)$ una base de un espacio vectorial $V$ sobre $F$. Entonces la transformación $\det_{(b_1,\ldots,b_n)}:V^n \to F$ es una forma $n$-lineal y alternante.

Demostración. La observación clave para demostrar este resultado es que $\det_{(b_1,\ldots,b_n)}$ se puede reescribir en términos de la base dual $b_1^\ast, \ldots, b_n^\ast$. En efecto, recuerda que $b_i^\ast$ es la forma lineal que «lee» la coordenada de un vector $v$ escrito en la base $B$. De esta forma,

\begin{align*}
\det_{(b_1,\ldots,b_n)}&(v_1,\ldots,v_n)\\
&=\sum_{\sigma\in S_n}\left(\text{sign}(\sigma) \prod_{j=1}^n b_j^\ast(v_{\sigma(j)})\right)\\
\end{align*}

Para cada permutación $\sigma$, el sumando correspondiente es una forma $n$-lineal, pues es producto de $n$ formas lineales evaluadas en los distintos vectores. Así que $\det_{(b_1,\ldots,b_n)}$ es suma de formas $n$-lineales y por lo tanto es forma $n$-lineal.

Para mostrar que el determinante es alternante, tenemos que mostrar que es igual a $0$ cuando algún par de sus entradas son iguales. Supongamos que $i\neq j$ y que $v_i=v_j$. Tomemos $\tau$ a la transposición que intercambia a $i$ y a $j$. Cuando se compone una permutación con una transposición, su signo cambia. Así, para cualquier permutación $\sigma$, tenemos que $\sigma\tau$ tiene signo diferente.

Además, para cualquier $\sigma$ tenemos que $$a_{1\sigma(1)}\cdot\ldots\cdot a_{n\sigma(n)}$$ y $$a_{1\sigma\tau(1)}\cdot\ldots\cdot a_{n\sigma\tau(n)}$$ son iguales, pues $v_i=v_j$. Combinando ambas ideas, podemos emparejar a cada sumando del determinante con otro con el cual sume cero. Esto muestra que el determinante es $0$.

$\square$

Usando la teoría que desarrollamos en la entrada anterior, tenemos el siguiente corolario.

Corolario. La forma $n$-lineal $\det_{(b_1,\ldots,b_n)}$ es antisimétrica.

Los determinantes de vectores son las «únicas» formas $n$-lineales alternantes

Ya vimos que el determinante es una forma $n$-lineal alternante. Veamos ahora por qué decimos que es «la única». El siguiente resultado dice que cualquier otra forma $n$-lineal alternante varía de $\det_{(b_1,\ldots,b_n)}$ únicamente por un factor multiplicativo.

Teorema. Sea $B=(b_1,\ldots,b_n)$ una base de un espacio vectorial $V$. Si $f:V^n \to F$ es cualquier forma $n$-lineal y alternante, entonces $$f=f(b_1,\ldots,b_n)\det_{(b_1,\ldots,b_n)}.$$

Demostración. Para mostrar la igualdad del teorema, que es una igualdad de transformaciones, tenemos que ver que es cierta al evaluar en cualesquiera vectores $x_1,\ldots,x_n$. Escribamos a cada $x_i$ en términos de la base $B$: $$x_i=\sum_{j=1}^n a_{ij}b_j.$$

Usando la $n$-linealidad de $f$ en cada una de las entradas, tenemos que
\begin{align*}
f(x_1,\ldots,x_n)&=\sum_{i=1}^n a_{1i} f(b_i,x_2,\ldots,x_n)\\
&=\sum_{i,j=1}^n a_{1i}a_{2i} f(b_i,b_j,x_3,\ldots,x_n)\\
&=\ldots\\
&=\sum_{i_1,\ldots,i_n = 1}^n a_{1i_1}\ldots a_{ni_n} f(b_{i_1},\ldots,b_{i_n}).
\end{align*}

Aquí hay muchos términos, pero la mayoría de ellos son $0$. En efecto, si $b_{i_k}=b_{i_l}$, como $f$ es alternante tendríamos que ese sumando es $0$. Así, los únicos sumandos que pueden ser no cero son cuando la elección de subíndices es una permutación, es decir cuando existe $\sigma$ en $S_n$ tal que para $i_k=\sigma(k)$.

Por lo tanto, podemos simplificar la expresión anterior a
$$f(x_1,\ldots,x_n)=\sum_{\sigma \in S_n}a_{1 \sigma(1)}\ldots a_{n\sigma(n)} f(b_{\sigma(1)},\ldots,b_{\sigma(n)}).$$

Como $f$ es alternante, entonces es antisimétrica. De este modo, podemos continuar la igualdad anterior como
\begin{align*}
&=\sum_{\sigma \in S_n} \text{sign}(\sigma) a_{1 \sigma(1)}\ldots a_{n\sigma(n)} f(b_1,\ldots,b_n)\\
&=f(b_1,\ldots,b_n) \det_{(b_1,\ldots,b_n)}(x_1,\ldots, x_n).
\end{align*}

Esto es justo lo que queríamos probar.

$\square$

Los determinantes de vectores caracterizan bases

Como consecuencia del último teorema de la sección anterior, los determinantes de vectores caracterizan totalmente a los conjuntos de vectores que son bases. A continuación enunciamos esto formalmente.

Corolario. En un espacio vectorial $V$ de dimensión $n$ son equivalentes las siguientes tres afirmaciones para vectores $x_1,\ldots,x_n$ de $V$:

  1. El determinante de $x_1,\ldots,x_n$ con respecto a toda base es distinto de $0$.
  2. El determinante de $x_1,\ldots,x_n$ con respecto a alguna base es distinto de $0$.
  3. $x_1,\ldots,x_n$ es una base de $V$.

Demostración. La afirmación (1) es más fuerte que la (2) y por lo tanto la implica.

Ahora, probemos que la afirmación (2) implica la afirmación (3). Como $x_1,\ldots,x_n$ son $n$ vectores y $n$ es la dimensión de $V$, para mostrar que forman una base basta mostrar que son linealmente independientes. Anteriormente, vimos que cualquier forma alternante manda vectores linealmente dependientes a $0$. Como la hipótesis de (2) es que existe alguna forma alternante que no se anula en $x_1,\ldots, x_n$, entonces deben ser linealmente independientes y por lo tanto formar una base.

Finalmente, probemos que (3) implica (1). Tomemos $B=(b_1,\ldots,b_n)$ otra base de $V$. Como $\det_{(x_1,\ldots,x_n)}$ es una forma $n$-lineal, podemos aplicar el teorema anterior y evaluar en $x_1,\ldots,x_n$ para concluir que
\begin{align*}
\det_{(x_1,\ldots,x_n)}&(x_1,\ldots,x_n)&\\
&=\det_{(x_1,\ldots,x_n)}(b_1,\ldots,b_n) \det_{(b_1,\ldots,b_n)}(x_1,\ldots,x_n).
\end{align*}

El término de la izquierda es igual a $1$, de modo que ambos factores a la derecha deben ser distintos de $0$.

$\square$

Ejemplo. En el ejemplo que dimos de polinomios vimos que el determinante de $1$, $2x$ y $3x^2$ con respecto a la base $1$, $1+x$ y $1+x+x^2$ es igual a $6$. De acuerdo al teorema anterior, esto implica que $1$, $2x$ y $3x^2$ es un conjunto linealmente independiente de polinomios, y de hecho una base.

Además, el teorema anterior también implica que sin importar que otra base $B$ de $\mathbb{R}_2[x]$ tomemos, el determinante de $1$, $2x$ y $3x^2$ con respecto a $B$ también será distinto de $0$.

$\triangle$

Más adelante…

A lo largo de esta entrada estudiamos la definición de determinantes para un conjunto de vectores y enunciamos sus principales propiedades. En las siguientes entradas vamos a hablar cómo se define el determinante para matrices y para transformaciones lineales. Después de las definiciones, pasaremos a estudiar cómo se calculan los determinantes y veremos cómo se aplican a diferentes problemas de álgebra lineal.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • ¿Cuántos sumandos tendrá el determinante de $5$ vectores en un espacio vectorial de dimensión $5$ con respecto a cualquier base? Da el número de manera explícita.
  • Verifica que en el primer ejemplo de determinantes de esta entrada, en efecto los sumandos correspondientes a $\sigma_1,\ldots,\sigma_6$ son los que se enuncian.
  • Encuentra el determinante de los vectores $(3,1)$ y $(2,4)$ con respecto a la base $((5,1), (2,3))$ de $\mathbb{R}^2$.
  • Muestra que los vectores $(1,4,5,2)$, $(0,3,2,1)$, $(0,0,-1,4)$ y $(0,0,0,1)$ son linealmente independientes calculando por definición su determinante con respecto a la base canónica de $\mathbb{R}^4$.
  • Usa un argumento de determinantes para mostrar que los vectores $(1,4,3)$, $(2,-2,9)$, $(7,8,27)$ de $\mathbb{R}^3$ no son linealmente independientes. Sugerencia. Calcula su determinante con respecto a la base canónica.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»