Archivo de la categoría: Matemáticas

Posts de matemáticas, la ciencia más cercana a las artes.

Álgebra Lineal II: Eigenvectores y eigenvalores

Por Julio Sampietro

Introducción

En esta entrada revisitamos los conceptos de eigenvalores y eigenvectores de una transformación lineal. Estos son esenciales para entender a las transformaciones lineales, y tienen un rango de aplicabilidad impresionante: aparecen en la física, las ecuaciones diferenciales parciales, la ciencia de datos, la topología algebraica y la probabilidad.

Primero enunciaremos la definición, después veremos un primer ejemplo para convencernos de que no son objetos imposibles de calcular. Luego daremos un método para vislumbrar una manera más sencilla de hacer dicho cálculo y concluiremos con unos ejercicios.

Eigen-definiciones

Comenzamos con $V$ un espacio vectorial sobre $F$ y $T:V\to V$ una transformación lineal.

Definición. Un eigenvalor (también conocido como valor propio) de $T$ es un escalar $\lambda \in F$ tal que $\lambda \cdot \operatorname{Id}-T$ no es invertible. Un eigenvector (también conocido como vector propio o $\lambda$-eigenvector) correspondiente a $\lambda$ es un vector no-cero de $\ker (\lambda \cdot \operatorname{Id}-T)$. A este kernel se le conoce como el eigenespacio correspondiente a $\lambda$ (o $\lambda$-eigenespacio).

Entonces un $\lambda$-eigenvector es por definición distinto de cero y satisface

\begin{align*}
T(v)=\lambda v.
\end{align*}

Hay que tener cuidado. se permite que $\lambda=0$ sea eigenvalor, pero no se permite que $v=0$ sea eigenvector.

La colección de todos los eigenvectores, junto con el vector cero, es el eigenespacio asociado a $\lambda$. Podemos enunciar definiciones análogas con matrices.

Definición. Sea $A\in M_n(F)$ una matriz cuadrada. Un escalar $\lambda \in F$ es un eigenvalor de $A$ si existe un vector $X\in F^n$ distinto de cero (un eigenvector) tal que $AX=\lambda X$. En este caso el subespacio

\begin{align*}
\ker(\lambda I_n-A):=\lbrace X\in F^n\mid AX=\lambda X\rbrace
\end{align*}

es el $\lambda$-eigenespacio de $A$.

Puedes verificar que ambas definiciones se corresponden en el siguiente sentido:

Si $V$ es un espacio de dimensión finita y $T:V\to V$ es una transformación lineal, podemos escoger cualquier base de $V$ y asociarle a $T$ su forma matricial, digamos $A$, en esta base. Los eigenvalores de $T$ son precisamente los eigenvalores de $A$. ¡Pero cuidado! Los eigenvectores de $A$ dependerán de la base elegida.

Un primer ejemplo

Seguimos con un sencillo pero importante ejemplo.

Ejemplo 1. Considera la matriz

\begin{align*}
A=\begin{pmatrix}
0 & -1\\
1 & 0
\end{pmatrix}.
\end{align*}

Busquemos los eigenvectores y eigenvalores de $A$, pensando a $A$ como una matriz con entradas complejas. Sea $\lambda\in \mathbb{C}$ un eigenvalor y $X$ un eigenvector asociado. Entonces se cumple la relación $AX=\lambda X$. Si $X=(x_1,x_2)$ entonces la condición mencionada es equivalente al par de ecuaciones

\begin{align*}
-x_2=\lambda x_1, \hspace{5mm} x_1=\lambda x_2.
\end{align*}

Sustituyendo una en la otra obtenemos

\begin{align*}
-x_2=\lambda^2 x_2.
\end{align*}

Si $x_2=0$ entonces $x_1=0$ y así $X$ es un vector nulo, lo que es imposible por definición (recuerda que pedimos que los eigenvectores sean distintos de cero). Entonces $x_2\neq 0$ y podemos dividir por $x_2$ a la ecuación previa, de manera que $\lambda^2=-1$, o sea $\lambda=\pm i$. Conversamente, $i$ y $-i$ son eigenvalores. En efecto, podemos tomar $x_2=1$ y $x_1=\lambda$ como soluciones del problema anterior y obtener un vector propio asociado. De hecho, el eigenespacio está dado por

\begin{align*}
\ker (\lambda I_2-A)=\lbrace (\lambda x_2, x_2)\mid x_2\in \mathbb{C}\rbrace
\end{align*}

y esto no es más que la recta generada por el vector $v=(\lambda,1)\in \mathbb{C}^2$. Por lo tanto, vista como una matriz compleja, $A$ tiene dos eigenvalores distintos $\pm i$ y dos eigenespacios, los generados por $(i,1)$ y $(-i,1)$.

Por otro lado, veamos qué pasa si pensamos a $A$ como una matriz con entradas reales. Haciendo las mismas cuentas llegamos a la misma ecuación, $-x_2=\lambda^2 x_2$. Podemos reescribirla factorizando el término $x_2$:

\begin{align*}
(\lambda^2+1)x_2=0.
\end{align*}

Como $\lambda$ esta vez es un número real, $\lambda^2+1$ siempre es distinto de cero. Entonces para que el producto sea cero, tiene que ocurrir que $x_2=0$, ¡pero entonces $x_1=0$ y así $X=0$! En conclusión: vista como una matriz con entradas reales, $A$ no tiene eigenvalores, y por tanto no tiene eigenespacios. La moraleja es que los eigenvalores y eigenvectores dependen mucho del campo en el que trabajemos.

¿Cómo calcularlos?

Si bien el ejemplo anterior resultó simple, no es difícil imaginar que matrices más complicadas y más grandes pueden resultar en procedimientos menos claros. En general:

  • ¿Cómo podemos calcular los eigenvalores?
  • ¿Cómo podemos calcular los eigenespacios de manera eficiente?
  • ¿Cómo podemos calcular los eigenvectores?

Una vez calculados los eigenvalores, calcular los eigenespacios se reduce a resolver el sistema de ecuaciones homogéneo $(A-\lambda I_n)X=0$, lo cual ya hemos hecho muchas veces mediante reducción gaussiana. Luego, calcular los eigenvectores simplemente es tomar los elementos no cero del eigenespacio. Sin embargo, el cálculo de eigenvalores involucra encontrar raíces de polinomios lo cual de entrada no es obvio. Un primer paso es la siguiente observación que enunciamos como proposición.

Proposición. Un escalar $\lambda \in F$ es un eigenvalor de $A\in M_n(F)$ si y sólo si

\begin{align*}
\det(\lambda I_n-A)=0.
\end{align*}

Demostración. El sistema $(\lambda I_n-A)X=0$ tiene soluciones no triviales si y sólo si la matriz $\lambda I_n-A$ no es invertible. A su vez, la matriz $\lambda I_n-A$ no es invertible si y sólo si su determinante es nulo. El resultado se sigue.

$\square$

Regresemos a nuestra pregunta. Si

\begin{align*}
A=\begin{pmatrix}
a_{11} & a_{12} & \dots & a_{1n}\\
a_{21} & a_{22} & \dots & a_{2n}\\
\dots & \dots & \dots& \dots\\
a_{n1} & a_{n2}& \dots & a_{nn}
\end{pmatrix}
\end{align*}

entonces la proposición nos dice que podemos calcular los valores propios de $A$ resolviendo la ecuación polinomial

\begin{align*}
\begin{vmatrix}
\lambda- a_{11} & -a_{12} & \dots & -a_{1n}\\
-a_{21} & \lambda -a_{22} & \dots & -a_{2n}\\
\dots & \dots & \dots & \dots \\
-a_{n1} & -a_{n2} & \dots & \lambda-a_{nn}
\end{vmatrix}
=0
\end{align*}

en $F$. Esta es una ecuación polinomial de grado $n$, y si el grado es mayor a $4$ en general no existe una fórmula para resolverla en términos de radicales (aunque claro que hay casos particulares que si podemos resolver sin mucho problema).

Problema 2. Queremos calcular los eigenvalores de $A$, donde $A$ está dada por

\begin{align*}
A=\begin{pmatrix}
1 & 0 & 0\\
0 & 0 &-1\\
0 & 1 & 0
\end{pmatrix}.
\end{align*}

Solución. Como vimos en la proposición, esto se reduce a calcular las raíces del polinomio

\begin{align*}
\begin{vmatrix}
\lambda -1 & 0 & 0\\
0 & \lambda & 1\\
0 &-1 & \lambda
\end{vmatrix}=0.
\end{align*}

Calculando el determinante vemos que esto es de hecho

\begin{align*}
(\lambda-1)(\lambda^2+1)=0.
\end{align*}

Sin embargo tenemos que recordar que las raíces dependen de nuestro campo de elección. Como no comentamos nada sobre el campo en el cual trabajamos, consideraremos dos casos. Si el campo es $\mathbb{C}$ entonces los eigenvalores son $1$ y $\pm i$. Si trabajamos sobre $\mathbb{R}$ entonces tenemos un único eigenvalor: $1$.

$\triangle$

Ejercicios

Acabamos esta entrada con unos ejercicios para reforzar lo que vimos.

Problema 1. Encuentra todos los números reales $x$ tales que la matriz

\begin{align*}
A=\begin{pmatrix}
1 & x\\
2 & 1
\end{pmatrix}
\end{align*}

tiene exactamente dos eigenvalores distintos. La misma pregunta para ningún eigenvalor.

Solución. El número de eigenvalores va a estar dado por el número de raíces del polinomio $\det(\lambda I_2-A)$. Es decir, tenemos que trabajar la ecuación

\begin{align*}
\det(\lambda I_2-A)=\begin{vmatrix} \lambda -1 & -x\\ -2 & \lambda-1\end{vmatrix}=0.
\end{align*}

Que a su vez se reduce a

\begin{align*}
(\lambda-1)^2-2x=0.
\end{align*}

Y para que tenga dos soluciones basta con que $2x$ sea un número positivo. En efecto, en ese caso podemos despejar y resolver

\begin{align*}
\lambda = 1 \pm \sqrt{2x}.
\end{align*}

Como $2x$ es positivo solo si $x$ lo es, podemos concluir que la condición necesaria y suficiente es que $x$ sea un real positivo. Similarmente, si $x$ es un número negativo no tendremos ningún eigenvalor.

$\triangle$

Problema 2. Sea $V$ el conjunto de todas las matrices $A\in M_2(\mathbb{C})$ tales que $v=\begin{pmatrix} 1\\ 2 \end{pmatrix}$ es un eigenvector de $A$. Demuestra que $V$ es un subespacio de $M_2(\mathbb{C})$ y da una base.

Solución. Supongamos que $v$ es un eigenvector de $A$, con eigenvalor $\lambda$, y que es eigenvector de $B$, con eigenvalor $\mu$. Entonces

\begin{align*}
(A+c B)(v)= Av+c Bv= \lambda v+c\mu v= (\lambda+c\mu)v
\end{align*}

por lo que $v$ es eigenvector de $A+cB$ con eigenvalor $\lambda +c\mu$. Esto demuestra que $V$ es un subespacio. Para darnos una idea de cómo podría ser una base para $V$, comencemos con una matriz genérica $A=\begin{pmatrix} a & b\\ c & d\end{pmatrix}$ tal que $A\in V$. Entonces $A$ tiene que satisfacer $Av=\lambda v$ para algún $\lambda$. Escribamos esto más explícitamente

\begin{align*}
\begin{pmatrix}
a & b\\
c & d
\end{pmatrix} \cdot \begin{pmatrix} 1 \\ 2\end{pmatrix}= \begin{pmatrix}
a+2b\\
c+2d
\end{pmatrix}=\begin{pmatrix} \lambda \\ 2\lambda\end{pmatrix}.
\end{align*}

Así se desprenden dos ecuaciones

\begin{align*}
\begin{cases}
a+2b=\lambda \\
c+2d=2\lambda
\end{cases}.
\end{align*}

Sabemos que $\lambda$ es un parámetro libre, pues puede ser cualquier eigenvalor. Si conocemos a $\lambda$ entonces necesitamos alguna de las variables, $a$ o $b$ para determinar a la otra y lo mismo con $c$ y $d$. Entonces escojamos $b$ y $d$ como variables libres. Enseguida nuestra matriz es de la forma (reemplazando a $a$ y $c$ por sus valores en $b$ y $d$):

\begin{align*}
A&= \begin{pmatrix}
\lambda -2b & b\\
2\lambda -2d & d
\end{pmatrix}\\
&= b\begin{pmatrix} -2 & 1\\ 0 & 0
\end{pmatrix}+ d \begin{pmatrix} 0 & 0 \\ -2 & 1\end{pmatrix}+\lambda \begin{pmatrix} 1 & 0\\
2 & 0
\end{pmatrix}.
\end{align*}

Entonces proponemos como base

\begin{align*}
\beta = \bigg\lbrace \begin{pmatrix} -2 & 1\\ 0 & 0
\end{pmatrix}, \begin{pmatrix} 0 & 0 \\ -2 & 1\end{pmatrix},\begin{pmatrix} 1 & 0\\
2 & 0
\end{pmatrix}\bigg\rbrace.
\end{align*}

Ya vimos que $\beta$ genera a $V$, y dejamos la independencia lineal como ejercicio.

$\square$

Más adelante…

En las próximas entradas desarrollaremos las propiedades relevantes de los eigenvalores y eigenvectores para eventualmente llegar al polinomio característico y establecer el puente con el polinomio mínimo.

Tarea moral

Aquí unos ejercicios para que repases el material de esta entrada.

  1. Encuentra todos los eigenvalores de la matriz $A=\begin{pmatrix} 1 & 1 &0 \\ 0 & 2 &1\\ 0 & 0 & 1\end{pmatrix}\in M_3(\mathbb{C})$.
  2. Completa la demostración del último ejercicio de la sección de ejercicios, verificando que las soluciones encontradas son matrices linealmente independientes. ¿Puedes generalizar este ejercicio de alguna manera?
  3. Encuentra los eigenvalores de la matriz $A\in M_n(\mathbb{R})$ cuyas entradas son puros $2$.
  4. Da contraejemplos para cada una de las siguientes afirmaciones:
    1. Si $u$ y $v$ son eigenvectores de $A$, entonces $u+v$ es eigenvector de $A$.
    2. Si $\lambda$ es eigenvalor de $A$ y $\mu$ es eigenvalor de $B$, entonces $\lambda \mu$ es eigenvalor de $AB$.
    3. Si $A$ y $B$ son formas matriciales de una misma transformación $T$ y $v$ es eigenvector de $A$, entonces $v$ es eigenvector de $B$.
  5. Considera la transformación derivada en $\mathbb{R}[x]$. ¿Quienes son sus eigenvectores y eigenvalores? Como sugerencia, estudia el coeficiente de mayor grado.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Polinomio mínimo de transformaciones lineales y matrices

Por Julio Sampietro

Introducción

Anteriormente definimos qué quiere decir evaluar un polinomio en una matriz o en una transformación lineal. En esta entrada definiremos uno de los objetos más importantes del álgebra lineal: el polinomio mínimo. Si bien al principio nos va a costar un poco calcularlo, esto se compensa por la cantidad de propiedades teóricas que cumple. Comenzaremos dando su definición, y mostrando su existencia y unicidad. Luego exploraremos algunas propiedades y veremos ejemplos, seguido de un pequeño teorema de cambio de campos. Finalmente introduciremos un objeto similar (el polinomio mínimo puntual) y haremos unos ejercicios para cerrar.

El concepto de polinomio mínimo podría resultarle familiar a los más algebraicos de mente: ¡todo se debe a que trabajamos con dominios de ideales principales, o incluso euclidianos! Si has trabajado anteriormente con conceptos como el mínimo común múltiplo en enteros, puede que varios de los argumentos de esta entrada te suenen conocidos.

Existencia y unicidad

Comenzamos con un espacio vectorial $V$ de dimensión $n$ sobre un campo $F$. Fijando una transformación lineal $T:V\to V$, queremos entender para qué polinomios se cumple que $P(T)=0$. Nota como podríamos haber cambiado la pregunta: si fijamos un polinomio $P$, podríamos buscar todas las transformaciones $T$ tales que $P(T)=0$. Ésta pregunta la estudiaremos más adelante.

Definimos el conjunto

\begin{align*}
I(T)=\lbrace P\in F[X]\mid P(T)=0\rbrace.
\end{align*}

El polinomio cero pertenece a $I(T)$ de manera trivial. Una cosa importante es que este conjunto $I(T)$ que vamos a estudiar en verdad es «interesante», en el sentido de que debemos ver que hay más polinomios adentro y no es únicamente el conjunto $\lbrace 0\rbrace$. Una manera de ver esto es sabiendo que el espacio de transformaciones lineales de $V$ en $V$ tiene dimensión $n^2$ (lo puedes pensar como el espacio de matrices). Entonces, las $n^2+1$ transformaciones $\operatorname{Id}, T, T^2, \dots, T^{n^2}$ no pueden ser todas linealmente independientes: uno de los corolarios del lema de Steinitz es que en un espacio de dimensión $n$ a lo más se pueden tener $n$ vectores linealmente independientes. Entonces existe una combinación lineal no trivial y nula

\begin{align*}
a_0 \operatorname{Id}+a_1 T+\dots + a_{n^2} T^{n^2}=0.
\end{align*}

Luego $a_0+a_1X+\dots+a_{n^2}X^{n^2}$ es un polinomio no cero tal que $P(T)=0$, es decir $P\in I(T)$.

Con el argumento de arriba vimos que $I(T)$ es «interesante» en el sentido de que tiene polinomios no cero. El siguiente teorema se puede entender como que $I(T)$ se puede describir muy fácilmente.

Teorema. Existe un único polinomio mónico, distinto de cero $\mu_T$ tal que $I(T)$ es precisamente el conjunto de múltiplos de $\mu_T$. Es decir

\begin{align*}
I(T)=\mu_T \cdot F[X]=\lbrace \mu_T \cdot P(X)\mid P(X)\in F[X]\rbrace.
\end{align*}

La demostración hará uso del algoritmo de la división para polinomios. Te lo compartimos aquí, sin demostración, por si no lo conoces o no lo recuerdas.

Teorema (algoritmo de la división en $\mathbb{F}[x]$). Sean $M(x)$ y $N(x)$ polinomios en $F[x]$, donde $N(x)$ no es el polinomio cero. Entonces, existen únicos polinomios $Q(x)$ y $R(x)$ en $F[x]$ tales que $$M(x)=Q(x)N(x)+R(x),$$ en donde $R(x)$ es el polinomio cero, o $\deg(R(x))<\deg(G(x))$.

Si te interesa saber cómo se demuestra, puedes seguir la teoría de polinomios disponible en la Unidad 4 del curso de Álgebra Superior II.

Demostración. Veamos primero que $I(T)$ es un subespacio de $F[X]$. Para ello, tomemos polinomios $P(x)$, $Q(x)$ en $I(T)$, y un escalar $\alpha\in F$. Una de las proposiciones de la entrada pasada nos permite abrir la expresión $(P+\alpha Q)(T)$ como $P(T)+\alpha Q(T)=0+\alpha\cdot 0 = 0$, de modo que $P+\alpha Q$ está en $I(T)$ y por lo tanto $I(T)$ es un subespacio de $F[X]$.

Por otro lado si $P\in I(T)$ y $Q\in F[X]$ entonces

\begin{align*}
(PQ)(T)= P(T)\circ Q(T)=0\circ Q(T)=0.
\end{align*}

Lo que discutimos antes de enunciar el teorema nos dice que $I(T)\neq\{0\}$. Tomemos entonces $P\in I(T)$ un polinomio no cero de grado mínimo. Podemos suponer sin perdida de generalidad que $P$ es mónico, de no serlo, podemos dividir a $P$ por su coeficiente principal sin cambiar el grado.

La ecuación previa nos indica que todos los múltiplos polinomiales de $P$ también están en $I(T)$. Veamos que todo elemento de $I(T)$ es de hecho un múltiplo de $P$. Si $S\in I(T)$, usamos el algoritmo de la división polinomial para escribir $S=QP+R$ con $Q,R\in F[X]$. Aquí hay dos casos: que $R$ sea el polinomio cero, o bien que no lo sea y entonces $\deg R <\deg P$. Nota que $R=S-QP\in I(T)$ dado que $I(T)$ es un subespacio de $F[X]$ y $S,QP\in I(T)$. Si $R\neq 0$, entonces como $\deg R<\deg P$ llegamos a una contradicción de la minimalidad del grado de $P$. Luego $R=0$ y por tanto $S=QP$. Entonces $I(T)$ es precisamente el conjunto de todos los múltiplos de $P$ y así podemos tomar $\mu_T=P$.

Para verificar la unicidad de $\mu_T$, si otro polinomio $S$ tuviera las mismas propiedades, entonces $S$ dividiría a $\mu_T$ y $\mu_T$ dividiría a $S$. Sin embargo, como ambos son mónicos se sigue que deben ser iguales: en efecto, si $\mu_T=S\cdot Q$ y $S=\mu_T \cdot R$ entonces $\deg Q=\deg R=0$, porlo tanto son constantes, y como el coeficiente principal de ambos es $1$, se sigue que ambos son la constante $1$ y así $\mu_T=S$. Esto completa la demostración.

$\square$

Definición. Al polinomio $\mu_T$ se le conoce como el polinomio mínimo de $T$.

Primeras propiedades y ejemplos

Debido a su importancia, recalcamos las propiedades esenciales del polinomio mínimo $\mu_T$:

  • Es mónico.
  • Cumple $\mu_T(T)=0$.
  • Para cualquier otro polinomio $P\in F[X]$, sucede que $P(T)=0$ si y sólo si $\mu_T$ divide a $P$.

Toda la teoría que hemos trabajado hasta ahora se traduce directamente a matrices usando exactamente los mismos argumentos. Lo enunciamos de todas maneras: si $A\in M_n(F)$ es una matriz cuadrada, entonces existe un único polinomio $\mu_A\in F[X]$ con las siguientes propiedades:

  • Es mónico.
  • Cumple $\mu_A(A)=O_n$.
  • Si $P\in F[X]$, entonces $P(A)=O_n$ si y sólo si $\mu_A$ divide a $P$.

Como jerga, a veces diremos que un polinomio «anula $T$» si $P(T)=0$. En este sentido los polinomios que anulan a $T$ son precisamente los múltiplos de $\mu_T$.

Vimos antes de enunciar el teorema que podemos encontrar un polinomio $P$ no cero de grado menor o igual a $n^2$ tal que $P(T)=0$. Como $\mu_T$ divide a $P$ se sigue que $\deg \mu_T\leq n^2$. Esta cota resulta ser débil, y de hecho un objeto que hemos estudiado previamente nos ayudará a mejorarla: el polinomio característico. Este también va a anular a $T$ y con ello obtendremos una mejor cota: $\deg \mu_T\leq n$.

Ejemplo 1. Si $A=O_n$, entonces $\mu_A=X$. En efecto, $\mu_A(A)=0$ y además es el polinomio de menor grado que cumple esto, pues ningún polinomio constante y no cero anula a $O_n$ (¿por qué?). Nota como además $I(A)$ es precisamente el conjunto de polinomios sin término constante.

$\triangle$

Ejemplo 2. Considera la matriz $A\in M_2(\mathbb{R})$ dada por

\begin{align*}
A= \begin{pmatrix}
0 & -1\\
1 & 0
\end{pmatrix}.
\end{align*}

Nos proponemos calcular $\mu_A$. Nota que $A$ satisface $A^2=-I_2$. Por tanto el polinomio $P(X)=X^2+1$ cumple $P(A)=0$. Así, $\mu_A$ tiene que dividir a este polinomio ¡pero este es irreducible sobre los números reales! En efecto, si existiese un factor propio de $P$ sobre $\mathbb{R}$, tendríamos que la ecuación $X^2=-1$ tiene solución, y sabemos que este no es el caso. Entonces $\mu_A$ tiene que ser $X^2+1$.

$\triangle$

Ejemplo 3. Sean $d_1,\dots, d_n\in F$ escalares y $A$ una matriz diagonal tal que $[a_{ii}]=d_i$. Los elementos pueden no ser distintos entre sí, así que escogemos una colección máxima $d_{i_1},\dots, d_{i_k}$ de elementos distintos. Para cualquier polinomio $P$, tenemos que $P(A)$ es simplemente la matriz diagonal con entradas $P(d_i)$ (esto porque el producto $A^n$ tiene como entradas a $d_i^n$). Entonces para que $P(A)=0$ se tiene que cumplir que $P(d_i)=0$, y para que esto pase es suficiente que $P(d_{i_k})=0$. Eso quiere decir que $P$ tiene al menos a los $d_{i_k}$ como raíces, y entonces $(X-d_{i_1})(X-d_{i_2})\cdots (X-d_{i_k})$ divide a $P$.

Nota como esto es suficiente: encontramos un polinomio mónico, $(X-d_{i_1})(X-d_{i_2})\cdots (X-d_{i_k})$ que divide a cualquier $P$ tal que $P(A)=0$. Así

\begin{align*}
\mu_A(X)=(X-d_{i_1})\cdots (X-d_{i_k}).
\end{align*}

$\triangle$

Cambio de campos

En uno de los ejemplos argumentamos que el polinomio mínimo era $X^2+1$ porque este es irreducible sobre $\mathbb{R}$. Pero, ¿qué pasaría si cambiáramos nuestro campo a $\mathbb{C}$? La situación puede ser incluso más delicada: a una matriz con entradas racionales la podemos considerar como una instancia particular de una matriz con entradas reales, que a su vez podemos considerar como una matriz compleja. ¿Hay tres polinomios mínimos distintos? El siguiente teorema nos da una respuesta tranquilizante.

Teorema. Sean $F_1\subset F_2$ dos campos y $A\in M_n(F_1)$ una matriz, entonces el polinomio mínimo de $A$ vista como elemento de $M_n(F_1)$ y el polinomio mínimo de $A$ vista como elemento de $M_n(F_2)$ son iguales.

Demostración. Sea $\mu_1$ el polinomio de $A\in M_n(F_1)$ y $\mu_2$ el polinomio mínimo de $A\in M_n(F_2)$. Puesto que $F_1[X]\subset F_2[X]$, se tiene que $\mu_1\in F_2[X]$ y además $\mu_1(A)=0$ por definición. Luego $\mu_2$ necesariamente divide a $\mu_1$. Sean $d_1=\deg \mu_1$ y $d_2=\deg \mu_2$, basta verificar que $d_2\geq d_1$ y para que esto se cumpla basta con encontrar $P\in F_1[X]$ de grado a lo más $d_2$ tal que $P(A)=0$ (entonces $\mu_1$ dividiría a este polinomio y se sigue la desigualdad).

Desarrollando que $\mu_2(A)=0$ en todas sus letras (o mejor dicho, en todos sus coeficientes) se tiene

\begin{align*}
a_0 I_n+ a_1 A+\dots + a_{d_2} A^{d_2}=O_n.
\end{align*}

Esto es equivalente a tener $n^2$ ecuaciones homogéneas en las variables $a_0,\dots, a_{d_2}$. Como $A$ tiene entradas en $F_1$ los coeficientes de estas ecuaciones todos pertenecen a $F_1$. Tenemos un sistema de ecuaciones con coeficientes en $F_1$ que tiene una solución no trivial en $F_2$: tiene automáticamente una solución no trivial en $F_1$ por un ejercicio de la entrada de Álgebra Lineal I de resolver sistemas de ecuaciones usando determinantes. Esto nos da el polinomio buscado.

$\square$

Mínimos puntuales

Ahora hablaremos (principalmente a través de problemas resueltos) de otro objeto muy parecido al polinomio mínimo: el polinomio mínimo puntual. Este es, esencialmente un «polinomio mínimo en un punto». Más específicamente si $T:V\to V$ es lineal con polinomio mínimo $\mu_T$ y $x\in V$ definimos

\begin{align*}
I_x=\lbrace P\in F[X]\mid P(T)(x)=0\rbrace.
\end{align*}

Nota que la suma y diferencia de dos elementos en $I_x$ también está en $I_x$.

Problema 1. Demuestra que existe un único polinomio mónico $\mu_x\in F[X]$ tal que $I_x$ es el conjunto de múltiplos de $\mu_x$ en $F[X]$. Más aún, demuestra que $\mu_x$ divide a $\mu_T$.

Solución. El caso $x=0$ se queda como ejercicio. Asumamos entonces que $x\neq 0$. Nota que $\mu_T\in I_x$ puesto que $\mu_T(T)=0$. Sea $\mu_x$ el polinomio mónico de menor grado en $I_x$. Demostraremos que $I_x=\mu_x\cdot F[X]$.

Primero si $P\in \mu_x \cdot F[X]$ entonces por definición $P=\mu_x Q$ para algún $Q\in F[X]$ y entonces

\begin{align*}
P(T)(x)=Q(T)(\mu_x(T)(x))=Q(T)(0)=0.
\end{align*}

Así $P\in I_x$, y queda demostrado que $\mu_x \cdot F[X]\subset I_x$.

Conversamente, si $P\in I_x$ podemos usar el algoritmo de la división para llegar a una expresión de la forma $P=Q\mu_x+R$ para algunos polinomios $Q,R$ con $\deg R<\deg \mu_x$. Supongamos que $R\neq 0$. Similarmente a como procedimos antes, se cumple que $R= P-Q\mu_x\in I_x$ dado que $I_x$ es cerrado bajo sumas y diferencias. Dividiendo por el coeficiente principal de $R$, podemos asumir que $R$ es mónico. Entonces $R$ es un polinomio mónico de grado estrictamente menor que el grado de $\mu_x$, una contradicción a nuestra suposición: $\mu_x$ es el polinomio de grado menor con esta propiedad. Luego $R=0$ y $\mu_x$ divide a $P$.

Así queda probado que si $P\in I_x$ entonces $P\in \mu_x\cdot F[X]$, lo que concluye la primera parte del problema. Para la segunda, vimos que $\mu_T\in I_x$ y por tanto $\mu_x$ divide a $\mu_T$.

$\square$

Problema 2. Sea $V_x$ el subespacio generado por $x, T(x), T^2(x), \dots$. Demuestra que $V_x$ es un subespacio de $V$ de dimensión $\deg \mu_x$, estable bajo $T$.

Solución. Es claro que $V_x$ es un subespacio de $V$. Además, dado que $T$ manda a generadores en generadores, también es estable bajo $T$. Sea $d=\deg\mu_x$. Demostraremos que $x, T(x),\dots, T^{d-1}(x)$ forman una base de $V_x$, lo que concluiría el ejercicio.

Veamos que son linealmente independientes. Si $$a_0x+a_1T(x)+a_2T^2(x)+\dots+a_{d-1}T^{d-1}(x)=0$$ para algunos escalares $a_i$ no todos cero, entonces el polinomio

\begin{align*}
P=a_0+a_1X+\dots+a_{d-1}X^{d-1}
\end{align*}

es un elemento de $I_x$, pues $P(T)(x)=0$. Luego $\mu_x$ necesariamente divide a $P$, pero esto es imposible puesto que el grado de $P$ es $d-1$, estrictamente menor que el grado de $\mu_x$. Luego los $a_i$ deben ser todos nulos, lo que muestra que $x,T(x),T^2(x),\dots,T^{d-1}(x)$ es una colección linealmente independiente.

Sea $W$ el espacio generado por $x,T(x),\dots, T^{d-1}(x)$. Afirmamos que $W$ es invariante bajo $T$. Es claro que $T(x)\in W$, similarmente $T(T(x))=T^2(x)\in W$ y así sucesivamente. El único elemento «sospechoso» es $T^{d-1}(x)$, para el cual basta verificar que $T(T^{d-1}(x))=T^d(x)\in W$. Dado que $\mu_x(T)(x)=0$ y $\mu_x$ es mónico de grado $d$, existen escalares $b_i$ (más precisamente, los coeficientes de $\mu_x$) no todos cero tales que

\begin{align*}
T^{d}(x)+b_{d-1}T^{d-1}(x)+\dots+b_0 x=0.
\end{align*}

Esto nos muestra que podemos expresar a $T^d(x)$ en términos de $x, T(x),\dots, T^{d-1}(x)$ y por tanto $T^d(x)$ pertenece a $W$.

Ahora, dado que $W$ es estable bajo $T$ y contiene a $x$, se cumple que $T^{k}(x)\in W$ para todo $k\geq 0$. En particular $V_x\leq W$. Luego $V_x=W$ (la otra contención es clara) y $x,T(x),\dots, T^{d-1}(x)$ genera a $W$, o sea a $V_x$.

Mostramos entonces que $x,T(x),\dots, T^{d-1}(x)$ es una base para $V_x$ y así $\dim V_x=d$.

$\square$

Unos ejercicios para terminar

Presentamos unos últimos ejercicios para calcular polinomios mínimos.

Problema 1. Calcula el polinomio mínimo de $A$ donde

\begin{align*}
A= \begin{pmatrix}
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\end{pmatrix}.
\end{align*}

Solución. A estas alturas no tenemos muchas herramientas que usar. Comenzamos con calcular $A^2$:

\begin{align*}
A^2= \begin{pmatrix}
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\end{pmatrix}\cdot \begin{pmatrix}
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0\\ 0 &1 & 0 \\ 0 & 0 & 1\end{pmatrix}.
\end{align*}

Entonces en particular $A^2=I_3$. Así, el polinomio mínimo $\mu_A$ tiene que dividir a $X^2-1$. Este último se factoriza como $(X-1)(X+1)$, pero es claro que $A$ no satisface ni $A-I_3=0$ ni $A+I_3=0$. Entonces $\mu_A$ no puede dividir propiamente a $X^2-1$, y por tanto tienen que ser iguales.

$\triangle$

Problema 2. Calcula el polinomio mínimo de la matriz $A$ con

\begin{align*}
A=\begin{pmatrix}
1 & 2\\
0 & 1
\end{pmatrix}.
\end{align*}

Solución. Nota como

\begin{align*}
A-I_2=\begin{pmatrix} 0 & 2\\ 0 & 0\end{pmatrix}
\end{align*}

y es fácil verificar que el cuadrado de la matriz de la derecha es cero. Así $(A-I_2)^2=0$, o sea, el polinomio $P(X)=(X-1)^2$ anula a $A$. Similarmente al problema anterior, $\mu_A$ tiene que dividir a $P$, pero $P$ sólo tiene un factor: $X-1$. Dado que $A$ no satisface $A-I_2=0$ se tiene que $\mu_A$ no puede dividir propiamente a $P$, y entonces tienen que ser iguales. Luego $\mu_A=(X-1)^2=X^2-2X+1$.

$\triangle$

Más adelante…

En las entradas subsecuentes repasaremos los eigenvalores y eigenvectores de una matriz, y (como mencionamos) ligaremos el polinomio característico de una matriz con su polinomio mínimo para entender mejor a ambos.

Tarea moral

Aquí unos ejercicios para practicar lo que vimos.

  1. Encuentra una matriz $A$ cuyo polinomio mínimo sea $X^2$. Para cada $n$, ¿puedes encontrar una matriz cuyo polinomio mínimo sea $X^n$?
  2. Encuentra una matriz $A$ cuyo polinomio mínimo sea $X^2-1$. Para cada $n$, ¿puedes encontrar una matriz cuyo polinomio mínimo sea $X^n-1$?
  3. Encuentra el polinomio de la matriz $A$ en $M_n(F)$ cuyas entradas son todas $1$.
  4. Si $T:M_n(\mathbb{R})\to M_n(\mathbb{R})$ es la transformación que manda a cada matriz en su transpuesta, encuentra el polinomio mínimo de $T$.
  5. Sea $V$ un espacio vectorial y $x,y$ vectores linealmente independientes. Sea $T:V\to V$ una transformación lineal. ¿Cómo son los polinomios $P$ tales que $P(T)$ se anula en todo el subespacio generado por $x$ y $y$? ¿Cómo se relacionan con los polinomios mínimos puntuales de $T$ para $x$ y $y$?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Geometría Analítica I: Las ideas de Euclides y Descartes

Por Elsa Fernanda Torres Feria

Introducción

En la primer parte del curso desarrollaremos los formalismos de conceptos geométricos de los cuales ya tenemos alguna noción como puntos, rectas, el espacio vectorial $\mathbb{R}^2$, ángulos, distancias, entre otras. Es probable que ya tengas muchas de estas nociones previas, y que hayas trabajado con ellas incluso desde el punto de vista analítico. Sin embargo, es importante ir siguiendo las ideas poco a poco pues, además de aprender a hacer las operaciones necesarias, también hay que desarrollar la intuición matemática y geométrica detrás de las cuentas. Así mismo, será importante darse cuenta del orden en el que vamos construyendo los objetos, pues en muchas ocasiones no sólo calcularemos sino que demostraremos y para ello es fundamental basarse únicamente en cosas que ya se hayan probado antes.

En esta entrada en particular, hablaremos de dos formas en las que se ha formalizado a la geometría: mediante una construcción sintética propuesta por los griegos, y mediante una construcción analítica desarrollada por Descartes. La presentación que hacemos de estos temas es más moderna que como fueron planteados originalmente.

Geometría griega

Antes de que la geometría fuera formalizada, en sus inicios era mucho más una herramienta. Estaba conformada por reglas comúnmente usadas para cosas de la vida cotidiana como medir terrenos, construir casas y ciudades, y navegar.

La formalización de este conocimiento se dio por primera vez en Elementos, un texto escrito en el siglo III a.C. por Euclides de Alejandría; durante este proceso, Euclides se percató de que todo razonamiento riguroso debe tener bases previamente establecidas que bien pueden haberse demostrado con anterioridad o que son válidas sin necesidad de demostración. Esta última opción hace referencia a principios básicos que están dados y son incontrovertibles, de tal manera que se puede construir sobre ellos el resto de la teoría.

Para formalizar una teoría, necesitamos objetos y principios básicos. En el caso de la geometría euclideana, los objetos son las nociones intuitivas que tenemos: puntos, rectas, planos, ángulos, etc. Los principios básicos, que se asumen como ciertos desde el inicio se les conoce como los cinco postulados de Euclides:

  1. Por cualesquiera dos puntos, se puede trazar el segmento de recta que los une.
  2. Dado un punto y una distancia, se puede trazar el círculo con centro en el punto y cuyo radio es la distancia.
  3. Un segmento de recta se puede extender en ambas direcciones indefinidamente.
  4. Todos los ángulos rectos son iguales.
  5. Dadas dos rectas y una tercera que las corta, si los ángulos internos de algún lado suman menos de dos ángulos rectos (180°), entonces las dos rectas se cortan y lo hacen de ese lado.

Este último postulado resulta tener dos versiones que son equivalentes y que enunciamos a continuación:

5.a. Dada una línea recta y un punto fuera de ella, existe una única recta que pasa por el punto y que es paralela a la línea.

5.b. Los ángulos interiores de un triángulo suman dos ángulos rectos.

El quinto postulado resultó ser muy controvertido y en el transcurso de la historia muchos geómetras intentaron mostrar que se desprendía de las definiciones y de los primeros cuatro. Pero esto resultó no ser cierto. Se descubrió que al tomar distintas negaciones del quinto postulado se podían obtener distintas geometrías, tan válidas y tan ricas como la geometría euclideana misma. Esto no lo trataremos en este curso, pero si te interesa conocer más, puedes investigar acerca de la geometría proyectiva o hiperbólica.

Del plano euclideano al plano cartesiano y viceversa

Continuando con la formalización de la geometría, el siguiente paso en este camino lo dio Descartes en su publicación Géométrie al introducir el álgebra en la solución de problemas de índole geométrica. Este camino inicia al buscar la forma de representar puntos en el plano por parejas de números. Para esto partimos del plano euclidiano que está bien definido por los cinco axiomas descritos por Euclides. Pensaremos que este plano consiste de puntos y que se extiende indefinidamente. Pensaremos también que en este plano los objetos que se mencionan en los postulados tienen sentido (punto, distancia, etc.). Llamaremos a este plano $\mathbb{E}^2$, donde el exponente en este caso hace referencia a la dimensión.

Notemos ahora que los puntos de una recta $l_1$ contenida en el plano ($l_1 \in \mathbb{E}^2$) representan a los números reales ($\mathbb{R}$) y que se vale lo contrario también (los reales pueden ser representados por una recta dentro de $\mathbb{E}^2$). Para ello, escogemos un punto $ O \in l_1$ al que denotaremos como origen y le asignaremos el valor real cero. Para que sea tangible la representación de los reales con esta recta, designamos que del lado derecho de $O$ se tienen los números positivos de acuerdo con su distancia al origen y del lado izquierdo los negativos. Así, a cada número real $x$ se le asocia un punto $P \in l_1$ (y a cada punto en $l_1$ le corresponde un número real).

El siguiente paso consiste en construir otra recta, digamos $l_2$, que también pase por $O$ y algún otro punto $Q$ (nótese que $l_1$ y $l_2$ fueron construidas utilizando los postulados 1 y 3 de Euclides). Orientemos a $l_2$ de la misma manera que a $l_1$ para que sus puntos representen a los números reales. Entonces, se tiene la correspondencia biunívoca entre puntos en $ \mathbb{E}^2$ y parejas de números reales gracias al postulado 5.a:

  • De punto en el plano a pareja de números: Existe una única recta $l_1’$ que pasa por $P$ y es paralela a $l_1$; análogamente existe una única recta $l_2’$ que pasa por $P$ y es paralela a $l_2$. Las intersecciones de las rectas $l_1 \cap l_2’$ y $l_2 \cap l_1’$ determinan los puntos $p_1 \in l_1$ y $q_1 \in l_2$ que definen dos números reales $x$ y $y$; esto es, una pareja ordenada $(x,y)$.
  • De pareja de números a punto en el plano: Para esta correspondencia se hace la construcción inversa, dada una pareja de números $(x,y)$, consideremos a $p_1 \in l_1$ como el punto sobre $l_1$ que se encuentra a distancia $x$ del origen y a $q_1 \in l_2$ como el punto a distancia $y$ de $O$. Sea $l_1’$ la recta que pasa por $q_1$ paralela a $l_1$ y sea $l_2’$ la recta que pasa por $p_1$ paralela a $l_2$; la intersección $l_1′ \cap l_2’$ es el punto $A$ que corresponde a la pareja $(x,y)$.

En el siguiente interactivo puedes jugar con la segunda parte de la construcción. Da clic para que se active y luego mueve los deslizadores para cambiar los valores de $X$ y $Y$. Al elegirlos, se realizará la construcción del punto $A$ de manera automática.

Así, hemos definido un sistema de coordenadas al elegir un punto $O$ (que corresponde al origen), una línea que conecta a este con un punto $P$ y otra línea que conecta a $O$ con un punto $Q$ (puntos distintos entre ellos) y al establecer las convenciones de signo.

La construcción que hicimos es muy general, y para nuestros propósitos será mejor centrarnos en el caso en el que las rectas $l_1$ y $l_2$ son ortogonales (forman un ángulo de 90°). Tradicionalmente, $l_1$ es conocida como el eje x y suele ser una línea horizontal cuya dirección positiva está hacia la derecha; $l_2$ (vertical y con dirección positiva hacia arriba) es conocida como el eje y. Este caso particular es conocido como los ejes cartesianos canónicos.

Plano cartesiano en 2 dimensiones.

Si resumimos lo que hemos desarrollado hasta ahora tenemos que, al fijar los ejes coordenados, a cada pareja de números $(x,y)$ le corresponde un punto $\textbf{a} \in \mathbb{E}^2$; además, esta relación también se vale en el otro sentido, por lo que podemos escribir que $\textbf{a}=(x,y)$. A este punto (o par de coordenadas) se le puede asignar una flecha (recta con dirección conocido como vector) que parte del origen y termina en el punto.

En el siguiente interactivo, puedes mover el punto $C$ para ver cómo cambia la flecha que une al origen con $C$.

Para concluir esta entrada, notemos que el procedimiento realizado lo podemos repetir para $n$ líneas; si bien en esta entrada construimos un sistema coordenado con $l_1$ y $l_2$, podemos agregar una $l_3$ que pase por el origen y que sea perpendicular a las otras dos líneas para llevar el plano al espacio (tri-dimensional).

Plano cartesiano en 3 dimensiones.

Más adelante…

En esta entrada construimos el puente entre el espacio descrito por Euclides y el álgebra que implementó Descartes obteniendo entonces el plano cartesiano en dos dimensiones. Esto servirá como base durante todo el curso y en especial para la siguiente entrada en la cual se hablará del espacio vectorial $\mathbb{R}^2$.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Demuestra (no muy formalmente) la equivalencia entre el postulado 5, 5.a y 5.b. Sugerencia: Hazlo meramente con dibujos, intenta llegar de la representación de un postulado al otro de manera gráfica.
  • Ubica en el plano cartesiano de dos dimensiones los siguientes puntos:
    • $(2,3)$, $(7,1)$, $(5,10)$
    • $(-1,-5)$, $(-6,-2)$, $(-5,-8)$
    • $(-2,7)$, $(-5,4)$, $(-2,7)$
    • $(4,-3)$, $(2,-1)$, $(4,-5)$
      ¿Notas algún patrón entre los vectores de cada renglón relacionado a dónde quedan con respecto al eje $x$ y al eje $y$?
  • A partir del ejercicio anterior, identifica los cuadrantes (regiones del plano cartesiano divididas por los ejes) en los que las parejas de números tienen signos determinados: $(+,+)$, $(-,-)$, $(-,+)$, $(+,-)$.
  • ¿Cómo son los puntos $(x,y)$ en el plano cartesiano que cumplen que $x=1$? ¿Aquellos que cumplen $y=2$? ¿Y si $y<3$? ¿Y si $1\leq x < 5$?
  • Describe cómo sería la construcción del plano cartesiano de tres dimensiones siguiendo el procedimiento visto en esta entrada.

Geometría Analítica I: Introducción al curso

Por Leonardo Ignacio Martínez Sandoval

Introducción

Bienvenido al curso de Geometría Analítica I. A través de esta serie de entradas cubriremos el temario oficial del programa de la materia tal y como se requiere en la Facultad de Ciencias de la UNAM. Esto incluye desarrollar no sólo habilidades para ejecutar procedimientos («hacer cuentitas»), sino también aquellas que nos permitan deducir los resultados que obtendremos a través de razonamientos lógicos («demostrar»).

Pre-requisitos del curso

En la mayoría de las entradas seguiremos un flujo matemático, en el cual escribiremos definiciones, proposiciones, ejemplos, teoremas y otro tipo de enunciados matemáticos. Siempre que digamos que algo sucede, es importante argumentar o justificar por qué es esto, es decir, que demos una demostración. Las demostraciones nos ayudarán a justificar que ciertos procedimientos (para encontrar distancias, ángulos, etc.) son válidos.

Para entender un poco más al respecto, te recomendamos leer las siguientes dos entradas, o incluso llevar a la par un curso de Álgebra Superior I:

Además de estos pre-requisitos de pensamiento lógico, haremos un repaso de algunos conceptos fundamentales de geometría, como los has visto en etapas anteriores de tu educación (punto, línea, segmento, triángulo, distancia, etc.). Si bien el objetivo es que más adelante todo lo construiremos «desde cero», el recordar estos conceptos te ayudará mucho en la intuición de por qué ciertas cosas las definimoxs como lo haremos, y por qué ciertos enunciados que planteamos «deben ser ciertos».

Finalmente, también supondremos que sabes manejar a buen nivel las operaciones y propiedades en $\mathbb{R}$ (los números reales). Por ejemplo, que la suma es conmutativa ($a+b=b+a$), que se distribuye con el producto ($a(b+c)=ab+ac$), etc. Si bien en otros cursos se definen a los reales con toda formalidad, para este curso sólo será importante que sepas hacer estas operaciones.

La idea fundamental

La geometría se trata de figuras, de ver, de medir. El álgebra se trata de sumar, de operar, de comparar. La idea clave que subyace a la geometría analítica, como la veremos en este curso, es la siguiente:

La geometría y el álgebra son complementarias e inseparables, ninguna con más importancia sobre la otra. Podemos entender al álgebra a partir de la geometría, y viceversa.

Un ejemplo muy sencillo que se ve desde la educación básica es que la suma de reales se corresponde con «pegar segmentos». Si en la recta real tenemos un segmento de longitud $a$ y le pegamos un segmento de longitud $b$ (iniciando el segundo donde termina el primero), entonces el segmento que se obtiene tiene longitud $a+b$. Si bien es obvio, cuando estemos estableciendo los fundamentos tendremos que preguntarnos, ¿por qué pasa? ¿qué es pegar segmentos?

Nuestro objetivo será entender a profundidad muchas de estas equivalencias.

Interactivos

En este curso procuraremos incluir interactivos para que explores las ideas que vayamos introduciendo. Si bien un interactivo no reemplaza a una demostración, lo cierto es que sí ayuda muchísimo a ver más casos en los cuales una proposición o teorema se cumple. Nuestros interactivos están hechos en GeoGebra y necesitarás tener activado JavaScript en tu navegador.

En el siguiente interactivo puedes mover los puntos $A$, $B$ y $C$. Observa como la suma de las longitudes de dos segmentos siempre es igual a la longitud del tercero. ¿Qué pasa si $B$ «se pasa de $C$»? ¿Cuál segmento es la suma de los otros dos?

Te recomendamos fuertemente que dediques por lo menos un rato a jugar con los interactivos: intenta ver qué se puede mover, qué no, qué cosas piensas que suceden siempre y para cuales crees que haya ejemplos que fallen.

Como sugerencia, en el interactivo de GeoGebra puedes hacer clic en el ícono de pantalla completa, para que tengas más espacio para explorar:

Una vez que termines tu exploración, para salir puedes pulsar la tecla ESC, o bien usar el botón de salir de pantalla completa:

Más adelante…

En esta entrada platicamos de cómo son las notas del curso en general. Platicamos de pre-requisitos y de la idea fundamental que subyace al curso. A partir de la siguiente entrada comenzaremos con un repaso de objetos y resultados geométricos con los que probablemente estés familiarizado, debido a que se estudian en etapas educativas previas.

Más adelante, cuando iniciemos con el tratamiento teórico de la materia, hablaremos de dos visiones de geometría: la sintética y la analítica. Veremos un primer resultado que nos dice que, en realidad, ambas están muy relacionadas entre sí.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Escribe en una hoja de papel o en un documento digital qué significan para ti los siguientes términos: punto, línea, círculo, plano, semiplano, elipse, intersección, alineado, longitud, ángulo, dirección, vector. ¿En cuáles de estas palabras tuviste que usar las otras? ¿En cuáles no? Más adelante formalizaremos cada una de estas.
  2. Explora el inicio del siguiente libro digital: Euclides de Byrne.
  3. Si aprendes a manejar GeoGebra por tu cuenta, podrás hacer interactivos tú mismo. Si te interesa esto, revisa el siguiente curso de GeoGebra.
  4. ¿Cómo le harías para a cada punto del plano asociarle una pareja de números reales? ¿Cómo le harías para a cada pareja de números reales asociarle un punto en el plano?
  5. Si la suma de números corresponde a pegar segmentos, ¿a qué corresponde la multiplicación de números?

Entradas relacionadas

Álgebra Lineal II: Aplicar polinomios a transformaciones lineales y matrices

Por Julio Sampietro

Introducción

Varios de los resultados fundamentales de Álgebra Lineal se obtienen al combinar las idea de transformaciones lineales con la de polinomios. El objetivo de esta entrada es introducir el concepto de «aplicar polinomios a matrices» o equivalentemente «aplicar polinomios a transformaciones lineales». La idea fundamental es simple: las potencias en los polinomios se convierten en repetidas aplicaciones de la transformación y las constantes en múltiplos de la identidad. Si bien esta idea es simple, más adelante veremos aplicaciones importantes y con un gran alcance. Uno de los resultados cruciales que surge de esta idea es el conocido teorema de Cayley-Hamilton.

Primeras construcciones

Sea $V$ un espacio vectorial sobre un campo $F$, y sea $T:V\to V$ una transformación lineal. Definimos a la transformación $T^n:V\to V$ para cualquier $n\in \mathbb{N}$ inductivamente a través de

\begin{align*}
T^0=\operatorname{Id}, \hspace{5mm} T^{i+1}= T\circ T^{i},
\end{align*}

donde, recordamos, $\operatorname{Id}$ es la transformación identidad. Intuitivamente, $T^n$ es la «$n$-ésima composición» de $T$. Por ejemplo, $T^3(v)$ no es más que $T(T(T(v)))$ y $T^0(v)$ es simplemente «no usar $T$ para nada», es decir, $\operatorname{Id}(v)=v$. Al componer iteradamente $T$, sigue siendo una transformación lineal de $V$ a $V$, así que $T^n$ es transformación lineal de $V$ a $V$ para todo entero $n\geq 0$.

Ya que hablamos de «potencias» de una transformación lineal, podemos rápidamente hacer sentido de un «polinomio evaluado en una transformación lineal». Si $$P(X)=a_0+a_1X+a_2X^2+\dots + a_n X^n\in F[X]$$ es un polinomio, definimos $P(T):V\to V$ como

\begin{align*}
P(T):= a_0 T^{0}+ a_1 T^1+ a_2 T^2+\dots +a_n T^n.
\end{align*}

Como las transformaciones lineales de $V$ a $V$ son cerradas bajo combinaciones lineales, entonces $P(T)$ también es una transformación lineal de $V$ a $V$.

Ejemplo. Tomemos a la transformación $T:\mathbb{R}^2\to \mathbb{R}^2$ dada por $T(x,y)=(2x-2y,x+y)$. Tomemos al polinomio $P(x)=x^3-2x+4$. ¿Quién es la transformación $P(T)$? Calculemos primero las «potencias» de $T$:

\begin{align*}
T^0(x,y)&=(x,y)\\
T^1(x,y)&=T(x,y)\\
&=(2x-2y,x+y)\\
T^2(x,y)&=T(T(x,y))\\
&=T(2x-2y,x+y)\\
&=(2(2x-2y)-2(x+y),(2x-2y)+(x+y))\\
&=(2x-6y,3x-y)\\
T^3(x,y)&=T(2x-6y,3x-y)\\
&=(-2x-10y,5x-7y).
\end{align*}

Ahora sí, ya podemos saber qué hace $P(T)$. Tenemos:

\begin{align*}
P(T)(x,y)&=(T^3-2T+4\text{Id})(x,y)\\
&=(-2x-10y,5x-7y)-2(2x-2y,x+y)+4(x,y)\\
&=(-2x-6y,3x-5y).
\end{align*}

$\triangle$

Sumas y productos de polinomios

Las operaciones suma y producto de polinomios se traducen, respectivamente, a suma y composición de las evaluaciones en transformaciones lineales. Esta es una linda propiedad que podemos hacer precisa gracias a la siguiente proposición.

Proposición. Si $P_1, P_2\in F[X]$ son dos polinomios y $T:V\to V$ es una transformación lineal, entonces

  1. $ (P_1+P_2)(T)=P_1(T)+P_2(T)$,
  2. $(P_1P_2)(T)=P_1(T)\circ P_2(T)$.

Te invitamos a demostrar esta proposición. Advertimos que, sin embargo, no se cumplen identidades como $$P(T_1+T_2)=P(T_1)+P(T_2)$$ o bien $$P(T_1\circ T_2)=P(T_1)\circ P(T_2).$$ Un contraejemplo para la primera identidad podría ser tomar$P(X)=X^2$ y $T_1=T_2=\operatorname{Id}$. En este caso

\begin{align*}
P(T_1+T_2)&=(T_1+T_2)^2\\&= 4\operatorname{Id}\\&\neq 2\operatorname{Id}\\&=P(T_1)+P(T_2).
\end{align*}

Dejamos como ejercicio el verificar que la segunda identidad tampoco es cierta en general. Fijando $T$, podemos juntar a todas las transformaciones de la forma $P(T)$ para algún $P$ en la siguiente estructura.

Definición. La $F$-álgebra generada por la transformación $T$ es el conjunto

\begin{align*}
F[T]=\lbrace P(T)\mid P\in F[X]\rbrace.
\end{align*}

Una consecuencia de la proposición anterior (es más, ¡una mera traducción!) es la siguiente.

Proposición. Para cualesquiera $x,y\in F[T]$ y $c\in F$ se cumple que $x+cy\in F[T]$ y $x\circ y\in F[T].$ Es decir, $F[T]$ es un subespacio del espacio de todas las transformaciones lineales de $V$ en $V$ que además es estable bajo composición.

También puedes verificar que $F[T]$ es el subespacio más chico (en el sentido de contención) del espacio de transformaciones lineales en $V$ que contiene a $T$, a $\operatorname{Id}$ y que es cerrado bajo composiciones.

Lo mismo pero con matrices

Desde Álgebra Lineal I sabemos que una transformación lineal se corresponde de manera biunívoca (fijando una base) con una matriz. Nuestra discusión previa se puede adaptar a este vocabulario, y eso es lo que haremos ahora.

Si $A\in M_n(F)$ es una matriz cuadrada de orden $n$ con coeficientes en $F$, podemos entender a $A^n$ simplemente como el $n$-ésimo producto de $A$ consigo misma. Luego si $$P(X)=a_0+a_1X+a_2 X^2+\dots +a_n X^n\in F[X]$$ es un polinomio, definimos

\begin{align*}
P(A):= a_0 I_n +a_1 A+ a_2 A^2+\dots+ a_n A^n.
\end{align*}

Se cumple que $(PQ)(A)=P(A)\cdot Q(A)$ para cualesquiera polinomios $P,Q$ y cualquier matriz $A$. Similarmente el álgebra generada por $A$ se define como

\begin{align*}
F[A]=\lbrace P(A)\mid P\in F[X]\rbrace,
\end{align*}

y es un subespacio de $M_n(F)$ que es cerrado bajo producto de matrices.

Ejemplo. Consideremos la matriz $A=\begin{pmatrix}2&-2\\1&1\end{pmatrix}$. Consideremos el polinomio $P(x)=x^3-2x+4$. ¿Quién es la matriz $P(A)$? Usando la definición, primero nos enfocaremos en encontrar las potencias de $A$. Puedes verificar por tu cuenta que:

\begin{align*}
A^0&=\begin{pmatrix}1&0\\0&1\end{pmatrix}\\
A^1&=\begin{pmatrix}2&-2\\1&1\end{pmatrix}\\
A^2&=\begin{pmatrix}2&-6\\3&-1\end{pmatrix}\\
A^3&=\begin{pmatrix}-2&-10\\5&-7\end{pmatrix}
\end{align*}

De esta manera,

\begin{align*}
P(A)&=A^3-2A+4I_2\\
&=\begin{pmatrix}-2&-10\\5&-7\end{pmatrix} – 2 \begin{pmatrix}2&-2\\1&1\end{pmatrix} + 4 \begin{pmatrix}1&0\\0&1\end{pmatrix}\\
&=\begin{pmatrix}-2&-6 \\ 3 & -5 \end{pmatrix}.
\end{align*}

$\triangle$

Este ejemplo se parece mucho al ejemplo que hicimos cuando evaluamos un polinomio en una transformación $T$. Esto no es casualidad, y se puede resumir en la siguiente observación.

Observación. Si $A$ es la matriz asociada a $T$ en alguna base, entonces $P(A)$ es la matriz asociada a $P(T)$ en dicha base.

Unos problemas para calentar

A continuación veremos algunos unos cuantos problemas resueltos para que te familiarices con los conceptos que acabamos de ver de manera un poco más teórica.

Problema 1.

  1. Si $A,B\in M_n(F)$ son matrices con $B$ invertible, demuestra que para cualquier $P\in F[X]$ se cumple
    \begin{align*}
    P(BAB^{-1})=BP(A)B^{-1}.
    \end{align*}
  2. Demuestra que si $A,B\in M_n(F)$ son similares, entonces $P(A)$ y $P(B)$ son similares para cualquier $P\in F[X]$.

Solución.

  1. Primero supongamos que $P(X)=X^k$ para alguna $k\geq 1$. Necesitamos demostrar que $\left(BAB^{-1}\right)^{k}= BA^{k}B^{-1}$, y esto lo podemos verificar sencillamente pues
    \begin{align*}
    (BAB^{-1})\cdot (BAB^{-1})\cdots (BAB^{-1})&= BA(B^{-1} B) A \cdots (B^{-1}B)AB^{-1}\\
    &= BA^{k}B^{-1},
    \end{align*}
    donde usamos que $BB^{-1}=I_n$. Más generalmente, si $P(X)=a_0+a_1 X+a_2X^2+\dots +a_n X^n$ entonces
    \begin{align*}
    P(BAB^{-1})&= \sum_{i=0}^{n} a_i (BAB^{-1})^{i}\\
    &= \sum_{i=0}^{n}a_i BA^{i}B^{-1}\\
    &= B\left(\sum_{i=0}^{n} a_i A^{i}\right)B^{-1}\\
    &= BP(A)B^{-1}
    \end{align*}
    que es lo que queríamos demostrar.
  2. Como $A$ y $B$ son similares, existe $C$ invertible tal que $A=CBC^{-1}$. Por el inciso anterior tenemos
    \begin{align*}
    P(A)=P(CBC^{-1})=CP(B)C^{-1}.
    \end{align*}
    Así, $P(A)$ y $P(B)$ son similares.

$\square$

Problema 2. Considera la matriz

\begin{align*}
A=\begin{pmatrix}
0 & 1 & -1\\
-2 & 0 & 3\\
0 & 0 & 4
\end{pmatrix}
\end{align*}

así como el polinomio $P(X)=X^2+2X-1$. Calcula $P(A)$.

Solución. Es cuestión de hacer los cálculos. Vemos que

\begin{align*}
A^2= \begin{pmatrix}
-2 & 0 & -1\\
0 & -2 & 14\\
0 & 0 & 16
\end{pmatrix}
\end{align*}

y así

\begin{align*}
P(A)&=A^2+2A-I_3\\&=\begin{pmatrix}
-2 & 0 & -1\\
0 & -2 & 14\\
0 & 0 & 16
\end{pmatrix} + 2\begin{pmatrix}
0 & 1 & -1\\
-2 & 0 & 3\\
0 & 0 & 4
\end{pmatrix} -\begin{pmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1
\end{pmatrix}\\
&=\begin{pmatrix}
-3 & 2 & -3\\
-4 & -3 & 20\\
0 & 0 & 23
\end{pmatrix}.
\end{align*}

$\triangle$

Problema 3. Si $A$ es simétrica, demuestra que $P(A)$ es simétrica para cualquier polinomio $P$.

Solución. La demostración se basa en los siguientes hechos:

  1. Si $A=(a_{ij})$ y $B=(b_{ij})$ son matrices simétricas y $c\in F$ es un escalar, entonces $A+cB$ es simétrica, puesto que
    \begin{align*}
    (A+cB)_{ij}= a_{ij}+cb_{ij}= a_{ji}+cb_{ji}= (A+cB)_{ji}.
    \end{align*}
  2. Si $A,B$ son simétricas, su producto es una matriz simétrica. De nuevo, basta con hacer el cálculo
    \begin{align*}
    (AB)_{ij}=\sum_{k=1}^{n} a_{ik}b_{kj}=\sum_{k=1}^{n} b_{jk}a_{ki}= (AB)_{ji} .
    \end{align*}
  3. Usando el inciso anterior, se sigue que si $A$ es simétrica, entonces $A^{k}$ es simétrica para toda $k\geq 1$. Además, $I_n$ es simétrica y por el primer punto tenemos que toda combinación lineal de matrices simétricas es simétrica. En particular $P(A)$ es simétrica.

$\square$

Problema 4. Sea $V$ el espacio vectorial de todas las funciones $f:\mathbb{R}\to \mathbb{R}$ infinitamente diferenciables. Sea $T:V\to V$ dada por $T:f\mapsto f’$. ¿Puedes encontrar un polinomio $P\in \mathbb{R}(X)$ distinto de cero tal que $P(T)=0$?

Solución. No es posible encontrar dicho polinomio. Suponiendo que sí, tendríamos que $P(T)$ es una ecuación diferencial polinomial de orden $n$, es decir, a cada función la evaluamos en una combinación

\begin{align*}
a_0f+a_1f’+a_2f»+\dots + a_n f^{n}
\end{align*}

donde $f^n$ es la $n$-ésima derivada. Si $P(T)$ es idénticamente cero, tenemos que toda función suave $f$ satisface esta ecuación. En particular tenemos que la constante $g(x)=1$ la satisface. Así $g’=g»=\dots=g^{n}=0$ y entonces

\begin{align*}
P(T)(g)= a_0 g+a_1g+\dots +a_ng^{n}=a_0=0.
\end{align*}

Concluimos que $a_0=0$. Luego, si consideramos a la función identidad $h(x)=x$ entonces también se tiene que cumplir la ecuación (recordamos que ya eliminamos el término $a_0$). Así

\begin{align*}
P(T)(h)= a_1h’+a_2h»+\dots +a_nh^{n}= a_1=0,
\end{align*}

donde usamos que $h'(x)=1$ y todas las derivadas de orden superior son cero. Continuando con este proceso (evaluando en $x^2,x^3,\ldots$) llegamos a que todos los coeficientes $a_i$ son cero. Esto quiere decir que el polinomio era nulo en primer lugar.

$\triangle$

Más adelante…

En entradas subsecuentes estudiaremos polinomios de matrices con propiedades especiales, como por ejemplo el polinomio mínimo, que se distinguen por sus deseables propiedades algebraicas. Este es el primer paso hacia el teorema de Cayley-Hamilton.

Tarea moral

Aquí hay unos ejercicios para que practiques lo visto en esta entrada.

  1. Compara el ejemplo que se dio de evaluar un polinomio en una transformación $T$ con el de evaluar un polinomio en una matriz $A$. ¿Por qué se parecen tanto?
  2. Considera $V$ el espacio vectorial de funciones $C^\infty$ en el intervalo $[0,2\pi]$ y $D:V\to V$ a la transformación que manda una función a su derivada, es decir $D(f)=f’$. Encuentra un polinomio $P$ tal que $P(D)(\sin(x)+\cos(x))$ sea la función cero.
  3. Demuestra que si $A$ es una matriz diagonal, $P(A)$ también es diagonal.
  4. Si
    \begin{align*}
    A=\begin{pmatrix}
    1 & 2\\
    0 &-1\end{pmatrix}
    \end{align*}
    y $P(X)=X^3-X^2+X-1$, calcula $P(A)$.
  5. Generaliza el último problema de la entrada como sigue: Si $V$ es un espacio vectorial y $T:V\to V$ es tal que existen elementos $v_i$ con $i\in \mathbb{N}$ que cumplen $T^{i}(v_i)\neq 0$ y $T^{j}(v_i)=0$ para $j>i$, entonces no existe $P$ no nulo tal que $P(T)$ sea cero.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»