Archivo de la etiqueta: polinomio

Álgebra Lineal II: Polinomio característico de familias especiales

Introducción

En la entrada anterior dimos la definición de polinomio característico. Vimos que siempre es un polinomio mónico y que su grado es exactamente del tamaño de la matriz. También, vimos cómo calcular el polinomio mínimo en algunos casos particulares. En esta entrada veremos varias propiedades que nos van a facilitar el calcular el polinomio característico (y por tanto los eigenvalores) en un amplio rango de matrices diferentes.

Comenzaremos estudiando el polinomio mínimo de las triangulares superiores. Luego, veremos cómo calcular el polinomio de matrices nilpotentes. No solo nos harán la vida más fácil los resultados a continuación, si no que los usaremos en la teoría más adelante.

Matrices triangulares superiores y transpuestas

El caso de las matrices triangulares superiores es muy sencillo, como veremos a través del siguiente problema.

Problema. Sea $A=[a_{ij}]$ una matriz triangular superior. Demuestra que

\begin{align*}
\chi_A(X)=\prod_{i=1}^{n}(X-a_{ii}).
\end{align*}

Solución. La matriz $X I_n-A$ sigue siendo triangular superior, y sus entradas diagonales son precisamente $X-a_{ii}$. Usando que el determinante de una matriz triangular superior es el producto de sus entradas diagonales y usando la definición se sigue que

\begin{align*}
\chi_A(X)=\det(X I_n-A)=\prod_{i=1}^{n} (X-a_{ii}).
\end{align*}

$\square$

Ejemplo. Si queremos calcular el polinomio característico de la matriz

\begin{align*}
A=\begin{pmatrix}
1 & -\pi & \sqrt{2}\\
0 & -2 & 10^{10}\\
0 & 0 &3
\end{pmatrix}.
\end{align*}

entonces podemos aplicar el problema anterior y deducir inmediatamente que

\begin{align*}
\chi_A(X)=(X-1)(X+2)(X-3).
\end{align*}

¡Qué complicado hubiera sido calcular el determinante a pie!

$\square$

Por otro lado, recordando la demostración que dice que los eigenvalores de la transpuesta de una matriz son iguales a los de la matriz original era de esperarse que el polinomio característico también «se portara bien» bajo transposición.

Problema. Demuestra que las matrices $A$ y $^{t}A$ tienen el mismo polinomio característico para cualquier $A\in M_n(F)$.

Solución. Notamos que $^{t}(X I_n-A)= XI_n-\ ^{t}A$. Como una matriz y su transpuesta tienen el mismo determinante se tiene que

\begin{align*}
\chi_A(X)&=\det(XI_n-A)\\&=\det(\ ^{t}(XI_n-A))\\&= \det(XI_n-\ ^{t}A)\\&=\chi_{^t A}(X).
\end{align*}

$\square$

Estrictamente hablando, estamos haciendo un poquito de trampa en la demostración anterior (y de hecho en varias que involucran a la variable $X$). Las propiedades de determinantes que hemos visto (como que una matriz y su transpuesta tienen el mismo determinante) las obtuvimos partiendo de la hipótesis de que las entradas vienen de un campo $F$. Pero cuando agregamos a la variable $X$, ahora las entradas vienen más bien de un anillo: el anillo de polinomios en $F[X]$. Aunque esto parezca un problema, en realidad no lo es. Las propiedades que usamos pueden mostrarse también en ese contexto.

Veamos ahora cómo podemos aplicar el resultado anterior en un ejemplo concreto.

Ejemplo. Queremos calcular el polinomio característico de la matriz

\begin{align*}
A= \begin{pmatrix} 0 & 0 &0\\ -4 & 9 & 0\\ -1 & -1 & 2.\end{pmatrix}
\end{align*}

Para esto notamos que

\begin{align*}
^t A=\begin{pmatrix} 0 & -4 & -1\\ 0 & 9 & -1\\ 0 & 0 & 2\end{pmatrix}
\end{align*}

que es triangular superior. Usando el primer problema

\begin{align*}
\chi_{^t A}(X)= X(X-9)(X-2).
\end{align*}

Finalmente por el último problema $$\chi_{A}(X)=\chi_{^t A}(X)=X(X-9)(X-2).$$

$\square$

El término de la traza

Como vimos en la entrada anterior, en el polinomio $\det(XA+B)$ aparecen los términos $\det(A)$ y $\det(B)$. El siguiente problema aplica esto al polinomio característico e incluso deducimos otro término: la traza.

Problema. Demuestra que el polinomio característico de $A\in M_n(F)$ es de la forma

\begin{align*}
\chi_A(X)= X^n- \operatorname{Tr}(A)X^{n-1}+\dots+(-1)^n \det A.
\end{align*}

Solución. Regresemos a la definición

\begin{align*}
\det (X I_n-A)=\sum_{\sigma\in S_n} \operatorname{sign}(\sigma)\left(X\delta_{1\sigma(1)}-a_{1\sigma(1)}\right)\cdots \left(X \delta_{n\sigma(n)}-a_{n\sigma(n)}\right).
\end{align*}

Haciendo la expansión salvajemente podemos recuperar al menos los primeros términos:

\begin{align*}
(X\delta_{1\sigma(1)}-a_{1\sigma(1)})\cdots (X\delta_{n\sigma(n)}-a_{n\sigma(n)})&=X^{n}\prod_{i=1}^{n} \delta_{i\sigma(i)}\\
&- X^{n-1}\sum_{j=1}^{n}\left(\prod_{k\neq j} \delta_{k\sigma(k)}\right)a_{j\sigma(j)}+\dots.
\end{align*}

Más aún, nota cómo el producto $\prod_{j=1}^{n}\delta_{j\sigma(j)}$ es distinto de cero si y sólo si $j=\sigma(j)$ para todo $j$: es decir si $\sigma$ es la identidad. Esto muestra que $\chi_A(X)$ es mónico de grado $n$, como ya habíamos mencionado en la entrada anterior.

Además, el término constante está dado por \begin{align*}\chi_A(0)&=\det(0\cdot I_n-A)\\&=\det(-A)\\&=(-1)^{n}\det(A)\end{align*}. Alternativamente pudimos haber usado la primera proposición de esta entrada para concluir estos hechos.

Nos falta estudiar el término de grado $n-1$. Si $j\in \{1,2,\dots, n\}$, entonces $\prod_{k\neq j}\delta_{j\sigma(j)}$ es distinto de cero solo si $\sigma(k)=k$ para todo $k\neq j$: pero $\sigma$ es una permutación, en particular una biyección, lo que fuerza que $\sigma(j)=j$ también y entonces $\sigma$ sea la identidad. Entonces el término de $X^{n-1}$ en $$(X\delta_{1\sigma(1)}-a_{1\sigma(1)})\cdots (X\delta_{n\sigma(n)}-a_{n\sigma(n)})$$ es distinto de cero sólo cuando $\sigma$ es la identidad. En ese caso es precisamente $$-\sum_{j=1}^{n} a_{jj}=-\operatorname{Tr}(A).$$

$\square$

Ejemplo. Si $A$ es la matriz del primer problema de esta entrada, tenemos que

\begin{align*}
\chi_A(X)&=(X-1)(X+2)(X-3)\\&= X^3-2 X^2+\dots +6.
\end{align*}

Nota cómo el término de $X^2$ es en efecto $-\text{Tr}(A)= -(1-2+3)$ y el último es $-\det(A)$.

$\square$

Matrices nilpotentes

El caso de las matrices nilpotentes es todavía más sencillo.

Problema. Sea $A\in M_n(F)$ una matriz nilpotente. Es decir, existe $k\geq 1$ tal que $A^{k}=O_n$.

  1. Demuestra que
    \begin{align*}
    \chi_A(X)=X^{n}.
    \end{align*}
  2. Demuestra que $\operatorname{Tr}A^{m}=0$ para todo $m\geq 1$.

Solución.

  1. Sea $k\geq 1$ tal que $A^{k}=O_n$ (existe pues $A$ es nilpotente). Entonces
    \begin{align*}
    X^{k}I_n&=X^{k}I_n-A^{k}\\&=(XI_n-A)(X^{k-1}I_n+X^{k-2}A+\dots +A^{k-1}).
    \end{align*}
    Tomando el determinante de ambos lados y recordando que abre productos llegamos a
    \begin{align*}
    X^{nk}&=\det(X^{k}I_n)\\&= \chi_{A}(X)\cdot \det(X^{k-1}I_n+\dots +A^{k-1}).
    \end{align*}
    De aquí, concluimos que $\chi_{A}(X)$ tiene que dividir a $X^{nk}$, pero sabemos que $\chi_A(X)$ es mónico y de grado $n$. Concluimos entonces que $\chi_A(X)=X^{n}$.
  2. Puesto que $A^{m}$ también es una matriz nilpotente, el inciso anterior nos dice que
    \begin{align*}
    \chi_{A^{m}}(X)=X^{n}.
    \end{align*}
    Pero sabemos por la sección sobre la traza que el término de $X^{n-1}$ es $-\operatorname{Tr}(A^{m})$. Como este término no aparece, concluimos que la traza es cero.

$\square$

Ejemplo. Para calcular el polinomio característico de la matriz

\begin{align*}
A=\begin{pmatrix}
5 & -3 &2\\
15 & -9 & 6\\
10 & -6 &4
\end{pmatrix}
\end{align*}

podríamos notar (aunque no sea obvio a simple vista) que $A^2=O_3$. Luego, por el problema anterior, $\chi_A(X)=X^3$.

$\square$

Un último caso particular

Acabamos con una última familia de matrices con polinomio característico simple. Esta familia está descrita por su forma, y será de particular importancia para el teorema de Cayley-Hamilton.

Problema. Para escalares $a_0,\dots, a_{n-1}\in F$ consideramos la matriz

\begin{align*}
A=\begin{pmatrix}
0 & 0 & 0 & \dots & 0 & a_0\\
1 & 0 & 0 & \dots & 0 & a_1\\
0 & 1 & 0 & \dots & 0 & a_2\\
\dots & \dots & \dots & \dots & \dots &\dots\\
0 & 0 & 0 & \dots & 1 &a_{n-1}
\end{pmatrix}.
\end{align*}

en $M_n(F)$.

Demuestra que

\begin{align*}
\chi_A(X)=X^{n}-a_{n-1}X^{n-1}-\dots -a_0.
\end{align*}

Solución. Sea $P(X)=X^{n}-a_{n-1}X^{n-1}-\dots-a_0$. Considera la matriz

\begin{align*}
B=X I_n-A=\begin{pmatrix} X & 0 & 0 &\dots &0& -a_0\\ -1 & X & 0 &\dots & 0 &-a_1\\ 0 & -1 & X &\dots& 0&-a_2\\ \dots & \dots & \dots & \dots &\dots &\dots\\ 0 & 0 & 0 & \dots & -1 & X-a_{n-1}\end{pmatrix}.
\end{align*}

Sumando el segundo renglón multiplicado por $X$ al primer renglón, luego sumándole también al primer renglón el tercero multiplicado por $X^2$, el cuarto por $X^3$, y así sucesivamente hasta sumar el último renglón multiplicado por $X^{n-1}$ llegamos a la matriz

\begin{align*}
C=\begin{pmatrix}
0 & 0 & 0 & \dots &0& P(X)\\
-1 & X & 0 & \dots &0 & -a_1\\
0 & -1 & X & \dots & 0 & -a_2\\
\dots & \dots & \dots & \dots & \dots &\dots\\
0 & 0 & 0 & \dots & -1 & X-a_{n-1}
\end{pmatrix}.
\end{align*}

Recordamos que el determinante es invariante bajo sumas de renglones, por lo que

\begin{align*}
\chi_A=\det B=\det C.
\end{align*}

Expandiendo el determinante de $C$ en el primer renglón obtenemos sencillamente

\begin{align*}
\det C&=(-1)^{n+1}P(X) \cdot \begin{vmatrix} -1 & X & \dots & 0\\ 0 & -1 & \dots & 0\\ \dots &\dots & \dots & \dots \\ 0 & 0 & \dots & -1 \end{vmatrix}\\&= (-1)^{n+1} P(X)(-1)^{n-1}\\&=P(X).
\end{align*}

Para la segundaigualdad usamos que el determinante es el de una matriz triangular superior con puros $-1$ como entradas. Para la última, usamos que $n+1+n-1=2n$ siempre es un número par, así que queda $-1$ elevado a un número par. Esto concluye la prueba.

$\square$

Una de las consecuencias de la proposición anterior es que para cualquier polinomio mónico $P$ de grado $n$ en $F[X]$, existe una matriz en $M_n(F)$ tal que su polinomio característico es $P$.

Tarea moral

  1. Encuentra una matriz $A$ tal que $\chi_A(X)=X^5-5X^3+X^2-2X+2$. Sugerencia: Usa el último problema.
  2. Demuestra que el polinomio característico de una matriz $A=[a_{ij}]$ triangular inferior está dado por $\prod_{i=1}^{n}(X-a_{ii})$.
  3. Demuestra que $0$ es eigenvalor de una matriz si y sólo si su determinante es cero.
  4. Calcula el polinomio característico de la siguiente matriz con entradas reales:
    \begin{align*}
    A= \begin{pmatrix} 5 & 5 & 5 \\ 6 & 6 & 6\\ -11 & -11 & -11\end{pmatrix}.
    \end{align*} Sugerencia: ¿Quién es $A^2$?
  5. ¿Es cierto que si $F$ es cualquier campo y $A$ es una matriz con entradas en $F$, entonces el hecho de que $\operatorname{Tr}(A)=0$ implica que $A$ sea nilpotente? Sugerencia: Piensa en $F_2$.
  6. Da una demostración alternativa al último problema de esta entrada usando inducción matemática sobre el tamaño de la matriz.

Más adelante

En la próxima entrada veremos unos últimos aspectos teóricos del polinomio característico antes de lanzarnos de lleno al teorema de Cayley-Hamilton y su demostración.

Álgebra Lineal II: Eigenvectores y eigenvalores

Introducción

En esta entrada revisitamos los conceptos de eigenvalores y eigenvectores de una transformación lineal. Estos son esenciales para entender a las transformaciones lineales, y tienen un rango de aplicabilidad impresionante: aparecen en la física, las ecuaciones diferenciales parciales, la ciencia de datos, la topología algebraica y la probabilidad.

Primero enunciaremos la definición, después veremos un primer ejemplo para convencernos de que no son objetos imposibles de calcular. Luego daremos un método para vislumbrar una manera más sencilla de hacer dicho cálculo y concluiremos con unos ejercicios.

Eigen-definiciones

Comenzamos con $V$ un espacio vectorial sobre $F$ y $T:V\to V$ una transformación lineal.

Definición. Un eigenvalor (también conocido como valor propio) de $T$ es un escalar $\lambda \in F$ tal que $\lambda \cdot \operatorname{Id}-T$ no es invertible. Un eigenvector (también conocido como vector propio o $\lambda$-eigenvector) correspondiente a $\lambda$ es un vector no-cero de $\ker (\lambda \cdot \operatorname{Id}-T)$. A este kernel se le conoce como el eigenespacio correspondiente a $\lambda$ (o $\lambda$-eigenespacio).

Entonces un $\lambda$-eigenvector es por definición distinto de cero y satisface

\begin{align*}
T(v)=\lambda v.
\end{align*}

Hay que tener cuidado. se permite que $\lambda=0$ sea eigenvalor, pero no se permite que $v=0$ sea eigenvector.

La colección de todos los eigenvectores, junto con el vector cero, es el eigenespacio asociado a $\lambda$. Podemos enunciar definiciones análogas con matrices.

Definición. Sea $A\in M_n(F)$ una matriz cuadrada. Un escalar $\lambda \in F$ es un eigenvalor de $A$ si existe un vector $X\in F^n$ distinto de cero (un eigenvector) tal que $AX=\lambda X$. En este caso el subespacio

\begin{align*}
\ker(\lambda I_n-A):=\lbrace X\in F^n\mid AX=\lambda X\rbrace
\end{align*}

es el $\lambda$-eigenespacio de $A$.

Puedes verificar que ambas definiciones se corresponden en el siguiente sentido:

Si $V$ es un espacio de dimensión finita y $T:V\to V$ es una transformación lineal, podemos escoger cualquier base de $V$ y asociarle a $T$ su forma matricial, digamos $A$, en esta base. Los eigenvalores de $T$ son precisamente los eigenvalores de $A$. ¡Pero cuidado! Los eigenvectores de $A$ dependerán de la base elegida.

Un primer ejemplo

Seguimos con un sencillo pero importante ejemplo.

Ejemplo. Considera la matriz

\begin{align*}
A=\begin{pmatrix}
0 & -1\\
1 & 0
\end{pmatrix}.
\end{align*}

Busquemos los eigenvectores y eigenvalores de $A$, pensando a $A$ como una matriz con entradas complejas. Sea $\lambda\in \mathbb{C}$ un eigenvalor y $X$ un eigenvector asociado. Entonces se cumple la relación $AX=\lambda X$. Si $X=(x_1,x_2)$ entonces la condición mencionada es equivalente al par de ecuaciones

\begin{align*}
-x_2=\lambda x_1, \hspace{5mm} x_1=\lambda x_2.
\end{align*}

Sustituyendo una en la otra obtenemos

\begin{align*}
-x_2=\lambda^2 x_2.
\end{align*}

Si $x_2=0$ entonces $x_1=0$ y así $X$ es un vector nulo, lo que es imposible por definición (recuerda que pedimos que los eigenvectores sean distintos de cero). Entonces $x_2\neq 0$ y podemos dividir por $x_2$ a la ecuación previa, de manera que $\lambda^2=-1$, o sea $\lambda=\pm i$. Conversamente, $i$ y $-i$ son eigenvalores. En efecto, podemos tomar $x_2=1$ y $x_1=\lambda$ como soluciones del problema anterior y obtener un vector propio asociado. De hecho, el eigenespacio está dado por

\begin{align*}
\ker (\lambda I_2-A)=\lbrace (\lambda x_2, x_2)\mid x_2\in \mathbb{C}\rbrace
\end{align*}

y esto no es más que la recta generada por el vector $v=(\lambda,1)\in \mathbb{C}^2$. Por lo tanto, vista como una matriz compleja, $A$ tiene dos eigenvalores distintos $\pm i$ y dos eigenespacios, los generados por $(i,1)$ y $(-i,1)$.

Por otro lado, veamos qué pasa si pensamos a $A$ como una matriz con entradas reales. Haciendo las mismas cuentas llegamos a la misma ecuación, $-x_2=\lambda^2 x_2$. Podemos reescribirla factorizando el término $x_2$:

\begin{align*}
(\lambda^2+1)x_2=0.
\end{align*}

Como $\lambda$ esta vez es un número real, $\lambda^2+1$ siempre es distinto de cero. Entonces para que el producto sea cero, tiene que ocurrir que $x_2=0$, ¡pero entonces $x_1=0$ y así $X=0$! En conclusión: vista como una matriz con entradas reales, $A$ no tiene eigenvalores, y por tanto no tiene eigenespacios. La moraleja es que los eigenvalores y eigenvectores dependen mucho del campo en el que trabajemos.

¿Cómo calcularlos?

Si bien el ejemplo anterior resultó simple, no es difícil imaginar que matrices más complicadas y más grandes pueden resultar en procedimientos menos claros. En general:

  • ¿Cómo podemos calcular los eigenvalores?
  • ¿Cómo podemos calcular los eigenespacios de manera eficiente?
  • ¿Cómo podemos calcular los eigenvectores?

Una vez calculados los eigenvalores, calcular los eigenespacios se reduce a resolver el sistema de ecuaciones homogéneo $(A-\lambda I_n)X=0$, lo cual ya hemos hecho muchas veces mediante reducción gaussiana. Luego, calcular los eigenvectores simplemente es tomar los elementos no cero del eigenespacio. Sin embargo, el cálculo de eigenvalores involucra encontrar raíces de polinomios lo cual de entrada no es obvio. Un primer paso es la siguiente observación que enunciamos como proposición.

Proposición. Un escalar $\lambda \in F$ es un eigenvalor de $A\in M_n(F)$ si y sólo si

\begin{align*}
\det(\lambda I_n-A)=0.
\end{align*}

Demostración. El sistema $(\lambda I_n-A)X=0$ tiene soluciones no triviales si y sólo si la matriz $\lambda I_n-A$ no es invertible. A su vez, la matriz $\lambda I_n-A$ no es invertible si y sólo si su determinante es nulo. El resultado se sigue.

$\square$

Regresemos a nuestra pregunta. Si

\begin{align*}
A=\begin{pmatrix}
a_{11} & a_{12} & \dots & a_{1n}\\
a_{21} & a_{22} & \dots & a_{2n}\\
\dots & \dots & \dots& \dots\\
a_{n1} & a_{n2}& \dots & a_{nn}
\end{pmatrix}
\end{align*}

entonces la proposición nos dice que podemos calcular los valores propios de $A$ resolviendo la ecuación polinomial

\begin{align*}
\begin{vmatrix}
\lambda- a_{11} & -a_{12} & \dots & -a_{1n}\\
-a_{21} & \lambda -a_{22} & \dots & -a_{2n}\\
\dots & \dots & \dots & \dots \\
-a_{n1} & -a_{n2} & \dots & \lambda-a_{nn}
\end{vmatrix}
=0
\end{align*}

en $F$. Esta es una ecuación polinomial de grado $n$, y si el grado es mayor a $4$ en general no existe una fórmula para resolverla en términos de radicales (aunque claro que hay casos particulares que si podemos resolver sin mucho problema).

Problema. Queremos calcular los eigenvalores de $A$, donde $A$ está dada por

\begin{align*}
A=\begin{pmatrix}
1 & 0 & 0\\
0 & 0 &-1\\
0 & 1 & 0
\end{pmatrix}.
\end{align*}

Solución. Como vimos en la proposición, esto se reduce a calcular las raíces del polinomio

\begin{align*}
\begin{vmatrix}
\lambda -1 & 0 & 0\\
0 & \lambda & 1\\
0 &-1 & \lambda
\end{vmatrix}=0.
\end{align*}

Calculando el determinante vemos que esto es de hecho

\begin{align*}
(\lambda-1)(\lambda^2+1)=0.
\end{align*}

Sin embargo tenemos que recordar que las raíces dependen de nuestro campo de elección. Como no comentamos nada sobre el campo en el cual trabajamos, consideraremos dos casos. Si el campo es $\mathbb{C}$ entonces los eigenvalores son $1$ y $\pm i$. Si trabajamos sobre $\mathbb{R}$ entonces tenemos un único eigenvalor: $1$.

$\square$

Ejercicios

Acabamos esta entrada con unos ejercicios para reforzar lo que vimos.

Problema. Encuentra todos los números reales $x$ tales que la matriz

\begin{align*}
A=\begin{pmatrix}
1 & x\\
2 & 1
\end{pmatrix}
\end{align*}

tiene exactamente dos eigenvalores distintos. La misma pregunta para ningún eigenvalor.

Solución. El número de eigenvalores va a estar dado por el número de raíces del polinomio $\det(\lambda I_2-A)$. Es decir, tenemos que trabajar la ecuación

\begin{align*}
\det(\lambda I_2-A)=\begin{vmatrix} \lambda -1 & -x\\ -2 & \lambda-1\end{vmatrix}=0.
\end{align*}

Que a su vez se reduce a

\begin{align*}
(\lambda-1)^2-2x=0.
\end{align*}

Y para que tenga dos soluciones basta con que $2x$ sea un número positivo. En efecto, en ese caso podemos despejar y resolver

\begin{align*}
\lambda = 1 \pm \sqrt{2x}.
\end{align*}

Como $2x$ es positivo solo si $x$ lo es, podemos concluir que la condición necesaria y suficiente es que $x$ sea un real positivo. Similarmente, si $x$ es un número negativo no tendremos ningún eigenvalor.

$\square$

Problema. Sea $V$ el conjunto de todas las matrices $A\in M_2(\mathbb{C})$ tales que $v=\begin{pmatrix} 1\\ 2 \end{pmatrix}$ es un eigenvector de $A$. Demuestra que $V$ es un subespacio de $M_2(\mathbb{C})$ y da una base.

Solución. Supongamos que $v$ es un eigenvector de $A$, con eigenvalor $\lambda$, y que es eigenvector de $B$, con eigenvalor $\mu$. Entonces

\begin{align*}
(A+c B)(v)= Av+c Bv= \lambda v+c\mu v= (\lambda+c\mu)v
\end{align*}

por lo que $v$ es eigenvector de $A+cB$ con eigenvalor $\lambda +c\mu$. Esto demuestra que $V$ es un subespacio. Para darnos una idea de cómo podría ser una base para $V$, comencemos con una matriz genérica $A=\begin{pmatrix} a & b\\ c & d\end{pmatrix}$ tal que $A\in V$. Entonces $A$ tiene que satisfacer $Av=\lambda v$ para algún $\lambda$. Escribamos esto más explicitamente

\begin{align*}
\begin{pmatrix}
a & b\\
c & d
\end{pmatrix} \cdot \begin{pmatrix} 1 \\ 2\end{pmatrix}= \begin{pmatrix}
a+2b\\
c+2d
\end{pmatrix}=\begin{pmatrix} \lambda \\ 2\lambda\end{pmatrix}.
\end{align*}

Así se desprenden dos ecuaciones

\begin{align*}
\begin{cases}
a+2b=\lambda \\
c+2d=2\lambda
\end{cases}.
\end{align*}

Sabemos que $\lambda$ es un parámetro libre, pues puede ser cualquier eigenvalor. Si conocemos a $\lambda$ entonces necesitamos alguna de las variables, $a$ o $b$ para determinar a la otra y lo mismo con $c$ y $d$. Entonces escojamos $b$ y $d$ como variables libres. Enseguida nuestra matriz es de la forma (reemplazando a $a$ y $c$ por sus valores en $b$ y $d$):

\begin{align*}
A&= \begin{pmatrix}
\lambda -2b & b\\
2\lambda -2d & d
\end{pmatrix}\\
&= b\begin{pmatrix} -2 & 1\\ 0 & 0
\end{pmatrix}+ d \begin{pmatrix} 0 & 0 \\ -2 & 1\end{pmatrix}+\lambda \begin{pmatrix} 1 & 0\\
2 & 0
\end{pmatrix}.
\end{align*}

Entonces proponemos como base

\begin{align*}
\beta = \bigg\lbrace \begin{pmatrix} -2 & 1\\ 0 & 0
\end{pmatrix}, \begin{pmatrix} 0 & 0 \\ -2 & 1\end{pmatrix},\begin{pmatrix} 1 & 0\\
2 & 0
\end{pmatrix}\bigg\rbrace.
\end{align*}

Ya vimos que $\beta$ genera a $V$, y dejamos la independencia lineal como ejercicio.

$\square$

Más adelante

En las próximas entradas desarrollaremos las propiedades relevantes de los eigenvalores y eigenvectores para eventualmente llegar al polinomio característico y establecer el puente con el polinomio mínimo.

Tarea moral

Aquí unos ejercicios para que repases el material de esta entrada.

  1. Encuentra todos los eigenvalores de la matriz $A=\begin{pmatrix} 1 & 1 &0 \\ 0 & 2 &1\\ 0 & 0 & 1\end{pmatrix}\in M_3(\mathbb{C})$.
  2. Completa la demostración del último ejercicio de la sección de ejercicios, verificando que las soluciones encontradas son matrices linealmente independientes. ¿Puedes generalizar este ejercicio de alguna manera?
  3. Encuentra los eigenvalores de la matriz $A\in M_n(\mathbb{R})$ cuyas entradas son puros $2$.
  4. Da contraejemplos para cada una de las siguientes afirmaciones:
    1. Si $u$ y $v$ son eigenvectores de $A$, entonces $u+v$ es eigenvector de $A$.
    2. Si $\lambda$ es eigenvalor de $A$ y $\mu$ es eigenvalor de $B$, entonces $\lambda \mu$ es eigenvalor de $AB$.
    3. Si $A$ y $B$ son formas matriciales de una misma transformación $T$ y $v$ es eigenvector de $A$, entonces $v$ es eigenvector de $B$.
  5. Considera la transformación derivada en $\mathbb{R}[x]$. ¿Quienes son sus eigenvectores y eigenvalores? Como sugerencia, estudia el coeficiente de mayor grado.

Álgebra Lineal II: Polinomio mínimo de transformaciones lineales y matrices

Introducción

Anteriormente definimos qué quiere decir evaluar un polinomio en una matriz o en una transformación lineal. En esta entrada definiremos uno de los objetos más importantes del álgebra lineal: el polinomio mínimo. Si bien al principio nos va a costar un poco calcularlo, esto se compensa por la cantidad de propiedades teóricas que cumple. Comenzaremos dando su definición, y mostrando su existencia y unicidad. Luego exploraremos algunas propiedades y veremos ejemplos, seguido de un pequeño teorema de cambio de campos. Finalmente introduciremos un objeto similar (el polinomio mínimo puntual) y haremos unos ejercicios para cerrar.

El concepto de polinomio mínimo podría resultarle familiar a los más algebraicos de mente: ¡todo se debe a que trabajamos con dominios de ideales principales, o incluso euclidianos! Si has trabajado anteriormente con conceptos como el mínimo común múltiplo en enteros, puede que varios de los argumentos de esta entrada te suenen conocidos.

Existencia y unicidad

Comenzamos con un espacio vectorial $V$ de dimensión $n$ sobre un campo $F$. Fijando una transformación lineal $T:V\to V$, queremos entender para qué polinomios se cumple que $P(T)=0$. Nota como podríamos haber cambiado la pregunta: si fijamos un polinomio $P$, podríamos buscar todas las transformaciones $T$ tales que $P(T)=0$. Ésta pregunta la estudiaremos más adelante.

Definimos el conjunto

\begin{align*}
I(T)=\lbrace P\in F[X]\mid P(T)=0\rbrace.
\end{align*}

El polinomio cero pertenece a $I(T)$ de manera trivial. Una cosa importante es que este conjunto $I(T)$ que vamos a estudiar en verdad es «interesante», en el sentido de que debemos ver que hay más polinomios adentro y no es únicamente el conjunto $\lbrace 0\rbrace$. Una manera de ver esto es sabiendo que el espacio de transformaciones lineales de $V$ en $V$ tiene dimensión $n^2$ (lo puedes pensar como el espacio de matrices). Entonces, las $n^2+1$ transformaciones $\operatorname{Id}, T, T^2, \dots, T^{n^2}$ no pueden ser todas linealmente independientes: uno de los corolarios del lema de Steinitz es que en un espacio de dimensión $n$ a lo más se pueden tener $n$ vectores linealmente independientes. Entonces existe una combinación lineal no trivial y nula

\begin{align*}
a_0 \operatorname{Id}+a_1 T+\dots + a_{n^2} T^{n^2}=0.
\end{align*}

Luego $a_0+a_1X+\dots+a_{n^2}X^{n^2}$ es un polinomio no cero tal que $P(T)=0$, es decir $P\in I(T)$.

Con el argumento de arriba vimos que $I(T)$ es «interesante» en el sentido de que tiene polinomios no cero. El siguiente teorema se puede entender como que $I(T)$ se puede describir muy fácilmente.

Teorema. Existe un único polinomio mónico, distinto de cero $\mu_T$ tal que $I(T)$ es precisamente el conjunto de múltiplos de $\mu_T$. Es decir

\begin{align*}
I(T)=\mu_T \cdot F[X]=\lbrace \mu_T \cdot P(X)\mid P(X)\in F[X]\rbrace.
\end{align*}

La demostración hará uso del algoritmo de la división para polinomios. Te lo compartimos aquí, sin demostración, por si no lo conoces o no lo recuerdas.

Teorema (algoritmo de la división en $\mathbb{F}[x]$). Sean $f(x)$ y $g(x)$ polinomios en $F[x]$, donde $g(x)$ no es el polinomio cero. Entonces, existen únicos polinomios $q(x)$ y $r(x)$ en $F[x]$ tales que $$f(x)=q(x)g(x)+r(x),$$ en donde $r(x)$ es el polinomio cero, o $\deg(r(x))<\deg(g(x))$.

Si te interesa saber cómo se demuestra, puedes seguir la teoría de polinomios disponible en la Unidad 4 del curso de Álgebra Superior II.

Demostración. Una de las proposiciones de la entrada pasada nos dice que $I(T)$ es un subespacio de $F[X]$. Por otro lado si $P\in I(T)$ y $Q\in F[X]$ entonces

\begin{align*}
(PQ)(T)= P(T)\circ Q(T)=0\circ Q(T)=0.
\end{align*}

Lo que discutimos antes de enunciar el teorema nos dice que $I(T)\neq\{0\}$. Escogemos entonces $P\in I(T)$ un polinomio no cero de grado mínimo. Podemos suponer sin perdida de generalidad que $P$ es mónico, de no serlo, podemos dividir a $P$ por su coeficiente principal sin cambiar el grado.

La ecuación previa nos indica que todos los múltiplos de $P$ también están en $I(T)$. Veamos que todo elemento de $I(T)$ es de hecho un múltiplo de $P$. Si $S\in I(T)$, usamos el algoritmo de la división polinomial para escribir $S=QP+R$ con $Q,R\in F[X]$. Aquí hay dos casos, que $R$ sea el polinomio cero, o bien que no lo sea y entonces $\deg R <\deg P$. Nota que $R=S-QP\in I(T)$ dado que $I(T)$ es un subespacio de $F[X]$ y $S,QP\in I(T)$. Si $R\neq 0$, entonces como $\deg R<\deg P$ llegamos a una contradicción de la minimalidad del grado de $P$. Luego $R=0$ y por tanto $S=QP$. Entonces $I(T)$ es precisamente el conjunto de todos los múltiplos de $P$ y así podemos tomar $\mu_T=P$.

Para verificar la unicidad de $\mu_T$, si otro polinomio $S$ tuviera las mismas propiedades, entonces $S$ dividiría a $\mu_T$ y $\mu_T$ dividiría a $S$. Sin embargo, como ambos son mónicos se sigue que deben ser iguales: en efecto, si $\mu_T=S\cdot Q$ y $S=\mu_T \cdot R$ entonces $\deg Q=\deg R=0$, porlo tanto son constantes, y como el coeficiente principal de ambos es $1$, se sigue que ambos son la constante $1$ y así $\mu_T=S$. Esto completa la demostración.

$\square$

Definición. Al polinomio $\mu_T$ se le conoce como el polinomio mínimo de $T$.

Primeras propiedades y ejemplos

Debido a su importancia, recalcamos las propiedades esenciales del polinomio mínimo $\mu_T$:

  • Es mónico y cumple $\mu_T(T)=0$.
  • Para cualquier otro polinomio $P\in F[X]$, sucede que $P(T)=0$ si y sólo si $\mu_T$ divide a $P$.

Toda la teoría que hemos trabajado hasta ahora se traduce directamente a matrices usando exactamente los mismos argumentos. Lo enunciamos de todas maneras: si $A\in M_n(F)$ es una matriz cuadrada, entonces existe un único polinomio mónico $\mu_A\in F[X]$ con las siguientes propiedades:

  • $\mu_A(A)=O_n$,
  • si $P\in F[X]$, entonces $P(A)=O_n$ si y sólo si $\mu_A$ divide a $P$.

Como jerga, a veces diremos que un polinomio «anula $T$» si $P(T)=0$. En este sentido los polinomios que anulan a $T$ son precisamente los múltiplos de $\mu_T$.

Vimos antes de enunciar el teorema que podemos encontrar un polinomio $P$ no cero de grado menor o igual a $n^2$ tal que $P(T)=0$. Como $\mu_T$ divide a $P$ se sigue que $\deg \mu_T\leq n^2$. Esta cota resulta ser débil, y de hecho un objeto que hemos estudiado previamente nos ayudará a mejorarla: el polinomio característico. Este también va a anular a $T$ y con ello obtendremos una mejor cota: $\deg \mu_T\leq n$.

Ejemplo. Si $A=O_n$, entonces $\mu_A=X$. En efecto, $\mu_A(A)=0$ y además es el polinomio de menor grado que cumple esto, pues ningún polinomio constante y no cero anula a $O_n$ (¿por qué?). Nota como además $I(A)$ es precisamente el conjunto de polinomios sin término constante.

$\square$

Ejemplo. Considera la matriz $A\in M_2(\mathbb{R})$ dada por

\begin{align*}
A= \begin{pmatrix}
0 & -1\\
1 & 0
\end{pmatrix}.
\end{align*}

Nos proponemos calcular $\mu_A$. Nota que $A$ satisface $A^2=-I_2$. Por tanto el polinomio $P(X)=X^2+1$ cumple $P(A)=0$. Así, $\mu_A$ tiene que dividir a este polinomio ¡pero este es irreducible sobre los números reales! En efecto, si existiese un factor propio de $P$ sobre $\mathbb{R}$, tendríamos que la ecuación $X^2=-1$ tiene solución, y sabemos que este no es el caso. Entonces $\mu_A$ tiene que ser $X^2+1$.

$\square$

Ejemplo. Sean $d_1,\dots, d_n\in F$ escalares y $A$ una matriz diagonal tal que $[a_{ii}]=d_i$. Los elementos pueden no ser distintos entre sí, así que escogemos una colección máxima $d_{i_1},\dots, d_{i_k}$ de elementos distintos. Para cualquier polinomio $P$, tenemos que $P(A)$ es simplemente la matriz diagonal con entradas $P(d_i)$ (esto porque el producto $A^n$ tiene como entradas a $d_i^n$). Entonces para que $P(A)=0$ se tiene que cumplir que $P(d_i)=0$, y para que esto pase es suficiente que $P(d_{i_k})=0$. Eso quiere decir que $P$ tiene al menos a los $d_{i_k}$ como raíces, y entonces $(X-d_{i_1})(X-d_{i_2})\cdots (X-d_{i_k})$ divide a $P$.

Nota como esto es suficiente: encontramos un polinomio mónico, $(X-d_{i_1})(X-d_{i_2})\cdots (X-d_{i_k))$ que divide a cualquier $P$ tal que $P(A)=0$. Así

\begin{align*}
\mu_A(X)=(X-d_{i_1})\cdots (X-d_{i_k}).
\end{align*}

$\square$

Cambio de campos

En uno de los ejemplos argumentamos que el polinomio mínimo era $X^2+1$ porque este es irreducible sobre $\mathbb{R}$. Pero, ¿qué pasaría si cambiáramos nuestro campo a $\mathbb{C}$? La situación puede ser incluso más delicada: a una matriz con entradas racionales la podemos considerar como una instancia particular de una matriz con entradas reales, que a su vez podemos considerar como una matriz compleja. ¿Hay tres polinomios mínimos distintos? El siguiente teorema nos da una respuesta tranquilizante.

Teorema. Sean $F_1\subset F_2$ dos campos y $A\in M_n(F_1)$ una matriz, entonces el polinomio mínimo de $A$ vista como elemento de $M_n(F_1)$ y el polinomio mínimo de $A$ vista como elemento de $M_n(F_2)$ son iguales.

Demostración. Sea $\mu_1$ el polinomio de $A\in M_n(F_1)$ y $\mu_2$ el polinomio mínimo de $A\in M_n(F_2)$. Puesto que $F_1[X]\subset F_2[X]$, se tiene que $\mu_1\in F_2[X]$ y además $\mu_1(A)=0$ por definición. Luego $\mu_2$ necesariamente divide a $\mu_1$. Sean $d_1=\deg \mu_1$ y $d_2=\deg \mu_2$, basta verificar que $d_2\geq d_1$ y para que esto se cumpla basta con encontrar $P\in F_1[X]$ de grado a lo más $d_2$ tal que $P(A)=0$ (entonces $\mu_1$ dividiría a este polinomio y se sigue la desigualdad).

Desarrollando que $\mu_2(A)=0$ en todas sus letras (o mejor dicho, en todos sus coeficientes) se tiene

\begin{align*}
a_0 I_n+ a_1 A+\dots + a_{d_2} A^{d_2}=O_n.
\end{align*}

Esto es equivalente a tener $n^2$ ecuaciones homogéneas en las variables $a_0,\dots, a_{d_2}$. Como $A$ tiene entradas en $F_1$ los coeficientes de estas ecuaciones todos pertenecen a $F_1$. Tenemos un sistema de ecuaciones con coeficientes en $F_1$ que tiene una solución no trivial en $F_2$: tiene automáticamente una solución no trivial en $F_1$ por un ejercicio de la entrada de Álgebra Lineal I de resolver sistemas de ecuaciones usando determinantes. Esto nos da el polinomio buscado.

$\square$

Mínimos puntuales

Ahora hablaremos (principalmente a través de problemas resueltos) de otro objeto muy parecido al polinomio mínimo: el polinomio mínimo puntual. Este es, esencialmente un «polinomio mínimo en un punto». Más específicamente si $T:V\to V$ es lineal con polinomio mínimo $\mu_T$ y $x\in V$ definimos

\begin{align*}
I_x=\lbrace P\in F[X]\mid P(T)(x)=0\rbrace.
\end{align*}

Nota que la suma y diferencia de dos elementos en $I_x$ también está en $I_x$.

Problema. Demuestra que existe un único polinomio mónico $\mu_x\in F[X]$ tal que $I_x$ es el conjunto de múltiplos de $\mu_x$ en $F[X]$. Más aún, demuestra que $\mu_x$ divide a $\mu_T$.

Solución. El caso $x=0$ se queda como ejercicio. Asumamos entonces que $x\neq 0$. Nota que $\mu_T\in I_x$ puesto que $\mu_T(T)=0$. Sea $\mu_x$ el polinomio mónico de menor grado en $I_x$. Demostraremos que $I_x=\mu_x\cdot F[X]$.

Primero si $P\in \mu_x \cdot F[X]$ entonces por definición $P=\mu_x Q$ para algún $Q\in F[X]$ y entonces

\begin{align*}
P(T)(x)=Q(T)(\mu_x(T)(x))=Q(T)(0)=0.
\end{align*}

Así $P\in I_x$, y queda demostrado que $\mu_x \cdot F[X]\subset I_x$.

Conversamente, si $P\in I_x$ podemos usar el algoritmo de la división para llegar a una expresión de la forma $P=Q\mu_x+R$ para algunos polinomios $Q,R$ con $\deg R<\deg \mu_x$. Supongamos que $R\neq 0$. Similarmente a como procedimos antes, se cumple que $R= P-Q\mu_x\in I_x$ dado que $I_x$ es cerrado bajo sumas y diferencias. Dividiendo por el coeficiente principal de $R$, podemos asumir que $R$ es mónico. Entonces $R$ es un polinomio mónico de grado estrictamente menor que el grado de $\mu_x$, una contradicción a nuestra suposición: $\mu_x$ es el polinomio de grado menor con esta propiedad. Luego $R=0$ y $\mu_x$ divide a $P$.

Así queda probado que si $P\in I_x$ entonces $P\in \mu_x\cdot F[X]$, lo que concluye la primera parte del problema. Para la segunda, vimos que $\mu_T\in I_x$ y por tanto $\mu_x$ divide a $\mu_T$.

$\square$

Problema. Sea $V_x$ el subespacio generado por $x, T(x), T^2(x), \dots$. Demuestra que $V_x$ es un subespacio de $V$ de dimensión $\deg \mu_x$, estable bajo $T$.

Solución. Es claro que $V_x$ es un subespacio de $V$. Además, dado que $T$ manda a generadores en generadores, también es estable bajo $T$. Sea $d=\deg\mu_x$. Demostraremos que $x, T(x),\dots, T^{d-1}(x)$ forman una base de $V_x$, lo que concluiría el ejercicio.

Veamos que son linealmente independientes. Si $$a_0x+a_1T(x)+a_2T^2(x)+\dots+a_{d-1}T^{d-1}(x)=0$$ para algunos escalares $a_i$ no todos cero, entonces el polinomio

\begin{align*}
P=a_0+a_1X+\dots+a_{d-1}X^{d-1}
\end{align*}

es un elemento de $I_x$, pues $P(T)(x)=0$. Luego $\mu_x$ necesariamente divide a $P$, pero esto es imposible puesto que el grado de $P$ es $d-1$, estrictamente menor que el grado de $\mu_x$. Luego los $a_i$ deben ser todos nulos, lo que muestra que $x,T(x),T^2(x),\dots,T^{d-1}(x)$ es una colección linealmente independiente.

Sea $W$ el espacio generado por $x,T(x),\dots, T^{d-1}(x)$. Afirmamos que $W$ es invariante bajo $T$. Es claro que $T(x)\in W$, similarmente $T(T(x))=T^2(x)\in W$ y así sucesivamente. El único elemento «sospechoso» es $T^{d-1}(x)$, para el cual basta verificar que $T(T^{d-1}(x))=T^d(x)\in W$. Dado que $\mu_x(T)(x)=0$ y $\mu_x$ es mónico de grado $d$, existen escalares $b_i$ (más precisamente, los coeficientes de $\mu_x$) no todos cero tales que

\begin{align*}
T^{d}(x)+b_{d-1}T^{d-1}(x)+\dots+b_0 x=0.
\end{align*}

Esto nos muestra que podemos expresar a $T^d(x)$ en términos de $x, T(x),\dots, T^{d-1}(x)$ y por tanto $T^d(x)$ pertenece a $W$.

Ahora, dado que $W$ es estable bajo $T$ y contiene a $x$, se cumple que $T^{k}(x)\in W$ para todo $k\geq 0$. En particular $V_x\leq W$. Luego $V_x=W$ (la otra contención es clara) y $x,T(x),\dots, T^{d-1}(x)$ genera a $W$, o sea a $V_x$.

Mostramos entonces que $x,T(x),\dots, T^{d-1}(x)$ es una base para $V_x$ y así $\dim V_x=d$.

$\square$

Unos ejercicios para terminar

Presentamos unos últimos ejercicios para calcular polinomios mínimos.

Problema. Calcula el polinomio mínimo de $A$ donde

\begin{align*}
A= \begin{pmatrix}
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\end{pmatrix}.
\end{align*}

Solución. A estas alturas no tenemos muchas herramientas que usar. Comenzamos con calcular $A^2$:

\begin{align*}
A^2= \begin{pmatrix}
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\end{pmatrix}\cdot \begin{pmatrix}
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0\\ 0 &1 & 0 \\ 0 & 0 & 1\end{pmatrix}.
\end{align*}

Entonces en particular $A^2=I_3$. Así, el polinomio mínimo $\mu_A$ tiene que dividir a $X^2-1$. Este último se factoriza como $(X-1)(X+1)$, pero es claro que $A$ no satisface ni $A-I_3=0$ ni $A+I_3=0$. Entonces $\mu_A$ no puede dividir propiamente a $X^2-1$, y por tanto tienen que ser iguales.

$\square$

Problema. Calcula el polinomio mínimo de la matriz $A$ con

\begin{align*}
A=\begin{pmatrix}
1 & 2\\
0 & 1
\end{pmatrix}.
\end{align*}

Solución. Nota como

\begin{align*}
A-I_2=\begin{pmatrix} 0 & 2\\ 0 & 0\end{pmatrix}
\end{align*}

y es fácil verificar que el cuadrado de la matriz de la derecha es cero. Así $(A-I_2)^2=0$, o sea, el polinomio $P(X)=(X-1)^2$ anula a $A$. Similarmente al problema anterior, $\mu_A$ tiene que dividir a $P$, pero $P$ sólo tiene un factor: $X-1$. Dado que $A$ no satisface $A-I_2=0$ se tiene que $\mu_A$ no puede dividir propiamente a $P$, y entonces tienen que ser iguales. Luego $\mu_A=(X-1)^2=X^2-2X+1$.

$\square$

Más adelante

En las entradas subsecuentes repasaremos los eigenvalores y eigenvectores de una matriz, y (como mencionamos) ligaremos el polinomio característico de una matriz con su polinomio mínimo para entender mejor a ambos.

Tarea moral

Aquí unos ejercicios para practicar lo que vimos.

  1. Encuentra una matriz $A$ cuyo polinomio mínimo sea $X^2$. Para cada $n$, ¿puedes encontrar una matriz cuyo polinomio mínimo sea $X^n$?
  2. Encuentra una matriz $A$ cuyo polinomio mínimo sea $X^2-1$. Para cada $n$, ¿puedes encontrar una matriz cuyo polinomio mínimo sea $X^n-1$?
  3. Encuentra el polinomio de la matriz $A$ en $M_n(F)$ cuyas entradas son todas $1$.
  4. Si $T:M_n(\mathbb{R})\to M_n(\mathbb{R})$ es la transformación que manda a cada matriz en su transpuesta, encuentra el polinomio mínimo de $T$.
  5. Sea $V$ un espacio vectorial y $x,y$ vectores linealmente independientes. Sea $T:V\to V$ una transformación lineal. ¿Cómo son los polinomios $P$ tales que $P(T)$ se anula en todo el subespacio generado por $x$ y $y$? ¿Cómo se relacionan con los polinomios mínimos puntuales de $T$ para $x$ y $y$?

Seminario de Resolución de Problemas: El teorema fundamental del cálculo

Introducción

Ya platicamos de continuidad, diferenciabilidad e integrales, así como de otros temas de cálculo. En esta sección reuniremos varias de estas ideas a través de uno de los resultados más importantes: el teorema fundamental del cálculo. Este teorema nos exhibe la relación que hay entre la derivada y la integral, distinguiéndolas como procedimientos inversos el uno del otro.

El teorema nos dice que si tenemos una función $F(x)$ derivable sobre un intervalo $[a, b]$, entonces

\begin{equation*}
\int_{a}^{b} \! F^\prime(t) \, dt = F(b)-F(a).
\end{equation*}

Ahora bien, si nuestra función $F(t)$ es derivable en $[0,x]$, tenemos que

\begin{equation*}
\int_{0}^{x} \! F^\prime(t) \, dt = F(x)-F(0),
\end{equation*}

a lo que le sigue que

\begin{equation*}
F(x)=\int_{0}^{x} \! F^\prime(t) \, dt + F(0).
\end{equation*}

Esto nos recuerda a la constante de integración

\begin{equation*}
F(x)=\int_{0}^{x} \! F^\prime(t) \, dt + C.
\end{equation*}

Es decir, tenemos que $C=F(0)$.

Aquí en el blog, en la entrada «Teoremas fundamentales de los cuadraditos» damos la intuición acerca de este teorema, comenzando con el caso discreto. Puedes leerlo antes de continuar.

Usar el teorema fundamental del cálculo para obtener una identidad trigonométrica

Veamos un ejemplo. Tenemos que la derivada de la función $F(t)=\sin^2 t$ es $F^\prime (t)=2\cos t\sin t$. Por el teorema fundamental del cálculo, la integral de $F'(t)$ en el intervalo $[0,x]$ está dada por

\begin{equation*}
\int_{0}^{x}\! 2 \sin t \cos t \, dt=\sin^2x,
\end{equation*}

en donde usamos que $F(0)=\sin^2(0)=0$.

Por otro lado, resolviendo la integral utilizando el cambio de variable $u=\cos t$, tenemos que

\begin{equation*}
\int_{0}^{x}\! 2 \sin t \cos t \, dt= \left -\cos^2t \right |_0^x= -\cos^2x+1
\end{equation*}

Igualando ambos valores de la integral, tenemos que $\sin^2x=-\cos^2 x+1$. De aquí obtenemos la identidad trigonométrica pitagórica $\sin^2 x+\cos^2x=1$ para toda $x$.

Veamos ahora un problema en el que, mediante el problema fundamental del cálculo,

Problema. Aplicando el teorema fundamental del calculo halla $$\int_{a}^{b}\! \sec x\, dx.$$

Sugerencia pre-solución. Formula un problema equivalente multiplicando y dividiendo la expresión por $\sec x + \tan x$. Intenta identificar la expresión resultante como la derivada de otra función.

Solución. Para resolver este problema tenemos que hallar una función $F(x)$ de tal forma que $F^\prime (x)= \sec x$.

Para ello, tenemos que notar que

\begin{align*}
\sec x &=\sec x \left(\frac{ \sec x + \tan x}{\sec x+ \tan x}\right)\\ &=\frac{\sec^2x+\sec x \tan x}{\sec x+\tan x}.
\end{align*}

Y entonces la derivada de $\ln (\sec x + \tan x)$ es igual a

\begin{align*}
\left(\frac{1}{\sec x + \tan x}\right)&(\sec^2x+\sec x \tan x)\\
&=\frac{\sec^2x+\sec x \tan x}{\sec x+\tan x}\\&=\sec x.
\end{align*}

Proponemos a la función

\begin{equation*}
F(x)=\ln (\sec x + \tan x)
\end{equation*}

dado que

\begin{equation*}
F^\prime (x)=\sec x.
\end{equation*}

Ahora, aplicando el teorema fundamental del cálculo tenemos que

\begin{align*}
\int_{a}^{b}\! \sec x\, dx&=F(b)-F(a)\\&=\ln (\sec b + \tan b)-\ln (\sec a + \tan a)
\end{align*}

$\square$

Segundo teorema fundamental del cálculo

Veamos una implicación del teorema fundamental del cálculo, que también se le conoce como el «segundo teorema fundamental del cálculo».

Para una función $f: [a,b] \to \mathbb{R}$ continua en el intervalo $[a,b]$ se tiene que:

\begin{equation*}
\frac{d}{dx}\left(\int_{a}^{x}\! f(t)\, dt\right)=f(x)
\end{equation*}

Problema. Determina $$\frac{d}{dx}\left(\int_{3x-1}^{0} \! \frac{1}{t+4}\, dt\right).$$

Sugerencia pre-solución. Usa el segundo teorema fundamental del cálculo y la regla de la cadena.

Solución. Como $$\int_{3x-1}^{0} \! \frac{1}{t+4}\, dt=-\int_{0}^{3x-1} \! \frac{1}{t+4}\, dt,$$ tenemos entonces que

$$\frac{d}{dx}\left(\int_{3x-1}^0 \frac{1}{t+4} \, dt\right)= – \frac{d}{dx}\left(\int_{0}^{3x-1} \frac{1}{t+4} \, dt\right).$$

Por otro lado, consideremos las funciones

\begin{align*}
f(x)&=\int_{0}^{x} \! \frac{1}{t+4}\, dt \quad \text{y}\\
g(x)&=3x-1.
\end{align*}

Aplicando el teorema fundamental del cálculo y derivando tenemos que

\begin{align*}
f^\prime (x)&=\frac{1}{x+4} \quad \text{y}\\
g^\prime (x)&=3.
\end{align*}

Notemos que

\begin{align*}
(f \circ g)(x)&=f( g(x) )\\&=f(3x-1)\\&=\int_{0}^{3x-1}\! \frac{1}{t+4}\, dt.
\end{align*}

Así, aplicando la regla de la cadena, tenemos que

\begin{align*}
-\frac{d}{dx}\left(\int_{0}^{3x-1} \! \frac{1}{t+4}\, dt\right)&=-\frac{d}{dx}(f(g(x))\\&=-f^\prime (g(x)) g^\prime(x)\\
&=-\frac{1}{(3x-1)+4}\cdot 3\\
&=-\frac{1}{x+1}.
\end{align*}

$\square$

Veamos un último problema en el que se usa la segunda forma del teorema fundamental del cálculo.

Problema: Supongamos que $f$ es una función continua para toda $x$, la cual satisface la ecuación

\begin{equation}
\int_{0}^{x} \! f(t)\, dt= \int_{x}^{1} \! t^2f(t) \, dt +\frac{x^{16}}{8}+\frac{x^{18}}{9}+C,
\end{equation}

donde $C$ es una constante. Encuentra la forma explícita de la función $f(x)$ y determina el valor de la constante $C$.

Sugerencia pre-solución.

Solución. De la ecuación, tenemos lo siguiente

\begin{equation*}
\frac{d}{dx}\left(\int_{0}^{x} \! f(t)\, dt\right)= \frac{d}{dx}\left(\int_{x}^{1} \! t^2f(t) \, dt +\frac{x^{16}}{8}+\frac{x^{18}}{9}+C \right)
\end{equation*}

Como $f$ es continua para toda $x$, por el teorema fundamental del cálculo en su segunda forma tenemos que

\begin{equation*}
\frac{d}{dx} \left( \int_{0}^{x} \! f(t)\, dt \right)= f(x)
\end{equation*}

y

\begin{align*}
\frac{d}{dx} \left( \int_{x}^{1} \! t^2f(t)\, dt \right)&= – \frac{d}{dx} \left( \int_{1}^{x} \! t^2f(t)\, dt \right)\\&= -x^2f(x).
\end{align*}

Entonces, derivando ambos lados de la expresión original nos resulta la ecuación

\begin{equation*}
f(x)=-x^2f(x)+2x^{15}+2x^{17},
\end{equation*}

de la cual se obtiene

\begin{align*}
f(x) (x^2+1)&=2x^{15}+2x^{17}\\
&=2x^{15}(x^2+1)
\end{align*}

Así, tenemos que

\begin{equation*}
f(x)=2x^{15}.
\end{equation*}

Sustituyendo $f(t)=2t^{15}$ en la ecuación (1), tenemos que

\begin{equation*}
\int_{0}^{x} \! 2t^{15}\, dt= \int_{x}^{1} \! t^2(2t^{15}) \, dt +\frac{x^{16}}{8}+\frac{x^{18}}{9}+C
\end{equation*}

Así,

\begin{equation*}
\begin{align*}
\int_{0}^{x} \! 2t^{15}\, dt= \int_{x}^{1} \! t^2(2t^{15}) \, dt +\frac{x^{16}}{8}+\frac{x^{18}}{9}+C\\

\int_{0}^{x} \! 2t^{15}\, dt= -\int_{1}^{x} \! 2t^{17} \, dt +\frac{x^{16}}{8}+\frac{x^{18}}{9}+C\\

\left \frac{2t^{16}}{16} \right|_{0}^{x}= – \left \left(\frac{2t^{18}}{18} \right) \right|_{1}^{x}+\frac{x^{16}}{8}+\frac{x^{18}}{9}+C\\

\frac{x^{16}}{8}= – \left( \frac{x^{18}}{9}-\frac{1}{9}\right)+\frac{x^{16}}{8}+\frac{x^{18}}{19}+C\\

\end{align*}
\end{equation*}

Con ello, tenemos que

\begin{equation*}
C+\frac{1}{9}=0
\end{equation*}

Por lo tanto la función que satisface la ecuación es $f(x)=2x^{15}$ y el valor de la constante es $C= – \frac{1}{9}$.

$\square$

Más problemas

Hay más ejemplos de problemas relacionados con la aplicación del teorema fundamental del cálculo en la Sección 6.9 del libro Problem Solving through Problems de Loren Larson.

Álgebra Lineal I: Formas bilineales, propiedades, ejemplos y aclaraciones

Introducción

En entradas anteriores hemos platicado de dualidad, ortogonalidad y transformaciones transpuestas. Es importante que repases esas entradas y nos escribas si tienes dudas, pues ahora pasaremos a un tema un poco diferente: formas bilineales y cuadráticas. Estas nociones nos permitirán seguir hablando acerca de la geometría de espacios vectoriales en general.

Para esta parte del curso, nos vamos a enfocar únicamente en espacios vectoriales sobre $\mathbb{R}$. Se pueden definir los conceptos que veremos para espacios vectoriales en otros campos. Sobre todo, es posible definir conceptos análogos en $\mathbb{C}$ y obtener una teoría muy rica. Pero por ahora consideraremos sólo el caso de espacios vectoriales reales.

Aunque hablaremos de formas bilineales en general, una subfamilia muy importante de ellas son los productos interiores, que nos permiten hablar de espacios euclideanos. El producto interior es el paso inicial en una cadena muy profunda de ideas matemáticas:

  • Un producto interior nos permite definir la norma de un vector.
  • Con la noción de norma, podemos definir la distancia entre dos vectores.
  • A partir de un producto interior y su norma podemos mostrar la desigualdad de Cauchy-Schwarz, con la cual podemos definir ángulos entre vectores (por ejemplo, ¡podremos definir el ángulo entre dos polinomios!).
  • De la desigualdad de Cauchy-Schwarz, podemos probar que la noción de norma satisface la desigualdad del triángulo, y que por lo tanto la noción de distancia define una métrica.
  • Aunque no lo veremos en este curso, más adelante verás que una métrica induce una topología, y que con una topología se puede hablar de continuidad.

En resumen, a partir de un producto interior podemos hacer cálculo en espacios vectoriales en general.

Una forma bilineal con la cual probablemente estés familiarizado es el producto punto en $\mathbb{R}^n$, que a dos vectores $(x_1,x_2,\ldots,x_n)$ y $(y_1,y_2,\ldots,y_n)$ los manda al real $$x_1y_1+x_2y_2+\ldots+x_ny_n.$$ Este es un ejemplo de una forma bilineal que es un producto interior. También puede que estés familiarizado con la norma en $\mathbb{R}^n$, que a un vector $(x_1,\ldots,x_n)$ lo manda al real $$\sqrt{x_1^2+x_2^2+\ldots+x_n^2}.$$ Lo que está dentro de la raíz es un ejemplo de una forma cuadrática positiva definida. Incluyendo la raíz, este es un ejemplo de norma en espacios vectoriales.

Hay muchas otras formas bilineales y formas cuadráticas, pero los ejemplos mencionados arriba te pueden ayudar a entender la intuición detrás de algunos de los conceptos que mencionaremos. Para marcar algunas cosas en las que la intuición puede fallar, pondremos algunas «Aclaraciones» a lo largo de esta entrada.

En el futuro, tener una buena noción de la geometría de espacios vectoriales te ayudará a entender mucho mejor los argumentos de cursos de análisis matemático, de variable compleja y de optativas como geometría diferencial. Dentro de este curso, entender bien el concepto de forma bilineal te será de gran utilidad para cuando más adelante hablemos de formas multilineales y determinantes.

Formas bilineales

La definición fundamental para los temas que veremos en estas entradas es la siguiente, así que enunciaremos la definición, veremos varios ejemplos y haremos algunas aclaraciones.

Definición. Sea $V$ un espacio vectorial sobre $\mathbb{R}$. Una forma bilineal es una función $b:V\times V \to \mathbb{R}$ tal que:

  • Para todo $x$ en $V$, la función $b(x,\cdot):V\to \mathbb{R}$ que manda $v\in V$ a $b(x,v)$ es una forma lineal.
  • Para todo $y$ en $V$, la función $b(\cdot, y):V\to \mathbb{R}$ que manda $v\in V$ a $b(v,y)$ es una forma lineal.

Ejemplo 1. Considera el espacio vectorial de polinomios $\mathbb{R}_3[x]$ y considera la función $$b(p,q)=p(0)q(10)+p(1)q(11).$$ Afirmamos que $b$ es una forma bilineal. En efecto, fijemos un polinomio $p$ y tomemos dos polinomios $q_1$, $q_2$ y un real $r$. Tenemos que
\begin{align*}
b(p,q_1+rq_2)&=p(0)(q_1+rq_2)(10)+p(1)(q_1+rq_2)(11)\\
&= p(0)q_1(10)+p(1)q_1(11) + r ( p(0)q_2(10)+p(1)q_2(11))\\
&= b(p,q_1)+rb(p,q_2),
\end{align*}

De manera similar se puede probar que para $q$ fijo y $p_1$, $p_2$ polinomios y $r$ real tenemos que $$b(p_1+rp_2,q)=b(p_1,q)+rb(p_2,q).$$ Esto muestra que $b$ es una forma bilineal.

$\square$

Si $v=0$, entonces por el primer inciso de la definición, $b(x,v)=0$ para toda $x$ y por el segundo $b(v,y)=0$ para toda $y$, en otras palabras:

Proposición. Si $b$ es una forma bilineal en $b$, y alguno de $x$ o $y$ es $0$, entonces $b(x,y)=0$.

De la linealidad de ambas entradas de $b$, se tiene la siguiente proposición.

Proposición. Tomemos $b:V\times V\to \mathbb{R}$ una forma bilineal, vectores $x_1,\ldots,x_n$, $y_1,\ldots,y_m$ y escalares $a_1,\ldots,a_n,c_1,\ldots,c_m$. Tenemos que $$b\left(\sum_{i=1}^n a_ix_i, \sum_{j=1}^m c_j y_j\right)=\sum_{i=1}^n\sum_{j=1}^m a_ic_jb(x_i,y_j).$$

La proposición anterior muestra, en particular, que para definir una forma bilineal en un espacio vectorial $V$ de dimensión finita $n$, basta tomar una base $\{e_1,\ldots,e_n\}$ de $V$ y definir $b(e_i,e_j)$ para toda $1\leq i,j \leq n$.

Hagamos algunas aclaraciones acerca de las formas bilineales.

Aclaración 1. No es lo mismo una forma bilineal en $V$, que una transformación lineal de $V\times V$ a $\mathbb{R}$.

Ejemplo. La transformación $b((w,x),(y,z))=w+x+y+z$ sí es una transformación lineal de $\mathbb{R}^2\times \mathbb{R}^2 \to \mathbb{R}$, lo cual se puede verificar fácilmente a partir de la definición. Sin embargo, no es una forma bilineal. Una forma de verlo es notando que $$b((0,0),(1,1))=0+0+1+1=2.$$ Aquí una de las entradas es el vector cero, pero el resultado no fue igual a cero.

$\square$

Aclaración 2. Puede pasar que ninguna de las entradas de la forma bilineal sea $0$, pero que evaluando en ella sí de $0$.

Ejemplo. Consideremos la transformación $b:\mathbb{R}^2\times \mathbb{R}^2 \to \mathbb{R}$ tal que $$b((w,x),(y,z))=wy-xz.$$ Verificar que esta es una forma bilineal es sencillo y se deja como tarea moral. Además, se tiene que $b((1,0),(0,1))=0$.

$\square$

Más adelante, cuando definamos producto interior, nos van a importar mucho las parejas de vectores $v$, $w$ para las cuales $b(v,w)=0$.

Aclaración 3. Si $b$ es una forma bilineal, no necesariamente es cierto que $b(x,y)=b(y,x)$.

Ejemplo. Consideremos la transformación $b:\mathbb{R}^2\times \mathbb{R}^2 \to \mathbb{R}$ tal que $$b((w,x),(y,z))=wz-xy.$$ Verificar que esta es una forma bilineal es sencillo y se deja como tarea moral. Notemos que $b((2,1),(2,3))=6-2=4$, mientras que $b((2,3),(2,1))=2-6=-4$.

$\square$

Aquellas formas para las que sí sucede que $b(x,y)=b(y,x)$ son importantes y merecen un nombre especial.

Definición. Una forma bilineal $b:V\times V\to \mathbb{R}$ es simétrica si $b(x,y)=b(y,x)$ para todo par de vectores $x,y$ en $V$.

Para definir una forma bilineal $b$ simétrica en un espacio $V$ de dimensión finita $n$, basta tomar una base $\{e_1,\ldots,e_n\}$ y definir $b$ en aquellas parejas $b(e_i,e_j)$ con $1\leq i \leq j \leq n$.

Más ejemplos de formas bilineales

A continuación enunciamos más ejemplos de formas bilineales, sin demostración. Es un buen ejercicio verificar la definición para todas ellas.

Ejemplo. Si $a_1, a_2,\ldots, a_n$ son números reales y $V=\mathbb{R}^n$, entonces podemos definir $b:V\times V \to \mathbb{R}$ que manda a $x=(x_1,\ldots,x_n)$ y $y=(y_1,\ldots,y_n)$ a $$b(x,y)=a_1x_1y_1+\ldots+a_nx_ny_n.$$

Este es un ejemplo de una forma bilineal simétrica. Si todos los $a_i$ son iguales a $1$, obtenemos el producto punto o producto interior canónico de $\mathbb{R}^n$.

Ejemplo. Tomemos $V$ como el espacio vectorial de matrices $M_n(\mathbb{R})$. La transformación $b:V\times V\to \mathbb{R}$ tal que $b(A,B)=\text{tr}(AB)$ es una forma bilineal. Además, es simétrica, pues la traza cumple la importante propiedad $\text{tr}(AB)=\text{tr}(BA)$, cuya verificación queda como tarea moral.

Ejemplo. Tomemos $V$ el conjunto de funciones continuas y de periodo $2\pi$ que van de $\mathbb{R}$ a sí mismo. Es decir, $f:\mathbb{R}\to \mathbb{R}$ está en $V$ si es continua y $f(x)=f(x+2 \pi)$ para todo real $x$. Se puede mostrar que $V$ es un subespacio del espacio de funciones continuas, lo cual es sencillo y se queda como tarea moral. La transformación $b:V\times V \to \mathbb{R}$ tal que $$b(f,g)=\int_{-\pi}^\pi f(x) g(x)\, dx$$ es una forma bilineal.

Ejemplo. Consideremos $V=\mathbb{R}[x]$, el espacio vectorial de polinomios con coeficientes reales. Para $P$ y $Q$ polinomios definimos $$b(P,Q)=\sum_{n=1}^\infty \frac{P(n)Q(2n)}{2^n}.$$

La serie de la derecha converge absolutamente, de modo que esta expresión está bien definida. Se tiene que $b$ es una forma bilineal, pero no es simétrica.

Formas cuadráticas

Otra definición fundamental es la siguiente

Definición. Una forma cuadrática es una transformación $q:V\to \mathbb{R}$ que se obtiene tomando una forma bilineal $b:V\times V \to \mathbb{R}$ y definiendo $$q(x)=b(x,x).$$

Aclaración 4. Es posible que la forma bilineal $b$ que define a una forma cuadrática no sea única.

Ejemplo. Consideremos a la forma bilineal de $\mathbb{R}^2$ tal que $$b((x,y),(w,z))=xz-yw.$$ La forma cuadrática dada por $b$ es $$q(x,y)=b((x,y),(x,y))=xy-yx=0.$$ Esta es la misma forma cuadrática que la dada por la forma bilineal $$b'((x,y),(w,z))=yw-xz.$$ Pero $b$ y $b’$ son formas bilineales distintas, pues $b((1,0),(0,1))=1$, mientras que $b'((1,0),(0,1))=-1$.

$\square$

La aclaración anterior dice que puede que haya más de una forma bilineal que de una misma forma cuadrática. Sin embargo, resulta que la asignación es única si además pedimos a la forma bilineal ser simétrica. Este es el contenido del siguiente resultado importante.

Teorema (identidad de polarización). Sea $q:V\to \mathbb{R}$ una forma cuadrática. Existe una única forma bilineal simétrica $b:V\times V \to \mathbb{R}$ tal que $q(x)=b(x,x)$ para todo vector $x$. Esta forma bilineal está determinada mediante la identidad de polarización $$b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2}.$$

En la siguiente entrada mostraremos el teorema de la identidad de polarización. Por el momento, para tomar más intuición, observa como la identidad se parece mucho a la igualdad $$xy=\frac{(x+y)^2-x^2-y^2}{2}$$ en números reales.

Tarea moral

  • Completa los detalles de la segunda parte del primer ejemplo.
  • Verifica que en efecto las transformaciones de los ejemplos de las aclaración 2 y 3 son formas bilineales.
  • Muestra que el subconjunto de funciones continuas $\mathbb{R}$ a $\mathbb{R}$ y de cualquier periodo $p$ es un subespacio del espacio vectorial $\mathcal{C}(\mathbb{R})$ de funciones continuas reales.
  • Demuestra que para $A$ y $B$ matrices en $M_{n}(F)$ se tiene que $\text{tr}(AB)=\text{tr}(BA)$.
  • Encuentra una forma cuadrática en el espacio vectorial $\mathbb{R}_3[x]$ que venga de más de una forma bilineal.
  • Muestra que el conjunto de formas bilineales de $V$ es un subespacio del espacio de funciones $V\times V \to \mathbb{R}$. Muestra que el conjunto de formas bilineales simétricas de $V$ es un subespacio del espacio de formas bilineales de $V$.
  • Piensa en cómo la igualdad $$xy=\frac{(x+y)^2-x^2-y^2}{2}$$ de números reales está relacionada con la identidad de polarización para el producto punto en $\mathbb{R}^n$.

Más adelante…

En esta entrada estudiamos una extensión de la noción de transformaciones lineales que ya habíamos discutido en la unidad anterior. Enunciamos algunos teoremas muy importantes sobre las transformaciones bilineales e hicimos algunos ejemplos de cómo podemos verificar si una transformación es bilineal. La noción de transformación bilineal, nos permitirá abordar un concepto muy importante: el producto interior.

En las siguientes entradas hablaremos del producto interior y cómo éste nos ayuda a definir ángulos y distancias entre vectores de un espacio vectorial.

Entradas relacionadas