Archivo de la etiqueta: matrices

Álgebra lineal II: Matrices y formas bilineales, parte 2.

Introducción

Recordemos que, en la entrada del teorema de Gauss se hacía uso de la base canónica y en la entrada anterior definimos la matriz asociada a una forma bilineal dependiente de alguna base, nuestro objetivo en esta entrada será probar resultados o encontrar propiedades independientes a la base elegida.

Si recuerdas, una propiedad con estas características era el rango de una forma cuadrática o al menos eso mencionamos, aunque no dimos una prueba, aquí escribiremos formalmente este resultado, así como su prueba.

Congruencia de matrices

En la entrada anterior revisamos como obtener matrices asociadas a una misma forma bilineal en diferentes bases, en ello llegamos a la igualdad
\begin{align*} B=\text{ } ^tPAP\end{align*}
Profundicemos un poco en matrices que estén relacionadas de esta manera
Definición

Sean dos matrices simétricas $A,B \in M_n(\mathbb{R})$ diremos que $A$ es congruente con $B$ si existe una matriz invertible $P \in M_n(\mathbb{R})$ tal que
\begin{align*} B=\text{ } ^tPAP.\end{align*}
Notemos que esto es equivalente a decir que $A$ y $B$ son las matrices asociadas a una forma bilineal $b$ en distintas bases.

Generalmente cuando se introduce una relación de este estilo, se define de manera que sea una relación de equivalencia, por lo que no te debería sorprender el siguiente resultado.

Proposición

Ser matrices congruentes es una relación de equivalencia.

Demostración

Empezando con la reflectividad, esto es claro ya que la matriz identidad ($1_n$) es invertible (la inversa es si misma) y es clara la igualdad
\begin{align*} A=\text{ } ^t1_nA1_n.\end{align*}

Para la simetría, si tomamos dos matrices $A,B \in M_n(\mathbb{R})$ tal que $A$ es congruente con $B$ tenemos que
\begin{align*} B=\text{ } ^tPAP\end{align*}
Con $P \in M_n(\mathbb{R})$ invertible, aprovechando esto, multipliquemos del lado izquierdo por la inversa de $^tP$ y del lado derecho por la inversa de $P$ de ambos lados de la igualdad
\begin{align*} A=\text{ } ^t(P^{-1})BP^{-1}\end{align*}
Además, es claro que $P^{-1}$ es invertible por lo que $B$ es congruente con $A$.

Finalmente, la transitividad, supongamos que $A$ es congruente con $B$ y $B$ a su vez es congruente con $C$ esto nos arroja las siguientes dos igualdades
\begin{align*} B=\text{ } ^tPAP \\
C=\text{ } ^tQBQ\end{align*}
Con $P,Q \in M_n(\mathbb{R})$ invertibles, así sustituyendo $B$ en la segunda igualdad
\begin{align*} C=\text{ } ^tQ \text{ } ^tPAP Q\end{align*}
Recordando que
\begin{align*} \text{ } ^tQ \text{ } ^tP=\text{ }^t(PQ)\end{align*}
Por lo que la igualdad anterior se puede escribir como
\begin{align*} C=\text{ }^t(PQ)AP Q\end{align*}
Más aún, sabemos que $PQ$ sigue siendo invertible, por lo tanto $A$ es congruente a $C$.

$\square$

Ahora, recordando la definición del rango de una matriz vista en esta entrada y la siguiente proposición (demostrada en esa misma entrada)

Proposición

Sean $m$, $n$ y $p$ enteros. Sea $B$ una matriz en $M_{n,p}(F)$ y $A$, $A’$ matrices en $M_{m,n}(F)$. Sea $P$ una matriz en $M_{n,p}(F)$ cuya transformación lineal asociada es suprayectiva y $Q$ una matriz en $M_{r,m}(F)$ cuya transformación lineal asociada es inyectiva. Entonces:

  1. $\rank(A)\leq \min(m,n)$
  2. $\rank(AB)\leq \min(\rank(A),\rank(B))$
  3. $\rank(A+A’)\leq \rank(A) + \rank(A’)$
  4. $\rank(QAP) = \rank(A)$

Prestando especial atención a la última igualdad, procedamos con el siguiente resultado sumamente importante.

Proposición

Dos matrices congruentes tienen el mismo rango.

Demostración

La demostración, utilizando las herramientas adecuadas, es increíblemente sencilla.
Sean dos matrices simétricas $A,B \in M_n(\mathbb{R})$ congruentes, entonces existe una matriz invertible $P \in M_n(\mathbb{R})$ tal que
\begin{align*} B=\text{ } ^tPAP.\end{align*}
Como $P$ es invertible sabemos que la transformación lineal asociada a $^tP$ es inyectiva (es biyectiva, de hecho) y la asociada a $P$ es suprayectiva (igualmente es de hecho biyectiva), además, como todas las matrices las tomamos cuadradas, notemos que, por el punto $4$ de la proposición anterior
\begin{align*} rank(B)=rank(\text{ } ^tPAP)=rank(A).\end{align*}
Armados con estos resultados, veamos un análogo al teorema de Gauss visto anteriormente, si no es que una forma un tanto más fuerte de este, y procedamos a finalmente enunciar y demostrar el teorema de inercia de Sylvester, cuya demostración será poco más que un corolario.

Teorema de Gauss y teorema de Inercia de Sylvester.

Teorema de Gauss

Toda matriz simétrica $A \in M_n(\mathbb{R})$ es congruente a una matriz diagonal.

Demostración

Sea $q$ su forma cuadrática asociada en alguna base en $V=\mathbb{R}^n$ entonces
\begin{align*} q(x)=\text{ }^tXAX \text{ o visto de otra manera } q(x)=\sum_{i,j=1}^na_{ij}x_ix_j \end{align*}
Debido a la última proposición de la entrada anterior, sabemos que es suficiente mostrar la existencia de una base de $V$ bajo la cual la matriz asociada a $q$ sea diagonal.

Por el teorema de Gauss para formas cuadráticas, sabemos que podemos encontrar $\{ \alpha_1, \cdots, \alpha_r \} \subseteq \mathbb{R} $ números reales y $\{ l_1, \cdots, l_r \} \subseteq V* $ formas lineales linealmente independientes tales que
\begin{align*} q(x)= \sum_{i=1}^r \alpha _i (l_i(x))^2 \end{align*}
Para cualquier $x \in V$, más aún la familia $\{ l_1, \cdots, l_r \}$ puede ser completada a una base para $V^*$ sea esta $\{ l_1, \cdots, l_n \}$ ya que esta es linealmente independiente, por una proposición vista aquí, sabemos que existe una base $\{ u_1, \cdots, u_n \}$ de $V$ con base dual $\{ l_1, \cdots, l_n \}$ más aún, sabemos que
\begin{align*} l_i(u_j)=
\begin{cases}
1\quad \text{ si $i=j$,}\\
0\quad \text{ si $i\neq j$.}
\end{cases} \end{align*}
Por lo que, si $x=\sum_{i=1}^n x_iu_i$ entonces
\begin{align*} q(x)= \sum_{i=1}^n \alpha _i (l_i(x))^2= \sum_{i=1}^n \alpha _i x_i^2\end{align*}
Por lo que su matriz asociada respecto a la base $\{ u_1, \cdots, u_n \}$ es la matriz diagonal $D$ tal que
\begin{align*} D=[d_{ij}] \qquad \text{con} \qquad d_{ii}= \alpha_i \qquad \text{y} \qquad d_{ij}=0 \end{align*}
Si $i \neq j$.

Por la última proposición de la entrada anterior, $A$ es congruente con $D$.

$\square$

Anteriormente se definió rango de una forma bilineal, se esperaría por la elección de nombres que el rango de una forma cuadrática y el rango de su matriz correspondiente coincidan, redefinamos rango de una forma cuadrática y veamos que es equivalente a la antigua definición.

Definición

Sea $q$ una forma cuadrática en $V$, el rango de $q$ será el rango de su matriz asociada en alguna base de $V$.

Recordemos que el rango de $q$ lo definimos anteriormente como la cardinalidad del conjunto $\{ \alpha_1, \cdots, \alpha_r \}$ (utilizando la notación del teorema de Gauss), por la demostración anterior este número es igual al número de entradas no cero en la diagonal de la matriz asociada con respecto a la base $\{ u_1, \cdots, u_n \}$ que al ser una matriz diagonal es igual al rango de esta matriz que ya vimos es igual al rango de la matriz asociada a $q$ en cualquier base de $V$, por lo que nuestras definiciones son equivalentes.

Podemos llegar incluso más lejos, en esta entrada discutimos como podíamos hacer que dada $q$ con
\begin{align*} q(x)= \sum_{i=1}^r \alpha _i (l_i(x))^2 \end{align*}
fuera tal que todo $\alpha_i \in \{-1,1\}$ inclusive reordenando la base $\{ u_1, \cdots, u_n \}$ podemos hacer que
\begin{align*} q(x)= \sum_{i=1}^r \alpha _i x_i^2\end{align*}
Haciendo que $D$ su matriz asociada diagonal tenga como entradas únicamente a $1,0,-1$ y que el $-1$ y $1$ aparezcan únicamente en las primeras $r$-esimas entradas de la diagonal.

Culminemos esta larga sección con el teorema de Sylvester.

Proposición (Teorema de Sylvester/Ley de Inercia de Sylvester)

Sea $q$ una forma cuadrática en $V$ un espacio vectorial de dimensión finita sobre $\mathbb{R}$, el rango de $q$ son invariantes sin importar la base respecto a la que se encuentre su matriz asociada.

Demostración

Sea $A$ la matriz asociada a $q$ en una base $\beta$, sabemos que el rango es igual al de la matriz asociada a $q$ bajo una base $\beta’$ al ser matrices congruentes.

$\square$

Recordando las notas anteriores hay un tipo de formas cuadráticas de las que no hemos hablado, las formas positivas o definidas positivas, revisemos sus matrices y que propiedades extras podemos obtener de agregar esta condición

Definición

Sea una matriz simétrica $A \in M_n(\mathbb{R})$ diremos que es positiva si $^tXAX \geq 0$ para todo $X \in \mathbb{R}^n$, diremos que es definida positiva si $^tXAX > 0$ para todo $X \in \mathbb{R}^n- \{0\}$.

Otra forma de verlo, dada una matriz simétrica $A$ esta será positiva si su forma cuadrática asociada, a saber, dado $x \in \mathbb{R}^n$
\begin{align*} q(x_1, \cdots, x_n) = \sum_{i,j=1}^na_ijx_ix_j\end{align*}
Es positiva, análogamente para alguna forma definida positiva.

De esta manera notemos que una matriz definida positiva da un producto interno en $\mathbb{R}^n$ definido por
\begin{align*} <X,Y>_A=<X,AY>=\text{ }^tXAY\end{align*}
donde $<,>$ es el producto interno canónico en $\mathbb{R}^n$.

Continuando con la idea de no requerir bases, probemos la siguiente proposición.

Proposición

Sean $A,B \in M_n(\mathbb{R})$ congruentes, tal que $A$ es positiva, B es positiva tambien.

Demostración

Si son congruentes sabemos que existe $P \in M_n(\mathbb{R})$ invertible tal que
\begin{align*} B=\text{ }^tPAP\end{align*}
Así sea $X \in \mathbb{R}^n$
\begin{align*} ^tXBX=\text{ }^t X \text{ }^tPAP X=\text{ }^t (PX) A PX \end{align*}
y como $PX \in \mathbb{R}^n$ tenemos que $\text{ }^t (PX) A PX \geq 0$ ya que $A$ es positiva, por lo que
\begin{align*} ^tXBX \geq 0. \end{align*}

$\square$

Notemos también que, en una matriz diagonal positiva $D$, todas sus entradas no cero deben ser positivas, supongamos que esto es falso com $d_{ii}<0$, si $q$ es su forma cuadrática asociada entonces calculando $q(e_i)=d_{ii}<0$ con $e_i$ el elemento de la base canónica cuya unica entrada no cero es la $i$-esima, lo que es una contradicción.

Concluyamos con la siguiente proposición.

Proposición

Cualquier matriz positiva $A \in M_n(\mathbb{R})$ puede ser escrita como $^tBB$ para alguna matriz $B \in M_n(\mathbb{R})$.

Demostración

Sea $A \in M_n(\mathbb{R})$ positiva, por el teorema de Gauss sabemos que es congruente con alguna matriz diagonal, por lo que
\begin{align*} ^tPDP=A\end{align*}
Con $D=[d_{ij}]$ diagonal, además sabemos que al ser congruente con $A$ esta debe ser positiva, más aún, por lo discutido arriba sabemos que toda entrada no $0$ en $D$ debe ser positiva, por lo que podemos escribir a $D$ como sigue
\begin{align*} ^tD_1D_1=D\end{align*}
Con
\begin{align*} D_1=[\sqrt{d_{ij}}]\end{align*}
Sustituyendo esto en la igualdad de arriba
\begin{align*} A=\text{ }^tP\text{ }^tD_1D_1P=\text{ }^t(D_1P)(D_1P)\end{align*}
Y nombrando $B=D_1P$
\begin{align*} ^tBB=A.\end{align*}

$\square$

Más adelante

Con esto concluiremos por ahora nuestra revisión de formas bilineales y sus relaciones con matrices, aunque como es de esperarse no abandonaremos el tema completamente, centrándonos después en la relación que existe entre dualidad y ortogonalidad.

Antes de ello, intentaremos replicar los resultados vistos en las últimas dos entradas esta vez para formas sesquilineales y hermitianas cuadráticas, encontrando resultados análogos pero esta vez para formas en espacios vectoriales complejos.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. ¿Como definirías el determinante de una forma bilineal simétrica basándonos en su matriz? ¿Puedes hacer esta definición independiente de la base que elijas?
  2. Sea $n \geq 1$ y $A=[a_{ij}] \in M_n(\mathbb{R})$ definida por $a_{ij}=min(i,j)$, prueba que $A$ es simétrica y definida positiva.
  3. Demuestra que una matriz simétrica y definida positiva es invertible.
  4. Demuestra que una matriz simétrica y positiva es definida positiva si y solo si es invertible.
  5. Sea $A=[a_{ij}] \in M_n(\mathbb{R})$ tal que $a_{ij}=1$ si $i \neq j$ y $a_{ii} > 1$ si $1 \leq i \leq n$. Prueba que $A$ es simétrica y definida positiva.

Entradas relacionadas

Álgebra lineal II: Formas bilineales y matrices

Introducción

Al principio de esta unidad, especialmente en la entrada acerca de teoremas de Gauss y teorema de Sylvester empezamos a hablar de una futura relación entre formas bilineales y matrices, más aún, sabemos que cualquier función lineal se puede representar como una matriz, por lo que esperaríamos una relación similar con las formas bilineales, aquí empezaremos a estudiar esta relación.

Por otro lado, en la entrada de teorema de Sylvester enunciamos de una manera bastante vaga dicho resultado, aunque no dimos una demostración, en esta entrada comenzaremos con los pasos para la demostración de este teorema, aunque no la completaremos aún.

Matriz asociada

De aquí en adelante, asumiremos que $V$ siempre es un espacio vectorial sobre $\mathbb{R}$ de dimensión finita.
Definición

Sea $ \{e_1, \cdots , e_n\} $ una base de $V$ y $b: V \times V \rightarrow \mathbb{R}$ una forma bilineal simétrica en $V$. La matriz de $b$ con respecto a la base $e_1 \cdots e_n$ es la matriz
\begin{align*} A=[a_{ij}] \text{ con } a_{ij}=b(e_i,e_j)\end{align*}
Para todo $i,j$ tal que $1 \leq i,j \leq n$.

Si $q$ es una forma cuadrática en $V$, la matriz de $q$ con respecto a la base $e_1 \cdots e_n$ es la matriz de su polar.

Y para reforzar la idea de esta relación, veamos el siguiente teorema.

Teorema

Entendamos a $Sim(V)$ como el subespacio de formas bilineales simétricas y a $M_n^*(\mathbb{R})$ como el subespacio de matrices simétricas.

Sea $ \{e_1, \cdots , e_n\} $ una base de $V$, la función $\varphi: Sim(V) \rightarrow M_n^*(\mathbb{R})$ que envía una forma bilineal simétrica a su matriz con respecto a $ \{e_1, \cdots , e_n\} $ establece un isomorfismo.

Demostración

Sean $b,b’$ dos formas bilineales simétricas, con $\varphi(b)=A $ y $\varphi(b’) =A’$ respectivamente, si suponemos que $A=A’$ entonces $b(e_i,e_j)=b'(e_i,e_j)$ para cualesquiera $i,j$ tal que $1 \leq i,j \leq n$, que es suficiente para saber qué $b=b’$, por lo que esta asignación es inyectiva.

Para la suprayectividad, sea $A=[a_{ij}]$ una matriz simétrica y sean $x,y \in V$ dos vectores cualesquiera tales que $x=\sum_{i=1} ^nx_ie_i$ y $y=\sum_{j=1} ^ny_je_j$ definamos
\begin{align*} b(x,y) =\sum_{i,j=1}^na_{ij}x_iy_j \end{align*}.
En esta entrada demostramos que $b$ así definida efectivamente es una forma bilineal y la simetría se sigue naturalmente de la conmutatividad del producto en $\mathbb{R}$.
Por lo que $b$ es una forma bilineal simétrica tal que $\varphi(b)=A$, a su vez, esto implica que $\varphi$ es suprayectiva.

Finalmente, para mostrar que esto es efectivamente un isomorfismo, sea $A =\varphi(b+cb’)$ para algún $c \in \mathbb{R}$, sabemos entonces que
\begin{align*} A=[a_{ij}] \end{align*}
Con $a_{ij}=(b+cb’)(e_i,e_j)=b(e_i,e_j) + c \cdot b'(e_i,e_j) $ así.
\begin{align*} A=[b(e_i,e_j) + c \cdot b'(e_i,e_j)] \end{align*}
Además, sabemos que las matrices son lineales por los que
\begin{align*} A=[b(e_i,e_j)] + c \cdot [b'(e_i,e_j)] \end{align*}
y por como definimos $\varphi$
\begin{align*} \varphi(b+cb’)=A= \varphi(b) + c \cdot \varphi(b’) \end{align*}

Por lo que $\varphi$ es un isomorfismo.

$\square$

Una pregunta natural que se sigue de este teorema es ¿Cuál es, explícitamente, la inversa de este isomorfismo? por suerte esta fue casi definida durante la demostración del teorema, así escribámosla de una manera más formal.

Sea $ \{e_1, \cdots , e_n\} $ una base de $V$, la función $\varphi^{-1}: M_n^*(\mathbb{R}) \rightarrow Sim(V) $ es tal que para todo $A \in M_n^*(\mathbb{R})$ con $A=[a_{ij}]$
\begin{align*} \varphi^{-1}(A)=b \end{align*}
Con
\begin{align*} b(x,y)= \sum_{i,j=1}^na_{ij}x_iy_j \end{align*}
para cualesquiera $x,y \in V$ vectores tales que $x=\sum_{i=1} ^nx_ie_i$ y $y=\sum_{j=1} ^ny_je_j$

Preparaciones para el teorema de Sylvester

Recordemos que, en entradas anteriores, empezamos a hablar del teorema de inercia de Sylvester y dijimos que era más fácil trabajar con él una vez que tuviéramos la notación matricial, empecemos con los resultados que nos llevaran a enunciar y demostrar este teorema.

Algo que vale la pena notar de la última igualdad, en particular del lado derecho es que lo podemos expresar como una multiplicación matricial de la manera que sigue
\begin{align*} \sum_{i,j=1}^na_{ij}x_iy_j= \text{ }^{t}XAY\end{align*}
Con $A=[a_{ij}]$ y $X, Y$ los vectores columna con entradas $x_i$ y $y_i$ respectivamente y $^{t}X$ el vector transpuesto de $X$. Dada esta igualdad podemos obtener otra caracterización de la matriz de $b$ con respecto a la base $e_1, \cdots e_n $.

Proposición

Sea $e_1, \cdots e_n $ una base de $V$ y $b$ una forma bilinear simétrica en $V$, la matriz de $b$ con respecto a la base $e_1, \cdots e_n $ es la única matriz simétrica $A \in M_n(\mathbb{R})$ tal que
\begin{align*} b(x,y)=\text{ } ^tXAY \end{align*}
Para cualesquiera vectores $x,y \in V$ donde $X,Y$ son los vectores columna con entradas las de $x,y$ con respecto a la base $e_1, \cdots e_n $

Demostración

Por las observaciones anteriores, sabemos que la matriz de $b$ con respecto a la base $e_1, \cdots e_n $ efectivamente cumple esta igualdad y si una matriz cumple esto efectivamente debe ser la matriz de $b$ con respecto a la base $e_1, \cdots e_n $, todo esto gracias a la función $\varphi$ y su inversa, así solo falta mostrar la unicidad, así sea $A’$ otra matriz tal que para cualesquiera vectores $x,y \in V$
\begin{align*} b(x,y)=\text{ } ^tXA’Y \end{align*}
Entonces se debe tener que
\begin{align*} \text{ } ^tXAY =\text{ } ^tXA’Y \end{align*}
Que a su vez implica que
\begin{align*} A=A’\end{align*}

$\square$

Ejemplo

Sea
\begin{align*} A=\begin{pmatrix} 0 & 1 \\
1 & 0 \end{pmatrix}\end{align*}
Encuentra su forma cuadrática asociada.

Solución

Utilizando lo revisado arriba tenemos que su forma bilineal asociada es
\begin{align*} b(x,y)= \sum_{i,j=1}^na_{ij}x_iy_j \end{align*}
de esta manera, en este caso sabemos que $a_{11}=a_{22}=0$ y $a_{12}=a_{21}=1$, por lo que explícitamente, $b$ se puede escribir como
\begin{align*} b(x,y)= 0x_1y_1+1x_1y_2+1x_2y_1+0x_2y_2=x_1y_2+y_1x_2 \end{align*}
Con $x_1,x_2,y_1,y_2$ las coordenadas de $x,y$ respectivamente, para encontrar la forma cuadrática basta solo calcular $b(x,x)$
\begin{align*} q(x)=b(x,x)=x_1x_2+x_1x_2=2x_1x_2. \end{align*}

Ejemplo

Sea $V=\mathbb{R}^3$ y $q$ dada como sigue
\begin{align*} q(x)=x_1x_2+x_2x_3+x_3x_1 \end{align*}
Encuentra su matriz asociada en la base canónica y en $\{u_1=(1,1,0), u_2=(1,0,1), u_3=(0,1,1) \}$.

Solución

Primero encontremos su polar
\begin{align*} b(x,x’)=\frac{x’_1x_2+x’_2x_1+x’_1x_3+x’_3x_1+x’_2x_3+x’_3x_2}{2} \end{align*}
Así calculemos que le hace esta forma bilineal a la base canónica de par en par.
\begin{align*} b(e_1,e_1)=b(e_2,e_2)=b(e_3,e_3)=0 \qquad \text{y} \qquad b(e_1,e_2)=b(e_1,e_3)=b(e_2,e_3)=\frac{1}{2}\end{align*}
Por lo que su matriz asociada en la base canónica es
\begin{align*} A=\begin{pmatrix} 0 & \frac{1}{2} & \frac{1}{2} \\
\frac{1}{2} & 0 & \frac{1}{2} \\
\frac{1}{2} & \frac{1}{2} & 0 \end{pmatrix}\end{align*}
Por otro lado, calculando lo que $b$ le hace a nuestra otra base
\begin{align*} b(u_1,u_1)=b(u_2,u_2)=b(u_3,u_3)=1 \qquad \text{y} \qquad b(u_1,u_2)=b(u_1,u_3)=b(u_2,u_3)=\frac{3}{2}\end{align*}
Y construyendo esta otra matriz
\begin{align*} A=\begin{pmatrix} 1 & \frac{3}{2} & \frac{3}{2} \\
\frac{3}{2} & 1 & \frac{3}{2} \\
\frac{3}{2} & \frac{3}{2} & 1 \end{pmatrix}\end{align*}

En estos resultados y ejemplos podemos ver que la matriz asociada a una forma bilineal es completamente dependiente de la base que elijamos, y obtenerla en bases distintas puede resultar en cálculos muy grandes, por ello no te debe de sorprender que se buscara una manera de encontrar matrices en bases distintas sin tener que recurrir a la forma bilineal cada vez, con esta motivación revisemos este último teorema.

Proposición

Supongamos que una forma bilineal $b$ tiene asociada una matriz $A$ con respecto a una base $\beta$ y una matriz $A’$ con respecto a otra base $\beta’$, sea $P$ la matriz de cambio de base de $\beta$ a $\beta’$, entonces
\begin{align*} A’=\text{ } ^tPAP.\end{align*}
Demostración

Sean $x,y \in V$ dos vectores cualesquiera, si $\beta = \{u_1, \cdots , u_n\}$ y $\beta’ = \{u’_1, \cdots , u’_n\}$ entonces
\begin{align*} x=u_1x_1 + \cdots + u_nx_n=u’_1x’_1 + \cdots + u’_nx’_n\end{align*}
Definamos al vector columna $X$ como sigue
\begin{pmatrix} x_1 \\
\vdots \\
x_n \end{pmatrix}
Y definamos análogamente a $X’,Y,Y’$, sabemos entonces que
\begin{align*} b(x,y)= \text{ }^tXAY= \text{ }^tX’A’Y’\end{align*}
Además, sabemos que
\begin{align*} X=PX’ \qquad \text{y} \qquad Y=PY’\end{align*}
De donde se sigue la siguiente cadena
\begin{align*} \text{ }^tX’A’Y’= b(x,y)=\text{ }^tXAY=\text{ }^t(PX’)A(PY’)=\text{ }^tX’\text{ }^tPAPY’ \end{align*}
Fijándonos en los extremos
\begin{align*} \text{ }^tX’A’Y’=\text{ }^tX’\text{ }^tPAPY’ \end{align*}
De donde finalmente concluimos que
\begin{align*} A’=\text{ } ^tPAP.\end{align*}

$\square$

Más adelante

Esta es una pequeña introducción a la relación entre las formas bilineales (y cuadráticas por extensión) y las matrices, podemos ver que esta nos otorgó otra manera de entender las formas bilineales y otra forma de calcularlas, algo que no hemos explorado es el poder que esta relación nos entrega al aplicar todo lo que conocemos acerca de matrices a las matrices asociadas a una forma bilineal.

Otro problema que enfrentamos es la dependencia de las matrices a su base, aunque este no es un problema que podamos evitar, nos gustaría encontrar propiedades que se mantengan sin importar la base que sea elegida o alguna relación entre todas las matrices de una misma forma bilineal, esto lo abordaremos en la siguiente entrada y cumpliremos lo antes prometido de enunciar y demostrar la ley de Inercia de Sylvester.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. Sea $V=\mathbb{R}^3$ y definamos $q: V \rightarrow \mathbb{R}$
    \begin{align*} q(x,y,z)= (x+2y+3z)^2+(y+z)^2-(y-z)^2. \end{align*}
    Prueba que $q$ es cuadrática y encuentra su polar.
  2. ¿Es q positiva? ¿Es definida positiva?
  3. Encuentra la matriz asociada a $q$ con respecto a la base canónica.
  4. Sean los vectores
    \begin{align*} |v_1=(2,0,0), \; v_2=(-5,1,1), \; v_3=(1,1,-1).\end{align*}
    Prueba que son una base de $V$ y encuentra la matriz asociada a b respecto a ellos.
  5. Encuentra el rango y signatura de $q$ y encuentra el rango y discriminante de cada una de sus matrices, ¿Qué puedes decir acerca de ellos?

Entradas relacionadas

Álgebra Lineal II: Teorema de Gauss

Introducción

En la entrada anterior vimos un recordatorio de las formas bilineales, cuadráticas y sus polares, en esta entrada continuaremos recordando algunas propiedades vistas previamente enfocándonos en el teorema de Gauss y su demostración, la cual, cabe decirlo, nos dará una pequeña pista de la relación (que esperaríamos tener, al ser álgebra lineal) entre las formas cuadráticas y matrices.

Además, con el teorema de Gauss obtendremos un algoritmo (aunque ciertamente no es obvio cual es este, basado en la demostración) para poder escribir cualquier forma cuadrática en una forma estandarizada, permitiéndonos así buscar propiedades particulares a cada forma cuadrática que más adelante motivara otro resultado importante.

Preparaciones para el teorema de Gauss

Antes de empezar con el teorema, veamos una propiedad de las formas cuadráticas en $\mathbb{R}^n$.
Sea $q$ una forma cuadrática en $\mathbb{R}^n$ con $b$ su polar, y sea $e_1, \dots , e_n$ la base canónica. sabemos que, dado $x \in \mathbb{R}^n$ con $x=(x_1, \dots , x_n)$
\begin{align*} q(x)=q(x_1,\dots , x_n)=q(\sum_{i=1}^nx_ie_i)=b(\sum_{i=1}^nx_ie_i, \sum_{j=1}^nx_je_j) \end{align*}
Desarrollemos la suma presentada en la primera entrada
\begin{align*} =b(x_1e_1, \sum_{j=1}^nx_je_j)+ b(x_2e_2, \sum_{j=1}^nx_je_j) + \dots + b(x_ne_n, \sum_{j=1}^nx_je_j) \end{align*}
Ahora, desarrollemos únicamente la suma de la segunda entrada de $ b(x_1e_1, \sum_{j=1}^nx_je_j)$
\begin{align*} =b(x_1e_1, x_1e_1)+ b(x_1e_1, x_2e_2) + \dots + b(x_1e_1,x_ne_n) \end{align*}
Haciendo lo mismo en cada sumando hasta desarrollar la suma de $b(x_ne_n, \sum_{j=1}^nx_je_j)$
\begin{align*} =b(x_ne_n, x_1e_1)+ b(x_ne_n, x_2e_2) + \dots + b(x_n e_n ,x_n e_n) \end{align*}
Acomodemos todas estas sumas de la siguiente manera, que si has llevado teoría de conjuntos podría resultarte familiar
\begin{align*} =b(x_1e_1, x_1e_1)+ b(x_1e_1, x_2e_2) + \dots + b(x_1e_1,x_ne_n) \\
+b(x_2e_2, x_1e_1) + b (x_2e_2, x_2e_2) + \dots + b(x_2e_2,x_ne_n) \\
\vdots \qquad \qquad \qquad \qquad \qquad \qquad \\
+b(x_ne_n, x_1e_1) + b (x_n e_n, x_2e_2) + \dots + b (x_n e_n , x_n e_n) \end{align*}
Al encontrarnos con esta notación un tanto engorrosa, intentemos simplificarla, nombremos $b(e_i , e_j)=a_{ij}$ y como sabemos que $b$ es simétrica (¿por qué?), podemos afirmar que $a_{ij}=a_{ji}$ además, en cada uno de estos sumandos utilicemos la linealidad, sacando los coeficientes $x_i$ y $x_j$
\begin{align*} =x_1^2a_{11}+ x_1x_2a_{12} + \dots + x_1x_na_{1n} \\
+x_2x_1a_{21}+ x_2^2a_{22} + \dots +x_2x_na_{2n} \\
\vdots \qquad \qquad \qquad \qquad \qquad \qquad \\
+x_nx_1a_{n1} + x_nx_2a_{n2} + \dots + x_n^2 a_{nn} \end{align*}
No está de más notar la similitud que esta notación tiene con una matriz, ¿será que $q$ se puede representar como una matriz?
Más allá de ello, notemos que las $ij$-esima entrada es igual a la entrada $ji$ por lo que $q$ se puede terminar reescribiendo de la siguiente manera
\begin{align*} q(x_1,\dots , x_n)= \sum_{i=1}^nx_i^2a_{ii} + 2\sum_{1 \leq i < j \leq n} x_i x_j a_{ij} \end{align*}
Al juntar todos los elementos de la diagonal en la primera suma y todos los que están fuera de ella en la segunda.

Habiendo hecho esto, procedamos a el teorema cuya demostración, como es de esperar, utilizará la observación recién hecha.

Teorema de Gauss de formas cuadráticas

Teorema
Sea $q$ una forma cuadrática en $V=\mathbb{R}^n$. Existen $\alpha_1, \dots , \alpha_r \in \mathbb{R}$ y formas (funciones) lineales $l_1, \dots l_r \in V^*$ linealmente independientes tales que, para todo $x \in V$
\begin{align*} q(x)= \sum_{i=1}^r \alpha _i (l_i(x))^2 \end{align*}
Recordemos que $V^*$ es el espacio vectorial dual de $V$.

Demostración

Sea $q$ una forma cuadrática cualquiera en $\mathbb{R}^n$.

Procedamos por inducción sobre $n$.

$\underline{ \text{Cuando }n=1}.$

Utilizando la observación anterior sabemos que $q$ se puede escribir como
\begin{align*} q(x_1)=x_1^2a_{11}=x_1^2b(1,1)=x_1^2q(1) \end{align*}.
Con $b$ la polar de $q$, nombrando $\alpha=q(1)$ y $l: V \rightarrow \mathbb{R}$ la identidad, tenemos que
\begin{align*} q(x_1)= x_1^2q(1)=(l_1(x_1))^2 \alpha_1 \end{align*}.

Por lo que el teorema se cumple cuando n=1.

$\underline{ \text{Supongamos que el teorema se cumple para }n-1}$

Nuevamente, por la observación anterior, sabemos que
\begin{align*} q(x_1,\dots , x_n)= \sum_{i=1}^nx_i^2a_{ii} + 2\sum_{1 \leq i < j \leq n} x_ix_ja_{ij} \end{align*}
Separemos este pedazo de la demostración en dos casos.

  • Si existe $ i \in \{ 1, \dots n\}$ tal que $a_{ii} \neq 0$ sin pérdida de generalidad, supongamos que $a_{nn} \neq 0$ (¿Por qué podemos hacer esto?)

    Observemos que
    \begin{align*} 2\sum_{1 \leq i < j \leq n} x_ix_ja_{ij}= 2\sum_{1 \leq i < j \leq n-1} x_ix_ja_{ij} +2(\sum_{i=1}^{n-1} x_ia_{in})x_n \end{align*}
    y
    \begin{align*} \sum_{i=1}^n x_i^2a_{ii}=x_n^2a_{nn} + \sum_{i=1}^{n-1} x_i^2a_{ii} \end{align*}
    Con esto
    \begin{align*} q(x_1,\dots , x_n)=x_n^2a_{nn} + \sum_{i=1}^{n-1} x_i^2a_{ii}+2\sum_{1 \leq i < j \leq n-1} x_ix_ja_{ij} +2(\sum_{i=1}^{n-1} x_ia_{in})x_n \end{align*}
    Dado esto, utilicemos el primero y último término para completar el cuadrado, viendo a $q$ como un polinomio de segundo grado en $x_n$
    \begin{align*} q(x_1,\dots , x_n)= a_{nn} (x_n+\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i )^2- a_{nn}(\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i )^2 + \sum_{i=1}^{n-1} x_i^2a_{ii}+2\sum_{1 \leq i < j \leq n-1} x_ix_ja_{ij} \end{align*}
    Y finalmente, nombrando
    \begin{align*} q'(x_1,\dots , x_{n-1})= – a_{nn}(\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i )^2 + \sum_{i=1}^{n-1} x_i^2a_{ii}+2\sum_{1 \leq i < j \leq n-1} x_ix_ja_{ij} \end{align*}
    Tenemos que
    \begin{align*} q(x_1,\dots , x_n)= a_{nn} (x_n+\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i )^2+q'(x_1,\dots , x_{n-1}) \end{align*}
    Donde $q’$ es una forma cuadrática en $\mathbb{R}^{n-1}$ (¿Por qué?) por lo que podemos aplicar la hipótesis de inducción, es decir que
    \begin{align*} q'(x_1,\dots , x_{n-1})= \sum_{i=1}^r \alpha_i (l_i'(x))^2 \end{align*}
    Con $\{ l’_1, \dots , l’_r\} \subseteq (\mathbb{R}^{n-1})^*$ linealmente independientes, definamos
    \begin{align*} l_{r+1}(x_1, \dots , x_n)= x_n+\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i \text{,} \qquad \alpha_{r+1}=a_{nn}\end{align*}
    Y
    \begin{align*} l_i(x_1, \dots , x_n)=l_i'(x_1, \dots , x_{n-1}) \end{align*}
    con $1 \leq i \leq r$, ya con estos nombres tenemos que
    \begin{align*} q(x_1,\dots , x_n)= \sum_{i=1}^{r+1} \alpha_i (l_i(x_1, \dots , x_n))^2 \end{align*}
    Por lo tanto, para todo $x \in \mathbb{R}^n$
    \begin{align*} q(x)= \sum_{i=1}^{r+1} \alpha_i (l_i(x))^2 \end{align*}
    con $\{ l_1, \dots , l_{r+1} \}$ linealmente independientes (¿Por qué?).
    \begin{align*} \\ \end{align*}
  • Si $ \forall i \in \{ 1, \dots n\}$ $a_{ii}=0$

    De nuevo, separaremos este caso en dos:

    Si suponemos que $\forall i,j \in \{ 1, \dots n\}$ $a_{ij}=0$ entonces debemos tener que $q=0$ así tomando a $\{ l_1, \dots , l_{n} \}$ como la base de $V^*$ que sabemos es linealmente independiente y a $\alpha_i=0$ para todo $1 \leq i \leq n$ es claro que
    \begin{align*} q(x)= \sum_{i=1}^{n} \alpha_i (l_i(x))^2 \end{align*}.

    Así supongamos que existe algún $a_{ij} \neq 0$ sin pérdida de generalidad supongamos que $a_{n-1.n} \neq 0$ (De nuevo ¿Por qué aquí podemos hacer esta afirmación sin pérdida de generalidad?)

    Recordando la observación del principio, tenemos que
    \begin{align*} q(x_1,\dots , x_n)= \sum_{i=1}^nx_i^2a_{ii} + 2\sum_{1 \leq i < j \leq n} x_i x_j a_{ij} \end{align*}
    Además, como $ \forall i \in \{ 1, \dots n\}$ $a_{ii}=0$ tenemos que $q$ se puede simplificar aún más
    \begin{align*} q(x_1,\dots , x_n)= 2\sum_{1 \leq i < j \leq n} x_i x_j a_{ij} \end{align*}
    Más aún esta suma se puede separar como sigue
    \begin{align*} q(x_1,\dots , x_n)= 2a_{n-1.n}x_{n-1}x_n +2\sum_{i=1}^{n-2}a_{in}x_ix_n+ 2\sum_{i=1}^{n-2}a_{i,n-1}x_ix_{n-1} + 2\sum_{1 \leq i < j \leq n-2} x_i x_j a_{ij} \end{align*}.
    Para no alargar esta entrada, te sugiero intentes probar que $q$ efectivamente se puede escribir de esta manera, tal vez te resulte útil volver a pensar a $q$ en la «notación matricial» que utilizamos al principio.
    Prosigamos, utilizaremos la siguiente identidad algebraica
    \begin{align*} axy+bx+cy= a ( x + \frac{c}{a} ) ( y + \frac{b}{a} ) -\frac{bc}{a} \end{align*}
    Y nombrando
    \begin{align*} a =2a_{n-1.n}, \qquad b=2\sum_{i=1}^{n-2}a_{in}x_i, \qquad c=2\sum_{i=1}^{n-2}a_{i,n-1}x_i, \qquad x=x_n, \qquad y=x_{n-1} \end{align*}
    Tenemos que $q$ se puede escribir como sigue
    \begin{align*}2a_{n-1.n}(x_n + \sum_{i=1}^{n-2}\frac{a_{i,n-1}}{a_{n-1.n}} x_i )( x_{n-1} + \sum_{i=1}^{n-2}\frac{a_{i,n}}{a_{n-1.n}} x_i ) – 2\frac{\sum_{i=1}^{n-2}a_{in}x_i \times \sum_{i=1}^{n-2}a_{i,n-1}x_i}{a_{n-1.n}} + 2\sum_{1 \leq i < j \leq n-2} x_i x_j a_{ij} \end{align*}
    Por suerte, para la notación nombraremos
    \begin{align*} q'(x_1,\dots , x_{n-2})= – 2\frac{\sum_{i=1}^{n-2}a_{in}x_i \times \sum_{i=1}^{n-2}a_{i,n-1}x_i}{a_{n-1.n}} + 2\sum_{1 \leq i < j \leq n-2} x_i x_j a_{ij} \end{align*}
    Que es una forma cuadrática en $\mathbb{R}^{n-2}$ por lo que, gracias a la hipótesis de inducción se puede escribir como
    \begin{align*} q'(x_1, \dots , x_{n-2})= \sum_{i=1}^r \alpha’_i (l’_i(x_1, \dots , x_{n-2}))^2 \end{align*}
    Con $\{ l’_1, \dots , l’_r\} \subseteq (\mathbb{R}^{n-2})^*$ linealmente independientes, trabajemos con la otra parte de $q$, para esto usaremos otra identidad algebraica
    \begin{align*} ab=\frac{(a+b)^2 -(a-b)^2 }{4} \end{align*}
    Y nombrando
    \begin{align*} a =(x_n + \sum_{i=1}^{n-2}\frac{a_{i,n-1}}{a_{n-1.n}} x_i ), \qquad b= ( x_{n-1} + \sum_{i=1}^{n-2}\frac{a_{i,n}}{a_{n-1.n}} x_i ) \end{align*}
    Por suerte, aquí no necesitamos sustituir y desarrollar, definamos ingeniosamente $l_{r+1}$ y $l_{r+2}$ como sigue
    \begin{align*} l_{r+1}(x_1, \dots , x_n)= x_n + x_{n-1} + \sum_{i=1}^{n-2}\frac{a_{i,n-1}+a_{i,n}}{a_{n-1.n}} x_i \end{align*}
    Y
    \begin{align*} l_{r+2}(x_1, \dots , x_n)= x_n – x_{n-1} + \sum_{i=1}^{n-2}\frac{a_{i,n-1}-a_{i,n}}{a_{n-1.n}} x_i \end{align*}
    De esta manera
    \begin{align*}2a_{n-1.n}(x_n + \sum_{i=1}^{n-2}\frac{a_{i,n-1}}{a_{n-1.n}} x_i )( x_{n-1} + \sum_{i=1}^{n-2}\frac{a_{i,n}}{a_{n-1.n}} x_i ) \\
    =\frac{a_{n-1.n}}{2} [ (l_{r+1}(x_1, \dots , x_n))^2- (l_{r+2}(x_1, \dots , x_n))^2 ] \end{align*}
    Para finalizar, con todas estas igualdades tenemos que
    \begin{align*} q(x_1,\dots , x_n)= \sum_{i=1}^r \alpha’_i (l’_i(x_1, \dots , x_{n-2} ))^2 + \frac{a_{n-1.n}}{2} [ (l_{r+1}(x_1, \dots , x_n))^2- (l_{r+2}(x_1, \dots , x_n))^2 ]\end{align*}
    Y sólo resta cambiar nombres como sigue
    \begin{align*} l_i(x_1, \dots x_n) = l’_i(x_1, \dots , x_{n-2}) \qquad \text{y} \qquad \alpha_i=\alpha’_i \end{align*}
    Para $ i \in \{1, \dots r \}$ y
    \begin{align*} \alpha_{r+1}=\frac{a_{n-1.n}}{2} \qquad \text{y} \qquad \alpha_{r+2}=-\frac{a_{n-1.n}}{2} \end{align*}
    Ya con estos nombres, $q$ se escribe como sigue
    \begin{align*} q(x_1,\dots , x_n)= \sum_{i=1}^{r+2} \alpha_i (l_i(x_1, \dots , x_n ))^2 \end{align*}
    con $\{ l_1, \dots , l_{r+2} \}$ linealmente independientes (¿Por qué?).

Por lo que, en cualquiera de los dos casos propuestos se cumple que
\begin{align*} q(x)= \sum_{i=1}^{r} \alpha_i (l_i(x))^2 \end{align*}
con con $\{ l_1, \dots , l_{r} \}$ linealmente independientes.

Así por principio de inducción tenemos que el teorema de Gauss se cumple para cualquier forma cuadrática $q$ en $\mathbb{R^n}$ pata todo $n \in \mathbb{N}$.

$\square$

Más adelante

Debido a la longitud de esta demostración, los ejemplos serán reservados para la siguiente entrada, además, al principio de la entrada se dieron pistas a que existe una relación entre formas bilineales y matrices, esto será explorado posteriormente.

Por el momento nos centraremos en utilizar el teorema de Gauss para poder escribir $q$ de una forma estándar y observar que propiedades extra podemos obtener al escribirla de esta manera, esto motivará el siguiente teorema de interés la ley de inercia de Sylvester.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. Sea $q$ una forma cuadrática en $\mathbb{R}^n$ y $x=(x_1, \dots x_n)$ muestra que \begin{align*} q(x)=\sum_{i,j=1}^na_{ij}x_ix_j \text{ con } a_{ij}=b(e_i,e_j). \end{align*}
  2. Sea $A=[a_{ij}]$ con $a_{ij}$ definida del problema anterior, ¿Qué podrías afirmar acerca de A sin importar la $q$ elegida?
  3. Sea $A=[a_{ij}]$ una matriz simétrica en $M_n(\mathbb{R})$ y definamos
    \begin{align*} q: \mathbb{R}^n \rightarrow \mathbb{R} \text{ con } q(x)=\sum_{i,j=1}^na_{ij}x_ix_j \end{align*} ¿Es $q$ así definida una forma cuadrática?
  4. En el ejercicio anterior, ¿Es necesario que $A$ sea simétrica?
  5. Sean $\alpha _1, \dots , \alpha_r $ números reales y $l_1 , \dots , l_r$ formas lineales, linealmente independientes en $\mathbb{R}^n$ y $x \in \mathbb{R}^n$ definamos $q$ como sigue:
    \begin{align*} q(x)=\sum_{i,j=1}^n \alpha_i(l_i(x)) \end{align*}
    ¿Es $q$ así definida una forma cuadrática en $\mathbb{R}^n$?

Entradas relacionadas

Álgebra Lineal II: Polinomio característico

Introducción

En el transcurso de esta unidad hemos construido varios de los objetos algebraicos que nos interesan. En primer lugar, dejamos claro qué quería decir evaluar un polinomio en una matriz o transformación lineal. Esto nos llevó a preguntarnos por aquellos polinomios que anulan a una matriz o transformación lineal. De manera natural, descubrimos que aquellos polinomios que anulan son múltiplos de un polinomio especial asociado a la matriz o transformación lineal llamado polinomio mínimo.

De manera un poco separada, comenzamos a estudiar los eigenvalores, eigenvectores y eigenespacios de una transformación lineal y en la entrada anterior nos enfocamos en varias de sus propiedades principales. Uno de los resultados clave que encontramos es que los eigenvalores de una matriz o transformación lineal son las raíces del polinomio mínimo que estén en el campo en el que estemos trabajando.

Aunque este resultado sea interesante de manera teórica, en la práctica debemos hacer algo diferente pues no es tan sencillo encontrar el polinomio mínimo de una matriz o transformación lineal. Es por esto que ahora estudiaremos con profundidad otro objeto que resultará fundamental en nuestro estudio: el polinomio característico. Ya nos encontramos con él anteriormente. Si $A$ es una matriz en $M_n(F)$, dicho polinomio en la variable $\lambda$ es el determinante $\det(\lambda I_n-A)$.

Esta entrada es más bien una introducción, así que nos enfocaremos en probar las cosas más básicas de este objeto. Lo primero, y más importante, es verificar que en efecto es un polinomio (y con ciertas características específicas). También, aprovecharemos para calcularlo en varios contextos (y campos) diferentes.

Definición de polinomio característico

Comencemos con una matriz $A\in M_n(F)$. Vimos que encontrar los eigenvalores de $A$ se reduce a encontrar las soluciones de la ecuación

\begin{align*}
\det(\lambda I_n-A)=0
\end{align*}

en $F$. Vamos a estudiar más a detalle la expresión de la izquierda.

El siguiente teorema va un poco más allá y de hecho estudia expresiones un poco más generales.

Teorema. Sean $A,B\in M_n(F)$ dos matrices. Existe un polinomio $P\in F[X]$ tal que para todo $x\in F$ se cumple

\begin{align*}
P(x)=\det(xA+B).
\end{align*}

Si denotamos a este polinomio por $P(X)=\det(XA+B)$, entonces

\begin{align*}
\det(XA+B)=\det(A)X^{n}+\alpha_{n-1}X^{n-1}+\dots+\alpha_1 X+\det B
\end{align*}

para algunas expresiones polinomiales $\alpha_1,\dots, \alpha_{n-1}$ con coeficientes enteros en las entradas de $A$ y $B$.

Demostración. Consideremos el siguiente polinomio en la variable $X$ y coeficientes en $F$, es decir, el siguiente polinomio en $F[X]$:

\begin{align*}
P(X)=\sum_{\sigma\in S_n} \operatorname{sign}(\sigma)\left(a_{1\sigma(1)} X+b_{1\sigma(1)}\right)\cdots \left(a_{n\sigma(n)}X+b_{n\sigma(n)}\right).
\end{align*}

Por construcción, $P$ es un polinomio cuyos coeficientes son expresiones polinomiales enteras en las entradas de $A$ y $B$. Más aún, se cumple que $P(x)=\det(xA+B)$ para $x\in F$ (podría ser útil revisar la entrada sobre determinantes para convencerte de ello). El término constante lo obtenemos al evaluar en $X=0$, pero eso no es más que $P(0)=\det(0\cdot A+B)=\det(B)$. Finalmente para cada $\sigma\in S_n$ tenemos que el primer término de cada sumando es

\begin{align*}
\operatorname{sign}(\sigma)(a_{1\sigma(1)}X+b_{1\sigma(1)})\cdots (a_{n\sigma(n)} X+b_{n\sigma(n)})= \operatorname{sign}(\sigma) a_{1\sigma(1)}\cdots a_{n\sigma(n)}X^{n}+\dots
\end{align*}

En efecto, los términos «ocultos en los puntos suspensivos» todos tienen grado a lo más $n-1$. Agrupando todos los sumandos y comparando con la definición del determinante llegamos a que $$P(X)=\det(A)X^{n}+\ldots,$$ es decir el término de orden $n$ es en efecto $\det(A)$.

$\square$

Del teorema se sigue que si $A$ y $B$ tienen entradas enteras o racionales, $\det(XA+B)$ tiene coeficientes enteros o racionales respectivamente.

Enseguida podemos definir (gracias al teorema) el siguiente objeto:

Definición. El polinomio característico de la matriz $A\in M_n(F)$ es el polinomio $\chi_A\in F[X]$ definido por

\begin{align*}
\chi_A(X)=\det(X\cdot I_n-A).
\end{align*}

Una observación inmediata es que, de acuerdo al teorema, el coeficiente principal de $\chi_A(X)$ tiene coeficiente $\det(I_n)=1$. En otras palabras, acabamos de demostrar la siguiente propiedad fundamental del polinomio característico.

Proposición. El polinomio característico de una matriz en $M_n(F)$ siempre tiene grado exactamente $n$ y además es un polinomio mónico, es decir, que el coeficiente que acompaña al término de grado $n$ es iguala $1$.

Veamos un ejemplo sencillo.

Ejemplo. Si queremos calcular el polinomio característico de

\begin{align*}
A=\begin{pmatrix} 1 & -1\\ 1 &0\end{pmatrix}\in M_2(\mathbb{R})
\end{align*}

entonces usamos la definición

\begin{align*}
\chi_A(X)&=\det(X\cdot I_2-A)\\&=\begin{vmatrix} X-1 & 1\\ -1 & X\end{vmatrix}\\&= X(X-1)+1.
\end{align*}

Y así los eigenvalores de $A$ son las raíces reales de $\chi_A(X)$. Es decir, tenemos que resolver

\begin{align*} 0=x(x-1)+1=x^2-x+1.\end{align*}

Sin embargo, el discriminante de esta ecuación cuadrática es $(-1)^2-4(1)(1)=-3$, el cual es un real negativo, por lo que no tenemos eigenvalores reales. Si estuviéramos trabajando en $\mathbb{C}$ tendríamos dos eigenvalores complejos:

\begin{align*}
x_{1,2}= \frac{1\pm i\sqrt{3}}{2}.
\end{align*}

De aquí, ¿cómo encontramos los eigenvectores y eigenespacios? Basta con resolver los sistemas lineales homogéneos de ecuaciones $(A-x_1I_2)X=0$ para encontrar el $x_1$-eigenespacio y $(A-x_2)X=0$ para encontrar el $x_2$-eigenespacio.

$\square$

Algunos cálculos de polinomios característicos

Ya que calcular polinomios característicos se reduce a calcular determinantes, te recomendamos fuertemente que recuerdes las propiedades que tienen los determinantes. Sobre todo, aquellas que permiten calcularlos.

¡A calcular polinomios característicos!

Problema. Encuentra el polinomio característico y los eigenvalores de $A$ dónde $A$ es

\begin{align*}
A=\begin{pmatrix}
0 & 1 & 0 & 0\\
2 & 0 & -1 & 0\\
0 & 7 & 0 &6\\
0 & 0 & 3 & 0
\end{pmatrix}\in M_4(\mathbb{R}).
\end{align*}

Solución. Usamos la expansión de Laplace respecto al primer renglón:

\begin{align*}
\chi_A(X)&=\det(XI_4-A)\\&= \begin{vmatrix}
X & -1 & 0 & 0\\
-2 & X & 1 & 0\\
0 & -7 & X & -6\\
0 & 0 & -3 & X\end{vmatrix}\\
&= X\begin{vmatrix} X & 1 & 0\\ -7 & X & -6\\ 0 & -3 & X\end{vmatrix}+ \begin{vmatrix}
-2 & 1 & 0\\ 0 & X& -6\\ 0 &-3 & X\end{vmatrix}\\
&= X(X^3-11X)-2(X^2-18)\\
&= X^4-13X^2+36.
\end{align*}

Después, para encontrar los eigenvalores de $A$ tenemos que encontrar las raíces reales de la ecuación

\begin{align*}
x^4-13x^2+36=0.
\end{align*}

Sin embargo, no hay que desalentarse por ver una ecuación de grado $4$. Si hacemos el cambio $y=x^2$ podemos llevar nuestro problema a resolver

\begin{align*}
y^2-13y+36=0.
\end{align*}

¡Es una ecuación de segundo orden! Esta la podemos resolver usando ‘la chicharronera’ y obtenemos como soluciones $y_1=4$ y $y_2=9$. Pero todavía tenemos que resolver $x^2=y_1$ y $x^2=y_2$. Al resolver estas últimas dos ecuaciones obtenemos que $x=\pm 2,\pm 3$ son los eigenvalores de $A$.

$\square$

Problema. Calcula el polinomio característico y los eigenvalores de la matriz

\begin{align*}
A=\begin{pmatrix} 1 & 0 & 1\\ 1 & 1 & 0\\ 1 & 0 &1 \end{pmatrix}\in M_3(F_2).
\end{align*}

Solución. Nota que estamos trabajando en el campo de dos elementos $F_2$, por lo que $-1=1$. Usando la definición:

\begin{align*}
\chi_A(X)&=\det(XI_3-A)\\&= \begin{vmatrix} X-1 & 0 & -1\\ -1 & X-1 & 0\\ -1 & 0 &X-1\end{vmatrix}\\
&= \begin{vmatrix} X+1 & 0 & 1\\ 1 & X+1& 0 \\ 1 & 0 &X+1\end{vmatrix}.
\end{align*}

Aquí estamos usando repetidamente $-1=1$. Usamos otra vez la expansión de Laplace en el primer renglón para llegar a

\begin{align*}
\chi_A(X)&= (X+1)\begin{vmatrix} X+1 & 0 \\ 0 & X+1\end{vmatrix}+\begin{vmatrix} 1 & X+1\\ 1 & 0\end{vmatrix}\\
&= (X+1)^3-(X+1).
\end{align*}

Luego, si queremos encontrar los eigenvalores de $A$ tenemos que resolver

\begin{align*}
(x+1)^3-(x+1)=0.
\end{align*}

Si bien existen varias maneras de resolver la ecuación, podemos simplemente sustituir los únicos valores posibles de $x$ : $0$ o $1$. Sustituyendo es fácil ver que ambos satisfacen la ecuación, por lo que los eigenvalores de $A$ son $0$ y $1$.

$\square$

Tarea moral

  • Demuestra que $0$ es un eigenvalor de una matriz $A$ si y sólo si $\det(A)=0$.
  • ¿Una matriz compleja de tamaño $n$ tiene necesariamente $n$ eigenvalores distintos?
  • Calcular el polinomio característico y los eigenvalores de
    \begin{align*}A=\begin{pmatrix} 1 & 2 & 0\\ 0 & 1 &2\\ 2 & 0 & 1\end{pmatrix}\in M_3(F_3).
    \end{align*}
  • Usando la fórmula del determinante para matrices de tamaño $2$, encuentra un criterio simple para saber si una matriz con entradas reales de tamaño $2$ tiene dos, uno o ningún eigenvalor real.
  • Da un criterio simple para saber si una matriz de tamaño $2$ con entradas complejas tiene eigenvalores puramente imaginarios.

Más adelante

En la próxima entrada calcularemos el polinomio característico de una variedad de matrices importantes: triangulares superiores, nilpotentes, etc. Esto nos permitirá entender mejor al polinomio característico y lidiar con muchos casos para facilitarnos los cálculos más adelante.

Álgebra Lineal II: Eigenvectores y eigenvalores

Introducción

En esta entrada revisitamos los conceptos de eigenvalores y eigenvectores de una transformación lineal. Estos son esenciales para entender a las transformaciones lineales, y tienen un rango de aplicabilidad impresionante: aparecen en la física, las ecuaciones diferenciales parciales, la ciencia de datos, la topología algebraica y la probabilidad.

Primero enunciaremos la definición, después veremos un primer ejemplo para convencernos de que no son objetos imposibles de calcular. Luego daremos un método para vislumbrar una manera más sencilla de hacer dicho cálculo y concluiremos con unos ejercicios.

Eigen-definiciones

Comenzamos con $V$ un espacio vectorial sobre $F$ y $T:V\to V$ una transformación lineal.

Definición. Un eigenvalor (también conocido como valor propio) de $T$ es un escalar $\lambda \in F$ tal que $\lambda \cdot \operatorname{Id}-T$ no es invertible. Un eigenvector (también conocido como vector propio o $\lambda$-eigenvector) correspondiente a $\lambda$ es un vector no-cero de $\ker (\lambda \cdot \operatorname{Id}-T)$. A este kernel se le conoce como el eigenespacio correspondiente a $\lambda$ (o $\lambda$-eigenespacio).

Entonces un $\lambda$-eigenvector es por definición distinto de cero y satisface

\begin{align*}
T(v)=\lambda v.
\end{align*}

Hay que tener cuidado. se permite que $\lambda=0$ sea eigenvalor, pero no se permite que $v=0$ sea eigenvector.

La colección de todos los eigenvectores, junto con el vector cero, es el eigenespacio asociado a $\lambda$. Podemos enunciar definiciones análogas con matrices.

Definición. Sea $A\in M_n(F)$ una matriz cuadrada. Un escalar $\lambda \in F$ es un eigenvalor de $A$ si existe un vector $X\in F^n$ distinto de cero (un eigenvector) tal que $AX=\lambda X$. En este caso el subespacio

\begin{align*}
\ker(\lambda I_n-A):=\lbrace X\in F^n\mid AX=\lambda X\rbrace
\end{align*}

es el $\lambda$-eigenespacio de $A$.

Puedes verificar que ambas definiciones se corresponden en el siguiente sentido:

Si $V$ es un espacio de dimensión finita y $T:V\to V$ es una transformación lineal, podemos escoger cualquier base de $V$ y asociarle a $T$ su forma matricial, digamos $A$, en esta base. Los eigenvalores de $T$ son precisamente los eigenvalores de $A$. ¡Pero cuidado! Los eigenvectores de $A$ dependerán de la base elegida.

Un primer ejemplo

Seguimos con un sencillo pero importante ejemplo.

Ejemplo. Considera la matriz

\begin{align*}
A=\begin{pmatrix}
0 & -1\\
1 & 0
\end{pmatrix}.
\end{align*}

Busquemos los eigenvectores y eigenvalores de $A$, pensando a $A$ como una matriz con entradas complejas. Sea $\lambda\in \mathbb{C}$ un eigenvalor y $X$ un eigenvector asociado. Entonces se cumple la relación $AX=\lambda X$. Si $X=(x_1,x_2)$ entonces la condición mencionada es equivalente al par de ecuaciones

\begin{align*}
-x_2=\lambda x_1, \hspace{5mm} x_1=\lambda x_2.
\end{align*}

Sustituyendo una en la otra obtenemos

\begin{align*}
-x_2=\lambda^2 x_2.
\end{align*}

Si $x_2=0$ entonces $x_1=0$ y así $X$ es un vector nulo, lo que es imposible por definición (recuerda que pedimos que los eigenvectores sean distintos de cero). Entonces $x_2\neq 0$ y podemos dividir por $x_2$ a la ecuación previa, de manera que $\lambda^2=-1$, o sea $\lambda=\pm i$. Conversamente, $i$ y $-i$ son eigenvalores. En efecto, podemos tomar $x_2=1$ y $x_1=\lambda$ como soluciones del problema anterior y obtener un vector propio asociado. De hecho, el eigenespacio está dado por

\begin{align*}
\ker (\lambda I_2-A)=\lbrace (\lambda x_2, x_2)\mid x_2\in \mathbb{C}\rbrace
\end{align*}

y esto no es más que la recta generada por el vector $v=(\lambda,1)\in \mathbb{C}^2$. Por lo tanto, vista como una matriz compleja, $A$ tiene dos eigenvalores distintos $\pm i$ y dos eigenespacios, los generados por $(i,1)$ y $(-i,1)$.

Por otro lado, veamos qué pasa si pensamos a $A$ como una matriz con entradas reales. Haciendo las mismas cuentas llegamos a la misma ecuación, $-x_2=\lambda^2 x_2$. Podemos reescribirla factorizando el término $x_2$:

\begin{align*}
(\lambda^2+1)x_2=0.
\end{align*}

Como $\lambda$ esta vez es un número real, $\lambda^2+1$ siempre es distinto de cero. Entonces para que el producto sea cero, tiene que ocurrir que $x_2=0$, ¡pero entonces $x_1=0$ y así $X=0$! En conclusión: vista como una matriz con entradas reales, $A$ no tiene eigenvalores, y por tanto no tiene eigenespacios. La moraleja es que los eigenvalores y eigenvectores dependen mucho del campo en el que trabajemos.

¿Cómo calcularlos?

Si bien el ejemplo anterior resultó simple, no es difícil imaginar que matrices más complicadas y más grandes pueden resultar en procedimientos menos claros. En general:

  • ¿Cómo podemos calcular los eigenvalores?
  • ¿Cómo podemos calcular los eigenespacios de manera eficiente?
  • ¿Cómo podemos calcular los eigenvectores?

Una vez calculados los eigenvalores, calcular los eigenespacios se reduce a resolver el sistema de ecuaciones homogéneo $(A-\lambda I_n)X=0$, lo cual ya hemos hecho muchas veces mediante reducción gaussiana. Luego, calcular los eigenvectores simplemente es tomar los elementos no cero del eigenespacio. Sin embargo, el cálculo de eigenvalores involucra encontrar raíces de polinomios lo cual de entrada no es obvio. Un primer paso es la siguiente observación que enunciamos como proposición.

Proposición. Un escalar $\lambda \in F$ es un eigenvalor de $A\in M_n(F)$ si y sólo si

\begin{align*}
\det(\lambda I_n-A)=0.
\end{align*}

Demostración. El sistema $(\lambda I_n-A)X=0$ tiene soluciones no triviales si y sólo si la matriz $\lambda I_n-A$ no es invertible. A su vez, la matriz $\lambda I_n-A$ no es invertible si y sólo si su determinante es nulo. El resultado se sigue.

$\square$

Regresemos a nuestra pregunta. Si

\begin{align*}
A=\begin{pmatrix}
a_{11} & a_{12} & \dots & a_{1n}\\
a_{21} & a_{22} & \dots & a_{2n}\\
\dots & \dots & \dots& \dots\\
a_{n1} & a_{n2}& \dots & a_{nn}
\end{pmatrix}
\end{align*}

entonces la proposición nos dice que podemos calcular los valores propios de $A$ resolviendo la ecuación polinomial

\begin{align*}
\begin{vmatrix}
\lambda- a_{11} & -a_{12} & \dots & -a_{1n}\\
-a_{21} & \lambda -a_{22} & \dots & -a_{2n}\\
\dots & \dots & \dots & \dots \\
-a_{n1} & -a_{n2} & \dots & \lambda-a_{nn}
\end{vmatrix}
=0
\end{align*}

en $F$. Esta es una ecuación polinomial de grado $n$, y si el grado es mayor a $4$ en general no existe una fórmula para resolverla en términos de radicales (aunque claro que hay casos particulares que si podemos resolver sin mucho problema).

Problema. Queremos calcular los eigenvalores de $A$, donde $A$ está dada por

\begin{align*}
A=\begin{pmatrix}
1 & 0 & 0\\
0 & 0 &-1\\
0 & 1 & 0
\end{pmatrix}.
\end{align*}

Solución. Como vimos en la proposición, esto se reduce a calcular las raíces del polinomio

\begin{align*}
\begin{vmatrix}
\lambda -1 & 0 & 0\\
0 & \lambda & 1\\
0 &-1 & \lambda
\end{vmatrix}=0.
\end{align*}

Calculando el determinante vemos que esto es de hecho

\begin{align*}
(\lambda-1)(\lambda^2+1)=0.
\end{align*}

Sin embargo tenemos que recordar que las raíces dependen de nuestro campo de elección. Como no comentamos nada sobre el campo en el cual trabajamos, consideraremos dos casos. Si el campo es $\mathbb{C}$ entonces los eigenvalores son $1$ y $\pm i$. Si trabajamos sobre $\mathbb{R}$ entonces tenemos un único eigenvalor: $1$.

$\square$

Ejercicios

Acabamos esta entrada con unos ejercicios para reforzar lo que vimos.

Problema. Encuentra todos los números reales $x$ tales que la matriz

\begin{align*}
A=\begin{pmatrix}
1 & x\\
2 & 1
\end{pmatrix}
\end{align*}

tiene exactamente dos eigenvalores distintos. La misma pregunta para ningún eigenvalor.

Solución. El número de eigenvalores va a estar dado por el número de raíces del polinomio $\det(\lambda I_2-A)$. Es decir, tenemos que trabajar la ecuación

\begin{align*}
\det(\lambda I_2-A)=\begin{vmatrix} \lambda -1 & -x\\ -2 & \lambda-1\end{vmatrix}=0.
\end{align*}

Que a su vez se reduce a

\begin{align*}
(\lambda-1)^2-2x=0.
\end{align*}

Y para que tenga dos soluciones basta con que $2x$ sea un número positivo. En efecto, en ese caso podemos despejar y resolver

\begin{align*}
\lambda = 1 \pm \sqrt{2x}.
\end{align*}

Como $2x$ es positivo solo si $x$ lo es, podemos concluir que la condición necesaria y suficiente es que $x$ sea un real positivo. Similarmente, si $x$ es un número negativo no tendremos ningún eigenvalor.

$\square$

Problema. Sea $V$ el conjunto de todas las matrices $A\in M_2(\mathbb{C})$ tales que $v=\begin{pmatrix} 1\\ 2 \end{pmatrix}$ es un eigenvector de $A$. Demuestra que $V$ es un subespacio de $M_2(\mathbb{C})$ y da una base.

Solución. Supongamos que $v$ es un eigenvector de $A$, con eigenvalor $\lambda$, y que es eigenvector de $B$, con eigenvalor $\mu$. Entonces

\begin{align*}
(A+c B)(v)= Av+c Bv= \lambda v+c\mu v= (\lambda+c\mu)v
\end{align*}

por lo que $v$ es eigenvector de $A+cB$ con eigenvalor $\lambda +c\mu$. Esto demuestra que $V$ es un subespacio. Para darnos una idea de cómo podría ser una base para $V$, comencemos con una matriz genérica $A=\begin{pmatrix} a & b\\ c & d\end{pmatrix}$ tal que $A\in V$. Entonces $A$ tiene que satisfacer $Av=\lambda v$ para algún $\lambda$. Escribamos esto más explicitamente

\begin{align*}
\begin{pmatrix}
a & b\\
c & d
\end{pmatrix} \cdot \begin{pmatrix} 1 \\ 2\end{pmatrix}= \begin{pmatrix}
a+2b\\
c+2d
\end{pmatrix}=\begin{pmatrix} \lambda \\ 2\lambda\end{pmatrix}.
\end{align*}

Así se desprenden dos ecuaciones

\begin{align*}
\begin{cases}
a+2b=\lambda \\
c+2d=2\lambda
\end{cases}.
\end{align*}

Sabemos que $\lambda$ es un parámetro libre, pues puede ser cualquier eigenvalor. Si conocemos a $\lambda$ entonces necesitamos alguna de las variables, $a$ o $b$ para determinar a la otra y lo mismo con $c$ y $d$. Entonces escojamos $b$ y $d$ como variables libres. Enseguida nuestra matriz es de la forma (reemplazando a $a$ y $c$ por sus valores en $b$ y $d$):

\begin{align*}
A&= \begin{pmatrix}
\lambda -2b & b\\
2\lambda -2d & d
\end{pmatrix}\\
&= b\begin{pmatrix} -2 & 1\\ 0 & 0
\end{pmatrix}+ d \begin{pmatrix} 0 & 0 \\ -2 & 1\end{pmatrix}+\lambda \begin{pmatrix} 1 & 0\\
2 & 0
\end{pmatrix}.
\end{align*}

Entonces proponemos como base

\begin{align*}
\beta = \bigg\lbrace \begin{pmatrix} -2 & 1\\ 0 & 0
\end{pmatrix}, \begin{pmatrix} 0 & 0 \\ -2 & 1\end{pmatrix},\begin{pmatrix} 1 & 0\\
2 & 0
\end{pmatrix}\bigg\rbrace.
\end{align*}

Ya vimos que $\beta$ genera a $V$, y dejamos la independencia lineal como ejercicio.

$\square$

Más adelante

En las próximas entradas desarrollaremos las propiedades relevantes de los eigenvalores y eigenvectores para eventualmente llegar al polinomio característico y establecer el puente con el polinomio mínimo.

Tarea moral

Aquí unos ejercicios para que repases el material de esta entrada.

  1. Encuentra todos los eigenvalores de la matriz $A=\begin{pmatrix} 1 & 1 &0 \\ 0 & 2 &1\\ 0 & 0 & 1\end{pmatrix}\in M_3(\mathbb{C})$.
  2. Completa la demostración del último ejercicio de la sección de ejercicios, verificando que las soluciones encontradas son matrices linealmente independientes. ¿Puedes generalizar este ejercicio de alguna manera?
  3. Encuentra los eigenvalores de la matriz $A\in M_n(\mathbb{R})$ cuyas entradas son puros $2$.
  4. Da contraejemplos para cada una de las siguientes afirmaciones:
    1. Si $u$ y $v$ son eigenvectores de $A$, entonces $u+v$ es eigenvector de $A$.
    2. Si $\lambda$ es eigenvalor de $A$ y $\mu$ es eigenvalor de $B$, entonces $\lambda \mu$ es eigenvalor de $AB$.
    3. Si $A$ y $B$ son formas matriciales de una misma transformación $T$ y $v$ es eigenvector de $A$, entonces $v$ es eigenvector de $B$.
  5. Considera la transformación derivada en $\mathbb{R}[x]$. ¿Quienes son sus eigenvectores y eigenvalores? Como sugerencia, estudia el coeficiente de mayor grado.