Archivo de la etiqueta: teorema de Sylvester

Álgebra lineal II: Matrices y formas bilineales, parte 2.

Introducción

Recordemos que, en la entrada del teorema de Gauss se hacía uso de la base canónica y en la entrada anterior definimos la matriz asociada a una forma bilineal dependiente de alguna base, nuestro objetivo en esta entrada será probar resultados o encontrar propiedades independientes a la base elegida.

Si recuerdas, una propiedad con estas características era el rango de una forma cuadrática o al menos eso mencionamos, aunque no dimos una prueba, aquí escribiremos formalmente este resultado, así como su prueba.

Congruencia de matrices

En la entrada anterior revisamos como obtener matrices asociadas a una misma forma bilineal en diferentes bases, en ello llegamos a la igualdad
\begin{align*} B=\text{ } ^tPAP\end{align*}
Profundicemos un poco en matrices que estén relacionadas de esta manera
Definición

Sean dos matrices simétricas $A,B \in M_n(\mathbb{R})$ diremos que $A$ es congruente con $B$ si existe una matriz invertible $P \in M_n(\mathbb{R})$ tal que
\begin{align*} B=\text{ } ^tPAP.\end{align*}
Notemos que esto es equivalente a decir que $A$ y $B$ son las matrices asociadas a una forma bilineal $b$ en distintas bases.

Generalmente cuando se introduce una relación de este estilo, se define de manera que sea una relación de equivalencia, por lo que no te debería sorprender el siguiente resultado.

Proposición

Ser matrices congruentes es una relación de equivalencia.

Demostración

Empezando con la reflectividad, esto es claro ya que la matriz identidad ($1_n$) es invertible (la inversa es si misma) y es clara la igualdad
\begin{align*} A=\text{ } ^t1_nA1_n.\end{align*}

Para la simetría, si tomamos dos matrices $A,B \in M_n(\mathbb{R})$ tal que $A$ es congruente con $B$ tenemos que
\begin{align*} B=\text{ } ^tPAP\end{align*}
Con $P \in M_n(\mathbb{R})$ invertible, aprovechando esto, multipliquemos del lado izquierdo por la inversa de $^tP$ y del lado derecho por la inversa de $P$ de ambos lados de la igualdad
\begin{align*} A=\text{ } ^t(P^{-1})BP^{-1}\end{align*}
Además, es claro que $P^{-1}$ es invertible por lo que $B$ es congruente con $A$.

Finalmente, la transitividad, supongamos que $A$ es congruente con $B$ y $B$ a su vez es congruente con $C$ esto nos arroja las siguientes dos igualdades
\begin{align*} B=\text{ } ^tPAP \\
C=\text{ } ^tQBQ\end{align*}
Con $P,Q \in M_n(\mathbb{R})$ invertibles, así sustituyendo $B$ en la segunda igualdad
\begin{align*} C=\text{ } ^tQ \text{ } ^tPAP Q\end{align*}
Recordando que
\begin{align*} \text{ } ^tQ \text{ } ^tP=\text{ }^t(PQ)\end{align*}
Por lo que la igualdad anterior se puede escribir como
\begin{align*} C=\text{ }^t(PQ)AP Q\end{align*}
Más aún, sabemos que $PQ$ sigue siendo invertible, por lo tanto $A$ es congruente a $C$.

$\square$

Ahora, recordando la definición del rango de una matriz vista en esta entrada y la siguiente proposición (demostrada en esa misma entrada)

Proposición

Sean $m$, $n$ y $p$ enteros. Sea $B$ una matriz en $M_{n,p}(F)$ y $A$, $A’$ matrices en $M_{m,n}(F)$. Sea $P$ una matriz en $M_{n,p}(F)$ cuya transformación lineal asociada es suprayectiva y $Q$ una matriz en $M_{r,m}(F)$ cuya transformación lineal asociada es inyectiva. Entonces:

  1. $\rank(A)\leq \min(m,n)$
  2. $\rank(AB)\leq \min(\rank(A),\rank(B))$
  3. $\rank(A+A’)\leq \rank(A) + \rank(A’)$
  4. $\rank(QAP) = \rank(A)$

Prestando especial atención a la última igualdad, procedamos con el siguiente resultado sumamente importante.

Proposición

Dos matrices congruentes tienen el mismo rango.

Demostración

La demostración, utilizando las herramientas adecuadas, es increíblemente sencilla.
Sean dos matrices simétricas $A,B \in M_n(\mathbb{R})$ congruentes, entonces existe una matriz invertible $P \in M_n(\mathbb{R})$ tal que
\begin{align*} B=\text{ } ^tPAP.\end{align*}
Como $P$ es invertible sabemos que la transformación lineal asociada a $^tP$ es inyectiva (es biyectiva, de hecho) y la asociada a $P$ es suprayectiva (igualmente es de hecho biyectiva), además, como todas las matrices las tomamos cuadradas, notemos que, por el punto $4$ de la proposición anterior
\begin{align*} rank(B)=rank(\text{ } ^tPAP)=rank(A).\end{align*}
Armados con estos resultados, veamos un análogo al teorema de Gauss visto anteriormente, si no es que una forma un tanto más fuerte de este, y procedamos a finalmente enunciar y demostrar el teorema de inercia de Sylvester, cuya demostración será poco más que un corolario.

Teorema de Gauss y teorema de Inercia de Sylvester.

Teorema de Gauss

Toda matriz simétrica $A \in M_n(\mathbb{R})$ es congruente a una matriz diagonal.

Demostración

Sea $q$ su forma cuadrática asociada en alguna base en $V=\mathbb{R}^n$ entonces
\begin{align*} q(x)=\text{ }^tXAX \text{ o visto de otra manera } q(x)=\sum_{i,j=1}^na_{ij}x_ix_j \end{align*}
Debido a la última proposición de la entrada anterior, sabemos que es suficiente mostrar la existencia de una base de $V$ bajo la cual la matriz asociada a $q$ sea diagonal.

Por el teorema de Gauss para formas cuadráticas, sabemos que podemos encontrar $\{ \alpha_1, \cdots, \alpha_r \} \subseteq \mathbb{R} $ números reales y $\{ l_1, \cdots, l_r \} \subseteq V* $ formas lineales linealmente independientes tales que
\begin{align*} q(x)= \sum_{i=1}^r \alpha _i (l_i(x))^2 \end{align*}
Para cualquier $x \in V$, más aún la familia $\{ l_1, \cdots, l_r \}$ puede ser completada a una base para $V^*$ sea esta $\{ l_1, \cdots, l_n \}$ ya que esta es linealmente independiente, por una proposición vista aquí, sabemos que existe una base $\{ u_1, \cdots, u_n \}$ de $V$ con base dual $\{ l_1, \cdots, l_n \}$ más aún, sabemos que
\begin{align*} l_i(u_j)=
\begin{cases}
1\quad \text{ si $i=j$,}\\
0\quad \text{ si $i\neq j$.}
\end{cases} \end{align*}
Por lo que, si $x=\sum_{i=1}^n x_iu_i$ entonces
\begin{align*} q(x)= \sum_{i=1}^n \alpha _i (l_i(x))^2= \sum_{i=1}^n \alpha _i x_i^2\end{align*}
Por lo que su matriz asociada respecto a la base $\{ u_1, \cdots, u_n \}$ es la matriz diagonal $D$ tal que
\begin{align*} D=[d_{ij}] \qquad \text{con} \qquad d_{ii}= \alpha_i \qquad \text{y} \qquad d_{ij}=0 \end{align*}
Si $i \neq j$.

Por la última proposición de la entrada anterior, $A$ es congruente con $D$.

$\square$

Anteriormente se definió rango de una forma bilineal, se esperaría por la elección de nombres que el rango de una forma cuadrática y el rango de su matriz correspondiente coincidan, redefinamos rango de una forma cuadrática y veamos que es equivalente a la antigua definición.

Definición

Sea $q$ una forma cuadrática en $V$, el rango de $q$ será el rango de su matriz asociada en alguna base de $V$.

Recordemos que el rango de $q$ lo definimos anteriormente como la cardinalidad del conjunto $\{ \alpha_1, \cdots, \alpha_r \}$ (utilizando la notación del teorema de Gauss), por la demostración anterior este número es igual al número de entradas no cero en la diagonal de la matriz asociada con respecto a la base $\{ u_1, \cdots, u_n \}$ que al ser una matriz diagonal es igual al rango de esta matriz que ya vimos es igual al rango de la matriz asociada a $q$ en cualquier base de $V$, por lo que nuestras definiciones son equivalentes.

Podemos llegar incluso más lejos, en esta entrada discutimos como podíamos hacer que dada $q$ con
\begin{align*} q(x)= \sum_{i=1}^r \alpha _i (l_i(x))^2 \end{align*}
fuera tal que todo $\alpha_i \in \{-1,1\}$ inclusive reordenando la base $\{ u_1, \cdots, u_n \}$ podemos hacer que
\begin{align*} q(x)= \sum_{i=1}^r \alpha _i x_i^2\end{align*}
Haciendo que $D$ su matriz asociada diagonal tenga como entradas únicamente a $1,0,-1$ y que el $-1$ y $1$ aparezcan únicamente en las primeras $r$-esimas entradas de la diagonal.

Culminemos esta larga sección con el teorema de Sylvester.

Proposición (Teorema de Sylvester/Ley de Inercia de Sylvester)

Sea $q$ una forma cuadrática en $V$ un espacio vectorial de dimensión finita sobre $\mathbb{R}$, el rango de $q$ son invariantes sin importar la base respecto a la que se encuentre su matriz asociada.

Demostración

Sea $A$ la matriz asociada a $q$ en una base $\beta$, sabemos que el rango es igual al de la matriz asociada a $q$ bajo una base $\beta’$ al ser matrices congruentes.

$\square$

Recordando las notas anteriores hay un tipo de formas cuadráticas de las que no hemos hablado, las formas positivas o definidas positivas, revisemos sus matrices y que propiedades extras podemos obtener de agregar esta condición

Definición

Sea una matriz simétrica $A \in M_n(\mathbb{R})$ diremos que es positiva si $^tXAX \geq 0$ para todo $X \in \mathbb{R}^n$, diremos que es definida positiva si $^tXAX > 0$ para todo $X \in \mathbb{R}^n- \{0\}$.

Otra forma de verlo, dada una matriz simétrica $A$ esta será positiva si su forma cuadrática asociada, a saber, dado $x \in \mathbb{R}^n$
\begin{align*} q(x_1, \cdots, x_n) = \sum_{i,j=1}^na_ijx_ix_j\end{align*}
Es positiva, análogamente para alguna forma definida positiva.

De esta manera notemos que una matriz definida positiva da un producto interno en $\mathbb{R}^n$ definido por
\begin{align*} <X,Y>_A=<X,AY>=\text{ }^tXAY\end{align*}
donde $<,>$ es el producto interno canónico en $\mathbb{R}^n$.

Continuando con la idea de no requerir bases, probemos la siguiente proposición.

Proposición

Sean $A,B \in M_n(\mathbb{R})$ congruentes, tal que $A$ es positiva, B es positiva tambien.

Demostración

Si son congruentes sabemos que existe $P \in M_n(\mathbb{R})$ invertible tal que
\begin{align*} B=\text{ }^tPAP\end{align*}
Así sea $X \in \mathbb{R}^n$
\begin{align*} ^tXBX=\text{ }^t X \text{ }^tPAP X=\text{ }^t (PX) A PX \end{align*}
y como $PX \in \mathbb{R}^n$ tenemos que $\text{ }^t (PX) A PX \geq 0$ ya que $A$ es positiva, por lo que
\begin{align*} ^tXBX \geq 0. \end{align*}

$\square$

Notemos también que, en una matriz diagonal positiva $D$, todas sus entradas no cero deben ser positivas, supongamos que esto es falso com $d_{ii}<0$, si $q$ es su forma cuadrática asociada entonces calculando $q(e_i)=d_{ii}<0$ con $e_i$ el elemento de la base canónica cuya unica entrada no cero es la $i$-esima, lo que es una contradicción.

Concluyamos con la siguiente proposición.

Proposición

Cualquier matriz positiva $A \in M_n(\mathbb{R})$ puede ser escrita como $^tBB$ para alguna matriz $B \in M_n(\mathbb{R})$.

Demostración

Sea $A \in M_n(\mathbb{R})$ positiva, por el teorema de Gauss sabemos que es congruente con alguna matriz diagonal, por lo que
\begin{align*} ^tPDP=A\end{align*}
Con $D=[d_{ij}]$ diagonal, además sabemos que al ser congruente con $A$ esta debe ser positiva, más aún, por lo discutido arriba sabemos que toda entrada no $0$ en $D$ debe ser positiva, por lo que podemos escribir a $D$ como sigue
\begin{align*} ^tD_1D_1=D\end{align*}
Con
\begin{align*} D_1=[\sqrt{d_{ij}}]\end{align*}
Sustituyendo esto en la igualdad de arriba
\begin{align*} A=\text{ }^tP\text{ }^tD_1D_1P=\text{ }^t(D_1P)(D_1P)\end{align*}
Y nombrando $B=D_1P$
\begin{align*} ^tBB=A.\end{align*}

$\square$

Más adelante

Con esto concluiremos por ahora nuestra revisión de formas bilineales y sus relaciones con matrices, aunque como es de esperarse no abandonaremos el tema completamente, centrándonos después en la relación que existe entre dualidad y ortogonalidad.

Antes de ello, intentaremos replicar los resultados vistos en las últimas dos entradas esta vez para formas sesquilineales y hermitianas cuadráticas, encontrando resultados análogos pero esta vez para formas en espacios vectoriales complejos.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. ¿Como definirías el determinante de una forma bilineal simétrica basándonos en su matriz? ¿Puedes hacer esta definición independiente de la base que elijas?
  2. Sea $n \geq 1$ y $A=[a_{ij}] \in M_n(\mathbb{R})$ definida por $a_{ij}=min(i,j)$, prueba que $A$ es simétrica y definida positiva.
  3. Demuestra que una matriz simétrica y definida positiva es invertible.
  4. Demuestra que una matriz simétrica y positiva es definida positiva si y solo si es invertible.
  5. Sea $A=[a_{ij}] \in M_n(\mathbb{R})$ tal que $a_{ij}=1$ si $i \neq j$ y $a_{ii} > 1$ si $1 \leq i \leq n$. Prueba que $A$ es simétrica y definida positiva.

Entradas relacionadas

Álgebra lineal II: Formas bilineales y matrices

Introducción

Al principio de esta unidad, especialmente en la entrada acerca de teoremas de Gauss y teorema de Sylvester empezamos a hablar de una futura relación entre formas bilineales y matrices, más aún, sabemos que cualquier función lineal se puede representar como una matriz, por lo que esperaríamos una relación similar con las formas bilineales, aquí empezaremos a estudiar esta relación.

Por otro lado, en la entrada de teorema de Sylvester enunciamos de una manera bastante vaga dicho resultado, aunque no dimos una demostración, en esta entrada comenzaremos con los pasos para la demostración de este teorema, aunque no la completaremos aún.

Matriz asociada

De aquí en adelante, asumiremos que $V$ siempre es un espacio vectorial sobre $\mathbb{R}$ de dimensión finita.
Definición

Sea $ \{e_1, \cdots , e_n\} $ una base de $V$ y $b: V \times V \rightarrow \mathbb{R}$ una forma bilineal simétrica en $V$. La matriz de $b$ con respecto a la base $e_1 \cdots e_n$ es la matriz
\begin{align*} A=[a_{ij}] \text{ con } a_{ij}=b(e_i,e_j)\end{align*}
Para todo $i,j$ tal que $1 \leq i,j \leq n$.

Si $q$ es una forma cuadrática en $V$, la matriz de $q$ con respecto a la base $e_1 \cdots e_n$ es la matriz de su polar.

Y para reforzar la idea de esta relación, veamos el siguiente teorema.

Teorema

Entendamos a $Sim(V)$ como el subespacio de formas bilineales simétricas y a $M_n^*(\mathbb{R})$ como el subespacio de matrices simétricas.

Sea $ \{e_1, \cdots , e_n\} $ una base de $V$, la función $\varphi: Sim(V) \rightarrow M_n^*(\mathbb{R})$ que envía una forma bilineal simétrica a su matriz con respecto a $ \{e_1, \cdots , e_n\} $ establece un isomorfismo.

Demostración

Sean $b,b’$ dos formas bilineales simétricas, con $\varphi(b)=A $ y $\varphi(b’) =A’$ respectivamente, si suponemos que $A=A’$ entonces $b(e_i,e_j)=b'(e_i,e_j)$ para cualesquiera $i,j$ tal que $1 \leq i,j \leq n$, que es suficiente para saber qué $b=b’$, por lo que esta asignación es inyectiva.

Para la suprayectividad, sea $A=[a_{ij}]$ una matriz simétrica y sean $x,y \in V$ dos vectores cualesquiera tales que $x=\sum_{i=1} ^nx_ie_i$ y $y=\sum_{j=1} ^ny_je_j$ definamos
\begin{align*} b(x,y) =\sum_{i,j=1}^na_{ij}x_iy_j \end{align*}.
En esta entrada demostramos que $b$ así definida efectivamente es una forma bilineal y la simetría se sigue naturalmente de la conmutatividad del producto en $\mathbb{R}$.
Por lo que $b$ es una forma bilineal simétrica tal que $\varphi(b)=A$, a su vez, esto implica que $\varphi$ es suprayectiva.

Finalmente, para mostrar que esto es efectivamente un isomorfismo, sea $A =\varphi(b+cb’)$ para algún $c \in \mathbb{R}$, sabemos entonces que
\begin{align*} A=[a_{ij}] \end{align*}
Con $a_{ij}=(b+cb’)(e_i,e_j)=b(e_i,e_j) + c \cdot b'(e_i,e_j) $ así.
\begin{align*} A=[b(e_i,e_j) + c \cdot b'(e_i,e_j)] \end{align*}
Además, sabemos que las matrices son lineales por los que
\begin{align*} A=[b(e_i,e_j)] + c \cdot [b'(e_i,e_j)] \end{align*}
y por como definimos $\varphi$
\begin{align*} \varphi(b+cb’)=A= \varphi(b) + c \cdot \varphi(b’) \end{align*}

Por lo que $\varphi$ es un isomorfismo.

$\square$

Una pregunta natural que se sigue de este teorema es ¿Cuál es, explícitamente, la inversa de este isomorfismo? por suerte esta fue casi definida durante la demostración del teorema, así escribámosla de una manera más formal.

Sea $ \{e_1, \cdots , e_n\} $ una base de $V$, la función $\varphi^{-1}: M_n^*(\mathbb{R}) \rightarrow Sim(V) $ es tal que para todo $A \in M_n^*(\mathbb{R})$ con $A=[a_{ij}]$
\begin{align*} \varphi^{-1}(A)=b \end{align*}
Con
\begin{align*} b(x,y)= \sum_{i,j=1}^na_{ij}x_iy_j \end{align*}
para cualesquiera $x,y \in V$ vectores tales que $x=\sum_{i=1} ^nx_ie_i$ y $y=\sum_{j=1} ^ny_je_j$

Preparaciones para el teorema de Sylvester

Recordemos que, en entradas anteriores, empezamos a hablar del teorema de inercia de Sylvester y dijimos que era más fácil trabajar con él una vez que tuviéramos la notación matricial, empecemos con los resultados que nos llevaran a enunciar y demostrar este teorema.

Algo que vale la pena notar de la última igualdad, en particular del lado derecho es que lo podemos expresar como una multiplicación matricial de la manera que sigue
\begin{align*} \sum_{i,j=1}^na_{ij}x_iy_j= \text{ }^{t}XAY\end{align*}
Con $A=[a_{ij}]$ y $X, Y$ los vectores columna con entradas $x_i$ y $y_i$ respectivamente y $^{t}X$ el vector transpuesto de $X$. Dada esta igualdad podemos obtener otra caracterización de la matriz de $b$ con respecto a la base $e_1, \cdots e_n $.

Proposición

Sea $e_1, \cdots e_n $ una base de $V$ y $b$ una forma bilinear simétrica en $V$, la matriz de $b$ con respecto a la base $e_1, \cdots e_n $ es la única matriz simétrica $A \in M_n(\mathbb{R})$ tal que
\begin{align*} b(x,y)=\text{ } ^tXAY \end{align*}
Para cualesquiera vectores $x,y \in V$ donde $X,Y$ son los vectores columna con entradas las de $x,y$ con respecto a la base $e_1, \cdots e_n $

Demostración

Por las observaciones anteriores, sabemos que la matriz de $b$ con respecto a la base $e_1, \cdots e_n $ efectivamente cumple esta igualdad y si una matriz cumple esto efectivamente debe ser la matriz de $b$ con respecto a la base $e_1, \cdots e_n $, todo esto gracias a la función $\varphi$ y su inversa, así solo falta mostrar la unicidad, así sea $A’$ otra matriz tal que para cualesquiera vectores $x,y \in V$
\begin{align*} b(x,y)=\text{ } ^tXA’Y \end{align*}
Entonces se debe tener que
\begin{align*} \text{ } ^tXAY =\text{ } ^tXA’Y \end{align*}
Que a su vez implica que
\begin{align*} A=A’\end{align*}

$\square$

Ejemplo

Sea
\begin{align*} A=\begin{pmatrix} 0 & 1 \\
1 & 0 \end{pmatrix}\end{align*}
Encuentra su forma cuadrática asociada.

Solución

Utilizando lo revisado arriba tenemos que su forma bilineal asociada es
\begin{align*} b(x,y)= \sum_{i,j=1}^na_{ij}x_iy_j \end{align*}
de esta manera, en este caso sabemos que $a_{11}=a_{22}=0$ y $a_{12}=a_{21}=1$, por lo que explícitamente, $b$ se puede escribir como
\begin{align*} b(x,y)= 0x_1y_1+1x_1y_2+1x_2y_1+0x_2y_2=x_1y_2+y_1x_2 \end{align*}
Con $x_1,x_2,y_1,y_2$ las coordenadas de $x,y$ respectivamente, para encontrar la forma cuadrática basta solo calcular $b(x,x)$
\begin{align*} q(x)=b(x,x)=x_1x_2+x_1x_2=2x_1x_2. \end{align*}

Ejemplo

Sea $V=\mathbb{R}^3$ y $q$ dada como sigue
\begin{align*} q(x)=x_1x_2+x_2x_3+x_3x_1 \end{align*}
Encuentra su matriz asociada en la base canónica y en $\{u_1=(1,1,0), u_2=(1,0,1), u_3=(0,1,1) \}$.

Solución

Primero encontremos su polar
\begin{align*} b(x,x’)=\frac{x’_1x_2+x’_2x_1+x’_1x_3+x’_3x_1+x’_2x_3+x’_3x_2}{2} \end{align*}
Así calculemos que le hace esta forma bilineal a la base canónica de par en par.
\begin{align*} b(e_1,e_1)=b(e_2,e_2)=b(e_3,e_3)=0 \qquad \text{y} \qquad b(e_1,e_2)=b(e_1,e_3)=b(e_2,e_3)=\frac{1}{2}\end{align*}
Por lo que su matriz asociada en la base canónica es
\begin{align*} A=\begin{pmatrix} 0 & \frac{1}{2} & \frac{1}{2} \\
\frac{1}{2} & 0 & \frac{1}{2} \\
\frac{1}{2} & \frac{1}{2} & 0 \end{pmatrix}\end{align*}
Por otro lado, calculando lo que $b$ le hace a nuestra otra base
\begin{align*} b(u_1,u_1)=b(u_2,u_2)=b(u_3,u_3)=1 \qquad \text{y} \qquad b(u_1,u_2)=b(u_1,u_3)=b(u_2,u_3)=\frac{3}{2}\end{align*}
Y construyendo esta otra matriz
\begin{align*} A=\begin{pmatrix} 1 & \frac{3}{2} & \frac{3}{2} \\
\frac{3}{2} & 1 & \frac{3}{2} \\
\frac{3}{2} & \frac{3}{2} & 1 \end{pmatrix}\end{align*}

En estos resultados y ejemplos podemos ver que la matriz asociada a una forma bilineal es completamente dependiente de la base que elijamos, y obtenerla en bases distintas puede resultar en cálculos muy grandes, por ello no te debe de sorprender que se buscara una manera de encontrar matrices en bases distintas sin tener que recurrir a la forma bilineal cada vez, con esta motivación revisemos este último teorema.

Proposición

Supongamos que una forma bilineal $b$ tiene asociada una matriz $A$ con respecto a una base $\beta$ y una matriz $A’$ con respecto a otra base $\beta’$, sea $P$ la matriz de cambio de base de $\beta$ a $\beta’$, entonces
\begin{align*} A’=\text{ } ^tPAP.\end{align*}
Demostración

Sean $x,y \in V$ dos vectores cualesquiera, si $\beta = \{u_1, \cdots , u_n\}$ y $\beta’ = \{u’_1, \cdots , u’_n\}$ entonces
\begin{align*} x=u_1x_1 + \cdots + u_nx_n=u’_1x’_1 + \cdots + u’_nx’_n\end{align*}
Definamos al vector columna $X$ como sigue
\begin{pmatrix} x_1 \\
\vdots \\
x_n \end{pmatrix}
Y definamos análogamente a $X’,Y,Y’$, sabemos entonces que
\begin{align*} b(x,y)= \text{ }^tXAY= \text{ }^tX’A’Y’\end{align*}
Además, sabemos que
\begin{align*} X=PX’ \qquad \text{y} \qquad Y=PY’\end{align*}
De donde se sigue la siguiente cadena
\begin{align*} \text{ }^tX’A’Y’= b(x,y)=\text{ }^tXAY=\text{ }^t(PX’)A(PY’)=\text{ }^tX’\text{ }^tPAPY’ \end{align*}
Fijándonos en los extremos
\begin{align*} \text{ }^tX’A’Y’=\text{ }^tX’\text{ }^tPAPY’ \end{align*}
De donde finalmente concluimos que
\begin{align*} A’=\text{ } ^tPAP.\end{align*}

$\square$

Más adelante

Esta es una pequeña introducción a la relación entre las formas bilineales (y cuadráticas por extensión) y las matrices, podemos ver que esta nos otorgó otra manera de entender las formas bilineales y otra forma de calcularlas, algo que no hemos explorado es el poder que esta relación nos entrega al aplicar todo lo que conocemos acerca de matrices a las matrices asociadas a una forma bilineal.

Otro problema que enfrentamos es la dependencia de las matrices a su base, aunque este no es un problema que podamos evitar, nos gustaría encontrar propiedades que se mantengan sin importar la base que sea elegida o alguna relación entre todas las matrices de una misma forma bilineal, esto lo abordaremos en la siguiente entrada y cumpliremos lo antes prometido de enunciar y demostrar la ley de Inercia de Sylvester.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. Sea $V=\mathbb{R}^3$ y definamos $q: V \rightarrow \mathbb{R}$
    \begin{align*} q(x,y,z)= (x+2y+3z)^2+(y+z)^2-(y-z)^2. \end{align*}
    Prueba que $q$ es cuadrática y encuentra su polar.
  2. ¿Es q positiva? ¿Es definida positiva?
  3. Encuentra la matriz asociada a $q$ con respecto a la base canónica.
  4. Sean los vectores
    \begin{align*} |v_1=(2,0,0), \; v_2=(-5,1,1), \; v_3=(1,1,-1).\end{align*}
    Prueba que son una base de $V$ y encuentra la matriz asociada a b respecto a ellos.
  5. Encuentra el rango y signatura de $q$ y encuentra el rango y discriminante de cada una de sus matrices, ¿Qué puedes decir acerca de ellos?

Entradas relacionadas

Álgebra lineal II: Ejemplos del teorema de Gauss y Teorema de Sylvester

Introducción

En la entrada anterior nos dedicamos a hacer preparaciones y posteriormente demostrar el teorema de Gauss, sin embargo, la prueba no parece arrojar un método con el cual podamos eficientemente representar cualquier forma cuadrática, en esta entrada veremos un par de ejemplos de cómo hacerlo.

Posteriormente seguiremos manipulando la nueva forma en la que el teorema de Gauss nos permite escribir las formas cuadráticas lo que nos arrojará nuevas definiciones, como rango y signatura, finalmente hablaremos un poco del Teorema de Sylvester (También conocido como Ley de inercia de Sylvester) aunque su demostración tendrá que esperar a que tengamos un par de herramientas extra.

Ejemplos del teorema de Gauss

Ejemplo

$q$ es la forma cuadrática en $\mathbb{R}^3$ definida como sigue
\begin{align*} q(x,y,z)= xy+yz+xz \end{align*}
Reescribe $q$ como combinación de formas lineales, linealmente independientes.

La primera manera (no muy elegante) de resolver este ejercicio es reproducir la demostración del teorema de Gauss, ubicando únicamente que caso es necesario reproducir.

Solución

Revisando la demostración dada en la entrada anterior, como la dimensión en este caso es $3$ no podemos utilizar lo hecho cuando $n=1$, así el proceso para probar que el teorema se valía para $n \neq 1$ se separa en dos casos:

  • Si $a_{ii}=0$ para todo $i \in \{1,\dots , n \}$
  • Si $a_{ii} \neq 0$ para algún $i \in \{1,\dots , n \}$

Esto es, verificar si los coeficientes de $x^2,y^2$ y $z^2$ son todos $0$ o existe uno que no, como todos son ceros procederemos como en el segundo caso.
Nombrando
\begin{align*} x_1=x, \qquad x_2=y \qquad \text{y} \qquad x_3=z\end{align*}
Haciendo esto, tenemos
\begin{align*} xy+yz+xz= q(x_1, x_2, x_3)=2\sum_{1 \leq i < j \leq 3} x_i x_j a_{ij} \end{align*} \begin{align*} =2a_{12}x_1x_2+2a_{13}x_1x_3+2_{23}x_2x_3 = 2a_{12}xy+2a_{13}xz+2_{23}yz \end{align*}
Comparando los coeficientes, tenemos que
\begin{align*} a_{12}=a_{13}=a_{23}=1/2, \end{align*}
Escribiéndolo como en la demostración
\begin{align*} q(x_1,\dots , x_n)= 2a_{n-1.n}x_{n-1}x_n +2\sum_{i=1}^{n-2}a_{in}x_ix_n+ 2\sum_{i=1}^{n-2}a_{i,n-1}x_ix_{n-1} + 2\sum_{1 \leq i < j \leq n-2} x_i x_j a_{ij} \\
=2a_{23}x_2x_3+2\sum_{i=1}^{1}a_{i3}x_ix_3 +2\sum_{i=1}^{1}a_{i2}x_ix_{2}+ 2\sum_{1 \leq i < j \leq 1} x_i x_j a_{ij} \end{align*}.
De nuevo, utilizando la identidad
\begin{align*} axy+bx+cy= a ( x + \frac{c}{a} ) ( y + \frac{b}{a} ) -\frac{bc}{a} \end{align*}
Y nombrando
\begin{align*} a =2a_{23}=1, \qquad b=2\sum_{i=1}^1a_{i3}x_i=x, \qquad c=2\sum_{i=1}^{1}a_{i2}x_i=x, \qquad x=x_3, \qquad y=x_2 \end{align*}
Y sustituyendo
\begin{align*} 1( x_3+\frac{x}{1} ) (x_2 +\frac{x}{1} )-\frac{x \times x}{1}= (z+x) (y+x)-x^2 \end{align*}
Aquí, la prueba usa la hipótesis de inducción para afirmar que el último término ($x^2$) ya está de la forma que deseamos, es decir, como una combinación de formas lineales linealmente independientes elevadas al cuadrado, esta vez sí tenemos ese caso, si no fuera así habría que repetir todo este procedimiento para el último término únicamente hasta poder escribirlo de la forma deseada.
Finalmente, la demostración indica que hay que fijarse en la multiplicación $(z+x) (y+x)$ y utilizar la identidad
\begin{align*} ab=\frac{(a+b)^2 -(a-b)^2 }{4} \end{align*}
Con
\begin{align*} a=z+x \qquad \text{y} \qquad b=y+x \end{align*}
Sustituyendo esto en la identidad, tenemos que
\begin{align*} ab= \frac{(z+x+y+x)^2 -(z+x-y-x)^2 }{4} =\frac{(2x+z+y)^2}{4}+\frac{(z-y)^2}{4} \end{align*}
Por lo que
\begin{align*} q= (2x+z+y)^2+(z-y)^2 -x^2 \end{align*}
El teorema anterior nos asegura que, al menos $2x+z+y$ y $z-y$ son linealmente independientes, basta verificar que agregando $x$ la independencia se mantiene, que no lo haremos aquí, pero no está de más que tú lo intentes.

Ejemplo
$q$ es la forma cuadrática en $\mathbb{R}^3$ definida como sigue
\begin{align*} q(x,y,z)= (x – y)^2+(y – z)^2+ (z – x)^2 \end{align*}
Reescribe $q$ como combinación de formas lineales, linealmente independientes elevadas al cuadrado.

Solución

Sería fácil asumir que $q$ ya está de la forma deseada, sin embargo, una revisión rápida nos deja ver qué $x – y$, $y-z$ y $z-x$ no son linealmente independientes en $(\mathbb{R}^3)^*$.
Primero desarrollemos todo
\begin{align*} q(x,y,z)= 2x^2+2y^2+2z^2 -2xy-2xz-2yz \end{align*}
De nuevo, como la dimensión no es $1$ habrá que fijarnos en el paso inductivo de la demostración, esta vez, $q$ cae en el primer caso ya que en particular el coeficiente de $x$ (que con la notación de la demostración se llamará x_1, por lo que su coeficiente seria $a_{11}$) no es cero.
Siguiendo el caso este nos indica que expresemos a $q$ como polinomio de segundo grado en $x$ y completemos el cuadrado
\begin{align*} 2x^2+2y^2+2z^2 -2xy-2xz-2yz= 2 ( x- \frac{y+z}{2})^2 – \frac{(y+z)^2}{2} + 2y^2 +2z^2-2yz \end{align*}
Una vez más, en la demostración la hipótesis de inducción asegura que los términos sin $x$ en este caso $ – \frac{(y+z)^2}{2} + 2y^2 +2z^2-2yz$ se pueden escribir como una combinación de formas lineales linealmente independientes elevadas al cuadrado, como no es el caso, deberíamos repetir el procedimiento desde el primer paso, esta vez únicamente en $- (\frac{y+z}{2})^2 + 2y^2 +2z^2-2yz$ sin embargo, para nuestra suerte, una pequeña manipulación muestra que
\begin{align*} – \frac{(y+z)^2}{2} + 2y^2 +2z^2-2yz = \frac{3}{2}(y – z)^2\end{align*}
Que cumple ser linealmente independiente con $x- \frac{y+z}{2}$ por lo que
\begin{align*} q(x,y,z)= 2 ( x- \frac{y+z}{2})^2 + \frac{3}{2}(y – z)^2 \end{align*}

Con esto visto, podemos describir un algoritmo en 4 pasos.

  1. Desarrollar todos los términos $q$ si es necesario.
  2. Revisar que forma tiene $q$ con respecto a los 3 casos que se vieron en la demostración.
  3. Reproducir el caso elegido de la demostración, dependiendo de la forma de $q$.
    Dentro de este paso, puede ser necesario repetir desde el paso 1.
  4. Verificar que los nuevos términos de $q$ sean efectivamente linealmente independientes.

Si bien, así escritos puede parecer bastante sencillo, en la práctica incluso acortando pasos y notación esto muestra no ser sencillo ni práctico, veremos después otras formas de expresar $q$ de esta misma manera de una forma más eficaz.

Teorema de Sylvester (Ley de inercia de Sylvester)

Ya teniendo en nuestro poder el teorema de Gauss, sabemos que dado $q$ una forma cuadrática en $V=\mathbb{R}^n$. Existen $\alpha_1, \dots , \alpha_r \in \mathbb{R}$ y formas (funciones) lineales $l_1, \dots l_r \in (\mathbb{R}^n)^*$ linealmente independientes tales que, para todo $x \in V$
\begin{align*} q(x)= \sum_{i=1}^r \alpha _i (l_i(x))^2 \end{align*}
Revisemos esta última igualdad, podemos asumir que $\alpha_i \neq 0$ para $1 \leq i \leq r$ si alguno de estos fuera $0$, simplemente eliminemos ese término.

Por otro lado, definamos los siguientes conjuntos
\begin{align*} I=\{i \in \{1, \dots , r\} : \alpha_i > 0 \} \qquad \text{y} \qquad J=\{j \in \{1, \dots , r\} : \alpha_j < 0 \} \end{align*}.
Con estos nombres, $q$ se puede reescribir como
\begin{align*} q(x)= \sum_{i \in I}( \sqrt{\alpha_i} l_i) ^2(x) – \sum_{i \in J}( \sqrt{\alpha_i} l_i) ^2(x) \end{align*}
Definamos $L_1, \dots L_r \in (\mathbb{R}^n)^*$ formas lineales
\begin{align*} L_i=\sqrt{\alpha_i} l_i \text{ si } i \in I \qquad \text{y} \qquad L_i=\sqrt{-\alpha_i} l_i \text{ si } i \in j \end{align*}
y así nombrado
\begin{align*} q(x)= \sum_{i \in I}L_i^2(x) – \sum_{i \in J}L_j^2(x) \end{align*}
Y cabe notar que $L_1, \dots L_r \in (\mathbb{R}^n)^*$ aún son linealmente independientes y que $|I|+|J|=r$.

Dado esto, reescribiremos el teorema de Gauss y ya que lo único que cambiamos es la notación la demostración hecha sigue siendo válida.

Teorema de Gauss

Sea $q$ una forma cuadrática en $\mathbb{R} ^n$, existen formas lineales, linealmente independientes $L_1. \dots L_r \in (\mathbb{R} ^n)^*$ tales que, para todo $x \in \mathbb{R} ^n$
\begin{align*} q(x)=\sum_{i=1}^r (L_i(x))^2 \end{align*}.
Además, si escribimos $q$ como
\begin{align*} q(x)= \sum_{i \in I}L_i^2(x) – \sum_{i \in J}L_j^2(x) \end{align*}
Podemos formular las siguientes definiciones.

Definición

Sea $q$ una forma cuadrática en $\mathbb{R}^n$ tal que
\begin{align*} q(x)=\sum_{i=1}^r (L_i(x))^2= \sum_{i \in I}L_i^2(x) – \sum_{i \in J}L_j^2(x) \end{align*}
Al par ordenado $(|I|,|J|)$ le llamaremos la signatura de $q$.

Definición

Sea $q$ una forma cuadrática en $\mathbb{R} ^n$ con signatura $(|I|,|J|)$ a $r \in \mathbb{R} $ tal que
\begin{align*} r =|I|+|J| \end{align*}
le llamaremos el rango de $q$.

Es oportuno notar que en matrices también tenemos definido el concepto de rango, otro recordatorio de a donde nos dirigimos al estudiar esta teoría.

De nuevo, al ver una definición nueva, la pregunta debería ser ¿Aquí se define correctamente un concepto único?

En este caso, puedes notar que la demostración del teorema de Gauss y por consiguiente estas definiciones se basaron en escribir a cualquier $x \in \mathbb{R}^n$ como combinación lineal en la base canónica, entonces ¿por qué en estas definiciones no se menciona nada acerca de la base? sería de esperar que si cambiamos la base en la que expresemos a $x$ también deberían cambiar la signatura y el rango.

Por suerte estos números son invariantes bajo cambio de base, lo que nos permite definirlos sin necesidad de detallar eso.

A esta afirmación se le conoce como el Teorema de Sylvester y como puedes esperar, deberíamos enunciarlo correctamente y demostrarlo, aunque la escritura del teorema y su demostración son posibles con la notación que tenemos, se vuelve mucho más sencillo una vez que nos adentremos en la relación de funciones cuadráticas con matrices y las herramientas que esto nos proporcionará, por lo que dejaremos este enunciado y su demostración para después.

Dato curioso

Algo que no se mencionó en esta entrada, nos hemos referido al Teorema de Sylvester de dos maneras intercambiables, Teorema de Sylvester y Ley de Inercia de Sylvester, la intuición diría que existe relación con la física, algún uso especial de este teorema que lo hace importante para el cálculo de inercia.

No, curiosamente, viene de esta frase

This constant number of positive signs which attaches to a quadratic function under all its transformations […] may be termed conveniently its inertia, until a better word is found.

J. J. Sylvester, On the Theory of the Syzygetic Relations… (1853)

Interpretando un poco, podemos pensar a la inercia inicial, como la resistencia de un cuerpo de moverse, así, tal vez Sylvester pensó en la resistencia a moverse del rango y la signatura bajo cambios de base.

Más adelante

Las formas cuadráticas, aunque interesantes, muestran estar limitadas por como las definimos, ya que son únicamente funciones reales, en las siguientes entradas expandiremos un poco esta definición para también abarcar al menos funciones a los complejos (formas sesquilineales ) y nos enfocaremos en un tipo especial de estas (formas hermitianas).

Ya teniendo más tipos de formas bilineales para trabajar, entraremos finalmente a la relación con matrices donde, tal vez ya te disté cuenta porque, pero se volverá muy importante el concepto de diagonalización, esta es otra de las razones del gran enfoque de esta materia en encontrar una forma de diagonalizar matrices, o al menos saber si es posible.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

En los siguientes ejercicios, usa el algoritmo de Gauss para escribir cada forma como combinación de formas lineales linealmente independientes, además encuentra su rango y signatura.

  1. $q : \mathbb{R}^4 \rightarrow \mathbb{R}$ dada por
    \begin{align*} q(x,y,z,t)=xy+2z^2+tx-t^2 \end{align*}.
  2. $q : \mathbb{R}^3 \rightarrow \mathbb{R}$ dada por
    \begin{align*} q(x,y,z)=(x-2y+z)^2-(x-y)^2+z^2 \end{align*}.
  3. $q : \mathbb{R}^4 \rightarrow \mathbb{R}$ dada por
    \begin{align*} q(x,y,z,t)= xy + yz + zt+tx \end{align*}.
  4. Demuestra que las formas $L_1, \dots , L_r$ definidas aquí y en los dos ejemplos, son linealmente independientes.
  5. ¿Como definirías formas bilineales pero esta vez, que partan de un espacio vectorial $V$ sobre $\mathbb{C}$ a $\mathbb{C}$? ¿Se cumplen todas las propiedades de forma bilineal que hemos visto hasta ahora?

Entradas relacionadas