Archivo de la etiqueta: Teorema de Gauss

Cálculo Diferencial e Integral III: Formas cuadráticas

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior hablamos de formas bilineales. A partir de esta noción podemos introducir otra más: la de formas cuadráticas. Las formas cuadráticas son cruciales, pues es a partir de ellas que podemos hacer geometría en espacios vectoriales.

Formas bilineales simétricas

Hay unas formas bilineales que son especiales pues al intercambiar los vectores argumento no cambian de valor.

Definición. Una forma bilineal $b\in B(\mathbb{R}^n)$ es simétrica si $b(\bar{u},\bar{v})=b(\bar{v},\bar{u})$ para todos los $\bar{u},\bar{v}\in \mathbb{R}^n$.

Cuando una forma bilineal es simétrica, la matriz que la representa también. En efecto, si $A$ es una representación matricial de la forma bilineal $b$ en la base $\beta$, podemos escribir: \[b(\bar{u},\bar{v})=[\bar{u}]^{t}A[\bar{v}]=\left( [\bar{u}]^{t}A[\bar{v}] \right) ^{t}=[\bar{v}]^{t}A^{t}[\bar{u}].\]

En la igualdad de en medio usamos que $[\bar{u}]^{t}A[\bar{v}] \in \mathbb{R}$ para obtener que este producto matricial es igual a su transpuesta (¿por qué?). Así pues, si $b$ es simétrica: \[ [\bar{v}]^{t}A^{t}[\bar{u}]=b\left( \bar{u},\bar{v} \right)=b\left( \bar{v},\bar{u}\right)=[\bar{v}]^{t}A[\bar{u}],\]

para todo $\bar{u},\bar{v}\in \mathbb{R}^n$. En particular, al evaluar $b(\bar{e}_i,\bar{e}_j)$ para $\bar{e}_i,\bar{e}_j$ una pareja de elementos de la base $\beta$ obtenemos que $A$ y $A^{t}$ coinciden en cualquier entrada $(i,j)$. Por lo tanto $A=A^{t}$, entonces $A$ es simétrica.

Formas cuadráticas y su forma polar

Una forma cuadrática se obtiene de evaluar una forma bilineal usando el mismo vector para ambas entradas. Formalmente, tenemos lo siguiente.

Definición. Una función $q:\mathbb{R}^n \to \mathbb{R}$ es una forma cuadrática si existe una forma bilineal $b:\mathbb{R}^n\times \mathbb{R}^n\to \mathbb{R}$ tal que $q(\bar{v})=b(\bar{v},\bar{v})$ para todo $\bar{v}$ en $\mathbb{R}^n$. A $q$ le llamamos la forma cuadrática asociada a $b$.

Es posible que una misma forma cuadrática pueda ser creada por dos formas bilineales distintas.

Ejemplo. Tomemos la forma bilineal $b_1((x_1,x_2),(y_1,y_2))=0$ para todos $\bar{u},\bar{v}\in \mathbb{R}^2$ y la forma bilineal $b_2((x_1,x_2),(y_1,y_2))=x_1y_2-x_2y_1$. Si $q_1$ es la forma cuadrática asociada a $b_1$ y $q_2$ es la forma cuadrática asociada a $b_2$, se tiene que $q_1((x_1,x_2))=0$ para todo $(x_1,x_2)$ en $\mathbb{R}^2$, y también se tiene que $q_2((x_1,x_2))=0$ para todo $(x_1,x_2)$ en $\mathbb{R}^2$ (verifícalo). Así, aunque $b_1\neq b_2$, se tiene que $q_1=q_2$.

$\triangle$

Si agregamos la hipótesis adicional de que la forma bilineal que se usa sea simétrica, entonces sí tenemos unicidad. De hecho, podemos saber exactamente de qué forma bilineal simétrica $b$ viene una forma cuadrática dada $q$. Este es el contenido del siguiente teorema, que se llama el teorema de la identidad de polarización.

Teorema. Si $q$ es una forma cuadrática en $\mathbb{R}^n$, entonces existe una única forma bilineal $b$ simétrica tal que $q(\bar{v})=b(\bar{v},\bar{v})$ para todo $\bar{v}\in \mathbb{R}^n$. Más aún, \[ \begin{equation} b(\bar{u},\bar{v})=\frac{1}{2}\left(q(\bar{u}+\bar{v})-q(\bar{u})-q(\bar{v})\right). \end{equation}.\]

Demostración. Haremos sólo parte de la demostración: la de la unicidad. El resto puede consultarse, por ejemplo, en la entrada Formas cuadráticas, propiedades, polarización y teorema de Gauss. Supongamos que $q$ es forma cuadrática y que viene de la forma bilineal simétrica $B$. Desarrollando el lado derecho de la ecuación tenemos

\begin{align*}
\frac{1}{2}\left( q(\bar{u}+\bar{v})-q(\bar{u})-q(\bar{v})\right) &= \frac{1}{2}\left( B(\bar{u}+\bar{v},\bar{u}+\bar{v})-B(\bar{u},\bar{u})-B(\bar{v},\bar{v})\right)\\&=\frac{1}{2}\left(B(\bar{u}+\bar{v},\bar{u})+B(\bar{u}+\bar{v},\bar{v})-B(\bar{u},\bar{u})-B(\bar{v},\bar{v})\right)\\
&=\frac{1}{2}\left(B(\bar{u},\bar{u})+B(\bar{v},\bar{u})+B(\bar{u},\bar{v})+B(\bar{v},\bar{v})-B(\bar{u},\bar{u})-B(\bar{v},\bar{v})\right)\\
&=\frac{1}{2}\left(2B(\bar{u},\bar{v})\right)=B(\bar{u},\bar{v}).
\end{align*}

Esto muestra que la expresión del teorema es la única que podría servir para obtener la forma bilineal simétrica de la que viene $q$. El resto de la demostración consiste en ver que, en efecto, la expresión propuesta es bilineal y es simétrica.

$\square$

Por el teorema de la identidad de polarización, podemos siempre suponer que una forma cuadrática viene de una forma bilineal simétrica $b$, a la que le llamaremos su forma polar.

Forma matricial de una forma cuadrática

Definición. Sea $q$ una forma cuadrática de $\mathbb{R}^n$ y $\beta$ una base de $\mathbb{R}^n$. La forma matricial de $q$ en la base $\beta$ será la forma matricial de su forma polar en la base $\beta$.

Por lo visto anteriormente, si $b$ es simétrica, se representa por una matriz simétrica $A=a_{ij}$. Así, las formas matriciales de formas cuadráticas siempre son simétricas. Para evaluar $q$, podemos hacer lo siguiente:

\begin{align*}
q(\bar{v})&=b(\bar{v},\bar{v})\\
&=[\bar{v}]^{t}A[\bar{v}]\\
&=\begin{pmatrix}x_{1} & \dots & x_{n}\end{pmatrix} \begin{pmatrix} a_{11} & \dots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{n1} & \dots & a_{nn} \end{pmatrix} \begin{pmatrix} x_{1} \\ \vdots \\ x_{n} \end{pmatrix}
\end{align*}

Desarrollando el producto obtenemos $$q(\bar{v})=a_{11}x_{1}^{2}+a_{22}x_{2}^{2}+\dots +a_{nn}x_{n}^{2}+2\sum_{i<j}a_{ij}x_{i}x_{j}.$$

Esta última ecuación en las variables $x_{i}$ se denomina el polinomio cuadrático correspondiente a la matriz simétrica $A$.

Nota que si la matriz $A$ es diagonal, entonces $q$ tendrá el siguiente polinomio cuadrático: \[ \begin{equation} q(\bar{v})=[\bar{v}]^{t}A[\bar{v}]=a_{11}x_{1}^{2}+a_{22}x_{2}^{2}+\dots +a_{nn}x_{n}^{2}. \end{equation} \]

Este es un polinomio muy sencillo: no tendrá términos con «productos cruzados».

Teorema de Gauss para formas cuadráticas

Enseguida presentamos un teorema muy importante de formas cuadráticas. Su importancia radica en que siempre deseamos simplificar los objetos que tenemos.

Teorema. Sea $b$ una forma bilineal simétrica en $V$, un espacio vectorial de dimensión finita $n$ sobre $\mathbb{R}$. Entonces $V$ tiene una base $\{\bar{v}_{1},\dots ,\bar{v}_{n}\}$ en la que $b$ se representa por una matriz diagonal, es decir, $b(\bar{v}_{i},\bar{v}_{j})=0$ para $i\neq j$.

Demostración. Procederemos por inducción sobre $n=\dim V$. Si $\dim V=1$, se cumple claramente (¿Por qué?). Por tanto, podemos suponer $\dim V>1$. Si $b=0$, también la afirmación es cierta inmediatamente, pues $b$ se representa por una matriz de puros ceros. Si $q(\bar{v})=b(\bar{v},\bar{v})=0$ para todo $\bar{v}\in V$, al escribir $b$ en su forma polar se obtiene que $b=0$ . Por esta razón se puede suponer que existe un vector $\bar{v}_{1}\in V$ tal que $b(\bar{v}_{1},\bar{v}_{1})\neq0$. Sean $U$ el subespacio generado por $\bar{v}_{1}$ y $W$ el conjunto de aquellos vectores $\bar{v}\in V$ para los que $b(\bar{v}_{1},\bar{v})=0$. Afirmamos que $V=U\oplus W$.

  1. $U\cap W=\{\bar{0} \}$. Supongamos $\bar{u}\in U\cap W$. Como $\bar{u}\in U$, $\bar{u}=k\bar{v}_{1}$ para algún escalar $k\in \mathbb{R}$. Como $\bar{u}\in W$, $0=b(\bar{v}_{1},\bar{u})=b(\bar{v}_{1},k\bar{v}_{1})=kb(\bar{v}_{1},\bar{v}_{1})$. Pero $b(\bar{v}_{1},\bar{v}_{1})\neq 0$; luego $k=0$ y por consiguiente $\bar{u}=\bar{0}$. Así $U\cap W=\{ \bar{0}\}$.
  2. Veamos que $V=U+W$. Sea $\bar{v}\in V$. Consideremos $\bar{w}$ definido como: \[ \bar{w}=\bar{v}-\frac{b(\bar{v}_{1},\bar{v})}{b(\bar{v}_{1},\bar{v}_{1})}\bar{v}_{1}.\] Entonces \[ b(\bar{v}_{1},\bar{w})=b(\bar{v}_{1},\bar{v})-\frac{b(\bar{v}_{1},\bar{v})}{b(\bar{v}_{1},\bar{v}_{1})}b(\bar{v}_{1},\bar{v}_{1})=0. \] Así $\bar{w}\in W$. Por tanto $\bar{v}$ es la suma de un elemento de $U$ y uno de $W$. Entonces se cumple $V=U+W$.
    Ahora $b$ restringida a $W$ es una forma bilineal simétrica en $W$. Pero $\dim W=n-1$, luego existe una base $\{ \bar{v}_{2},\dots ,\bar{v}_{n} \}$ de $W$ tal que $b(\bar{v}_{i},\bar{v}_{j})=0$ para $i\neq j$ y $2\leq i,j\leq n$. Por la propia definición de $W$, $b(\bar{v}_{1},\bar{v}_{j})=0$ para $j=2,\dots n$. Por tanto, la base $\{\bar{v}_{1},\dots ,\bar{v}_{n} \}$ de $V$ tiene la propiedad requerida de que $b(\bar{v}_{i},\bar{v}_{j})=0$ para $i\neq j$.

$\square$

Tenemos pues que para toda forma bilineal simétrica tenemos una representación matricial diagonal. Dicho en otras palabras, para cualquier matriz simétrica $A$ en $M_n(\mathbb{R})$, se tiene que es congruente a alguna matriz diagonal. También de aquí se tiene que para toda forma cuadrática tenemos una representación matricial diagonal.

Formas cuadráticas positivas y positivas definidas

Otra noción importante para formas cuadráticas es la siguiente.

Definición. Diremos que una forma cuadrática $q:\mathbb{R}^n\to \mathbb{R}$ es positiva si se cumple que $q(\bar{x})\geq 0$ para todo $\bar{x}\in \mathbb{R}^n$. Diremos que es positiva definida si se cumple que $q(\bar{x})>0$ para todo $\bar{x}\in \mathbb{R}^n \setminus \{\bar{0}\}$.

Si $b$ es la forma bilineal simétrica que define a $q$ y $A$ es una matriz que represente a $b$ en alguna base $\beta$, se puede ver que $q$ es positiva si y sólo si $X^{t}AX\geq 0$ para todo $X\in \mathbb{R}^n$. Así mismo, es positiva definida si y sólo si $X^{t}AX>0$ para todo $X\neq 0$ en $\mathbb{R}^n$. Esto motiva la siguiente definición para matrices.

Definición. Sea $A\in \mathbb{R}^n$ una matriz simétrica. Diremos que es positiva si se cumple que $X^{t}AX\geq 0$ para todo $X\in \mathbb{R}^n$. Diremos que es, es positiva definida si y sólo si $X^{t}AX>0$ para todo $X\neq 0$ en $\mathbb{R}^n$.

Una propiedad importante que queda como tarea moral es que la propiedad de ser positiva (o positiva definida) es invariante bajo congruencia de matrices.

Hay otras maneras de saber si una matriz es positiva, o positiva definida. De hecho, en la entrada de Matrices positivas y congruencia de matrices de nuestro curso de Álgebra Lineal II puedes encontrar la siguiente caracterización:

Teorema. Sea $A$ una matriz simétrica en $M_n(\mathbb{R})$. Las siguientes afirmaciones son equivalentes:

  1. $A$ es positiva.
  2. $A$ es congruente a una matriz diagonal con puras entradas mayores o iguales a cero.
  3. $A$ puede ser escrita de la forma $B^{t}B$ para alguna matriz $B\in M_n(\mathbb{R})$.

Hay otro resultado más que relaciona a las matrices positivas definidas con sus eigenvalores.

Teorema. Si $A$ es una matriz simétrica en $M_n(\mathbb{R})$ y es positiva definida, entonces todos sus eigenvalores son positivos.

Matriz Hessiana

Veamos cómo se aplican algunas de las ideas vistas en cálculo. Retomemos la discusión de la entrada Polinomio de Taylor para campos escalares. Hacia el final de la entrada enunciamos el teorema de Taylor en el caso especial de grado $2$. Al tomar un campo escalar $f$ y un punto $\bar{a}$, el polinomio de Taylor de grado $2$ estaba dado como sigue:

$$T_{2,\bar{a}}(\bar{a}+\bar{v})=f(\bar{a})+\frac{(\bar{v}\cdot \triangledown )f(\bar{a})}{1!}+\frac{(\bar{v}\cdot \triangledown)^{2}f(\bar{a})}{2!}.$$

Donde

$$\frac{(\bar{v}\cdot \triangledown)^{2}f(\bar{a})}{2!}=\sum_{i=1}^{n}\sum_{j=1}^n v_{i}v_{j}\frac{\partial ^{2}f}{\partial x_{j}\partial x_{i}}(\bar{a}).$$

Observa que este sumando se puede pensar como una forma cuadrática:

\[ q(\bar{v})=\begin{pmatrix}v_{1} & \dots & v_n\end{pmatrix}\begin{pmatrix} \frac{\partial ^{2}f}{\partial x_{1}^{2}}(a) & \dots & \frac{\partial ^{2}f}{\partial x_{1}\partial x_{_{n}}}(\bar{a})\\ \vdots & \ddots & \vdots \\ \frac{\partial ^{2}f}{\partial x_{_{n}}\partial x_{1}}(\bar{a}) & \dots & \frac{\partial ^{2}f}{\partial x_{_{n}}^{2}}(\bar{a}) \end{pmatrix}\begin{pmatrix} v_{1} \\ \vdots \\ v_n\end{pmatrix}\]

La matriz de esta forma cuadrática tiene una importancia especial en el cálculo de varias variables, y por ello tiene su propia definición.

Definición. Sea $f$ un campo escalar definido sobre algún subconjunto abierto de $\mathbb{R}^{n}$. Si $f$ tiene derivadas parciales de segundo orden en el punto $\bar{a}$, a la siguiente matriz la llamamos la matriz hessiana de $f$ en $\bar{a}$:

\[ H_f(\bar{a})=\begin{pmatrix} \frac{\partial ^{2}f}{\partial x_{1}^{2}}(\bar{a}) & \dots & \frac{\partial ^{2}f}{\partial x_{1}\partial x_{_{n}}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial ^{2}f}{\partial x_{_{n}}\partial x_{1}}(\bar{a}) & \dots & \frac{\partial ^{2}f}{\partial x_{_{n}}^{2}}(\bar{a})\end{pmatrix}.\]

Cuando hablemos de optimización, esta matriz tomará un significado especial. Por ahora, enfoquémonos en entender cómo obtenerla.

Ejemplo. Encontraremos la matriz Hessiana del campo escalar $f(x,y)=\sin(xy)$ en el punto $\left( 1,\frac{\pi}{4} \right)$. Para ello, calculamos las siguientes derivadas parciales de orden $1$ y $2$:

\[ \frac{\partial f}{\partial x}=y\cos(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial x^{2}}=-y^{2}\sin(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial y\partial x}=\cos(xy)-xy\sin(xy) \]

\[ \frac{\partial f}{\partial y}=x\cos(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial y^{2}}=-x^{2}\sin(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial x\partial y}=\cos(xy)-xy\sin(xy).\]

Por lo tanto

\[ H(x,y)=\begin{pmatrix} -y^{2}\sin(xy) &\cos(xy)-xy\sin(xy) \\ \cos(xy)-xy\sin(xy) & -x^{2}\sin(xy) \end{pmatrix}.\]

Evaluando en el punto $\left(1,\frac{\pi}{4} \right),$

\[ H\left(1,\frac{\pi}{4} \right)=\begin{pmatrix} -\frac{\pi ^{2}}{16}\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2}\left( 1-\frac{\pi}{4}\right) \\ \frac{\sqrt{2}}{2}\left( 1-\frac{\pi}{4}\right) & -\frac{\sqrt{2}}{2} \end{pmatrix}.\]

$\triangle$

Mas adelante…

Con esto terminamos nuestro repaso de álgebra lineal, y con ello tenemos las herramientas necesarias para poder retomar nuestro estudio de las funciones en varias variables. En la siguiente entrada comenzaremos con el concepto de diferenciabilidad. A lo largo de las siguientes entradas, iremos viendo por qué las herramientas de álgebra lineal que desarrollamos son importantes.

Así mismo, cuando lleves un curso de Cálculo Diferencial e Integral IV también retomaras una parte importante de la teoría que hemos repasado.

Tarea moral

  1. Responder en la primer definición porque $[\bar{u}]^{t}A[\bar{v}]\in \mathbb{R}$.
  2. Demostrar que el espacio $W$ del último teorema es un subespacio vectorial de $V$.
  3. Explicar en la demostración del último teorema por qué éste se cumple cuando $b=0$ o $\dim V=1$.
  4. Explicar porque $\dim W=n-1$.
  5. Verifica que si una matriz $A$ es positiva definida, entonces cualquier matriz $B$ congruente a $A$ también es positiva definida.
  6. Demuestra el último teorema de esta entrada, es decir, que las matrices simétricas positivas definidas tienen eigenvalores positivos.

Entradas relacionadas

Álgebra Lineal II: Problemas de formas bilineales, cuadráticas y teorema de Gauss

Por Leonardo Ignacio Martínez Sandoval

Introducción

En las entradas anteriores nos dedicamos a recordar las definiciones y algunas propiedades de formas bilineales y cuadráticas en $\mathbb{R}^n$ con el fin de enunciar y demostrar el teorema de Gauss. La prueba da un método para representar cualquier forma cuadrática de este modo, pero es mucho más claro cómo se hace este método mediante ejemplos. En esta entrada veremos un par de problemas para seguir repasando formas bilineales y cuadráticas y luego veremos al teorema de Gauss en acción.

Ver que una función es una forma bilineal

Problema. Tomemos $V= \mathbb{R}^n$ y vectores $x,y$ en $V$ de coordenadas $x=(x_1, . . . , x_n)$ y $y =(y_1, . . . , y_n)$. Tomemos reales $a_1,\ldots, a_n$. Definamos a $b:V\times V\to \mathbb{R}$ como sigue:
\begin {align*} b(x,y)=a_1x_1y_1+ . . . + a_nx_ny_n.\end{align*}

Probemos que así definida, $b$ es una forma bilineal.

Solución. Para probar que $b$ es bilineal, probaremos que la función $b(x, \cdot)$ es lineal para cada $x \in \mathbb{R}^n$ fijo.

Sean $p,q \in \mathbb{R}^n$ y $\lambda \in \mathbb{R}$. Tenemos que:
\begin{align*} b(x,\lambda p+q)=\sum_{i=1}^n a_ix_i (\lambda p_i+q_i).\end{align*}

Como todos los miembros de esta operación son números reales, utilicemos las propiedades distributiva y conmutativa. Obtenemos:

\begin{align*} b(x,\lambda p+q)=&\sum_{i=1}^n a_ix_i \lambda p_i + \sum_{i=1}^n a_ix_iq_i\\
&=\lambda \sum_{i=1}^n a_ix_ip_i+ \sum_{i=1}^n a_ix_iq_i\\&=\lambda b(x,p) + b(x,q). \end{align*}

La demostración de que la función $b(\cdot,y)$ también es lineal para cada $y\in \mathbb{R}^n$ fijo es análoga.

$\square$

En particular, si tenemos que $a_1, \ldots, a_n =1$, obtenemos que $b$ es el producto interno canónico de $\mathbb{R}^n$, es decir el producto punto.

Ver que una función no es una forma cuadrática

Problema. Sea $q: \mathbb{R}^2 \rightarrow \mathbb{R}$ dada como sigue

\begin{align*} q(x,y)=x^2+y^2-8x. \end{align*}

¿Es $q$ una forma cuadrática?

Solución. La respuesta es que no. Con el fin de encontrar una contradicción, supongamos que $q$ sí es una forma cuadrática. Entonces su forma polar $b$ debe cumplir:

\begin{align*} b((x,y),(x,y))=x^2+y^2-8x.\end{align*}

Aplicando lo anterior al par $(-x,-y)$ obtendríamos:

\begin{align*} b((-x,-y),(-x,-y))=x^2+y^2+8x.\end{align*}

Por otro lado, sacando escalares en ambas entradas:

\begin{align*} b((-x,-y),(-x,-y))&=(-1)(-1)b((x,y),(x,y))\\&=b((x,y),(x,y)).\end{align*}

Juntando las igualdades, concluimos que

\begin{align*} x^2+y^2-8x=x^2+y^2+8x \end{align*}

por lo que

\begin{align*} 16x=0. \end{align*}

Pero esto no es cierto en general pues falla, por ejemplo, para la pareja $(1,0)$. Este error nació de suponer que $q$ era una forma cuadrática. Por lo tanto $q$ no es forma cuadrática.

$\triangle$

El teorema de Gauss en acción

Para simplificar el lenguaje, si logramos escribir a una forma cuadrática $q$ como nos dice el teorema de Gauss, es decir, de la forma \begin{align*} q(x)= \sum_{i=1}^r \alpha _i (l_i(x))^2,\end{align*} entonces diremos que $q$ es combinación cuadrática de las $l_i$ con coeficientes $\alpha_i$.

Problema. Toma la forma cuadrática $q$ de $\mathbb{R}^3$ definida como sigue:

\begin{align*} q(x,y,z)= 4xy+yz+xz \end{align*}

Escribe a $q$ como combinación cuadrática de formas lineales linealmente independientes.

Solución. Revisando la demostración dada en la entrada anterior, tenemos tres casos:

  • Que la forma cuadrática sea la forma cuadrática cero.
  • Que tenga «términos puros».
  • Que no tenga «términos puros», es decir, que tenga sólo «términos cruzados».

Como en este caso la forma $q$ no es la forma cero, ni aparecen términos $x^2$, $y^2$ o $z^2$, estamos en el tercer caso. La estrategia era tomar dos de las variables y separar los términos que sí las tengan de los que no. Luego, hay que usar las identidades:

\begin{align} AXY+BX+CY=A\left(X+\frac{C}{A}\right) \left(Y+\frac{B}{A}\right)-\frac{BC}{A},\end{align}

\begin{align} DE= \frac{1}{4}(D+E)^2 – \frac{1}{4} (D-E)^2.\end{align}

Tomemos por ejemplo $x$ y $y$. En la forma cuadrática todos los términos tienen $x$ ó $y$, así que podemos usar la identidad $(1)$ para escribir (nota que reordenamos algunos términos para hacer más cómodas las cuentas con las identidades):

\begin{align*}
4xy+zx+zy&= 4 \left(x+\frac{z}{4}\right) \left(y+\frac{z}{4}\right)-\frac{z^2}{4}
\end{align*}

Luego, continuamos mediante la identidad $(2)$:

\begin{align*}
= \left(x+y+\frac{z}{2}\right)^2 – (x-y)^2- \frac{1}{4} z^2.
\end{align*}

Esta expresión ya tiene la forma buscada. Tenemos que $q$ es combinación cuadrática de las formas lineales $x+y+\frac{z}{2}$, $x-y$ y $z$. Verifica que en efecto estas formas lineales son linealmente independientes.

$\triangle$

Cambiando el orden de los pasos

Problema. ¿Qué pasaría si en el ejemplo anterior en vez de hacer el paso inductivo con $x$ y $y$ hacemos el paso inductivo con $y$ y $z$?

Solución. Las cuentas cambian y obtenemos una nueva forma de escribir a $q$. En efecto, aplicando las identidades $(1)$ y $(2)$ pero ahora a $y$ y $z$ obtendríamos:

\begin{align*}
yz+4xy+xz&= (y+x) (z+4x)-4x^2\\
&=\frac{1}{4}(y+z+5x)^2-\frac{1}{4}(y-z-3x)^2-4x^2.
\end{align*}

Esta es otra forma válida de expresar a $q$ como combinación cuadrática de formas lineales linealmente independientes. Lo que nos dice es que la expresión para $q$ no necesariamente es única.

Sin embargo, un poco más adelante veremos que aunque haya muchas formas de expresar a $q$, en todas ellas permanece constante cuántos sumandos positivos y cuántos negativos hay.

$\triangle$

Cuidado con la independencia lineal

Problema. Toma la forma cuadrática $q$ de $\mathbb{R}^3$ definida como sigue:

\begin{align*} q(x,y,z)= (x – y)^2+(y – z)^2+ (z – x)^2 \end{align*}

Escribe a $q$ como combinación cuadrática de formas lineales linealmente independientes.

Solución. Sería fácil asumir que $q$ ya está de la forma deseada, sin embargo, una revisión rápida nos deja ver qué $x – y$, $y-z$ y $z-x$ no son linealmente independientes en $(\mathbb{R}^3)^*$.

Primero desarrollemos todo

\begin{align*} q(x,y,z)= 2x^2+2y^2+2z^2 -2xy-2xz-2yz \end{align*}

Ahora sí hay «términos puros» pues en particular el coeficiente de $x^2$ no es cero.

En este caso hay que pensar a $q$ como polinomio de segundo grado en $x$ para completar un cuadrado:

\begin{align*} 2x^2+&2y^2+2z^2 -2xy-2xz-2yz\\
&= 2 \left( x- \frac{y+z}{2}\right)^2 – \frac{(y+z)^2}{2} + 2y^2 +2z^2-2yz \end{align*}

La demostración asegura que inductivamente los términos sin $x$ (en este caso $ – \frac{(y+z)^2}{2} + 2y^2 +2z^2-2yz$)se pueden escribir como una combinación cuadrática de formas lineales linealmente independientes. Es decir, a ese término ahora podemos aplicar nuevamente el procedimiento hasta llegar a un caso pequeño.

Sin embargo, para nuestra suerte, una pequeña manipulación muestra que
\begin{align*} – \frac{(y+z)^2}{2} + 2y^2 +2z^2-2yz = \frac{3}{2}(y – z)^2.\end{align*}

También, afortunadamente, $y-z$ es linealmente independiente con $x- \frac{y+z}{2}$. De este modo, una posible combinación cuadrática es la siguiente:

\begin{align*} q(x,y,z)= 2 \left( x- \frac{y+z}{2}\right)^2 + \frac{3}{2}(y – z)^2 \end{align*}

$\triangle$

El algoritmo

Con esto visto, podemos describir un algoritmo para encontrar una combinación cuadrática en 4 pasos.

  1. Desarrollar todos los términos $q$ si es necesario.
  2. Revisar qué forma tiene $q$ con respecto a los 3 casos que se vieron en la demostración.
  3. Reproducir el caso elegido de la demostración, dependiendo de la forma de $q$.
  4. Dentro de este paso, puede ser necesario repetir desde el paso 1.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Matrices positivas y congruencia de matrices

Por Diego Ligani Rodríguez Trejo

Introducción

Ya hablamos de las matrices asociadas a formas bilineales (y sesquilineales), y de formas cuadráticas (y cuadráticas hermitianas). Así mismo, tomamos un pequeño paréntesis para recordar qué es un producto interior y un espacio euclideano. Además, vimos las nociones análogas para el caso complejo.

Lo que haremos ahora es conectar ambas ideas. Extenderemos nuestras nociones de positivo y positivo definido al mundo de las matrices. Además, veremos que estas nociones son invariantes bajo una relación de equivalencia que surge muy naturalmente de los cambios de matriz para formas bilineales (y sesquilineales).

Congruencia de matrices

En las entradas de matrices de formas bilineales y matrices de formas sesquilineales vimos cómo obtener matrices asociadas a una misma forma bilineal (o sesquilineal) usando distintas bases. Dos matrices $A$ y $A’$ representaban a la misma forma bilineal en distintas bases si y sólo si existía una matriz de cambio de base $P$ tal que $$A’= \text{ }^tP A P,$$ en el caso real, o bien tal que $$A’=P^\ast A P,$$ en el caso complejo.

Definición. Sean $A$ y $B$ matrices simétricas en $M_n(\mathbb{R})$. Diremos que $A$ es congruente a $B$ si existe una matriz invertible $P$ en $M_n(\mathbb{R})$ tal que $$A=\text{ } ^tP B P.$$

Definición. Sean $A$ y $B$ matrices hermitianas en $M_n(\mathbb{C})$. Diremos que $A$ es congruente a $B$ si existe una matriz invertible $P$ en $M_n(\mathbb{C})$ tal que $$A=P^\ast B P.$$

Las definiciones anteriores están restringidas a las matrices simétricas (o hermitianas, respectivamente). Se podrían dar definiciones un poco más generales. Sin embargo, a partir de ahora nos enfocaremos únicamente a resultados que podamos enunciar para matrices simétricas (o hermitianas, respectivamente).

Proposición. La relación «ser congruentes» es una relación de equivalencia, tanto en el caso real, como en el caso complejo.

Demostración. Daremos la demostración en el caso real. El caso complejo queda como ejercicio. Empecemos con la reflexividad. Esto es claro ya que la matriz identidad $I_n$ es invertible y se tiene la igualdad

\begin{align*} A=\text{ } ^tI_nAI_n.\end{align*}

Para la simetría, supongamos que tenemos matrices $A$ y $B$ en $M_n(\mathbb{R})$ tales que $A$ es congruente a $B$ con la matriz invertible $P$ de $M_n(\mathbb{R})$, es decir, tales que

\begin{align*} A=\text{ } ^tPBP.\end{align*}

Como $P$ es invertible, su transpuesta también. De hecho, $(^tP)^{-1}=\text{ } ^t(P^{-1})$. Así, podemos multiplicar por la inversa de $^tP$ a la izquierda y la por la inversa de $P$ a la derecha para obtener

\begin{align*} ^t(P^{-1})AP^{-1}=B.\end{align*}

Esto muestra que $B$ es congruente a $A$.

Finalmente, veamos la transitividad. Supongamos que $A$ es congruente a $B$ mediante la matriz invertible $P$ y que $B$ es congruente a $C$ mediante la matriz invertible $Q$. Tendríamos entonces las igualdades

\begin{align*}
A&= \text{ }^t PBP,\\
B&= \text{ }^t QCQ,
\end{align*}

de donde $$A= \text{ }^tP \text{ }^tQCQP= \text{ }^t (QP) C (QP).$$ Esto muestra que $A$ es congruente a $C$ mediante la matriz $QP$, que como es producto de invertibles también es invertible.

$\square$

Clasificación de matrices simétricas por congruencia

¿Será posible para cualquier matriz simétrica encontrar una matriz congruente muy sencilla? La respuesta es que sí. El siguiente teorema puede pensarse como una versión matricial del teorema de Gauss.

Teorema. Cualquier matriz simétrica en $M_n(\mathbb{R})$ es congruente a una matriz diagonal.

Demostración. Sea $A$ una matriz simétrica en $M_n(\mathbb{R})$ y sea $q$ la forma cuadrática en $\mathbb{R}^n$ asociada a $A$ en la base canónica, es decir, aquella tal que $$q(X)=\text{ }^tXAX,$$ para cualquier vector $X\in \mathbb{R}^n$.

Lo que tenemos que hacer es encontrar una base de $\mathbb{R}^n$ en la cual la matriz asociada a $q$ sea diagonal. Haremos esto mediante el teorema de Gauss. Por ese resultado, existen reales $\alpha_1,\ldots,\alpha_r$ y formas lineales linealmente independientes $l_1,\ldots,l_r$ tales que $$q(x)=\sum_{i=1}^r \alpha_i l_i(x)^2.$$

Completemos $l_1,\ldots,l_r$ a una base $l_1,\ldots,l_n$ de $(\mathbb{R}^n)^\ast$. Tomemos la base $u_1,\ldots, u_n$ de $\mathbb{R}^n$ dual a $l_1,\ldots,l_n$. Esta es la base que nos ayudará. Recordemos que la definición de base dual hace que tengamos

\begin{align*} l_i(u_j)=
\begin{cases}
1\quad \text{ si $i=j$,}\\
0\quad \text{ si $i\neq j$,}
\end{cases}
\end{align*}

y que por lo tanto las funciones $l_i$ «lean» las coordenadas de un vector en la base de las $u_i$. Tomemos un vector cualquiera $x\in \mathbb{R}^n$ y escribámoslo en la base de las $u_i$ como $x=\sum_{i=1}^n x_iu_i$. Definiendo $\alpha_{r+1}=\ldots=\alpha_n=0$, tenemos que:

\begin{align*}
q(x)&= \sum_{i=1}^n \alpha _i l_i(x)^2\\
&= \sum_{i=1}^n \alpha_i x_i^2.
\end{align*}

Esto nos dice que la matriz asociada a $q$ con respecto a la base $u_1, \ldots, u_n$ es la matriz diagonal $D$ que tiene en la diagonal a los coeficientes $\alpha_i$. Esto muestra lo que queríamos.

$\square$

El teorema también tiene una versión compleja.

Teorema. Cualquier matriz hermitiana en $M_n(\mathbb{C})$ es congruente a una matriz diagonal.

La demostración es similar. Usa el teorema de Gauss complejo. Por esta razón, queda como ejercicio.

Estos resultados parecen una curiosidad algebraica. Sin embargo, pronto veremos que tienen consecuencias importantes como la clasificación de todos los productos interiores (y los productos interiores hermitianos).

Matrices positivas y positivas definidas

En entradas anteriores definimos qué quiere decir que una forma bilineal (o sesquilineal) sea positiva o positiva definida. Podemos dar una definición análoga para matrices. Nos enfocaremos sólo en matrices simétricas (en el caso real) y en matrices hermitianas (en el caso complejo).

Definición. Una matriz simétrica $A$ en $M_n(\mathbb{R})$ es positiva si para cualquier $X\in \mathbb{R}^n$ se tiene que $^tXAX\geq 0$. Es positiva definida si se da esta desigualdad y además la igualdad sucede sólo con $X=0$.

Definición. Una matriz hermitiana $A$ en $M_n(\mathbb{C})$ es positiva si para cualquier $X\in \mathbb{C}^n$ se tiene que $X^\ast AX\geq 0$. Es positiva definida si se da esta desigualdad y además la igualdad sucede sólo con $X=0$.

Es sencillo ver que entonces una matriz $A$ real (o compleja) que sea positiva definida da un producto interior (o bien un producto interior hermitiano) en $\mathbb{R}^n$ (o bien en $\mathbb{C}^n$) dado por $\langle X,Y\rangle = \text{ } ^tX A Y$, (o bien por $\langle X,Y\rangle = X^\ast A Y$). Y viceversa, un producto interior (o producto interior hermitiano) tiene representaciones matriciales que son positivas definidas. Esto no depende de la base elegida.

Proposición. Si $A,B \in M_n(\mathbb{R})$ son matrices congruentes y $A$ es una matriz positiva, entonces $B$ también lo es.

Demostración. Supongamos que la congruencia se da mediante la matriz invertible $P$ de la siguiente manera: $$B=\text{ }^t P A P.$$

Tomemos un vector $X\in \mathbb{R}^n$. Tenemos que:

\begin{align*}
^t X B X &= \text{ }^t X \text{ } ^t P A P X\\
&=\text{ } ^t(PX) A (PX)\\
&\geq 0.
\end{align*}

En la última igualdad estamos usando que $A$ es positiva. Esto muestra lo que queremos.

$\square$

Dicho en otras palabras, en el mundo real las congruencias preservan las positividades de matrices. También puede demostrarse que las congruencias preservan las positividades definitivas. Y así mismo, se tienen resultados análogos para el caso complejo. En la sección de ejercicios viene uno de estos resultados.

Clasificación de matrices positivas

Es sencillo ver si una matriz real diagonal $D$ es positiva. Todas las entradas en su diagonal deben de ser mayores o iguales a cero. En efecto, si su $i$-ésima entrada en la diagonal fuera un número $d_{ii}<0$, entonces para el $i$-ésimo vector canónico $e_i$ de $\mathbb{R}^n$ tendríamos $^te_i D e_i=d_{ii}<0$, lo cual sería una contradicción.

Combinando esto con todo lo hecho en esta entrada, obtenemos un teorema de clasificación de matrices positivas.

Teorema. Sea $A$ una matriz simétrica en $M_n(\mathbb{R})$. Las siguientes afirmaciones son equivalentes:

  1. $A$ es positiva.
  2. $A$ es congruente a una matriz diagonal con puras entradas mayores o iguales a cero.
  3. $A$ puede ser escrita de la forma $^tBB$ para alguna matriz $B\in M_n(\mathbb{R})$.

Demostración. 1) implica 2). Sabemos que $A$ es congruente a una matriz diagonal. Como $A$ es positiva, dicha matriz diagonal también lo es. Por el comentario antes del enunciado del teorema, dicha matriz diagonal debe tener únicamente entradas mayores o iguales que 0.

2) implica 3). Supongamos que $A=\text{ }^t P D P$, en donde $P$ es invertible y $D$ tiene únicamente entradas no negativas $d_1,\ldots,d_n$ en la diagonal. Definamos a $S$ como la matriz diagonal de entradas $\sqrt{d_1}, \ldots, \sqrt{d_n}$. Tenemos que $$D=S^2=SS=\text{ }^tSS.$$ De este modo, definiendo $B=SP$ obtenemos \begin{align*}A&= \text{ }^t P D P\\ &= ( \text{ }^t P \text{ }^t S) (SP) \\&= \text{ }^t (SP) SP \\&= \text{ }^t B B,\end{align*} como queríamos.

3) implica 1). Supongamos que $A= \text{ }^t B B$ para alguna matriz $B$. Para cualquier $X\in \mathbb{R}^n$ tendríamos que $$ \text{ }^t X A X = \text{ }^t (BX) BX = \norm{BX}\geq 0.$$ Aquí la norma es con respecto al producto interior canónico de $\mathbb{R}^n$. Esto es lo que queríamos.

$\square$

También existe un teorema análogo que clasifica las matrices positivas definidas.

Teorema. Sea $A$ una matriz simétrica en $M_n(\mathbb{R})$. Las siguientes afirmaciones son equivalentes:

  1. $A$ es positiva definida.
  2. $A$ es congruente a una matriz diagonal con puras entradas diagonales positivas.
  3. $A$ puede ser escrita de la forma $^tBB$ para alguna matriz $B\in M_n(\mathbb{R})$ invertible.

Y, así mismo, existen análogos para matrices hermitianas con entradas en los complejos.

Más adelante…

En esta entrada definimos la relación de congruencia de matrices. Vimos qué son las matrices positivas y las positivas definidas. Además, vimos que la congruencia preserva estas nociones.

Podemos ser mucho más finos con nuestro análisis. Si tenemos una matriz simétrica, por los resultados de esta entrada es congruente a una matriz diagonal. Podemos fijarnos en cuántas entradas positivas, cuántas negativas y cuántas cero hay en esta diagonal. En la siguiente entrada veremos que las congruencias también preservan estas cantidades.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. Demuestra que cualquier matriz hermitiana en $M_n(\mathbb{C})$ es congruente a una matriz diagonal.
  2. Demuestra que si $A$ es una matriz en $M_n(\mathbb{C})$ hermitiana y positiva definida, y $B$ es una matriz en $M_n(\mathbb{C})$ hermitiana y congruente a $A$, entonces $B$ también es positiva definida.
  3. Sea $n \geq 1$ y $A=[a_{ij}] \in M_n(\mathbb{R})$ definida por $a_{ij}=min(i,j)$, prueba que $A$ es simétrica y definida positiva.
  4. Sea $A=[a_{ij}] \in M_n(\mathbb{R})$ tal que $a_{ij}=1$ si $i \neq j$ y $a_{ii} > 1$ si $1 \leq i \leq n$. Prueba que $A$ es simétrica y definida positiva.
  5. Demuestra que una matriz hermitiana $A\in M_n(\mathbb{C})$ es positiva si y sólo si puede ser escrita de la forma $A=BB^\ast$ para alguna matriz $B\in M_n(\mathbb{C})$, y que es positiva definida si y sólo si tiene una expresión así con $B$ invertible.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Teorema de Sylvester

Por Diego Ligani Rodríguez Trejo

Introducción

En entradas anteriores estudiamos las formas bilineales y las cuadráticas. También vimos las matrices que las representan. Introdujimos una noción de congruencia de matrices relacionada con todo esto. Y vimos que la congruencia de matrices preserva una noción de positividad para matrices. Ahora daremos un paso más y veremos que de hecho la congruencia de matrices preserva más que sólo eso.

Para ello, introduciremos la noción de la signatura de una matriz. A grandes rasgos, esta noción nos dice «qué tan positiva» es una matriz simétrica. Para definir esta noción, lo haremos primero para las matrices diagonales. Luego lo definiremos para todas las matrices simétricas a través del teorema que demostramos la entrada anterior. Toda la discusión la haremos en el caso real. El caso complejo tiene sus versiones análogas, que quedarán descritas en los ejercicios.

Signatura de una matriz diagonal

Comenzamos con la siguiente definición.

Definición. Sea $A$ una matriz diagonal en $M_n(\mathbb{R})$. Sea $P$ la cantidad de entradas positivas en la diagonal y $N$ la cantidad de entradas negativas en la diagonal. A $(P,N)$ le llamamos la signatura de $A$.

En cierto sentido, la signatura generaliza tanto la noción de rango, como la noción de positividad y de positividad definida. Esto queda plasmado en las siguientes observaciones.

Observación. Una matriz diagonal ya está en forma escalonada reducida. Y el rango de una matriz en forma escalonada reducida coincide con la cantidad de renglones no cero. Así, si la signatura de una matriz diagonal es $(P,N)$, entonces su rango es $P+N$.

Observación. Por lo que vimos en la entrada anterior, una matriz diagonal en $M_n(\mathbb{R})$ es positiva si y sólo si ninguna de sus entradas diagonales es negativa. Esto pasa si y sólo si su signatura es de la forma $(k,0)$ para algún $0\leq k\leq n$.

Observación. Por un resultado análogo al de la entrada anterior, una matriz diagonal es $M_n(\mathbb{R})$ es positiva definida si y sólo si todas sus entradas diagonales son positivas. Esto pasa si y sólo si su signatura es $(n,0)$.

La signatura es invariante bajo congruencias

El resultado clave de esta entrada es el siguiente lema.

Lema. Sean $A$ y $B$ matrices diagonales en $M_n(\mathbb{R})$ congruentes entre sí. Entonces la signatura de $A$ y la de $B$ son iguales.

Demostración. Llamemos $(P,N)$ a la signatura de $A$ y $(Q,M)$ a la signatura de $B$.

Como $A$ y $B$ son congruentes, entonces representan a una misma forma cuadrática $q:\mathbb{R}^n\to \mathbb{R}$, pero quizás en diferentes bases. Sea $\alpha$ la base en la cual $q$ tiene matriz $A$ y $\beta$ la la base en la cual $q$ tiene matriz $B$. Sea $b$ la forma polar de $p$.

Como la signatura de $A$ es $(P,N)$, entonces $q$ es positivo (resp. negativo, cero) para $P$ (resp. $N$, $n-P-N$) elementos de la base $\alpha$. Tenemos algo análogo para $B$. Así, podemos llamar a las bases

\begin{align*}
\alpha&=\{a^+_1,\ldots,a^+_P,a^-_1,\ldots, a^-_N,a^0_1\ldots, a^0_{n-P-N}\},\\
\beta&= \{b^+_1,\ldots,b^+_Q,b^-_1,\ldots, b^-_M,b^0_1\ldots, b^0_{n-Q-M}\},\\
\end{align*}

en donde $q$ aplicado a alguno de estos elementos tiene el signo del superíndice.

Demostraremos que $P=Q$ por contradicción. Supongamos que no. Sin perder generalidad, $P>Q$. Consideremos $V$ el subespacio de $\mathbb{R}^n$ generado por los vectores $a^+_1,\ldots,a^+_P$ y $W$ el subespacio de $\mathbb{R}^n$ generado por los vectores $b^-_1,\ldots, b^-_M,b^0_1\ldots, b^0_{n-Q-M}.$ Estos espacios tienen dimensión $P$ y $n-Q$ respectivamente. Como $P>Q$, tenemos que $P+(n-Q)>Q+(n-Q)=n$. Así, los espacios $V$ y $W$ tienen intersección no trivial, y por lo menos hay un vector $v$ distinto de $0$ en $V\cap W$. ¿Cuánto vale $q(v)$?

Por un lado, $v$ está en $V$ así que es combinación lineal de elementos $a^+_i$: $$v=\sum_{i=1}^P r_i a^+_i.$$ De este modo:

\begin{align*}
q(v)=\sum_{i=1}^P r_i^2 q(a^+_i) + 2\sum_{i=1}^P\sum_{j=1}^P b(a^+_i,a^+_j).
\end{align*}

El primer sumando es positivo pues $q$ es positivo en todo $a^+_i$. El segundo sumando es cero pues cada término es $0$ por ser una entrada $(i,j)$ con $i\neq j$ de la matriz diagonal $A$. Así, $q(v)>0$.

Similarmente, $v$ está en $W$ así que es combinación lineal de elementos $b^-_i$ y elementos $b^0_i$, de donde se puede mostrar que $q(v)\leq 0$.

Hemos encontrado una contradicción que surgió de suponer $P\neq Q$, así que $P=Q$. De manera análoga se demuestra que $N=M$. Así, la signatura de $A$ y de $B$ debe ser la misma.

$\square$

Signatura para matrices simétricas

En la entrada anterior vimos que cualquier matriz simétrica en $M_n(\mathbb{R})$ es congruente a alguna matriz diagonal. Es posible que sea congruente a más de una matriz diagonal.

Definición. Sea $A$ una matriz simétrica en $M_n(\mathbb{R})$. Sea $D$ una matriz diagonal congruente a $A$. Definimos la signatura de $A$ como la signatura de $D$.

El lema de la sección anterior nos permite asegurarnos de que la siguiente definición está bien hecha. Si $A$ fuera congruente a dos matrices diagonales $D$ y $E$, entonces $D$ y $E$ serían congruentes entre sí. De este modo, la signatura de $A$ no cambia si la tomamos con respecto a $D$ o con respecto a $E$.

Pensemos que dos matrices $A$ y $B$ son congruentes entre sí. Sean $D$ y $E$ matrices diagonales congruentes a $A$ y $B$ respectivamente. Por transitividad, $D$ y $E$ son congruentes, así que tienen la misma signatura. Así, $A$ y $B$ tienen la misma signatura.

Una última observación es la siguiente. Si $A$ y $B$ son simétricas y congruentes entre sí, entonces están relacionadas mediante un producto con matrices invertibles. Como el producto por matrices invertibles no afecta el rango, concluimos que $A$ y $B$ tienen el mismo rango. Juntando esto con observaciones anteriores, una matriz simétrica $A$ de signatura $(P,N)$ tiene rango $P+N$.

Resumimos todo esto en el siguiente resultado.

Proposición. Sean $A$ y $B$ matrices simétricas.

  • Si la signatura de $A$ es $(P,N)$, entonces su rango es $P+N$.
  • Si $A$ y $B$ son congruentes, entonces tienen la misma signatura. En particular:
    • Tienen el mismo rango.
    • Si una es positiva, la otra también lo es.
    • Si una es positiva definida, la otra también lo es.

El teorema de Sylvester

Enunciemos las versiones análogas a lo anterior en términos de formas cuadráticas. Comencemos con el teorema de Gauss. Tomemos una forma cuadrática $q$ de $\mathbb{R}^n$ y escribámosla como $$q=\sum_{i=1}^r a_i l_i^2$$ con $a_1,\ldots,a_r$ reales y $l_1,\ldots,l_r$ formas lineales linealmente independientes.

Podemos quitar todos los términos con $a_i=0$ sin afectar la igualdad. Además, si $a_i$ es positivo podemos factorizarlo en $l_i^2$ para definir $m_i=(\sqrt{a_i}l_i)^2$, y si $a_i$ es negativo podemos factorizar $-a_i$ en $l_i^2$ para obtener $m_i=(\sqrt{-a_i}l_i)^2$. En otras palabras, de cualquier expresión de Gauss podemos llegar a una de la forma $$q=\sum_{i=1}^r \epsilon_i m_i^2,$$

en donde los $\epsilon_i$ son $1$ o $-1$. Si tenemos $P$ valores de $\epsilon_i$ iguales a $1$ y $N$ valores de $\epsilon_i$ iguales a $-1$ diremos que la signatura de $q$ es $(P,N)$ y que el rango de $q$ es $P+N$.

¿Por qué esto está bien definido? Porque ya vimos que cada forma de Gauss de $q$ da una base en la cual la matriz que representa a $q$ es diagonal. Las entradas de la diagonal son los coeficientes de la forma de Gauss. Dos matrices que salen así son congruentes, así que por el lema de la sección anterior tienen la misma signatura. Esto garantiza que en ambas expresiones de Gauss de las de arriba hay la misma cantidad de $1$s y $-1$s.

El gran resumen de todo esto es el siguiente teorema.

Teorema (ley de inercia de Sylvester). Sea $q$ una forma cuadrática de $\mathbb{R}^n$. Entonces existen $\epsilon_1,\ldots,\epsilon_r$ iguales a $1$ o a $-1$ y formas lineales $l_1,\ldots,l_r$ linealmente independientes tales que $$q=\sum_{i=1}^r \epsilon_i l_i^2.$$

Cualesquiera dos expresiones de este estilo tienen la misma cantidad de coeficientes positivos, y la misma cantidad de coeficientes negativos.

Dato curioso: ¿Por qué ley de inercia?

En esta entrada nos hemos referido al teorema de Sylvester de dos maneras intercambiables: teorema de Sylvester y ley de inercia de Sylvester. La intuición diría que quizás existe alguna relación con la física. Quizás es porque algún uso especial de este teorema lo hace importante para el cálculo de la inercia. Esto no es así.

El nombre, curiosamente, viene de esta frase de Sylvester:

Este número constante de signos positivos que se asocian a una función cuadrática bajo cualquier transformación […] puede ser llamado, convenientemente, su inercia, hasta que una mejor palabra sea encontrada.

J. J. Sylvester, On the Theory of the Syzygetic Relations… (1853)

Aparentemente no se encontró una mejor palabra y ahora es el térimo que se usa. Interpretando un poco lo que dice Sylvester, la inercia se refiere a la resistencia de un cuerpo de cambiar de estado. Así, tal vez Sylvester pensó en la «resistencia a cambiar» de la signatura de una forma cuadrática bajo cambios de base.

Más adelante…

Hay mucha más teoría que se puede enunciar y demostrar para formas cuadráticas en general. Por ahora detendremos nuestra exploración hasta aquí, y ya sólo nos enfocaremos en las formas bilineales simétricas y positivas, es decir, en los productos interiores. Queremos enunciar y demostrar varios resultados para espacios con producto interior y para espacios euclideanos.

Dos conceptos que estudiaremos a continuidad son el de dualidad y el de ortogonalidad. Esto nos abrirá las puertas a entender correctamente algunos tipos de transformaciones lineales muy importantes, como las transformaciones simétricas, las normales y las ortogonales.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, ayudan para repasar los conceptos vistos en esta entrada.

En los siguientes ejercicios, usa el algoritmo de Gauss para escribir cada forma como combinación cuadrática de formas lineales linealmente independientes. Además encuentra su rango y signatura.

  1. Encuentra el rango y la signatura de la forma cuadrática$q : \mathbb{R}^4 \rightarrow \mathbb{R}$ dada por
    \begin{align*} q(x,y,z,t)= xy + yz + zt+tx. \end{align*}
  2. Completa algunos detalles faltantes en las demostraciones anteriores. Por ejemplo:
    1. ¿Por qué las formas $m_i$ de la discusión del teorema de Sylvester son linealmente independientes?
    2. ¿Por qué son análogas las demostraciones faltantes en el lema que demostramos?
  3. Demuestra que cualquier matriz simétrica es congruente a una matriz diagonal cuya diagonal es de la forma $1,\ldots,1,-1\ldots,-1,0,\ldots,0$.
  4. Enuncia y demuestra un resultado análogo al lema principal de esta entrada, pero para matrices con entradas complejas. Recuerda que en este caso debes usar matrices hermitianas y las congruencias son a través de usar una matriz invertible y su traspuesta conjutada.
  5. Enuncia y demuestra una ley de inercia de Sylvester para formas cuadráticas hermitianas.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Teorema de Gauss

Por Diego Ligani Rodríguez Trejo

Introducción

En la entrada anterior vimos un recordatorio de las formas bilineales, cuadráticas y sus polares. En esta entrada continuaremos recordando algunas propiedades vistas previamente enfocándonos en el teorema de Gauss y su demostración. Esto nos dará una pequeña pista de la relación entre las formas cuadráticas y matrices.

Además, con el teorema de Gauss obtendremos un algoritmo para poder escribir cualquier forma cuadrática en una forma estandarizada. Esto nos llevará más adelante a plantear la ley de inercia de Sylvester.

Preparaciones para el teorema de Gauss

Antes de empezar con el teorema, veamos una propiedad de las formas cuadráticas en $\mathbb{R}^n$. Tomemos $e_1,\ldots, e_n$ la base canónica de $\mathbb{R}^n$. Tomemos $q$ una forma cuadrática de $\mathbb{R}^n$ y $b$ su forma polar.

Cualquier vector $x=(x_1,\ldots,x_n)$ de $\mathbb{R}^n$ se escribe como $ (x_1,\ldots,x_n)=\sum_{i=1}^n x_i e_i$. Por lo que hicimos en la entrada anterior tenemos entonces:

$$q(x)=b(x,x)=\sum_{i=1}^n \sum_{j=1}^n x_i x_j b(e_i, e_j).$$

Para simplificar la notación definamos $a_{ij}:=b(e_i,e_j)$. Podemos «ver» todos los sumandos en la siguiente expresión:

\begin{align*} q(x)& =x_1^2a_{11}+ x_1x_2a_{12} + \dots + x_1x_na_{1n} \\
&+x_2x_1a_{21}+ x_2^2a_{22} + \dots +x_2x_na_{2n} \\
&\vdots \qquad \qquad \qquad \qquad \qquad \qquad \\
&+x_nx_1a_{n1} + x_nx_2a_{n2} + \dots + x_n^2 a_{nn} \end{align*}

Aquí hay algunos términos «puros» de la forma $a_{ii}x_i^2$. Se encuentran en la «diagonal». Tenemos también algunos términos «mixtos» de la forma $a_{ij}x_ix_j$ con $i\neq j$. Por la simetría de $b$, en los términos mixtos tenemos $a_{ij}=a_{ji}$. Al separar en términos puros y mixtos obtenemos entonces la siguiente expresión:

\begin{align}q(x)= \sum_{i=1}^na_{ii}x_i^2+ 2\sum_{1 \leq i < j \leq n} a_{ij} x_i x_j .\end{align}

Usaremos esto más abajo.

Teorema de Gauss de formas cuadráticas

Teorema. Sea $q$ una forma cuadrática en $V=\mathbb{R}^n$. Existen reales $\alpha_1, \dots , \alpha_r $ y formas lineales $l_1, \dots l_r$ de $V$ linealmente independientes tales que, para todo $x \in V$ se tiene
$$q(x)= \sum_{i=1}^r \alpha _i (l_i(x))^2.$$

Recordemos que la independencia lineal de las formas $l_1,\ldots,l_r$ sucede en el espacio dual $V^*$.

Demostración. Procedamos por inducción sobre $n$. De la igualdad $(1)$, cuando $n=1$ la forma cuadrática es de la forma $q(x)=a_{11}x_1^2$. Al definir $\alpha_1=a_{11}$ y $l_1(x)=x_1$ obtenemos la forma deseada.

Supongamos que el teorema se cumple para $n-1$. De la igualdad $(1)$ sabemos que $q$ se puede escribir como sigue:

\begin{align*} q(x)= \sum_{i=1}^n a_{ii} x_i^2 + 2\sum_{1 \leq i < j \leq n} a_{ij} x_ix_j. \end{align*}

Tenemos tres posibilidades:

  • Que todos los $a_{ii}$ y todos los $a_{ij}$ sean cero. Este caso es inmediato pues entonces $q$ es la forma cuadrática cero y podemos tomar $l_1(x)=x_1$ y $\alpha_1=0$.
  • Que algún $a_{ii}$ sea distinto de cero.
  • Que todos los $a_{ii}$ sean cero, pero algún $a_{ij}$ sea distinto de cero.

Hagamos cada uno de los últimos dos casos por separado. Comencemos por el caso en el que algún $a_{ii}$ es distinto de cero. Sin pérdida de generalidad (¿por qué?) podemos suponer que es $a_{nn}$.

Apartando los términos que tienen $x_n$ de los que no obtenemos:

\begin{align*} \sum_{i=1}^n a_{ii}x_i^2=a_{nn} x_n^2 + \sum_{i=1}^{n-1} a_{ii} x_i^2. \end{align*}

y

\begin{align*} 2\sum_{1 \leq i < j \leq n} a_{ij}x_ix_j= 2\left(\sum_{i=1}^{n-1} a_{in} x_i\right)x_n + 2\sum_{1 \leq i < j \leq n-1} a_{ij}x_ix_j\end{align*}

Con esto

\begin{align*} q(x)=a_{nn}x_n^2 + 2\left(\sum_{i=1}^{n-1} a_{in} x_i\right)x_n + \sum_{i=1}^{n-1} a_{ii} x_i^2 + 2\sum_{1 \leq i < j \leq n-1} a_{ij}x_ix_j .\end{align*}

Si bien esta expresión se ve complicada, en realidad podemos pensar que en términos de la variable $x_n$ es «simplemente una cuadrática». Basados en los primeros dos términos podemos completar un binomio al cuadrado como sigue:

\begin{align*} q(x)= a_{nn} \left(x_n+\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i \right)^2- a_{nn}\left(\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i \right)^2 + \sum_{i=1}^{n-1} a_{ii}x_i^2+2\sum_{1 \leq i < j \leq n-1} a_{ij}x_ix_j.\end{align*}

Notemos que la expresión

\begin{align*} – a_{nn}\left(\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i \right)^2 + \sum_{i=1}^{n-1} a_{ii}x_i^2+2\sum_{1 \leq i < j \leq n-1} a_{ij}x_ix_j \end{align*}

ya no tiene a la variable $x_n$ y que de hecho es una forma cuadrática en las variables $x_1,\ldots, x_{n-1}$ (¿por qué?). De este modo, podemos aplicarle hipótesis inductiva para obtener que existen escalares $\alpha_1,\ldots, \alpha_r$ y formas lineales $l’_1,\ldots,l’_r$ linalmente independientes de $\mathbb{R}^{n-1}$ tales que

\begin{align*} q'(x_1,\dots , x_{n-1})= \sum_{i=1}^r \alpha_i (l_i'(x))^2.\end{align*}

Si bien estas $l’_i$ son formas lineales de $\mathbb{R}^{n-1}$, también podemos pensarlas como formas lineales de $\mathbb{R}^n$. Formalmente, tomamos $l_i:\mathbb{R}^n\to \mathbb{R}$ dada por $l_i(x_1,\ldots,x_n)=l’_i(x_1,\ldots,x_{n-1})$. Para finalizar, definimos

\begin{align*} l_{r+1}(x_1, \dots , x_n)= x_n+\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i \text{,} \qquad \alpha_{r+1}=a_{nn}.\end{align*}

De aquí, obtenemos la expresión deseada para $q$:

\begin{align*} q(x)= \sum_{i=1}^{r+1} \alpha_i (l_i(x))^2 \end{align*}

Falta argumentar por qué las $l_i$ son linealmente independientes. Si una combinación lineal de ellas da cero, como $l_{r+1}$ es la única que involucra a $x_n$, entonces su coeficiente debe ser cero. Así, obtendríamos una combinación lineal de $l_1,\ldots,l_r$ igualada a cero. Pero esta es una combinación lineal de $l’_1,\ldots,l’_r$. Por hipótesis inductiva, estas son linealmente independientes así que todos los coeficientes deben ser cero.

Lo anterior termina el caso para cuando hay algún «término puro». Falta el caso en el que todos los «términos puros» tienen coeficiente cero, pero hay por lo menos un «término mixto». Por la igualdad $(1)$ tenemos que la forma cuadrática se ve así:

\begin{align*}q(x)= 2\sum_{1 \leq i < j \leq n} a_{ij} x_i x_j .\end{align*}

Sin pérdida de generalidad podemos suponer que el término mixto que no es cero es el $a_{n-1,n}$ (¿por qué?). La idea es ahora separar a los términos que tienen $x_{n-1}$ ó $x_n$ de los que no, y utilizar la siguientes identidades algebraicas que se valen para cualesquiera $A,B,C, D, E$ (haz las cuentas):

\begin{align} Ax_{n-1}x_n+Bx_{n-1}+Cx_n=A\left(x_{n-1}+\frac{C}{A}\right) \left(x_n+\frac{B}{A}\right)-\frac{BC}{A},\end{align}

\begin{align} DE= \frac{1}{4}(D+E)^2 – \frac{1}{4} (D-E)^2.\end{align}

Al realizar la separación nos queda:

\begin{align*} q(x)= 2a_{n-1,n}x_{n-1}x_n +2\sum_{i=1}^{n-2}a_{in}x_ix_n+ 2\sum_{i=1}^{n-2}a_{i,n-1}x_ix_{n-1} + 2\sum_{1 \leq i < j \leq n-2} x_i x_j a_{ij}. \end{align*}

Así, podemos usar la identidad $(2)$ con los siguientes valores

\begin{align*}
A &=2a_{n-1.n},\\
B&=2\sum_{i=1}^{n-2}a_{i,n-1}x_i,\\
C&=2\sum_{i=1}^{n-2}a_{i,n}x_i
\end{align*}

para obtener que $q$ es:

\begin{align*} A\left(x_{n-1}+\frac{C}{A}\right) \left(x_n+\frac{B}{A}\right)-\frac{BC}{A} + 2\sum_{1 \leq i < j \leq n-2} x_i x_j a_{ij} \end{align*}

Al primer sumando podemos reescribirlo usando la identidad $(3)$ como

\begin{align*}\frac{A}{4}\left(x_{n-1}+x_n+\frac{B+C}{A}\right)^2-\frac{A}{4}\left( x_{n-1}-x_n-\frac{B-C}{A}\right)^2 \end{align*}

A la expresión conformada por los últimos dos sumandos le podemos aplicar hipótesis inductiva (¿por qué?) para escribirla de la forma \begin{align*} q'(x_1, \dots , x_{n-2})= \sum_{i=1}^r \alpha’_i (l’_i(x_1, \dots , x_{n-2}))^2 \end{align*} con $l’_1,\ldots, l’_r$ formas lineales linealmente independientes de $\mathbb{R}^{n-2}$. Como en el caso anterior, podemos «convertir» estas formas lineales a formas lineales $l_1,\ldots,l_r$ en $\mathbb{R}^n$. Al agregar las siguientes dos formas lineales

\begin{align*}
l_{r+1}(x)&= x_{n-1}+x_n+\frac{B+C}{A}\\
l_{r+2}(x)&= x_{n-1}-x_n-\frac{B-C}{A}
\end{align*}

y tomar $\alpha_{r+1}=\frac{A}{4}$, $\alpha_{r+2}=-\frac{A}{4}$, obtenemos la expresión deseada:
\begin{align*} q(x)= \sum_{i=1}^{r+2} \alpha_i (l_i(x))^2. \end{align*}

La demostración de que en efecto $l_1,\ldots,l_{r+2}$ son linealmente independientes queda como ejercicio.

Así por principio de inducción tenemos que el teorema de Gauss se cumple para cualquier forma cuadrática $q$ en $\mathbb{R}^n$ para todo $n\geq 1$ entero.

$\square$

Más adelante…

Debido a la longitud de esta demostración, los ejemplos serán reservados para la siguiente entrada.

Las formas cuadráticas, aunque interesantes, muestran estar limitadas por cómo las definimos, ya que se definen sólo en espacios vectoriales reales. En las siguientes entradas expandiremos un poco esta definición para también abarcar al menos espacios vectoriales complejos y luego nos enfocaremos en un tipo especial de éstas.

Además, al principio de la entrada se dieron pistas a que existe una relación entre formas bilineales y matrices, esto será explorado posteriormente.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. Sea $q$ una forma cuadrática en $\mathbb{R}^n$ y $x=(x_1, \dots, x_n)$. Muestra que \begin{align*} q(x)=\sum_{i,j=1}^na_{ij}x_ix_j \text{ con } a_{ij}=b(e_i,e_j). \end{align*}
  2. Sea $A$ la matriz con entradas $a_{ij}$ dadas en el problema anterior. ¿Qué podrías afirmar acerca de $A$ sin importar la $q$ elegida?
  3. Sea $A=[a_{ij}]$ una matriz simétrica en $M_n(\mathbb{R})$ y definamos
    \begin{align*} q: \mathbb{R}^n \rightarrow \mathbb{R} \text{ dada por } q(x)=\sum_{i,j=1}^na_{ij}x_ix_j \end{align*} ¿Es $q$ así definida una forma cuadrática? ¿Es necesario que $A$ sea simétrica?
  4. Demuestra que las formas lineales definidas en el segundo caso de la demostración del teorema de Gauss en efecto son linealmente independientes.
  5. Sean $\alpha _1, \dots , \alpha_r $ números reales y $l_1 , \dots , l_r$ formas lineales, linealmente independientes en $\mathbb{R}^n$ y $x \in \mathbb{R}^n$. Definamos $q$ como sigue:
    \begin{align*} q(x)=\sum_i^n \alpha_i l_i(x)\end{align*}
    ¿Es $q$ así definida una forma cuadrática en $\mathbb{R}^n$?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»