Archivo de la etiqueta: álgebra lineal

Álgebra Lineal II: Formas sesquilineales

Por Diego Ligani Rodríguez Trejo

Introducción

Como mencionamos anteriormente, las formas bilineales que hemos estudiado son restringidas en el sentido de que sólo pueden ser definidas en espacios vectoriales sobre los reales. En este curso estudiaremos una noción muy relacionada, que en algunos sentidos extiende lo que hemos visto a espacios vectoriales sobre los complejos.

Probablemente en estas entradas tengas una sensación de ya haber visto todo. Como un déjà vu. Es bastante normal. Los resultados son casi análogos a los del caso real. Sin embargo, hay algunas diferencias importantes en las que haremos énfasis.

Formas sesquilineales

La palabra «bilineal» tiene que ver con que ambas entradas de una forma bilineal son lineales. ¿A qué se refiere «sesquilineal»? La raíz latina sesqui que significa uno y medio, y precisamente veremos esto reflejado en la definición.

Definición. Sea $V$ un espacio vectorial sobre $\mathbb{C}$. Una forma sesquilineal en $V$ es una función $\varphi: V \times V \rightarrow \mathbb{C} $ tal que:

  • Para cualesquiera $x_1,x_2,y \in V$ y para cualquier $\lambda \in \mathbb{C}$, se tiene que $$\varphi (\lambda x_1+x_2, y) = \overline{\lambda} \varphi (x_1,y)+ \varphi(x_2 , y).$$
  • Para cualesquiera $y_1,y_2,x \in V$ y para cualquier $\lambda \in \mathbb{C}$, se tiene que $$\varphi (x,\lambda y_1+y_2) = \lambda\varphi (x,y_1)+ \varphi(x, y_2).$$

De esta manera, la «media» linealidad se refiere a que en la primera entrada de $\varphi$ las sumas sí se abren, pero los escalares «salen conjugados». Debido a esto, no es tan común que una forma sesquilineal sea simétrica. Sin embargo, tenemos una noción similar que resultará fundamental.

Definición. Una forma sesquilineal $\varphi$ se llamará hermitiana si $\overline{ \varphi(y,x) }= \varphi(x,y)$ para cualesquiera $x, y \in V$.

Como comentario, en algunos contextos las formas sesquilineales son lineales en la primer coordenada y semi-lineales en la segunda. Asegúrate de verificar la definición cada que cambies de contexto. A las formas sesquilineales hermitianas también se les conoce como conjugadas simétricas.

Propiedades de formas sesquilineales

Las formas sesquilineales son parecidas a las formas bilineales en el sentido de que basta saber cómo son en parejas de elementos de una base para conocerlas por completo. De hecho, como en el caso de formas bilineales tenemos un resultado un poco más general. Sin embargo, ten cuidado. Observa que todo el tiempo debemos cuidar que los escalares de la primera entrada salen conjugados.

Proposición. Sea $V$ un espacio vectorial sobre $\mathbb{C}$. Sean $m,n$ enteros positivos, $a_1, \cdots a_n, b_1, \cdots b_m$ vectores en $V$, $\lambda_1, \cdots \lambda_n, \mu_1, \cdots \mu_m$ números complejos y $\varphi$ una forma sesquilineal. Se cumple que:
\begin{align*}
\varphi\left(\sum_{i=1}^n \lambda_ia_i , \sum_{j=1}^m\mu_jb_j\right)=\sum_{i=1}^n\sum_{j=1}^m\overline{\lambda_i}\mu_j\varphi(a_i,b_j)
\end{align*}

La demostración queda como ejercicio. Usando esta proposición se puede demostrar un resultado en términos de bases.

Proposición. Sea $V$ un espacio vectorial sobre $\mathbb{C}$ de dimensión $n$ y $e_1,\ldots,e_n$ una base de $V$. Sean $a_{ij}$ números complejos para $i,j=1,\ldots,n$. Existe una y sólo una forma sesquilineal $\varphi:V\times V\to \mathbb{C}$ tal que $\varphi(e_i,e_j)=a_{ij}$.

Los espacios de formas sesquilineales y hermitianas

Dado un espacio vectorial complejo $V$, podemos definir los siguientes dos conjuntos, de todas las formas sesquilineales y todas las formas hermitianas, respectivamente:

\begin{align*} S(V) &:= \{ \varphi: V \times V \rightarrow \mathbb{C} \; | \; \varphi \text{ es sesquilineal} \}\\
H(V) &:= \{ \varphi \in S(V) \; | \; \varphi \text{ es hermitiana}\}
\end{align*}
Los conjuntos son no vacíos, pues la función constante $0$ es forma sesquilineal y hermitiana.

De manera análoga a lo que sucedía con las formas bilineales, el conjunto $S(V)$ es un subespacio vectorial del espacio complejo de todas las funciones de $V \times V $ en $\mathbb{C}$. Esto puedes verificarlo por tu cuenta. Sin embargo, $H(V)$ no es un subespacio vectorial de dicho subespacio. De hecho, ni siquiera es un espacio vectorial sobre $\mathbb{C}$. En los problemas puedes encontrar un contraejemplo de que sea cerrado bajo multiplicación escalar.

Sin embargo, no todo está perdido. Podemos pensar a $S(V)$ como un espacio vectorial sobre los reales. Simplemente limitamos los productos escalares a números reales. En este contexto, resulta que $H(V)$ sí es un subespacio de $S(V)$ (y por lo tanto un espacio vectorial sobre $\mathbb{R}$). Veamos esto.

Proposición. El conjunto $H(V)$ es un subespacio vectorial de $S(V)$, pensando a este último como espacio vectorial sobre $\mathbb{R}$.

Demostración. Sabemos que $H(V) \subseteq S(V)$ y que ambos son distintos del vacío, así que basta probar que $H(V)$ es cerrado bajo la suma y multiplicación por escalares reales.

Sean $\varphi_1, \varphi_2 \in H(V)$, $x,y \in V$ y $\lambda \in \mathbb{R}$. Sabemos por cómo está definida la suma que

\begin{align*} (\varphi_1 + \varphi_2) (x,y)= \varphi_1(x,y) + \varphi_2 (x,y) \end{align*}

Además, como $\varphi_1, \varphi_2 \in H(V)$, tenemos que

\begin{align*} \varphi_1(x,y) &= \overline{\varphi_1(y,x)}\\\varphi_2(x,y) &= \overline{\varphi_2(y,x)} \end{align*}

por lo que

\begin{align*} (\varphi_1 + \varphi_2) (x,y) &= \overline{\varphi_1(y,x)} + \overline{\varphi_2(y,x)}\\&= \overline{ (\varphi_1+\varphi_2) (y,x) }
\end{align*}

De aquí se concluye que $\varphi_1 + \varphi_2 \in H(V)$.

Para la multiplicación tenemos la siguiente cadena de igualdades, en donde estamos usando $\overline(\lambda)=\lambda$ (¿por qué?):

\begin{align*}
(\lambda \varphi_1) (x,y) &= \lambda (\varphi_1(x,y))\\
&=\lambda (\overline{ \varphi_1(y,x)})\\
&= \overline{\lambda\varphi_1(y,x)}
\end{align*}

Se concluye que $\lambda \varphi_1 \in H(V)$.

Con las dos propiedades mostradas basta para afirmar que $H(V)$ es un subespacio vectorial de $S(V)$ como espacio vectorial sobre $\mathbb{R}$.

$\square$

El espacio $H(V)$ no es únicamente un subespacio de $S(V)$. De hecho es un subespacio importante, pues nos permite escribir a $S(V)$ fácilmente como suma directa de dos subespacios.

Proposición. Sea $V$ un espacio vectorial sobre $\mathbb{C}$. Tomemos a $S(V)$ como espacio vectorial sobre $\mathbb{R}$. Tenemos la siguiente descomposición: $$S(V)=H(V)\oplus iH(V).$$

Un recordatorio de la suma directa lo puedes encontrar aquí.

Demostración. Empecemos probando que $S(V)$ efectivamente se puede descomponer como la suma de $H(V)$ e $iH(V)$.
Para esto, basta demostrar que cualquier forma sesquilineal se puede expresar como suma de una forma hermitiana e $i$ veces otra forma hermitiana. Para ello, dada $\varphi \in S(V)$ definimos $h_1, h_2$ como sigue:

\begin{align*} h_1(x,y)&=\frac{\varphi(x,y)+ \overline{\varphi(y,x)}}{2}\\h_2(x,y)&=\frac{\varphi(x,y)- \overline{\varphi(y,x)}}{2i}\end{align*}

Claramente $\varphi=h_1+ih_2$, así que basta mostrar que $h_1$ y $h_2$ son hermitianas. Lo haremos para $h_2$ y $h_1$ quedará como ejercicio.

Tomemos cualesquiera $x,y$ en $V$. Calculemos $\overline{h_2(y,x)}$:

\begin{align*}
\overline{h_2(y,x)}=\overline{\left(\frac{\varphi(y,x)- \overline{\varphi(x,y)}}{2i}\right)} \end{align*}

Nota que se cumple la siguiente identidad:
\begin{align*} \frac{\varphi(y,x)- \overline{\varphi(x,y)}}{2i}=\frac{-\varphi(y,x)i+ \overline{\varphi(x,y)}i}{2} \end{align*}

Así,

\begin{align*} \overline{h_2(y,x)}=\overline{\left(\frac{-\varphi(y,x)i + \overline{\varphi(x,y)}i}{2}\right)}\end{align*}

Además, para cualquier $c \in \mathbb{C}$ tenemos que $\overline{ci}=-\overline{c}i$, por lo que

\begin{align*} \overline{h_2(y,x)}= \frac{\overline{\varphi (y,x)}i -\varphi (x,y)i}{2}\end{align*}

Finalmente multiplicando por $\frac{i}{i}:$

\begin{align*} \overline{h_2(y,x)}&= \frac{-\overline{\varphi (y,x)} + \varphi (x,y)}{2i}\\&=\frac{ \varphi (x,y)- \overline{ \varphi (y,x)}}{2i}\\&=h_2(x,y) \end{align*}

Concluimos que $h_2 \in H(V)$. Hasta ahora, hemos mostrado que $$S(V)=H(V)+iH(V).$$ Demostrar que $H(V)$ y $iH(V)$ están en posición de suma directa es más sencillo.

Sea $h \in H(V) \cap iH(V)$. En particular $h \in iH(V)$ por lo que existe $h_1 \in H(V)$ tal que $h=ih_1$ así, para cualesquiera $x,y \in \mathbb{C}$

\begin{align*} h(x,y)&=\overline{h(y,x)}\\&=\overline{ih_1(y,x)}\\&=-i\overline{h_1(y,x)}\\&=-ih_1(x,y)\\&=-h(x,y).\end{align*}

De esta cadena concluimos que $h(x,y)=-h(x,y)$ y sabemos que el único complejo que cumple esto es el $0$. Por lo tanto $h(x,y)=0$, así que $h=0$ y entonces $H(V) \cap iH(V)= \{ 0 \}$. Esto es suficiente para saber qué $H(V)$ y $iH(V)$ están en posición de suma directa. Concluimos que
\begin{align*} S(V)= H(V) \oplus iH(V).\end{align*}

$\square$

Más adelante…

En esta entrada definimos a las formas sesquilineales como un análogo en $\mathbb{C}$ a las formas bilineales. Como es de esperarse, también definiremos un análogo a las formas cuadráticas. Las «nuevas» formas cuadráticas que definiremos también tendrán su teorema de Gauss.

Un poco después de eso podremos hablar de las formas matriciales para formas bilineales y para formas sesquilineales.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. Muestra que $H(V)$ en general no es un espacio vectorial sobre $\mathbb{C}$. Para ello, muestra que si $V$ es $\mathbb{C}^2$ y $\varphi((x_1,x_2),(y_1,y_2))=\overline{x_1}x_1+\overline{x_2}y_2$, entonces $\varphi$ es hermitiana, pero $i\varphi$ no lo es.
  2. Demuestra la proposición sobre aplicar una forma sesquilineal en combinaciones lineales.
  3. Demuestra la proposición sobre formas sesquilineales y bases. En ese contexto, ¿cómo deben ser los $a_{ij}$ para que la forma sea hermitiana?
  4. Sea $\varphi$ una forma hermitiana en un espacio vectorial complejo $V$. Demuestra que:
    • Para todo $x\in V$ la expresión $\varphi(x,x)$ es un número real.
    • Para todo $x\in V$ y $a\in \mathbb{C}$ se tiene que $\varphi(ax,ax) = |a|^2\varphi(x,x)$.
  5. En el contexto de la proposición de descomposición de $S(V)$ como suma directa de $H(V)$ y $iH(V)$, demuestra que $h_1$ es hermitiana.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Transformaciones normales, simétricas y antisimétricas

Por Ayax Calderón

Introducción

A partir de la noción de adjunción que definimos en la entrada anterior, es posible definir ciertos tipos especiales de transformaciones lineales: las transformaciones normales, las simétricas y las antisimétricas.

Primero veremos las transformaciones lineales simétricas y antisimétricas. Estos nombres quizás te recuerden a las matrices simétricas y antisimétricas. Existe una relación importante entre ambos conceptos, aunque no es tan directo enunciarla. Veremos esto con calma.

Después, hablaremos de las transformaciones normales. Este tipo de transformaciones están motivadas por la pregunta de qué sucede cuando una transformación conmuta con su adjunta. Definiremos esto de manera adecuada y demostraremos algunas propiedades que cumplen las transformaciones normales.

En esta entrada $V$ es un espacio euclidiano. En particular, estaremos trabajando únicamente en espacios vectoriales sobre los reales. Más adelante discutiremos los análogos complejos de los resultados que veremos.

Transformaciones simétricas y antisimétricas

Comencemos con las siguientes dos definiciones.

Definición. Sea $V$ un espacio euclideano con producto interior $\langle \cdot, \cdot \rangle$. Sea $T:V\to V$ una transformación lineal. Diremos que $T$ es:

  • Simétrica o auto-adjunta si $T^*=T$.
  • Antisimétrica o alternante si $T^*=-T$.

Tal vez estos nombres te parezcan familiares. El siguiente problema nos ayudará a explicar la relación entre las transformaciones simétricas y las matrices que llevan el mismo nombre.

Problema. Sea $V$ un espacio euclideano con producto interior $\langle \cdot, \cdot \rangle$. Sea $T:V\to V$ una transformación lineal simétrica. Sea $A$ la forma matricial de $T$ en alguna base ortonormal de $T$. Demuestra que $A$ es una matriz simétrica.

Solución. Por una proposición de la entrada anterior, por elegir una base ortonormal se tiene que la matriz correspondiente a $T^\ast$ es $^t A$. Pero como $T$ es una matriz simétrica, se tiene que $T^\ast=T$. De este modo, $^t A= A$, y por lo tanto $A$ es una matriz simétrica.

$\square$

Sucede algo análogo con las matrices antisimétricas, lo cual queda como tarea moral.

Transformaciones normales

Introduzcamos una definición más.

Definición. Sea $V$ un espacio euclidiano y $T:V\to V$ una transformación lineal. Diremos que $T$ es normal si $T$ conmuta con su transformación adjunta, es decir, si $$TT^*=T^*T.$$

Similarmente, diremos que una matriz $A\in M_n(\mathbb{R})$ es normal si $$A{}^tA={}^tAA.$$

Ejemplo. La matriz $\begin{pmatrix} 1 & -3 \\ 3 & 1 \end{pmatrix}$ es normal. En efecto, puedes verificar que:

$$\begin{pmatrix} 1 & -3 \\ 3 & 1 \end{pmatrix}\begin{pmatrix} 1 & 3 \\ -3 & 1 \end{pmatrix} = \begin{pmatrix} 10 & 0 \\ 0 & 10 \end{pmatrix} = \begin{pmatrix} 1 & 3 \\ -3 & 1 \end{pmatrix}\begin{pmatrix} 1 & -3 \\ 3 & 1 \end{pmatrix}.$$

$\triangle$

Las definiciones de transformaciones y matrices normales están conectadas mediante el siguiente resultado sencillo de demostrar.

Proposición. Si $T:V\to V$ es una transformación es normal con $V$ espacio euclideano y tomamos una base ortonormal $\beta$ de $V$, entonces $\text{Mat}_\beta(T)$ es normal.

Caracterización geométrica de transformaciones normales

Las matrices normales tienen algunas propiedades geométricas que las caracterizan. El siguiente enunciado formaliza esto.

Problema. Sea $T$ una transformación lineal sobre un espacio euclidiano $V$. Demuestra que los siguientes incisos son equivalentes:

  1. $||T(x)||=||T^*(x)||$ para todo $x\in V$.
  2. $\langle T(x),T(y)\rangle=\langle T^*(x),T^*(y) \rangle$.
  3. $T$ es normal.

Solución. $(1)\Rightarrow (2)$. Supongamos $(1)$. Usando la identidad de polarización dos veces y la linealidad de $T$ y $T^*$ obtenemos
\begin{align*}
\langle T(x),T(y) \rangle &=\frac{||T(x+y)||^2-||T(x)||^2-||T(y)||^2}{2}\\
&=\frac{||T(x+y)^*||^2-||T(x)^*||^2-||T(y)^*||^2}{2}\\
&=\langle T(x)^*,T(y)^* \rangle.
\end{align*} lo cual prueba $(2)$.

$(2)\Rightarrow (3)$. Supongamos ahora $(2)$. Entonces para cualesquiera $x,y\in V$ se tiene que
\begin{align*}
\langle (T\circ T^* – T^*\circ T)(x), y \rangle &=\langle T(T^*(x)),y\rangle- \langle T^*(T(x)) ,y\rangle \\
&=\langle T^*(x),T^*(y) \rangle – \langle y,T^*(T(x))\rangle\\
&=\langle T(x),T(y) \rangle – \langle T(y),T(x)\rangle\\
&=0.
\end{align*}
Como la igualdad anterior se da para todo $y$, en particular se cumple, por ejemplo, para los $y$ de una base. Así, $(T\circ T^*-T^*\circ T)(x)=0$ para cualquier $x\in V$, lo que precisamente significa que $T\circ T^*= T^*\circ T$, es decir, que $T$ es normal.

$(3)\Rightarrow (1)$. Finalmente, supongamos $(3)$. Entonces
\begin{align*}
||T(x)||^2&=\langle T(x),T(x)\rangle\\
&=\langle x,T^*(T(x))\rangle \\
&= \langle T(T^*(x)),x \rangle\\
&=\langle T^*(x),T^*(x) \rangle \\
&= ||T^*(x)||^2,
\end{align*}
y por lo tanto $||T(x)||=||T^*(x)||$ para todo $x\in V$, lo que prueba $(1)$.

$\square$

Más adelante…

Por la proposición que enunciamos para transformaciones normales, tenemos que si $T$ es de este tipo, entonces $||T(x)||=||T^*(x)||$. Esto es una propiedad geométrica, pues está relacionando dos normas. Sin embargo, una cosa que nos interesa mucho estudiar es cuándo sucede algo parecido: $||T(x)||=||x||$. Esto lo que nos estaría diciendo es que «$T$ preserva las normas». En la siguiente entrada motivaremos y exploraremos este tipo de transformaciones lineales, a las que llamaremos ortogonales.

Tarea moral

  1. Demuestra que la forma matricial de una transformación antisimétrica, bajo una base ortonormal, es una matriz antisimétrica.
  2. Demuestra que cualquier transformación lineal $T$ en un espacio euclideano puede ser escrita de la forma $T=S+A$, donde $S$ es transformación lineal simétrica y $A$ es transformación lineal antisimétrica. Demuestra que esta manera de escribir a $T$ es única.
  3. Hemos platicado mucho de qué sucede cuando representamos transformaciones lineales en un espacio euclideano $V$ mediante bases ortonormales. Pero, ¿qué pasa si no hacemos esto? Determina si lo siguiente es verdadero o falso cuando elegimos una base $\beta$ de $V$ que no sea ortonormal.
    • Si $A$ es la matriz de una transformación $T$ en la base $\beta$, entonces $^tA$ es la matriz de $T^\ast$ en la base $\beta$.
    • Si $T$ es simétrica, entonces su matriz $A$ en la base $\beta$ es simétrica.
    • Si $T$ es normal, entonces su matriz $A$ en la base $\beta$ es normal.
  4. Sea $T:\mathbb{R}^2\to \mathbb{R}^2$ un rotación de ángulo $\theta\in(0,\pi)$. La representación matricial de $T$ en la base canónica está dada por
    $$\begin{pmatrix}
    \cos\theta &-\sin\theta\\
    \sin\theta &\cos\theta
    \end{pmatrix}.$$
    Verifica que $T$ es normal.
  5. Sea $V$ un espacio euclidiano y $T:V\to V$ una transformación lineal normal. Prueba que $T-c\text{id}$ es normal para todo real $c$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Adjunta de una transformación lineal

Por Ayax Calderón

Introducción

En esta tercera unidad estudiaremos algunos aspectos geométricos de transformaciones lineales. Para ello, lo primero que haremos será introducir la noción de la adjunta de una transformación lineal. Esto nos permitirá más adelante poder hablar de varias transformaciones especiales: normales, simétricas, antisimétricas, ortogonales. De entrada, las definiciones para cada uno de estos conceptos parecerán simplemente un juego algebraico. Sin embargo, poco a poco descubriremos que pidiendo a las transformaciones lineales cierta propiedad con respecto a su adjunta, podemos recuperar muchas propiedades geométricas bonitas que satisfacen.

Un ejemplo de esto serán las transformaciones ortogonales. Estas serán las transformaciones que, a grandes rasgos, no cambian la norma. Daremos un teorema de clasificación para este tipo de transformaciones: veremos que sólo son reflexiones o rotaciones en ciertos ejes. Después estudiaremos las transformaciones simétricas y veremos un resultado fantástico: el teorema espectral. Este teorema nos garantizará que toda transformación simétrica en $\mathbb{R}$ puede ser diagonalizada, y de hecho a través de una transformación ortogonal.

El párrafo anterior nos dice que las transformaciones ortogonales y las simétricas serán «fáciles de entender» en algún sentido. Esto parece limitado a unas familias muy particulares de transformaciones. Sin embargo, cerraremos la unidad con un teorema muy importante: el teorema de descomposición polar. Gracias a él lograremos entender lo que hace cualquier transformación lineal. Tenemos un camino muy interesante por recorrer. Comencemos entonces con la idea de la adjunta de una transformación lineal.

La adjunta de una transformación lineal

Sea $V$ un espacio euclidiano y producto interior $\langle \cdot, \cdot \rangle$. Tomemos una transformación lineal $T:V \to V$. Para cada $y\in V$, la transformación $x\mapsto \langle T(x),y\rangle$ es una forma lineal. Del teorema de representación de Riesz se sigue que existe un único vector $T^*(y)\in V$ tal que
$$\langle T(x),y\rangle=\langle T^*(y),x\rangle =\langle x, T^*(y)\rangle \hspace{2mm} \forall x\in V.$$

Esta asignación de este vector $T^\ast$ es lineal, ya que al vector $ry_1+y_2$ para $r$ escalar y $y_1,y_2$ en $V$ se le asigna la forma lineal $x\mapsto \langle T(x),ry_1+y_2\rangle=r\langle(T(x),y_1\rangle + \langle (T(x),y_2)$, que se puede verificar que le corresponde en la representación de Riesz el vector $rT^\ast(y_1)+T^\ast(y_2)$.

De esta manera, podemos correctamente enunciar la siguiente definición.

Definición. Sea $V$ un espacio euclidiano y producto interior $\langle \cdot, \cdot \rangle$. Sea $T:V\to V$ una transformación lineal. Definimos a la adjunta de $T$, como la única transformación lineal $T^\ast:V\to V$ que cumple la siguiente condición para todos $x,y$ en $V$:

$$\langle T(x),y\rangle =\langle x, T^*(y)\rangle$$

Notemos que para cualesquiera $x,y\in V$ tenemos que
$$\langle y,T(x)\rangle=\langle T(x),y\rangle=\langle x,T^* (y)\rangle=\langle T^*(y),x\rangle =\langle y, (T^*)^*(x)\rangle.$$

Restando el último término del primero, se sigue que $T(x)-(T^*)^*(x)=0$, de manera que $$(T^*)^*=T,$$ por lo cual simplemente escribiremos $$T^{**}=T.$$

Por lo tanto, la asignación $T\mapsto T^*$ es una transformación auto-inversa sobre $V$.

La matriz de la transformación adjunta

Tenemos que $T^{**}=T$. Esto debería recordarnos a la transposición de matrices. En efecto, en cierto sentido podemos pensar a la transformación $T^\ast$ algo así como la transpuesta de la transformación (por lo menos en el caso real, para espacios sobre $\mathbb{C}$ será algo ligeramente distinto).

La siguiente proposición nos ayudará a reforzar esta intuición.

Proposición. Sea $V$ un espacio euclidiano y producto interior $\langle \cdot, \cdot \rangle$ y $T:V\to V$ una transformación lineal. Sea $\mathcal{B}=(e_1,\dots, e_n)$ una base otronormal de $V$. Se tiene que $$\text{Mat}_{\mathcal{B}}(T^\ast)={}^t\text{Mat}_{\mathcal{B}}(T).$$

En palabras, bajo una base ortonormal, la adjunta de una transformación tiene como matriz a la transpuesta de la transformación original.

Solución. Sea $A=\text{Mat}_{\mathcal{B}}(T)$ y $B=[B_{ij}]$ la matriz asociada a $T^*$ con respecto a $\mathcal{B}$. Para cada $i\in\{1,\ldots,n\}$ se tiene
$$T^*(e_i)=\displaystyle\sum_{k=1}^n b_{ki}e_k.$$

En vista de que $$T(e_i)=\displaystyle\sum _{k=1}^n a_{ki}e_k$$ y de que la base $\mathcal{B}$ es ortonormal, se tiene que $$\langle T(e_i),e_j\rangle=\displaystyle\sum_{k=1}^n a_{ki}\langle e_k,e_j\rangle=a_{ji}$$ y
$$\langle e_i,T^*(e_j)\rangle=\displaystyle\sum_{k=1}^n b_{kj}\langle e_i,e_k \rangle = b_{ij}.$$

Como, por definición de transformación adjunta, se tiene que
$$\langle T(e_i),e_j\rangle =\langle e_i, T^*(e_j)\rangle,$$ entonces $b_{ij}=a_{ji}$ para cada $i,j$ en $\{1,\ldots, n\}$, que precisamente significa que $B= {}^tA$.

$\square$

Ejemplos de encontrar una adjunción

La proposición de la sección anterior nos da una manera práctica de encontrar la adjunción para transformaciones lineales.

Ejemplo. Encontraremos la transformación adjunta a la transformación lineal $T:\mathbb{R}^2\to \mathbb{R}^2$ dada por $T((x,y))=(y-x,y+2x)$. Por la proposición de la sección anterior, basta expresar a $T$ en una base ortonormal y transponer. Usemos la base canónica de $\mathbb{R}^2$. En esta base, la matriz que representa a $T$ es $\begin{pmatrix} -1 & 1 \\ 2 & 1 \end{pmatrix}$. Por ello, la matriz que representa a $T^\ast$ es la transpuesta, es decir $\begin{pmatrix} -1 & 2 \\ 1 & 1 \end{pmatrix}$. De este modo, concluimos que $T^\ast((x,y)) = (-x+2y,x+y)$.

Podemos verificar que en efecto esta transformación satisface la definición de adjunción. Por un lado,

$$\langle T((a,b)), (c,d) \rangle = (b-a,b+2a)\cdot (c,d)= bc-ac+bd+2ad,$$

y por otro

$$ \langle (a,b), T((c,d)) \rangle = (a,b) \cdot (-c+2d,c+d) = -ac +2ad + bc +bd.$$

Ambas expresiones en efecto son iguales.

$\triangle$

Problema. Demuestra que una transformación lineal $T$ en un espacio euclideano de dimensión finita y la adjunta $T^\ast$ de $T$ tienen el mismo determinante.

Solución. El determinante de una transformación es igual al determinante de cualquiera de las matrices que la represente. Así, si $A$ es la forma matricial de $T$ bajo una base ortonormal, se tiene que $\det(A)=\det(T)$. Por la proposición de la sección anterior, $^tA$ es la forma matricial de $T^\ast$ en esa misma base, de modo que $\det({}^tA)=\det(T^\ast)$. Pero una matriz y su transpuesta tienen el mismo determinante, de modo que $$\det(T^\ast)=\det({}^tA)=\det(A)=\det(T).$$

$\square$

Más adelante…

La noción de transformación adjunta es nuestra primera noción fundamental para poder definir más adelante transformaciones que cumplen propiedades geométricas especiales. Con ella, en la siguiente entrada hablaremos de transformaciones simétricas, antisimétricas y normales.

Toma en cuenta que las definiciones que hemos dado hasta ahora son para espacios euclideanos, es decir, para el caso real. Cuando hablamos de espacios hermitianos, es decir, del caso complejo, los resultados cambian un poco. La transformación adjunta se define igual. Pero, por ejemplo, si la matriz que representa a una transformación es $A$, entonces la que representará a su adjunta no será la transpuesta, sino más bien la transpuesta conjugada.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más a profundidad la teoría vista.

  1. Encuentra la transformación adjunta para las siguientes tranformaciones lineales:
    • $T:\mathbb{R}^2\to \mathbb{R}^2 $ dada por $T(x,y)=(2y-x,2x+y)$.
    • $T:\mathbb{R}^3\to \mathbb{R}^3$ dada por $T(x,y,z)=(x+y+z,y+z,z)$.
    • $T:\mathbb{R}^n \to \mathbb{R}^n$ tal que para la base canónica $e_1,\ldots,e_n$ cumple que $T(e_i)=e_{i+1}$ para $i=1,\ldots,n-1$ y $T(e_n)=0$.
  2. Considera el espacio vectorial $M_n(\mathbb{R})$. En este espacio, la operación transponer es una transformación lineal. ¿Cuál es su transformación adjunta?
  3. Completa los detalles de que $T^\ast$ es en efecto una transformación lineal.
  4. Demuestra que si $T$ es una transformación lineal sobre un espacio euclidiano y $\lambda$ es un eigenvalor de $T$, entonces $\lambda$ también es un eigenvalor de $T^\ast$. De manera más general, demuestra que $T$ y $T^\ast$ tienen el mismo polinomio característico.
  5. Sea $V$ un espacio euclidiano y $T:V\to V$. ¿Es cierto que para todo polinomio $p$ se cumple que $p(T)^\ast=p(T^\ast)$?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Teorema de Sylvester

Por Diego Ligani Rodríguez Trejo

Introducción

En entradas anteriores estudiamos las formas bilineales y las cuadráticas. También vimos las matrices que las representan. Introdujimos una noción de congruencia de matrices relacionada con todo esto. Y vimos que la congruencia de matrices preserva una noción de positividad para matrices. Ahora daremos un paso más y veremos que de hecho la congruencia de matrices preserva más que sólo eso.

Para ello, introduciremos la noción de la signatura de una matriz. A grandes rasgos, esta noción nos dice «qué tan positiva» es una matriz simétrica. Para definir esta noción, lo haremos primero para las matrices diagonales. Luego lo definiremos para todas las matrices simétricas a través del teorema que demostramos la entrada anterior. Toda la discusión la haremos en el caso real. El caso complejo tiene sus versiones análogas, que quedarán descritas en los ejercicios.

Signatura de una matriz diagonal

Comenzamos con la siguiente definición.

Definición. Sea $A$ una matriz diagonal en $M_n(\mathbb{R})$. Sea $P$ la cantidad de entradas positivas en la diagonal y $N$ la cantidad de entradas negativas en la diagonal. A $(P,N)$ le llamamos la signatura de $A$.

En cierto sentido, la signatura generaliza tanto la noción de rango, como la noción de positividad y de positividad definida. Esto queda plasmado en las siguientes observaciones.

Observación. Una matriz diagonal ya está en forma escalonada reducida. Y el rango de una matriz en forma escalonada reducida coincide con la cantidad de renglones no cero. Así, si la signatura de una matriz diagonal es $(P,N)$, entonces su rango es $P+N$.

Observación. Por lo que vimos en la entrada anterior, una matriz diagonal en $M_n(\mathbb{R})$ es positiva si y sólo si ninguna de sus entradas diagonales es negativa. Esto pasa si y sólo si su signatura es de la forma $(k,0)$ para algún $0\leq k\leq n$.

Observación. Por un resultado análogo al de la entrada anterior, una matriz diagonal es $M_n(\mathbb{R})$ es positiva definida si y sólo si todas sus entradas diagonales son positivas. Esto pasa si y sólo si su signatura es $(n,0)$.

La signatura es invariante bajo congruencias

El resultado clave de esta entrada es el siguiente lema.

Lema. Sean $A$ y $B$ matrices diagonales en $M_n(\mathbb{R})$ congruentes entre sí. Entonces la signatura de $A$ y la de $B$ son iguales.

Demostración. Llamemos $(P,N)$ a la signatura de $A$ y $(Q,M)$ a la signatura de $B$.

Como $A$ y $B$ son congruentes, entonces representan a una misma forma cuadrática $q:\mathbb{R}^n\to \mathbb{R}$, pero quizás en diferentes bases. Sea $\alpha$ la base en la cual $q$ tiene matriz $A$ y $\beta$ la la base en la cual $q$ tiene matriz $B$. Sea $b$ la forma polar de $p$.

Como la signatura de $A$ es $(P,N)$, entonces $q$ es positivo (resp. negativo, cero) para $P$ (resp. $N$, $n-P-N$) elementos de la base $\alpha$. Tenemos algo análogo para $B$. Así, podemos llamar a las bases

\begin{align*}
\alpha&=\{a^+_1,\ldots,a^+_P,a^-_1,\ldots, a^-_N,a^0_1\ldots, a^0_{n-P-N}\},\\
\beta&= \{b^+_1,\ldots,b^+_Q,b^-_1,\ldots, b^-_M,b^0_1\ldots, b^0_{n-Q-M}\},\\
\end{align*}

en donde $q$ aplicado a alguno de estos elementos tiene el signo del superíndice.

Demostraremos que $P=Q$ por contradicción. Supongamos que no. Sin perder generalidad, $P>Q$. Consideremos $V$ el subespacio de $\mathbb{R}^n$ generado por los vectores $a^+_1,\ldots,a^+_P$ y $W$ el subespacio de $\mathbb{R}^n$ generado por los vectores $b^-_1,\ldots, b^-_M,b^0_1\ldots, b^0_{n-Q-M}.$ Estos espacios tienen dimensión $P$ y $n-Q$ respectivamente. Como $P>Q$, tenemos que $P+(n-Q)>Q+(n-Q)=n$. Así, los espacios $V$ y $W$ tienen intersección no trivial, y por lo menos hay un vector $v$ distinto de $0$ en $V\cap W$. ¿Cuánto vale $q(v)$?

Por un lado, $v$ está en $V$ así que es combinación lineal de elementos $a^+_i$: $$v=\sum_{i=1}^P r_i a^+_i.$$ De este modo:

\begin{align*}
q(v)=\sum_{i=1}^P r_i^2 q(a^+_i) + 2\sum_{i=1}^P\sum_{j=1}^P b(a^+_i,a^+_j).
\end{align*}

El primer sumando es positivo pues $q$ es positivo en todo $a^+_i$. El segundo sumando es cero pues cada término es $0$ por ser una entrada $(i,j)$ con $i\neq j$ de la matriz diagonal $A$. Así, $q(v)>0$.

Similarmente, $v$ está en $W$ así que es combinación lineal de elementos $b^-_i$ y elementos $b^0_i$, de donde se puede mostrar que $q(v)\leq 0$.

Hemos encontrado una contradicción que surgió de suponer $P\neq Q$, así que $P=Q$. De manera análoga se demuestra que $N=M$. Así, la signatura de $A$ y de $B$ debe ser la misma.

$\square$

Signatura para matrices simétricas

En la entrada anterior vimos que cualquier matriz simétrica en $M_n(\mathbb{R})$ es congruente a alguna matriz diagonal. Es posible que sea congruente a más de una matriz diagonal.

Definición. Sea $A$ una matriz simétrica en $M_n(\mathbb{R})$. Sea $D$ una matriz diagonal congruente a $A$. Definimos la signatura de $A$ como la signatura de $D$.

El lema de la sección anterior nos permite asegurarnos de que la siguiente definición está bien hecha. Si $A$ fuera congruente a dos matrices diagonales $D$ y $E$, entonces $D$ y $E$ serían congruentes entre sí. De este modo, la signatura de $A$ no cambia si la tomamos con respecto a $D$ o con respecto a $E$.

Pensemos que dos matrices $A$ y $B$ son congruentes entre sí. Sean $D$ y $E$ matrices diagonales congruentes a $A$ y $B$ respectivamente. Por transitividad, $D$ y $E$ son congruentes, así que tienen la misma signatura. Así, $A$ y $B$ tienen la misma signatura.

Una última observación es la siguiente. Si $A$ y $B$ son simétricas y congruentes entre sí, entonces están relacionadas mediante un producto con matrices invertibles. Como el producto por matrices invertibles no afecta el rango, concluimos que $A$ y $B$ tienen el mismo rango. Juntando esto con observaciones anteriores, una matriz simétrica $A$ de signatura $(P,N)$ tiene rango $P+N$.

Resumimos todo esto en el siguiente resultado.

Proposición. Sean $A$ y $B$ matrices simétricas.

  • Si la signatura de $A$ es $(P,N)$, entonces su rango es $P+N$.
  • Si $A$ y $B$ son congruentes, entonces tienen la misma signatura. En particular:
    • Tienen el mismo rango.
    • Si una es positiva, la otra también lo es.
    • Si una es positiva definida, la otra también lo es.

El teorema de Sylvester

Enunciemos las versiones análogas a lo anterior en términos de formas cuadráticas. Comencemos con el teorema de Gauss. Tomemos una forma cuadrática $q$ de $\mathbb{R}^n$ y escribámosla como $$q=\sum_{i=1}^r a_i l_i^2$$ con $a_1,\ldots,a_r$ reales y $l_1,\ldots,l_r$ formas lineales linealmente independientes.

Podemos quitar todos los términos con $a_i=0$ sin afectar la igualdad. Además, si $a_i$ es positivo podemos factorizarlo en $l_i^2$ para definir $m_i=(\sqrt{a_i}l_i)^2$, y si $a_i$ es negativo podemos factorizar $-a_i$ en $l_i^2$ para obtener $m_i=(\sqrt{-a_i}l_i)^2$. En otras palabras, de cualquier expresión de Gauss podemos llegar a una de la forma $$q=\sum_{i=1}^r \epsilon_i m_i^2,$$

en donde los $\epsilon_i$ son $1$ o $-1$. Si tenemos $P$ valores de $\epsilon_i$ iguales a $1$ y $N$ valores de $\epsilon_i$ iguales a $-1$ diremos que la signatura de $q$ es $(P,N)$ y que el rango de $q$ es $P+N$.

¿Por qué esto está bien definido? Porque ya vimos que cada forma de Gauss de $q$ da una base en la cual la matriz que representa a $q$ es diagonal. Las entradas de la diagonal son los coeficientes de la forma de Gauss. Dos matrices que salen así son congruentes, así que por el lema de la sección anterior tienen la misma signatura. Esto garantiza que en ambas expresiones de Gauss de las de arriba hay la misma cantidad de $1$s y $-1$s.

El gran resumen de todo esto es el siguiente teorema.

Teorema (ley de inercia de Sylvester). Sea $q$ una forma cuadrática de $\mathbb{R}^n$. Entonces existen $\epsilon_1,\ldots,\epsilon_r$ iguales a $1$ o a $-1$ y formas lineales $l_1,\ldots,l_r$ linealmente independientes tales que $$q=\sum_{i=1}^r \epsilon_i l_i^2.$$

Cualesquiera dos expresiones de este estilo tienen la misma cantidad de coeficientes positivos, y la misma cantidad de coeficientes negativos.

Dato curioso: ¿Por qué ley de inercia?

En esta entrada nos hemos referido al teorema de Sylvester de dos maneras intercambiables: teorema de Sylvester y ley de inercia de Sylvester. La intuición diría que quizás existe alguna relación con la física. Quizás es porque algún uso especial de este teorema lo hace importante para el cálculo de la inercia. Esto no es así.

El nombre, curiosamente, viene de esta frase de Sylvester:

Este número constante de signos positivos que se asocian a una función cuadrática bajo cualquier transformación […] puede ser llamado, convenientemente, su inercia, hasta que una mejor palabra sea encontrada.

J. J. Sylvester, On the Theory of the Syzygetic Relations… (1853)

Aparentemente no se encontró una mejor palabra y ahora es el térimo que se usa. Interpretando un poco lo que dice Sylvester, la inercia se refiere a la resistencia de un cuerpo de cambiar de estado. Así, tal vez Sylvester pensó en la «resistencia a cambiar» de la signatura de una forma cuadrática bajo cambios de base.

Más adelante…

Hay mucha más teoría que se puede enunciar y demostrar para formas cuadráticas en general. Por ahora detendremos nuestra exploración hasta aquí, y ya sólo nos enfocaremos en las formas bilineales simétricas y positivas, es decir, en los productos interiores. Queremos enunciar y demostrar varios resultados para espacios con producto interior y para espacios euclideanos.

Dos conceptos que estudiaremos a continuidad son el de dualidad y el de ortogonalidad. Esto nos abrirá las puertas a entender correctamente algunos tipos de transformaciones lineales muy importantes, como las transformaciones simétricas, las normales y las ortogonales.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, ayudan para repasar los conceptos vistos en esta entrada.

En los siguientes ejercicios, usa el algoritmo de Gauss para escribir cada forma como combinación cuadrática de formas lineales linealmente independientes. Además encuentra su rango y signatura.

  1. Encuentra el rango y la signatura de la forma cuadrática$q : \mathbb{R}^4 \rightarrow \mathbb{R}$ dada por
    \begin{align*} q(x,y,z,t)= xy + yz + zt+tx. \end{align*}
  2. Completa algunos detalles faltantes en las demostraciones anteriores. Por ejemplo:
    1. ¿Por qué las formas $m_i$ de la discusión del teorema de Sylvester son linealmente independientes?
    2. ¿Por qué son análogas las demostraciones faltantes en el lema que demostramos?
  3. Demuestra que cualquier matriz simétrica es congruente a una matriz diagonal cuya diagonal es de la forma $1,\ldots,1,-1\ldots,-1,0,\ldots,0$.
  4. Enuncia y demuestra un resultado análogo al lema principal de esta entrada, pero para matrices con entradas complejas. Recuerda que en este caso debes usar matrices hermitianas y las congruencias son a través de usar una matriz invertible y su traspuesta conjutada.
  5. Enuncia y demuestra una ley de inercia de Sylvester para formas cuadráticas hermitianas.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Teorema de Gauss

Por Diego Ligani Rodríguez Trejo

Introducción

En la entrada anterior vimos un recordatorio de las formas bilineales, cuadráticas y sus polares. En esta entrada continuaremos recordando algunas propiedades vistas previamente enfocándonos en el teorema de Gauss y su demostración. Esto nos dará una pequeña pista de la relación entre las formas cuadráticas y matrices.

Además, con el teorema de Gauss obtendremos un algoritmo para poder escribir cualquier forma cuadrática en una forma estandarizada. Esto nos llevará más adelante a plantear la ley de inercia de Sylvester.

Preparaciones para el teorema de Gauss

Antes de empezar con el teorema, veamos una propiedad de las formas cuadráticas en $\mathbb{R}^n$. Tomemos $e_1,\ldots, e_n$ la base canónica de $\mathbb{R}^n$. Tomemos $q$ una forma cuadrática de $\mathbb{R}^n$ y $b$ su forma polar.

Cualquier vector $x=(x_1,\ldots,x_n)$ de $\mathbb{R}^n$ se escribe como $ (x_1,\ldots,x_n)=\sum_{i=1}^n x_i e_i$. Por lo que hicimos en la entrada anterior tenemos entonces:

$$q(x)=b(x,x)=\sum_{i=1}^n \sum_{j=1}^n x_i x_j b(e_i, e_j).$$

Para simplificar la notación definamos $a_{ij}:=b(e_i,e_j)$. Podemos «ver» todos los sumandos en la siguiente expresión:

\begin{align*} q(x)& =x_1^2a_{11}+ x_1x_2a_{12} + \dots + x_1x_na_{1n} \\
&+x_2x_1a_{21}+ x_2^2a_{22} + \dots +x_2x_na_{2n} \\
&\vdots \qquad \qquad \qquad \qquad \qquad \qquad \\
&+x_nx_1a_{n1} + x_nx_2a_{n2} + \dots + x_n^2 a_{nn} \end{align*}

Aquí hay algunos términos «puros» de la forma $a_{ii}x_i^2$. Se encuentran en la «diagonal». Tenemos también algunos términos «mixtos» de la forma $a_{ij}x_ix_j$ con $i\neq j$. Por la simetría de $b$, en los términos mixtos tenemos $a_{ij}=a_{ji}$. Al separar en términos puros y mixtos obtenemos entonces la siguiente expresión:

\begin{align}q(x)= \sum_{i=1}^na_{ii}x_i^2+ 2\sum_{1 \leq i < j \leq n} a_{ij} x_i x_j .\end{align}

Usaremos esto más abajo.

Teorema de Gauss de formas cuadráticas

Teorema. Sea $q$ una forma cuadrática en $V=\mathbb{R}^n$. Existen reales $\alpha_1, \dots , \alpha_r $ y formas lineales $l_1, \dots l_r$ de $V$ linealmente independientes tales que, para todo $x \in V$ se tiene
$$q(x)= \sum_{i=1}^r \alpha _i (l_i(x))^2.$$

Recordemos que la independencia lineal de las formas $l_1,\ldots,l_r$ sucede en el espacio dual $V^*$.

Demostración. Procedamos por inducción sobre $n$. De la igualdad $(1)$, cuando $n=1$ la forma cuadrática es de la forma $q(x)=a_{11}x_1^2$. Al definir $\alpha_1=a_{11}$ y $l_1(x)=x_1$ obtenemos la forma deseada.

Supongamos que el teorema se cumple para $n-1$. De la igualdad $(1)$ sabemos que $q$ se puede escribir como sigue:

\begin{align*} q(x)= \sum_{i=1}^n a_{ii} x_i^2 + 2\sum_{1 \leq i < j \leq n} a_{ij} x_ix_j. \end{align*}

Tenemos tres posibilidades:

  • Que todos los $a_{ii}$ y todos los $a_{ij}$ sean cero. Este caso es inmediato pues entonces $q$ es la forma cuadrática cero y podemos tomar $l_1(x)=x_1$ y $\alpha_1=0$.
  • Que algún $a_{ii}$ sea distinto de cero.
  • Que todos los $a_{ii}$ sean cero, pero algún $a_{ij}$ sea distinto de cero.

Hagamos cada uno de los últimos dos casos por separado. Comencemos por el caso en el que algún $a_{ii}$ es distinto de cero. Sin pérdida de generalidad (¿por qué?) podemos suponer que es $a_{nn}$.

Apartando los términos que tienen $x_n$ de los que no obtenemos:

\begin{align*} \sum_{i=1}^n a_{ii}x_i^2=a_{nn} x_n^2 + \sum_{i=1}^{n-1} a_{ii} x_i^2. \end{align*}

y

\begin{align*} 2\sum_{1 \leq i < j \leq n} a_{ij}x_ix_j= 2\left(\sum_{i=1}^{n-1} a_{in} x_i\right)x_n + 2\sum_{1 \leq i < j \leq n-1} a_{ij}x_ix_j\end{align*}

Con esto

\begin{align*} q(x)=a_{nn}x_n^2 + 2\left(\sum_{i=1}^{n-1} a_{in} x_i\right)x_n + \sum_{i=1}^{n-1} a_{ii} x_i^2 + 2\sum_{1 \leq i < j \leq n-1} a_{ij}x_ix_j .\end{align*}

Si bien esta expresión se ve complicada, en realidad podemos pensar que en términos de la variable $x_n$ es «simplemente una cuadrática». Basados en los primeros dos términos podemos completar un binomio al cuadrado como sigue:

\begin{align*} q(x)= a_{nn} \left(x_n+\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i \right)^2- a_{nn}\left(\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i \right)^2 + \sum_{i=1}^{n-1} a_{ii}x_i^2+2\sum_{1 \leq i < j \leq n-1} a_{ij}x_ix_j.\end{align*}

Notemos que la expresión

\begin{align*} – a_{nn}\left(\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i \right)^2 + \sum_{i=1}^{n-1} a_{ii}x_i^2+2\sum_{1 \leq i < j \leq n-1} a_{ij}x_ix_j \end{align*}

ya no tiene a la variable $x_n$ y que de hecho es una forma cuadrática en las variables $x_1,\ldots, x_{n-1}$ (¿por qué?). De este modo, podemos aplicarle hipótesis inductiva para obtener que existen escalares $\alpha_1,\ldots, \alpha_r$ y formas lineales $l’_1,\ldots,l’_r$ linalmente independientes de $\mathbb{R}^{n-1}$ tales que

\begin{align*} q'(x_1,\dots , x_{n-1})= \sum_{i=1}^r \alpha_i (l_i'(x))^2.\end{align*}

Si bien estas $l’_i$ son formas lineales de $\mathbb{R}^{n-1}$, también podemos pensarlas como formas lineales de $\mathbb{R}^n$. Formalmente, tomamos $l_i:\mathbb{R}^n\to \mathbb{R}$ dada por $l_i(x_1,\ldots,x_n)=l’_i(x_1,\ldots,x_{n-1})$. Para finalizar, definimos

\begin{align*} l_{r+1}(x_1, \dots , x_n)= x_n+\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i \text{,} \qquad \alpha_{r+1}=a_{nn}.\end{align*}

De aquí, obtenemos la expresión deseada para $q$:

\begin{align*} q(x)= \sum_{i=1}^{r+1} \alpha_i (l_i(x))^2 \end{align*}

Falta argumentar por qué las $l_i$ son linealmente independientes. Si una combinación lineal de ellas da cero, como $l_{r+1}$ es la única que involucra a $x_n$, entonces su coeficiente debe ser cero. Así, obtendríamos una combinación lineal de $l_1,\ldots,l_r$ igualada a cero. Pero esta es una combinación lineal de $l’_1,\ldots,l’_r$. Por hipótesis inductiva, estas son linealmente independientes así que todos los coeficientes deben ser cero.

Lo anterior termina el caso para cuando hay algún «término puro». Falta el caso en el que todos los «términos puros» tienen coeficiente cero, pero hay por lo menos un «término mixto». Por la igualdad $(1)$ tenemos que la forma cuadrática se ve así:

\begin{align*}q(x)= 2\sum_{1 \leq i < j \leq n} a_{ij} x_i x_j .\end{align*}

Sin pérdida de generalidad podemos suponer que el término mixto que no es cero es el $a_{n-1,n}$ (¿por qué?). La idea es ahora separar a los términos que tienen $x_{n-1}$ ó $x_n$ de los que no, y utilizar la siguientes identidades algebraicas que se valen para cualesquiera $A,B,C, D, E$ (haz las cuentas):

\begin{align} Ax_{n-1}x_n+Bx_{n-1}+Cx_n=A\left(x_{n-1}+\frac{C}{A}\right) \left(x_n+\frac{B}{A}\right)-\frac{BC}{A},\end{align}

\begin{align} DE= \frac{1}{4}(D+E)^2 – \frac{1}{4} (D-E)^2.\end{align}

Al realizar la separación nos queda:

\begin{align*} q(x)= 2a_{n-1,n}x_{n-1}x_n +2\sum_{i=1}^{n-2}a_{in}x_ix_n+ 2\sum_{i=1}^{n-2}a_{i,n-1}x_ix_{n-1} + 2\sum_{1 \leq i < j \leq n-2} x_i x_j a_{ij}. \end{align*}

Así, podemos usar la identidad $(2)$ con los siguientes valores

\begin{align*}
A &=2a_{n-1.n},\\
B&=2\sum_{i=1}^{n-2}a_{i,n-1}x_i,\\
C&=2\sum_{i=1}^{n-2}a_{i,n}x_i
\end{align*}

para obtener que $q$ es:

\begin{align*} A\left(x_{n-1}+\frac{C}{A}\right) \left(x_n+\frac{B}{A}\right)-\frac{BC}{A} + 2\sum_{1 \leq i < j \leq n-2} x_i x_j a_{ij} \end{align*}

Al primer sumando podemos reescribirlo usando la identidad $(3)$ como

\begin{align*}\frac{A}{4}\left(x_{n-1}+x_n+\frac{B+C}{A}\right)^2-\frac{A}{4}\left( x_{n-1}-x_n-\frac{B-C}{A}\right)^2 \end{align*}

A la expresión conformada por los últimos dos sumandos le podemos aplicar hipótesis inductiva (¿por qué?) para escribirla de la forma \begin{align*} q'(x_1, \dots , x_{n-2})= \sum_{i=1}^r \alpha’_i (l’_i(x_1, \dots , x_{n-2}))^2 \end{align*} con $l’_1,\ldots, l’_r$ formas lineales linealmente independientes de $\mathbb{R}^{n-2}$. Como en el caso anterior, podemos «convertir» estas formas lineales a formas lineales $l_1,\ldots,l_r$ en $\mathbb{R}^n$. Al agregar las siguientes dos formas lineales

\begin{align*}
l_{r+1}(x)&= x_{n-1}+x_n+\frac{B+C}{A}\\
l_{r+2}(x)&= x_{n-1}-x_n-\frac{B-C}{A}
\end{align*}

y tomar $\alpha_{r+1}=\frac{A}{4}$, $\alpha_{r+2}=-\frac{A}{4}$, obtenemos la expresión deseada:
\begin{align*} q(x)= \sum_{i=1}^{r+2} \alpha_i (l_i(x))^2. \end{align*}

La demostración de que en efecto $l_1,\ldots,l_{r+2}$ son linealmente independientes queda como ejercicio.

Así por principio de inducción tenemos que el teorema de Gauss se cumple para cualquier forma cuadrática $q$ en $\mathbb{R}^n$ para todo $n\geq 1$ entero.

$\square$

Más adelante…

Debido a la longitud de esta demostración, los ejemplos serán reservados para la siguiente entrada.

Las formas cuadráticas, aunque interesantes, muestran estar limitadas por cómo las definimos, ya que se definen sólo en espacios vectoriales reales. En las siguientes entradas expandiremos un poco esta definición para también abarcar al menos espacios vectoriales complejos y luego nos enfocaremos en un tipo especial de éstas.

Además, al principio de la entrada se dieron pistas a que existe una relación entre formas bilineales y matrices, esto será explorado posteriormente.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. Sea $q$ una forma cuadrática en $\mathbb{R}^n$ y $x=(x_1, \dots, x_n)$. Muestra que \begin{align*} q(x)=\sum_{i,j=1}^na_{ij}x_ix_j \text{ con } a_{ij}=b(e_i,e_j). \end{align*}
  2. Sea $A$ la matriz con entradas $a_{ij}$ dadas en el problema anterior. ¿Qué podrías afirmar acerca de $A$ sin importar la $q$ elegida?
  3. Sea $A=[a_{ij}]$ una matriz simétrica en $M_n(\mathbb{R})$ y definamos
    \begin{align*} q: \mathbb{R}^n \rightarrow \mathbb{R} \text{ dada por } q(x)=\sum_{i,j=1}^na_{ij}x_ix_j \end{align*} ¿Es $q$ así definida una forma cuadrática? ¿Es necesario que $A$ sea simétrica?
  4. Demuestra que las formas lineales definidas en el segundo caso de la demostración del teorema de Gauss en efecto son linealmente independientes.
  5. Sean $\alpha _1, \dots , \alpha_r $ números reales y $l_1 , \dots , l_r$ formas lineales, linealmente independientes en $\mathbb{R}^n$ y $x \in \mathbb{R}^n$. Definamos $q$ como sigue:
    \begin{align*} q(x)=\sum_i^n \alpha_i l_i(x)\end{align*}
    ¿Es $q$ así definida una forma cuadrática en $\mathbb{R}^n$?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»