Archivo de la etiqueta: álgebra lineal

Álgebra Lineal II: Teorema de Gauss

Introducción

En la entrada anterior vimos un recordatorio de las formas bilineales, cuadráticas y sus polares, en esta entrada continuaremos recordando algunas propiedades vistas previamente enfocándonos en el teorema de Gauss y su demostración, la cual, cabe decirlo, nos dará una pequeña pista de la relación (que esperaríamos tener, al ser álgebra lineal) entre las formas cuadráticas y matrices.

Además, con el teorema de Gauss obtendremos un algoritmo (aunque ciertamente no es obvio cual es este, basado en la demostración) para poder escribir cualquier forma cuadrática en una forma estandarizada, permitiéndonos así buscar propiedades particulares a cada forma cuadrática que más adelante motivara otro resultado importante.

Preparaciones para el teorema de Gauss

Antes de empezar con el teorema, veamos una propiedad de las formas cuadráticas en $\mathbb{R}^n$.
Sea $q$ una forma cuadrática en $\mathbb{R}^n$ con $b$ su polar, y sea $e_1, \dots , e_n$ la base canónica. sabemos que, dado $x \in \mathbb{R}^n$ con $x=(x_1, \dots , x_n)$
\begin{align*} q(x)=q(x_1,\dots , x_n)=q(\sum_{i=1}^nx_ie_i)=b(\sum_{i=1}^nx_ie_i, \sum_{j=1}^nx_je_j) \end{align*}
Desarrollemos la suma presentada en la primera entrada
\begin{align*} =b(x_1e_1, \sum_{j=1}^nx_je_j)+ b(x_2e_2, \sum_{j=1}^nx_je_j) + \dots + b(x_ne_n, \sum_{j=1}^nx_je_j) \end{align*}
Ahora, desarrollemos únicamente la suma de la segunda entrada de $ b(x_1e_1, \sum_{j=1}^nx_je_j)$
\begin{align*} =b(x_1e_1, x_1e_1)+ b(x_1e_1, x_2e_2) + \dots + b(x_1e_1,x_ne_n) \end{align*}
Haciendo lo mismo en cada sumando hasta desarrollar la suma de $b(x_ne_n, \sum_{j=1}^nx_je_j)$
\begin{align*} =b(x_ne_n, x_1e_1)+ b(x_ne_n, x_2e_2) + \dots + b(x_n e_n ,x_n e_n) \end{align*}
Acomodemos todas estas sumas de la siguiente manera, que si has llevado teoría de conjuntos podría resultarte familiar
\begin{align*} =b(x_1e_1, x_1e_1)+ b(x_1e_1, x_2e_2) + \dots + b(x_1e_1,x_ne_n) \\
+b(x_2e_2, x_1e_1) + b (x_2e_2, x_2e_2) + \dots + b(x_2e_2,x_ne_n) \\
\vdots \qquad \qquad \qquad \qquad \qquad \qquad \\
+b(x_ne_n, x_1e_1) + b (x_n e_n, x_2e_2) + \dots + b (x_n e_n , x_n e_n) \end{align*}
Al encontrarnos con esta notación un tanto engorrosa, intentemos simplificarla, nombremos $b(e_i , e_j)=a_{ij}$ y como sabemos que $b$ es simétrica (¿por qué?), podemos afirmar que $a_{ij}=a_{ji}$ además, en cada uno de estos sumandos utilicemos la linealidad, sacando los coeficientes $x_i$ y $x_j$
\begin{align*} =x_1^2a_{11}+ x_1x_2a_{12} + \dots + x_1x_na_{1n} \\
+x_2x_1a_{21}+ x_2^2a_{22} + \dots +x_2x_na_{2n} \\
\vdots \qquad \qquad \qquad \qquad \qquad \qquad \\
+x_nx_1a_{n1} + x_nx_2a_{n2} + \dots + x_n^2 a_{nn} \end{align*}
No está de más notar la similitud que esta notación tiene con una matriz, ¿será que $q$ se puede representar como una matriz?
Más allá de ello, notemos que las $ij$-esima entrada es igual a la entrada $ji$ por lo que $q$ se puede terminar reescribiendo de la siguiente manera
\begin{align*} q(x_1,\dots , x_n)= \sum_{i=1}^nx_i^2a_{ii} + 2\sum_{1 \leq i < j \leq n} x_i x_j a_{ij} \end{align*}
Al juntar todos los elementos de la diagonal en la primera suma y todos los que están fuera de ella en la segunda.

Habiendo hecho esto, procedamos a el teorema cuya demostración, como es de esperar, utilizará la observación recién hecha.

Teorema de Gauss de formas cuadráticas

Teorema
Sea $q$ una forma cuadrática en $V=\mathbb{R}^n$. Existen $\alpha_1, \dots , \alpha_r \in \mathbb{R}$ y formas (funciones) lineales $l_1, \dots l_r \in V^*$ linealmente independientes tales que, para todo $x \in V$
\begin{align*} q(x)= \sum_{i=1}^r \alpha _i (l_i(x))^2 \end{align*}
Recordemos que $V^*$ es el espacio vectorial dual de $V$.

Demostración

Sea $q$ una forma cuadrática cualquiera en $\mathbb{R}^n$.

Procedamos por inducción sobre $n$.

$\underline{ \text{Cuando }n=1}.$

Utilizando la observación anterior sabemos que $q$ se puede escribir como
\begin{align*} q(x_1)=x_1^2a_{11}=x_1^2b(1,1)=x_1^2q(1) \end{align*}.
Con $b$ la polar de $q$, nombrando $\alpha=q(1)$ y $l: V \rightarrow \mathbb{R}$ la identidad, tenemos que
\begin{align*} q(x_1)= x_1^2q(1)=(l_1(x_1))^2 \alpha_1 \end{align*}.

Por lo que el teorema se cumple cuando n=1.

$\underline{ \text{Supongamos que el teorema se cumple para }n-1}$

Nuevamente, por la observación anterior, sabemos que
\begin{align*} q(x_1,\dots , x_n)= \sum_{i=1}^nx_i^2a_{ii} + 2\sum_{1 \leq i < j \leq n} x_ix_ja_{ij} \end{align*}
Separemos este pedazo de la demostración en dos casos.

  • Si existe $ i \in \{ 1, \dots n\}$ tal que $a_{ii} \neq 0$ sin pérdida de generalidad, supongamos que $a_{nn} \neq 0$ (¿Por qué podemos hacer esto?)

    Observemos que
    \begin{align*} 2\sum_{1 \leq i < j \leq n} x_ix_ja_{ij}= 2\sum_{1 \leq i < j \leq n-1} x_ix_ja_{ij} +2(\sum_{i=1}^{n-1} x_ia_{in})x_n \end{align*}
    y
    \begin{align*} \sum_{i=1}^n x_i^2a_{ii}=x_n^2a_{nn} + \sum_{i=1}^{n-1} x_i^2a_{ii} \end{align*}
    Con esto
    \begin{align*} q(x_1,\dots , x_n)=x_n^2a_{nn} + \sum_{i=1}^{n-1} x_i^2a_{ii}+2\sum_{1 \leq i < j \leq n-1} x_ix_ja_{ij} +2(\sum_{i=1}^{n-1} x_ia_{in})x_n \end{align*}
    Dado esto, utilicemos el primero y último término para completar el cuadrado, viendo a $q$ como un polinomio de segundo grado en $x_n$
    \begin{align*} q(x_1,\dots , x_n)= a_{nn} (x_n+\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i )^2- a_{nn}(\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i )^2 + \sum_{i=1}^{n-1} x_i^2a_{ii}+2\sum_{1 \leq i < j \leq n-1} x_ix_ja_{ij} \end{align*}
    Y finalmente, nombrando
    \begin{align*} q'(x_1,\dots , x_{n-1})= – a_{nn}(\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i )^2 + \sum_{i=1}^{n-1} x_i^2a_{ii}+2\sum_{1 \leq i < j \leq n-1} x_ix_ja_{ij} \end{align*}
    Tenemos que
    \begin{align*} q(x_1,\dots , x_n)= a_{nn} (x_n+\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i )^2+q'(x_1,\dots , x_{n-1}) \end{align*}
    Donde $q’$ es una forma cuadrática en $\mathbb{R}^{n-1}$ (¿Por qué?) por lo que podemos aplicar la hipótesis de inducción, es decir que
    \begin{align*} q'(x_1,\dots , x_{n-1})= \sum_{i=1}^r \alpha_i (l_i'(x))^2 \end{align*}
    Con $\{ l’_1, \dots , l’_r\} \subseteq (\mathbb{R}^{n-1})^*$ linealmente independientes, definamos
    \begin{align*} l_{r+1}(x_1, \dots , x_n)= x_n+\sum_{i=1}^{n-1} \frac{a_{in}}{a_{nn}}x_i \text{,} \qquad \alpha_{r+1}=a_{nn}\end{align*}
    Y
    \begin{align*} l_i(x_1, \dots , x_n)=l_i'(x_1, \dots , x_{n-1}) \end{align*}
    con $1 \leq i \leq r$, ya con estos nombres tenemos que
    \begin{align*} q(x_1,\dots , x_n)= \sum_{i=1}^{r+1} \alpha_i (l_i(x_1, \dots , x_n))^2 \end{align*}
    Por lo tanto, para todo $x \in \mathbb{R}^n$
    \begin{align*} q(x)= \sum_{i=1}^{r+1} \alpha_i (l_i(x))^2 \end{align*}
    con $\{ l_1, \dots , l_{r+1} \}$ linealmente independientes (¿Por qué?).
    \begin{align*} \\ \end{align*}
  • Si $ \forall i \in \{ 1, \dots n\}$ $a_{ii}=0$

    De nuevo, separaremos este caso en dos:

    Si suponemos que $\forall i,j \in \{ 1, \dots n\}$ $a_{ij}=0$ entonces debemos tener que $q=0$ así tomando a $\{ l_1, \dots , l_{n} \}$ como la base de $V^*$ que sabemos es linealmente independiente y a $\alpha_i=0$ para todo $1 \leq i \leq n$ es claro que
    \begin{align*} q(x)= \sum_{i=1}^{n} \alpha_i (l_i(x))^2 \end{align*}.

    Así supongamos que existe algún $a_{ij} \neq 0$ sin pérdida de generalidad supongamos que $a_{n-1.n} \neq 0$ (De nuevo ¿Por qué aquí podemos hacer esta afirmación sin pérdida de generalidad?)

    Recordando la observación del principio, tenemos que
    \begin{align*} q(x_1,\dots , x_n)= \sum_{i=1}^nx_i^2a_{ii} + 2\sum_{1 \leq i < j \leq n} x_i x_j a_{ij} \end{align*}
    Además, como $ \forall i \in \{ 1, \dots n\}$ $a_{ii}=0$ tenemos que $q$ se puede simplificar aún más
    \begin{align*} q(x_1,\dots , x_n)= 2\sum_{1 \leq i < j \leq n} x_i x_j a_{ij} \end{align*}
    Más aún esta suma se puede separar como sigue
    \begin{align*} q(x_1,\dots , x_n)= 2a_{n-1.n}x_{n-1}x_n +2\sum_{i=1}^{n-2}a_{in}x_ix_n+ 2\sum_{i=1}^{n-2}a_{i,n-1}x_ix_{n-1} + 2\sum_{1 \leq i < j \leq n-2} x_i x_j a_{ij} \end{align*}.
    Para no alargar esta entrada, te sugiero intentes probar que $q$ efectivamente se puede escribir de esta manera, tal vez te resulte útil volver a pensar a $q$ en la «notación matricial» que utilizamos al principio.
    Prosigamos, utilizaremos la siguiente identidad algebraica
    \begin{align*} axy+bx+cy= a ( x + \frac{c}{a} ) ( y + \frac{b}{a} ) -\frac{bc}{a} \end{align*}
    Y nombrando
    \begin{align*} a =2a_{n-1.n}, \qquad b=2\sum_{i=1}^{n-2}a_{in}x_i, \qquad c=2\sum_{i=1}^{n-2}a_{i,n-1}x_i, \qquad x=x_n, \qquad y=x_{n-1} \end{align*}
    Tenemos que $q$ se puede escribir como sigue
    \begin{align*}2a_{n-1.n}(x_n + \sum_{i=1}^{n-2}\frac{a_{i,n-1}}{a_{n-1.n}} x_i )( x_{n-1} + \sum_{i=1}^{n-2}\frac{a_{i,n}}{a_{n-1.n}} x_i ) – 2\frac{\sum_{i=1}^{n-2}a_{in}x_i \times \sum_{i=1}^{n-2}a_{i,n-1}x_i}{a_{n-1.n}} + 2\sum_{1 \leq i < j \leq n-2} x_i x_j a_{ij} \end{align*}
    Por suerte, para la notación nombraremos
    \begin{align*} q'(x_1,\dots , x_{n-2})= – 2\frac{\sum_{i=1}^{n-2}a_{in}x_i \times \sum_{i=1}^{n-2}a_{i,n-1}x_i}{a_{n-1.n}} + 2\sum_{1 \leq i < j \leq n-2} x_i x_j a_{ij} \end{align*}
    Que es una forma cuadrática en $\mathbb{R}^{n-2}$ por lo que, gracias a la hipótesis de inducción se puede escribir como
    \begin{align*} q'(x_1, \dots , x_{n-2})= \sum_{i=1}^r \alpha’_i (l’_i(x_1, \dots , x_{n-2}))^2 \end{align*}
    Con $\{ l’_1, \dots , l’_r\} \subseteq (\mathbb{R}^{n-2})^*$ linealmente independientes, trabajemos con la otra parte de $q$, para esto usaremos otra identidad algebraica
    \begin{align*} ab=\frac{(a+b)^2 -(a-b)^2 }{4} \end{align*}
    Y nombrando
    \begin{align*} a =(x_n + \sum_{i=1}^{n-2}\frac{a_{i,n-1}}{a_{n-1.n}} x_i ), \qquad b= ( x_{n-1} + \sum_{i=1}^{n-2}\frac{a_{i,n}}{a_{n-1.n}} x_i ) \end{align*}
    Por suerte, aquí no necesitamos sustituir y desarrollar, definamos ingeniosamente $l_{r+1}$ y $l_{r+2}$ como sigue
    \begin{align*} l_{r+1}(x_1, \dots , x_n)= x_n + x_{n-1} + \sum_{i=1}^{n-2}\frac{a_{i,n-1}+a_{i,n}}{a_{n-1.n}} x_i \end{align*}
    Y
    \begin{align*} l_{r+2}(x_1, \dots , x_n)= x_n – x_{n-1} + \sum_{i=1}^{n-2}\frac{a_{i,n-1}-a_{i,n}}{a_{n-1.n}} x_i \end{align*}
    De esta manera
    \begin{align*}2a_{n-1.n}(x_n + \sum_{i=1}^{n-2}\frac{a_{i,n-1}}{a_{n-1.n}} x_i )( x_{n-1} + \sum_{i=1}^{n-2}\frac{a_{i,n}}{a_{n-1.n}} x_i ) \\
    =\frac{a_{n-1.n}}{2} [ (l_{r+1}(x_1, \dots , x_n))^2- (l_{r+2}(x_1, \dots , x_n))^2 ] \end{align*}
    Para finalizar, con todas estas igualdades tenemos que
    \begin{align*} q(x_1,\dots , x_n)= \sum_{i=1}^r \alpha’_i (l’_i(x_1, \dots , x_{n-2} ))^2 + \frac{a_{n-1.n}}{2} [ (l_{r+1}(x_1, \dots , x_n))^2- (l_{r+2}(x_1, \dots , x_n))^2 ]\end{align*}
    Y sólo resta cambiar nombres como sigue
    \begin{align*} l_i(x_1, \dots x_n) = l’_i(x_1, \dots , x_{n-2}) \qquad \text{y} \qquad \alpha_i=\alpha’_i \end{align*}
    Para $ i \in \{1, \dots r \}$ y
    \begin{align*} \alpha_{r+1}=\frac{a_{n-1.n}}{2} \qquad \text{y} \qquad \alpha_{r+2}=-\frac{a_{n-1.n}}{2} \end{align*}
    Ya con estos nombres, $q$ se escribe como sigue
    \begin{align*} q(x_1,\dots , x_n)= \sum_{i=1}^{r+2} \alpha_i (l_i(x_1, \dots , x_n ))^2 \end{align*}
    con $\{ l_1, \dots , l_{r+2} \}$ linealmente independientes (¿Por qué?).

Por lo que, en cualquiera de los dos casos propuestos se cumple que
\begin{align*} q(x)= \sum_{i=1}^{r} \alpha_i (l_i(x))^2 \end{align*}
con con $\{ l_1, \dots , l_{r} \}$ linealmente independientes.

Así por principio de inducción tenemos que el teorema de Gauss se cumple para cualquier forma cuadrática $q$ en $\mathbb{R^n}$ pata todo $n \in \mathbb{N}$.

$\square$

Más adelante

Debido a la longitud de esta demostración, los ejemplos serán reservados para la siguiente entrada, además, al principio de la entrada se dieron pistas a que existe una relación entre formas bilineales y matrices, esto será explorado posteriormente.

Por el momento nos centraremos en utilizar el teorema de Gauss para poder escribir $q$ de una forma estándar y observar que propiedades extra podemos obtener al escribirla de esta manera, esto motivará el siguiente teorema de interés la ley de inercia de Sylvester.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. Sea $q$ una forma cuadrática en $\mathbb{R}^n$ y $x=(x_1, \dots x_n)$ muestra que \begin{align*} q(x)=\sum_{i,j=1}^na_{ij}x_ix_j \text{ con } a_{ij}=(b_i,b_j). \end{align*}
  2. Sea $A=[a_{ij}]$ con $a_{ij}$ definida del problema anterior, ¿Qué podrías afirmar acerca de A sin importar la $q$ elegida?
  3. Sea $A=[a_{ij}]$ una matriz simétrica en $M_n(\mathbb{R})$ y definamos
    \begin{align*} q: \mathbb{R}^n \rightarrow \mathbb{R} \text{ con } q(x)=\sum_{i,j=1}^na_{ij}x_ix_j \end{align*} ¿Es $q$ así definida una forma cuadrática?
  4. En el ejercicio anterior, ¿Es necesario que $A$ sea simétrica?
  5. Sean $\alpha _1, \dots , \alpha_r $ números reales y $l_1 , \dots , l_r$ formas lineales, linealmente independientes en $\mathbb{R}^n$ y $x \in \mathbb{R}^n$ definamos $q$ como sigue:
    \begin{align*} q(x)=\sum_{i,j=1}^n \alpha_i(l_i(x)) \end{align*}
    ¿Es $q$ así definida una forma cuadrática en $\mathbb{R}^n$?

Álgebra Lineal II: Repaso de formas bilineales y formas cuadráticas

Introducción

Aunque en previas entradas ya se ha hablado de formas bilineales y formas cuadráticas, retomaremos su estudio en esta entrada y nos dedicaremos a probar algunas propiedades que previamente no fueron demostradas.

También nos familiarizaremos con algunos tipos especiales de formas bilineales e intentaremos extender las definiciones ya dadas, esta vez para espacios vectoriales cuyo campo sea $\mathbb{C}$

Formas bilineales

Definición
Sean $V$ un espacio vectorial en $\mathbb{R}$, una forma bilineal es una función $b: V \times V \rightarrow \mathbb{R}$ tal que:

  • Para cualquier $x \in V$ la función $b(x, \cdot) : V \rightarrow \mathbb{R}$ que envía $v$ a $b(x,v)$ es lineal.
  • Para cualquier $y \in V$ la función $b(\cdot, y) : V \rightarrow \mathbb{R}$ que envía $v$ a $b(v,y)$ es lineal.

Además, $b$ se llamará simétrica si $b(x,y)=b(y,x)$ para cualquier par $x,y \in \mathbb{R}$.
Observación


Sean $x_1, \dots x_n \in V$, $y_1, \dots y_m \in V$ y $a_1, \dots a_n, c_1, \dots c_m \in \mathbb{R}$ entonces, para cualquier forma bilineal $b$ en $V$ tenemos que
\begin{align*} b(\sum_{i=1}^n a_ix_i,\sum_{j=1}^m c_jy_j)=\sum_{i=1}^n\sum_{j=1}^m a_icjb(x_i,y_j)\end{align*}

Solución
Escribamos la suma completa en la primera entrada de $b$
\begin{align*} b(\sum_{i=1}^n a_ix_i,\sum_{j=1}^m c_jy_j)=b(a_1x_1+ \dots + a_nx_n, \sum_{j=1}^m c_jy_j) \end{align*}
Usando la linealidad en la primera entrada de $b$ tenemos
\begin{align*} a_1b(x_1, \sum_{j=1}^m c_jy_j)+ \dots +a_nb(x_n, \sum_{j=1}^m c_jy_j)\end{align*}
Por lo que
\begin{align*} b(\sum_{i=1}^n a_ix_i,\sum_{j=1}^m c_jy_j)=\sum_{i=1}^n a_ib(x_i, \sum_{j=1}^m c_jy_j) \end{align*}
Procediendo de manera similar en la segunda entrada ahora
\begin{align*} b(\sum_{i=1}^n a_ix_i,\sum_{j=1}^m c_jy_j)=\sum_{i=1}^n a_ib(x_i,c_1y_1+ \dots + c_my_m) \end{align*}
\begin{align*}=\sum_{i=1}^n a_ic_1b(x_i,y_1)+\dots \sum_{i=1}^n a_ic_mb(x_i,y_m)=\sum_{j=1}^m\sum_{i=1}^n a_ic_jb(x_i,y_j)=\sum_{i=1}^n\sum_{j=1}^m a_ic_jb(x_i,y_j) \end{align*}
También cabría notar que, el conjunto de formas bilineales es un subespacio vectorial del espacio de funciones de $V \times V \rightarrow \mathbb{R} $ y a su vez, tiene con subespacio vectorial el conjunto de formas bilineales simétricas.

Formas cuadráticas

Definición
Sea $V$ espacio vectorial en $\mathbb{R}$ una forma cuadrática es una función $q: V \rightarrow \mathbb{R}$ tal que existe una forma bilineal $b: V \times V \rightarrow \mathbb{R}$ que cumple \begin{align*}q(x)=b(x,x) \end{align*}.
Recordemos también que puede existir una forma cuadrática que tenga más de una forma bilineal asignada, es decir, que existan dos formas bilineales distintas que definan la misma forma cuadrática
\begin{align*} \forall x \in V \; \; \; \; b_1(x,x)=b_2(x,x) \text{ ? }\end{align*}
Tristemente sí, pensemos en lo siguiente, definamos a $V=\mathbb{R}^2$ y
\begin{align*} b_1(x,y)=x_1y_2-x_2y_1 \; \; \; \; \text{ y } \; \; \; \; b_2(x,y)=x_2y_1-x_1y_2 \end{align*}
de donde
\begin{align*} b_1(x,x)=x_1x_2-x_2x_1=0=x_2x_1-x_1x_2=b_2(x,x) \end{align*}
por lo que $b_1$ y $b_2$ tendrían la misma forma cuadrática asignada.

Por suerte basta agregar una restricción a la forma bilineal para que tengamos esta deseada unicidad, lo que motiva el siguiente teorema.

Teorema (Identidad de polarización)
Sea $q: V \rightarrow \mathbb{R}$ una forma cuadrática, existe una única forma bilineal simétrica $b: V \times V \rightarrow \mathbb{R}$ tal que $q(x)=b(x,x)$ para todo $x \in V$.

Más aún, esta $b$ se puede encontrar de la siguiente manera:
\begin{align*} b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2} \end{align*}
Demostración
Por como fue definido forma cuadrática sabemos que existe una forma bilineal (aunque no necesariamente que ser simétrica) $B$ tal que $q(x)=B(x,x)$.
Así definamos una función
\begin{align*} b: V \times V \rightarrow \mathbb{R} \; \; \; \;\text{ con }\; \; \; \; b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2} \end{align*}.
Dado que $q(x)=B(x,x)$, podemos calcular $b$ como
\begin{align*} b(x,y)=\frac{B(x+y,x+y)-B(x,x)-B(y,y)}{2} \end{align*}
descompongamos el primer sumando por separado;
\begin{align*} B(x+y,x+y)=B(x,x+y)+B(y,x+y)=B(x,x)+B(x,y)+B(y,x)+B(y,y) \end{align*}
sustituyendo esto en $b(x,y)$ nos arroja la igualdad
\begin{align*} b(x,y) =\frac{B(x,x)+B(x,y)+B(y,x)+B(y,y)-B(x,x) -B(y,y)}{2}\end{align*}
de donde finalmente se obtiene
\begin{align*} b(x,y)=\frac{B(x,y)+B(y,x)}{2} \end {align*}.
Utilizando esto probemos la simetría, ya que
\begin{align*} b(x,y)=\frac{B(x,y)+B(y,x)}{2}=\frac{B(y,x)+B(x,y)}{2}=b(y,x) \end{align*}
además, esta misma nos permite demostrar la bilinealidad, si fijamos la primera coordenada, aún tenemos que $B(x, \cdot )$ y $B(\cdot , x)$ son lineales, por lo que
\begin{align*} b(x,\cdot)=\frac{B(x,\cdot)+B(\cdot,x)}{2} \end{align*}
también lo es (análogamente se prueba que al fijar la segunda coordenada la linealidad se mantiene)
más aún, esta igualdad nos sirve para probar que $q(x)=b(x,x)$ ya que:
\begin {align*} b(x,x)=\frac{B(x,x)+B(x,x)}{2}=B(x,x)=q(x) \end{align*}
por lo que $b$ es una forma bilineal simétrica asociada a $q$.

Finalizando con la unicidad, si suponemos que existe $b’: V \times V \rightarrow \mathbb{R}$ simétrica tal que $q(x)=b'(x,x)$, esta debe cumplir lo siguiente
\begin{align*} q(x+y)=b'(x+y,x+y)=b'(x,x)+2b'(x,y)+b'(y,y) \end{align*}
que a su vez al despejar a $b'(x,y)$ nos arroja
\begin{align*} b'(x,y)=\frac{q(x+y)-q(x)-q(y)}{2}=b(x,y) \end{align*}

$\square$

Finalicemos recordando una última definición que relaciona a $q$ con su única forma bilineal simétrica.


Definición
Sea $q: V \rightarrow \mathbb{R}$ una forma cuadrática y $b: V \times V \rightarrow \mathbb{R}$ su única forma bilineal simétrica tal que:
\begin{align*} b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2} \end{align*}
a $b$ se le llamará la forma polar de $q$.

Un par de ejemplos

Ejemplo
Sean $V= \mathbb{R^n}$, $x,y \in V$ tal que $x=(x_1, . . . , x_n)$ y $y =(y_1, . . . , y_n)$ y $\{a_1, . . . a_n\} \subset \mathbb{R}$ definamos $b$ como sigue:
\begin {align*} b(x,y)=a_1x_1y_1+ . . . + a_nx_ny_n \end{align*}
Probemos que así definido, $b$ es una función bilineal.

Solución
Para probar que $b$ es bilineal, probaremos que alguna de las funciones $b (x, \cdot)$ o $b (\cdot, y)$ son lineales para algún $x$ o $y \in \mathbb{R}^n$ fijos, siendo la otra análoga, probemos solamente para la primera de estas.
Sean $p,q \in \mathbb{R}$ y $\lambda \in \mathbb{R}$ tenemos que:
\begin{align*} b(x,\lambda p+q)=a_1x_1(\lambda p_1 + q_1) + a_2x_2(\lambda p_2 + q_2)+ \dots a_nx_n(\lambda p_n + q_n) \end{align*}
ya que todos los miembros de esta operación son números reales, utilicemos las propiedades distributiva y conmutativa lo que nos daría que:
\begin{align*} b(x,\lambda p+q)=\lambda a_1x_1p_1 + \lambda a_2x_2 p_2 + \dots \lambda a_nx_n p_n + a_1x_1q_1+a_2x_2q_2+ \dots + a_nx_nq_n \\
\\
=\lambda (a_1x_1p_1 + a_2x_2 p_2 + \dots a_nx_n p_n)+ (a_1x_1q_1+a_2x_2q_2+ \dots a_nx_nq_n)=\lambda b(x,p) + b(x,q) \end{align*}.

$\square$

En particular, si tenemos que $a_1, \dots , a_n =1$ podemos observar que $b$ es el producto interno canónico de $\mathbb{R}^n$.

Un no ejemplo
Sea $q: \mathbb{R}^2 \rightarrow \mathbb{R}$ dada como sigue
\begin{align*} q(x,y)=x^2+y^2-8x \end{align*}
¿Es $q$ una forma cuadrática?

Solución
La respuesta es que no, supongamos que $q$ sí es una forma cuadrática, entonces se debe tener que existe $b$ su forma polar que debe cumplir
\begin{align*} b((x,y),(x,y))=x^2+y^2-8x \end{align*}
para cualquier par de $(x,y) \in \mathbb{R}$ en particular, dado un par $(x,y)$ debemos tener que la igualdad anterior también se cumple para $(-x,-y)$
\begin{align*} x^2+y^2-8x=b((x,y),(x,y))=-(-b((x,y),(x,y)))=b(-(x,y),-(x,y))=b((-x,-y),(-x,-y)) \end{align*}
ahora calculando el último termino de esta igualdad tenemos que
\begin{align*} b((-x,-y),(-x,-y))=x^2+y^2-8(-x)=x^2+y^2+8x \end{align*}
finalicemos juntando los extremos de esta larga cadena de igualdades
\begin{align*} x^2+y^2-8x=x^2+y^2+8x \end{align*}
por lo que
\begin{align*} 16x=0 \end{align*}
Para todo $x \in \mathbb{R}$, lo cual es claramente falso.

Este error nació de suponer que $q$ era una forma cuadrática.

Por lo tanto $q$ no es forma cuadrática.

$\square$

Más adelante

En las siguientes entradas veremos un par de teoremas importantes acerca de formas cuadráticas, así como su relación con matrices, incluso extenderemos las definiciones aquí vistas a funciones que no estén definidas únicamente en $\mathbb{R}$

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. Sea $V=M_n(\mathbb{R})$ y definamos $b:V \times V \rightarrow \mathbb{R}$ la función dada por $b(A,B)=Tr(AB)$, demuestra que $b$ es una forma bilineal simétrica.
  2. Sea $V=M_n(\mathbb{R})$ y definamos $b’:V \times V \rightarrow \mathbb{R}$ la función dada por $b'(A,B)=Tr(A^tB)$, demuestra que $b’$ es una forma bilineal simétrica.
  3. Sea $V=\mathcal{C}^0[0,1]$ (El espacio vectorial de funciones reales continuas en el intervalo $[0,1]$) y $q(x): V \rightarrow \mathbb{R}$ tal que $q(f)=\int_0^1f(x)^2dx$ ¿Es $q$ una forma cuadrática?
  4. Sea $q$ una forma cuadrática en $V$ con $b$ su polar, demuestra que $\forall x,y \in V$
    \begin{align*}
    b(x,y)=\frac{q(x+y)-q(x-y)}{4}
    \end{align*}.
  5. Sea $q$ una forma cuadrática en $V$ con $b$ su polar, demuestra que $\forall x,y \in V$
    \begin{align*}
    q(x+y)+q(x-y)=2(q(x)+q(y))
    \end{align*}.
  6. ¿Por qué en esta entrada se empieza a utilizar la palabra forma, en lugar de función, que es normalmente utilizada? ¿Hay alguna diferencia entre una forma y una función?

Álgebra Lineal II: Polinomio característico de familias especiales

[latexpage]

Introducción

En la entrada anterior dimos la definición de polinomio característico. Vimos que siempre es un polinomio mónico y que su grado es exactamente del tamaño de la matriz. También, vimos cómo calcular el polinomio mínimo en algunos casos particulares. En esta entrada veremos varias propiedades que nos van a facilitar el calcular el polinomio característico (y por tanto los eigenvalores) en un amplio rango de matrices diferentes.

Comenzaremos estudiando el polinomio mínimo de las triangulares superiores. Luego, veremos cómo calcular el polinomio de matrices nilpotentes. No solo nos harán la vida más fácil los resultados a continuación, si no que los usaremos en la teoría más adelante.

Matrices triangulares superiores y transpuestas

El caso de las matrices triangulares superiores es muy sencillo, como veremos a través del siguiente problema.

Problema. Sea $A=[a_{ij}]$ una matriz triangular superior. Demuestra que

\begin{align*}
\chi_A(X)=\prod_{i=1}^{n}(X-a_{ii}).
\end{align*}

Solución. La matriz $X I_n-A$ sigue siendo triangular superior, y sus entradas diagonales son precisamente $X-a_{ii}$. Usando que el determinante de una matriz triangular superior es el producto de sus entradas diagonales y usando la definición se sigue que

\begin{align*}
\chi_A(X)=\det(X I_n-A)=\prod_{i=1}^{n} (X-a_{ii}).
\end{align*}

$\square$

Ejemplo. Si queremos calcular el polinomio característico de la matriz

\begin{align*}
A=\begin{pmatrix}
1 & -\pi & \sqrt{2}\\
0 & -2 & 10^{10}\\
0 & 0 &3
\end{pmatrix}.
\end{align*}

entonces podemos aplicar el problema anterior y deducir inmediatamente que

\begin{align*}
\chi_A(X)=(X-1)(X+2)(X-3).
\end{align*}

¡Qué complicado hubiera sido calcular el determinante a pie!

$\square$

Por otro lado, recordando la demostración que dice que los eigenvalores de la transpuesta de una matriz son iguales a los de la matriz original era de esperarse que el polinomio característico también «se portara bien» bajo transposición.

Problema. Demuestra que las matrices $A$ y $^{t}A$ tienen el mismo polinomio característico para cualquier $A\in M_n(F)$.

Solución. Notamos que $^{t}(X I_n-A)= XI_n-\ ^{t}A$. Como una matriz y su transpuesta tienen el mismo determinante se tiene que

\begin{align*}
\chi_A(X)&=\det(XI_n-A)\\&=\det(\ ^{t}(XI_n-A))\\&= \det(XI_n-\ ^{t}A)\\&=\chi_{^t A}(X).
\end{align*}

$\square$

Estrictamente hablando, estamos haciendo un poquito de trampa en la demostración anterior (y de hecho en varias que involucran a la variable $X$). Las propiedades de determinantes que hemos visto (como que una matriz y su transpuesta tienen el mismo determinante) las obtuvimos partiendo de la hipótesis de que las entradas vienen de un campo $F$. Pero cuando agregamos a la variable $X$, ahora las entradas vienen más bien de un anillo: el anillo de polinomios en $F[X]$. Aunque esto parezca un problema, en realidad no lo es. Las propiedades que usamos pueden mostrarse también en ese contexto.

Veamos ahora cómo podemos aplicar el resultado anterior en un ejemplo concreto.

Ejemplo. Queremos calcular el polinomio característico de la matriz

\begin{align*}
A= \begin{pmatrix} 0 & 0 &0\\ -4 & 9 & 0\\ -1 & -1 & 2.\end{pmatrix}
\end{align*}

Para esto notamos que

\begin{align*}
^t A=\begin{pmatrix} 0 & -4 & -1\\ 0 & 9 & -1\\ 0 & 0 & 2\end{pmatrix}
\end{align*}

que es triangular superior. Usando el primer problema

\begin{align*}
\chi_{^t A}(X)= X(X-9)(X-2).
\end{align*}

Finalmente por el último problema $$\chi_{A}(X)=\chi_{^t A}(X)=X(X-9)(X-2).$$

$\square$

El término de la traza

Como vimos en la entrada anterior, en el polinomio $\det(XA+B)$ aparecen los términos $\det(A)$ y $\det(B)$. El siguiente problema aplica esto al polinomio característico e incluso deducimos otro término: la traza.

Problema. Demuestra que el polinomio característico de $A\in M_n(F)$ es de la forma

\begin{align*}
\chi_A(X)= X^n- \operatorname{Tr}(A)X^{n-1}+\dots+(-1)^n \det A.
\end{align*}

Solución. Regresemos a la definición

\begin{align*}
\det (X I_n-A)=\sum_{\sigma\in S_n} \operatorname{sign}(\sigma)\left(X\delta_{1\sigma(1)}-a_{1\sigma(1)}\right)\cdots \left(X \delta_{n\sigma(n)}-a_{n\sigma(n)}\right).
\end{align*}

Haciendo la expansión salvajemente podemos recuperar al menos los primeros términos:

\begin{align*}
(X\delta_{1\sigma(1)}-a_{1\sigma(1)})\cdots (X\delta_{n\sigma(n)}-a_{n\sigma(n)})&=X^{n}\prod_{i=1}^{n} \delta_{i\sigma(i)}\\
&- X^{n-1}\sum_{j=1}^{n}\left(\prod_{k\neq j} \delta_{k\sigma(k)}\right)a_{j\sigma(j)}+\dots.
\end{align*}

Más aún, nota cómo el producto $\prod_{j=1}^{n}\delta_{j\sigma(j)}$ es distinto de cero si y sólo si $j=\sigma(j)$ para todo $j$: es decir si $\sigma$ es la identidad. Esto muestra que $\chi_A(X)$ es mónico de grado $n$, como ya habíamos mencionado en la entrada anterior.

Además, el término constante está dado por \begin{align*}\chi_A(0)&=\det(0\cdot I_n-A)\\&=\det(-A)\\&=(-1)^{n}\det(A)\end{align*}. Alternativamente pudimos haber usado la primera proposición de esta entrada para concluir estos hechos.

Nos falta estudiar el término de grado $n-1$. Si $j\in \{1,2,\dots, n\}$, entonces $\prod_{k\neq j}\delta_{j\sigma(j)}$ es distinto de cero solo si $\sigma(k)=k$ para todo $k\neq j$: pero $\sigma$ es una permutación, en particular una biyección, lo que fuerza que $\sigma(j)=j$ también y entonces $\sigma$ sea la identidad. Entonces el término de $X^{n-1}$ en $$(X\delta_{1\sigma(1)}-a_{1\sigma(1)})\cdots (X\delta_{n\sigma(n)}-a_{n\sigma(n)})$$ es distinto de cero sólo cuando $\sigma$ es la identidad. En ese caso es precisamente $$-\sum_{j=1}^{n} a_{jj}=-\operatorname{Tr}(A).$$

$\square$

Ejemplo. Si $A$ es la matriz del primer problema de esta entrada, tenemos que

\begin{align*}
\chi_A(X)&=(X-1)(X+2)(X-3)\\&= X^3-2 X^2+\dots +6.
\end{align*}

Nota cómo el término de $X^2$ es en efecto $-\text{Tr}(A)= -(1-2+3)$ y el último es $-\det(A)$.

$\square$

Matrices nilpotentes

El caso de las matrices nilpotentes es todavía más sencillo.

Problema. Sea $A\in M_n(F)$ una matriz nilpotente. Es decir, existe $k\geq 1$ tal que $A^{k}=O_n$.

  1. Demuestra que
    \begin{align*}
    \chi_A(X)=X^{n}.
    \end{align*}
  2. Demuestra que $\operatorname{Tr}A^{m}=0$ para todo $m\geq 1$.

Solución.

  1. Sea $k\geq 1$ tal que $A^{k}=O_n$ (existe pues $A$ es nilpotente). Entonces
    \begin{align*}
    X^{k}I_n&=X^{k}I_n-A^{k}\\&=(XI_n-A)(X^{k-1}I_n+X^{k-2}A+\dots +A^{k-1}).
    \end{align*}
    Tomando el determinante de ambos lados y recordando que abre productos llegamos a
    \begin{align*}
    X^{nk}&=\det(X^{k}I_n)\\&= \chi_{A}(X)\cdot \det(X^{k-1}I_n+\dots +A^{k-1}).
    \end{align*}
    De aquí, concluimos que $\chi_{A}(X)$ tiene que dividir a $X^{nk}$, pero sabemos que $\chi_A(X)$ es mónico y de grado $n$. Concluimos entonces que $\chi_A(X)=X^{n}$.
  2. Puesto que $A^{m}$ también es una matriz nilpotente, el inciso anterior nos dice que
    \begin{align*}
    \chi_{A^{m}}(X)=X^{n}.
    \end{align*}
    Pero sabemos por la sección sobre la traza que el término de $X^{n-1}$ es $-\operatorname{Tr}(A^{m})$. Como este término no aparece, concluimos que la traza es cero.

$\square$

Ejemplo. Para calcular el polinomio característico de la matriz

\begin{align*}
A=\begin{pmatrix}
5 & -3 &2\\
15 & -9 & 6\\
10 & -6 &4
\end{pmatrix}
\end{align*}

podríamos notar (aunque no sea obvio a simple vista) que $A^2=O_3$. Luego, por el problema anterior, $\chi_A(X)=X^3$.

$\square$

Un último caso particular

Acabamos con una última familia de matrices con polinomio característico simple. Esta familia está descrita por su forma, y será de particular importancia para el teorema de Cayley-Hamilton.

Problema. Para escalares $a_0,\dots, a_{n-1}\in F$ consideramos la matriz

\begin{align*}
A=\begin{pmatrix}
0 & 0 & 0 & \dots & 0 & a_0\\
1 & 0 & 0 & \dots & 0 & a_1\\
0 & 1 & 0 & \dots & 0 & a_2\\
\dots & \dots & \dots & \dots & \dots &\dots\\
0 & 0 & 0 & \dots & 1 &a_{n-1}
\end{pmatrix}.
\end{align*}

en $M_n(F)$.

Demuestra que

\begin{align*}
\chi_A(X)=X^{n}-a_{n-1}X^{n-1}-\dots -a_0.
\end{align*}

Solución. Sea $P(X)=X^{n}-a_{n-1}X^{n-1}-\dots-a_0$. Considera la matriz

\begin{align*}
B=X I_n-A=\begin{pmatrix} X & 0 & 0 &\dots &0& -a_0\\ -1 & X & 0 &\dots & 0 &-a_1\\ 0 & -1 & X &\dots& 0&-a_2\\ \dots & \dots & \dots & \dots &\dots &\dots\\ 0 & 0 & 0 & \dots & -1 & X-a_{n-1}\end{pmatrix}.
\end{align*}

Sumando el segundo renglón multiplicado por $X$ al primer renglón, luego sumándole también al primer renglón el tercero multiplicado por $X^2$, el cuarto por $X^3$, y así sucesivamente hasta sumar el último renglón multiplicado por $X^{n-1}$ llegamos a la matriz

\begin{align*}
C=\begin{pmatrix}
0 & 0 & 0 & \dots &0& P(X)\\
-1 & X & 0 & \dots &0 & -a_1\\
0 & -1 & X & \dots & 0 & -a_2\\
\dots & \dots & \dots & \dots & \dots &\dots\\
0 & 0 & 0 & \dots & -1 & X-a_{n-1}
\end{pmatrix}.
\end{align*}

Recordamos que el determinante es invariante bajo sumas de renglones, por lo que

\begin{align*}
\chi_A=\det B=\det C.
\end{align*}

Expandiendo el determinante de $C$ en el primer renglón obtenemos sencillamente

\begin{align*}
\det C&=(-1)^{n+1}P(X) \cdot \begin{vmatrix} -1 & X & \dots & 0\\ 0 & -1 & \dots & 0\\ \dots &\dots & \dots & \dots \\ 0 & 0 & \dots & -1 \end{vmatrix}\\&= (-1)^{n+1} P(X)(-1)^{n-1}\\&=P(X).
\end{align*}

Para la segundaigualdad usamos que el determinante es el de una matriz triangular superior con puros $-1$ como entradas. Para la última, usamos que $n+1+n-1=2n$ siempre es un número par, así que queda $-1$ elevado a un número par. Esto concluye la prueba.

$\square$

Una de las consecuencias de la proposición anterior es que para cualquier polinomio mónico $P$ de grado $n$ en $F[X]$, existe una matriz en $M_n(F)$ tal que su polinomio característico es $P$.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más a profundidad la teoría vista.

  1. Encuentra una matriz $A$ tal que $\chi_A(X)=X^5-5X^3+X^2-2X+2$. Sugerencia: Usa el último problema.
  2. Demuestra que el polinomio característico de una matriz $A=[a_{ij}]$ triangular inferior está dado por $\prod_{i=1}^{n}(X-a_{ii})$.
  3. Demuestra que $0$ es eigenvalor de una matriz si y sólo si su determinante es cero.
  4. Calcula el polinomio característico de la siguiente matriz con entradas reales:
    \begin{align*}
    A= \begin{pmatrix} 5 & 5 & 5 \\ 6 & 6 & 6\\ -11 & -11 & -11\end{pmatrix}.
    \end{align*} Sugerencia: ¿Quién es $A^2$?
  5. ¿Es cierto que si $F$ es cualquier campo y $A$ es una matriz con entradas en $F$, entonces el hecho de que $\operatorname{Tr}(A)=0$ implica que $A$ sea nilpotente? Sugerencia: Piensa en $F_2$.
  6. Da una demostración alternativa al último problema de esta entrada usando inducción matemática sobre el tamaño de la matriz.

Más adelante

En la próxima entrada veremos unos últimos aspectos teóricos del polinomio característico antes de lanzarnos de lleno al teorema de Cayley-Hamilton y su demostración.

Álgebra Lineal II: Introducción al curso

[latexpage]

Introducción

En esta serie de entradas continuaremos platicando acerca de álgebra lineal. Son una continuación a las entradas de Álgebra Lineal I que también se encuentran disponibles en el blog. En el transcurso de ellas, cubriremos los temas que establece el temario de la materia Álgebra Lineal II de la Licenciatura en Matemáticas de la UNAM.

Primero comenzaremos dando un pequeño repaso de lo que se ha visto en Álgebra Lineal I y después daremos un pequeño panorama de lo que se cubrirá en este curso.

Algunos recordatorios de Álgebra Lineal I

En el primer curso de álgebra lineal se establecieron muchos fundamentos del área, relacionados con espacios vectoriales, transformaciones lineales, matrices y más. A continuación damos un breve recordatorio de cada unidad temática. Usaremos letras cursivas para mencionar términos que ya deberías conocer. Si algunos de ellos no los recuerdas. Usaremos letras negritas para hacer énfasis en resultados fundamentales del primer curso, que es muy importante que recuerdes qué dicen y cómo se usan. Todo esto lo puedes encontrar en las notas anteriores.

En la primer parte de ese curso, recordamos las definiciones básicas de vector, matriz y transformación lineal, pero únicamente nos enfocamos en un espacio vectorial muy sencillo: $F^n$, que consiste de todos los vectores con $n$ entradas en un campo $F$. Se definieron operaciones de suma y producto escalar en este espacio. También hablamos de cómo multiplicar matrices. Esto fue suficiente para plantear la idea de resolver sistemas de ecuaciones lineales. Primero estudiamos los sistemas de ecuaciones lineales homogéneos, pues de acuerdo al principio de superposición, esto es suficiente. Luego, vimos el algoritmo de reducción gaussiana, que nos permite llevar cualquier matriz a su forma escalonada reducida. Esto resulta fundamental para calcular todo tipo de cosas en álgebra lineal: resolver sistemas de ecuaciones, invertir matrices, encontrar determinantes, encontrar espacios generados, etc.

En la segunda parte introdujimos el concepto de espacio vectorial en general. Hablamos de $F^n$, pero también del espacio de matrices $M_{m,n}(F)$, del espacio de polinomios $F[x]$, de los espacios de polinomios de grado a lo más $n$, $F_n[x]$, y de algunos otros como los de funciones con ciertas propiedades (continuas, diferenciables, limitadas a un intervalo, acotadas, etc.) A partir de las nociones de combinación lineal, independencia lineal y generadores, desarrollamos la teoría de dimensión. Un resultado crucial en dimensión finita es el lema de Steinitz. Tras hablar de un espacio vectorial, comenzamos a hablar de «funciones bonitas» entre ellos. Las primeras que tratamos fueron las transformaciones lineales. Un resultado crucial es que, en dimensión finita y tras elegir una base cada transformación lineal corresponde a una matriz y viceversa. Como bases distintas dan matrices distintas, fue necesario discutir qué sucede al cambiar de base, por lo que se introdujeron matrices de cambio de base. Otro resultado crucial es el teorema rango-nulidad.

La tercera parte fue mucho más geométrica. En ella hablamos de las formas lineales y de las formas bilineales. A partir de las formas lineales construimos a los espacios duales y desarrollamos la teoría de dualidad. Definimos el concepto de hiperplano. Una de las principales aplicaciones de la teoría de dualidad fue mostrar que en dimensión finita todo subespacio es intersección de hiperplanos. En el caso de formas bilineales, nos enfocamos mucho más en aquellas que van a $\mathbb{R}$. A partir de ellas definimos formas cuadráticas. Estudiamos el caso muy especial de espacios euclideanos, que son, a grandes rasgos espacios vectoriales reales con una forma bilineal «bonita». En este tipo de espacios se puede hablar de normas, distancias y ángulos. Los resultados cruciales fueron la desigualdad de Cauchy-Schwarz y la existencia de bases ortonormales. Para encontrarlas, hablamos del proceso de Gram-Schmidt.

Finalmente, vino la unidad 4 en la que se desarrolló de manera formal el concepto de determinante, tanto para vectores, como para matrices y transformaciones lineales. Para ello fue importante hablar de formas $n$-lineales (que en cierta forma generalizan a las bilineales) con propiedades especiales, como ser alternantes. Se vieron muchas propiedades de los determinantes para entenderlos a profundidad de manera teórica y práctica, en particular la expansión de Laplace. Se vio cómo los determinantes pueden ayudar a resolver sistemas de ecuaciones mediante las fórmulas de Cramer. También, con toda la teoría desarrollada hasta aquí pudimos finalmente entender con mucha profundidad los sistemas de ecuaciones lineales mediante el teorema de Rouché-Capelli. Para cerrar el curso, vimos muy por encima las ideas de eigenvalores, eigenvectores y polinomio característico. Esto nos llevó a la idea de diagonalización. Juntando toda la teoría del curso, llegamos a la cereza del pastel: el teorema espectral para matrices simétricas reales.

La idea general del segundo curso

El teorema espectral para matrices simétricas reales es un resultado precioso: bajo ciertas condiciones nos permite «llevar» una transformación (o matriz) a una «forma sencilla». Nos debe de dar la intuición de que toda la teoría que se desarrolló anteriormente la podemos utilizar para demostrar muchos otros resultados lindos de ese estilo. En Álgebra Lineal II haremos precisamente esto.

En la primer parte del curso profundizaremos en la teoría de eigenespacios, que nos permitirán entender mucho mejor cómo son los eigenvectores. Para hacer eso, será importante introducir un nuevo polinomio: el polinomio mínimo. Mostraremos muchas más propiedades de eigenvectores, eigenvalores, polinomios mínimos y característicos. Usaremos estas ideas para profundizar en las nociones de diagonalización y triangulización y enunciaremos teoremas que nos permitirán saber cuándo una matriz (o transformación) se puede llevar mediante un cambio de base a una forma más sencilla. En esta primer parte también demostraremos el bello teorema de Cayley-Hamilton, que afirma que cualquier matriz se anula en su polinomio característico.

Después de esto, en la segunda parte del curso trabajaremos para entender mejor a las formas bilineales que introdujimos en el primer curso. Ya no sólo nos limitaremos a aquellas que caen a los reales, sino que hablaremos también de aquellas que caen al campo $\mathbb{C}$ de los números complejos. Uno podría pensar que el tratamiento es análogo, pero esto dista mucho de la realidad: se requiere pensar en nuevas definiciones que involucren a los conjugados de las entradas de las matrices.

Tras establecer las propiedades principales que nos interesan en espacios vectoriales sobre $\mathbb{R}$ y $\mathbb{C}$, retomaremos la idea de demostrar teoremas de diagonalización. Ahora tendremos el teorema espectral para matrices reales y el teorema espectral para matrices complejas. Además de garantizarnos una diagonalización, estos teoremas nos garantizan que esa diagonalización es de una forma muy especial. Veremos las consecuencias teóricas que esto tiene.

Finalmente, en la última unidad temática, veremos que aunque las matrices no sean diagonalizables, en realidad no todo está perdido. Hablaremos de la forma canónica de Jordan, que es algo así como una versión débil de diagonalizar. Terminaremos el curso aprovechando todo lo visto hasta ahora para ver que cualquier matriz, sin importar sobre qué campo esté, siempre podrá ser llevada a esta forma tras un cambio de base.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más a profundidad la teoría vista.

  1. Recuerda el algoritmo de reducción gaussiana y úsalo para determinar si la matriz $\begin{pmatrix} 1 & 5 & 0 \\ 0 & 1 & 2 \\ 5 & 3 & -1\end{pmatrix}$ es invertible y, en caso de que sí, encontrar su inversa. Hazlo a mano y comprueba tu respuesta con alguna calculadora de forma escalonada reducida en línea.
  2. Encuentra una base ortogonal para el espacio de polinomios $\mathbb{R}_4[x]$ de grado a lo más $4$ con producto bilineal $\langle p, q \rangle = \sum_{j=0}^4 p(j)q(j)$. Encuentra la forma matricial de la transformación «derivar» en esta base y da su determinante.
  3. Escribe al subespacio de matrices antisimétricas en $M_3(\mathbb{R})$ como intersección de hiperplanos. ¿Qué dimensión tiene?
  4. Encuentra un sistema de $4$ ecuaciones lineales en $5$ variables cuyo espacio de soluciones tenga dimensión $2$. Después, resuélvelo usando los siguientes dos métodos: reducción gaussiana y fórmulas de Cramer.
  5. Explica qué nos garantiza el teorema espectral visto en el curso anterior para las matrices $A=\begin{pmatrix} 1 & 2 & 3 \\ 2 & 0 & 1 \\ 3 & 1 & 4 \end{pmatrix}$ y $B=\begin{pmatrix} 0 & 1 & -1 \\ 1 & 2 & -4 \\ 0 & 0 & 2 \end{pmatrix}$. Encuentra el polinomio característico de cada una de estas matrices. Esboza (sin hacerlo) cómo encontrarías los valores y vectores propios de $A$ y $B$.

Más adelante…

En la siguiente entrada ya comenzaremos con el contenido teórico del curso. Lo primero que haremos es formalizar qué quiere decir «aplicar un polinomio a una transformación lineal» y qué qué quiere decir aplicarlo a una matriz.

Entradas relacionadas

Álgebra Lineal I: Combinaciones lineales

[latexpage]

Introducción

En esta entrada presentamos el concepto de combinaciones lineales en espacios vectoriales que será fundamental para nuestro estudio. De cierta manera (que se verá más claramente cuando hablemos de bases en espacios vectoriales arbitrarios) captura un aspecto de la base canónica de $F^n$: Todo vector lo podemos escribir como $x_1 e_1+\dots+x_n e_n$, lo que con nuestro lenguaje será una combinación lineal de los vectores $e_i$.

También hablamos del concepto de espacio generado. De manera intuitiva, el espacio generado por un conjunto de vectores es el mínimo subespacio que los tiene (y que a la vez tiene a todas las combinaciones lineales de ellos). Geometricamente, los espacios generados describen muchos de los objetos conocidos como rectas y planos. De manera algebraica, este concepto nos servirá mucho en lo que sigue del curso.

Definición de combinaciones lineales

Sea $V$ un espacio vectorial sobre un campo $F$, y sean $v_1, \dots, v_n$ vectores en $V$. Por definición, $V$ contiene a todos los vectores de la forma $c_1 v_1+\dots +c_n v_n$ con $c_1, \dots, c_n \in F$. La colección de los vectores de este estilo es importante y le damos una definición formal:

Definición. Sean $v_1, \dots, v_n$ vectores en un espacio vectorial $V$ sobre $F$.

  1. Un vector $v$ es una combinación lineal de los vectores $v_1, \dots, v_n$ si existen escalares $c_1,\dots, c_n\in F$ tales que
    \begin{align*}
    v= c_1 v_1 +c_2 v_2+\dots +c_n v_n.
    \end{align*}
  2. El espacio generado (que a veces abreviaremos como el generado) por $v_1, \dots, v_n$ es el subconjunto de $V$ de todas las combinaciones lineales de $v_1,\dots, v_n$, y lo denotamos por $\text{span}(v_1, \dots, v_n)$.

Ejemplo.

  1. La matriz $A=\begin{pmatrix} 2 & 2 \\ 1 & 1 \end{pmatrix}$ es una combinación lineal de las matrices $B= \begin{pmatrix} 10 & 0 \\ 5 & 0\end{pmatrix}$ y $C=\begin{pmatrix} 0 & 1 \\ 0 & \frac{1}{2}\end{pmatrix}$ pues $A=\frac{1}{5} B + 2 C$. Así, $A$ está en el generado por $B$ y $C$.
  2. El generado $\text{span}(v)$ de un único vector en $\mathbb{R}^n$ consta de puras copias re-escaladas de $v$ (también nos referimos a estos vectores como múltiplos escalares de $v$). Usando la interpretación geométrica de vectores en $\mathbb{R}^2$ o $\mathbb{R}^3$, si $v\neq 0$ entonces $\text{span}(v)$ representa una recta por el origen en la dirección de $v$.
  3. Si $e_1=(1,0,0)$ y $e_2=(0,1,0)$, entonces
    \begin{align*}
    x e_1+ y e_2=(x,y,0).
    \end{align*}
    Como $x$ y $y$ fueron arbitrarios, podemos concluir que $\text{span}(e_1,e_2)$ consta de todos los vectores en $\mathbb{R}^3$ cuya tercer entrada es cero. Esto es el plano $xy$. En general, si $v_1, v_2$ son dos vectores no colineales en $\mathbb{R}^3$ entonces su espacio generado es el único plano por el origen que los contiene.
  4. El polinomio $3x^{10}+7$ del espacio vectorial $\mathbb{R}_{10}[x]$ no puede ser escrito como combinación lineal de los polinomios $x^{10}+x^2+1$, $x^7+3x+1$, $7x^3$. Para demostrar esto, debemos probar que no existen reales $a,b,c$ tales que $$3x^{10}+1=a(x^{10}+x^2+1)+b(x^7+3x+1)+7cx^3.$$
    Desarrollando el producto de la derecha y observando el coeficiente de $x^{10}$, necesitamos que $a$ sea igual a $3$. Pero entonces a la derecha va a quedar un término $3x^2$ que no se puede cancelar con ninguno otro de los sumandos, sin importar el valor de $b$ o $c$.

$\square$

Problemas prácticos de combinaciones lineales

La definición de que un vector sea combinación de otros es existencial. Para mostrar que sí es combinación lineal, basta encontrar algunos coeficientes. Para mostrar que no es combinación lineal, hay que argumental por qué ninguna de las combinaciones lineales de los vectores es igual al vector buscado.

Problema. Muestra que el vector $(1,1,1)$ de $\mathbb{R}^3$ no se puede expresar como combinación lineal de los vectores

\begin{align*}
v_1= (1,0,0), \hspace{2mm} v_2=(0,1,0)\text{ y } v_3=(1,1,0).
\end{align*}

Solución: Una combinación lineal arbitraria de $v_1, v_2, v_3$ es de la forma

\begin{align*}
x_1 v_1 +x_2 v_2 + x_3 v_3 = (x_1 + x_3, x_2 + x_3, 0)
\end{align*}

para $x_1,x_2,x_3$ reales. Así, las combinaciones lineales de $v_1,v_2,v_2$ siempre tienen a $0$ como tercera coordenada. De esta forma, ninguna de ellas puede ser igual a $(1,1,1)$.

$\square$

Más generalmente, consideramos el siguiente problema práctico: dada una familia de vectores $v_1, v_2, \dots, v_k$ en $F^n$ y un vector $v\in F^n$, decide si $v$ es una combinación lineal de $v_1, \dots, v_k$. En otras palabras, si $v\in \text{span}(v_1, \dots, v_k)$.

Para resolver este problema, consideramos la matriz de tamaño $n\times k$ cuyas columnas son $v_1, \dots, v_k$. Decir que $v\in \text{span}(v_1, \dots, v_k)$ es lo mismo que encontrar escalares $x_1, \dots, x_k\in F$ tales que $v= x_1 v_1 +\dots +x_k v_k$. De manera equivalente, si tomamos $X=(x_1,\ldots,x_k)$, queremos la existencia de una solución al sistema $AX=v$.

Esto es muy útil. Como tenemos una manera práctica de decidir si este sistema es consistente (por reducción gaussiana de la matriz aumentada $(A\vert v)$), tenemos una manera práctica de resolver el problema de si un vector es combinación lineal de otros. Por supuesto, esto también nos da una solución concreta al problema, es decir, no sólo decide la existencia de la combinación lineal, sino que además da una cuando existe.

Problema. Sean $v_1=(1,0,1,2), v_2=(3,4,2,1)$ y $v_3=(5,8,3,0)$ vectores en el espacio vectorial $\mathbb{R}^4$. ¿Está el vector $v=(1,0,0,0)$ en el generado de $v_1,v_2$ y $v_3$? ¿El vector $w=(4,4,3,3)$?

Solución: Aplicamos el método que describimos en el párrafo anterior. Es decir, tomemos la matriz

\begin{align*}
A= \begin{pmatrix} 1 & 3 & 5\\ 0 & 4 & 8\\ 1 & 2 & 3\\ 2 & 1 & 0\end{pmatrix}.
\end{align*}

Queremos ver si el sistema $AX=v$ es consistente. Haciendo reducción gaussiana a mano, o bien usando una calculadora de forma escalonada reducia (por ejemplo, la de eMathHelp), obtenemos que la forma escalonada reducida de la matriz aumentada $(A\vert v)$ es

\begin{align*}
(A\vert v)\sim \begin{pmatrix} 1 & 0 & -1 & 0\\ 0 & 1 &2 & 0\\ 0 & 0 & 0 &1 \\ 0 & 0 & 0 &0\end{pmatrix}.
\end{align*}

Viendo el tercer renglón, notamos que tiene pivote en la última columna. Deducimos que el sistema no es consistente, así que $v\notin \text{span}(v_1, v_2, v_3)$.

Procedemos de manera similar para el vector $w$. Esta vez tenemos

\begin{align*}
(A\vert w)\sim \begin{pmatrix} 1 & 0 & -1 & 1\\ 0 & 1 & 2 & 1\\ 0 & 0 & 0 & 0\\ 0 & 0 & 0 &0\end{pmatrix},
\end{align*}

lo que muestra que el sistema es consistente (pues ninguna fila tiene su pivote en la última columna), por lo tanto $w\in \text{span}(v_1, v_2, v_3)$. Si queremos encontrar una combinación lineal explícita tenemos que resolver el sistema

\begin{align*}
\begin{pmatrix} 1 & 0 & -1 \\ 0 & 1 & 2\\ 0 & 0 &0 \\ 0 & 0 & 0\end{pmatrix} \cdot \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = \begin{pmatrix} 1 \\ 1\\ 0 \\ 0\end{pmatrix}.
\end{align*}

Tenemos que ninguna fila tiene su pivote en la columna $3$, así que $x_3$ es variable libre. Las variables $x_1$ y $x_2$ son pivote. Esto nos da como solución $x_1= x_3+1$ y $x_2=1-2x_3$. Entonces podemos escribir

\begin{align*}
w= (1+x_3) v_1 + (1-2x_3) v_2+ x_3v_3
\end{align*}

y esto es válido para cualquier elección de $x_3$. Podemos, por ejemplo, escoger $x_3=0$ y obtener $w=v_1 + v_2$.

$\square$

Por supuesto, en el problema anterior pudimos haber encontrado la expresión $w=v_1+v_2$ explorando el problema o por casualidad. Esto sería suficiente para mostrar qeu $w$ es combinación lineal. Pero la ventaja del método sistemático que mostramos es que no se corre el riesgo de no encontrar la solución a simple vista. De me manera definitiva nos dice si hay o no hay solución, y cuando sí hay, encuentra una.

Una caracterización del espacio generado

Probamos el siguiente resultado, que explica la importancia del concepto de espacio generado. En particular, la proposición muestra que el espacio generado es un subespacio. Si te parece un poco confusa la demostración, puede ser de ayuda leer antes la observación que le sigue.

Proposición. Sea $V$ un espacio vectorial sobre un campo $F$ y $v_1, v_2, \dots, v_n \in V$. Entonces

  1. $\text{span}(v_1, v_2, \dots, v_n)$ es la intersección de todos los subespacios vectoriales de $V$ que contienen a todos los vectores $v_1, \dots, v_n$.
  2. $\text{span}(v_1, v_2, \dots, v_n)$ es el subespacio más chico (en contención) de $V$ que contiene a $v_1,\dots, v_n$.

Demostración: Como la intersección arbitraria de subespacios es un subespacio, la parte $1$ implica la parte $2$. Probemos entonces la parte $1$.

Primero demostremos que $\text{span}(v_1, v_2,\dots, v_n)$ está contenido en todo subespacio $W$ de $V$ que tiene a $v_1, \dots, v_n$. En otras palabras, tenemos que ver que cualquier subespacio $W$ que tenga a $v_1,\ldots,v_n$ tiene a todas las combinaciones lineales de ellos. Esto se sigue de que $W$, por ser subespacio, es cerrado bajo productos por escalar y bajo sumas. Así, si tomamos escalares $\alpha_1,\ldots,\alpha_n$ tenemos que cada uno de $\alpha_1 v_1, \ldots, \alpha_n v_n$ está en $W$ y por lo tanto la combinación lineal (que es la suma de todos estos), también está en $W$.

La afirmación anterior implica que $\text{span}(v_1, \dots, v_n)$ está contenido en la intersección de todos los espacios que tienen a $v_1,\ldots, v_n$, pues está contenido en cada uno de ellos.

Ahora, queremos ver ‘la otra contención’, es decir, que $\text{span}(v_1,\ldots,v_n)$ contiene a la intersección de todos los espacios que tienen a $v_1,\ldots,v_n$. Para esto veremos primero que $\text{span}(v_1, \dots, v_n)$ es un subespacio vectorial. Sean $x,y\in \text{span}(v_1, \dots, v_n)$ y $c\in F$ un escalar. Como $x$ y $y$ son, por definición, combinaciones lineales de $v_1, \dots, v_n$, podemos escribir $x=a_1 v_1+\dots +a_n v_n$ para algunos escalares $a_i$ y $y=b_1 v_1+\dots + b_n v_n$ para unos escalares $b_i$. Así

\begin{align*}
x+cy= (a_1+cb_1) v_1 + \dots + (a_n +c b_n) v_n
\end{align*}

también es una combinación lineal de $v_1, \dots, v_n$ y por tanto un elemento del espacio generado. Se sigue que $\text{span}(v_1,\dots, v_n)$ es uno de los subespacios que tienen a $v_1, \dots, v_n$. Así, este generado «aparece» en la intersección que hacemos de subespacios que tienen a estos vectores, y como la intersección de una familia de conjuntos está contenida en cada uno de esos conjuntos, concluimos que $\text{span}(v_1, \dots, v_n)$ contiene a dicha interesección.

Argumentemos ahora la segunda parte de la proposición. Se usa el mismo argumento que arriba. Si $W$ es cualquier subespacio que contiene a $v_1, \dots, v_n$, entonces «aparece» en la intersección y por tanto $\text{span}(v_1, \dots, v_n)$ está contenido en $W$. Es decir, es más chico (en contención) que cualquier otro subespacio que contenga a estos vectores.

$\square$

Observación. Ya que la demostración previa puede resultar un poco confusa, presentamos una versión un poco más relajada de la idea que se usó. Sea $\lbrace W_i\mid i\in I\rbrace$ la familia de todos los subespacios de $V$ que contienen a $v_1, \dots, v_n$.

En el primer párrafo, probamos que

\begin{align*}
\text{span}(v_1,\dots, v_n)\subseteq W_i
\end{align*}

para todo $i\in I$. Luego $\text{span}(v_1, \dots, v_n)\subseteq \bigcap_{i\in I} W_i$.

En el segundo párrafo, probamos que $Span(v_1,\dots, v_n)$ es un subespacio que contiene a $v_1, \dots, v_n$. Es decir, entra en nuestra familia $\lbrace W_i\mid i\in I\rbrace$, es uno de los $W_i$, digamos $W_j$. Entonces

\begin{align*}
\text{span}(v_1, \dots, v_n)= W_j \supseteq \bigcap_{i\in I} W_i.
\end{align*}

En ese momento ya tenemos la primer igualdad: $\text{span}(v_1,\ldots,v_n)=\bigcap_{i\in I} W_i.$

Ahora, la segunda conclusión de la proposición se sigue de esto con una observación más: Si $W’$ es un subespacio que contiene a $v_1, \dots, v_n$ entonces también entra en nuestra familia de los $W_i$’s, es decir es $W_{p}$ para algún $p\in I$. Ahora usando el inciso $1$, tenemos que

\begin{align*}
\text{span}(v_1, \dots, v_n)= \bigcap_{i\in I} W_i \subseteq W_p=W’.
\end{align*}

Esto concluye la demostración.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más a profundidad la teoría vista.

  • ¿Se puede expresar al vector $(1,3,0,5)$ como combinación lineal de $(0,1,0,3)$, $(0,-1,2,0)$ y $(2, 0,-1,-6)$? Si sí, encuentra una o más combinaciones lineales que den el vector $(1,3,0,5)$
  • ¿Se puede expresar al polinomio $1+x^2 +3x^3 -x^4 +x^5$ como combinación lineal de los siguientes polinomios
    \begin{align*}
    x^2-3x^4,\\
    1+x^2-x^5,\\
    2x+x^4,\\
    2+x^2,\\
    5x+5x^2-x^5?
    \end{align*}
  • Sea $P$ un plano en $\mathbb{R}^3$ por el origen y $L$ una recta de $\mathbb{R}^3$ por el origen y con dirección dada por un vector $v\neq 0$. Demuestra que la intersección de $L$ con $P$ es una recta si y sólo si existen dos vectores en $P$ tal que su suma sea $v$.
  • Encuentra el conjunto generado por los vectores del espacio vectorial indicado
    • Las matrices $\begin{pmatrix} 1 & 0 \\ 0 & 1\end{pmatrix}$ y $\begin{pmatrix}1 & 0 \\ 0 & -1 \end{pmatrix}$ del espacio $M_{2}$.
    • Los vectores $(1,-1,0)$ y $(1,0,-1)$ del espacio $\mathbb{R}^3$.
    • Los polinomios $1$, $x$, $x^2$ y $x^3$ del espacio $\mathbb{R}[x]$.
  • Sea $V$ un espacio vectorial. Si $v_1, \dots, v_n, x$ son vectores en un espacio vectorial $V$, ¿será cierto siempre que $\text{span}(v_1, \dots, v_n)\subseteq \text{span}(v_1, \dots, v_n, x)$? De ser así, ¿esta contención siempre es estricta? Demuestra tu respuesta o da un contraejemplo.
  • Sean $v_1,\ldots, v_n$ y $x$ vectores en un espacio vectorial $V$. Supongamos que $v_n$ está en $\text{span}(v_1,\ldots,v_{n-1},x)$. Muestra que $$\text{span}(v_1,\ldots,v_{n-1},x)=\text{span}(v_1,\ldots,v_{n-1},v_n).$$

Más adelante…

El concepto de combinación lineal es la piedra angular para definir varios otros conceptos importantes en espacios vectoriales. Es un primer paso para definir a los conjuntos de vectores generadores y a los conjuntos de vectores linealmente independientes. Una vez que hayamos desarrollado ambos conceptos, podremos hablar de bases de un espacio vectorial, y con ello hablar de la dimensión de un espacio vectorial.

Entradas relacionadas