Archivo de la etiqueta: espacio vectorial

Seminario de Resolución de Problemas: Rango de matrices y el teorema de factorización PJQ

Introducción

El algunas ocasiones es suficiente saber si una matriz es invertible o no. Sin embargo, esta es una distinción muy poco fina. Hay algunos otros problemas en los que se necesita decir más acerca de la matriz. Podemos pensar que una matriz invertible, como transformación lineal, «guarda toda la información» al pasar de un espacio vectorial a otro. Cuando esto no sucede, nos gustaría entender «qué tanta información se guarda». El rango de matrices es una forma de medir esto. Si la matriz es de m\times n, el rango es un número entero que va de cero a n. Mientras mayor sea, «más información guarda».

Por definición, el rango de una matriz A de m\times n es igual a la dimensión del subespacio vectorial de \mathbb{R}^m generado por los vectores columna de A. Una matriz de n\times n tiene rango n si y sólo si es invertible.

Si pensamos a A como la transformación lineal de \mathbb{R}^n a \mathbb{R}^m tal que X\mapsto AX, entonces el rango es precisamente la dimensión de la imagen de A. Esto permite extender la definición de rango a transformaciones lineales arbitrarias, y se estudia con generalidad en un curso de álgebra lineal.

En las siguientes secciones enunciaremos sin demostración algunas propiedades del rango de matrices y las usaremos para resolver problemas.

Propiedades del rango de matrices

Comenzamos enunciando algunas propiedades del rango de matrices

Teorema. Sean m, n y p enteros. Sea B una matriz de n\times p, y A, A' matrices de m\times n. Sean además P una matriz de n\times p cuya transformación lineal asociada es suprayectiva y Q una matriz de r\times m cuya transformación lineal asociada es inyectiva. Entonces:

  1. \rank(A)\leq \min(m,n)
  2. \rank(AB)\leq \min(\rank(A),\rank(B))
  3. \rank(A+A')\leq \rank(A) + \rank(A')
  4. \rank(QA) = \rank(A)
  5. \rank(AP)=\rank(A)

Consideremos el siguiente problema, tomado del libro Essential Linear Algebra de Titu Andreescu.

Problema. Las matrices A y B tienen entradas reales. La matriz A es de 3\times 3, la matriz B es de 2\times 3 y además

    \[AB=\begin{pmatrix} 0 & -1 & -1 \\ -1 & 0 & -1 \\ 1 & 1 & 2 \end{pmatrix}.\]

Determina el valor del producto BA.

Sugerencia pre-solución. Un paso intermedio clave es mostrar que el producto BA es invertible.

Solución. Para empezar, afirmamos que (AB)^2=AB. Esto se puede verificar directamente haciendo el producto de matrices.

Luego, afirmamos que el rango de AB es 2. En efecto, eso se puede hacer fácilmente por definición. Por un lado, la suma de las primeras dos columnas es igual a la tercera, así que el espacio vectorial que generan las tres es de dimensión a lo más dos. Pero es al menos dos, pues las primeras dos columnas son linealmente independientes. Esto muestra la afirmación.

Ahora, usando la propiedad (2) del teorema dos veces, tenemos que

    \begin{align*}\rank(BA)&\geq \rank (A(BA)) \\&\geq \rank (A(BA)B)\\&=\rank((AB)^2) \\&= \rank (AB)\\&=2.\end{align*}

Así, BA es una matriz de 2\times 2 de rango 2 y por lo tanto es invertible.

Consideremos ahora el producto (BA)^3. Desarrollando y usando que (AB)^2=AB, tenemos que

    \begin{align*}(BA)^3 &= BABABA \\&=B(AB)^2 A\\&=BABA\\&=(BA)^2.\end{align*}

Como BA es invertible, entonces (BA)^2 tiene inversa. Si multiplicamos la igualdad (BA)^3 = (BA)^2 por esa inversa, obtenemos que

    \[BA=I_2.\]

\square

El teorema anterior nos permite acotar por arriba el rango del producto de dos matrices. También hay una desigualdad que nos permite acotar por abajo el rango de dicho producto, cuando las matrices son cuadradas.

Teorema (desigualdad de Sylvester). Para matrices A y B de n\times n, se tiene que

    \[\rank(AB)\geq \rank(A) + \rank(B) - n.\]

Problema. La matriz A es de 2020 \times 2020. Muestra que:

  • Si A tiene rango 2017, entonces la matriz A^{673} no puede ser la matriz de 2020\times 2020 de puros ceros, es decir, O_{2020}.
  • Si A tiene rango 2016, entonces la matriz A^{673} puede ser la matriz O_{2020}.

Sugerencia pre-solución. Enuncia una afirmación más general relacionada con el rango que puedas probar por inducción utilizando la desigualdad de Sylvester.

Solución. Para la primer parte, probaremos primero algo más general. Afirmamos que si M es una matriz de n \times n de rango n-s y k es un entero positivo, entonces el rango de la matriz M^k es por lo menos n-ks. Procedemos por inducción sobre k. Si k=1, el resultado es cierto pues M tiene rango n-s=n-1\cdot s.

Supongamos el resultado para cierto entero k. Usando la desigualdad de Sylverster y la hipótesis inductiva, tenemos que

    \begin{align*}\rank(A^{k+1})&\geq \rank(A^k) + \rank(A) - n\\&\geq (n-ks) + (n-s) - n\\&=n-(k+1)s.\end{align*}

Esto muestra la afirmación general.

Si regresamos a la primer parte del problema original y aplicamos el resultado anterior, tenemos que A^{673} es una matriz de rango por lo menos

    \[2020 - 673 \cdot 3 = 2020 - 2019 = 1.\]

De esta forma, A^{673} no puede ser la matriz 0.

Hagamos ahora la segunda parte del problema. Para ello, debemos construir una matriz A de 2020\times 2020 de rango 2016 tal que A^{673} sea la matriz 0. Para ello, consideremos la matriz A tal que sus primeras 4 columnas sean iguales al vector 0, y que sus columnas de la 5 a la 2020 sean los vectores canónicos e_1,\ldots, e_{2016}.

Esta matriz claramente es de rango 2016, pues el espacio generado por sus columnas es el espacio generado por e_1,\ldots, e_{2016}, que es de dimensión 2016. Por otro lado, se puede mostrar inductivamente que para k=1,\ldots,505, se tiene que A^{k} es una matriz en donde sus columnas de 1 a 4k son todas el vector 0, y sus columnas de 4k+1 a 2020 son e_1,\ldots, e_{2020-4k}. En particular, A^{505}=O_{2020}, y entonces A^{673} también es la matriz de puros ceros.

\square

Equivalencias de rango de matrices

Hay muchas formas alternativas para calcular el rango de una matriz. El siguiente teorema resume las equivalencias más usadas en resolución de problemas.

Teorema. Sea A una matriz de m\times n con entradas reales. Los siguientes números son todos iguales:

  • El rango de A, es decir, la dimensión del espacio vectorial generado por los vectores columna de A.
  • La dimensión del espacio vectorial generado por los vectores fila de A. Observa que esto es, por definición, el rango de la transpuesta de A.
  • La cantidad de filas no cero que tiene la forma escalonada reducida de A.
  • (Teorema de rango-nulidad) n-\dim \ker(A), donde \ker(A) es el espacio vectorial de soluciones a AX=0.
  • El tamaño más grande de una submatriz cuadrada de A que sea invertible.
  • La cantidad de eigenvalores complejos distintos de cero contando multiplicidades algebraicas.

Problema. Determina todos los posibles rangos que pueden tener las matrices con entradas reales de la forma

    \[\begin{pmatrix} a & b  & c & d \\ b & a & d & c \\ c & d & a & b \\ d & c & b & a \end{pmatrix}.\]

Sugerencia pre-solución. Comienza haciendo casos pequeños. Para dar los ejemplos y mostrar que tienen el rango deseado, usa el teorema de equivalencia de rango para simplificar algunos argumentos.

Solución. El rango de una matriz de 4\times 4 es un entero de 0 a 4. Debemos ver cuáles de estos valores se pueden alcanzar con matrices de la forma dada.

Tomando a=b=c=d=0, obtenemos la matriz O_4, que tiene rango 0. Si a=b=c=d=1, obtenemos la matriz de puros unos, que tiene rango 1. Además, si a=1 y b=c=d=0, obtenemos la matriz identidad, que tiene rango 4.

Si a=b=1 y c=d=0, obtenemos la matriz

    \[A = \begin{pmatrix} 1 & 1 & 0 & 0 \\1 & 1 & 0 & 0 \\ 0 & 0 & 1 & 1 \\ 0 & 0 & 1 & 1 \end{pmatrix}.\]

Esta matriz tiene sólo dos columnas diferentes, así que su rango es a lo más dos. Pero tiene como submatriz a la matriz

    \[I_2=\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix},\]

que tiene rango 2, entonces el rango de A es al menos 2. De esta forma, el rango de A es 2.

Veamos ahora que el rango puede ser 3. Para ello, damos un argumento de determinantes. Llamemos s=a+b+c+d. Sumando las tres últimas filas a la primera y factorizando s, tenemos que

    \begin{align*}\begin{vmatrix} a & b & c & d \\ b & a & d & c \\ c & d & a & b \\ d & c & b & a \end{vmatrix}&=\begin{vmatrix} s & s & s & s \\ b & a & d & c \\ c & d & a & b \\ d & c & b & a \end{vmatrix}\\&=s\begin{vmatrix} 1 & 1 & 1 & 1 \\ b & a & d & c \\ c & d & a & b \\ d & c & b & a \end{vmatrix}.\end{align*}

Así, si tomamos a=b=c=1 y d=-3, entonces s=0 y por lo tanto la matriz B que obtenemos no es invertible, así que su rango es a lo más tres. Pero además es de rango al menos tres pues B tiene como submatriz a

    \[\begin{pmatrix} 1 & 1 & -3 \\ 1 & -3 & 1  \\ -3 & 1 & 1 \end{pmatrix},\]

que es invertible pues su determinante es

    \[-3-3-3-1-1+27=16\neq 0.\]

Concluimos que los posibles rangos que pueden tener las matrices de esa forma son 0,1,2,3,4.

\square

El teorema de factorización PJQ

Existen diversos teoremas que nos permiten factorizar matrices en formas especiales. De acuerdo a lo que pida un problema, es posible que se requiera usar uno u otro resultado. El teorema de factorización más útil para cuando se están resolviendo problemas de rango es el siguiente.

Teorema (factorización PJQ). Sea A una matriz de m\times n y r un entero en \{0,\ldots,\min(m,n)\}. El rango de A es igual a r si y sólo si existen matrices invertibles P de m\times m y Q de n\times n tales que A=PJ_rQ, en donde J_r es la matriz de m\times n cuyas primeras r entradas de su diagonal principal son 1 y todas las demás entradas son cero, es decir, en términos de matrices de bloque,

    \[J_r=\begin{pmatrix}I_r & O_{r,n-r} \\O_{m-r,r} & O_{m-r,n-r}\end{pmatrix}.\]

Como evidencia de la utilidad de este teorema, sugerimos que intentes mostrar que el rango por columnas de una matriz es igual al rango por filas, usando únicamente la definición. Esto es relativamente difícil. Sin embargo, con el teorema PJQ es inmediato. Si A es de m\times n y tiene rango r, entonces su factorización PJQ es de la forma

    \[A=PJ_rQ.\]

Entonces al transponer obtenemos

    \begin{align*}^tA&= {^tQ} {^t J_r} {^tP}.\end{align*}

Esto es de nuevo un factorización PJQ, con {^t J_r} la matriz de n\times m que indica que ^t A es de rango r.

Veamos ahora un problema clásico en el que se puede usar la factorización PJQ.

Problema. Sea A una matriz de m \times n y rango r. Muestra que:

  • A puede ser escrita como la suma de r matrices de rango 1.
  • A no puede ser escrita como la suma de r-1 o menos matrices de rango 1.

Sugerencia pre-solución. Para la primer parte, usa el teorema PJQ. Para la segunda parte, usa desigualdades del rango.

Solución. Tomemos A=PJ_rQ una factorización PJQ de A.

Hagamos la primer parte. Para ello, para cada i=1,\ldots,r, consideremos la matriz L_i de m\times n tal que su i-ésima entrada en la diagonal principal es 1 y el resto de sus entradas son iguales a 0.

Por un lado, L_i es de rango 1, pues tiene sólo una columna distinta de cero. De este modo,

    \[\rank(PL_iQ)\leq \rank(PL_i) \leq \rank(L_i)=1,\]

y como P y Q son invertibles,

    \[\rank(PL_iQ)\geq \rank(L_i) \geq 1.\]

Así, para cada i=1,\ldots, r, se tiene que L_i es de rango 1.

Por otro lado,

    \[J_r = L_1 + L_2 + \ldots + L_r,\]

así que

    \begin{align*}A&=PJ_rQ\\&=P(L_1 + L_2 + \ldots + L_r)Q\\&=PL_1Q + PL_2Q + \ldots + PL_rQ.\end{align*}

Esto expresa a A como suma de r matrices de rango 1.

Para la segunda parte del problema, usamos repetidamente que el rango es subaditivo. Si tenemos matrices B_1,\ldots,B_s matrices de m\times n, entonces

    \begin{align*}\rank(B_1&+B_2+\ldots+B_s) & \\&\leq \rank(B_1) + \rank (B_2 + \ldots + B_s)\\&\leq \rank(B_1) + \rank(B_2) + \rank(B_3+\ldots+B_s)\\& vdots \\&\leq \rank(B_1) + \rank(B_2) + \ldots + \rank(B_s).\end{align*}

Si cada B_i es de rango 1, entonces su suma tiene rango a lo más s.

Así, la suma de r-1 o menos matrices de rango 1 tiene rango a lo más r-1, y por lo tanto no puede ser igual a A.

\square

Más problemas

Puedes encontrar más problemas de rango de una matriz en la Sección 5.4 del libro Essential Linear Algebra de Titu Andreescu. El teorema PJQ, así como muchos problemas ejemplo, los puedes encontrar en el Capítulo 5 del libro Mathematical Bridges de Andreescu, Mortici y Tetiva.

Seminario de Resolución de Problemas: Desigualdad de Cauchy-Schwarz

Introducción

Seguimos con las entradas de temas de desigualdades. Con anterioridad ya hablamos de desigualdades básicas y de desigualdades con medias. En esta ocasión estudiaremos una desigualdad muy versátil: la desigualdad de Cauchy-Schwarz.

En su versión más simple, lo que dice la desigualdad de Cauchy-Schwarz es lo siguiente.

Desigualdad (de Cauchy-Schwarz). Para cualesquiera números reales a_1,\ldots,a_n y b_1,\ldots,b_n se tiene que

    \[|a_1b_1+\ldots+a_nb_n| \leq \sqrt{a_1^2+\ldots+a_n^2} \sqrt{b_1^2+\ldots+b_n^2}.\]

Primero, veremos cómo se demuestra esta desigualdad. Luego, veremos varios problemas en los que se puede aplicar. Finalmente, hablaremos un poco de sus extensiones a espacios vectoriales.

La demostración polinomial de la desigualdad de Cauchy-Schwarz

Una forma de demostrar la desigualdad de Cauchy-Schwarz es usando inducción sobre n. Hay otra demostración usando polinomios. Veamos esa demostración, pues tiene la idea útil de usar argumentos polinomiales para demostrar igualdades.

Consideremos la expresión

    \[p(t)=\sum_{i=1}^n (a_i+b_i t)^2.\]

Como es una suma de cuadrados, esta expresión es no negativa. Haciendo los cuadrados, y desarrollando la suma, podemos escribirla de la siguiente forma, que nos dice que es un polinomio cuadrático en t:

    \begin{align*}\sum_{i=1}^n (a_i+b_i t)^2&=\sum_{i=1}^n \left(a_i^2 + 2a_ib_i t + b_i^2 t^2\right)\\&=\sum_{i=1}^n a_i^2 + \left(2\sum_{i=1}^n a_ib_i \right)t + \left(\sum_{i=1}^n b_i^2\right)t^2.\end{align*}

De esta forma p(t) es un polinomio cuadrático y siempre toma valores no negativos. Así, a lo más puede tener una raíz t, por lo que su discriminante es menor o igual a 0:

    \[\left(2\sum_{i=1}^n a_ib_i \right)^2-4\left(\sum_{i=1}^n a_i^2\right)\left(\sum_{i=1}^n b_i^2\right)\leq 0\]

Al pasar el segundo término sumando al otro lado y dividir entre 4 queda

    \[\left(\sum_{i=1}^n a_ib_i \right)^2\leq \left(\sum_{i=1}^n a_i^2\right)\left(\sum_{i=1}^n b_i^2\right).\]

Al sacar raíz cuadrada de ambos lados hay que tener cuidado de poner un valor absoluto al lado izquierdo. Al hacer esto, se obtiene el resultado deseado:

    \[\left|\sum_{i=1}^n a_ib_i \right|\leq \sqrt{\sum_{i=1}^n a_i^2}\cdot \sqrt{\sum_{i=1}^n b_i^2}.\]

Observa que la igualdad se da si y sólo si el discriminante es 0, lo cual sucede si y sólo si el polinomio tiene una raíz t. Cuando esto pasa, cada uno de los sumandos al cuadrado de p(t) debe ser 0. Así, existe un real t tal que a_i=-tb_i para todo i=1,\ldots,n. Esto lo podemos decir en términos vectoriales como que «la igualdad se da si y sólo si el vector (a_1,\ldots,a_n) es un múltiplo escalar del vector (b_1,\ldots,b_n) » .

Un problema sobre acotar el valor de una variable

Problema. Sean a,b,c,d números reales tales que

    \begin{align*}a+b+c+d&=6\\a^2+b^2+c^2+d^2&=12.\end{align*}


¿Cuál es el máximo valor que puede tener d?

Sugerencia. Aplica la desigualdad de Cauchy-Schwarz a las ternas (a,b,c) y (1,1,1).

Solución. Aplicando la desigualdad a las ternas (a,b,c) y (1,1,1) obtenemos que

    \[|a+b+c|\leq \sqrt{a^2+b^2+c^2}\cdot{\sqrt{3}}.\]

Usando las hipótesis sobre a,b,c,d, tenemos que esta desigualdad es equivalente a |6-d|\leq \sqrt{3}\cdot {\sqrt{12-d^2}. Elevando al cuadrado de ambos lados, obtenemos las desigualdades equivalentes

    \begin{align*}36-12d+d^2&\leq 3(12-d^2)\\36-12d+d^2&\leq 36-3d^2\\4d^2-12d&\leq 0\\4d(d-3)\&leq 0.\end{align*}

Para que se satisfaga esta desigualdad, tiene que pasar o bien que simultáneamente d\leq 0 y d\geq 3 (lo cual es imposible), o bien que simultáneamente d\geq 0 y d\leq 3. En conclusión, esto acota el máximo valor posible de d con 3.

En efecto, existe una solución con d=3. De acuerdo al caso de igualdad de la desigualdad de Cauchy-Schwarz, debe pasar cuando (a,b,c) es un múltiplo escalar de (1,1,1), es decir, cuando a=b=c. Como a+b+c+d=6 y queremos d=3, esto forza a que a=b=c=1. Y en efecto, tenemos que con esta elección

    \[a^2+b^2+c^2+d^2=1+1+1+9=12.\]

\square

Aplicando Cauchy-Schwarz en un problema con el circunradio

A veces podemos aprovechar información implícita en un problema geométrico y combinarla con la desigualdad de Cauchy-Schwarz. Veamos un problema en el que sucede esto.

Problema. Sea P un punto en el interior del triángulo ABC y p,q,r las distancias de P a los lados BC, CA, AB respectivamente, que tienen longitudes a,b,c, respectivamente. Sea R el circunradio de ABC. Muestra que

    \[\sqrt{p}+\sqrt{q}+\sqrt{r} \leq \sqrt{\frac{a^2+b^2+c^2}{2R}}.\]

Sugerencia pre-solución. Necesitarás aplicar la desigualdad de Cauchy-Schwarz más de una vez. Haz una figura para entender la expresión ap+bq+cr. Necesitarás también la fórmula que dice que se puede calcular el área T de un triángulo mediante la fórmula

    \[T=\frac{abc}{R}.\]

Solución. Lo primero que haremos es aplicar la desigualdad de Cauchy-Schwarz en las ternas (\sqrt{ap},\sqrt{bq},\sqrt{cr}) y (1/\sqrt{a},1/\sqrt{b},1/\sqrt{c}) para obtener

    \[\sqrt{p}+\sqrt{q}+\sqrt{r}\leq \sqrt{ap+bq+cr}\cdot\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}.\]

Observa que ap es dos veces el área de \triangle BCP. De manera similar, tenemos que bq y cr son las áreas de \triangle CAP y \triangle ABP respectivamente. Así, si llamamos T al área de \triangle ABC tenemos que ap+bq+cr=2T. Otra expresión para el área de \triangle ABC en términos de su circunradio R es

    \[T=\frac{abc}{4R}.\]

En otras palabras, ap+bq+cr=\frac{abc}{2R}.

Esto nos permite continuar con la desigualdad como sigue:

    \begin{align*}\sqrt{p}+\sqrt{q}+\sqrt{r} &\leq \sqrt{\frac{abc}{2R}}\cdot\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}}\\&=\sqrt{\frac{abc}{2R}}\cdot\sqrt{\frac{ab+bc+ca}{abc}}\\&=\sqrt{\frac{ab+bc+ca}{2R}}.\end{align*}

Esto es casi la desigualdad que queremos. Para terminar, basta mostrar que

    \[ab+bc+ca\leq a^2+b^2+c^2.\]

Esto se puede hacer de varias formas (intenta hacerlo usando la desigualdad MA-MG). Pero para continuar viendo la versatilidad de la desigualdad de Cauchy-Schwarz, observa que se puede deducir de ella aplicándola a las ternas (a,b,c) y (b,c,a).

\square

En el problema anterior, ¿para qué puntos P se alcanza la igualdad?

Cauchy-Schwarz más allá de los números reales

Lo que está detrás de la desiguadad de Cauchy-Schwarz es en realidad la noción de producto interior en álgebra lineal. En cualquier espacio vectorial sobre los reales que tenga un producto interior \langle \cdot, \cdot \rangle se satisface una desigualdad del tipo de la de Cauchy-Schwarz. No entraremos en los detalles de la teoría que se necesita desarrollar, pues eso se estudia en un curso de álgebra lineal. Sin embargo, enunciaremos el teorema y veremos una forma de aplicarlo.

Teorema (desigualdad de Cauchy-Schwarz). Si V es un espacio vectorial con producto interior \langle \cdot, \cdot \rangle entonces para cualesquiera dos vectores u y v se satisface que

    \[|\langle u , v\rangle|\leq \sqrt{\langle u , u\rangle}\cdot \sqrt{\langle v , v\rangle}.\]

Se puede mostrar que bajo las hipótesis del teorema la función \norm{u}:=\langle u , u\rangle es una norma. Como platicamos con anterioridad, una norma satisface la desigualdad del triángulo, que en espacios vectoriales tiene un nombre especial.

Teorema (desigualdad de Minkowski). Si V es un espacio vectorial con producto interior \langle \cdot, \cdot \rangle y \norm{u}:=\langle u , u\rangle, entonces para cualesquiera dos vectores u y v se satisface que

    \[\norm{u}+\norm{v}\geq \norm{u+v}.\]

Es relativamente sencillo ver que las desigualdades de Cauchy-Schwarz y de Minkowski son «equivalentes», en el sentido de que se puede mostrar una fácilmente suponiendo la otra y viceversa.

La desigualdad de Cauchy-Schwarz que usamos en las secciones anteriores es para el producto interior en \mathbb{R}^n dado por

    \[\langle (a_1,\ldots,a_n),(b_1,\ldots,b_n) \rangle = a_1b_1+\ldots + a_nb_n,\]

al cual le llamamos el producto punto.

Si tenemos a V el espacio vectorial de las funciones continuas reales en el intervalo [0,1], entonces

    \[\langle f,g\rangle = \int_0^1 f(x)g(x) \, dx\]

es un producto interior para V. Esto nos puede ayudar a resolver algunos problemas.

Problema. Sea f:[0,1]\to \mathbb{R}^+ una función continua. Muestra que

    \[\left ( \int_0^1 f(x)\, dx \right) \left (\int_0^1 \frac{1}{f(x)}\, dt \right) \geq 1.\]

Sugerencia pre-solución. Aplica la desigualdad de Cauchy-Schwarz con el producto interior que discutimos antes de esta entrada.

Solución. Tomemos el producto interior

    \[\langle f,g\rangle = \int_0^1 f(x)g(x) \, dx\]

en el espacio vectorial de funciones reales y continuas en [0,1]. Como la imagen de f está en los reales positivos, podemos definir la función h:[0,1]\to \mathbb{R}^+ dada por h(x)=\sqrt{f(x)}.

Tenemos que

    \begin{align*}\left \langle h, \frac{1}{h}\right \rangle &= \int_0^1 h(x)\cdot \frac{1}{h(x)}\, dx\\&=\int_0^1 1\, dx\\&=1.\end{align*}

Por otro lado,

    \begin{align*}\langle h, h \rangle &= \int_0^1 h(x)\cdot h(x)\, dx\\&=\int_0^1 f(x)\, dx.\end{align*}

y

    \begin{align*}\left\langle \frac{1}{h}, \frac{1}{h} \right\rangle&= \int_0^1 \frac{1}{h(x)}\cdot \frac{1}{h(x)}\, dx\\&=\int_0^1 \frac{1}{f(x)}\, dx\end{align*}

La conclusión se sigue entonces de manera inmediata de la desigualdad de Cauchy-Schwarz para \langle \cdot, \cdot \rangle.

\square

Más problemas

Puedes encontrar más problemas que usan la desigualdad de Cauchy-Schwarz en la sección 7.1 del libro Problem Solving through Problems de Loren Larson. También puedes consultar más técnicas y problemas en el libro Desigualdades de la Olimpiada Mexicana de Matemáticas.

Álgebra Lineal I: Problemas de formas cuadráticas y producto interior

Introducción

En las últimas sesiones, hemos introducido el tema de formas bilineales y formas cuadráticas. Más adelante, hablamos de positividad de formas cuadráticas y de producto interior. Ahora veremos algunos problemas de formas cuadráticas y producto interior.

Problemas de formas cuadráticas

Sabemos que si T:V\times V\rightarrow \mathbb{R} es una transformación lineal, T no necesariamente es una forma bilineal (durante la clase del viernes se discutió un ejemplo), entonces una pregunta interesante es ¿qué información tenemos sobre el núcleo de una forma cuadrática? Es fácil ver que una forma cuadrática no es una transformación lineal, pero está asociada a una forma bilineal. Interesadas en esta pregunta, analizaremos algunas propiedades del núcleo de una forma bilineal y de una forma cuadrática.

Problema. a) Si q es una forma cuadrática en \mathbb{R}^n, ¿el conjunto \{ x\in \mathbb{R}^n: q(x)=0 \} es un subespacio de \mathbb{R}^n?
b) Describe { x\in \mathbb{R}^n:q(x)=0} si:
1) q(x,y)=x^2+y^2,
2) q(x,y,z)=xy+yz+zx
3) q(x,y,z)=(x-y)^2+(y-z)^2+(z-x)^2.

Solución. a) La respuesta es: no, el conjunto \{ x\in \mathbb{R}^n: q(x)=0 \} no necesariamente es un subespacio, ya que no necesariamente es cerrado bajo la suma. Daremos un ejemplo.

Sea q:\mathbb{R}^2\rightarrow \mathbb{R} definido como q((x,y))=x^2-y^2. Sabemos que ésta es una forma cuadrática. Notemos que para todo x,y \in\mathbb{R}, si v_1=(x,x),v_2=(y,-y), entonces q(v_1)=x^2-x^2=0 y q(v_2)=y^2-(-y)^2=0, entonces v_1,v_2 \in \{ x\in \mathbb{R}^n: q(x)=0 \}. Pero v_1+v_2=(x+y,x-y) no pertenecen al núcleo de q, ya que q(v_1+v_2)=q((x+y,x-y))=(x+y)^2-(x-y)^2=4xy\neq 0 si x,y\neq 0.

b.1) Sea (x,y)\in\mathbb{R}^2 tal que q((x,y))=x^2+y^2=0. Como x,y\in\mathbb{R}, sabemos que la única posibilidad en que la suma de dos cuadrados sea cero es que ambos sean cero, por lo tanto \{ x\in \mathbb{R}^2: q(x)=0 \}=\{(0,0)\}.

b.2) Sea (x,y,z)\in\mathbb{R}^3 tal que q((x,y,z))=xy+yz+zx=0. Si x=0 entonces yz=0, esto es posible sólo si y=0 o z=0. Entonces el núcleo contiene a los ejes (x,0,0), (0,y,0) y (0,0,z). Ahora, si x=-y, entonces xy+yz+zx=-x^2-xz+zx=-x^2=0, por lo tanto x=0=y, obteniendo nuevamente a los ejes. Ahora suponemos que x+y\neq 0. Entonces xy+yz+zx=xy+z(x+y)=0, obteniendo que z=-\frac{xy}{x+y} (el cono elíptico). Por lo tanto el núcleo de q son los ejes y el cono elíptico.

b.3) Sea (x,y,z)\in\mathbb{R}^3 tal que q((x,y,z))=(x-y)^2+(y-z)^2+(z-x)^2=0. Al igual que en el inciso (b.1), esto sólo es posible si x-y=y-z=z-x=0, entonces x=y=z. Por lo tanto, \{ x\in \mathbb{R}^n: q(x)=0 \}=\{(x,x,x):x\in\mathbb{R}\}.

\square

Problema. Sea V=P_2(\mathbb{R}) el espacio de polinomios en [-1,1] con coeficientes reales de grado a lo más 2 y considera el mapeo b:V\times V\rightarrow \mathbb{R} definido como

b(f,g)=\int_{-1}^1 tf(t)g(t) dt.

Prueba que b es una forma bilineal simétrica de V. Si q es la forma cuadrática asociada, encuentra las f en V tales que q(f)=0.

Solución. Mostrar que b es bilineal es sencillo, y queda como tarea moral. Es fácil ver que es simétrica, ya que

    \begin{align*} b(f,g)&=\int_{-1}^1 tf(t)g(t) dt \\ &=\int_{-1}^1 tg(t)f(t)dt=b(g,f). \end{align*}

Ahora, queremos encontrar las funciones f tales que q(f)=b(f,f)=\int_{-1}^1 tf^2(t)dt=0. Como f es un polinomio de grado 2, es de la forma f(x)=ax^2+bx+c para reales a,b,c y entonces

    \begin{align*} 0&=q(f)\\&=\int_{-1}^1 tf^2(t)dt \\ &=\int_{-1}^1 t(at^2+bt+c)^2dt \\ & = \int_{-1}^1 t(a^2t^4+2abt^3+(b^2+2ac)t^2+2bct+c^2)dt \\ &=\int_{-1}^1 (a^2t^5+2abt^4+(b^2+2ac)t^3+2bct^2+c^2t)dt \\ &=\frac{4ab}{5}+\frac{4bc}{3}=0 \end{align*}

Esto implica que 4b(3a+5c)=0, entonces b=0 o 3a+5c=0. Por lo tanto

    \[\{f\in V:q(f)=0\}=\{ax^2+c \}\cup \{ax^2+bx-\frac{3a}{5}\}.\]

\square

Problemas de producto interior

Ahora recordemos que en la clase de ayer, definimos formas bilineales y cuadráticas positivas y definidas positivas, y a partir de ello, definimos qué es un producto interior. Así, en los siguientes problemas, veremos algunos ejemplos de estas definiciones.

Problema. Determina cuáles de las siguientes formas cuadráticas son positivas. ¿Cuáles también son definidas positivas?

  1. q(x,y,z)=xy+yz+zx.
  2. q(x,y,z)=(x-y)^2+(y-z)^2+(z-x)^2.
  3. q(x,y,z)=x^2-y^2+z^2-xy+2yz-3zx.

Solución. Sea v=(x,y,z)\in\mathbb{R}^3, recordemos que para cada uno de los incisos q es positiva si q(v)\geq 0 para toda v y es definida positiva si es positiva y q(v)=0 si y sólo si v=0.

1) Si escogemos a v como v=(1,-2,1) tenemos que

    \begin{align*}q(v)&=q(1,-2,1)\\&=1(-2)+(-2)(1)+1(1)\\&=-2-2+1\\&=-3.\end{align*}

Por lo tanto no es positiva ni definida positiva.

2) Dado que para todo x,y,z, tenemos que (x-y)^2,(y-z)^2,(z-x)^2\geq 0, entonces q(v)\geq 0 para todo v\in\mathbb{R}^3. Pero si q(v)=0, entonces x=y=z, pero no necesariamente son iguales a cero. Por lo tanto, q es positiva pero no es definida positiva.

3) Si tomamos v=(3,0,3), obtenemos que

    \begin{align*}q(v)&=(3)^2+(3)^2-3(3)(3)\\&=9+9-27\\&=-9\\&<0.\end{align*}

Por lo tanto no es positiva ni definida positiva.

\square

Problema. Sea V=C([a,b],\mathbb{R}). Prueba que el mapeo \langle \cdot , \cdot \rangle definido por

    \[\langle f,g \rangle = \int_a^b f(x)g(x) dx\]

es un producto interior en V.

Solución. Por lo visto en la clase de ayer, tenemos que un producto interior es una forma bilineal simétrica y definida positiva.
Es fácil ver que es forma bilineal simétrica. Basta con probar que es una forma definida positiva. Entonces \langle f,f\rangle=\int_0^1 f^2(x)dx \geq 0 ya que f^2(x)\geq 0 para toda x. Por lo tanto \langle \cdot, \cdot \rangle es positiva. Como f^2 es continua y positiva, si \int_0^1 f^2(x)dx=0, implica que f^2=0, entonces f=0. Por lo tanto, \langle \cdot , \cdot \rangle es definida positiva, y por ende, es un producto interior.

\square

Para finalizar, el siguiente problema es un ejemplo que pareciera ser producto interior, pero resulta que no serlo.

Problema. Sea C^\infty([0,1],\mathbb{R}) es el espacio de funciones suaves (funciones continuas cuyas derivadas de cualquier orden existen y son continuas). Definimos el espacio V={ f\in C^\infty([0,1],\mathbb{R}): f(0)=f(1)=0 }. Si definimos

    \[\langle f,g \rangle:=\int_0^1 (f(x)g'(x)+f'(x)g(x))dx,\]

¿es \langle \cdot , \cdot \rangle un producto interior en V?

Solución. Es claro ver que \langle \cdot, \cdot \rangle es bilineal y simétrica, entonces falta demostrar si es o no es una forma definida positiva. Para f\in V, tenemos que \langle f,f \rangle=\int_0^1 2f(x)f'(x)dx.

Notemos que, por la regla de la cadena, \frac{d}{dx}f^2(x)=2f(x)f'(x), entonces

    \begin{align*}\langle f,f \rangle&=\int_0^1 \frac{d}{dx} f^2(x) dx\\&=f^2(1)-f^2(0)\\&=0.\end{align*}

Por lo tanto \langle f,f\rangle=0 para toda f. Esto implica que no es definida positiva, y como consecuencia, no es producto interior de V.

\square

Álgebra Lineal I: Formas cuadráticas, propiedades, polarización y Gauss

Introducción

En la entrada anterior hablamos acerca de formas bilineales y comenzamos a hablar de formas cuadráticas. Discutimos cómo a partir de estas nociones a la larga podremos hablar de geometría y cálculo en espacios vectoriales. El objetivo de esta entrada es entender mejor a las formas cuadráticas y su relación con formas bilineales.

Lo primero que haremos es demostrar la identidad de polarización, que a grandes rasgos dice que hay una biyección entre las formas bilineales simétricas y las formas cuadráticas. Veremos algunos ejemplos concretos de esta biyección. A partir de ella demostraremos algunas propiedades de formas cuadráticas. Finalmente, hablaremos brevemente de un bello resultado de Gauss que caracteriza las formas cuadráticas en \mathbb{R}^n en términos de formas lineales, de las cuales discutimos mucho cuando hablamos de espacio dual.

Como pequeño recordatorio de la entrada anterior, una forma bilineal de un espacio vectorial V es una transformación b:V\times V \to \mathbb{R} tal que cada que fijamos una coordenada, es lineal en la otra. Esta forma es simétrica si b(x,y)=b(y,x) para cada par de vectores x,y en V. Una forma cuadrática de V es una transformación q:V\to \mathbb{R} tal que q(x)=b(x,x) para alguna forma bilineal b.

Formas cuadráticas y polarización

En la entrada anterior enunciamos el siguiente teorema, que mostraremos ahora.

Teorema (identidad de polarización). Sea q:V\to \mathbb{R} una forma cuadrática. Existe una única forma bilineal b:V\times V \to \mathbb{R} tal que q(x)=b(x,x) para todo vector x. Esta forma bilineal está determinada mediante la identidad de polarización

    \[b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2}.\]

Demostración. Tomemos una forma cuadrática q de V. Por definición, está inducida por una forma bilineal B de V, es decir, q(x)=B(x,x). Definamos la transformación b mediante

    \[b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2}.\]

Comencemos probando que b es una transformación bilineal simétrica. Notemos que:

    \begin{align*}b(x,y)&=\frac{q(x+y)-q(x)-q(y)}{2}\\&=\frac{B(x+y,x+y)-B(x,x)-B(y,y)}{2}\\&=\frac{B(x,x)+B(x,y)+B(y,x)+B(y,y)-B(x,x)-B(y,y)}{2}\\&=\frac{B(x,y)+B(y,x)}{2}.\end{align*}

De aquí es muy claro que b es forma bilineal, pues fijando x, set tiene que b(x,y) es combinación lineal de dos formas lineales en y; y fijando y, se tiene que b(x,y) es combinación lineal de dos formas lineales en x. Además, de esta igualdad (o directo de la definición de b) es claro que b(x,y)=b(y,x).

También de esta igualdad obtenemos que

    \[b(x,x)=B(x,x)=q(x).\]

Para mostrar la unicidad, notemos que cualquier forma bilineal simétrica b' tal que b'(x,x)=q(x) debe satisfacer, como en las cuentas que hicimos arriba, que

    \begin{align*}q(x+y)&=b'(x+y,x+y)\\&=q(x)+q(y)+b'(x,y)+b'(y,x)\\&=q(x)+q(y)+2b'(x,y).\end{align*}

De aquí, despejando b', se obtiene que debe tener la forma de b.

\square

El teorema anterior justifica la siguiente definición.

Definición. Dada una forma cuadrática q de V, a la única forma bilineal simétrica b de V tal que q(x)=b(x,x) le llamamos la forma polar de q.

Ejemplo. En el espacio vectorial \mathbb{R}^n, la transformación q:\mathbb{R}^n\to \mathbb{R} dada por

    \[q(x_1,\ldots,x_n)=x_1^2+\ldots+x_n^2.\]

es una forma cuadrática. Su forma polar es la forma bilineal producto punto que manda a x=(x_1,\ldots,x_n) y y=(y_1,\ldots,y_n) a

    \[b(x,y)=x_1y_1+\ldots+x_ny_n.\]

Esto coincide con la construcción dada por la identidad de polarización, ya que

    \begin{align*}q(x+y)-q(x)-q(y)&=\sum_{i=1}^n (x_i+y_i)^2-x_i^2-y_i^2 \\&= \sum_{i=1}^n x_iy_i\end{align*}

\square

Ejemplo. En el espacio vectorial \mathbb{R}[x] de polinomios con coeficientes reales, la transformación Q dada por

    \[Q(p)=p(0)p(1)+p(2)^2\]

es una forma cuadrática. Para encontrar a su forma bilineal polar, usamos la identidad de polarización

    \begin{align*}B(p,q)&=\frac{Q(p+q)-Q(p)-Q(q)}{2}\\&=\frac{(p+q)(0)(p+q)(1)+(p+q)(2)^2-p(0)p(1)-p(2)^2-q(0)q(1)-q(2)^2}{2}\\&=\frac{p(0)q(1)+q(0)p(1)+2p(2)q(2)}{2}\\&=\frac{p(0)q(1)}{2}+\frac{p(1)q(0)}{2}+p(2)q(2).\end{align*}

\square

Propiedades de formas cuadráticas

Si q es una forma cuadrática, x es un vector y c es un real, tenemos que q(cx)=c^2x, pues sale una c por cada una de las coordenadas de la forma bilineal asociada. En particular, q(-x)=q(x).

La identidad de polarización nos permite probar otras propiedades de formas bilineales y formas cuadráticas.

Proposición. Sea q una forma cuadrática en V con forma polar b. Entonces:

  • Para todo par de vectores x y y en V, se tiene que

        \[b(x,y)=\frac{q(x+y)-q(x-y)}{4}.\]

  • (Ley del paralelogramo) Para todo par de vectores x y y en V, se tiene que

        \[q(x+y)+q(x-y)=2(q(x)+q(y)).\]

  • (Teorema de Pitágoras) Para vectores x y y tales que b(x,y)=0, se tiene que

        \[q(x+y)=q(x)+q(y).\]

  • (Diferencia de cuadrados) Para todo par de vectores x y y en V, se tiene que b(x+y,x-y)=q(x)-q(y).

Demostración. Por la identidad de polarización tenemos que

    \[b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2},\]

y como q(y)=q(-y), tenemos también por la identidad de polarización que

    \begin{align*}-b(x,y)&=b(x,-y)\\&=\frac{q(x-y)-q(x)-q(y)}{2}.\end{align*}

Restando la segunda ecuación de la primera, obtenemos la primer propiedad. Sumando ambas obtenemos la ley del paralelogramo.

El teorema de Pitágoras es una consecuencia directa de la identidad de polarización.

La identidad de diferencia de cuadrados es una consecuencia de la primer propiedad aplicada a los vectores x+y y x-y, y de usar que q(2x)=4q(x) y que q(2y)=4q(y).

\square

Forma de las formas cuadráticas

Otra consecuencia de la identidad de polarización es que establece una biyección entre las formas cuadráticas y las formas simétricas bilineales. Esta asociación nos permite decir cómo se ven exactamente las formas cuadráticas en espacios vectoriales de dimensión finita.

Toda forma cuadrática viene de una forma bilineal simétrica. En la entrada anterior, mencionamos que para definir una forma bilineal simétrica en un espacio vectorial V de dimensión n, basta tomar una base \{e_1,\ldots,e_n\} de V y decidir los valores b_{ij} de b(e_i,e_j) para 1\leq i \leq j \leq n. Como b es simétrica, para j<i se tendría que b(e_i,e_j)=b(e_j,e_i), es decir, que b_{ji}=b_{ij}.

De esta forma, para todo vector v en V podemos encontrar el valor de q(v) expresando v en la base \{e_1,\ldots,e_n\}, digamos,

    \[v=a_1e_1+\ldots+a_ne_n,\]

de donde

    \[q(v)=\sum_{i=1}^n b_{ii} a_i^2 + 2 \sum_{1\leq i < j \leq n} b_{ij} a_i a_j.\]

Ejemplo. Toda forma cuadrática en \mathbb{R}^3 se obtiene de elegir reales a,b,c,d,e,f y definir

    \[q(x,y,z)=ax^2+by^2+cz^2+2dxy+2eyz+2fzx.\]

La forma polar de q es la forma bilineal B tal que para la base canónica e_1,e_2,e_3 de \matbb{R}^3 hace lo siguiente

    \begin{align*}B(e_1,e_1)&=a\\B(e_2,e_2)&=b\\B(e_3,e_3)&=c\\ B(e_1,e_2)&=B(e_2,e_1)=d\\ B(e_2,e_3)&=B(e_3,e_2)=e\\B(e_3,e_1)&=B(e_1,e_3)=f.\end{align*}

\square

Teorema de Gauss de formas cuadráticas (opcional)

Para esta sección, fijemos al espacio vectorial como \mathbb{R}^n. Hay una forma muy natural de construir formas cuadráticas a partir de formas lineales. Tomemos números reales \alpha_1,\ldots, \alpha_r y formas lineales l_1,\ldots,l_r. Consideremos

    \[q(x)=a_1l_1(x)^2+\ldots+\alpha_r l_r(x)^2.\]

Se tiene que q es una forma cuadrática. La demostración de ello es sencillo y se queda como tarea moral.

Lo que descubrió Gauss es que todas las formas cuadráticas se pueden expresar de esta forma, y de hecho, es posible hacerlo usando únicamente formas lineales que sean linealmente independientes y coeficientes 1 y -1.

Teorema (clasificación de Gauss de formas cuadráticas). Sea q una forma cuadrática en \mathbb{R}^n. Entonces, existen enteros no negativos r y s, y formas lineares l_1,\ldots,l_r,m_1,\ldots,m_s en (\mathbb{R}^n)^\ast, todas ellas linealmente independientes, tales que

    \[q=l_1^2+\ldots+l_r^2-m_1^2-\ldots-m_s^2.\]

Hay un pequeño refinamiento de este teorema, demostrado por Sylvester.

Teorema (teorema de la inercia de Sylverster). Los números r y s en el teorema de clasificación de Gauss de formas cuadráticas son únicos.

Ejemplo. Tomemos la forma cuadrática en \mathbb{R}^3 dada por q(x,y,z)=xy+yz+zx. Por el teorema de Gauss, esta forma se debe de poder poner como combinación lineal de cuadrados de formas lineales independientes. En efecto, tenemos que:

    \[xy+yz+zx=\left(\frac{2x+y+z}{2}\right)^2-\left(\frac{y-z}{2}\right)^2-x^2,\]

en donde

    \begin{align*}(x,y,z)&\mapsto \frac{2x+y+z}{2},\\(x,y,z) &\mapsto \frac{y-z}{2}\quad \text{ y }\\(x,y,z)&\mapsto x\end{align*}


son formas lineales linealmente independientes.

\square

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Verifica que las formas cuadráticas de los ejemplos del teorema de polarización en efecto son formas cuadráticas.
  • Muestra que q(x,y)=3x^2-y^2+7y no es una forma cuadrática.
  • Muestra que si \alpha_1,\ldots, \alpha_r son reales y tomamos formas lineales l_1,\ldots,l_r en \mathbb{R}^n, entonces

        \[q(x)=a_1l_1(x)^2+\ldots+\alpha_r l_r(x)^2\]

    es una forma cuadrática.
  • ¿Quién es la forma polar de la forma cuadrática Q(f)=\int_{0}^1 f^2(x)\, dx en el espacio vectorial de funciones continuas en el intervalo [0,1]?

Una demostración algorítmica del teorema de Gauss se puede encontrar en la Sección 10.1 del libro de Álgebra Lineal de Titu Andreescu.

Álgebra Lineal I: Ortogonalidad y espacio ortogonal

Introducción

En entradas anteriores hablamos de formas lineales y del espacio dual. Vimos que las formas coordenadas correspondientes a una base forman bases del espacio dual. También hicimos ejemplos prácticos de cómo encontrar bases duales y cómo hacer cambios de base en el espacio dual. Usaremos la teoría que hemos desarrollado hasta el momento para estudiar los conceptos de ortogonalidad y espacio ortogonal.

Antes de comenzar, es importante dejar un consejo. Quizás a estas alturas asocias a la ortogonalidad con la perpendicularidad. Esta intuición puede ayudar un poco más adelante, pero por el momento es recomendable que dejes esa intuición de lado. El problema es que la «perpendicularidad» hable de parejas de segmentos, o parejas de vectores. Sin embargo, las nociones de ortogonalidad que estudiaremos ahora hablan de cuándo una forma lineal l y un vector v son ortogonales, lo cual es mejor pensarlo por el momento como algo distinto.

Definiciones de ortogonalidad y espacio ortogonal

En esta sección, V es un espacio vectorial sobre un campo F.

Definición. Tomemos una forma lineal l de V y v un vector en V. Decimos que l y v son ortogonales si

    \[\langle l,v \rangle = 0.\]

De manera equivalente, l y v son ortogonales si l(v)=0, o si v está en el kernel de l.

Ejemplo. Consideremos la forma lineal l de los polinomios en \mathbb{R}_2[x] que a un polinomio lo manda a su evaluación en 2, es decir, tal que l(p)=p(2). Consideremos al polinomio p(x)=x^2-3x+2. Tenemos que

    \begin{align*}l(p)&=p(2)\\&=2^2-3\cdot 2 +2\\&=4-6+2\\&=0,\end{align*}

de modo que \langle l, p\rangle =0, así que l y p son ortogonales. Por otro lado, si q(x)=x+1, tenemos que \langle l,q\rangle = l(q)=3, de modo que l y q no son ortogonales.

\square

Definición. Para S un subconjunto de V, definimos al ortogonal de S como el conjunto de formas lineales de V ortogonales a todos los elementos de S. En símbolos,

    \[S^\bot:= \{l\in V^\ast: \langle l,v \rangle = 0\, \forall v \in S\}.\]

Tenemos una definición dual para subconjuntos de V^\ast.

Definición. Para S un subconjunto de V^\ast, el ortogonal de S es el conjunto de vectores de V ortogonales a todos los elementos de S. En símbolos,

    \[S^\bot=\{v\in V: \langle l, v \rangle = 0 \, \forall l\in S\}.\]

Observa que estamos definiendo al ortogonal para subconjuntos de V (y de V^\ast), es decir, que S no tiene por qué ser un subespacio vectorial de V. Por otro lado, sea S o no un subespacio, siempre tenemos que S^\bot es un subespacio. Por ejemplo, si S es un subconjunto de V y l_1, l_2 son formas lineales que se anulan en todos los elementos de S, entonces para cualquier escalar también tenemos que l_1+cl_2 se anula en todos los elementos de S.

Ejercicio. Tomemos S al subconjunto de matrices diagonales con entradas enteras en M_2(\mathbb{R}). ¿Quién es S^\bot? Ojo: Aquí S no es un subespacio.

Solución. Sabemos que para cualquier forma lineal l de M_2(\mathbb{R}) existen reales p, q, r, s tales que

    \[l\begin{pmatrix}a&b\\c&d\end{pmatrix}=pa+qb+rc+sd.\]

Si l está en S^\bot, se tiene que anular en particular en las matrices A=\begin{pmatrix} 1 & 0\\ 0 & 0\end{pmatrix} y B=\begin{pmatrix} 0 & 0 \\ 0 & 1\end{pmatrix}, pues ambas están en S. En otras palabras,

    \[0 = l(A) = p\]

y

    \[0 = l(B) = s.\]

Así, la forma lineal tiene que verse como sigue:

    \[l\begin{pmatrix}a&b\\c&d\end{pmatrix}= qb+rc.\]

Y en efecto, todas las formas lineales de esta forma se anulan en cualquier matriz diagonal con entradas enteras, pues en esas matrices b=c=0.

\square

Encontrar el espacio ortogonal de manera práctica

Ya mencionamos que S no necesariamente tiene que ser un subespacio para definir S^\bot. Sin embargo, usando la linealidad podemos mostrar que, para cualquiera de las dos definiciones, basta estudiar qué sucede con subespacios vectoriales. La demostración de la siguiente proposición es sencilla, y se deja como tarea moral.

Proposición 1. Para S un subconjunto de V (o de V^\ast), tenemos que

    \[S^\bot = \text{span}(S)^\bot.\]

Esta proposición es particularmente importante pues en espacios vectoriales de dimensión finita nos permite reducir el problema de encontrar ortogonales para subconjuntos de vectores (o de formas lineales), a simplemente resolver un sistema de ecuaciones. El procedimiento que hacemos es el siguiente (lo enunciamos para vectores, para formas lineales es análogo):

  • Tomamos una base B=\{b_1,\ldots,b_n\} de V
  • Tomamos un subconjunto S de vectores de V.
  • Usamos la Proposición 1 para argumentar que S^\bot=\text{span}(S) ^\bot.
  • Consideramos una base C=\{c_1,\ldots,c_m\} de \text{span}(S) y notamos que una forma lineal l se anula en todo \text{span}(S) si y sólo si se anula en cada elemento de C.
  • Escribimos a cada c_i como combinación lineal de elementos de B, digamos

        \[c_i=a_{i1}b_1+\ldots+a_{in}b_n.\]

  • Cada condición l(c_i)=0 se transforma en la ecuación lineal

        \[a_{i1}l(b_1)+\ldots+a_{in}l(b_n)=l(c_i)=0\]

    en las variables l(b_1), l(b_2),\ldots, l(b_n) igualada a 0, de forma que las m condiciones dan un sistema de ecuaciones homogéneo.
  • Podemos resolver este sistema con reducción gaussiana para encontrar todas las soluciones, aunque basta con encontrar a las soluciones fundamentales, pues justo forman la base de \text{span}(S)^\bot=S^\bot.

Veamos este método en acción.

Ejemplo de encontrar el espacio ortogonal de manera práctica

Ejercicio. Considera el subconjunto S de \mathbb{R}^3 cuyos elementos son (2,3,-5), (-1,0,1), (3,3,-6), (-3,-2,5). Determina S^\bot.

Solución. Para encontrar S^\bot, basta encontrar \text{span}(S)^\bot.

Lo primero que notamos es que todos los vectores de S satisfacen que la suma de sus entradas es 0, así que todos los vectores en \text{span}(S) también, de modo que \text{span}(S) no es todo \mathbb{R}^3, así que es de dimensión a lo más 2. Notamos también que (-1,0,1) y (2,3,-5) son linealmente independientes, así que \text{span}(S) es de dimensión al menos 2, de modo que es de dimensión exactamente 2 y por lo tanto (-1,0,1) y (2,3,-5) es una base.

Para cualquier forma lineal l en \mathbb{R}^3 existen reales a, b, c tales que l(x,y,z)=ax+by+cz. Para encontrar aquellas formas lineales que se anulan en \text{span}(S), basta encontrar aquellas que se anulan en la base, es decir, en (-1,0,1) y (2,3,-5). De esta forma, necesitamos resolver el sistema de ecuaciones

    \begin{align*}-a+c&=0\\2a+3b-5c&=0.\end{align*}

Para resolver este sistema, aplicamos reducción gaussiana:

    \begin{align*}&\begin{pmatrix} -1 & 0 & 1\\ 2 & 3 & -5\end{pmatrix}\\\to &  \begin{pmatrix} 1 & 0 & -1\\ 0 & 3 & -3\end{pmatrix}\\\to &  \begin{pmatrix} 1 & 0 & -1\\ 0 & 1 & -1\end{pmatrix}\end{align*}

La variable libre es c y las pivote son a y b. Obtenemos a=c y b=c, de donde las soluciones se ven de la forma (c,c,c). Concluimos entonces que S^\bot son las formas lineales tales que

    \[l(x,y,z)=c(x+y+z)\]

para algún real c.

\square

En el ejemplo anterior, la dimensiones de \text{span}(S) y de \text{span}(S)^\bot suman 3, que es la dimensión de \mathbb{R}^3. Esto no es una casualidad, como veremos en la siguiente sección.

El teorema de dualidad

Las dimensiones de un subespacio de un espacio vectorial de dimensión finita, y de su espacio ortogonal, están relacionadas con la dimensión del espacio. Este es uno de los teoremas más importantes de dualidad.

Teorema 1. Sea V un espacio vectorial de dimensión finita sobre F y W un subespacio de V (o de V^\ast). Entonces

    \[\dim W + \dim W^\bot = \dim V.\]

Demostración. Hagamos primero el caso en el que W es un subespacio de V. Supongamos que \dim V = n y que \dim W = m\leq n. Tenemos que mostrar que \dim W^\bot = n-m, así que basta exhibir una base de \dim W^\bot con n-m formas lineales.

Para ello, tomemos e_1,e_2,\ldots, e_m una base de W y tomemos elementos e_{m+1},\ldots,e_{n} que la completan a una base de V. Afirmamos que la base de W^\bot que estamos buscando consiste de las formas coordenadas e_{m+1}^\ast,\ldots,e_{n}^\ast correspondientes a e_{m+1},\ldots,e_n.

Por un lado, estas formas coordenadas son linealmente independientes, pues son un subconjunto de la base e_1^\ast,\ldots, e_n^\ast de V^\ast. Por otro lado, si tenemos a una forma lineal l de V, habíamos mostrado que la podemos expresar de la forma

    \[l=\sum_{i=1}^n \langle l, e_i \rangle e_i^\ast,\]

de modo que si l se anula en todo W, en particular se anula en los vectores e_1,\ldots,e_m, por lo que

    \[l=\sum_{i=m+1}^n \langle l, e_i\rangle e_i^\ast,\]

lo cual exhibe a l como combinación lineal de los elementos e_{m+1}^\ast,\ldots,e_n^\ast. De esta forma, este subconjunto de formas lineales es linealmente independiente y genera a W^\bot, que era justo lo que necesitábamos probar.

Ahora hagamos el caso en el que W es un subespacio de V^\ast. Podríamos hacer un argumento análogo al anterior, pero daremos una prueba alternativa que usa la bidualidad canónica \iota: V\to V^\ast ^\ast. La igualdad \langle l,v \rangle = 0 es equivalente a \langle \iota(v),l \rangle =0. De esta forma, v está en W^\bot si y sólo si \iota(v)\in V^\ast ^\ast se anula en todo W. Como \iota es isomorfismo y el espacio de los g\in V^\ast ^\ast que se anulan en W tiene dimensión

    \[\dim V^\ast-\dim W = \dim V - \dim W\]

(por la primer parte del teorema), concluimos entonces que

    \[\dim W^\bot = \dim V - \dim W,\]

lo cual prueba la otra parte del teorema.

\square

Ejercicio. Sea W el subespacio de matrices simétricas de M_3(\mathbb{R}) ¿Cuál es la dimensión de W^\bot?

Solución. Se puede mostrar que E_{11}, E_{22}, E_{33}, E_{12}+E_{21}, E_{23}+E_{32}, E_{13}+E_{31} forman una base para W. De esta forma, W tiene dimensión 6. Por el Teorema 1, tenemos que \dim W^\bot = \dim M_3(\mathbb{R})-6=9-6=3.

\square

Aplicar dos veces ortogonalidad en subespacios

Una consecuencia importante del teorema anterior es que aplicarle la operación «espacio ortogonal» a un subespacio de un espacio de dimensión finita nos regresa al inicio. Más formalmente:

Corolario. Si V es un espacio vectorial de dimensión finita sobre un campo F y W un subespacio de V (o de V^\ast), entonces (W^\bot)^\bot=W.

Demostración. Haremos la prueba para cuando W es subespacio de V. La otra es análoga y se deja como tarea moral. Lo primero que vamos a mostrar es que W\subset  (W^\bot)^\bot. Tomemos w en W. Tenemos que mostrar que l(w)=0 para cualquier l en W^\bot. Por definición, un l en W^\bot se anula en todo elemento de W, así que se anula particularmente en w, como queremos.

Como W y (W^\bot)^\bot son espacios vectoriales, tenemos que W es subespacio de (W^\bot)^\bot. Por el Teorema 1, tenemos que

    \[\dim W^\bot = \dim V - \dim W.\]

Usando esto y de nuevo el Teorema 1, tenemos que

    \[\dim (W^\bot)^\bot = \dim V - \dim W^\bot = \dim W.\]

De esta forma, W es un subespacio de \dim (W^\bot)^\bot de su misma dimensión, y por lo tanto W= (W^\bot)^\bot.

\square

Hay que tener particular cuidado en usar el corolario anterior. Solamente se puede garantizar su validez cuando W es un subespacio de V, y cuando V es de dimensión finita. En efecto, si S es simplemente un subconjunto de V y no es un subespacio, entonces la igualdad S=(S^\bot)^\bot es imposible, pues al lado derecho tenemos un subespacio de V y al izquierdo no.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Demuestra la Proposición 1
  • Sea S el subespacio de matrices diagonales en M_n(\mathbb{R}). ¿Cuál es la dimensión de S^\bot?
  • Considera \mathbb{R}_3[x], el espacio vectorial de polinomios con coeficientes reales y grado a lo más 3. Considera las formas lineales \text{ev}_2 y \text{ev}_3 que evalúan a un polinomio en 2 y en 3 respectivamente. ¿Quién es el espacio ortogonal de \{\text{ev}_2,\text{ev}_3\}?
  • Prueba la segunda parte del Teorema 1 con un argumento análogo al que usamos para probar la primer parte.
  • Prueba el corolario para cuando W es subespacio de V^\ast.
  • Verifica que las matrices propuestas en el último ejercicio en efecto forman una base para el subespacio de matrices simétricas.