Archivo de la etiqueta: dualidad

Álgebra Lineal I: Producto interior y desigualdad de Cauchy-Schwarz

Introducción

Anteriormente, platicamos acerca de formas bilineales y de formas cuadráticas. Ahora veremos un tipo de formas bilineales especiales: las positivas y las positivas definidas. Las formas positivas definidas nos ayudan a definir qué es un producto interior. Esta es una noción fundamental que más adelante nos ayudará a definir distancias y ángulos.

Formas bilineales positivas y positivas definidas

Para hablar de geometría en espacios vectoriales, la siguiente noción es fundamental. Es importante notar que es una definición únicamente para formas bilineales simétricas.

Definición. Sea b:V\times V\to \mathbb{R} una forma bilineal simétrica.

  • Diremos que b es positiva si b(x,x)\geq 0 para todo vector x de V.
  • Diremos que b es positiva definida si b(x,x)>0 para todo vector x\neq 0 de v.

Tenemos una noción análoga para formas cuadráticas.

Definición. Sea q:V\to \mathbb{R} una forma cuadrática con forma polar b. Diremos que q es positiva si b lo es, y diremos que es positiva definida si b lo es.

Ejemplo. Como ya vimos antes, el producto punto de \mathbb{R}^n es una forma bilineal simétrica. También es positiva definida, pues si tenemos x=(x_1,\ldots,x_n), tenemos que

    \[x\cdot x =  x_1^2+\ldots+x_n^2\geq 0,\]

y esta es una igualdad si y sólo si x_1=\ldots=x_n=0, lo cual sucede si y sólo si x=0.

\square

Ejemplo. Considera V=\mathbb{R}_2[x] y consideremos la forma bilineal b dada por

    \[b(p,q)=p(0)q(1)+p(1)q(0).\]

Esta es una forma bilineal simétrica pues

    \begin{align*}b(p,q)&=p(0)q(1)+p(1)q(0)\\&=q(0)p(1)+q(1)p(0)\\&=b(q,p).\end{align*}

Notemos que

    \[b(p,p)=2p(0)p(1),\]

que no necesariamente es positivo. Por ejemplo, si tomamos el polinomio p(x)=x-\frac{1}{2}, tenemos que

    \begin{align*}b(p,p)&=2p(0)p(1)\\&=-2\cdot\frac{1}{2}\cdot\frac{1}{2}\\&=-\frac{1}{2}.\end{align*}

Así, esta es una forma bilineal simétrica, pero no es positiva (y por lo tanto tampoco es positiva definida).

\square

Problema. Considera la forma cuadrática Q en M_{2}(\mathbb{R}) que suma el cuadrado de las entradas de la diagonal de una matriz, es decir, aquella dada por

    \[Q\begin{pmatrix} a & b\\c & d\end{pmatrix}=a^2+d^2.\]

Determina su forma polar y si es positiva o positiva definida.

Solución. Para encontrar la forma polar B de Q, usamos la identidad de polarización

    \begin{align*}B&\left(\begin{pmatrix}a&b\\c&d\end{pmatrix},\begin{pmatrix} e & f\\ g & h \end{pmatrix}\right)\\&=\frac{(a+e)^2+(d+h)^2-a^2-e^2-d^2-h^2}{2}\\&=\frac{2ae+2dh}{2}\\&=ae+dh.\end{align*}

Como Q\begin{pmatrix}a&b\\c&d\end{pmatrix}=a^2+d^2\geq 0, tenemos que Q (y B) son positivas. Sin embargo, Q no es positiva definida (ni B), pues por ejemplo,

    \[Q\begin{pmatrix}0&1\\1&0\end{pmatrix} = 0.\]

Producto interior

Estamos listos para definir aquellos espacios sobre los que podemos hacer geometría.

Definición. Sea V un espacio vectorial sobre \mathbb{R}

  • Un producto interior en V es una forma bilineal simétrica y positiva definida.
  • Decimos que V es un espacio Euclideano si es de dimensión finita y está equipado con un producto interior.

Estamos siguiendo la convención del libro de Titu Andreescu, en donde es importante pedir que V sea de dimensión finita para ser Euclideano.

Cuando estamos hablando de espacios con producto interior, o de espacios Euclideanos, tenemos una forma bilineal simétrica y positiva definida b. Sin embargo, en vez de usar constantemente b(x,y), para simplificar la notación usaremos simplemente \langle x, y\rangle.

Definición. Si V es un espacio con producto interior \langle \cdot,\cdot \rangle, definimos la norma de un vector x como

    \[\Vert x \Vert =\sqrt{\langle x, x \rangle}.\]

Ejemplo. Como dijimos arriba, el producto punto en \mathbb{R}^n es una forma bilineal simétrica, así que es un producto interior. Como \mathbb{R}^n es de dimensión finita, entonces es un espacio Euclideano.

La norma de un vector x=(x_1,\ldots,x_n) está dada por \Vert x \Vert = \sqrt{x_1^2+\ldots+x_n^2}, y geométricamente se interpreta como la distancia de x al origen.

Un ejemplo más concreto es \mathbb{R}^4, en donde la norma del vector (1,2,3,1) es \sqrt{1^2+2^2+3^2+1^2}=\sqrt{15}.

\square

La notación de producto interior quizás te recuerde la notación que se usa cuando hablamos de dualidad. Sin embargo, es muy importante que distingas los contextos. En el caso de dualidad, tenemos

    \[\langle \cdot, \cdot \rangle: V^\ast\times V \to \mathbb{R},\]

y en este contexto de producto interior tenemos

    \[\langle \cdot, \cdot \rangle: V\times V \to \mathbb{R}.\]

Más adelante, puede que te encuentres en tu preparación matemática con el teorema de representación de Riesz, a partir del cual tendrá sentido que se use la misma notación.

Desigualdad de Cauchy-Schwarz

A continuación presentamos un resultado fundamental es espacios con formas bilineales positivas y positivas definidas.

Teorema (desigualdad de Cauchy-Schwarz). Sea b:V\times V\to \mathbb{R} una forma bilineal simétrica y q su forma cuadrática asociada.

  • Si b es positiva, entonces para todo x y y en V tenemos que

        \[b(x,y)^2\leq q(x)q(y).\]

    Si x y y son linealmente dependientes, se alcanza la igualdad.
  • Además, si b es positiva definida y x y y son linealmente independientes, entonces la desigualdad es estricta.

Demostración. Supongamos primero solamente que b es positiva. Consideremos la función f:\mathbb{R}\to \mathbb{R} dada por f(t)=q(x+ty). Como q es forma cuadrática positiva, tenemos que f(t)\geq 0 para todo real t. Por otro lado, expandiendo y usando que b es simétrica, tenemos que

    \begin{align*}f(t)&=q(x+ty)\\&=b(x+ty,x+ty)\\&=b(x,x)+2b(x,y)\cdot t + b(y,y) \cdot t^2\\&=q(x) + 2b(x,y)\cdot t + q(y) \cdot t^2.\end{align*}

En esta expresión, q(x), 2b(x,y) y q(y) son reales, así que f(t) es un polinomio cuadrático en t. Como f(t)\geq 0 para todo t en \mathbb{R}, el discriminante de este polinomio es no positivo, en otras palabras,

    \[(2b(x,y))^2-4q(x)q(y)\leq 0.\]

Sumando 4q(x)q(y) y dividiendo entre 4 ambos lados de la desigualdad, obtenemos que

    \[b(x,y)^2\leq q(x)q(y),\]

la cual es la desigualdad que queremos.

Si x y y son linealmente dependientes, podemos despejar a uno en términos del otro. Sin perder generalidad, podemos suponer que x=\alpha y. En este caso,

    \[b(\alpha y,y)^2=\alpha^2 b(y,y)=q(\alpha(y))q(y),\]

así que se da la igualdad.

Ahora, supongamos además que b es positiva definida y que se da la igualdad. Si esto sucede, el discriminante del polinomio cuadrático de arriba es igual a 0 y por lo tanto el polinomio tiene una raíz t. En otras palabras, q(x+ty)=0. Pero como q es positiva definida, esto implica que x+ty=0, de donde x y y son linealmente dependientes. Así, si x y y son linealmente independientes, tenemos que la desigualdad es estricta.

\square

El siguiente caso particular es uno de los más importantes y los más usados, por lo cual amerita que lo enunciemos separadamente.

Corolario. Sea V un espacio vectorial sobre \mathbb{R} equipado con un producto interior \langle \cdot, \cdot \rangle. Para cualesquiera x,y en V se cumple |\langle x, y \rangle| \leq \Vert x \Vert \cdot \Vert y \Vert.

Puede que te preguntes por qué enfatizamos los resultados de desigualdades. En varias partes de tu formación matemática trabajarás con espacios vectoriales en donde quieres hacer cálculo. Ahí, se define la convergencia y los límites en términos de una norma. Las desigualdades que probemos para espacios vectoriales son útiles para cuando se quiere demostrar la validez de ciertos límites. Más adelante mencionaremos algunas cosas adicionales al respecto.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Considera la función q(w,x,y,z)=wx+yz. Muestra que es una forma cuadrática en \mathbb{R}^4. Encuentra su forma polar y determina si es una forma cuadrática positiva y/o positiva definida.
  • Muestra que

        \[q(w,x,y,z)=x^2+y^2+z^2+xy+yz+zx\]

    es una forma cuadrática en \mathbb{R}^4 y determina si es positiva y/o positiva definida.
  • Considera V=\mathcal{C}[0,1] el espacio vectorial de funciones continuas en el intervalo [0,1]. Muestra que

        \[\langle f,g\rangle = \int_0^1 f(x)g(x)\, dx\]

    define un producto interior en V. ¿Es V un espacio Euclideano? Determina la norma de la función f(x)=x^3.
  • Sea V=\mathbb{R}_2[x] el espacio vectorial de polinomios con coeficientes reales y de grado a lo más 1. Muestra que

        \[\langle p,q\rangle = p(0)q(0)+p(1)q(1)+p(2)q(2)\]

    hace a V un espacio Euclideano.

Más adelante…

En esta entrada definimos el concepto de producto interior y vimos cómo el producto interior induce una norma en el espacio vectorial. El concepto de norma nos permite generalizar la noción de distancia y esto nos permitirá ver cómo se puede hacer cálculo en espacios vectoriales.

En las siguientes entradas veremos cómo se define esta norma para diferentes espacios vectoriales con diferentes productos interiores. Podremos ver entonces cómo se generalizan otras nociones que ya hemos visto en cursos anteriores; como el concepto de ángulo.

Entradas relacionadas

Álgebra Lineal I: Formas cuadráticas, propiedades, polarización y Gauss

Introducción

En la entrada anterior hablamos acerca de formas bilineales y comenzamos a hablar de formas cuadráticas. Discutimos cómo a partir de estas nociones a la larga podremos hablar de geometría y cálculo en espacios vectoriales. El objetivo de esta entrada es entender mejor a las formas cuadráticas y su relación con formas bilineales.

Lo primero que haremos es demostrar la identidad de polarización, que a grandes rasgos dice que hay una biyección entre las formas bilineales simétricas y las formas cuadráticas. Veremos algunos ejemplos concretos de esta biyección. A partir de ella demostraremos algunas propiedades de formas cuadráticas. Finalmente, hablaremos brevemente de un bello resultado de Gauss que caracteriza las formas cuadráticas en \mathbb{R}^n en términos de formas lineales, de las cuales discutimos mucho cuando hablamos de espacio dual.

Como pequeño recordatorio de la entrada anterior, una forma bilineal de un espacio vectorial V es una transformación b:V\times V \to \mathbb{R} tal que cada que fijamos una coordenada, es lineal en la otra. Esta forma es simétrica si b(x,y)=b(y,x) para cada par de vectores x,y en V. Una forma cuadrática de V es una transformación q:V\to \mathbb{R} tal que q(x)=b(x,x) para alguna forma bilineal b.

Formas cuadráticas y polarización

En la entrada anterior enunciamos el siguiente teorema, que mostraremos ahora.

Teorema (identidad de polarización). Sea q:V\to \mathbb{R} una forma cuadrática. Existe una única forma bilineal simétrica b:V\times V \to \mathbb{R} tal que q(x)=b(x,x) para todo vector x. Esta forma bilineal está determinada mediante la identidad de polarización

    \[b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2}.\]

Demostración. Tomemos una forma cuadrática q de V. Por definición, está inducida por una forma bilineal B de V, es decir, q(x)=B(x,x). Definamos la transformación b mediante

    \[b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2}.\]

Comencemos probando que b es una transformación bilineal simétrica. Notemos que:

    \begin{align*}b(x,y)&=\frac{q(x+y)-q(x)-q(y)}{2}\\&=\frac{B(x+y,x+y)-B(x,x)-B(y,y)}{2}\\&=\frac{B(x,x)+B(x,y)+B(y,x)+B(y,y)-B(x,x)-B(y,y)}{2}\\&=\frac{B(x,y)+B(y,x)}{2}.\end{align*}

De aquí es muy claro que b es forma bilineal, pues fijando x, set tiene que b(x,y) es combinación lineal de dos formas lineales en y; y fijando y, se tiene que b(x,y) es combinación lineal de dos formas lineales en x. Además, de esta igualdad (o directo de la definición de b) es claro que b(x,y)=b(y,x).

También de esta igualdad obtenemos que

    \[b(x,x)=B(x,x)=q(x).\]

Para mostrar la unicidad, notemos que cualquier forma bilineal simétrica b' tal que b'(x,x)=q(x) debe satisfacer, como en las cuentas que hicimos arriba, que

    \begin{align*}q(x+y)&=b'(x+y,x+y)\\&=q(x)+q(y)+b'(x,y)+b'(y,x)\\&=q(x)+q(y)+2b'(x,y).\end{align*}

De aquí, despejando b', se obtiene que debe tener la forma de b.

\square

El teorema anterior justifica la siguiente definición.

Definición. Dada una forma cuadrática q de V, a la única forma bilineal simétrica b de V tal que q(x)=b(x,x) le llamamos la forma polar de q.

Ejemplo. En el espacio vectorial \mathbb{R}^n, la transformación q:\mathbb{R}^n\to \mathbb{R} dada por

    \[q(x_1,\ldots,x_n)=x_1^2+\ldots+x_n^2.\]

es una forma cuadrática. Su forma polar es la forma bilineal producto punto que manda a x=(x_1,\ldots,x_n) y y=(y_1,\ldots,y_n) a

    \[b(x,y)=x_1y_1+\ldots+x_ny_n.\]

Esto coincide con la construcción dada por la identidad de polarización, ya que

    \begin{align*}q(x+y)-q(x)-q(y)&=\sum_{i=1}^n (x_i+y_i)^2-x_i^2-y_i^2 \\&= \sum_{i=1}^n x_iy_i\end{align*}

\square

Ejemplo. En el espacio vectorial \mathbb{R}[x] de polinomios con coeficientes reales, la transformación Q dada por

    \[Q(p)=p(0)p(1)+p(2)^2\]

es una forma cuadrática. Para encontrar a su forma bilineal polar, usamos la identidad de polarización

    \begin{align*}B(p,q)&=\frac{Q(p+q)-Q(p)-Q(q)}{2}\\&=\frac{(p+q)(0)(p+q)(1)+(p+q)(2)^2-p(0)p(1)-p(2)^2-q(0)q(1)-q(2)^2}{2}\\&=\frac{p(0)q(1)+q(0)p(1)+2p(2)q(2)}{2}\\&=\frac{p(0)q(1)}{2}+\frac{p(1)q(0)}{2}+p(2)q(2).\end{align*}

\square

Propiedades de formas cuadráticas

Si q es una forma cuadrática, x es un vector y c es un real, tenemos que q(cx)=c^2q(x), pues sale una c por cada una de las coordenadas de la forma bilineal asociada. En particular, q(-x)=q(x).

La identidad de polarización nos permite probar otras propiedades de formas bilineales y formas cuadráticas.

Proposición. Sea q una forma cuadrática en V con forma polar b. Entonces:

  • Para todo par de vectores x y y en V, se tiene que

        \[b(x,y)=\frac{q(x+y)-q(x-y)}{4}.\]

  • (Ley del paralelogramo) Para todo par de vectores x y y en V, se tiene que

        \[q(x+y)+q(x-y)=2(q(x)+q(y)).\]

  • (Teorema de Pitágoras) Para vectores x y y tales que b(x,y)=0, se tiene que

        \[q(x+y)=q(x)+q(y).\]

  • (Diferencia de cuadrados) Para todo par de vectores x y y en V, se tiene que b(x+y,x-y)=q(x)-q(y).

Demostración. Por la identidad de polarización tenemos que

    \[b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2},\]

y como q(y)=q(-y), tenemos también por la identidad de polarización que

    \begin{align*}-b(x,y)&=b(x,-y)\\&=\frac{q(x-y)-q(x)-q(y)}{2}.\end{align*}

Restando la segunda ecuación de la primera, obtenemos la primer propiedad. Sumando ambas obtenemos la ley del paralelogramo.

El teorema de Pitágoras es una consecuencia directa de la identidad de polarización.

La identidad de diferencia de cuadrados es una consecuencia de la primer propiedad aplicada a los vectores x+y y x-y, y de usar que q(2x)=4q(x) y que q(2y)=4q(y).

\square

Forma de las formas cuadráticas

Otra consecuencia de la identidad de polarización es que establece una biyección entre las formas cuadráticas y las formas simétricas bilineales. Esta asociación nos permite decir cómo se ven exactamente las formas cuadráticas en espacios vectoriales de dimensión finita.

Toda forma cuadrática viene de una forma bilineal simétrica. En la entrada anterior, mencionamos que para definir una forma bilineal simétrica en un espacio vectorial V de dimensión n, basta tomar una base \{e_1,\ldots,e_n\} de V y decidir los valores b_{ij} de b(e_i,e_j) para 1\leq i \leq j \leq n. Como b es simétrica, para j<i se tendría que b(e_i,e_j)=b(e_j,e_i), es decir, que b_{ji}=b_{ij}.

De esta forma, para todo vector v en V podemos encontrar el valor de q(v) expresando v en la base \{e_1,\ldots,e_n\}, digamos,

    \[v=a_1e_1+\ldots+a_ne_n,\]

de donde

    \[q(v)=\sum_{i=1}^n b_{ii} a_i^2 + 2 \sum_{1\leq i < j \leq n} b_{ij} a_i a_j.\]

Ejemplo. Toda forma cuadrática en \mathbb{R}^3 se obtiene de elegir reales a,b,c,d,e,f y definir

    \[q(x,y,z)=ax^2+by^2+cz^2+2dxy+2eyz+2fzx.\]

La forma polar de q es la forma bilineal B tal que para la base canónica e_1,e_2,e_3 de \matbb{R}^3 hace lo siguiente

    \begin{align*}B(e_1,e_1)&=a\\B(e_2,e_2)&=b\\B(e_3,e_3)&=c\\ B(e_1,e_2)&=B(e_2,e_1)=d\\ B(e_2,e_3)&=B(e_3,e_2)=e\\B(e_3,e_1)&=B(e_1,e_3)=f.\end{align*}

\square

Teorema de Gauss de formas cuadráticas (opcional)

Para esta sección, fijemos al espacio vectorial como \mathbb{R}^n. Hay una forma muy natural de construir formas cuadráticas a partir de formas lineales. Tomemos números reales \alpha_1,\ldots, \alpha_r y formas lineales l_1,\ldots,l_r. Consideremos

    \[q(x)=\alpha_1l_1(x)^2+\ldots+\alpha_r l_r(x)^2.\]

Se tiene que q es una forma cuadrática. La demostración de ello es sencillo y se queda como tarea moral.

Lo que descubrió Gauss es que todas las formas cuadráticas se pueden expresar de esta forma, y de hecho, es posible hacerlo usando únicamente formas lineales que sean linealmente independientes y coeficientes 1 y -1.

Teorema (clasificación de Gauss de formas cuadráticas). Sea q una forma cuadrática en \mathbb{R}^n. Entonces, existen enteros no negativos r y s, y formas lineares l_1,\ldots,l_r,m_1,\ldots,m_s en (\mathbb{R}^n)^\ast, todas ellas linealmente independientes, tales que

    \[q=l_1^2+\ldots+l_r^2-m_1^2-\ldots-m_s^2.\]

Hay un pequeño refinamiento de este teorema, demostrado por Sylvester.

Teorema (teorema de la inercia de Sylverster). Los números r y s en el teorema de clasificación de Gauss de formas cuadráticas son únicos.

Ejemplo. Tomemos la forma cuadrática en \mathbb{R}^3 dada por q(x,y,z)=xy+yz+zx. Por el teorema de Gauss, esta forma se debe de poder poner como combinación lineal de cuadrados de formas lineales independientes. En efecto, tenemos que:

    \[xy+yz+zx=\left(\frac{2x+y+z}{2}\right)^2-\left(\frac{y-z}{2}\right)^2-x^2,\]

en donde

    \begin{align*}(x,y,z)&\mapsto \frac{2x+y+z}{2},\\(x,y,z) &\mapsto \frac{y-z}{2}\quad \text{ y }\\(x,y,z)&\mapsto x\end{align*}


son formas lineales linealmente independientes.

\square

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Verifica que las formas cuadráticas de los ejemplos del teorema de polarización en efecto son formas cuadráticas.
  • Muestra que q(x,y)=3x^2-y^2+7y no es una forma cuadrática.
  • Muestra que si \alpha_1,\ldots, \alpha_r son reales y tomamos formas lineales l_1,\ldots,l_r en \mathbb{R}^n, entonces

        \[q(x)=a_1l_1(x)^2+\ldots+\alpha_r l_r(x)^2\]

    es una forma cuadrática.
  • ¿Quién es la forma polar de la forma cuadrática Q(f)=\int_{0}^1 f^2(x)\, dx en el espacio vectorial de funciones continuas en el intervalo [0,1]?

Una demostración algorítmica del teorema de Gauss se puede encontrar en la Sección 10.1 del libro de Álgebra Lineal de Titu Andreescu.

Más adelante…

En esta entrada estudiamos a fondo la identidad de polarización; esto nos permitió concluir que existe una biyección entre las funciones bilineales simétricas y las fromas cuadráticas. También, pusimos mucho énfasis en ejemplos concretos de esta biyección.

Con esto estamos listos para empezar a pensar en cómo haríamos geometría o cálculo en espacios vectorias. Abordaremos estos temas al final de esta unidad. En la siguiente entrada hablaremos del producto interior.

Entradas relacionadas

Álgebra Lineal I: Ortogonalidad y transformación transpuesta

Introducción

En entradas anteriores ya estudiamos la noción de espacio dual y la de ortogonalidad. También vimos cómo a partir de la ortogonalidad podemos definir subespacios como intersección de hiperplanos. Como veremos a continuación, la ortogonalidad también nos permite definir qué quiere decir que consideremos la “transformación transpuesta” de una transformación lineal.

Antes de comenzar, vale la pena recordar también que cada transformación lineal entre espacios de dimensión finita puede ser expresada mediante una matriz que depende de la elección de bases de los espacios vectoriales. Como tal vez te imaginarás, la transformación transpuesta tendrá como matriz a la matriz transpuesta de la transformación original.

Esta intuición nos dice que hay que tener cuidado. Supongamos que estamos trabajando sobre un campo F. Si tenemos espacios vectoriales V de dimensión n, W de dimensión m y una tranformación lineal T:V\to W, recordemos que, tras elegir bases, T está representada por una matriz A en M_{m,n}(F), es decir, con m filas y n columnas.

Pero la matriz transpuesta ^t A es de n filas y m columnas, así que típicamente no representará a una transformación de V a W, pues las dimensiones no necesariamente coinciden. Podríamos intentar construir una transformación de W a V para que las dimensiones coincidan, pero resulta que esto no es “tan natural”, por razones en las que no profundizaremos.

Lo que sí resulta muy natural y fácil de definir es una transformación de W^\ast a V^\ast, lo cual tendrá sentido pues ya probamos que \dim W^\ast = \dim W y \dim V^\ast = \dim V, así que será representada por una matriz en M_{n,m}. Es un poco más difícil conceptualmente, pero las consecuencias matemáticas son más bonitas y útiles. Sin decir más, comenzamos con la teoría.

Definición y ejemplo de transformación transpuesta

Para definir “transformación transpuesta”, le hacemos como sigue.

Definición. Sean V y W espacios vectoriales sobre un campo F y sea T:V\to W una transformación lineal. Definimos la transformación transpuesta de T, como la transformación ^tT:W^\ast \to V^\ast tal que a cada forma lineal l en W^\ast la manda a la forma lineal ^tT(l) en V^\ast para la cual

    \[(^tT(l))(v)=l(T(v)).\]

Otra forma de escribir a la definición es mediante la notación de emparejamiento canónico:

    \[\langle ^tT(l),v\rangle=\langle l, T(v)\rangle.\]

Veamos un ejemplo para entender mejor la definición.

Ejemplo. Considera a V=M_{2}(\mathbb{R}) y W=\mathbb{R}^2. Considera la transformación lineal T:V\to W dada por

    \[T\begin{pmatrix} a& b\\ c&d\end{pmatrix}=(a+b,c+d).\]

La transformación ^t T va a mandar a una forma lineal l de W a una forma lineal ^tT(l) de V. Las formas lineales l en W se ven de la siguiente forma

    \[l(x,y)=rx+sy.\]

La forma lineal ^tT(l) en V debe satisfacer que ^tT(l)=l\circ T. En otras palabras, para cualquier matriz \begin{pmatrix} a& b\\ c&d\end{pmatrix} se debe tener

    \begin{align*}(^t T(l)) \begin{pmatrix} a& b\\ c&d\end{pmatrix} &= l(a+b,c+d)\\&=r(a+b)+s(c+d)\\&=ra+rb+sc+sd.\end{align*}

Si tomamos la base canónica E_{11}, E_{12}, E_{21}, E_{22} de V y la base canónica e_1,e_2 de W, observa que la transformación T tiene como matriz asociada a la matriz

    \[\begin{pmatrix} 1 & 1 & 0 & 0\\ 0 & 0 & 1 & 1\end{pmatrix}\]

(recuerda que se obtiene poniendo como columnas a los vectores coordenada de las imágenes de la base).

Por otro lado, los vectores de la base dual e_1^\ast y e_2^\ast “leen las coordenadas”, de modo que e_1^\ast(x,y)=x y e_2^\ast(x,y)=y. Por lo que vimos arriba, (^t T)(e_1) es entonces la forma lineal a+b y (^t T)(e_2) es la forma lineal c+d. En términos de la base dual en V^\ast, estos son E_{11}^\ast + E_{12}^\ast y E_{21}^\ast+ E_{22}^\ast respectivamente. De esta forma, la transformación ^t T tiene matriz asociada

    \[\begin{pmatrix}1&0\\1&0\\0&1\\0&1\end{pmatrix}.\]

\square

Nota que en el ejemplo la transformación transpuesta tiene como matriz a la matriz transpuesta de la transformación original. Esto es algo que queremos que pase siempre, y más abajo lo demostramos.

Propiedades básicas de transformación transpuesta

Observa que la definición no necesita que V y W sean de dimensión finita. A continuación enunciamos y probamos algunos resultados que se valen también en el contexto de dimensión infinita.

Teorema 1. Tomemos V,W,Z espacios vectoriales sobre un campo F y c en F. Sean T_1,T_2: V \to W transformaciones lineales. Sea T_3:W\to Z una transformación lineal. Se cumple todo lo siguiente:

  1. ^tT_1 es una transformación lineal.
  2. ^t(T_1+cT_2)= {^tT_1} + c^tT_2.
  3. ^t(T_3\circ T_1) = {^t T_1} \circ ^t T_3.
  4. Si V=W y T_1 es invertible, entonces ^t T_1 también lo es y (^t T_1)^{-1}= {^t (T_1^{-1})}.

Para tener un poco más de intuición, observa cómo estas propiedades son análogas a las de transposición para matrices.

Demostración. Las partes 1 y 2 se demuestran usando cuidadosamente las definiciones. Haremos la demostración de 1 y la demostración de 2 queda como tarea moral. Para probar 1, necesitamos probar que ^tT_1:W^\ast \to V^\ast es lineal, así que tomemos l_1, l_2 en W^\ast y a un escalar en F. Tenemos que demostrar que

    \[^tT_1(l_1+a l_2)=  {^tT_1(l_1)}+ a  ^tT_1(l_2).\]

Ésta es una igualdad de formas lineales en V^\ast, y para mostrar su validez tenemos que mostrar que se vale en cada v\in V. Por un lado,

    \begin{align*} ^tT_1(l_1+a l_2)(v) &= (l_1+a l_2)(T_1(v))\\&=l_1(T_1(v))+a l_2(T_1(v)).\end{align*}

Por otro lado,

    \begin{align*} (^tT_1(l_1)+ a  ^tT_1(l_2))(v)&= {^tT_1(l_1)(v)}+ a  ^tT_1(l_2)(v)\\&= l_1(T_1(v)) + a  l_2(T_1(v)).\end{align*}

En ambos casos obtenemos el mismo resultado, así que ^tT_1(l_1+a l_2) y ^tT_1(l_1)+ a  ^tT_1(l_2) son iguales, mostrando que ^t T_1 es lineal.

Pasemos a la parte 3. La igualdad ^t(T_3\circ T_1) = {^t T_1} \circ ^t T_3 es una igualdad de transformaciones de Z^\ast a V^\ast. Para verificar su veracidad, hay que ver que son iguales en cada elemento en su dominio. Tomemos entonces una forma lineal l en Z^\ast. Queremos verificar la veracidad de

    \[^t(T_3\circ T_1)(l) = (^t T_1 \circ ^t T_3)(l),\]

que es una igualdad de formas lineales en V^\ast, de modo que tenemos que verificarla para cada v en V. Por un lado,

    \begin{align*} ^t(T_3\circ T_1)(l)(v)&=l((T_3\circ T_1)(v))\\&=l(T_3(T_1(v))),\end{align*}

Por otro,

    \begin{align*}(^t T_1 \circ ^t T_3)(l)(v)&=(^tT_1(^t T_3 (l)))(v)\\&=(^t T_3 (l))(T_1(v))\\&=l(T_3(T_1(v))).\end{align*}

En ambos casos obtenemos el mismo resultado.

Para la parte 4 basta notar que si V=W y T_1 es invertible, entonces tiene una inversa S:V\to V, y por la parte 3 tenemos que

    \[^t S\circ ^t T_1 = {^t(T_1\circ S)} = {^t \text{Id}_V} = \text{Id}_{V^\ast},\]

mostrando que ^t T_1 tiene inversa ^tS. Observa que estamos usando que la transpuesta de la transformación identidad es la identidad. Esto no lo hemos probado, pero lo puedes verificar como tarea moral.

\square

La matriz transpuesta es la matriz de la transformación transpuesta

Cuando estamos trabajando en espacios de dimensión finita, podemos mostrar que la matriz que le toca a la transformación transpuesta es precisamente la transpuesta de la matriz que le toca a la transformación original. Hacemos esto más preciso en el siguiente resultado.

Teorema 2. Sea T:V\to W una transformación lineal entre espacios de dimensión finita y B y B' bases de V y W respectivamente. Si A es la matriz de T con respecto a B y B', entonces ^t A es la matriz de la transformación ^t T:W^\ast \to V^\ast con respecto a las bases duales B'^\ast y B^\ast.

Demostración. Necesitamos definir algo de notación. Llamemos n=\dim V, m=\dim W, B=\{b_1,\ldots, b_n\}, B'=\{c_1,\ldots, c_m\} y A=[a_{ij}]. Recordemos que la matriz A está hecha por las coordenadas de las imágenes de la base B en términos de la base B', es decir, que por definición tenemos que para toda j=1,\ldots, n:

(1)   \begin{equation*}T(b_j)=\sum_{i=1}^{m} a_{ij} c_i.\end{equation*}

La transformación ^t T:W^\ast \to V^\ast va de un espacio de dimensión m a uno de dimensión n, así que en las bases B'^\ast y B^\ast se puede expresar como una matriz de n filas y m columnas. Afirmamos que ésta es la matriz ^t A. Para ello, basta mostrar que las coordenadas de las imágenes de la base B'^\ast en términos de la base B^\ast están en las filas de A, es decir, que para todo i=1, \ldots, m tenemos que

    \[^tT(c^\ast_i)=\sum_{j=1}^{n} a_{ij} b_j^\ast.\]

La anterior es una igualdad de formas lineales en V^\ast, de modo que para ser cierta tiene que ser cierta evaluada en todo v en V. Pero por linealidad, basta que sea cierta para todo b_j en la base B. Por un lado, usando (1),

    \begin{align*}^tT(c^\ast_i)(b_j)&=c^\ast_i(T(b_j))\\&=c^\ast_i \left(\sum_{k=1}^{m} a_{kj} c_i\right)\\&=\sum_{k=1}^{m} a_{kj} c^\ast_i(c_k)\\&=a_{ij},\end{align*}

en donde estamos usando que por definición de base dual c_i^\ast (c_i)= 1 y c_j^\ast (c_i)=0 si i\neq j. Por otro lado,

    \begin{align*}\left(\sum_{k=1}^{n} a_{ik} b_k^\ast\right)(b_j)&= \sum_{k=1}^{n} a_{ik} b_k^\ast(b_j)\\&=a_{ij},\end{align*}

en donde estamos usando linealidad y la definición de base dual para B.

Con esto concluimos la igualdad

    \[^tT(c^\ast_i)=\sum_{j=1}^{n} a_{ij} b_j^\ast,\]

que muestra que podemos leer las coordenadas de las evaluaciones de ^t T en B'^\ast en términos de la base B^\ast en las filas de A, por lo tanto podemos leerlas en las columnas de ^t A. Esto muestra que ^t A es la matriz correspondiente a esta transformación en términos de las bases duales.

\square

Kernel e imagen de la transformación transpuesta

Finalmente, el siguiente resultado nos habla acerca de cómo están relacionadas las transformaciones transpuestas y la ortogonalidad.

Teorema 3. Sea T:V\to W una transformación lineal entre espacios vectoriales de dimensión finita. Entonces

    \[\ker (^t T) = (\Ima (T))^\bot,\quad \ker (T)=(\Ima (^t T))^\bot\]

y

    \[\Ima (^t T) = (\ker(T))^\bot\,\quad \Ima (T)=(\ker(^t T))^\bot.\]

Demostración. Demostraremos la igualdad \ker (^t T) = (\Ima (T))^\bot. Notemos que l \in \ker(^t T) si y sólo si (^t T)(l)=0, lo cual sucede si y sólo si l\circ T = 0. Pero esto último sucede si y sólo si para todo v en V se tiene que l(T(v))=0, que en otras palabras quiere decir que l(w)=0 para todo w en \Ima (T). En resumen, l\in \ker(^t T) pasa si y sólo si l se anula en todo \Ima (T) es decir, si y sólo si está en (\Ima (T))^\bot.

El resto de las igualdades se demuestran de manera análoga, o alternativamente, usando la bidualidad canónica. Es un buen ejercicio hacerlo y se deja como tarea moral.

\square

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Muestra que la transpuesta de la transformación lineal T:\mathbb{R}^2\to \mathbb{R}^2 dada por T(x,y)=T(7x+8y,6x+7y) es invertible. Encuentra a su transpuesta y a la inversa de la transpuesta explícitamente.
  • Muestra la parte 2 del Teorema 1.
  • Muestra que la transpuesta de la transformación identidad es la identidad.
  • Demuestra el resto de las igualdades del Teorema 3.
  • Encuentra la transpuesta de la transformación traza que va de M_n(\mathbb{R}) a los reales. Recuerda que esta transformación manda a una matriz A=[a_{ij}] a la suma de sus entradas en la diagonal principal, es decir

        \[A\mapsto a_{11}+a_{22}+\ldots+a_{nn}.\]

Más adelante…

En esta entrada enunciamos un resultado muy importante: deda una transformación lineal T, su transformación transpuesta tiene como matriz asociada la matirz transpuesta de la matriz asociada de T. Este resultado nos permitirá calcular fácilmente la transpuesta de una transformación, como veremos en la entrada de problemas de este tema.

En la siguiente entrada del blog hablaremos por primera vez de formas bilineales: vamos a ver cómo nuestra discusión de transformaciones lineales facilitará mucho abordar este tema.

Entradas relacionadas

Álgebra Lineal I: Ortogonalidad, hiperplanos y ecuaciones lineales

Introducción

En entradas anteriores hablamos de formas lineales, del espacio dual y de ortogonalidad. Con la teoría que hemos desarrollado en esas entradas, podemos cosechar uno de los hechos más importantes para espacios vectoriales de dimensión finita n: todos los subespacios se pueden obtener a partir de intersectar hiperplanos, es decir, subespacios de dimensión n-1. El objetivo de esta entrada es dar las definiciones necesarias para enunciar y demostrar este resultado formalmente.

Hiperplanos

Antes de demostrar el resultado mencionado en la introducción, tomaremos un poco de intuición geométrica de \mathbb{R}^3.

En \mathbb{R}^3 tenemos sólo un subespacio de dimensión 0, que es \{(0,0,0)\}, un punto. Para obtener un subespacio de dimensión 1, tenemos que tomar un vector v\neq 0 y considerar todos los vectores rv con r en \mathbb{R}. Esto corresponde geométricamente a una línea por el origen, con la misma dirección que v. En otras palabras, los subespacios de dimensión 1 son líneas por el origen.

¿Quiénes son los subespacios de dimensión 2? Debemos tomar dos vectores linealmente independientes u y v y considerar todas las combinaciones lineales au+bv de ellos. Es más o menos fácil convencerse de que obtendremos al plano que pasa por u, v y el (0,0,0). Es decir, los subespacios de dimensión 2 de \mathbb{R}^3 son planos por el origen.

Esto motiva la siguiente definición.

Definición 1. Sea V un espacio vectorial de dimensión finita n. Un hiperplano de V es un subespacio de dimensión n-1.

Ejemplo. El subespacio U=\mathbb{R}_5[x] de V=\mathbb{R}_6[x] es un hiperplano. Esto es ya que U es de dimesión 6 y V es de dimensión 7. Sin embargo, aunque U también es un subespacio de W=\mathbb{R}_7[x], no se cumple que U sea hiperplano de W pues W es de dimensión 8 y 6\neq 8-1.

Las matrices simétricas de M_2(\mathbb{R}) forman un subespacio S de dimensión 3 de M_2(\mathbb{R}), pues son de la forma \begin{pmatrix} a & b \\ b & c \end{pmatrix}. De esta forma, S es un hiperplano de M_2(\mathbb{R}). Sin embargo, el conjunto de matrices simétricas de M_n(\mathbb{R}) no es un hiperplano ni para n=1, ni para n\geq 3.

\square

Los hiperplanos nos pueden ayudar a obtener subespacios. De hecho, veremos que en el caso de dimensión finita nos ayudan a obtener a todos los subespacios. Para continuar construyendo la intuición, notemos que en \mathbb{R}^3 los hiperplanos son simplemente los planos por el origen y que:

  • Podemos obtener a cualquier plano por el origen como intersección de planos por el origen: simplemente lo tomamos a él mismo.
  • Podemos obtener a cualquier línea por el origen como la intersección de dos planos distintos por el origen que la contengan. Por ejemplo, el eje z es la intersección de los planos xz y yz. En otras palabras: todo subespacio de dimensión 1 de \mathbb{R}^3 se puede obtener como la intersección de dos hiperplanos de \mathbb{R}^3.
  • A \{0\} lo podemos expresar como la intersección de los planos xy, yz y xz, osea, al único espacio de dimensión cero lo podemos expresar como intersección de 3 hiperplanos.

Ya obtenida la intuición, lo que veremos a continuación es que el resultado anterior en realidad es un fenómeno que sucede en cualquier espacio vectorial de dimensión finita. Así, nos enfocaremos en entender las definiciones del siguiente teorema, y demostrarlo.

Teorema. Sea V un espacio vectorial de dimensión finita n.

  • Todo subespacio W de V de dimensión m es la intersección de n-m hiperplanos de V linealmente independientes.
  • Toda intersección de n-m hiperplanos de V linealmente independientes es un subespacio vectorial de dimensión m.

Los hiperplanos son subespacio y la definición de independencia lineal que tenemos es para vectores. Pero el teorema anterior habla de “hiperplanos linealmente independientes”. ¿A qué se refiere esto? Como veremos más adelante, a cada hiperplano se le puede asignar de manera natural un elemento del espacio dual de V.

Recordatorio de espacio ortogonal

En la entrada anterior mostramos el siguiente resultado:

Teorema (teorema de dualidad). Sea V un espacio vectorial de dimensión finita sobre F y W un subespacio de V (o de V^\ast). Entonces

    \[\dim W + \dim W^\bot = \dim V.\]

Además, obtuvimos como corolario lo siguiente:

Corolario. Si V es un espacio vectorial de dimensión finita sobre un campo F y W un subespacio de V (o de V^\ast), entonces (W^\bot)^\bot=W.

Usaremos estos resultados para dar una definición alternativa de hiperplanos, para entender a los subespacios de dimensión n-1 y para mostrar el teorema principal de esta entrada.

Subespacios de dimensión n-1 y definición alternativa de hiperplanos

Tomemos un espacio vectorial V de dimensión finita n. Un caso especial, pero muy importante, del teorema de dualidad es cuando W es un subespacio de V^\ast de dimensión 1, es decir, cuando W está generado por una forma lineal l\neq 0. En este caso, W^\bot es un subespacio de V y por el teorema de dualidad, es de dimensión n-1.

De manera inversa, si W es un subespacio de V de dimensión n-1, por el teorema de dualidad tenemos que W^\bot es de dimensión 1, así que hay una forma lineal l\neq 0 que lo genera. Por el corolario, W=(W^\bot)^\bot, que en otras palabras quiere decir que W=\{v\in V: l(v)=0\}. En resumen:

Proposición. Un subespacio W de un espacio de dimensión finita d tiene dimensión d-1 si y sólo si es el kernel de una forma lineal l\neq 0 de V.

Ejemplo. Considera la forma lineal \text{ev}_0 en el espacio vectorial V=\mathbb{C}_n[x] de polinomios con coeficientes complejos y grado a lo más n. Los polinomios p tales que \text{ev}_0(p)=0 son exactamente aquellos cuyo término libre es 0. Este es un subespacio vectorial de V de dimensión n=\dim V - 1, pues una base para él son los polinomios x, x^2, \ldots, x^n.

\square

Problema. Considera el espacio vectorial V=M_{2,3}(\mathbb{R}). Considera W el subconjunto de matrices cuya suma de entradas en la primer columna es igual a la suma de entradas de la segunda columna. Muestra que W es un subespacio de dimensión 5 y escríbelo como el kernel de una forma lineal.

Solución. Mostrar que W es un subespacio de V es sencillo y se queda como tarea moral. Se tiene que W no puede ser igual a todo V pues, por ejemplo, la matriz \begin{pmatrix} 1 & 0 & 0\\ 0 & 0 & 0 \end{pmatrix} no está en W, así que \dim W\leq 5.

Las matrices \begin{pmatrix} 1 & 1 & 0\\ 0 & 0 & 0 \end{pmatrix}, \begin{pmatrix} 1 & 1 & 1\\ 0 & 0  & 0 \end{pmatrix}, \begin{pmatrix} 1 & 1 & 0\\ 0 & 0 & 1 \end{pmatrix}, \begin{pmatrix} 1 & 0 & 0\\ 0 & 1 & 0 \end{pmatrix}, \begin{pmatrix} 0 & 1 & 0\\ 1 & 0 & 0 \end{pmatrix} son linealmente independientes y están en W, así que \dim W\geq 5, y junto con el párrafo anterior concluimos que \dim W = 5.

Finalmente, tomemos la forma lineal

    \[l\begin{pmatrix} a & b & c\\ d& e& f\end{pmatrix}=a+d-b-e.\]

Tenemos que una matriz está en el kernel de l si y sólo si a+d-b-e=0, si y sólo si a+d=b+e, es decir, si y sólo si las entradas de la primer columna tienen la misma suma que las de la segunda. Así, W=\ker l.

\square

La proposición anterior nos permite dar una definición alternativa de hiperplano y hablar de hiperplanos linealmente independientes.

Definición 2. Sea V un espacio vectorial. Un hiperplano es el kernel de una forma lineal l\neq 0 en V^\ast. Una familia de hiperplanos es linealmente independiente si sus formas lineales correspondientes son linealmente independientes en V^\ast.

Observa además que la definición anterior también sirve para espacios vectoriales de dimensión infinita, pues nunca hace referencia a la dimensión que debe tener un hiperplano.

Ejemplo. El conjunto de funciones continuas f en el intervalo [0,1] tales que

    \[\int_0^1 f(x) \, dx = 0\]

son un subespacio W de \mathcal{C}[0,1]. Este subespacio es un hiperplano pues es el kernel de la forma lineal I tal que

    \[I(f)=\int_0^1 f(x)\, dx.\]

\square

No mencionaremos más de espacios de dimensión infinita en esta entrada.

Escribiendo subespacios como intersección de hiperplanos

Ya podemos entender el teorema principal de esta entrada y demostrarlo. Lo enunciamos nuevamente por conveniencia.

Teorema 2. Sea V un espacio vectorial de dimensión finita n.

  • Todo subespacio W de V de dimensión m es la intersección de n-m hiperplanos de V linealmente independientes.
  • Toda intersección de n-m hiperplanos de V linealmente independientes es un subespacio vectorial de dimensión m.

Demostración. Tomemos un espacio vectorial V de dimensión finita n y un subespacio W de dimensión m. Por el teorema de dualidad, la dimensión de \dim W^\bot es n-m. Tomemos una base B=\{l_1,l_2,\ldots,l_{n-m}\} de W^\bot. Por el corolario al teorema de dualidad, podemos expresar a W como

    \[W=(W^\bot)^\bot=\{v\in V: l_1(v)=\ldots=l_{n-m}(v)=0\}.\]

Si definimos L_i=\{v\in V: l_i(v)=0\}, por la proposición de la sección anterior tenemos que cada L_i es un hiperplano de V. Además,

    \[W=L_1\cap \ldots\cap L_{n-m}.\]

Como los l_i son linealmente independientes, con esto logramos expresar a W como intersección de n-m hiperplanos linealmente independientes.

Probemos ahora la segunda parte de la proposición. Tomemos el conjunto S=\{l_1,\ldots,l_{n-m}\} de formas linealmente independientes que definen a los hiperplanos. Un vector v está en la intersección de todos estos hiperplanos si y sólo si l_1(v)=\ldots=l_{n-m}(v)=0, si y sólo si está en S^\bot=\text{span}(S)^\bot. Es decir, la intersección de los hiperplanos es precisamente el subespacio \text{span}(S)^\bot. Como S es linealmente independiente, tenemos que \text{span}(S) es de dimensión n-m, de modo que por el teorema de dualidad, \dim \text{span}(S)^\bot = n-(n-m)=m. Esto muestra lo que queremos.

\square

Algunos problemas prácticos

Si tenemos un espacio V de dimensión finita n, un subespacio W de dimensión finita m y queremos encontrar de manera práctica la expresión de W como intersección de hiperplanos de V, podemos hacer el siguiente procedimiento:

  • Determinamos una base l_1,\ldots,l_{n-m} para W^\bot (la cual consiste de formas lineales de V^\ast). Esto lo podemos hacer con los pasos que mencionamos en la entrada anterior.
  • Definimos L_i=\{v\in V: l_i(v)=0\}.
  • Tendremos que W es la intersección de los L_i.

Una última observación es que cada L_i está definido por una ecuación lineal. Esto nos permite poner a cualquier subespacio como el conjunto solución a un sistema linela. Esto lo cual podemos ver de forma práctica de la siguiente manera:

  • Tomamos una base e_1,\ldots,e_n de V.
  • Tomemos un vector v=a_1e_1+\ldots+a_ne_n que queremos determinar si está en W. Para ello, debe estar en cada L_i.
  • Cada L_i está definido mediante la ecuación l_i(v)=0 de modo que si v está en L_i sus coordenadas a_1,\ldots,a_n en la base e_1,\ldots,e_n deben satisfacer la ecuación lineal

        \[l_i(e_1)a_1+\ldots+l_i(e_n)a_n=0.\]

  • De esta forma, los vectores v en W son aquellos cuyas coordenadas en la base e_1,\ldots, e_n satisfacen el sistema de ecuaciones obtenido de las ecuaciones lineales para cada i del punto anterior.

Veremos algunos ejemplos de estos procedimientos en la siguiente entrada.

La receta anterior nos permite concluir la siguiente variante del teorema de esta entrada, escrito en términos de ecuaciones lineales.

Teorema. Sea V un espacio vectorial de dimensión finita n y B una base de V.

  • Un subespacio W de dimensión m se puede definir mediante un sistema de ecuaciones lineales independientes que deben satisfacer las coordenadas de los vectores de W escritos en la base B.
  • Aquellos vectores cuyas coordenadas en la base B satisfacen un sistema de ecuaciones lineales independientes homogéneo, forman un subespacio de V de dimensión n-m.

La moraleja de esta entrada es que podemos pensar que los sistemas de ecuaciones, las intersecciones de hiperplanos y los subespacios de un espacio vectorial de dimensión finita son “prácticamente lo mismo”.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Considera el plano P en \mathbb{R}^3 que pasa por el origen y por los vectores (1,1,1), (0,2,0). Encuentra reales a,b,c tales que

        \[P=\{(x,y,z): ax+by+cz = 0 \}.\]

  • En todos los ejemplos en los que se menciona que algo es subespacio, verifica que en efecto lo sea. En los que se menciona que un conjunto es base, también verifica esto.
  • Encuentra una base para el espacio de polinomios p en M_n(\mathbb{C}) tales que \text{ev}(1)(p)=0.
  • Sea W el subconjunto de matrices de V:=M_n(\mathbb{R}) tal que la sumas de las entradas de todas las filas son iguales. Muestra que W es un subespacio de V. Determina la dimensión de W y exprésalo como intersección de hiperplanos linealmente independientes.
  • ¿Qué sucede cuando intersectas hiperplanos que no corresponden a formas linealmente independientes? Más concretamente, supongamos que tienes formas lineales l_1,\ldots,l_m de F^n. Toma B=\{e_1,\ldots,e_n\} la base canónica de F^n. Considera la matriz A=[l_i(e_j)]. ¿Qué puedes decir de la dimensión de la intersección de los hiperplanos correspondientes a los l_i en términos del rango de la matriz A?

Más adelante…

A lo largo de esta entrada enunciamos las definiciones necesarias para llegar al teorema que mencionamos al inicio: para un espacio vectorial de dimension finita n, todos los subespacios se pueden obtener a partir de intersectar hiperplanos, es decir, subespacios de dimensión n-1.

En la siguiente entrada utilizaremos este resultado para resolver algunos ejercicios y veremos en acción este importante teorema.

Entradas relacionadas

Álgebra Lineal I: Ortogonalidad y espacio ortogonal

Introducción

En entradas anteriores hablamos de formas lineales y del espacio dual. Vimos que las formas coordenadas correspondientes a una base forman bases del espacio dual. También hicimos ejemplos prácticos de cómo encontrar bases duales y cómo hacer cambios de base en el espacio dual. Usaremos la teoría que hemos desarrollado hasta el momento para estudiar los conceptos de ortogonalidad y espacio ortogonal.

Antes de comenzar, es importante dejar un consejo. Quizás a estas alturas asocias a la ortogonalidad con la perpendicularidad. Esta intuición puede ayudar un poco más adelante, pero por el momento es recomendable que dejes esa intuición de lado. El problema es que la “perpendicularidad” habla de parejas de segmentos, parejas de lineas, o parejas de vectores. Sin embargo, las nociones de ortogonalidad que estudiaremos ahora hablan de cuándo una forma lineal l y un vector v son ortogonales, por lo cual es mejor pensarlo por el momento en la ortogonalidad como un concepto nuevo.

Definiciones de ortogonalidad y espacio ortogonal

En esta sección, V es un espacio vectorial sobre un campo F.

Definición. Tomemos una forma lineal l de V y v un vector en V. Decimos que l y v son ortogonales si

    \[\langle l,v \rangle = 0.\]

De manera equivalente, l y v son ortogonales si l(v)=0, o si v está en el kernel de l.

Ejemplo. Consideremos la forma lineal l de los polinomios en \mathbb{R}_2[x] que a un polinomio lo manda a su evaluación en 2, es decir, tal que l(p)=p(2). Consideremos al polinomio p(x)=x^2-3x+2. Tenemos que

    \begin{align*}l(p)&=p(2)\\&=2^2-3\cdot 2 +2\\&=4-6+2\\&=0,\end{align*}

de modo que \langle l, p\rangle =0, así que l y p son ortogonales. Por otro lado, si q(x)=x+1, tenemos que \langle l,q\rangle = l(q)=3, de modo que l y q no son ortogonales.

\square

Ejemplo. Consideremos la forma lineal l(x,y,z)=2x+3y-z de \mathbb{R}^3. Un vector que es ortogonal con l es el vector v=(0,0,0). Un vector un poco más interesante es el vector (1,1,5) pues l(1,1,5)=2+3-5=0.

El vector (1,1,5) también es ortogonal a la forma lineal m(x,y,z)=x+y-\frac{2z}{5}, como puedes verificar.

\square

A partir de la noción anterior, nos podemos hacer dos preguntas. Dado un conjunto de vectores, ¿quiénes son todas las formas lineales ortogonales a todos ellos? Dado un conjunto de formas lineales, ¿quiénes son todos los vectores ortogonales a todas ellas? Esta noción queda capturada en la siguiente definición.

Definición. Para S un subconjunto de V, definimos al ortogonal de S como el conjunto de formas lineales de V ortogonales a todos los elementos de S. En símbolos,

    \[S^\bot:= \{l\in V^\ast: \langle l,v \rangle = 0\, \forall v \in S\}.\]

Tenemos una definición dual para subconjuntos de V^\ast.

Definición. Para S un subconjunto de V^\ast, el ortogonal de S es el conjunto de vectores de V ortogonales a todos los elementos de S. En símbolos,

    \[S^\bot=\{v\in V: \langle l, v \rangle = 0 \, \forall l\in S\}.\]

Observa que estamos definiendo al ortogonal para subconjuntos de V (y de V^\ast), es decir, que S no tiene por qué ser un subespacio vectorial de V. Por otro lado, sea o no S un subespacio, siempre tenemos que S^\bot es un subespacio. Por ejemplo, si S es un subconjunto de V y l_1, l_2 son formas lineales que se anulan en todos los elementos de S, entonces para cualquier escalar c también tenemos que l_1+cl_2 se anula en todos los elementos de S.

Ejercicio. Tomemos S al subconjunto de matrices diagonales con entradas enteras en M_2(\mathbb{R}). ¿Quién es S^\bot? Ojo: Aquí S no es un subespacio.

Solución. Sabemos que para cualquier forma lineal l de M_2(\mathbb{R}) existen reales p, q, r, s tales que

    \[l\begin{pmatrix}a&b\\c&d\end{pmatrix}=pa+qb+rc+sd.\]

Si l está en S^\bot, se tiene que anular en particular en las matrices A=\begin{pmatrix} 1 & 0\\ 0 & 0\end{pmatrix} y B=\begin{pmatrix} 0 & 0 \\ 0 & 1\end{pmatrix}, pues ambas están en S. En otras palabras,

    \[0 = l(A) = p\]

y

    \[0 = l(B) = s.\]

Así, la forma lineal tiene que verse como sigue:

    \[l\begin{pmatrix}a&b\\c&d\end{pmatrix}= qb+rc.\]

Y en efecto, todas las formas lineales de esta forma se anulan en cualquier matriz diagonal con entradas enteras, pues en esas matrices b=c=0.

\square

Encontrar el espacio ortogonal de manera práctica

Ya mencionamos que S no necesariamente tiene que ser un subespacio para definir S^\bot. Sin embargo, usando la linealidad podemos mostrar que, para cualquiera de las dos definiciones, basta estudiar qué sucede con subespacios vectoriales. La demostración de la siguiente proposición es sencilla, y se deja como tarea moral.

Proposición 1. Para S un subconjunto de V (o de V^\ast), tenemos que

    \[S^\bot = \text{span}(S)^\bot.\]

Esta proposición es particularmente importante pues en espacios vectoriales de dimensión finita nos permite reducir el problema de encontrar ortogonales para subconjuntos de vectores (o de formas lineales), a simplemente resolver un sistema de ecuaciones. El procedimiento que hacemos es el siguiente (lo enunciamos para vectores, para formas lineales es análogo):

  • Tomamos una base B=\{b_1,\ldots,b_n\} de V
  • Tomamos un subconjunto S de vectores de V.
  • Usamos la Proposición 1 para argumentar que S^\bot=\text{span}(S) ^\bot.
  • Consideramos una base C=\{c_1,\ldots,c_m\} de \text{span}(S) y notamos que una forma lineal l se anula en todo \text{span}(S) si y sólo si se anula en cada elemento de C.
  • Escribimos a cada c_i como combinación lineal de elementos de B, digamos

        \[c_i=a_{i1}b_1+\ldots+a_{in}b_n.\]

  • Cada condición l(c_i)=0 se transforma en la ecuación lineal

        \[a_{i1}l(b_1)+\ldots+a_{in}l(b_n)=l(c_i)=0\]

    en las variables l(b_1), l(b_2),\ldots, l(b_n) igualada a 0, de forma que las m condiciones dan un sistema de ecuaciones homogéneo.
  • Podemos resolver este sistema con reducción gaussiana para encontrar todas las soluciones, aunque basta con encontrar a las soluciones fundamentales, pues justo forman la base de \text{span}(S)^\bot=S^\bot.

Veamos este método en acción.

Ejemplo de encontrar el espacio ortogonal de manera práctica

Ejercicio. Considera el subconjunto S de \mathbb{R}^3 cuyos elementos son (2,3,-5), (-1,0,1), (3,3,-6), (-3,-2,5). Determina S^\bot.

Solución. Para encontrar S^\bot, basta encontrar \text{span}(S)^\bot.

Lo primero que notamos es que todos los vectores de S satisfacen que la suma de sus entradas es 0, así que todos los vectores en \text{span}(S) también, de modo que \text{span}(S) no es todo \mathbb{R}^3, así que es de dimensión a lo más 2. Notamos también que (-1,0,1) y (2,3,-5) son linealmente independientes, así que \text{span}(S) es de dimensión al menos 2, de modo que es de dimensión exactamente 2 y por lo tanto (-1,0,1) y (2,3,-5) es una base.

Para cualquier forma lineal l en \mathbb{R}^3 existen reales a, b, c tales que l(x,y,z)=ax+by+cz. Para encontrar aquellas formas lineales que se anulan en \text{span}(S), basta encontrar aquellas que se anulan en la base, es decir, en (-1,0,1) y (2,3,-5). De esta forma, necesitamos resolver el sistema de ecuaciones homogéneo

    \begin{align*}-a+c&=0\\2a+3b-5c&=0.\end{align*}

Para resolver este sistema, aplicamos reducción gaussiana:

    \begin{align*}&\begin{pmatrix} -1 & 0 & 1\\ 2 & 3 & -5\end{pmatrix}\\\to &  \begin{pmatrix} 1 & 0 & -1\\ 0 & 3 & -3\end{pmatrix}\\\to &  \begin{pmatrix} 1 & 0 & -1\\ 0 & 1 & -1\end{pmatrix}\end{align*}

La variable libre es c y las pivote son a y b. Obtenemos a=c y b=c, de donde las soluciones se ven de la forma (c,c,c). Concluimos entonces que S^\bot son las formas lineales tales que

    \[l(x,y,z)=c(x+y+z)\]

para algún real c.

\square

En el ejemplo anterior, la dimensiones de \text{span}(S) y de \text{span}(S)^\bot suman 3, que es la dimensión de \mathbb{R}^3. Esto no es una casualidad, como veremos en la siguiente sección.

El teorema de dualidad

Las dimensiones de un subespacio de un espacio vectorial de dimensión finita, y de su espacio ortogonal, están relacionadas con la dimensión del espacio. Este es uno de los teoremas más importantes de dualidad.

Teorema. Sea V un espacio vectorial de dimensión finita sobre F y W un subespacio de V (o de V^\ast). Entonces

    \[\dim W + \dim W^\bot = \dim V.\]

Demostración. Hagamos primero el caso en el que W es un subespacio de V. Supongamos que \dim V = n y que \dim W = m. Como W es subespacio, tenemos que m\leq n. Tenemos que mostrar que \dim W^\bot = n-m, así que basta exhibir una base de \dim W^\bot con n-m formas lineales.

Para ello, tomemos e_1,e_2,\ldots, e_m una base de W y tomemos elementos e_{m+1},\ldots,e_{n} que la completan a una base de V. Afirmamos que la base de W^\bot que estamos buscando consiste de las formas coordenadas e_{m+1}^\ast,\ldots,e_{n}^\ast correspondientes a e_{m+1},\ldots,e_n.

Por un lado, estas formas coordenadas son linealmente independientes, pues son un subconjunto de la base e_1^\ast,\ldots, e_n^\ast de V^\ast. Por otro lado, si tenemos a una forma lineal l de V, habíamos mostrado que la podemos expresar de la forma

    \[l=\sum_{i=1}^n \langle l, e_i \rangle e_i^\ast,\]

de modo que si l se anula en todo W, en particular se anula en los vectores e_1,\ldots,e_m, por lo que

    \[l=\sum_{i=m+1}^n \langle l, e_i\rangle e_i^\ast,\]

lo cual exhibe a l como combinación lineal de los elementos e_{m+1}^\ast,\ldots,e_n^\ast. De esta forma, este subconjunto de formas lineales es linealmente independiente y genera a W^\bot, que era justo lo que necesitábamos probar.

Ahora hagamos el caso en el que W es un subespacio de V^\ast. Podríamos hacer un argumento análogo al anterior, pero daremos una prueba alternativa que usa la bidualidad canónica \iota: V\to V^\ast ^\ast. La igualdad \langle l,v \rangle = 0 es equivalente a \langle \iota(v),l \rangle =0. De esta forma, v está en W^\bot si y sólo si \iota(v)\in V^\ast ^\ast se anula en todo W. Como \iota es isomorfismo y el espacio de los g\in V^\ast ^\ast que se anulan en W tiene dimensión

    \[\dim V^\ast-\dim W = \dim V - \dim W\]

(por la primer parte del teorema), concluimos entonces que

    \[\dim W^\bot = \dim V - \dim W,\]

lo cual prueba la otra parte del teorema.

\square

Problema. Sea W el subespacio de matrices simétricas de M_3(\mathbb{R}) ¿Cuál es la dimensión de W^\bot?

Solución. Se puede mostrar que E_{11}, E_{22}, E_{33}, E_{12}+E_{21}, E_{23}+E_{32}, E_{13}+E_{31} forman una base para W. De esta forma, W tiene dimensión 6. Por el Teorema 1, tenemos que \dim W^\bot = \dim M_3(\mathbb{R})-6=9-6=3.

\square

Aplicar dos veces ortogonalidad en subespacios

Una consecuencia importante del teorema anterior es que aplicarle la operación “espacio ortogonal” a un subespacio de un espacio de dimensión finita nos regresa al inicio. Más formalmente:

Corolario. Si V es un espacio vectorial de dimensión finita sobre un campo F y W un subespacio de V (o de V^\ast), entonces (W^\bot)^\bot=W.

Demostración. Haremos la prueba para cuando W es subespacio de V. La otra es análoga y se deja como tarea moral. Lo primero que vamos a mostrar es que W\subset  (W^\bot)^\bot. Tomemos w en W. Tenemos que mostrar que l(w)=0 para cualquier l en W^\bot. Por definición, un l en W^\bot se anula en todo elemento de W, así que se anula particularmente en w, como queremos.

Como W y (W^\bot)^\bot son espacios vectoriales, tenemos que W es subespacio de (W^\bot)^\bot. Por el teorema de dualidad, tenemos que

    \[\dim W^\bot = \dim V - \dim W.\]

Usando esto y de nuevo el teorema de dualidad, tenemos que

    \[\dim (W^\bot)^\bot = \dim V - \dim W^\bot = \dim W.\]

De esta forma, W es un subespacio de \dim (W^\bot)^\bot de su misma dimensión, y por lo tanto W= (W^\bot)^\bot.

\square

Hay que tener particular cuidado en usar el corolario anterior. Solamente se puede garantizar su validez cuando W es un subespacio de V, y cuando V es de dimensión finita. En efecto, si S es simplemente un subconjunto de V y no es un subespacio, entonces la igualdad S=(S^\bot)^\bot es imposible, pues al lado derecho tenemos un subespacio de V y al izquierdo no.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Demuestra la proposición enunciada en la entrada
  • Sea S el subespacio de matrices diagonales en M_n(\mathbb{R}). ¿Cuál es la dimensión de S^\bot?
  • Considera \mathbb{R}_3[x], el espacio vectorial de polinomios con coeficientes reales y grado a lo más 3. Considera las formas lineales \text{ev}_2 y \text{ev}_3 que evalúan a un polinomio en 2 y en 3 respectivamente. ¿Quién es el espacio ortogonal de \{\text{ev}_2,\text{ev}_3\}?
  • Prueba la segunda parte del teorema de dualidad con un argumento análogo al que usamos para probar la primer parte.
  • Prueba el corolario para cuando W es subespacio de V^\ast.
  • Verifica que las matrices propuestas en el último ejercicio en efecto forman una base para el subespacio de matrices simétricas.

Más adelante…

En esta entrada hablamos de ortogonalidad y de espacios ortogonales como si fueran un concepto nuevo, dejando de lado, al menos por el momento, nuestras ideas previas de asociar ortogonalidad con perpendicularidad. También vimos cómo encontrar un espacio ortogonal de manera práctica y hablamos de un teorema muy importante: el teorema de la dualidad.

Lo que sigue es hablar de cómo la noción de ortogonalidad nos permite estudiar sistemas de ecuaciones e hiperplanos. En la siguiente entrada estudiaremos estos conceptos.

Entradas relacionadas