Archivo de la etiqueta: ortogonal

Álgebra Lineal I: Proceso de Gram-Schmidt

Introducción

Durante esta semana hemos introducido el concepto de bases ortogonales y ortonormales, así como algunas propiedades especiales. Para poder aplicar los resultados que hemos visto, es necesario insistir en que las bases sean de este tipo (ortonormales). Ahora veremos cómo encontrar bases ortonormales usando algo llamado el proceso de Gram-Schmidt.

Recordando todos los problemas anteriores de este curso, decíamos que una base es un conjunto de vectores linealmente independientes y que el número de vectores coincide con la dimensión del espacio. Pero hasta este momento no nos interesó determinar si las bases eran ortonormales o no. Si nos pusiéramos a ver si lo eran, es probable que muy pocas lo sean. Entonces surgen dos preguntas, ¿será difícil encontrar una base ortonormal de un espacio vectorial? y ¿habrá alguna manera de construir una base ortonormal?

Proceso de Gram-Schmidt

La respuesta a la primera pregunta es «no, no es difícil», y justo la respuesta de la segunda pregunta es la justificación. Dada una base cualquiera del espacio vectorial, podemos construir una base ortonormal de ese mismo espacio gracias al siguiente teorema.

Teorema (Gram-Schmidt). Sean $v_1,v_2,\cdots,v_d$ vectores linealmente independientes en un espacio vectorial $V$ sobre $\mathbb{R}$ (no necesariamente de dimensión finita), con producto interior $\langle \cdot , \cdot \rangle$. Entonces existe una única familia de vectores ortonormales $e_1,e_2,\ldots,e_d$ en $V$ con la propiedad de que para todo $k=1,2,\ldots,d$, tenemos que

\begin{align*}
\text{span}(e_1,e_2,\cdots,e_k)&=\text{span}(v_1,v_2,\cdots,v_k), \quad \text{y} \quad\\
\langle e_k,v_k \rangle&>0.
\end{align*}

Demostración. Lo haremos por inducción sobre $d$, la cantidad de vectores con la que empezamos.

La base inductiva es cuando $d=1$. Tomamos un vector $e_1\in \text{span}(v_1)$, entonces podemos escribirlo como $e_1=\lambda v_1$ para cierta $\lambda$. Si queremos que $0<\langle e_1,v_1 \rangle=\lambda\norm{v_1}^2$, entonces $\lambda>0$. Además queremos que $e_1$ tenga norma igual a 1, entonces $$1=\norm{e_1}^2=\langle e_1,e_1 \rangle=\lambda^2\norm{v_1}^2,$$ lo cual es posible si $\lambda=\frac{1}{\norm{v_1}}$. Como $e_1$ es un múltiplo escalar de $v_1$, se tiene que $\text{span}(e_1)=\text{span}(v_1)$. Además, la construcción forzó a que $e_1=\frac{1}{\norm{v_1}} v_1$ sea el único vector que satisface las condiciones del teorema.

Hagamos ahora el paso inductivo. Tomemos un entero $d\geq 2$, y supongamos que el teorema es cierto para $d-1$. Sean $v_1,v_2,\cdots,v_d$ vectores en $V$ linelmente independientes. Por hipótesis, sabemos que existe una única familia de vectores ortonormales $e_1,\cdots,e_{d-1}$ que satisfacen las condiciones del teorema respecto a la familia $v_1,\cdots,v_{d-1}$. Es suficiente con probar que existe un único vector $e_d$ tal que $e_1,\cdots,e_d$ satisface el teorema con respecto a $v_1,\cdots,v_d$, esto es
\begin{align*}
\norm{e_d}&=1,\\
\langle e_d,e_i \rangle&=0 \quad \forall 1\leq i\leq d-1,\\
\langle e_d, v_d \rangle &> 0,
\end{align*}

y

$\text{span}(e_1,\cdots,e_d)=\text{span}(v_1,\cdots,v_d),$

ya que, por hipótesis, los casos de $k<d$ se cumplen.

La idea para construir $e_d$ es tomarlo de $\text{span}(v_1,\cdots,v_d)$, expresarlo como combinación lineal de estos y encontrar condiciones necesarias y suficientes sobre los coeficientes de $e_d$ para que satisfaga las conclusiones del teorema. Hagamos esto.

Sea $e_d$ un vector tal que $e_d\in\text{span}(v_1,\cdots,v_d)$. Por ser linealmente independientes y por hipótesis $$\text{span}(v_1,\cdots,v_d)=\text{span}(e_1,\cdots,e_{d-1})+\text{span}(v_d),$$ entonces podemos escribir $e_d$ como

$e_d=\lambda v_d +\sum_{i=1}^{d-1} a_i e_i$

para algunos $\lambda,a_1,\cdots,a_{d-1}$. Si resulta que $\lambda\neq 0$, esto también implicará que $\text{span}(e_1,\cdots,e_d)=\text{span}(v_1,\cdots,v_d)$.

Ahora, dado que $e_d$ debe formar una familia ortonormal con el resto de los vectores, para todo $j=1,\cdots,d-1$, tenemos que


\begin{align*}
0&=\langle e_d,e_j \rangle\\
&=\lambda\langle v_d,e_j\rangle + \sum_{i=1}^{d-1} a_i\langle e_i,e_j \rangle\\
&=\lambda\langle v_d,e_j \rangle +a_j,
\end{align*}

entonces $a_j=-\lambda\langle v_d,e_j \rangle$. Si logramos mostrar que hay un único $\lambda$ con el que se pueda satisfacer la conclusión del teorema, el argumento anterior muestra que también hay únicos $a_1,\ldots,a_{d-1}$ y por lo tanto que hay un único vector $e_d$ que satisface el teorema.

Sustituyendo los coeficientes anteriores, obtenemos que

$e_d=\lambda\left(v_d-\sum_{i=1}^{d-1} \langle v_d,e_i\rangle e_i \right).$

Notemos que si $z:=v_d-\sum_{i=1}^{d-1} \langle v_d,e_i\rangle e_i$ es cero, $v_d$ estaría en $$\text{span}(e_1,\cdots,e_{d-1}) = \text{span}(v_1,\cdots,v_{d-1}),$$ contradiciendo que los vectores $v_i$’s son linealmente independientes, entonces $z\neq 0$.

Ahora como queremos que $1=\norm{e_d}=|\lambda| \norm{z}$, esto implica que $|\lambda|=\frac{1}{\norm{z}}$.

Como además queremos que $\langle e_d,v_d \rangle >0$ y

$\langle e_d,v_d\rangle =\left\langle e_d,\frac{e_d}{\lambda}+\sum_{i=1}^{d-1} \langle v_d,e_i\rangle e_i \right\rangle=\frac{1}{\lambda},$

se deduce que $\lambda$ es único y está determinado por $\lambda=\frac{1}{\norm{z}}.$ Por lo tanto existe (y es único) el vector $e_d$ que satisface el teorema.

$\square$

Este proceso de construcción es mejor conocido como el proceso de Gram-Schmidt. La demostración da a la vez un algoritmo que nos permite encontrar bases ortogonales (y de hecho ortonormales). Veremos ejemplos de esto en la siguiente sección. Antes de eso, enunciaremos formalmente una de las conclusiones más importantes del teorema anterior.

Recuerda que un espacio Euclideano es un espacio vectorial de dimensión finita sobre $\mathbb{R}$ y con un producto interior. Podemos aplicar el proceso de Gram-Schmidt a cualquier base $v_1,\ldots,v_d$ de un espacio Euclideano $V$ y al final obtendremos una familia $e_1,\ldots,e_d$ de vectores ortonormales. Como sabemos que las familias de vectores ortonormales son linealmente independientes, y tenemos $d$ vectores, concluimos que $e_1,\ldots,e_d$ es una base ortonormal. En resumen, tenemos el siguiente resultado.

Corolario. Todo espacio Euclideano tiene una base ortonormal.

Ejemplos de aplicación del proceso de Gram-Schmidt

A continuación veremos algunos ejemplos que nos ayuden a clarificar más este algoritmo.

Ejemplo 1. Sean $v_1,v_2,v_3$ vectores en $\mathbb{R}^3$ (con el producto interior estándar) definidos por

$v_1=(1, 1, 0), \quad v_2=( 1, 1, 1), \quad v_3=( 1, 0, 1)$.

Es fácil ver que estos vectores son linealmente independientes. Entonces construyamos según el proceso de Gram-Schmidt la familia ortonormal de vectores $e_1,e_2,e_3$. Tenemos que

$e_1=\frac{v_1}{\norm{v_1}}=\frac{v_1}{\sqrt{2}}=\left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}},0\right)$.

Ahora, tomando $z_2=v_2-\langle v_2,e_1\rangle e_1$, tenemos que $e_2$ está definido como $\frac{z_2}{\norm{z_2}}$, entonces

\begin{align*}
z_2&=(1,1,1)-\left[(1,1,1)\cdot \left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}},0\right)\right]\left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}},0\right) \\
&=(1,1,1)-\left[\frac{2}{\sqrt{2}}\right]\left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}},0\right) \\
&=(1,1,1)-(2/2,2/2,0)\\
&=(1,1,1)-(1,1,0)=(0,0,1).
\end{align*}

Esto implica que $e_2=\frac{1}{1}(0,0,1)=(0,0,1)$. Finalmente tomando $z_3=v_3-\langle v_3,e_1 \rangle e_1 – \langle v_3,e_2 \rangle e_2$, sabemos que $e_3=\frac{z_3}{\norm{z_3}}$. Entonces

\begin{align*}
z_3&=v_3-\langle v_3,e_1 \rangle e_1 – \langle v_3,e_2 \rangle e_2 \\
&=(1,0,1)-\left(\frac{1}{2},\frac{1}{2},0\right)-(0,0,1) \\
&=\left(\frac{1}{2},-\frac{1}{2},0\right).
\end{align*}

Por lo tanto

$e_3=\frac{1}{\sqrt{1/2}}\left(\frac{1}{2}, -\frac{1}{2},0\right)=\left(\frac{1}{\sqrt{2}},\frac{-1}{\sqrt{2}},0\right).$

$\square$

Ejemplo 2. Sea $V$ el espacio de polinomios en $[0,1]$ con coeficientes reales de grado a lo más 2, con el producto interior

$\langle p,q \rangle =\int_0^1 p(x)q(x) dx.$

Sean $v_1=1$, $v_2=1+x$, $v_3=1+x^2$ vectores en $V$ que claramente son linealmente independientes. Encontraremos los vectores que nos da el proceso de Gram-Schmidt.

Primero calculemos

$\norm{v_1}^2=\int_0^1 1 dx= 1$,

entonces $e_1=\frac{v_1}{\norm{v_1}}=v_1=1$. Ahora calculemos $z_2$:

\begin{align*}
z_2&=v_2-\langle v_2,e_1 \rangle e_1 \\
&=1+x- \int_0^1 (1+x)dx=1+x-\left(1+\frac{1}{2}\right) \\
&=x-\frac{1}{2}.
\end{align*}

Haciendo la integral $$\int_0^1 \left(x-\frac{1}{2}\right)^2 dx$$ se obtiene que $\norm{z_2}=\sqrt{\frac{1}{12}}$, entonces $e_2=\sqrt{12}\left(x-\frac{1}{2}\right)$.

Por último, hay que calcular $z_3$ así como su norma. Primero,

\begin{align*}
z_3&=v_3-\langle v_3,e_1 \rangle e_1 – \langle v_3,e_2 \rangle e_2 \\
&=(1+x^2)-\int_0^1 (1+x^2)dx – 12\left(x-\frac{1}{2}\right)\int_0^1 (1+x^2)\left(x-\frac{1}{2}\right)dx \\
&=1+x^2-\left(1+\frac{1}{3}\right)-12\left(x-\frac{1}{2}\right)\left(\frac{1}{12}\right) \\
&=x^2-\frac{1}{3}-x+\frac{1}{2} \\
&=x^2-x+\frac{1}{6},
\end{align*}

y luego, con la integral $$\int_0^1 \left(x^2-x+\frac{1}{6}\right)^2 dx$$ se calcula que $\norm{z_3}=\frac{1}{6\sqrt{5}}$, por lo tanto $e_3=6\sqrt{5}\left(x^2-x+\frac{1}{6}\right)$.

$\square$

Aunque no es un proceso muy eficiente, nos garantiza que podemos encontrar una base ortonormal para cualquier espacio vectorial (con producto interior). Ya con una base ortonormal, podemos usar la descomposición de Fourier de la cual hablamos la entrada anterior y con ella todas las consecuencias que tiene.

Si quieres ver muchos más ejemplos del proceso en $\mathbb{R}^n$, puedes usar una herramienta en línea que te permite ver el proceso paso a paso en el conjunto de vectores que tu elijas. Una posible página es el Gram-Schmid Calculator de eMathHelp.

Tarea moral

  • Verifica que con el valor $\lambda$ que se encontró en la demostración del teorema de Gram-Schmidt en efecto se obtiene un vector $e_d$ que satisface todas las conclusiones que se desean.
  • Revisa que los vectores que se obtuvieron en los ejemplos de aplicación del proceso de Gram-Schmidt en efecto son bases ortogonales de los espacios correspondientes.
  • Aplica el proceso de Gram-Schmidt a los polinomios $1$, $x$, $x^2$ en el espacio Euclideano de los polinomios reales de grado a lo más dos y producto interior $$\langle p, q \rangle = p(0)q(0)+p(1)q(1)+p(2)q(2).$$
  • Aplica el proceso de Gram-Schmidt a los vectores \begin{align*}(1,1,1,1)\\ (0,1,1,1)\\ (0,0,1,1)\\ (0,0,0,1)\end{align*} de $\mathbb{R}^4$ con el producto interior canónico (el producto punto).
  • Usa el Gram-Schmidt Calculator de eMathHelp para ver paso a paso cómo se aplica el proceso de Gram-Schmidt a los vectores \begin{align*}(1,2,1,1,-1)\\ (0,0,1,0,0)\\ (2,0,0,1,1)\\ (0,2,0,0,1)\\ (-3,0,0,1,0)\end{align*} de $\mathbb{R}^5$.

Más adelante…

En esta última entrada teórica de la unidad 3, vimos el método de Gram-Schmidt para construir una base ortonormal, que es un proceso algorítmico que parte de tener una base de un espacio y al final calcula una base ortonormal. También se vieron algunos ejemplos de la aplicación de este proceso para espacios vectoriales finitos como $\mathbb{R}^3$ y el espacio de polinomios en [0,1] de grado a lo más 2. Aunque no es una manera muy eficaz para encontrar una base ortonormal, sí te garantiza que lo que construye es una.

En la próxima entrada veremos ejercicios resueltos de los temas que hemos estado estudiando a lo largo de esta semana. 

Entradas relacionadas

Álgebra Lineal I: Bases ortogonales

Introducción

Como ya discutimos en las entradas anteriores, si tenemos un espacio vectorial $V$ con producto interior, entonces podemos definir varias nociones geométricas en $V$, como ángulos, norma y distancia. Ahora vamos a definir una noción muy útil en álgebra lineal: la de bases ortogonales. Para ello, combinaremos las nociones de bases y producto interior.

Las bases ortogonales no sólo tienen aplicaciones en álgebra lineal. También son el punto de partida de muchos conceptos matemáticos avanzados. Un primer ejemplo es el análisis de Fourier, que estudia cómo aproximar funciones mediante funciones trigonométricas y que tiene aplicaciones en el mundo real en análisis de señales. Otro ejemplo es la vasta teoría de polinomios ortogonales, con aplicaciones en el mundo real en aproximación e integración numérica.

En estas entradas de bases ortogonales tomaremos espacios vectoriales sobre $\mathbb{R}$ con un producto interior $\langle \cdot,\cdot \rangle$.

Conjuntos ortogonales y ortonormales

Comenzamos con la siguiente definición. Recuerda que $V$ es un espacio vectorial sobre $\mathbb{R}$ con producto interior, así que induce una norma $\Vert \cdot \Vert$.

Definición. Sea $S$ un conjunto de vectores en $V$. Decimos que $S$ es

  • Ortogonal si cualquier par de vectores distintos de $S$ es ortogonal, es decir, si para todo $v,w$ en $S$, con $v\neq w$ se tiene que $$\langle v, w \rangle = 0.$$
  • Ortonormal si es ortogonal, y además todo vector de $S$ tiene norma $1$.

En otras palabras, $S$ es ortonormal si para todo $v$ en $S$ se tiene $\langle v, v\rangle =1$ y para $v$ y $w$ en $S$ distintos se tiene $\langle v, w\rangle =0$.

Ejemplo. Si tomamos a $\mathbb{R}^n$ con el producto punto, entonces la base canónica es un conjunto ortonormal pues, en efecto, $e_i\cdot e_i = 1$ y para $i\neq j$ se tiene $e_i\cdot e_j = 0$.

Todo conjunto de un sólo elemento es ortogonal, pues no hay nada que probar. Otro conjunto ortonormal en $\mathbb{R}^2$ es el conjunto que sólo tiene al vector $\left(\frac{3}{5},\frac{4}{5}\right)$, pues este es un vector de norma $1$.

Los vectores $(1,1,0)$, $(1,-1,0)$ y $(0,0,1)$ forman otro conjunto ortogonal en $\mathbb{R}^3$, pues en efecto
\begin{align*}
(1,1,0)\cdot (1,-1,0)&=1-1=0\\
(1,-1,0)\cdot (0,0,1)&=0\\
(0,0,1)\cdot (1,1,0)&=0.
\end{align*}

Sin embargo, este no es un conjunto ortonormal, pues la norma de $(1,1,0)$ es $\sqrt{2}\neq 1$. Si normalizamos a cada vector, es decir, si lo dividimos entre su norma, entonces obtenemos los vectores ortonormales $\left(1/\sqrt{2},1/\sqrt{2},0\right)$, $\left(1/\sqrt{2},-1/\sqrt{2},0\right)$ y $(0,0,1)$.

$\square$

Propiedades de conjuntos ortogonales y ortonormales

Todo conjunto ortogonal de vectores no nulos se puede normalizar como en el ejemplo de la sección anterior para obtener un conjunto ortonormal. Es decir, si $S$ es un conjunto de vectores distintos de $0$, entonces $$S’=\left\{\frac{v}{\Vert v \Vert}: v\in S\right\}$$ es un conjunto ortonormal.

Una propiedad fundamental de los conjuntos ortonormales de vectores es que son linealmente independientes. Se puede probar algo un poco más general.

Proposición. Si $S$ es un conjunto ortogonal de vectores no nulos, entonces los elementos de $V$ son linealmente independientes.

Demostración. Tomemos $v_1,\ldots,v_n$ elementos de $S$ y supongamos que existen $\alpha_1,\ldots,\alpha_n$ escalares tales que $$v:=\sum_{i=1}^n \alpha_i v_i =0.$$

Tomemos un índice $j$ en $1,\ldots,n$ y hagamos el producto interior $\langle v, v_j\rangle$. Por un lado, como $v=0$, este produto es $0$. Por otro lado, por linealidad es $$\sum_{i=1}^n \alpha_i \langle v_i,v_j\rangle.$$

Cuando $i\neq j$, el sumando correspondiente es igual a $0$. De este modo, el único sumando no cero es cuando $i=j$, el cual es $\alpha_j \langle v_j,v_j\rangle$. De estos argumentos, deducimos que $$\alpha_j\langle v_j,v_j\rangle =0.$$ Como los vectores son no nulos, se tiene que $\langle v_j,v_j\rangle \neq 0$. Así, $\alpha_j=0$ para todo $j=1,\ldots,n$, lo cual muestra que los vectores son linealmente independientes.

$\square$

Como cada elemento de un conjunto ortonormal tiene norma $1$, entonces no puede ser nulo, así que como corolario de la proposición anterior, todo conjunto ortonormal es linealmente independiente. Otro corolario es el siguiente.

Corolario. En un espacio Euclideano de dimensión $d$, los conjuntos ortogonales sin vectores nulos tienen a lo más $d$ elementos.

Bases ortogonales y ortonormales

Cuando una base de un espacio vectorial es ortogonal (o bien, ortonormal), pasan varias cosas buenas. Esto amerita una definición por separado.

Definición. Sea $S$ un conjunto de vectores en $V$. Decimos que $S$ es

  • Una base ortogonal si $S$ es una base de $V$ y es un conjunto ortogonal.
  • Una base ortonormal si $S$ una base de $V$ y es un conjunto ortonormal.

Ejemplo. En $\mathbb{R}^n$ la base canónica es una base ortonormal.

En $\mathbb{R}^2$ el conjunto $S=\{(2,3),(9,-6)\}$ es un conjunto ortogonal. Además, se puede verificar fácilmente que son dos vectores linealmente independientes. De este modo, $S$ es una base ortogonal.

Sin embargo, $S$ no es una base ortonormal pues el primero de ellos tiene norma $\sqrt{2^2+3^2}=\sqrt{13}$. Si quisiéramos convertir a $S$ en una base ortonormal, podemos normalizar a cada uno de sus elementos.

$\square$

En la sección anterior vimos que los conjuntos ortonormales son linealmente independientes. Otro corolario de este resultado es lo siguiente.

Corolario. En un espacio Euclideano de dimensión $n$, un conjunto ortonormal de $n$ vectores es una base ortonormal.

La importancia de las bases ortogonales yace en que dada una base ortonormal $B$ y un vector $v$, podemos encontrar varias propiedades de $v$ en términos de $B$ fácilmente. Por ejemplo, veremos más adelante que:

  • Las coordenadas de $v$ con respecto a la base $B$ son sencillas.
  • Hay una fórmula simple para la norma de $v$ en términos de sus coordenadas en la base $B.$
  • Si $B$ es una base de un subespacio $W$ de $V$, entonces es fácil encontrar la distancia de $v$ a $W.$

Mejor aún, las bases ortonormales siempre existen.

Teorema. Todo espacio Euclideano tiene una base ortonormal.

Es decir, sin importar qué espacio vectorial real de dimensión finita tomemos, y sin importar qué producto punto le pongamos, podemos dar una base ortogonal. De hecho, veremos un resultado un poco más fuerte, que nos dará un procedimiento para encontrar dicha base, incluso imponiendo restricciones adicionales.

Ejemplo de bases ortogonales en polinomios

Ejemplo. Tomemos $\mathbb{R}_n[x]$ el espacio de polinomios de grado a lo más $n$ con coeficientes reales. Además, tomemos números reales distintos $x_0,\ldots,x_n$. A partir de estos reales podemos definir la operación $$\langle P, Q \rangle = \sum_{j=0}^n P(x_j)Q(x_j),$$ la cual es claramente bilineal y simétrica.

Tenemos que $\langle P,P\rangle$ es una suma de cuadrados, y por lo tanto es no negativa. Además, si $\langle P, P\rangle =0$, es porque $$\sum_{j=0}^n P(x_j)^2=0,$$ y como estamos trabajando en $\mathbb{R}$ esto implica que cada sumando debe ser cero. Pero las igualdades $$P(x_0)=\ldots=P(x_n)=0$$ dicen que los $n+1$ reales distintos $x_i$ son raíces de $P$, y como $P$ es de grado a lo más $n$, tenemos que $P$ es el polinomio $0$. En resumen, $\langle \cdot, \cdot \rangle$ es un producto interior en $\mathbb{R}_n[x]$. Vamos a dar una base ortogonal con respecto a este producto interior.

Para $i=0,\ldots,n$, consideremos los polinomios $$L_i(x)=\prod_{0\leq k \leq n, k\neq i} \frac{x-x_k}{x_i-x_k}.$$ Observa que $L_j(x_j)=1$ y si $j\neq i$, tenemos $L_i(x_j)=0$. Afirmamos que $$B=\{L_j:j=0,\ldots,n+1\}$$ es una base ortonormal de $\mathbb{R}_n[x]$ con el producto interior que definimos. Como consiste de $n+1$ polinomios y $\dim(\mathbb{R}_n[x])=n+1$, basta con que veamos que es un conjunto ortonormal.

Primero, notemos que
\begin{align*}
\langle L_i,L_i \rangle = \sum_{j=0}^n L_i(x_j)^2 = L_i(x_i)^2=1,
\end{align*}

de modo que cada $L_i$ tiene norma $1$.

Luego, notemos que si $i\neq j$, entonces $L_i(x_k)L_j(x_k)=0$ pues $x_k$ no puede ser simultáneamente $x_i$ y $x_j$. De este modo,

\begin{align*}
\langle L_i,L_j \rangle = \sum_{k=0}^n L_i(x_k)L_j(x_k)=0.
\end{align*}

Con esto mostramos que cada par de polinomios distintos es ortogonal. Esto termina la demostración de que $B$ es base ortonormal.

$\square$

Ejemplo de conjuntos ortogonales en funciones periódicas

Ejemplo. Consideremos $V$ el conjunto de funciones $f:\mathbb{R}\to \mathbb{R}$ continuas y periódicas de periodo $2\pi$. Definimos $$\langle f,g \rangle = \int_{-\pi}^\pi f(x)g(x)\, dx.$$ Se puede mostrar que $\langle \cdot, \cdot \rangle$ así definido es un producto interior en $V$.

Para cada entero positivo $n$, definimos
\begin{align*}
C_n(x)&=\frac{\cos(nx)}{\sqrt{\pi}}\\
S_n(x)&=\frac{\sin(nx)}{\sqrt{\pi}}.
\end{align*}

Además, definimos $C_0(x)=\frac{1}{\sqrt{2\pi}}$. Afirmamos que $$\mathcal{F}:=\{C_n:n\geq 0\}\cup \{S_n:n\geq 1\}$$ es un conjunto ortonormal de vectores. Mostremos esto.

Para empezar, notamos que $$\Vert C_0\Vert ^2 = \int_{-\pi}^{\pi} \frac{1}{2\pi}\, dx =1.$$

Luego, tenemos que para $n\geq 1$ que
\begin{align*}
\Vert C_n\Vert ^2 &= \int_{-\pi}^\pi \frac{1}{\pi} \cos^2(nx)\, dx\\
&= \int_{-\pi}^\pi \frac{1+\cos(2nx)}{2\pi}\, dx\\
&= 1,
\end{align*}

ya que para todo entero $m\neq 0$ se tiene que $$\int_{-\pi}^\pi \cos(mx) \, dx=0.$$ De manera similar, usando la identidad $$\sin^2(nx)=\frac{1-\cos(nx)}{2},$$ se puede ver que la norma de $S_n$ es $1$.

Para ver que las parejas de elementos distintas son ortogonales, tenemos varios casos. Si tomamos $n\geq 1$, el resultado para $\langle C_0,C_n\rangle$ ó $\langle C_0,S_n\rangle$ se deduce de que
$$\int_{-\pi}^\pi \cos(mx)\, dx=\int_{-\pi}^\pi \sin(mx)\, dx=0$$ para todo entero $m\neq 0$.

Si tomamos dos $C_i$’s distintos, dos $S_i’s$ distintos o un $C_i$ y un $S_i$, el resultado se deduce de las fórmulas «producto a suma» de las funciones trigonométricas.

$\square$

Tarea moral

  • Encuentra un conjunto ortogonal de vectores en $\mathbb{R}^4$ tal que ninguna de las entradas de ninguno de sus vectores sea igual a $0$.
  • Escribe las demostraciones de los corolarios enunciados en esta entrada.
  • Muestra que $\langle \cdot, \cdot \rangle$ definido en el ejemplo de funciones periódicas es un producto interior.
  • Termina de mostrar que la familia $\mathcal{F}$ del ejemplo de funciones periódicas es ortonormal. Sugerencia: Usa identidades de suma y resta de ángulos para poner el producto de senos (o cosenos o mixto) como una suma de senos y/o cosenos.

Más adelante…

En esta entrada combinamos las nociones de bases y el producto interior, estudiadas en entradas anteriores, para definir a las bases ortogonales. Vimos algunas propiedades de conjuntos ortogonales y ortonormales, para extenderlos a bases ortogonales y ortonormales. Vimos unos ejemplos de bases ortogonales de los polinomios y otros ejemplos de conjuntos ortogonales en funciones periódicas.

En la siguiente entrada veremos aplicaciones de estos conceptos, culminando en una descomposición de Fourier.

Entradas relacionadas

Álgebra Lineal I: Formas bilineales, propiedades, ejemplos y aclaraciones

Introducción

En entradas anteriores hemos platicado de dualidad, ortogonalidad y transformaciones transpuestas. Es importante que repases esas entradas y nos escribas si tienes dudas, pues ahora pasaremos a un tema un poco diferente: formas bilineales y cuadráticas. Estas nociones nos permitirán seguir hablando acerca de la geometría de espacios vectoriales en general.

Para esta parte del curso, nos vamos a enfocar únicamente en espacios vectoriales sobre $\mathbb{R}$. Se pueden definir los conceptos que veremos para espacios vectoriales en otros campos. Sobre todo, es posible definir conceptos análogos en $\mathbb{C}$ y obtener una teoría muy rica. Pero por ahora consideraremos sólo el caso de espacios vectoriales reales.

Aunque hablaremos de formas bilineales en general, una subfamilia muy importante de ellas son los productos interiores, que nos permiten hablar de espacios euclideanos. El producto interior es el paso inicial en una cadena muy profunda de ideas matemáticas:

  • Un producto interior nos permite definir la norma de un vector.
  • Con la noción de norma, podemos definir la distancia entre dos vectores.
  • A partir de un producto interior y su norma podemos mostrar la desigualdad de Cauchy-Schwarz, con la cual podemos definir ángulos entre vectores (por ejemplo, ¡podremos definir el ángulo entre dos polinomios!).
  • De la desigualdad de Cauchy-Schwarz, podemos probar que la noción de norma satisface la desigualdad del triángulo, y que por lo tanto la noción de distancia define una métrica.
  • Aunque no lo veremos en este curso, más adelante verás que una métrica induce una topología, y que con una topología se puede hablar de continuidad.

En resumen, a partir de un producto interior podemos hacer cálculo en espacios vectoriales en general.

Una forma bilineal con la cual probablemente estés familiarizado es el producto punto en $\mathbb{R}^n$, que a dos vectores $(x_1,x_2,\ldots,x_n)$ y $(y_1,y_2,\ldots,y_n)$ los manda al real $$x_1y_1+x_2y_2+\ldots+x_ny_n.$$ Este es un ejemplo de una forma bilineal que es un producto interior. También puede que estés familiarizado con la norma en $\mathbb{R}^n$, que a un vector $(x_1,\ldots,x_n)$ lo manda al real $$\sqrt{x_1^2+x_2^2+\ldots+x_n^2}.$$ Lo que está dentro de la raíz es un ejemplo de una forma cuadrática positiva definida. Incluyendo la raíz, este es un ejemplo de norma en espacios vectoriales.

Hay muchas otras formas bilineales y formas cuadráticas, pero los ejemplos mencionados arriba te pueden ayudar a entender la intuición detrás de algunos de los conceptos que mencionaremos. Para marcar algunas cosas en las que la intuición puede fallar, pondremos algunas «Aclaraciones» a lo largo de esta entrada.

En el futuro, tener una buena noción de la geometría de espacios vectoriales te ayudará a entender mucho mejor los argumentos de cursos de análisis matemático, de variable compleja y de optativas como geometría diferencial. Dentro de este curso, entender bien el concepto de forma bilineal te será de gran utilidad para cuando más adelante hablemos de formas multilineales y determinantes.

Formas bilineales

La definición fundamental para los temas que veremos en estas entradas es la siguiente, así que enunciaremos la definición, veremos varios ejemplos y haremos algunas aclaraciones.

Definición. Sea $V$ un espacio vectorial sobre $\mathbb{R}$. Una forma bilineal es una función $b:V\times V \to \mathbb{R}$ tal que:

  • Para todo $x$ en $V$, la función $b(x,\cdot):V\to \mathbb{R}$ que manda $v\in V$ a $b(x,v)$ es una forma lineal.
  • Para todo $y$ en $V$, la función $b(\cdot, y):V\to \mathbb{R}$ que manda $v\in V$ a $b(v,y)$ es una forma lineal.

Ejemplo 1. Considera el espacio vectorial de polinomios $\mathbb{R}_3[x]$ y considera la función $$b(p,q)=p(0)q(10)+p(1)q(11).$$ Afirmamos que $b$ es una forma bilineal. En efecto, fijemos un polinomio $p$ y tomemos dos polinomios $q_1$, $q_2$ y un real $r$. Tenemos que
\begin{align*}
b(p,q_1+rq_2)&=p(0)(q_1+rq_2)(10)+p(1)(q_1+rq_2)(11)\\
&= p(0)q_1(10)+p(1)q_1(11) + r ( p(0)q_2(10)+p(1)q_2(11))\\
&= b(p,q_1)+rb(p,q_2),
\end{align*}

De manera similar se puede probar que para $q$ fijo y $p_1$, $p_2$ polinomios y $r$ real tenemos que $$b(p_1+rp_2,q)=b(p_1,q)+rb(p_2,q).$$ Esto muestra que $b$ es una forma bilineal.

$\square$

Si $v=0$, entonces por el primer inciso de la definición, $b(x,v)=0$ para toda $x$ y por el segundo $b(v,y)=0$ para toda $y$, en otras palabras:

Proposición. Si $b$ es una forma bilineal en $b$, y alguno de $x$ o $y$ es $0$, entonces $b(x,y)=0$.

De la linealidad de ambas entradas de $b$, se tiene la siguiente proposición.

Proposición. Tomemos $b:V\times V\to \mathbb{R}$ una forma bilineal, vectores $x_1,\ldots,x_n$, $y_1,\ldots,y_m$ y escalares $a_1,\ldots,a_n,c_1,\ldots,c_m$. Tenemos que $$b\left(\sum_{i=1}^n a_ix_i, \sum_{j=1}^m c_j y_j\right)=\sum_{i=1}^n\sum_{j=1}^m a_ic_jb(x_i,y_j).$$

La proposición anterior muestra, en particular, que para definir una forma bilineal en un espacio vectorial $V$ de dimensión finita $n$, basta tomar una base $\{e_1,\ldots,e_n\}$ de $V$ y definir $b(e_i,e_j)$ para toda $1\leq i,j \leq n$.

Hagamos algunas aclaraciones acerca de las formas bilineales.

Aclaración 1. No es lo mismo una forma bilineal en $V$, que una transformación lineal de $V\times V$ a $\mathbb{R}$.

Ejemplo. La transformación $b((w,x),(y,z))=w+x+y+z$ sí es una transformación lineal de $\mathbb{R}^2\times \mathbb{R}^2 \to \mathbb{R}$, lo cual se puede verificar fácilmente a partir de la definición. Sin embargo, no es una forma bilineal. Una forma de verlo es notando que $$b((0,0),(1,1))=0+0+1+1=2.$$ Aquí una de las entradas es el vector cero, pero el resultado no fue igual a cero.

$\square$

Aclaración 2. Puede pasar que ninguna de las entradas de la forma bilineal sea $0$, pero que evaluando en ella sí de $0$.

Ejemplo. Consideremos la transformación $b:\mathbb{R}^2\times \mathbb{R}^2 \to \mathbb{R}$ tal que $$b((w,x),(y,z))=wy-xz.$$ Verificar que esta es una forma bilineal es sencillo y se deja como tarea moral. Además, se tiene que $b((1,0),(0,1))=0$.

$\square$

Más adelante, cuando definamos producto interior, nos van a importar mucho las parejas de vectores $v$, $w$ para las cuales $b(v,w)=0$.

Aclaración 3. Si $b$ es una forma bilineal, no necesariamente es cierto que $b(x,y)=b(y,x)$.

Ejemplo. Consideremos la transformación $b:\mathbb{R}^2\times \mathbb{R}^2 \to \mathbb{R}$ tal que $$b((w,x),(y,z))=wz-xy.$$ Verificar que esta es una forma bilineal es sencillo y se deja como tarea moral. Notemos que $b((2,1),(2,3))=6-2=4$, mientras que $b((2,3),(2,1))=2-6=-4$.

$\square$

Aquellas formas para las que sí sucede que $b(x,y)=b(y,x)$ son importantes y merecen un nombre especial.

Definición. Una forma bilineal $b:V\times V\to \mathbb{R}$ es simétrica si $b(x,y)=b(y,x)$ para todo par de vectores $x,y$ en $V$.

Para definir una forma bilineal $b$ simétrica en un espacio $V$ de dimensión finita $n$, basta tomar una base $\{e_1,\ldots,e_n\}$ y definir $b$ en aquellas parejas $b(e_i,e_j)$ con $1\leq i \leq j \leq n$.

Más ejemplos de formas bilineales

A continuación enunciamos más ejemplos de formas bilineales, sin demostración. Es un buen ejercicio verificar la definición para todas ellas.

Ejemplo. Si $a_1, a_2,\ldots, a_n$ son números reales y $V=\mathbb{R}^n$, entonces podemos definir $b:V\times V \to \mathbb{R}$ que manda a $x=(x_1,\ldots,x_n)$ y $y=(y_1,\ldots,y_n)$ a $$b(x,y)=a_1x_1y_1+\ldots+a_nx_ny_n.$$

Este es un ejemplo de una forma bilineal simétrica. Si todos los $a_i$ son iguales a $1$, obtenemos el producto punto o producto interior canónico de $\mathbb{R}^n$.

Ejemplo. Tomemos $V$ como el espacio vectorial de matrices $M_n(\mathbb{R})$. La transformación $b:V\times V\to \mathbb{R}$ tal que $b(A,B)=\text{tr}(AB)$ es una forma bilineal. Además, es simétrica, pues la traza cumple la importante propiedad $\text{tr}(AB)=\text{tr}(BA)$, cuya verificación queda como tarea moral.

Ejemplo. Tomemos $V$ el conjunto de funciones continuas y de periodo $2\pi$ que van de $\mathbb{R}$ a sí mismo. Es decir, $f:\mathbb{R}\to \mathbb{R}$ está en $V$ si es continua y $f(x)=f(x+2 \pi)$ para todo real $x$. Se puede mostrar que $V$ es un subespacio del espacio de funciones continuas, lo cual es sencillo y se queda como tarea moral. La transformación $b:V\times V \to \mathbb{R}$ tal que $$b(f,g)=\int_{-\pi}^\pi f(x) g(x)\, dx$$ es una forma bilineal.

Ejemplo. Consideremos $V=\mathbb{R}[x]$, el espacio vectorial de polinomios con coeficientes reales. Para $P$ y $Q$ polinomios definimos $$b(P,Q)=\sum_{n=1}^\infty \frac{P(n)Q(2n)}{2^n}.$$

La serie de la derecha converge absolutamente, de modo que esta expresión está bien definida. Se tiene que $b$ es una forma bilineal, pero no es simétrica.

Formas cuadráticas

Otra definición fundamental es la siguiente

Definición. Una forma cuadrática es una transformación $q:V\to \mathbb{R}$ que se obtiene tomando una forma bilineal $b:V\times V \to \mathbb{R}$ y definiendo $$q(x)=b(x,x).$$

Aclaración 4. Es posible que la forma bilineal $b$ que define a una forma cuadrática no sea única.

Ejemplo. Consideremos a la forma bilineal de $\mathbb{R}^2$ tal que $$b((x,y),(w,z))=xz-yw.$$ La forma cuadrática dada por $b$ es $$q(x,y)=b((x,y),(x,y))=xy-yx=0.$$ Esta es la misma forma cuadrática que la dada por la forma bilineal $$b'((x,y),(w,z))=yw-xz.$$ Pero $b$ y $b’$ son formas bilineales distintas, pues $b((1,0),(0,1))=1$, mientras que $b'((1,0),(0,1))=-1$.

$\square$

La aclaración anterior dice que puede que haya más de una forma bilineal que de una misma forma cuadrática. Sin embargo, resulta que la asignación es única si además pedimos a la forma bilineal ser simétrica. Este es el contenido del siguiente resultado importante.

Teorema (identidad de polarización). Sea $q:V\to \mathbb{R}$ una forma cuadrática. Existe una única forma bilineal simétrica $b:V\times V \to \mathbb{R}$ tal que $q(x)=b(x,x)$ para todo vector $x$. Esta forma bilineal está determinada mediante la identidad de polarización $$b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2}.$$

En la siguiente entrada mostraremos el teorema de la identidad de polarización. Por el momento, para tomar más intuición, observa como la identidad se parece mucho a la igualdad $$xy=\frac{(x+y)^2-x^2-y^2}{2}$$ en números reales.

Tarea moral

  • Completa los detalles de la segunda parte del primer ejemplo.
  • Verifica que en efecto las transformaciones de los ejemplos de las aclaración 2 y 3 son formas bilineales.
  • Muestra que el subconjunto de funciones continuas $\mathbb{R}$ a $\mathbb{R}$ y de cualquier periodo $p$ es un subespacio del espacio vectorial $\mathcal{C}(\mathbb{R})$ de funciones continuas reales.
  • Demuestra que para $A$ y $B$ matrices en $M_{n}(F)$ se tiene que $\text{tr}(AB)=\text{tr}(BA)$.
  • Encuentra una forma cuadrática en el espacio vectorial $\mathbb{R}_3[x]$ que venga de más de una forma bilineal.
  • Muestra que el conjunto de formas bilineales de $V$ es un subespacio del espacio de funciones $V\times V \to \mathbb{R}$. Muestra que el conjunto de formas bilineales simétricas de $V$ es un subespacio del espacio de formas bilineales de $V$.
  • Piensa en cómo la igualdad $$xy=\frac{(x+y)^2-x^2-y^2}{2}$$ de números reales está relacionada con la identidad de polarización para el producto punto en $\mathbb{R}^n$.

Más adelante…

En esta entrada estudiamos una extensión de la noción de transformaciones lineales que ya habíamos discutido en la unidad anterior. Enunciamos algunos teoremas muy importantes sobre las transformaciones bilineales e hicimos algunos ejemplos de cómo podemos verificar si una transformación es bilineal. La noción de transformación bilineal, nos permitirá abordar un concepto muy importante: el producto interior.

En las siguientes entradas hablaremos del producto interior y cómo éste nos ayuda a definir ángulos y distancias entre vectores de un espacio vectorial.

Entradas relacionadas

Álgebra Lineal I: Ortogonalidad y transformación transpuesta

Introducción

En entradas anteriores ya estudiamos la noción de espacio dual y la de ortogonalidad. También vimos cómo a partir de la ortogonalidad podemos definir subespacios como intersección de hiperplanos. Como veremos a continuación, la ortogonalidad también nos permite definir qué quiere decir que consideremos la «transformación transpuesta» de una transformación lineal.

Antes de comenzar, vale la pena recordar también que cada transformación lineal entre espacios de dimensión finita puede ser expresada mediante una matriz que depende de la elección de bases de los espacios vectoriales. Como tal vez te imaginarás, la transformación transpuesta tendrá como matriz a la matriz transpuesta de la transformación original.

Esta intuición nos dice que hay que tener cuidado. Supongamos que estamos trabajando sobre un campo $F$. Si tenemos espacios vectoriales $V$ de dimensión $n$, $W$ de dimensión $m$ y una tranformación lineal $T:V\to W$, recordemos que, tras elegir bases, $T$ está representada por una matriz $A$ en $M_{m,n}(F)$, es decir, con $m$ filas y $n$ columnas.

Pero la matriz transpuesta $^t A$ es de $n$ filas y $m$ columnas, así que típicamente no representará a una transformación de $V$ a $W$, pues las dimensiones no necesariamente coinciden. Podríamos intentar construir una transformación de $W$ a $V$ para que las dimensiones coincidan, pero resulta que esto no es «tan natural», por razones en las que no profundizaremos.

Lo que sí resulta muy natural y fácil de definir es una transformación de $W^\ast$ a $V^\ast$, lo cual tendrá sentido pues ya probamos que $\dim W^\ast = \dim W$ y $\dim V^\ast = \dim V$, así que será representada por una matriz en $M_{n,m}$. Es un poco más difícil conceptualmente, pero las consecuencias matemáticas son más bonitas y útiles. Sin decir más, comenzamos con la teoría.

Definición y ejemplo de transformación transpuesta

Para definir «transformación transpuesta», le hacemos como sigue.

Definición. Sean $V$ y $W$ espacios vectoriales sobre un campo $F$ y sea $T:V\to W$ una transformación lineal. Definimos la transformación transpuesta de $T$, como la transformación $^tT:W^\ast \to V^\ast$ tal que a cada forma lineal $l$ en $W^\ast$ la manda a la forma lineal $^tT(l)$ en $V^\ast$ para la cual $$(^tT(l))(v)=l(T(v)).$$

Otra forma de escribir a la definición es mediante la notación de emparejamiento canónico: $$\langle ^tT(l),v\rangle=\langle l, T(v)\rangle.$$

Veamos un ejemplo para entender mejor la definición.

Ejemplo. Considera a $V=M_{2}(\mathbb{R})$ y $W=\mathbb{R}^2$. Considera la transformación lineal $T:V\to W$ dada por $$T\begin{pmatrix} a& b\\ c&d\end{pmatrix}=(a+b,c+d).$$

La transformación $^t T$ va a mandar a una forma lineal $l$ de $W$ a una forma lineal $^tT(l)$ de $V$. Las formas lineales $l$ en $W$ se ven de la siguiente forma $$l(x,y)=rx+sy.$$ La forma lineal $^tT(l)$ en $V$ debe satisfacer que $^tT(l)=l\circ T$. En otras palabras, para cualquier matriz $\begin{pmatrix} a& b\\ c&d\end{pmatrix}$ se debe tener
\begin{align*}
(^t T(l)) \begin{pmatrix} a& b\\ c&d\end{pmatrix} &= l(a+b,c+d)\\
&=r(a+b)+s(c+d)\\
&=ra+rb+sc+sd.
\end{align*}

Si tomamos la base canónica $E_{11}$, $E_{12}$, $E_{21}$, $E_{22}$ de $V$ y la base canónica $e_1,e_2$ de $W$, observa que la transformación $T$ tiene como matriz asociada a la matriz $$\begin{pmatrix} 1 & 1 & 0 & 0\\ 0 & 0 & 1 & 1\end{pmatrix}$$ (recuerda que se obtiene poniendo como columnas a los vectores coordenada de las imágenes de la base).

Por otro lado, los vectores de la base dual $e_1^\ast$ y $e_2^\ast$ «leen las coordenadas», de modo que $e_1^\ast(x,y)=x$ y $e_2^\ast(x,y)=y$. Por lo que vimos arriba, $(^t T)(e_1)$ es entonces la forma lineal $a+b$ y $(^t T)(e_2)$ es la forma lineal $c+d$. En términos de la base dual en $V^\ast$, estos son $E_{11}^\ast + E_{12}^\ast$ y $E_{21}^\ast+ E_{22}^\ast$ respectivamente. De esta forma, la transformación $^t T$ tiene matriz asociada $$\begin{pmatrix}1&0\\1&0\\0&1\\0&1\end{pmatrix}.$$

$\square$

Nota que en el ejemplo la transformación transpuesta tiene como matriz a la matriz transpuesta de la transformación original. Esto es algo que queremos que pase siempre, y más abajo lo demostramos.

Propiedades básicas de transformación transpuesta

Observa que la definición no necesita que $V$ y $W$ sean de dimensión finita. A continuación enunciamos y probamos algunos resultados que se valen también en el contexto de dimensión infinita.

Teorema 1. Tomemos $V$,$W$,$Z$ espacios vectoriales sobre un campo $F$ y $c$ en $F$. Sean $T_1,T_2: V \to W$ transformaciones lineales. Sea $T_3:W\to Z$ una transformación lineal. Se cumple todo lo siguiente:

  1. $^tT_1$ es una transformación lineal.
  2. $^t(T_1+cT_2)= {^tT_1} + c^tT_2$.
  3. $^t(T_3\circ T_1) = {^t T_1} \circ ^t T_3$.
  4. Si $V=W$ y $T_1$ es invertible, entonces $^t T_1$ también lo es y $(^t T_1)^{-1}= {^t (T_1^{-1})}$.

Para tener un poco más de intuición, observa cómo estas propiedades son análogas a las de transposición para matrices.

Demostración. Las partes 1 y 2 se demuestran usando cuidadosamente las definiciones. Haremos la demostración de $1$ y la demostración de $2$ queda como tarea moral. Para probar $1$, necesitamos probar que $^tT_1:W^\ast \to V^\ast$ es lineal, así que tomemos $l_1$, $l_2$ en $W^\ast$ y $a$ un escalar en $F$. Tenemos que demostrar que $$ ^tT_1(l_1+a l_2)= {^tT_1(l_1)}+ a ^tT_1(l_2).$$

Ésta es una igualdad de formas lineales en $V^\ast$, y para mostrar su validez tenemos que mostrar que se vale en cada $v\in V$. Por un lado,
\begin{align*}
^tT_1(l_1+a l_2)(v) &= (l_1+a l_2)(T_1(v))\\
&=l_1(T_1(v))+a l_2(T_1(v)).
\end{align*}

Por otro lado,
\begin{align*}
(^tT_1(l_1)+ a ^tT_1(l_2))(v)&= {^tT_1(l_1)(v)}+ a ^tT_1(l_2)(v)\\
&= l_1(T_1(v)) + a l_2(T_1(v)).
\end{align*}

En ambos casos obtenemos el mismo resultado, así que $^tT_1(l_1+a l_2)$ y $^tT_1(l_1)+ a ^tT_1(l_2)$ son iguales, mostrando que $^t T_1$ es lineal.

Pasemos a la parte 3. La igualdad $^t(T_3\circ T_1) = {^t T_1} \circ ^t T_3$ es una igualdad de transformaciones de $Z^\ast$ a $V^\ast$. Para verificar su veracidad, hay que ver que son iguales en cada elemento en su dominio. Tomemos entonces una forma lineal $l$ en $Z^\ast$. Queremos verificar la veracidad de $$ ^t(T_3\circ T_1)(l) = (^t T_1 \circ ^t T_3)(l),$$ que es una igualdad de formas lineales en $V^\ast$, de modo que tenemos que verificarla para cada $v$ en $V$. Por un lado,

\begin{align*}
^t(T_3\circ T_1)(l)(v)&=l((T_3\circ T_1)(v))\\&=l(T_3(T_1(v))),
\end{align*}

Por otro,
\begin{align*}
(^t T_1 \circ ^t T_3)(l)(v)&=(^tT_1(^t T_3 (l)))(v)\\&=(^t T_3 (l))(T_1(v))\\&=l(T_3(T_1(v))).
\end{align*}

En ambos casos obtenemos el mismo resultado.

Para la parte 4 basta notar que si $V=W$ y $T_1$ es invertible, entonces tiene una inversa $S:V\to V$, y por la parte $3$ tenemos que $$^t S\circ ^t T_1 = {^t(T_1\circ S)} = {^t \text{Id}_V} = \text{Id}_{V^\ast},$$

mostrando que $^t T_1$ tiene inversa $^tS$. Observa que estamos usando que la transpuesta de la transformación identidad es la identidad. Esto no lo hemos probado, pero lo puedes verificar como tarea moral.

$\square$

La matriz transpuesta es la matriz de la transformación transpuesta

Cuando estamos trabajando en espacios de dimensión finita, podemos mostrar que la matriz que le toca a la transformación transpuesta es precisamente la transpuesta de la matriz que le toca a la transformación original. Hacemos esto más preciso en el siguiente resultado.

Teorema 2. Sea $T:V\to W$ una transformación lineal entre espacios de dimensión finita y $B$ y $B’$ bases de $V$ y $W$ respectivamente. Si $A$ es la matriz de $T$ con respecto a $B$ y $B’$, entonces $^t A$ es la matriz de la transformación $^t T:W^\ast \to V^\ast$ con respecto a las bases duales $B’^\ast$ y $B^\ast$.

Demostración. Necesitamos definir algo de notación. Llamemos $n=\dim V$, $m=\dim W$, $B=\{b_1,\ldots, b_n\}$, $B’=\{c_1,\ldots, c_m\}$ y $A=[a_{ij}]$. Recordemos que la matriz $A$ está hecha por las coordenadas de las imágenes de la base $B$ en términos de la base $B’$, es decir, que por definición tenemos que para toda $j=1,\ldots, n$: \begin{equation}T(b_j)=\sum_{i=1}^{m} a_{ij} c_i.\end{equation}

La transformación $^t T:W^\ast \to V^\ast$ va de un espacio de dimensión $m$ a uno de dimensión $n$, así que en las bases $B’^\ast$ y $B^\ast$ se puede expresar como una matriz de $n$ filas y $m$ columnas. Afirmamos que ésta es la matriz $^t A$. Para ello, basta mostrar que las coordenadas de las imágenes de la base $B’^\ast$ en términos de la base $B^\ast$ están en las filas de $A$, es decir, que para todo $i=1, \ldots, m$ tenemos que $$^tT(c^\ast_i)=\sum_{j=1}^{n} a_{ij} b_j^\ast.$$

La anterior es una igualdad de formas lineales en $V^\ast$, de modo que para ser cierta tiene que ser cierta evaluada en todo $v$ en $V$. Pero por linealidad, basta que sea cierta para todo $b_j$ en la base $B$. Por un lado, usando (1),

\begin{align*}
^tT(c^\ast_i)(b_j)&=c^\ast_i(T(b_j))\\
&=c^\ast_i \left(\sum_{k=1}^{m} a_{kj} c_i\right)\\
&=\sum_{k=1}^{m} a_{kj} c^\ast_i(c_k)\\
&=a_{ij},
\end{align*}

en donde estamos usando que por definición de base dual $c_i^\ast (c_i)= 1$ y $c_j^\ast (c_i)=0$ si $i\neq j$. Por otro lado,

\begin{align*}
\left(\sum_{k=1}^{n} a_{ik} b_k^\ast\right)(b_j)&= \sum_{k=1}^{n} a_{ik} b_k^\ast(b_j)\\
&=a_{ij},
\end{align*}

en donde estamos usando linealidad y la definición de base dual para $B$.

Con esto concluimos la igualdad $$^tT(c^\ast_i)=\sum_{j=1}^{n} a_{ij} b_j^\ast,$$ que muestra que podemos leer las coordenadas de las evaluaciones de $^t T$ en $B’^\ast$ en términos de la base $B^\ast$ en las filas de $A$, por lo tanto podemos leerlas en las columnas de $^t A$. Esto muestra que $^t A$ es la matriz correspondiente a esta transformación en términos de las bases duales.

$\square$

Kernel e imagen de la transformación transpuesta

Finalmente, el siguiente resultado nos habla acerca de cómo están relacionadas las transformaciones transpuestas y la ortogonalidad.

Teorema 3. Sea $T:V\to W$ una transformación lineal entre espacios vectoriales de dimensión finita. Entonces

$$\ker (^t T) = (\Ima (T))^\bot,\quad \ker (T)=(\Ima (^t T))^\bot$$

y

$$\Ima (^t T) = (\ker(T))^\bot\,\quad \Ima (T)=(\ker(^t T))^\bot.$$

Demostración. Demostraremos la igualdad $\ker (^t T) = (\Ima (T))^\bot$. Notemos que $l \in \ker(^t T)$ si y sólo si $(^t T)(l)=0$, lo cual sucede si y sólo si $l\circ T = 0$. Pero esto último sucede si y sólo si para todo $v$ en $V$ se tiene que $l(T(v))=0$, que en otras palabras quiere decir que $l(w)=0$ para todo $w$ en $\Ima (T)$. En resumen, $l\in \ker(^t T)$ pasa si y sólo si $l$ se anula en todo $\Ima (T)$ es decir, si y sólo si está en $(\Ima (T))^\bot$.

El resto de las igualdades se demuestran de manera análoga, o alternativamente, usando la bidualidad canónica. Es un buen ejercicio hacerlo y se deja como tarea moral.

$\square$

Tarea moral

  • Muestra que la transpuesta de la transformación lineal $T:\mathbb{R}^2\to \mathbb{R}^2$ dada por $T(x,y)=T(7x+8y,6x+7y)$ es invertible. Encuentra a su transpuesta y a la inversa de la transpuesta explícitamente.
  • Muestra la parte $2$ del Teorema 1.
  • Muestra que la transpuesta de la transformación identidad es la identidad.
  • Demuestra el resto de las igualdades del Teorema 3.
  • Encuentra la transpuesta de la transformación traza que va de $M_n(\mathbb{R})$ a los reales. Recuerda que esta transformación manda a una matriz $A=[a_{ij}]$ a la suma de sus entradas en la diagonal principal, es decir $$A\mapsto a_{11}+a_{22}+\ldots+a_{nn}.$$

Más adelante…

En esta entrada enunciamos un resultado muy importante: deda una transformación lineal $T$, su transformación transpuesta tiene como matriz asociada la matirz transpuesta de la matriz asociada de $T$. Este resultado nos permitirá calcular fácilmente la transpuesta de una transformación, como veremos en la entrada de problemas de este tema.

En la siguiente entrada del blog hablaremos por primera vez de formas bilineales: vamos a ver cómo nuestra discusión de transformaciones lineales facilitará mucho abordar este tema.

Entradas relacionadas

Álgebra Lineal I: Ortogonalidad, hiperplanos y ecuaciones lineales

Introducción

En entradas anteriores hablamos de formas lineales, del espacio dual y de ortogonalidad. Con la teoría que hemos desarrollado en esas entradas, podemos cosechar uno de los hechos más importantes para espacios vectoriales de dimensión finita $n$: todos los subespacios se pueden obtener a partir de intersectar hiperplanos, es decir, subespacios de dimensión $n-1$. El objetivo de esta entrada es dar las definiciones necesarias para enunciar y demostrar este resultado formalmente.

Hiperplanos

Antes de demostrar el resultado mencionado en la introducción, tomaremos un poco de intuición geométrica de $\mathbb{R}^3$.

En $\mathbb{R}^3$ tenemos sólo un subespacio de dimensión $0$, que es $\{(0,0,0)\}$, un punto. Para obtener un subespacio de dimensión $1$, tenemos que tomar un vector $v\neq 0$ y considerar todos los vectores $rv$ con $r$ en $\mathbb{R}$. Esto corresponde geométricamente a una línea por el origen, con la misma dirección que $v$. En otras palabras, los subespacios de dimensión $1$ son líneas por el origen.

¿Quiénes son los subespacios de dimensión $2$? Debemos tomar dos vectores linealmente independientes $u$ y $v$ y considerar todas las combinaciones lineales $au+bv$ de ellos. Es más o menos fácil convencerse de que obtendremos al plano que pasa por $u$, $v$ y el $(0,0,0)$. Es decir, los subespacios de dimensión $2$ de $\mathbb{R}^3$ son planos por el origen.

Esto motiva la siguiente definición.

Definición 1. Sea $V$ un espacio vectorial de dimensión finita $n$. Un hiperplano de $V$ es un subespacio de dimensión $n-1$.

Ejemplo. El subespacio $U=\mathbb{R}_5[x]$ de $V=\mathbb{R}_6[x]$ es un hiperplano. Esto es ya que $U$ es de dimesión $6$ y $V$ es de dimensión $7$. Sin embargo, aunque $U$ también es un subespacio de $W=\mathbb{R}_7[x]$, no se cumple que $U$ sea hiperplano de $W$ pues $W$ es de dimensión $8$ y $6\neq 8-1$.

Las matrices simétricas de $M_2(\mathbb{R})$ forman un subespacio $S$ de dimensión $3$ de $M_2(\mathbb{R})$, pues son de la forma $\begin{pmatrix} a & b \\ b & c \end{pmatrix}$. De esta forma, $S$ es un hiperplano de $M_2(\mathbb{R})$. Sin embargo, el conjunto de matrices simétricas de $M_n(\mathbb{R})$ no es un hiperplano ni para $n=1$, ni para $n\geq 3$.

$\square$

Los hiperplanos nos pueden ayudar a obtener subespacios. De hecho, veremos que en el caso de dimensión finita nos ayudan a obtener a todos los subespacios. Para continuar construyendo la intuición, notemos que en $\mathbb{R}^3$ los hiperplanos son simplemente los planos por el origen y que:

  • Podemos obtener a cualquier plano por el origen como intersección de planos por el origen: simplemente lo tomamos a él mismo.
  • Podemos obtener a cualquier línea por el origen como la intersección de dos planos distintos por el origen que la contengan. Por ejemplo, el eje $z$ es la intersección de los planos $xz$ y $yz$. En otras palabras: todo subespacio de dimensión $1$ de $\mathbb{R}^3$ se puede obtener como la intersección de dos hiperplanos de $\mathbb{R}^3$.
  • A $\{0\}$ lo podemos expresar como la intersección de los planos $xy$, $yz$ y $xz$, osea, al único espacio de dimensión cero lo podemos expresar como intersección de $3$ hiperplanos.

Ya obtenida la intuición, lo que veremos a continuación es que el resultado anterior en realidad es un fenómeno que sucede en cualquier espacio vectorial de dimensión finita. Así, nos enfocaremos en entender las definiciones del siguiente teorema, y demostrarlo.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$.

  • Todo subespacio $W$ de $V$ de dimensión $m$ es la intersección de $n-m$ hiperplanos de $V$ linealmente independientes.
  • Toda intersección de $n-m$ hiperplanos de $V$ linealmente independientes es un subespacio vectorial de dimensión $m$.

Los hiperplanos son subespacio y la definición de independencia lineal que tenemos es para vectores. Pero el teorema anterior habla de «hiperplanos linealmente independientes». ¿A qué se refiere esto? Como veremos más adelante, a cada hiperplano se le puede asignar de manera natural un elemento del espacio dual de $V$.

Recordatorio de espacio ortogonal

En la entrada anterior mostramos el siguiente resultado:

Teorema (teorema de dualidad). Sea $V$ un espacio vectorial de dimensión finita sobre $F$ y $W$ un subespacio de $V$ (o de $V^\ast)$. Entonces $$\dim W + \dim W^\bot = \dim V.$$

Además, obtuvimos como corolario lo siguiente:

Corolario. Si $V$ es un espacio vectorial de dimensión finita sobre un campo $F$ y $W$ un subespacio de $V$ (o de $V^\ast$), entonces $(W^\bot)^\bot=W$.

Usaremos estos resultados para dar una definición alternativa de hiperplanos, para entender a los subespacios de dimensión $n-1$ y para mostrar el teorema principal de esta entrada.

Subespacios de dimensión $n-1$ y definición alternativa de hiperplanos

Tomemos un espacio vectorial $V$ de dimensión finita $n$. Un caso especial, pero muy importante, del teorema de dualidad es cuando $W$ es un subespacio de $V^\ast$ de dimensión $1$, es decir, cuando $W$ está generado por una forma lineal $l\neq 0$. En este caso, $W^\bot$ es un subespacio de $V$ y por el teorema de dualidad, es de dimensión $n-1$.

De manera inversa, si $W$ es un subespacio de $V$ de dimensión $n-1$, por el teorema de dualidad tenemos que $W^\bot$ es de dimensión $1$, así que hay una forma lineal $l\neq 0$ que lo genera. Por el corolario, $W=(W^\bot)^\bot$, que en otras palabras quiere decir que $W=\{v\in V: l(v)=0\}.$ En resumen:

Proposición. Un subespacio $W$ de un espacio de dimensión finita $d$ tiene dimensión $d-1$ si y sólo si es el kernel de una forma lineal $l\neq 0$ de $V$.

Ejemplo. Considera la forma lineal $\text{ev}_0$ en el espacio vectorial $V=\mathbb{C}_n[x]$ de polinomios con coeficientes complejos y grado a lo más $n$. Los polinomios $p$ tales que $\text{ev}_0(p)=0$ son exactamente aquellos cuyo término libre es $0$. Este es un subespacio vectorial de $V$ de dimensión $n=\dim V – 1$, pues una base para él son los polinomios $x, x^2, \ldots, x^n$.

$\square$

Problema. Considera el espacio vectorial $V=M_{2,3}(\mathbb{R})$. Considera $W$ el subconjunto de matrices cuya suma de entradas en la primer columna es igual a la suma de entradas de la segunda columna. Muestra que $W$ es un subespacio de dimensión $5$ y escríbelo como el kernel de una forma lineal.

Solución. Mostrar que $W$ es un subespacio de $V$ es sencillo y se queda como tarea moral. Se tiene que $W$ no puede ser igual a todo $V$ pues, por ejemplo, la matriz $\begin{pmatrix} 1 & 0 & 0\\ 0 & 0 & 0 \end{pmatrix}$ no está en $W$, así que $\dim W\leq 5$.

Las matrices $\begin{pmatrix} 1 & 1 & 0\\ 0 & 0 & 0 \end{pmatrix}$, $\begin{pmatrix} 1 & 1 & 1\\ 0 & 0 & 0 \end{pmatrix}$, $\begin{pmatrix} 1 & 1 & 0\\ 0 & 0 & 1 \end{pmatrix}$, $\begin{pmatrix} 1 & 0 & 0\\ 0 & 1 & 0 \end{pmatrix}$, $\begin{pmatrix} 0 & 1 & 0\\ 1 & 0 & 0 \end{pmatrix}$ son linealmente independientes y están en $W$, así que $\dim W\geq 5$, y junto con el párrafo anterior concluimos que $\dim W = 5$.

Finalmente, tomemos la forma lineal $$l\begin{pmatrix} a & b & c\\ d& e& f\end{pmatrix}=a+d-b-e.$$ Tenemos que una matriz está en el kernel de $l$ si y sólo si $a+d-b-e=0$, si y sólo si $a+d=b+e$, es decir, si y sólo si las entradas de la primer columna tienen la misma suma que las de la segunda. Así, $W=\ker l$.

$\square$

La proposición anterior nos permite dar una definición alternativa de hiperplano y hablar de hiperplanos linealmente independientes.

Definición 2. Sea $V$ un espacio vectorial. Un hiperplano es el kernel de una forma lineal $l\neq 0$ en $V^\ast$. Una familia de hiperplanos es linealmente independiente si sus formas lineales correspondientes son linealmente independientes en $V^\ast$.

Observa además que la definición anterior también sirve para espacios vectoriales de dimensión infinita, pues nunca hace referencia a la dimensión que debe tener un hiperplano.

Ejemplo. El conjunto de funciones continuas $f$ en el intervalo $[0,1]$ tales que $$\int_0^1 f(x) \, dx = 0$$ son un subespacio $W$ de $\mathcal{C}[0,1]$. Este subespacio es un hiperplano pues es el kernel de la forma lineal $I$ tal que $$I(f)=\int_0^1 f(x)\, dx.$$

$\square$

No mencionaremos más de espacios de dimensión infinita en esta entrada.

Escribiendo subespacios como intersección de hiperplanos

Ya podemos entender el teorema principal de esta entrada y demostrarlo. Lo enunciamos nuevamente por conveniencia.

Teorema 2. Sea $V$ un espacio vectorial de dimensión finita $n$.

  • Todo subespacio $W$ de $V$ de dimensión $m$ es la intersección de $n-m$ hiperplanos de $V$ linealmente independientes.
  • Toda intersección de $n-m$ hiperplanos de $V$ linealmente independientes es un subespacio vectorial de dimensión $m$.

Demostración. Tomemos un espacio vectorial $V$ de dimensión finita $n$ y un subespacio $W$ de dimensión $m$. Por el teorema de dualidad, la dimensión de $\dim W^\bot$ es $n-m$. Tomemos una base $B=\{l_1,l_2,\ldots,l_{n-m}\}$ de $W^\bot$. Por el corolario al teorema de dualidad, podemos expresar a $W$ como $$W=(W^\bot)^\bot=\{v\in V: l_1(v)=\ldots=l_{n-m}(v)=0\}.$$

Si definimos $L_i=\{v\in V: l_i(v)=0\}$, por la proposición de la sección anterior tenemos que cada $L_i$ es un hiperplano de $V$. Además, $$W=L_1\cap \ldots\cap L_{n-m}.$$ Como los $l_i$ son linealmente independientes, con esto logramos expresar a $W$ como intersección de $n-m$ hiperplanos linealmente independientes.

Probemos ahora la segunda parte de la proposición. Tomemos el conjunto $S=\{l_1,\ldots,l_{n-m}\}$ de formas linealmente independientes que definen a los hiperplanos. Un vector $v$ está en la intersección de todos estos hiperplanos si y sólo si $l_1(v)=\ldots=l_{n-m}(v)=0$, si y sólo si está en $S^\bot=\text{span}(S)^\bot$. Es decir, la intersección de los hiperplanos es precisamente el subespacio $\text{span}(S)^\bot$. Como $S$ es linealmente independiente, tenemos que $ \text{span}(S)$ es de dimensión $n-m$, de modo que por el teorema de dualidad, $\dim \text{span}(S)^\bot = n-(n-m)=m$. Esto muestra lo que queremos.

$\square$

Algunos problemas prácticos

Si tenemos un espacio $V$ de dimensión finita $n$, un subespacio $W$ de dimensión finita $m$ y queremos encontrar de manera práctica la expresión de $W$ como intersección de hiperplanos de $V$, podemos hacer el siguiente procedimiento:

  • Determinamos una base $l_1,\ldots,l_{n-m}$ para $W^\bot$ (la cual consiste de formas lineales de $V^\ast$). Esto lo podemos hacer con los pasos que mencionamos en la entrada anterior.
  • Definimos $L_i=\{v\in V: l_i(v)=0\}$.
  • Tendremos que $W$ es la intersección de los $L_i$.

Una última observación es que cada $L_i$ está definido por una ecuación lineal. Esto nos permite poner a cualquier subespacio como el conjunto solución a un sistema linela. Esto lo cual podemos ver de forma práctica de la siguiente manera:

  • Tomamos una base $e_1,\ldots,e_n$ de $V$.
  • Tomemos un vector $v=a_1e_1+\ldots+a_ne_n$ que queremos determinar si está en $W$. Para ello, debe estar en cada $L_i$.
  • Cada $L_i$ está definido mediante la ecuación $l_i(v)=0$ de modo que si $v$ está en $L_i$ sus coordenadas $a_1,\ldots,a_n$ en la base $e_1,\ldots,e_n$ deben satisfacer la ecuación lineal $$l_i(e_1)a_1+\ldots+l_i(e_n)a_n=0.$$
  • De esta forma, los vectores $v$ en $W$ son aquellos cuyas coordenadas en la base $e_1,\ldots, e_n$ satisfacen el sistema de ecuaciones obtenido de las ecuaciones lineales para cada $i$ del punto anterior.

Veremos algunos ejemplos de estos procedimientos en la siguiente entrada.

La receta anterior nos permite concluir la siguiente variante del teorema de esta entrada, escrito en términos de ecuaciones lineales.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$ y $B$ una base de $V$.

  • Un subespacio $W$ de dimensión $m$ se puede definir mediante un sistema de ecuaciones lineales independientes que deben satisfacer las coordenadas de los vectores de $W$ escritos en la base $B$.
  • Aquellos vectores cuyas coordenadas en la base $B$ satisfacen un sistema de ecuaciones lineales independientes homogéneo, forman un subespacio de $V$ de dimensión $n-m$.

La moraleja de esta entrada es que podemos pensar que los sistemas de ecuaciones, las intersecciones de hiperplanos y los subespacios de un espacio vectorial de dimensión finita son «prácticamente lo mismo».

Tarea moral

  • Considera el plano $P$ en $\mathbb{R}^3$ que pasa por el origen y por los vectores $(1,1,1)$, $(0,2,0)$. Encuentra reales $a,b,c$ tales que $$P=\{(x,y,z): ax+by+cz = 0 \}.$$
  • En todos los ejemplos en los que se menciona que algo es subespacio, verifica que en efecto lo sea. En los que se menciona que un conjunto es base, también verifica esto.
  • Encuentra una base para el espacio de polinomios $p$ en $M_n(\mathbb{C})$ tales que $\text{ev}(1)(p)=0$.
  • Sea $W$ el subconjunto de matrices de $V:=M_n(\mathbb{R})$ tal que la sumas de las entradas de todas las filas son iguales. Muestra que $W$ es un subespacio de $V$. Determina la dimensión de $W$ y exprésalo como intersección de hiperplanos linealmente independientes.
  • ¿Qué sucede cuando intersectas hiperplanos que no corresponden a formas linealmente independientes? Más concretamente, supongamos que tienes formas lineales $l_1,\ldots,l_m$ de $F^n$. Toma $B=\{e_1,\ldots,e_n\}$ la base canónica de $F^n$. Considera la matriz $A=[l_i(e_j)]$. ¿Qué puedes decir de la dimensión de la intersección de los hiperplanos correspondientes a los $l_i$ en términos del rango de la matriz $A$?

Más adelante…

A lo largo de esta entrada enunciamos las definiciones necesarias para llegar al teorema que mencionamos al inicio: para un espacio vectorial de dimension finita $n$, todos los subespacios se pueden obtener a partir de intersectar hiperplanos, es decir, subespacios de dimensión $n-1$.

En la siguiente entrada utilizaremos este resultado para resolver algunos ejercicios y veremos en acción este importante teorema.

Entradas relacionadas