Archivo del Autor: Blanca Radillo

Álgebra Lineal I: Aplicaciones del teorema espectral, bases ortogonales y más propiedades de transformaciones lineales

Introducción

Hoy es la última clase del curso. Ha sido un semestre difícil para todas y todos. El quedarnos en casa, obligados a buscar alternativas digitales que sean de fácil acceso para la mayoría de las personas, aprender a realizar toda nuestra rutina diaria en un mismo espacio; sin dudarlo, un semestre lleno de retos que de una u otra manera, haciendo prueba y error, hemos aprendido a sobrellevar.

El día de hoy terminaremos con el tema de teoría espectral. Veremos algunos problemas donde usaremos las técnicas de búsqueda de eigenvalores y eigenvectores, así como aplicaciones de uno de los teoremas más importante: el Teorema Espectral.

Matrices simétricas, matrices diagonalizables

En entradas anteriores hemos discutido sobre qué condiciones me garantizan que una matriz A es diagonalizable. No volveremos a repetir cuál es la definición de matriz diagonalizable ya que en múltiples ocasiones lo hicimos.

Sabemos que una matriz simétrica en M_n(\mathbb{R}) siempre es diagonalizable, gracias al teorema espectral, pero el siguiente problema nos ilustra que si cambiamos de campo F, no tenemos la garantía de que las matrices simétricas en M_n(F) también lo sean.

Problema. Demuestra que la matriz simétrica con coeficientes complejos

A=\begin{pmatrix} 1 & i \\ i & -1 \end{pmatrix}

no es diagonalizable.

Solución. Por la primera proposición de la clase «Eigenvalores y eigenvectores de transformaciones y matrices», si A fuese diagonalizable, es decir, que existe una matriz invertible P y una diagonal D tal que A=P^{-1}DP, entonces A y D tienen los mismos eigenvalores. Entonces, encontremos los eigenvalores de A: buscamos \lambda \in \mathbb{C} tal que \text{det}(\lambda I-A)=0,

    \begin{align*}\text{det}(\lambda I-A)&=\begin{vmatrix} \lambda -1 & -i \\ i & \lambda +1 \end{vmatrix} \\&=(\lambda-1)(\lambda+1)-i^2=\lambda^2 -1+1 \\&=\lambda^2=0.\end{align*}

Por lo tanto, el eigenvalor con multiplicidad 2 de A (y también el eigenvalor de D) es \lambda =0. Si D es de la forma

D=\begin{pmatrix} a & 0 \\ 0 & b \end{pmatrix},

es fácil ver (y calcular) que sus eigenvalores son a y b, pero por lo anterior, podemos concluir que a=b=0, y por lo tanto D es la matriz cero. Si fuese así, A=P^{-1}DP=0, contradiciendo la definición de A.

\square

Problema. Sea A una matriz simétrica con entradas reales y supongamos que A^k=I para algún entero positivo k. Prueba que A^2=I.

Solución. Dado que A es simétrica y con entradas reales, todos sus eigenvalores son reales. Más aún son k-raíces de la unidad, entonces deben ser \pm 1. Esto implica que todos los eigenvalores de A^2 son iguales a 1. Dado que A^2 también es simétrica, es diagonalizable y, dado que sus eigenvalores son iguales a 1, por lo tanto A^2=I.

\square

Más propiedades de transformaciones lineales y bases ortogonales

En otras clases como Cálculo, Análisis, hablamos de funciones continuas, discontinuas, acotadas, divergentes; mientras que en este curso nos hemos enfocado únicamente en la propiedad de linealidad de las transformaciones. Si bien no es interés de este curso, podemos adelantar que, bajo ciertas condiciones del espacio V, podemos tener una equivalencia entre continuidad y acotamiento de una transformación.

Decimos que la norma de una transformación está definida como

\norm{T}=\sup_{x\in V\setminus{0}} \frac{\norm{T(x)}}{\norm{x}}.

Por ende, decimos que una transformación es acotada si su norma es acotada, \norm{T}<\infty.

Problema. Sea V un espacio euclideano y sea T una transformación lineal simétrica en V. Sean \lambda_1,\ldots,\lambda_n los eigenvalores de T. Prueba que

\sup_{x\in V\setminus{0}} \frac{\norm{T(x)}}{\norm{x}} =\max_{1\leq i\leq n} |\lambda_i|.

Solución. Renumerando a los eigenvalores, podemos decir que \max_i |\lambda_i|=|\lambda_n|. Sea e_1,\ldots,e_n una base ortonormal de V tal que T(e_i)=\lambda_i e_i para todo i. Si x\in V\setminus {0}, podemos escribirlo como x=x_1e_1+\ldots+x_n e_n para algunos reales x_i. Entonces, por linealidad de T,

T(x)=\sum_{i=1}^n \lambda_i x_ie_i.

Dado que |\lambda_i|\leq |\lambda_n| para toda i, tenemos que

\frac{\norm{T(x)}}{\norm{x}}=\sqrt{\frac{\sum_{i=1}^n \lambda_i^2 x_i^2}{\sum_{i=1}^n x_i^2}}\leq |\lambda_n|,

por lo tanto

    \begin{align*} \max_{1\leq i\leq n} |\lambda_i|&=|\lambda_n|=\frac{\norm{T(e_n)}}{\norm{e_n}}\\&\leq \sup_{x\in V\setminus{0}} \frac{\norm{T(x)}}{\norm{x}}\\ &\leq |\lambda_n|= \max_{1\leq i\leq n} |\lambda_i|. \end{align*}

Obteniendo lo que queremos.

\square

Para finalizar, no olvidemos que una matriz es diagonalizable si y sólo si el espacio tiene una base de eigenvectores, y que está íntimamente relacionado con el teorema espectral.

Problema. Encuentra una base ortogonal consistente con los eigenvectores de la matriz

A=\frac{1}{7}\begin{pmatrix} -2 & 6 & -3 \\ 6 & 3 & 2 \\ -3 & 2 & 6 \end{pmatrix}.

Solución. Para encontrar los eigenvectores, primero encontrar los eigenvalores y, después, para cada eigenvalor, encontrar el/los eigenvectores correspondientes.

Calculemos:

    \begin{align*}0&=\text{det}(\lambda I-A)=\begin{vmatrix} \lambda+2/7 & -6/7 & 3/7 \\ -6/7 & \lambda-3/7 & -2/7 \\ 3/7 & -2/7 & \lambda-6/7 \end{vmatrix} \\&= \lambda^3-\lambda^2-\lambda+1 \\&= (\lambda -1)(\lambda^2 -1),\end{align*}

entonces los eigenvalores de A son 1,-1, (\lambda=1 tiene multiplicidad 2).

Ahora, hay que encontrar los vectores v=(x,y,z) tal que Av=\lambda v, para todo eigenvalor \lambda.

Si \lambda=-1,

(\lambda I-A)v=\frac{1}{7}\begin{pmatrix} -5 & -6 & 3 \\ -6 & -10 & -2 \\ 3 & -2 & -13 \end{pmatrix}v=0,

reduciendo, obtenemos que v=(3\alpha, -2\alpha, \alpha) para todo \alpha\in \mathbb{R}.

Si \lambda=1, resolviendo de la misma manera (\lambda I-A)v=(I-A)v=0, tenemos que v=(\beta,\gamma,-3\beta+2\gamma) para todo \beta,\gamma. Entonces el conjunto de eigenvectores es

B=\{ v_1=(3,-2,1), \quad v_2=(1,0,-3), \quad v_3=(0,1,2) \}.

Es fácil ver que el conjunto B es linealmente independiente, más aún \text{dim}(\mathbb{R}^3)=3=|B|, por lo tanto, B es la base consistente con los eigenvectores de A.

\square

Agradecemos su esfuerzo por llegar hasta el final a pesar de todas las adversidades. Esperamos pronto volver a ser sus profesores/ayudantes. Mucha suerte en la última parcial, es el último esfuerzo. Pero también les deseamos mucho éxito en su proyecto de vida. ¡Gracias!

Álgebra Lineal I: Problemas de determinantes y ecuaciones lineales

Introducción

En esta entrada, realizaremos problemas que nos ayudarán a repasar el tema visto el pasado lunes, sobre soluciones de sistemas lineales, Teorema de Rouché-Capelli y la regla de Cramer.

Problemas de ecuaciones lineales

Una de las maneras más usuales para demostrar que un conjunto de vectores es linealmente independientes es probar que tomamos una combinación lineal de éstos tal que es igual a 0, sólo es posible si todos los coeficientes son igual a cero. Pero como ya lo hemos visto anteriormente en diversos problemas, algunas veces ésto nos genera un sistema de ecuaciones que puede ser difícil y/o tardado resolver.

Por ello, otra manera de demostrar independencia lineal es ilustrada con el siguiente problema.

Problema. Considera los vectores

v_1=(1,x,0,1), \quad v_2=(0,1,2,1), \quad v_3=(1,1,1,1)

en \mathbb{R}^4. Prueba que para cualquier elección de x\in\mathbb{R}, los vectores v_1,v_2,v_3 son linealmente independientes.

Solución. Sea A la matriz cuyas columnas son v_1,v_2,v_3, es decir,

A=\begin{pmatrix} 1 & 0 & 1 \\ x & 1 & 1 \\ 0 & 2 & 1 \\ 1 & 1 & 1 \end{pmatrix}.

Sabemos que v_1,v_2,v_3 son linealmente independiente si y sólo si \text{dim(span}(v_1,v_2,v_3))=3, ya que \text{rank}(A)=3, y eso es equivalente (por la clase del lunes) a demostrar que A tiene una submatriz de 3\times 3 invertible.

Notemos que si borramos el segundo renglón, obtenemos la submatriz cuyo determinante es

\begin{vmatrix} 1 & 0 & 1 \\ 0 & 2 & 1 \\ 1 & 1 & 1 \end{vmatrix}=-1,

lo que implica que es invertible, y por lo tanto v_1,v_2, v_3 son vectores linealmente independientes.

\square

En este curso, los ejemplos usualmente utilizan espacios vectoriales sobre \mathbb{R} o sobre \mathbb{C}. Como \mathbb{R}\subset \mathbb{C}, es natural preguntarnos si los resultados obtenidos en los problemas trabajados en \mathbb{R} se cumplen en \mathbb{C}. En este caso particular, si las soluciones de una matriz en M_{m,n}(\mathbb{R}) son soluciones de la misma matriz pero vista como elemento en M_{m,n}(\mathbb{C}). El siguiente teorema nos da el resultado a esta pregunta.

Teorema. Sea A\in M_{m,n}(F) y sea F_1 un campo contenido en F. Consideremos el sistema lineal AX=0. Si el sistema tiene una solución no trivial en F_1^n, entonces tiene una solución no trivial en F^n.

Demostración. Dado que el sistema tiene una solución no trivial en F_1^n, r:=\text{rank}(A) < n vista como elemento en M_{m,n}(F_1). Por el primer teorema visto en la clase del lunes, el rango es el tamaño de la submatriz cuadrada más grande que sea invertible, y eso es independiente si se ve a A como elemento de M_{m,n}(F_1) o de M_{m,n}(F). Y por el teorema de Rouché-Capelli, el conjunto de soluciones al sistema es un subespacio de F^n de dimensión n-r>0. Por lo tanto, el sistema AX=0 tiene una solución no trivial en F^n.

\square

A continuación, se mostrarán dos ejemplos de la búsqueda de soluciones a sistemas lineales donde usaremos todas las técnicas aprendidas a lo largo de esta semana.

Problema. Sea S_a el siguiente sistema lineal:

\begin{matrix} x-2y+z=1 \\ 3x+2y-2z=2 \\ 2x-y+az=3 \end{matrix}.

Encuentra los valores de a para los cuales el sistema no tiene solución, tiene exactamente una solución y tiene un número infinito de soluciones.

Solución. El sistema lo podemos escribir como AX=b donde

A=\begin{pmatrix} 1 & -2 & 1 \\ 3 & 2 & -2 \\ 2 & -1 & a \end{pmatrix} \quad \text{y} \quad b=\begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix}.

Notemos que

\begin{vmatrix} 1 & -2 & 1 \\ 3 & 2 & -2 \\ 2 & -1 & a \end{vmatrix}=8a-1,

entonces si a\neq 1/8, A es invertible, y por lo tanto \text{rank}(A)=3, mientras que si a=1/8, A no es invertible y \text{rank}(A)=2 ya que la submatriz es invertible

\begin{vmatrix} 1 & -2 \\ 3 & 2 \end{vmatrix}=8.

Además, si la matriz (A,b) es igual a

\begin{pmatrix} 1 & -2 & 1 & 1 \\ 3 & 2 & -2 & 2 \\ 2 & -1 & a & 3 \end{pmatrix},

quitando la tercera columna, obtenemos una submatriz invertible (ejercicio). Por lo tanto, \text{rank}(A,b)=3.

Aplicando el Teorema de Rouché-Capelli, para a=1/8, el sistema AX=b no tiene soluciones. También podemos concluir que como \text{rank}(A)=3 para todo a\neq 1/8, el sistema tiene exactamente una solución. (Y AX=b nunca tiene infinitas soluciones).

\square

Problema. Sean a,b,c números reales dados. Resuelve el sistema lineal

\begin{matrix} (b+c)x+by+cz=1 \\ ax+ (a+c)y+cz=1 \\ ax+by+(a+b)z=1 \end{matrix}.

Solución. La matriz del sistema es

A=\begin{pmatrix} b+c & b & c \\ a & a+c & c \\ a & b & a+b \end{pmatrix}.

No es difícil ver que \text{det}(A)=4abc. Si abc\neq 0, usando la regla de Cramer, la única solución al sistema está dada por

x=\frac{\begin{vmatrix} 1 & b & c \\ 1 & a+c & c \\ 1 & b & a+b \end{vmatrix}}{4abc}, \quad y=\frac{\begin{vmatrix} b+c & 1 & c \\ a & 1 & c \\ a & 1 & a+b \end{vmatrix}}{4abc}

y=\frac{\begin{vmatrix} b+c & b & 1 \\ a & a+c & 1 \\ a & b & 1 \end{vmatrix}}{4abc},

resolviendo los determinantes obtenemos que

x=\frac{a^2 -(b-c)^2}{4abc}, \quad y=\frac{b^2 -(a-c)^2}{4abc}, \quad z=\frac{c^2-(a-b)^2}{4abc}.

Ahora, si abc=0, entonces A no es invertible (\text{rank}(A)<3). El sistema es consistente si y sólo si \text{rank}(A)=\text{rank}(A,b).

Sin pérdida de generalidad, decimos que a=0 (pues abc=0). Esto reduce el sistema a

\begin{matrix} (b+c)x+by+cz=1 \\ c(y+z)=1 \\ b(y+z)=1 \end{matrix}.

El sistema es consistente si b=c y distintos de cero. En este caso, tenemos que b(2x+y+z)=1 y b(y+z)=1, implicando x=0, y+z=1/b. De manera similar, obtenemos las posibles soluciones si b=0 o si c=0.

Resumiendo:

  • Si abc\neq 0, el sistema tiene una solución única dada por la regla de Cramer.
  • Si tenemos alguno de los siguientes tres casos: caso 1) a=0 y b=c \neq 0; caso 2) b=0 y a=c\neq 0; caso 3) c=0 y a=b\neq 0, tenemos infinitas soluciones descritas como, para todo w\in \mathbb{R}: caso 1) (0,w,1/b-w); caso 2) (w,0,1/a-w); caso 3) (w,1/a-w,0).
  • Si no se cumplen ninguno de las cuatro condiciones anteriores para a,b,c, el sistema no es consistente.

\square

Álgebra Lineal I: Problemas de definición y propiedades de determinantes

Introducción

En esta entrada haremos una serie de problemas que nos ayudarán como repaso de los temas vistos durante las últimas dos semanas. Mostraremos algunas propiedades bastante interesantes acerca de las transformaciones alternantes y antisimétricas, así como de la transformación estrella de esta semana: el determinante.

Problemas de transformaciones antisimétricas

En la entrada del miércoles 6 de mayo, hablábamos sobre la equivalencia entre transformaciones alternantes y antisimétricas, justo resaltamos que ésto no es cierto si el campo F es \mathbb{Z}_2, y el siguiente ejemplo lo expone:

Ejemplo. Sea f:\mathbb{Z}_2 \times \mathbb{Z}_2 \rightarrow \mathbb{Z}_2 definido como f(x,y)=xy. Claramente f es bilineal, pero no es alternate ya que f(1,1)=1\neq 0. Por otro lado, f es antisimétrica, porque f(x,y)+f(y,x)=xy+yx=2xy=0.

\square

De manera natural surge la pregunta: ¿cómo podemos construir una transformación d-lineal antisimétrica o alternante? El siguiente problema muestra un camino para obtener una transformación antisimétrica dada un mapeo d-lineal f.

Problema. Sea f:V^d \rightarrow W una transformación d-lineal. Demuestra que

A(f):=\sum_{\sigma \in S_d} \text{sign}(\sigma) \sigma (f)

es un mapeo d-lineal antisimétrico.

Solución. Es fácil ver que A(f) es una transformación d-lineal, dado que A(f) es una combinación lineal de mapeos d-lineales. Queremos probar que, para \tau \in S_d, \tau (A(f))=\text{sign}(\tau) A(f). Notemos que

    \begin{align*} \tau(A(f)) &= \sum_{\sigma \in S_d} \text{sign}(\sigma) \tau(\sigma(f)) \\&= \sum_{\sigma \in S_d} \text{sign}(\sigma) (\tau\sigma)(f). \end{align*}

Usando el hecho que \text{sign}(\tau)\text{sign}(\sigma)=\text{sign}(\tau\sigma) y que \{ \tau \sigma : \sigma \in S_d \}=S_d, obtenemos que

    \begin{align*} \text{sign}(\tau)\tau(A(f)) &= \sum_{\sigma \in S_d} \text{sign}(\tau\sigma) (\tau\sigma)(f) \\&= \sum_{\eta \in S_d} \text{sign}(\eta) (\eta)(f) =A(f). \end{align*}

Por lo tanto, \tau(A(f))=\text{sign}(\tau)A(f).

\square

Problemas de determinantes

Ahora continuando con la discusiones del determinante, sabemos que éste es una forma n-lineal alternante, y además que cualquier otra forma n-lineal alternante varía de \det(b_1,\ldots,b_n) únicamente por un factor multiplicativo. Otro resultado interesante ese teorema es el siguiente:

Problema. Sea V un espacio vectorial sobre F de dimensión finita. Sea e_1,\ldots,e_n una base de V y sea T:V\rightarrow V una transformación lineal. Demuestra que para todo v_1,\ldots,v_n\in V tenemos que

\sum_{i=1}^n \det(v_1,\ldots,v_{i-1},T(v_i),v_{i+1},\ldots, v_n) =\text{Tr}(T)\cdot \det(v_1,\ldots,v_n),

donde todos los determinantes están calculados en la base canónica y \text{Tr}(T) es la traza de la matriz de T (con respecto a la base canónica).

Solución. Definimos el mapeo \phi:V^n\rightarrow F como

\phi(v_1,\ldots,v_n)=\sum_{i=1}^n \det(v_1,\ldots,v_{i-1},T(v_i),v_{i+1},\ldots,v_n).

Esta transformación es la suma de transformaciones n-lineales, por lo tanto \phi es n-lineal. Más aún, es alternante, ya que si asumimos, por ejemplo, que v_1=v_2, entonces

    \begin{align*} \phi(v_1,v_1,v_3,\ldots,v_n) &=\det(T(v_1),v_1,v_3,\ldots,v_n)+ \det(v_1,T(v_1),v_3,\ldots,v_n) \\&+ \sum_{i=3}^n \det(v_1,v_1,\ldots,v_{i-1},T(v_i),v_{i+1},\ldots,v_n) \\&= \det(T(v_1),v_1,v_3,\ldots,v_n)+ \det(v_1,T(v_1),v_3,\ldots,v_n) \\&= \det(T(v_1),v_1,v_3,\ldots,v_n)- \det(T(v_1),v_1,v_3,\ldots,v_n) \\&=0, \end{align*}

debido a que el determinante es antisimétrico.

Por el último teorema visto en la clase del viernes pasado, existe escalar \alpha tal que

\phi(v_1,\ldots,v_n)=\alpha \det(v_1,\ldots,v_n)

para todo v_1,\ldots,v_n. Sea A=[a_{ij}] la matriz de T con respecto a la base canónica. Si tomamos v_1=e_1,\ldots,v_n=e_n, por el mismo teorema tenemos que

    \begin{align*} \alpha &= \phi(e_1,\ldots,e_n) \\&=\sum_{i=1}^n \det(e_1,\ldots,e_{i-1},\sum_{j=1}^n a_{ji}e_j, e_{i+1},\ldots,e_n)\\&=\sum_{i=1}^n \sum_{j=1}^n a_{ji}\det(e_1,\ldots,e_{i-1},e_j,e_{i+1},\ldots,e_n) \\&= \sum_{i=1}^n a_{ii} = \text{Tr}(T). \end{align*}

Por lo tanto, obtenemos lo que queremos.

\square

Por último, los siguientes dos problemas nos ilustran como podemos obtener información de las matrices de manera fácil y «bonita», usando algunas propiedades de los determinantes vistas en la sesión del martes pasado.

Problema. Sea n un número impar y sean A,B\in M_n(\mathbb{R}) matrices tal que A^2+B^2=0_n. Prueba que la matriz AB-BA no es invertible.

Solución. Notemos que

(A+iB)(A-iB)=A^2+B^2+i(BA-AB)=i(BA-AB).

Por la propiedad del determinante de un producto, tenemos que

\det(A+iB)\det(A-iB)=i^n \det(BA-AB).

Suponemos que AB-BA es invertible, entonces \det(BA-AB)\neq 0. Además sabemos que

\det(A-iB)=\det(\overline{A+iB})=\overline{\det(A+iB)},

esto implica que |\det(A+iB)|^2=i^n\det(BA-AB). Como consecuencia, i^n es un número real, contradiciendo al hecho que n es impar. Por lo tanto \det(BA-AB)=0.

\square

Problema. Para 1\leq i,j\leq n, definimos a_{ij} como el número de divisores positivos en común de i y j y definimos b_{ij} igual a 1 si j divide i e igual a 0 si no.

  1. Probar que A=B\cdot ^t B, donde A=[a_{ij}] y B=[b_{ij}].
  2. ¿Qué podemos decir de la forma de B?
  3. Calcula \det(A).

Solución. 1) Fijando i,j tenemos que

\det(B\cdot ^t B)_{ij}=\sum{k=1}^n b_{ik}b_{jk}.

Notemos que b_{ik}b_{jk} no es cero (b_{ij},b_{jk}=1) si y sólo si k divide a i y a j, esto implica que la cantidad de términos de la suma no ceros corresponde exactamente con la cantidad de los divisores en común que tengan i y j. Por lo tanto \det(B\cdot ^tB)_{ij}=a_{ij}.

2) Si i<j, no es posible que j divida a i. Entonces b_{ij}=0 para todo i<j, esto significa que B es, al menos, triangular inferior. Un dato más que podemos asegurar es que b_{ii}=1 para toda i, por lo tanto, al menos, todos los términos de la diagonal de B son iguales a 1.

3) Dada la propiedad multiplicativa del determinante, dado que \det(B)=\det(^tB) y usando el inciso (1), tenemos que \det(A)=\det(B\cdot ^tB)=(\det B)^2. Pero por el inciso (2), \det B=1, concluimos que \det A=1.

\square

Álgebra Lineal I: Problemas de bases ortogonales, Fourier y proceso de Gram-Schmidt

Introducción

Durante las últimas clases hemos visto problemas y teoremas que nos demuestran que las bases ortogonales son extremadamente útiles en la práctica, ya que podemos calcular fácilmente varias propiedades una vez que tengamos a nuestra disposición una base ortogonal del espacio que nos interesa. Veamos más problemas de bases ortogonales y otros resultados que nos permitirán reforzar estas ideas.

Problemas de bases ortogonales y proyecciones

Para continuar con este tema, veremos que las bases ortogonales nos permiten encontrar de manera sencilla la proyección de un vector sobre un subespacio. Primero, recordemos que si V=W\oplus W_2, para todo v\in V podemos definir su proyección en W, que denotamos \pi_W(v), como el único elemento en W tal que v-\pi_W(v) \in W_2.

Debido a las discusiones sobre bases ortogonales, no es difícil ver que si \langle w,u \rangle =0 para todo w\in W, entonces u\in W_2. Como consecuencia de esto, tenemos el siguiente resultado:

Teorema. Sea V un espacio vectorial sobre \mathbb{R} con producto interior \langle \cdot , \cdot \rangle, y sea W un subespacio de V de dimensión finita. Sea v_1,\cdots,v_n una base ortogonal de W. Entonces para todo v\in V tenemos que

\pi_W(v)=\sum_{i=1}^n \frac{\langle v,v_i \rangle}{\norm{v_i}^2} v_i .

Demostración. Escribimos v como v=\pi_W(v)+u con u\in W_2. Por la observación previa al teorema, \langle u,v_i \rangle =0 para todo i. Además existen a_1,\cdots,a_n tales que \pi_W(v)=a_1 v_1+\cdots+a_n v_n. Entonces

    \begin{align*}0 &= \langle u,v_i \rangle =\langle v,v_i \rangle - \langle \pi_W(v),v_i \rangle \\&= \langle v,v_i \rangle - \sum_{j=1}^n a_j \langle v_j,v_i \rangle \\&= \langle v,v_i \rangle - a_i \langle v_i,v_i \rangle, \end{align*}

porque v_1,\cdots,v_n es una base ortogonal. Por lo tanto, para todo i, obtenemos

a_i=\frac{\langle v,v_i \rangle}{\norm{v_i}^2}.

\square

Distancia de un vector a un subespacio y desigualdad de Bessel

En la clase de ayer, vimos la definición de distancia entre dos vectores. También se puede definir la distancia entre un vector y un subconjunto como la distancia entre el vector y el vector «más cercano» del subconjunto, en símbolos:

d(v,W)=\min_{x\in W} \norm{x-v}.

Dado que x\in W, x-\pi_W(v) \in W, y por definición de proyección v-\pi_W(v) \in W_2, entonces

    \begin{align*}\norm{x-v}^2 &=\norm{(x-\pi_W(v))+(\pi_W(v)-v)}^2 \\&= \norm{x-\pi_W(v)}^2+2\langle x-\pi_W(v),\pi_W(v)-v \rangle+\norm{\pi_W(v)-v}^2 \\&= \norm{x-\pi_W(v)}^2+\norm{\pi_W(v)-v}^2\\&\geq \norm{\pi_W(v)-v}^2. \end{align*}

Y dado que la proyección pertenece a W, la desigualdad anterior muestra que la proyección es precisamente el vector en W con el que v alcanza la distancia a W. En conclusión,

    \[d(v,W)=\norm{\pi_W(v)-v}.\]

Teorema. Sea V un espacio vectorial sobre \mathbb{R} con producto interior \langle \cdot , \cdot \rangle, y sea W un subespacio de V de dimensión finita. Sea v_1,\ldots,v_n una base ortonormal de W. Entonces para todo v\in V tenemos que

\pi_W(v)=\sum_{i=1}^n \langle v,v_i \rangle v_i,

y

    \begin{align*}d(v,W)^2&=\norm{v-\sum_{i=1}^n \langle v,v_i \rangle v_i }^2\\&=\norm{v}^2-\sum_{i=1}^n \langle v,v_i \rangle^2.\end{align*}

En particular

\sum_{i=1}^n \langle v,v_i \rangle^2\leq \norm{v}^2.

A esta última desigualdad se le conoce como desigualdad de Bessel.

Demostración. Por el teorema anterior y dado que v_1,\cdots,v_n es una base ortonormal, obtenemos la primera ecuación. Ahora, por Pitágoras,

d(v,W)^2=\norm{v-\pi_W(v)}^2=\norm{v}^2-\norm{\pi_W(v)}^2.

Por otro lado, tenemos que

    \begin{align*}\norm{\pi_W(v)}^2 &=\norm{\sum_{i=1}^n \langle v,v_i \rangle v_i}^2 \\&= \sum_{i,j=1}^n \langle \langle v,v_i \rangle v_i, \langle v,v_j \rangle v_j \rangle \\&= \sum_{i,j=1}^n \langle v,v_i \rangle \langle v,v_j \rangle \langle v_i,v_j \rangle \\&=\sum_{i=1}^n \langle v,v_i \rangle^2. \end{align*}

Por lo tanto, se cumple la igualdad de la distancia. Finalmente como d(v,W)^2 \geq 0, inmediatamente tenemos la desigualdad de Bessel.

\square

Veamos ahora dos problemas más en los que usamos la teoría de bases ortonormales.

Aplicación del proceso de Gram-Schmidt

Primero, veremos un ejemplo más del uso del proceso de Gram-Schmidt.

Problema. Consideremos V como el espacio vectorial de polinomios en [0,1] de grado a lo más 2, con producto interior definido por

    \[\langle p,q \rangle =\int_0^1 xp(x)q(x) dx.\]

Aplica el algoritmo de Gram-Schmidt a los vectores 1,x,x^2.

Solución. Es fácil ver que ese sí es un producto interior en V (tarea moral). Nombremos v_1=1, v_2=x, v_3=x^2. Entonces

    \[e_1=\frac{v_1}{\norm{v_1}}=\sqrt{2}v_1=\sqrt{2},\]

ya que

    \[\norm{v_1}^2=\int_0^1 x \, dx=\frac{1}{2}.\]

Sea z_2=v_2-\langle v_2,e_1 \rangle e_1. Calculando,

    \[\langle v_2,e_1 \rangle=\int_0^1 \sqrt{2}x^2 dx=\frac{\sqrt{2}}{3}.\]

Entonces z_2=x-\frac{\sqrt{2}}{3}\sqrt{2}=x-\frac{2}{3}. Esto implica que

e_2=\frac{z_2}{\norm{z_2}}=6\left(x-\frac{2}{3}\right)=6x-4.

Finalmente, sea z_3=v_3-\langle v_3,e_1\rangle e_1 -\langle v_3,e_2 \rangle e_2. Haciendo los cálculos obtenemos que

z_3=x^2-\left(\frac{\sqrt{2}}{4}\right)\sqrt{2}-\left(\frac{1}{5}\right)(6x-4)

z_3=x^2-\frac{6}{5}x+\frac{3}{10}.

Por lo tanto

e_3=\frac{z_3}{\norm{z_3}}=10\sqrt{6}(x^2-\frac{6}{5}x+\frac{3}{10}).

\square

El teorema de Plancherel y una fórmula con \pi

Finalmente, en este ejemplo, usaremos técnicas de la descomposición de Fourier para solucionar un problema bonito de series.

Problema. Consideremos la función 2\pi-periódica f:\mathbb{R}\rightarrow \mathbb{R} definida como f(0)=f(\pi)=0, f(x)=-1-\frac{x}{\pi} en el intervalo (-\pi,0), y f(x)=1-\frac{x}{\pi} en el intervalo (0,\pi).

Problemas de bases ortogonales: Aplicando el teorema de Plancherel para una fórmula que involucra a pi.
Gráfica de la función f.

Usa el teorema de Plancherel para deducir las identidades de Euler

    \begin{align*}\sum_{n=1}^\infty \frac{1}{n^2} &= \frac{\pi^2}{6},\\\sum_{n=0}^\infty \frac{1}{(2n+1)^2} & = \frac{\pi^2}{8}.\end{align*}

Solución. Notemos que no sólo es 2\pi-periódica, también es una función impar, es decir, f(-x)=-f(x). Por lo visto en la clase del miércoles pasado tenemos que calcular

a_0(f)=\frac{1}{\pi} \int_{-\pi}^{\pi} f(x) dx,

a_k(f)=\frac{1}{\pi} \int_{-\pi}^{\pi} f(x) cos(kx) dx,

b_k(f)=\frac{1}{\pi} \int_{-\pi}^{\pi} f(x)sen(kx) dx.

Para no hacer más larga esta entrada, la obtención de los coeficientes de Fourier se los dejaremos como un buen ejercicio de cálculo. Para hacer las integrales hay que separar la integral en cada uno de los intervalos [-\pi,0] y [0,\pi] y en cada uno de ellos usar integración por partes.

El resultado es que para todo k\geq 1,

    \[a_0=0, a_k=0, b_k=\frac{2}{k\pi}.\]

Entonces por el teorema de Plancherel,

    \begin{align*}\sum_{k=1}^\infty \frac{4}{k^2\pi^2} &=\frac{1}{\pi} \int_{-\pi}^{\pi} f^2(x) dx \\&= \frac{1}{\pi} \left( \int_{-\pi}^0 \left(1+\frac{x}{\pi}\right)^2 dx + \int_0^\pi \left(1-\frac{x}{\pi}\right)^2 dx \right) \\&= \frac{2}{3}, \end{align*}

teniendo que

    \[\sum_{k=1}^\infty \frac{1}{k^2} =\frac{2}{3}\frac{\pi^2}{4}=\frac{\pi^2}{6}.\]

Ahora para obtener la otra identidad de Euler, notemos que

    \begin{align*}\sum_{n=0}^\infty \frac{1}{(2n+1)^2} &= \sum_{n=1}^\infty \frac{1}{n^2} - \sum_{n=1}^\infty \frac{1}{(2n)^2} \\&= \frac{\pi^2}{6}-\frac{\pi^2}{4\cdot6}= \frac{\pi^2}{8}. \end{align*}

\square

Álgebra Lineal I: Proceso de Gram-Schmidt

Introducción

Durante esta semana hemos introducido el concepto de bases ortogonales y ortonormales, así como algunas propiedades especiales. Para poder aplicar los resultados que hemos visto, es necesario insistir en que las bases sean de este tipo (ortonormales). Ahora veremos cómo encontrar bases ortonormales usando algo llamado el proceso de Gram-Schmidt.

Recordando todos los problemas anteriores de este curso, decíamos que una base es un conjunto de vectores linealmente independientes y que el número de vectores coincide con la dimensión del espacio. Pero hasta este momento no nos interesó determinar si las bases eran ortonormales o no. Si nos pusiéramos a ver si lo eran, es probable que muy pocas lo sean. Entonces surgen dos preguntas, ¿será difícil encontrar una base ortonormal de un espacio vectorial? y ¿habrá alguna manera de construir una base ortonormal?

Proceso de Gram-Schmidt

La respuesta a la primera pregunta es «no, no es difícil», y justo la respuesta de la segunda pregunta es la justificación. Dada una base cualquiera del espacio vectorial, podemos construir una base ortonormal de ese mismo espacio gracias al siguiente teorema.

Teorema (Gram-Schmidt). Sean v_1,v_2,\cdots,v_d vectores linealmente independientes en un espacio vectorial V sobre \mathbb{R} (no necesariamente de dimensión finita), con producto interior \langle \cdot , \cdot \rangle. Entonces existe una única familia de vectores ortonormales e_1,e_2,\ldots,e_d en V con la propiedad de que para todo k=1,2,\ldots,d, tenemos que

    \begin{align*}\text{span}(e_1,e_2,\cdots,e_k)&=\text{span}(v_1,v_2,\cdots,v_k), \quad \text{y} \quad\\\langle e_k,v_k \rangle&>0.\end{align*}

Demostración. Lo haremos por inducción sobre d, la cantidad de vectores con la que empezamos.

La base inductiva es cuando d=1. Tomamos un vector e_1\in \text{span}(v_1), entonces podemos escribirlo como e_1=\lambda v_1 para cierta \lambda. Si queremos que 0<\langle e_1,v_1 \rangle=\lambda\norm{v_1}^2, entonces \lambda>0. Además queremos que e_1 tenga norma igual a 1, entonces

    \[1=\norm{e_1}^2=\langle e_1,e_1 \rangle=\lambda^2\norm{v_i}^2,\]

lo cual es posible si \lambda=\frac{1}{\norm{v_1}}. Como e_1 es un múltiplo escalar de v_1, se tiene que \text{span}(e_1)=\text{span}(v_1). Además, la construcción forzó a que e_1=\frac{1}{\norm{v_1}} v_1 sea el único vector que satisface las condiciones del teorema.

Hagamos ahora el paso inductivo. Tomemos un entero d\geq 2, y supongamos que el teorema es cierto para d-1. Sean v_1,v_2,\cdots,v_d vectores en V linelmente independientes. Por hipótesis, sabemos que existe una única familia de vectores ortonormales e_1,\cdots,e_{d-1} que satisfacen las condiciones del teorema respecto a la familia v_1,\cdots,v_{d-1}. Es suficiente con probar que existe un único vector e_d tal que e_1,\cdots,e_d satisface el teorema con respecto a v_1,\cdots,v_d, esto es

    \begin{align*}\norm{e_d}&=1,\\\langle e_d,e_i \rangle&=0 \quad \forall 1\leq i\leq d-1,\\\langle e_d, v_d \rangle &> 0,\end{align*}

y

\text{span}(e_1,\cdots,e_d)=\text{span}(v_1,\cdots,v_d),

ya que, por hipótesis, los casos de k<d se cumplen.

La idea para construir e_d es tomarlo de \text{span}(v_1,\cdots,v_d), expresarlo como combinación lineal de estos y encontrar condiciones necesarias y suficientes sobre los coeficientes de e_d para que satisfaga las conclusiones del teorema. Hagamos esto.

Sea e_d un vector tal que e_d\in\text{span}(v_1,\cdots,v_d). Por ser linealmente independientes y por hipótesis

    \[\text{span}(v_1,\cdots,v_d)=\text{span}(e_1,\cdots,e_{d-1})+\text{span}(v_d),\]

entonces podemos escribir e_d como

e_d=\lambda v_d +\sum_{i=1}^{d-1} a_i e_i

para algunos \lambda,a_1,\cdots,a_{d-1}. Si resulta que \lambda\neq 0, esto también implicará que \text{span}(e_1,\cdots,e_d)=\text{span}(v_1,\cdots,v_d).

Ahora, dado que e_d debe formar una familia ortonormal con el resto de los vectores, para todo j=1,\cdots,d-1, tenemos que


    \begin{align*}0&=\langle e_d,e_j \rangle\\&=\lambda\langle v_d,e_j\rangle + \sum_{i=1}^{d-1} a_i\langle e_i,e_j \rangle\\&=\lambda\langle v_d,e_j \rangle +a_j,\end{align*}

entonces a_j=-\lambda\langle v_d,e_j \rangle. Si logramos mostrar que hay un único \lambda con el que se pueda satisfacer la conclusión del teorema, el argumento anterior muestra que también hay únicos a_1,\ldots,a_{d-1} y por lo tanto que hay un único vector e_d que satisface el teorema.

Sustituyendo los coeficientes anteriores, obtenemos que

e_d=\lambda\left(v_d-\sum_{i=1}^{d-1} \langle v_d,e_i\rangle e_i \right).

Notemos que si z:=v_d-\sum_{i=1}^{d-1} \langle v_d,e_i\rangle e_i es cero, v_d estaría en

    \[\text{span}(e_1,\cdots,e_{d-1}) = \text{span}(v_1,\cdots,v_{d-1}),\]

contradiciendo que los vectores v_i‘s son linealmente independientes, entonces z\neq 0.

Ahora como queremos que 1=\norm{e_d}=|\lambda| \norm{z}, esto implica que |\lambda|=\frac{1}{\norm{z}}.

Como además queremos que \langle e_d,v_d \rangle >0 y

\langle e_d,v_d\rangle =\left\langle e_d,\frac{e_d}{\lambda}+\sum_{i=1}^{d-1} \langle v_d,e_i\rangle e_i \right\rangle=\frac{1}{\lambda},

se deduce que \lambda es único y está determinado por \lambda=\frac{1}{\norm{z}}. Por lo tanto existe (y es único) el vector e_d que satisface el teorema.

\square

Este proceso de construcción es mejor conocido como el proceso de Gram-Schmidt. La demostración da a la vez un algoritmo que nos permite encontrar bases ortogonales. Veremos ejemplos de esto en la siguiente sección. Antes de eso, enunciaremos formalmente una de las conclusiones más importantes del teorema anterior.

Recuerda que un espacio Euclideano es un espacio vectorial de dimensión finita sobre \mathbb{R} y con un producto interior. Podemos aplicar el proceso de Gram-Schmidt a cualquier base v_1,\ldots,v_d de un espacio Euclideano V y al final obtendremos una familia e_1,\ldots,e_d de vectores ortonormales. Como sabemos que las familias de vectores ortonormales son linealmente independientes, y tenemos d vectores, concluimos que e_1,\ldots,e_d es una base ortonormal. En resumen, tenemos el siguiente resultado.

Corolario. Todo espacio Euclideano tiene una base ortonormal.

Ejemplos de aplicación del proceso de Gram-Schmidt

A continuación veremos algunos ejemplos que nos ayuden a clarificar más este algoritmo.

Ejemplo 1. Sean v_1,v_2,v_3 vectores en \mathbb{R}^3 (con el producto interior estándar) definidos por

v_1=(1, 1, 0), \quad v_2=( 1, 1, 1), \quad v_3=( 1, 0, 1).

Es fácil ver que estos vectores son linealmente independientes. Entonces construyamos según el proceso de Gram-Schmidt la familia ortonormal de vectores e_1,e_2,e_3. Tenemos que

e_1=\frac{v_1}{\norm{v_1}}=\frac{v_1}{\sqrt{2}}=\left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}},0\right).

Ahora, tomando z_2=v_2-\langle v_2,e_1\rangle e_1, tenemos que e_2 está definido como \frac{z_2}{\norm{z_2}}, entonces

    \begin{align*}z_2&=(1,1,1)-\left[(1,1,1)\cdot \left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}},0\right)\right]\left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}},0\right) \\&=(1,1,1)-\left[\frac{2}{\sqrt{2}}\right]\left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}},0\right) \\&=(1,1,1)-(2/2,2/2,0)\\&=(1,1,1)-(1,1,0)=(0,0,1).\end{align*}

Esto implica que e_2=\frac{1}{1}(0,0,1)=(0,0,1). Finalmente tomando z_3=v_3-\langle v_3,e_1 \rangle e_1 - \langle v_3,e_2 \rangle e_2, sabemos que e_3=\frac{z_3}{\norm{z_3}}. Entonces

    \begin{align*}z_3&=v_3-\langle v_3,e_1 \rangle e_1 - \langle v_3,e_2 \rangle e_2 \\&=(1,0,1)-\left(\frac{1}{2},\frac{1}{2},0\right)-(0,0,1) \\&=\left(\frac{1}{2},-\frac{1}{2},0\right).\end{align*}

Por lo tanto

e_3=\frac{1}{\sqrt{1/2}}\left(\frac{1}{2}, -\frac{1}{2},0\right)=\left(\frac{1}{\sqrt{2}},\frac{-1}{\sqrt{2}},0\right).

\square

Ejemplo 2. Sea V el espacio de polinomios en [0,1] con coeficientes reales de grado a lo más 2, con el producto interior

\langle p,q \rangle =\int_0^1 p(x)q(x) dx.

Sean v_1=1, v_2=1+x, v_3=1+x^2 vectores en V que claramente son linealmente independientes. Encontraremos los vectores que nos da el proceso de Gram-Schmidt.

Primero calculemos

\norm{v_1}^2=\int_0^1 1 dx= 1,

entonces e_1=\frac{v_1}{\norm{v_1}}=v_1=1. Ahora calculemos z_2:

    \begin{align*}z_2&=v_2-\langle v_2,e_1 \rangle e_1 \\&=1+x- \int_0^1 (1+x)dx=1+x-\left(1+\frac{1}{2}\right) \\&=x-\frac{1}{2}.\end{align*}

Haciendo la integral

    \[\int_0^1 \left(x-\frac{1}{2}\right)^2 dx\]

se obtiene que \norm{z_2}=\sqrt{\frac{1}{12}}, entonces e_2=\sqrt{12}\left(x-\frac{1}{2}\right).

Por último, hay que calcular z_3 así como su norma. Primero,

    \begin{align*} z_3&=v_3-\langle v_3,e_1 \rangle e_1 - \langle v_3,e_2 \rangle e_2 \\ &=(1+x^2)-\int_0^1 (1+x^2)dx - 12\left(x-\frac{1}{2}\right)\int_0^1 (1+x^2)\left(x-\frac{1}{2}\right)dx \\ &=1+x^2-\left(1+\frac{1}{3}\right)-12\left(x-\frac{1}{2}\right)\left(\frac{1}{12}\right) \\&=x^2-\frac{1}{3}-x+\frac{1}{2} \\&=x^2-x+\frac{1}{6},\end{align*}

y luego, con la integral

    \[\int_0^1 \left(x^2-x+\frac{1}{6}\right)^2 dx\]

se calcula que \norm{z_3}=\frac{1}{6\sqrt{5}}, por lo tanto e_3=6\sqrt{5}\left(x^2-x+\frac{1}{6}\right).

\square

Aunque no es un proceso muy eficiente, nos garantiza que podemos encontrar una base ortonormal para cualquier espacio vectorial (con producto interior). Ya con una base ortonormal, podemos usar la descomposición de Fourier de la cual hablamos la entrada anterior y con ella todas las consecuencias que tiene.

Si quieres ver muchos más ejemplos del proceso en \mathbb{R}^n, puedes usar una herramienta en línea que te permite ver el proceso paso a paso en el conjunto de vectores que tu elijas. Una posible página es el Gram-Schmid Calculator de eMathHelp.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Verifica que con el valor \lambda que se encontró en la demostración del teorema de Gram-Schmidt en efecto se obtiene un vector e_d que satisface todas las conclusiones que se desean.
  • Revisa que los vectores que se obtuvieron en los ejemplos de aplicación del proceso de Gram-Schmidt en efecto son bases ortogonales de los espacios correspondientes.
  • Aplica el proceso de Gram-Schmidt a los polinomios 1, x, x^2 en el espacio Euclideano de los polinomios reales de grado a lo más dos y producto interior

        \[\langle p, q \rangle = p(0)q(0)+p(1)q(1)+p(2)q(2).\]

  • Aplica el proceso de Gram-Schmidt a los vectores

        \begin{align*}(1,1,1,1)\\ (0,1,1,1)\\ (0,0,1,1)\\ (0,0,0,1)\end{align*}

    de \mathbb{R}^4 con el producto interior canónico (el producto punto).
  • Usa el Gram-Schmidt Calculator de eMathHelp para ver paso a paso cómo se aplica el proceso de Gram-Schmidt a los vectores

        \begin{align*}(1,2,1,1,-1)\\ (0,0,1,0,0)\\ (2,0,0,1,1)\\ (0,2,0,0,1)\\ (-3,0,0,1,0)\end{align*}

    de \mathbb{R}^5.