Archivo de la etiqueta: producto interior

Seminario de Resolución de Problemas: El teorema espectral y matrices positivas

Introducción

En esta entrada hablaremos de matrices simétricas y de matrices positivas. Nos enfocaremos en el caso en el que sus entradas sean números reales. Ambos tipos de matrices son fundamentales en la teoría de álgebra lineal. Tanto para las matrices simétricas como para las positivas hay resultados de caracterización que podemos utilizar en varios problemas matemáticos.

El teorema espectral para matrices simétricas reales

Si A es una matriz de m\times n, su transpuesta ^tA es la matriz de n\times m que se obtiene de reflejar a las entradas de A en su diagonal principal. Otra forma de decirlo es que si en términos de entradas tenemos A=[a_{ij}], entonces ^tA=[a_{ji}]. Una matriz y su transpuesta comparten muchas propiedades, como su determinante, su polinomio característico, su rango, sus eigenvalores, etc.

Decimos que una matriz es simétrica si es igual a su transpuesta. Una matriz es ortogonal si es invertible y ^tA = A^{-1}. Las matrices simétricas y ortogonales con entradas reales son muy importantes y cumplen propiedades bonitas.

Teorema (teorema espectral). Si A es una matriz de n\times n con entradas reales y simétrica, entonces:

  • Sus eigenvalores \lambda_1,\ldots,\lambda_n (contando multiplicidades), son todos reales.
  • Existe una matriz ortogonal P de n\times n y con entradas reales tal que si tomamos a D la matriz diagonal de n\times n cuyas entradas en la diagonal principal son \lambda_1,\ldots,\lambda_n, entonces

        \[A=P^{-1}DP.\]

No todas las matrices se pueden diagonalizar. Cuando una matriz sí se puede diagonalizar, entonces algunas operaciones se hacen más sencillas. Por ejemplo si A=P^{-1}DP como en el teorema anterior, entonces

    \begin{align*}A^2&=(P^{-1}DP)(P^{-1}DP)\\&=P^{-1}DDP\\&=P^{-1}D^2P,\end{align*}

y de manera inductiva se puede probar que A^k=P^{-1}D^kP. Elevar la matriz D a la k-ésima potencia es sencillo, pues como es una matriz diagonal, su k-ésima potencia consiste simplemente en elevar cada una de las entradas en su diagonal a la k.

Problema. Sea A una matriz de n\times n simétrica y de entradas reales. Muestra que si A^k = O_n para algún entero positivo k, entonces A=O_n.

Sugerencia pre-solución. La discusión anterior te permite enunciar la hipótesis en términos de los eigenvalores de A. Modifica el problema a demostrar que todos ellos son cero.

Solución. Como A es simétrica y de entradas reales, entonces sus eigenvalores \lambda_1,\ldots, \lambda_n son reales y es diagonalizable. Digamos que su diagonalización es P^{-1} D P. Tenemos que

    \[O_n = A^k = P^{-1} D^k P.\]

Multiplicando por la matriz P a la izquierda, y la matriz P^{-1} a la derecha, tenemos que D^k=O_n. Las entradas de D^k son \lambda_1^k,\ldots,\lambda_n^k, y la igualdad anterior muestra que todos estos números son iguales a cero. De este modo,

    \[\lambda_1=\ldots=\lambda_n=0.\]

Concluimos que D=O_n, y que por lo tanto A=P^{-1} O_n P = O_n.

\square

Veamos ahora un bello problema que motiva una fórmula para los números de Fibonacci desde la teoría del álgebra lineal.

Problema. Toma la matriz

    \[A=\begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix}.\]

Calcula las primeras potencias de A a mano. Conjetura y muestra cómo es A^n en términos de la sucesión de Fibonacci. A partir de esto, encuentra una fórmula para el n-ésimo término de la sucesión de Fibonacci.

Sugerencia pre-solución. Para empezar, haz las primeras potencias y busca un patrón. Luego, para la demostración de esa parte, procede por inducción. Hay varias formas de escribir a la sucesión de Fibonacci, usa una notación que sea cómoda.

Solución. Al calcular las primeras potencias de la matriz A obtenemos:

    \begin{align*}A&=\begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix},\\A^2&=\begin{pmatrix} 1 & 1 \\ 1 & 2 \end{pmatrix},\\A^3&=\begin{pmatrix} 1 & 2 \\  2& 3 \end{pmatrix},\\A^4&=\begin{pmatrix} 2 & 3 \\ 3 & 5 \end{pmatrix},\\A^5&=\begin{pmatrix} 3 & 5 \\ 5 & 8 \end{pmatrix}.\end{align*}

Al parecer, en las entradas de A van apareciendo los números de Fibonacci. Seamos más concretos. Definimos F_0=0, F_1=1 y para n\geq 0 definimos

    \[F_{n+2}=F_{n}+F_{n+1}.\]

La conjetura es que para todo entero n\geq 1, se tiene que

    \[A^n=\begin{pmatrix} F_{n-1} & F_n \\ F_n & F_{n+1}\end{pmatrix}.\]

Esto se puede probar por inducción. Arriba ya hicimos el caso n=1. Supongamos la conjetura cierta hasta un entero n dado, y consideremos la matriz A^{n+1}. Tenemos haciendo el producto de matrices, usando la hipótesis inductiva y la recursión de Fibonacci, que

    \begin{align*}A^{n+1}&=AA^n\\& =\begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix} \begin{pmatrix} F_{n-1} & F_n \\ F_n & F_{n+1} \end{pmatrix}\\&= \begin{pmatrix} F_n & F_{n+1} \\ F_{n-1} + F_n & F_n + F_{n+1} \end{pmatrix}\\&=\begin{pmatrix} F_n & F_{n+1} \\ F_{n+1} & F_{n+2} \end{pmatrix}.\end{align*}

Esto termina el argumento inductivo y prueba la conjetura.

Para encontrar una fórmula para los Fibonaccis, lo que haremos ahora es usar el teorema espectral. Esto lo podemos hacer pues la matriz A es de entradas reales y simétrica. Para encontrar la matriz diagonal de la factorización, necesitamos a los eigenvalores de A. Su polinomio característico es

    \[\begin{vmatrix} \lambda & -1 \\ - 1 & \lambda -1 \end{vmatrix}=\lambda^2-\lambda -1.\]

Usando la fórmula cuadrática, las raíces de este polinomio (y por tanto, los eigenvalores de A) son

    \[\frac{1\pm \sqrt{5}}{2}.\]

Por el momento, para simplificar la notación, llamemos \alpha a la de signo más y \beta a la raíz de signo menos. Por el teorema espectral, existe una matriz invertible P de 2\times 2 tal que

    \[A=P^{-1}\begin{pmatrix} \alpha & 0 \\ 0 & \beta \end{pmatrix} P.\]

De esta forma,

    \[A^n =  P^{-1}\begin{pmatrix} \alpha^n & 0 \\ 0 & \beta^n \end{pmatrix} P.\]

Aquí no es tan importante determinar concretamente P ni realizar las cuentas, sino darnos cuenta de que tras realizarlas cada entrada será una combinación lineal de \alpha^n y \beta^n y de que los coeficientes de esta combinación lineal ya no dependen de n, sino sólo de las entradas de P. En particular, la entrada superior derecha de A^n por un lado es F_n, y por otro lado es r\alpha^n + s\beta ^n.

¿Cómo obtenemos los valores de \alpha y \beta? Basta substituir n=1 y n=2 para obtener un sistema de ecuaciones en \alpha y \beta. Aquí abajo usamos que como \alpha y \beta son raíces de x^2-x-1, entonces \alpha^2=\alpha+1, \beta^2=\beta+1 y \alpha+\beta = 1.

    \[\begin{cases}1= F_1 = r \alpha + s \beta \\1= F_2 = r \alpha^2 + s \beta^2 = r + s + 1.\end{cases}\]

De aquí, obtenemos la solución

    \begin{align*}r&=\frac{1}{\alpha-\beta} = \frac{1}{\sqrt{5}}\\s&=-r = -\frac{1}{\sqrt{5}}.\end{align*}

Finalmente, todo este trabajo se resume a que una fórmula para los números de Fibonacci es

    \[F_n=\frac{\left(\frac{1+\sqrt{5}}{2}\right)^n - \left(\frac{1-\sqrt{5}}{2}\right)^n}{\sqrt{5}}.\]

\square

Matrices positivas y positivas definidas

Por definición, una matriz simétrica A de n\times n con entradas reales es positiva si para cualquier vector (columna) v en \mathbb{R}^n se tiene que

    \[^t v A v \geq 0.\]

Aquí ^tv es la transposición de v, es decir, el mismo vector, pero como vector fila.

Si además la igualdad se da sólo para el vector v=0, entonces decimos que A es positiva definida. Un ejemplo sencillo de matriz positiva es la matriz A=\begin{pmatrix} 1 & -1 \\ -1 & 1\end{pmatrix}, pues para cualquier vector v=(x,y) se tiene que

    \[^t v A v = x^2-2xy+y^2=(x-y)^2\geq 0.\]

Sin embargo, esta matriz no es positiva definida pues la expresión anterior se anula en vectores no cero como (1,1). Como puedes verificar, un ejemplo de matriz positiva definida es

    \[B=\begin{pmatrix} 3 & 0 \\ 0 & 4 \end{pmatrix}.\]

Las matrices reales que son positivas definidas son importantes pues caracterizan todos los productos interiores en \mathbb{R}^n. Una vez que se tiene un producto interior en un espacio vectorial de dimensión finita, se pueden aprovechar muchas de sus propiedades o consecuencias, por ejemplo, la desigualdad de Cauchy-Schwarz o la existencia de bases ortogonales para hacer descomposiciones de Fourier.

Para cuando se quieren resolver problemas, es muy útil conocer varias equivalencias de que una matriz sea positiva.

Equivalencias para matrices positivas

El siguiente resultado enuncia algunas de las equivalencias para que una matriz sea positiva

Teorema. Sea A una matriz simétrica. Entonces todas las siguientes afirmaciones son equivalentes:

  1. A es positiva.
  2. Todos los eigenvalores de A son no negativos.
  3. A=B^2 para alguna matriz simétrica B en M_n(\mathbb{R}).
  4. A= {^tC} C para alguna matriz C en M_n(\mathbb{R}).

Hay un resultado análogo para cuando se quiere determinar si una matriz A es positiva definida. En ese caso, los eigenvalores tienen que ser todos positivos. Para los puntos 3 y 4 se necesita además que B y C sean invertibles.

Problema. Sea A una matriz de n\times n con entradas reales, simétrica y positiva. Muestra que si

    \[\text{tr}(A) = n \sqrt[n]{\det(A)},\]

entonces A conmuta con cualquier matriz de n\times n.

Sugerencia pre-solución. Necesitarás usar que matrices similares tienen la misma traza y el mismo determinante, o una versión particular para este problema.

Solución. Las siguientes son propiedades de la traza y el determinante:

  • El determinante de una matriz diagonal es el producto de las entradas en su diagonal.
  • Si tenemos dos matrices similares, entonces tienen la misma traza.

En particular, las hipótesis implican, por el teorema espectral, que A se puede diagonalizar con matrices A=P^{-1} D P, donde D es la matriz diagonal que tiene en su diagonal principal a los eigenvalores \lambda_1,\ldots,\lambda_n de A, y P^{-1} es una matriz invertible. Como A y D son similares, se tiene que

    \begin{align*}\text{tr}(A)=\text{tr}(D)=\lambda_1+\ldots+\lambda_n\\\det(A)=\det(D)=\lambda_1\cdot\ldots\cdot\lambda_n.\end{align*}

Como A es positiva, entonces todos sus eigenvalores son no negativos, así que satisfacen la desigualdad MA-MG:

    \[\frac{\lambda_1+\ldots+\lambda_n}{n} \geq \sqrt[n]{\lambda_1\cdot\ldots\cdot\lambda_n}.\]

Por la última hipótesis del problema, esta desigualdad es de hecho una igualdad. Pero la igualdad en MA-MG se alcanza si y sólo si todos los números son iguales entre sí. Tenemos entonces que todos los eigenvalores son iguales a un cierto valor \lambda, y entonces D=\lambda I_n. Como cualquier múltiplo escalar de la matriz identidad conmuta con cualquier matriz de n\times n, tendríamos entonces que

    \begin{align*}A&=P^{-1}D P \\&=P^{-1}(\lambda I_n) P\\&=(\lambda I_n) (P^{-1}P)\\&=\lambda I_n.\end{align*}

Con esto probamos que A es de hecho un múltiplo de la matriz identidad, y por lo tanto conmuta con cualquier matriz de n\times n.

\square

Más problemas

Puedes encontrar más problemas del teorema espectral, de formas y matrices positivas en la Sección 10.2 y la Sección 10.8 del libro Essential Linear Algebra de Titu Andreescu.

Seminario de Resolución de Problemas: Desigualdad de Cauchy-Schwarz

Introducción

Seguimos con las entradas de temas de desigualdades. Con anterioridad ya hablamos de desigualdades básicas y de desigualdades con medias. En esta ocasión estudiaremos una desigualdad muy versátil: la desigualdad de Cauchy-Schwarz.

En su versión más simple, lo que dice la desigualdad de Cauchy-Schwarz es lo siguiente.

Desigualdad (de Cauchy-Schwarz). Para cualesquiera números reales a_1,\ldots,a_n y b_1,\ldots,b_n se tiene que

    \[|a_1b_1+\ldots+a_nb_n| \leq \sqrt{a_1^2+\ldots+a_n^2} \sqrt{b_1^2+\ldots+b_n^2}.\]

Primero, veremos cómo se demuestra esta desigualdad. Luego, veremos varios problemas en los que se puede aplicar. Finalmente, hablaremos un poco de sus extensiones a espacios vectoriales.

La demostración polinomial de la desigualdad de Cauchy-Schwarz

Una forma de demostrar la desigualdad de Cauchy-Schwarz es usando inducción sobre n. Hay otra demostración usando polinomios. Veamos esa demostración, pues tiene la idea útil de usar argumentos polinomiales para demostrar igualdades.

Consideremos la expresión

    \[p(t)=\sum_{i=1}^n (a_i+b_i t)^2.\]

Como es una suma de cuadrados, esta expresión es no negativa. Haciendo los cuadrados, y desarrollando la suma, podemos escribirla de la siguiente forma, que nos dice que es un polinomio cuadrático en t:

    \begin{align*}\sum_{i=1}^n (a_i+b_i t)^2&=\sum_{i=1}^n \left(a_i^2 + 2a_ib_i t + b_i^2 t^2\right)\\&=\sum_{i=1}^n a_i^2 + \left(2\sum_{i=1}^n a_ib_i \right)t + \left(\sum_{i=1}^n b_i^2\right)t^2.\end{align*}

De esta forma p(t) es un polinomio cuadrático y siempre toma valores no negativos. Así, a lo más puede tener una raíz t, por lo que su discriminante es menor o igual a 0:

    \[\left(2\sum_{i=1}^n a_ib_i \right)^2-4\left(\sum_{i=1}^n a_i^2\right)\left(\sum_{i=1}^n b_i^2\right)\leq 0\]

Al pasar el segundo término sumando al otro lado y dividir entre 4 queda

    \[\left(\sum_{i=1}^n a_ib_i \right)^2\leq \left(\sum_{i=1}^n a_i^2\right)\left(\sum_{i=1}^n b_i^2\right).\]

Al sacar raíz cuadrada de ambos lados hay que tener cuidado de poner un valor absoluto al lado izquierdo. Al hacer esto, se obtiene el resultado deseado:

    \[\left|\sum_{i=1}^n a_ib_i \right|\leq \sqrt{\sum_{i=1}^n a_i^2}\cdot \sqrt{\sum_{i=1}^n b_i^2}.\]

Observa que la igualdad se da si y sólo si el discriminante es 0, lo cual sucede si y sólo si el polinomio tiene una raíz t. Cuando esto pasa, cada uno de los sumandos al cuadrado de p(t) debe ser 0. Así, existe un real t tal que a_i=-tb_i para todo i=1,\ldots,n. Esto lo podemos decir en términos vectoriales como que «la igualdad se da si y sólo si el vector (a_1,\ldots,a_n) es un múltiplo escalar del vector (b_1,\ldots,b_n) » .

Un problema sobre acotar el valor de una variable

Problema. Sean a,b,c,d números reales tales que

    \begin{align*}a+b+c+d&=6\\a^2+b^2+c^2+d^2&=12.\end{align*}


¿Cuál es el máximo valor que puede tener d?

Sugerencia. Aplica la desigualdad de Cauchy-Schwarz a las ternas (a,b,c) y (1,1,1).

Solución. Aplicando la desigualdad a las ternas (a,b,c) y (1,1,1) obtenemos que

    \[|a+b+c|\leq \sqrt{a^2+b^2+c^2}\cdot{\sqrt{3}}.\]

Usando las hipótesis sobre a,b,c,d, tenemos que esta desigualdad es equivalente a |6-d|\leq \sqrt{3}\cdot {\sqrt{12-d^2}. Elevando al cuadrado de ambos lados, obtenemos las desigualdades equivalentes

    \begin{align*}36-12d+d^2&\leq 3(12-d^2)\\36-12d+d^2&\leq 36-3d^2\\4d^2-12d&\leq 0\\4d(d-3)\&leq 0.\end{align*}

Para que se satisfaga esta desigualdad, tiene que pasar o bien que simultáneamente d\leq 0 y d\geq 3 (lo cual es imposible), o bien que simultáneamente d\geq 0 y d\leq 3. En conclusión, esto acota el máximo valor posible de d con 3.

En efecto, existe una solución con d=3. De acuerdo al caso de igualdad de la desigualdad de Cauchy-Schwarz, debe pasar cuando (a,b,c) es un múltiplo escalar de (1,1,1), es decir, cuando a=b=c. Como a+b+c+d=6 y queremos d=3, esto forza a que a=b=c=1. Y en efecto, tenemos que con esta elección

    \[a^2+b^2+c^2+d^2=1+1+1+9=12.\]

\square

Aplicando Cauchy-Schwarz en un problema con el circunradio

A veces podemos aprovechar información implícita en un problema geométrico y combinarla con la desigualdad de Cauchy-Schwarz. Veamos un problema en el que sucede esto.

Problema. Sea P un punto en el interior del triángulo ABC y p,q,r las distancias de P a los lados BC, CA, AB respectivamente, que tienen longitudes a,b,c, respectivamente. Sea R el circunradio de ABC. Muestra que

    \[\sqrt{p}+\sqrt{q}+\sqrt{r} \leq \sqrt{\frac{a^2+b^2+c^2}{2R}}.\]

Sugerencia pre-solución. Necesitarás aplicar la desigualdad de Cauchy-Schwarz más de una vez. Haz una figura para entender la expresión ap+bq+cr. Necesitarás también la fórmula que dice que se puede calcular el área T de un triángulo mediante la fórmula

    \[T=\frac{abc}{R}.\]

Solución. Lo primero que haremos es aplicar la desigualdad de Cauchy-Schwarz en las ternas (\sqrt{ap},\sqrt{bq},\sqrt{cr}) y (1/\sqrt{a},1/\sqrt{b},1/\sqrt{c}) para obtener

    \[\sqrt{p}+\sqrt{q}+\sqrt{r}\leq \sqrt{ap+bq+cr}\cdot\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}.\]

Observa que ap es dos veces el área de \triangle BCP. De manera similar, tenemos que bq y cr son las áreas de \triangle CAP y \triangle ABP respectivamente. Así, si llamamos T al área de \triangle ABC tenemos que ap+bq+cr=2T. Otra expresión para el área de \triangle ABC en términos de su circunradio R es

    \[T=\frac{abc}{4R}.\]

En otras palabras, ap+bq+cr=\frac{abc}{2R}.

Esto nos permite continuar con la desigualdad como sigue:

    \begin{align*}\sqrt{p}+\sqrt{q}+\sqrt{r} &\leq \sqrt{\frac{abc}{2R}}\cdot\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}}\\&=\sqrt{\frac{abc}{2R}}\cdot\sqrt{\frac{ab+bc+ca}{abc}}\\&=\sqrt{\frac{ab+bc+ca}{2R}}.\end{align*}

Esto es casi la desigualdad que queremos. Para terminar, basta mostrar que

    \[ab+bc+ca\leq a^2+b^2+c^2.\]

Esto se puede hacer de varias formas (intenta hacerlo usando la desigualdad MA-MG). Pero para continuar viendo la versatilidad de la desigualdad de Cauchy-Schwarz, observa que se puede deducir de ella aplicándola a las ternas (a,b,c) y (b,c,a).

\square

En el problema anterior, ¿para qué puntos P se alcanza la igualdad?

Cauchy-Schwarz más allá de los números reales

Lo que está detrás de la desiguadad de Cauchy-Schwarz es en realidad la noción de producto interior en álgebra lineal. En cualquier espacio vectorial sobre los reales que tenga un producto interior \langle \cdot, \cdot \rangle se satisface una desigualdad del tipo de la de Cauchy-Schwarz. No entraremos en los detalles de la teoría que se necesita desarrollar, pues eso se estudia en un curso de álgebra lineal. Sin embargo, enunciaremos el teorema y veremos una forma de aplicarlo.

Teorema (desigualdad de Cauchy-Schwarz). Si V es un espacio vectorial con producto interior \langle \cdot, \cdot \rangle entonces para cualesquiera dos vectores u y v se satisface que

    \[|\langle u , v\rangle|\leq \sqrt{\langle u , u\rangle}\cdot \sqrt{\langle v , v\rangle}.\]

Se puede mostrar que bajo las hipótesis del teorema la función \norm{u}:=\langle u , u\rangle es una norma. Como platicamos con anterioridad, una norma satisface la desigualdad del triángulo, que en espacios vectoriales tiene un nombre especial.

Teorema (desigualdad de Minkowski). Si V es un espacio vectorial con producto interior \langle \cdot, \cdot \rangle y \norm{u}:=\langle u , u\rangle, entonces para cualesquiera dos vectores u y v se satisface que

    \[\norm{u}+\norm{v}\geq \norm{u+v}.\]

Es relativamente sencillo ver que las desigualdades de Cauchy-Schwarz y de Minkowski son «equivalentes», en el sentido de que se puede mostrar una fácilmente suponiendo la otra y viceversa.

La desigualdad de Cauchy-Schwarz que usamos en las secciones anteriores es para el producto interior en \mathbb{R}^n dado por

    \[\langle (a_1,\ldots,a_n),(b_1,\ldots,b_n) \rangle = a_1b_1+\ldots + a_nb_n,\]

al cual le llamamos el producto punto.

Si tenemos a V el espacio vectorial de las funciones continuas reales en el intervalo [0,1], entonces

    \[\langle f,g\rangle = \int_0^1 f(x)g(x) \, dx\]

es un producto interior para V. Esto nos puede ayudar a resolver algunos problemas.

Problema. Sea f:[0,1]\to \mathbb{R}^+ una función continua. Muestra que

    \[\left ( \int_0^1 f(x)\, dx \right) \left (\int_0^1 \frac{1}{f(x)}\, dt \right) \geq 1.\]

Sugerencia pre-solución. Aplica la desigualdad de Cauchy-Schwarz con el producto interior que discutimos antes de esta entrada.

Solución. Tomemos el producto interior

    \[\langle f,g\rangle = \int_0^1 f(x)g(x) \, dx\]

en el espacio vectorial de funciones reales y continuas en [0,1]. Como la imagen de f está en los reales positivos, podemos definir la función h:[0,1]\to \mathbb{R}^+ dada por h(x)=\sqrt{f(x)}.

Tenemos que

    \begin{align*}\left \langle h, \frac{1}{h}\right \rangle &= \int_0^1 h(x)\cdot \frac{1}{h(x)}\, dx\\&=\int_0^1 1\, dx\\&=1.\end{align*}

Por otro lado,

    \begin{align*}\langle h, h \rangle &= \int_0^1 h(x)\cdot h(x)\, dx\\&=\int_0^1 f(x)\, dx.\end{align*}

y

    \begin{align*}\left\langle \frac{1}{h}, \frac{1}{h} \right\rangle&= \int_0^1 \frac{1}{h(x)}\cdot \frac{1}{h(x)}\, dx\\&=\int_0^1 \frac{1}{f(x)}\, dx\end{align*}

La conclusión se sigue entonces de manera inmediata de la desigualdad de Cauchy-Schwarz para \langle \cdot, \cdot \rangle.

\square

Más problemas

Puedes encontrar más problemas que usan la desigualdad de Cauchy-Schwarz en la sección 7.1 del libro Problem Solving through Problems de Loren Larson. También puedes consultar más técnicas y problemas en el libro Desigualdades de la Olimpiada Mexicana de Matemáticas.

Álgebra Lineal I: Problemas de bases ortogonales, Fourier y proceso de Gram-Schmidt

Introducción

Durante las últimas clases hemos visto problemas y teoremas que nos demuestran que las bases ortogonales son extremadamente útiles en la práctica, ya que podemos calcular fácilmente varias propiedades una vez que tengamos a nuestra disposición una base ortogonal del espacio que nos interesa. Veamos más problemas de bases ortogonales y otros resultados que nos permitirán reforzar estas ideas.

Problemas de bases ortogonales y proyecciones

Para continuar con este tema, veremos que las bases ortogonales nos permiten encontrar de manera sencilla la proyección de un vector sobre un subespacio. Primero, recordemos que si V=W\oplus W_2, para todo v\in V podemos definir su proyección en W, que denotamos \pi_W(v), como el único elemento en W tal que v-\pi_W(v) \in W_2.

Debido a las discusiones sobre bases ortogonales, no es difícil ver que si \langle w,u \rangle =0 para todo w\in W, entonces u\in W_2. Como consecuencia de esto, tenemos el siguiente resultado:

Teorema. Sea V un espacio vectorial sobre \mathbb{R} con producto interior \langle \cdot , \cdot \rangle, y sea W un subespacio de V de dimensión finita. Sea v_1,\cdots,v_n una base ortogonal de W. Entonces para todo v\in V tenemos que

\pi_W(v)=\sum_{i=1}^n \frac{\langle v,v_i \rangle}{\norm{v_i}^2} v_i .

Demostración. Escribimos v como v=\pi_W(v)+u con u\in W_2. Por la observación previa al teorema, \langle u,v_i \rangle =0 para todo i. Además existen a_1,\cdots,a_n tales que \pi_W(v)=a_1 v_1+\cdots+a_n v_n. Entonces

    \begin{align*}0 &= \langle u,v_i \rangle =\langle v,v_i \rangle - \langle \pi_W(v),v_i \rangle \\&= \langle v,v_i \rangle - \sum_{j=1}^n a_j \langle v_j,v_i \rangle \\&= \langle v,v_i \rangle - a_i \langle v_i,v_i \rangle, \end{align*}

porque v_1,\cdots,v_n es una base ortogonal. Por lo tanto, para todo i, obtenemos

a_i=\frac{\langle v,v_i \rangle}{\norm{v_i}^2}.

\square

Distancia de un vector a un subespacio y desigualdad de Bessel

En la clase de ayer, vimos la definición de distancia entre dos vectores. También se puede definir la distancia entre un vector y un subconjunto como la distancia entre el vector y el vector «más cercano» del subconjunto, en símbolos:

d(v,W)=\min_{x\in W} \norm{x-v}.

Dado que x\in W, x-\pi_W(v) \in W, y por definición de proyección v-\pi_W(v) \in W_2, entonces

    \begin{align*}\norm{x-v}^2 &=\norm{(x-\pi_W(v))+(\pi_W(v)-v)}^2 \\&= \norm{x-\pi_W(v)}^2+2\langle x-\pi_W(v),\pi_W(v)-v \rangle+\norm{\pi_W(v)-v}^2 \\&= \norm{x-\pi_W(v)}^2+\norm{\pi_W(v)-v}^2\\&\geq \norm{\pi_W(v)-v}^2. \end{align*}

Y dado que la proyección pertenece a W, la desigualdad anterior muestra que la proyección es precisamente el vector en W con el que v alcanza la distancia a W. En conclusión,

    \[d(v,W)=\norm{\pi_W(v)-v}.\]

Teorema. Sea V un espacio vectorial sobre \mathbb{R} con producto interior \langle \cdot , \cdot \rangle, y sea W un subespacio de V de dimensión finita. Sea v_1,\ldots,v_n una base ortonormal de W. Entonces para todo v\in V tenemos que

\pi_W(v)=\sum_{i=1}^n \langle v,v_i \rangle v_i,

y

    \begin{align*}d(v,W)^2&=\norm{v-\sum_{i=1}^n \langle v,v_i \rangle v_i }^2\\&=\norm{v}^2-\sum_{i=1}^n \langle v,v_i \rangle^2.\end{align*}

En particular

\sum_{i=1}^n \langle v,v_i \rangle^2\leq \norm{v}^2.

A esta última desigualdad se le conoce como desigualdad de Bessel.

Demostración. Por el teorema anterior y dado que v_1,\cdots,v_n es una base ortonormal, obtenemos la primera ecuación. Ahora, por Pitágoras,

d(v,W)^2=\norm{v-\pi_W(v)}^2=\norm{v}^2-\norm{\pi_W(v)}^2.

Por otro lado, tenemos que

    \begin{align*}\norm{\pi_W(v)}^2 &=\norm{\sum_{i=1}^n \langle v,v_i \rangle v_i}^2 \\&= \sum_{i,j=1}^n \langle \langle v,v_i \rangle v_i, \langle v,v_j \rangle v_j \rangle \\&= \sum_{i,j=1}^n \langle v,v_i \rangle \langle v,v_j \rangle \langle v_i,v_j \rangle \\&=\sum_{i=1}^n \langle v,v_i \rangle^2. \end{align*}

Por lo tanto, se cumple la igualdad de la distancia. Finalmente como d(v,W)^2 \geq 0, inmediatamente tenemos la desigualdad de Bessel.

\square

Veamos ahora dos problemas más en los que usamos la teoría de bases ortonormales.

Aplicación del proceso de Gram-Schmidt

Primero, veremos un ejemplo más del uso del proceso de Gram-Schmidt.

Problema. Consideremos V como el espacio vectorial de polinomios en [0,1] de grado a lo más 2, con producto interior definido por

    \[\langle p,q \rangle =\int_0^1 xp(x)q(x) dx.\]

Aplica el algoritmo de Gram-Schmidt a los vectores 1,x,x^2.

Solución. Es fácil ver que ese sí es un producto interior en V (tarea moral). Nombremos v_1=1, v_2=x, v_3=x^2. Entonces

    \[e_1=\frac{v_1}{\norm{v_1}}=\sqrt{2}v_1=\sqrt{2},\]

ya que

    \[\norm{v_1}^2=\int_0^1 x \, dx=\frac{1}{2}.\]

Sea z_2=v_2-\langle v_2,e_1 \rangle e_1. Calculando,

    \[\langle v_2,e_1 \rangle=\int_0^1 \sqrt{2}x^2 dx=\frac{\sqrt{2}}{3}.\]

Entonces z_2=x-\frac{\sqrt{2}}{3}\sqrt{2}=x-\frac{2}{3}. Esto implica que

e_2=\frac{z_2}{\norm{z_2}}=6\left(x-\frac{2}{3}\right)=6x-4.

Finalmente, sea z_3=v_3-\langle v_3,e_1\rangle e_1 -\langle v_3,e_2 \rangle e_2. Haciendo los cálculos obtenemos que

z_3=x^2-\left(\frac{\sqrt{2}}{4}\right)\sqrt{2}-\left(\frac{1}{5}\right)(6x-4)

z_3=x^2-\frac{6}{5}x+\frac{3}{10}.

Por lo tanto

e_3=\frac{z_3}{\norm{z_3}}=10\sqrt{6}(x^2-\frac{6}{5}x+\frac{3}{10}).

\square

El teorema de Plancherel y una fórmula con \pi

Finalmente, en este ejemplo, usaremos técnicas de la descomposición de Fourier para solucionar un problema bonito de series.

Problema. Consideremos la función 2\pi-periódica f:\mathbb{R}\rightarrow \mathbb{R} definida como f(0)=f(\pi)=0, f(x)=-1-\frac{x}{\pi} en el intervalo (-\pi,0), y f(x)=1-\frac{x}{\pi} en el intervalo (0,\pi).

Problemas de bases ortogonales: Aplicando el teorema de Plancherel para una fórmula que involucra a pi.
Gráfica de la función f.

Usa el teorema de Plancherel para deducir las identidades de Euler

    \begin{align*}\sum_{n=1}^\infty \frac{1}{n^2} &= \frac{\pi^2}{6},\\\sum_{n=0}^\infty \frac{1}{(2n+1)^2} & = \frac{\pi^2}{8}.\end{align*}

Solución. Notemos que no sólo es 2\pi-periódica, también es una función impar, es decir, f(-x)=-f(x). Por lo visto en la clase del miércoles pasado tenemos que calcular

a_0(f)=\frac{1}{\pi} \int_{-\pi}^{\pi} f(x) dx,

a_k(f)=\frac{1}{\pi} \int_{-\pi}^{\pi} f(x) cos(kx) dx,

b_k(f)=\frac{1}{\pi} \int_{-\pi}^{\pi} f(x)sen(kx) dx.

Para no hacer más larga esta entrada, la obtención de los coeficientes de Fourier se los dejaremos como un buen ejercicio de cálculo. Para hacer las integrales hay que separar la integral en cada uno de los intervalos [-\pi,0] y [0,\pi] y en cada uno de ellos usar integración por partes.

El resultado es que para todo k\geq 1,

    \[a_0=0, a_k=0, b_k=\frac{2}{k\pi}.\]

Entonces por el teorema de Plancherel,

    \begin{align*}\sum_{k=1}^\infty \frac{4}{k^2\pi^2} &=\frac{1}{\pi} \int_{-\pi}^{\pi} f^2(x) dx \\&= \frac{1}{\pi} \left( \int_{-\pi}^0 \left(1+\frac{x}{\pi}\right)^2 dx + \int_0^\pi \left(1-\frac{x}{\pi}\right)^2 dx \right) \\&= \frac{2}{3}, \end{align*}

teniendo que

    \[\sum_{k=1}^\infty \frac{1}{k^2} =\frac{2}{3}\frac{\pi^2}{4}=\frac{\pi^2}{6}.\]

Ahora para obtener la otra identidad de Euler, notemos que

    \begin{align*}\sum_{n=0}^\infty \frac{1}{(2n+1)^2} &= \sum_{n=1}^\infty \frac{1}{n^2} - \sum_{n=1}^\infty \frac{1}{(2n)^2} \\&= \frac{\pi^2}{6}-\frac{\pi^2}{4\cdot6}= \frac{\pi^2}{8}. \end{align*}

\square

Álgebra Lineal I: Proceso de Gram-Schmidt

Introducción

Durante esta semana hemos introducido el concepto de bases ortogonales y ortonormales, así como algunas propiedades especiales. Para poder aplicar los resultados que hemos visto, es necesario insistir en que las bases sean de este tipo (ortonormales). Ahora veremos cómo encontrar bases ortonormales usando algo llamado el proceso de Gram-Schmidt.

Recordando todos los problemas anteriores de este curso, decíamos que una base es un conjunto de vectores linealmente independientes y que el número de vectores coincide con la dimensión del espacio. Pero hasta este momento no nos interesó determinar si las bases eran ortonormales o no. Si nos pusiéramos a ver si lo eran, es probable que muy pocas lo sean. Entonces surgen dos preguntas, ¿será difícil encontrar una base ortonormal de un espacio vectorial? y ¿habrá alguna manera de construir una base ortonormal?

Proceso de Gram-Schmidt

La respuesta a la primera pregunta es «no, no es difícil», y justo la respuesta de la segunda pregunta es la justificación. Dada una base cualquiera del espacio vectorial, podemos construir una base ortonormal de ese mismo espacio gracias al siguiente teorema.

Teorema (Gram-Schmidt). Sean v_1,v_2,\cdots,v_d vectores linealmente independientes en un espacio vectorial V sobre \mathbb{R} (no necesariamente de dimensión finita), con producto interior \langle \cdot , \cdot \rangle. Entonces existe una única familia de vectores ortonormales e_1,e_2,\ldots,e_d en V con la propiedad de que para todo k=1,2,\ldots,d, tenemos que

    \begin{align*}\text{span}(e_1,e_2,\cdots,e_k)&=\text{span}(v_1,v_2,\cdots,v_k), \quad \text{y} \quad\\\langle e_k,v_k \rangle&>0.\end{align*}

Demostración. Lo haremos por inducción sobre d, la cantidad de vectores con la que empezamos.

La base inductiva es cuando d=1. Tomamos un vector e_1\in \text{span}(v_1), entonces podemos escribirlo como e_1=\lambda v_1 para cierta \lambda. Si queremos que 0<\langle e_1,v_1 \rangle=\lambda\norm{v_1}^2, entonces \lambda>0. Además queremos que e_1 tenga norma igual a 1, entonces

    \[1=\norm{e_1}^2=\langle e_1,e_1 \rangle=\lambda^2\norm{v_i}^2,\]

lo cual es posible si \lambda=\frac{1}{\norm{v_1}}. Como e_1 es un múltiplo escalar de v_1, se tiene que \text{span}(e_1)=\text{span}(v_1). Además, la construcción forzó a que e_1=\frac{1}{\norm{v_1}} v_1 sea el único vector que satisface las condiciones del teorema.

Hagamos ahora el paso inductivo. Tomemos un entero d\geq 2, y supongamos que el teorema es cierto para d-1. Sean v_1,v_2,\cdots,v_d vectores en V linelmente independientes. Por hipótesis, sabemos que existe una única familia de vectores ortonormales e_1,\cdots,e_{d-1} que satisfacen las condiciones del teorema respecto a la familia v_1,\cdots,v_{d-1}. Es suficiente con probar que existe un único vector e_d tal que e_1,\cdots,e_d satisface el teorema con respecto a v_1,\cdots,v_d, esto es

    \begin{align*}\norm{e_d}&=1,\\\langle e_d,e_i \rangle&=0 \quad \forall 1\leq i\leq d-1,\\\langle e_d, v_d \rangle &> 0,\end{align*}

y

\text{span}(e_1,\cdots,e_d)=\text{span}(v_1,\cdots,v_d),

ya que, por hipótesis, los casos de k<d se cumplen.

La idea para construir e_d es tomarlo de \text{span}(v_1,\cdots,v_d), expresarlo como combinación lineal de estos y encontrar condiciones necesarias y suficientes sobre los coeficientes de e_d para que satisfaga las conclusiones del teorema. Hagamos esto.

Sea e_d un vector tal que e_d\in\text{span}(v_1,\cdots,v_d). Por ser linealmente independientes y por hipótesis

    \[\text{span}(v_1,\cdots,v_d)=\text{span}(e_1,\cdots,e_{d-1})+\text{span}(v_d),\]

entonces podemos escribir e_d como

e_d=\lambda v_d +\sum_{i=1}^{d-1} a_i e_i

para algunos \lambda,a_1,\cdots,a_{d-1}. Si resulta que \lambda\neq 0, esto también implicará que \text{span}(e_1,\cdots,e_d)=\text{span}(v_1,\cdots,v_d).

Ahora, dado que e_d debe formar una familia ortonormal con el resto de los vectores, para todo j=1,\cdots,d-1, tenemos que


    \begin{align*}0&=\langle e_d,e_j \rangle\\&=\lambda\langle v_d,e_j\rangle + \sum_{i=1}^{d-1} a_i\langle e_i,e_j \rangle\\&=\lambda\langle v_d,e_j \rangle +a_j,\end{align*}

entonces a_j=-\lambda\langle v_d,e_j \rangle. Si logramos mostrar que hay un único \lambda con el que se pueda satisfacer la conclusión del teorema, el argumento anterior muestra que también hay únicos a_1,\ldots,a_{d-1} y por lo tanto que hay un único vector e_d que satisface el teorema.

Sustituyendo los coeficientes anteriores, obtenemos que

e_d=\lambda\left(v_d-\sum_{i=1}^{d-1} \langle v_d,e_i\rangle e_i \right).

Notemos que si z:=v_d-\sum_{i=1}^{d-1} \langle v_d,e_i\rangle e_i es cero, v_d estaría en

    \[\text{span}(e_1,\cdots,e_{d-1}) = \text{span}(v_1,\cdots,v_{d-1}),\]

contradiciendo que los vectores v_i‘s son linealmente independientes, entonces z\neq 0.

Ahora como queremos que 1=\norm{e_d}=|\lambda| \norm{z}, esto implica que |\lambda|=\frac{1}{\norm{z}}.

Como además queremos que \langle e_d,v_d \rangle >0 y

\langle e_d,v_d\rangle =\left\langle e_d,\frac{e_d}{\lambda}+\sum_{i=1}^{d-1} \langle v_d,e_i\rangle e_i \right\rangle=\frac{1}{\lambda},

se deduce que \lambda es único y está determinado por \lambda=\frac{1}{\norm{z}}. Por lo tanto existe (y es único) el vector e_d que satisface el teorema.

\square

Este proceso de construcción es mejor conocido como el proceso de Gram-Schmidt. La demostración da a la vez un algoritmo que nos permite encontrar bases ortogonales. Veremos ejemplos de esto en la siguiente sección. Antes de eso, enunciaremos formalmente una de las conclusiones más importantes del teorema anterior.

Recuerda que un espacio Euclideano es un espacio vectorial de dimensión finita sobre \mathbb{R} y con un producto interior. Podemos aplicar el proceso de Gram-Schmidt a cualquier base v_1,\ldots,v_d de un espacio Euclideano V y al final obtendremos una familia e_1,\ldots,e_d de vectores ortonormales. Como sabemos que las familias de vectores ortonormales son linealmente independientes, y tenemos d vectores, concluimos que e_1,\ldots,e_d es una base ortonormal. En resumen, tenemos el siguiente resultado.

Corolario. Todo espacio Euclideano tiene una base ortonormal.

Ejemplos de aplicación del proceso de Gram-Schmidt

A continuación veremos algunos ejemplos que nos ayuden a clarificar más este algoritmo.

Ejemplo 1. Sean v_1,v_2,v_3 vectores en \mathbb{R}^3 (con el producto interior estándar) definidos por

v_1=(1, 1, 0), \quad v_2=( 1, 1, 1), \quad v_3=( 1, 0, 1).

Es fácil ver que estos vectores son linealmente independientes. Entonces construyamos según el proceso de Gram-Schmidt la familia ortonormal de vectores e_1,e_2,e_3. Tenemos que

e_1=\frac{v_1}{\norm{v_1}}=\frac{v_1}{\sqrt{2}}=\left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}},0\right).

Ahora, tomando z_2=v_2-\langle v_2,e_1\rangle e_1, tenemos que e_2 está definido como \frac{z_2}{\norm{z_2}}, entonces

    \begin{align*}z_2&=(1,1,1)-\left[(1,1,1)\cdot \left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}},0\right)\right]\left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}},0\right) \\&=(1,1,1)-\left[\frac{2}{\sqrt{2}}\right]\left(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}},0\right) \\&=(1,1,1)-(2/2,2/2,0)\\&=(1,1,1)-(1,1,0)=(0,0,1).\end{align*}

Esto implica que e_2=\frac{1}{1}(0,0,1)=(0,0,1). Finalmente tomando z_3=v_3-\langle v_3,e_1 \rangle e_1 - \langle v_3,e_2 \rangle e_2, sabemos que e_3=\frac{z_3}{\norm{z_3}}. Entonces

    \begin{align*}z_3&=v_3-\langle v_3,e_1 \rangle e_1 - \langle v_3,e_2 \rangle e_2 \\&=(1,0,1)-\left(\frac{1}{2},\frac{1}{2},0\right)-(0,0,1) \\&=\left(\frac{1}{2},-\frac{1}{2},0\right).\end{align*}

Por lo tanto

e_3=\frac{1}{\sqrt{1/2}}\left(\frac{1}{2}, -\frac{1}{2},0\right)=\left(\frac{1}{\sqrt{2}},\frac{-1}{\sqrt{2}},0\right).

\square

Ejemplo 2. Sea V el espacio de polinomios en [0,1] con coeficientes reales de grado a lo más 2, con el producto interior

\langle p,q \rangle =\int_0^1 p(x)q(x) dx.

Sean v_1=1, v_2=1+x, v_3=1+x^2 vectores en V que claramente son linealmente independientes. Encontraremos los vectores que nos da el proceso de Gram-Schmidt.

Primero calculemos

\norm{v_1}^2=\int_0^1 1 dx= 1,

entonces e_1=\frac{v_1}{\norm{v_1}}=v_1=1. Ahora calculemos z_2:

    \begin{align*}z_2&=v_2-\langle v_2,e_1 \rangle e_1 \\&=1+x- \int_0^1 (1+x)dx=1+x-\left(1+\frac{1}{2}\right) \\&=x-\frac{1}{2}.\end{align*}

Haciendo la integral

    \[\int_0^1 \left(x-\frac{1}{2}\right)^2 dx\]

se obtiene que \norm{z_2}=\sqrt{\frac{1}{12}}, entonces e_2=\sqrt{12}\left(x-\frac{1}{2}\right).

Por último, hay que calcular z_3 así como su norma. Primero,

    \begin{align*} z_3&=v_3-\langle v_3,e_1 \rangle e_1 - \langle v_3,e_2 \rangle e_2 \\ &=(1+x^2)-\int_0^1 (1+x^2)dx - 12\left(x-\frac{1}{2}\right)\int_0^1 (1+x^2)\left(x-\frac{1}{2}\right)dx \\ &=1+x^2-\left(1+\frac{1}{3}\right)-12\left(x-\frac{1}{2}\right)\left(\frac{1}{12}\right) \\&=x^2-\frac{1}{3}-x+\frac{1}{2} \\&=x^2-x+\frac{1}{6},\end{align*}

y luego, con la integral

    \[\int_0^1 \left(x^2-x+\frac{1}{6}\right)^2 dx\]

se calcula que \norm{z_3}=\frac{1}{6\sqrt{5}}, por lo tanto e_3=6\sqrt{5}\left(x^2-x+\frac{1}{6}\right).

\square

Aunque no es un proceso muy eficiente, nos garantiza que podemos encontrar una base ortonormal para cualquier espacio vectorial (con producto interior). Ya con una base ortonormal, podemos usar la descomposición de Fourier de la cual hablamos la entrada anterior y con ella todas las consecuencias que tiene.

Si quieres ver muchos más ejemplos del proceso en \mathbb{R}^n, puedes usar una herramienta en línea que te permite ver el proceso paso a paso en el conjunto de vectores que tu elijas. Una posible página es el Gram-Schmid Calculator de eMathHelp.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Verifica que con el valor \lambda que se encontró en la demostración del teorema de Gram-Schmidt en efecto se obtiene un vector e_d que satisface todas las conclusiones que se desean.
  • Revisa que los vectores que se obtuvieron en los ejemplos de aplicación del proceso de Gram-Schmidt en efecto son bases ortogonales de los espacios correspondientes.
  • Aplica el proceso de Gram-Schmidt a los polinomios 1, x, x^2 en el espacio Euclideano de los polinomios reales de grado a lo más dos y producto interior

        \[\langle p, q \rangle = p(0)q(0)+p(1)q(1)+p(2)q(2).\]

  • Aplica el proceso de Gram-Schmidt a los vectores

        \begin{align*}(1,1,1,1)\\ (0,1,1,1)\\ (0,0,1,1)\\ (0,0,0,1)\end{align*}

    de \mathbb{R}^4 con el producto interior canónico (el producto punto).
  • Usa el Gram-Schmidt Calculator de eMathHelp para ver paso a paso cómo se aplica el proceso de Gram-Schmidt a los vectores

        \begin{align*}(1,2,1,1,-1)\\ (0,0,1,0,0)\\ (2,0,0,1,1)\\ (0,2,0,0,1)\\ (-3,0,0,1,0)\end{align*}

    de \mathbb{R}^5.

Álgebra Lineal I: Aplicaciones de bases ortogonales y descomposición de Fourier

Introducción

En esta entrada continuamos hablando de bases ortogonales. Como recordatorio, para poder hablar de esto, necesitamos un espacio vectorial sobre \mathbb{R} equipado con un producto interior, y por lo tanto podemos hablar de normas. Una base ortogonal de V es una base en la cual cada par de vectores tiene producto interior 0. Es ortonormal si además cada elemento es de norma 1. Ahora veremos que dada una base ortonormal, podemos hacer una descomposición de Fourier de los vectores de V, que nos permite conocer varias de sus propiedades fácilmente.

La teoría que discutiremos está basada en el contenido de la Sección 10.5 del libro Essential Lineal Algebra with Applications de Titu Andreescu. Las últimas dos secciones de esta entrada son un poco abstractas, pero son la puerta a ideas matemáticas interesantes con muchas aplicaciones dentro de la matemática misma y en el mundo real.

Descomposición de Fourier

Es fácil conocer las coordenadas de un vector en términos de una base ortonormal.

Teorema. Si V es un espacio Euclideano de dimensión n con producto interior \langle\cdot, \cdot\rangle y B=\{e_1,\ldots,e_n\} es una base ortonormal con este producto interior, entonces para cualquier vector v, la coordenada de v con respecto a e_i es \langle v, e_i \rangle.

Demostración. Expresemos a v en la base B como

    \[v=\alpha_1e_1+\ldots+\alpha_n e_n.\]

Tomemos j en 1,2,\ldots,n. Usando la linealidad del producto interior, tenemos que

    \begin{align*}\langle v, e_j \rangle &= \left \langle \sum_{i=1}^n \alpha_i e_i, e_j \right \rangle\\&=\sum_{i=1}^n \alpha_i \langle e_i,e_j \rangle.\end{align*}

Como B es base ortonormal, tenemos que en el lado derecho \langle e_j,e_j\rangle = 1 y que si i\neq j entonces \langle e_i, e_j\rangle=0. De esta forma, el lado derecho de la expresión es \alpha_j, de donde concluimos que

    \[\langle v, e_j \rangle = \alpha_j,\]

como queríamos.

\square

Definición. Si V es un espacio Euclideano de dimensión n con producto interior \langle\cdot, \cdot\rangle y B=\{e_1,\ldots,e_n\} es una base ortonormal, a

    \[v=\sum_{i=1}^n \langle v, e_i \rangle e_i\]

le llamamos la descomposición de Fourier de v con respecto a B.

Ejemplo. Trabajemos en el espacio vectorial V=\mathbb{R}_2[x] de polinomios reales de grado a lo más 2. Ya mostramos anteriormente (con más generalidad) que

    \[\langle p,q \rangle = p(-1)q(-1)+p(0)q(0)+p(1)q(1)\]

es un producto interior en V.

Los polinomios \frac{1}{\sqrt{3}}, \frac{x}{\sqrt{2}} y \frac{3x^2-2}{\sqrt{6}} forman una base ortonormal, lo cual se puede verificar haciendo las operaciones y queda de tarea moral. ¿Cómo expresaríamos a la base canónica \{1,x,x^2\} en términos de esta base ortonormal? Los primeros dos son sencillos:

(1)   \begin{align*}1&=\sqrt{3}\cdot \frac{1}{\sqrt{3}}\\x&=\sqrt{2}\cdot \frac{x}{\sqrt{2}}. \end{align*}

Para encontrar el tercero, usamos el teorema de descomposición de Fourier. Para ello, calculamos los siguientes productos interiores:

    \begin{align*}\left\langle x^2, \frac{1}{\sqrt{3}}\right\rangle &= \frac{2}{\sqrt{3}},\\\left \langle x^2, \frac{x}{\sqrt{2}}\right\rangle &=0,\\\left\langle x^2, \frac{3x^2-2}{\sqrt{6}} \right\rangle &=\frac{2}{\sqrt{6}}.\end{align*}

De este modo,

    \[x^2= \frac{2}{\sqrt{3}} \cdot \frac{1}{\sqrt{3}} + \frac{2}{\sqrt{6}}\cdot \frac{3x^2-2}{\sqrt{6}}.\]

\square

Norma usando la descomposición de Fourier

Cuando tenemos bases ortogonales u ortonormales, también podemos calcular la norma de un vector fácilmente.

Teorema. Si V es un espacio Euclideano de dimensión n con producto interior \langle\cdot, \cdot\rangle y B=\{e_1,\ldots,e_n\} es una base ortogonal con este producto interior, entonces para cualquier vector

    \[v=\alpha_1e_1+\ldots+\alpha_ne_n,\]

tenemos que

    \[\norm{v}^2 = \sum_{i=1}^n \alpha_i^2 \norm{e_i}^2.\]

En particular, si B es una base ortonormal, entonces

    \[\norm{v}^2 = \sum_{i=1}^n \langle v, e_i \rangle^2.\]

Demostración. Usando la definición de norma y la bilinealidad del producto interior, tenemos que

    \begin{align*}\norm{v}^2 &= \langle v,v \rangle\\&=\sum_{i=1}^n \sum_{j=1}^n \alpha_i \alpha_j \langle e_i, e_j\rangle.\end{align*}

Como B es base ortogonal, los únicos sumandos que quedan a la derecha son aquellos en los que i=j, es decir,

    \begin{align*}\norm{v}^2&=\sum_{i=1}^n \alpha_i^2 \langle e_i, e_i\rangle\\&=\sum_{i=1}^n \alpha_i^2 \norm{e_i}^2\\\end{align*}

como queríamos mostrar.

Si B es base ortonormal, cada \norm{e_i}^2 es 1, y por el teorema anterior, \alpha_i=\langle v, e_i\rangle. Esto prueba la última afirmación.

\square

Ejemplo. Continuando con el ejemplo anterior, como ya escribimos a x^2 en términos de la base ortogonal, podemos encontrar fácilmente su norma. Tendríamos que

    \begin{align*}\norm{x^2}^2&=\left(\frac{2}{\sqrt{3}}\right)^2+\left(\frac{2}{\sqrt{6}}\right)^2\\&=\frac{4}{3}+\frac{4}{6}\\&=2.\end{align*}

De esta forma, \norm{x^2}=\sqrt{2}. En efecto, esto es lo que obtendríamos si hubiéramos calculado la norma de x^2 con la definición.

\square

Aplicación de descomposición de Fourier a polinomios

Vamos a continuar con un ejemplo que vimos en la entrada anterior. Recordemos que estábamos trabajando en V=\mathbb{R}_n[x], que habíamos elegido n+1 reales distintos x_0,\ldots,x_n, y que a partir de ellos definimos

    \[\langle P, Q\rangle = \sum_{i=0}^n P(x_i)Q(x_i).\]

Mostramos que \langle \cdot , \cdot \rangle es un producto interior y que para j=0,\ldots,n los polinomios

    \[L_i=\prod_{0\leq j \leq n, j\neq i} \frac{x-x_j}{x_i-x_j}\]

forman una base ortonormal de V.

Por el teorema de descomposición de Fourier, tenemos que cualquier polinomio P de grado a lo más n+1 con coeficientes reales satisface que

    \[P=\sum_{i=0}^n \langle P, L_i \rangle L_i,\]

lo cual en otras palabras podemos escribir como sigue.

Teorema (de interpolación de Lagrange). Para P un polinomio con coeficientes en los reales de grado a lo más n y x_0,x_1,\ldots,x_n reales distintos, tenemos que

    \[P(x)=\sum_{i=0}^n P(x_i) \left(\prod_{0\leq j \leq n, j\neq i} \frac{x-x_j}{x_i-x_j}\right).\]

El teorema de interpolación de Lagrange nos permite decir cuánto vale un polinomio de grado n en cualquier real x conociendo sus valores en n+1 reales distintos. Ya habíamos mostrado este teorema antes con teoría de dualidad. Esta es una demostración alternativa con teoría de bases ortogonales y descomposición de Fourier.

Aplicación de ideas de Fourier en funciones periódicas

También ya habíamos visto que

    \[\langle f,g \rangle = \int_{-\pi}^\pi f(x)g(x)\, dx\]

define un producto interior en el espacio vectorial V de funciones f:\mathbb{R}\to \mathbb{R} continuas y periódicas de periodo 2\pi.

En ese ejemplo, definimos

    \begin{align*}C_n(x)&=\frac{\cos(nx)}{\sqrt{\pi}}\\S_n(x)&=\frac{\sin(nx)}{\sqrt{\pi}}.\end{align*}

y C_0(x)=\frac{1}{\sqrt{2\pi}}, y mostramos que

    \[\mathcal{F}:=\{C_n:n\geq 0\}\cup \{S_n:n\geq 1\}\]

era un conjunto ortonormal.

No se puede mostrar que \mathcal{F} sea una base ortonormal, pues el espacio V es de dimensión infinita, y es bastante más complicado que los espacios de dimensión finita. Sin embargo, la teoría de Fourier se dedica a ver que, por ejemplo, la familia \mathcal{F} es buena aproximando a elementos de V, es decir a funciones continuas y periódicas de periodo 2\pi. No profundizaremos mucho en esto, pero daremos algunos resultados como invitación al área.

Para empezar, restringimos a la familia \mathcal{F} a una familia más pequeña:

    \[\mathcal{F}_n:=\{C_m:0\leq m \leq n\}\cup \{S_m:1\leq m \leq n\}\]

Motivados en la descomposición de Fourier para espacios Euclideanos, definimos a la n-ésima serie parcial de Fourier de una función f en V a la expresión

    \[S_n(f)=\sum_{g\in \mathcal{F}_n} \langle f, g \rangle g.\]

Haciendo las cuentas, se puede mostrar que

    \[S_n(f)=\frac{a_0(f)}{2}+\sum_{k=1}^n \left(a_k(f)\cos(kx)+b_k(f)\sin(kx)\right),\]

en donde para k\geq 1 tenemos

    \[a_k=\frac{1}{\pi}\int_{-\pi}^\pi f(x)\cos(kx)\, dx\]

y

    \[b_k=\frac{1}{\pi}\int_{-\pi}^\pi f(x)\sin(kx)\, dx.\]

A los números a_k y b_k se les conoce como los k-ésimos coeficientes de Fourier. Aunque \mathcal{F} no sea una base para V, sí es buena «aproximando» a elementos de V. Por ejemplo, un resultado lindo de Dirichlet dice que si f y su derivada son continuas, entonces

    \[\lim_{n\to \infty} S_n(f)(x) = f(x).\]

Este tipo de teoremas de aproximación se estudian con más a detalle en un curso de análisis matemático avanzado o de análisis de Fourier.

Considera ahora W_n el subespacio de V generado por \mathcal{F}_n. Tomemos una función f cualquiera en V. La n-ésima serie de Fourier de f es un elemento de W_n. De hecho, es precisamente la proyección de f en W_n. Por esta razón,

    \[\norm{f_n}^2\leq \norm{f}^2<\infty\]

Podemos calcular la norma de f_n, usando el resultado para espacios Euclideanos en el espacio (de dimensión finita) W_n. Haciendo esto, podemos reescribir la desigualdad anterior como sigue:

    \[\frac{a_0(f)^2}{2}+\sum_{k=1}^n(a_k(f)^2+b_k(f)^2)\leq \frac{1}{\pi} \norm{f}^2.\]

El lado derecho es constante, y en el lado izquierdo tenemos una suma parcial de la serie

    \[\sum_{k\geq 1}(a_k(f)^2+b_k(f)^2).\]

Los términos son positivos y la sucesión de sumas parciales es acotada, así que la serie converge. Entonces, necesariamente la sucesión de términos debe converger a cero. Acabamos de esbozar la demostración del siguiente teorema.

Teorema (de Riemann-Lebesgue). Sea f una función continua y de periodo 2\pi. Si a_n(f) y b_n(f) son los coeficientes de Fourier de f, entonces

    \[\lim_{n\to \infty} a_n(f) = \lim_{n\to \infty} b_n(f) = 0.\]

De hecho, se puede mostrar que la desigualdad que mostramos se convierte en igualdad cuando n\to \infty. Este es un resultado bello, profundo y cuya demostración queda fuera del alcance de estas notas.

Teorema (de Plancherel). Sea f una función continua y de periodo 2\pi. Si a_n(f) y b_n(f) son los coeficientes de Fourier de f, entonces

    \[\frac{a_0(f)^2}{2}+\sum_{k=1}^\infty(a_k(f)^2+b_k(f)^2)= \frac{1}{\pi} \int_{-\pi}^\pi f(x)^2\, dx.\]

Aunque no daremos la demostración de este resultado, en una entrada posterior veremos cómo podemos aplicarlo.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Verifica que los tres polinomios del ejemplo de descomposición de Fourier en efecto forman una base ortogonal.
  • Calcula la norma de x^2 con el producto interior del ejemplo de descomposición de Fourier usando la definición, y verifica que en efecto es \sqrt{2}.
  • Con la misma base ortonormal B de ese ejemplo, calcula las coordenadas y la norma del polinomio 1+x+x^2.
  • Verifica que todo lo que mencionamos se cumple con el producto punto en \mathbb{R}^n y con la base canónica.