Archivo de la etiqueta: integral

Cálculo Diferencial e Integral III: Puntos críticos de campos escalares

Por Alejandro Antonio Estrada Franco

Introducción

En las unidades anteriores hemos desarrollado varias herramientas de la teoría de diferenciabilidad que nos permiten estudiar tanto a los campos escalares, como a los campos vectoriales. Hemos platicado un poco de las aplicaciones que esta teoría puede tener. En esta última unidad, profundizamos un poco más en cómo dichas herramientas nos permitirán hacer un análisis geométrico y cuantitativo de las funciones. Es decir, a partir de ciertas propiedades analíticas, hallaremos algunas cualidades de su comportamiento geométrico. En esta entrada estudiaremos una pregunta muy natural: ¿cuándo una función diferenciable alcanza su máximo o su mínimo? Para ello, necesitaremos definir qué quiere decir que algo sea un punto crítico de una función. Esto incluirá a los puntos más altos, los más bajos, local y globalmente y ciertos «puntos de quiebre» que llamamos puntos silla.

Introducción al estudio de los puntos críticos

Si tenemos un campo escalar $f:\mathbb{R}^n\to \mathbb{R}$, en muchas aplicaciones nos interesa poder decir cuándo alcanza sus valores máximos o mínimos. Y a veces eso sólo nos importa en una vecindad pequeña. La siguiente definición hace ciertas precisiones.

Definición. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ un campo escalar, y $\bar{a}\in S$.

  • Decimos que $f$ tiene un máximo absoluto (o máximo global) en $\bar{a}$ si $f(\bar{x})\leq f(\bar{a})$ para todo $\bar{x}\in S$. A $f(\bar{a})$ le llamamos el máximo absoluto (o máximo global) de $f$ en $S$.
  • Decimos que $f$ tiene un máximo relativo (o máximo local) en $\bar{a}$ si existe una bola abierta $B_{r}(\bar{a})$ tal que para todo $\bar{x}\in B_{r}(\bar{a})$ $f(\bar{x})\leq f(\bar{a})$.
  • Decimos que $f$ tiene un mínimo absoluto (o mínimo global) en $\bar{a}$ si $f(\bar{x})\geq f(\bar{a})$ para todo $\bar{x}\in S$. A $f(\bar{a})$ le llamamos el mínimo absoluto (o mínimo global) de $f$ en $S$.
  • Decimos que $f$ tiene un mínimo relativo (o mínimo local) en $\bar{a}$ si existe una bola abierta $B_{r}(\bar{a})$ tal que para todo $\bar{x}\in B_{r}(\bar{a})$ $f(\bar{x})\geq f(\bar{a})$.

En cualquiera de las situaciones anteriores, decimos que $f$ tiene un valor extremo (ya sea relativo o absoluto) en $\bar{a}$. Notemos que todo extremo absoluto en $S$ será extremo relativo al tomar una bola $B_{r}(\bar{a})$ que se quede contenida en $S$. Y de manera similar, todo extremo relativo se vuelve un extremo absoluto para la función restringida a la bola $B_{r}(\bar{a})$ que da la definición.

Usualmente, cuando no sabemos nada de una función $f$, puede ser muy difícil, si no imposible estudiar sus valores extremos. Sin embargo, la intuición que tenemos a partir de las funciones de una variable real es que deberíamos poder decir algo cuando la función que tenemos tiene cierta regularidad, por ejemplo, cuando es diferenciable. Por ejemplo, para funciones diferenciables $f:S\subseteq \mathbb{R}\to\mathbb{R}$ quizás recuerdes que si $f$ tiene un valor extremo en $\bar{a}\in S$, entonces $f'(\bar{a})=0$.

El siguiente teorema es el análogo en altas dimensiones de este resultado.

Teorema. Sea $f:S\subseteq \mathbb{R}^n\to \mathbb{R}$ un campo escalar. Supongamos que $f$ tiene un valor extremo en un punto interior $\bar{a}$ de $S$, y que $f$ es diferenciable en $\bar{a}$. Entonces el gradiente de $f$ se anula en $\bar{a}$, es decir, $$\triangledown f(\bar{a})=0.$$

Demostración. Demostraremos el resultado para cuando hay un máximo relativo en $\bar{a}$. El resto de los casos quedan como tarea moral. De la suposición, obtenemos que existe un $r>0$ tal que $f(\bar{x})\leq f(\bar{a})$ para todo $\bar{x}\in B_r(\bar{a})$. Escribamos $\bar{a}=(a_{1},\dots ,a_{n})$.

Para cada $i=1,\dots ,n$ tenemos:

\[ \frac{\partial f}{\partial x_{i}}(\bar{a})=\lim\limits_{\xi \to a_{i}}\frac{f(\xi \hat{e}_{i})-f(\bar{a})}{\xi -a_{i}}. \]

Además, ya que $f$ es diferenciable en $\bar{a}$ también se cumple

\[\lim\limits_{\xi \to a_{i}-}\frac{f(\xi e_{i})-f(a)}{\xi -a_{i}}=\lim\limits_{\xi \to a_{i}+}\frac{f(\xi e_i)-f(a)}{\xi -a_{i}}. \]

Dado que $f$ alcanza máximo en $\bar{a}$ tenemos que $f(\xi \hat{e}_{i})-f(\bar{a})\leq 0$. Para el límite por la izquierda tenemos $\xi-a_{i}\leq 0$, por lo tanto, en este caso

\[ \lim\limits_{\xi \to a_{i}-}\frac{f(\xi e_{i})-f(\bar{a})}{\xi -a_{i}}\geq 0.\]

Para el límite por la derecha tenemos $\xi-a_{i}\geq 0$, por lo cual

\[ \lim\limits_{\xi \to a_{i}+}\frac{f(\xi \hat{e}_{i})-f(\bar{a})}{\xi -a_{i}}\leq 0.\]

Pero la igualdad entre ambos límites dos dice entonces que

\[\frac{\partial f}{\partial x_{i}}(\bar{a}) =\lim\limits_{\xi \to a_{i}-}\frac{f(\xi \hat{e}_{i})-f(\bar{a})}{\xi -a_{i}}=0. \]

Por lo cual cada derivada parcial del campo vectorial es cero, y así el gradiente también lo es.

$\square$

Parece ser que es muy importante saber si para un campo vectorial su gradiente se anula, o no, en un punto. Por ello, introducimos dos nuevas definiciones.

Definición. Sea $f:S\subseteq \mathbb{R}^n \to \mathbb{R}$ un campo escalar diferenciable en un punto $\bar{a}$ en $S$. Diremos que $f$ tiene un punto estacionario en $\bar{a}$ si $\triangledown f(\bar{a})=0$.

Definición. Sea $f:S\subseteq \mathbb{R}^n \to \mathbb{R}$ un campo escalar y tomemos $\bar{a}$ en $S$. Diremos que $f$ tiene un punto crítico en $\bar{a}$ si o bien $f$ no es diferenciable en $\bar{a}$, o bien $f$ tiene un punto estacionario en $\bar{a}$.

Si $f$ tiene un valor extremo en $\bar{a}$ y no es diferenciable en $\bar{a}$, entonces tiene un punto crítico en $\bar{a}$. Si sí es diferenciable en $\bar{a}$ y $\bar{a}$ es un punto interior del dominio, por el teorema de arriba su gradiente se anula, así que tiene un punto estacionario y por lo tanto también un punto crítico en $\bar{a}$. La otra opción es que sea diferenciable en $\bar{a}$, pero que $\bar{a}$ no sea un punto interior del dominio.

Observación. Los valores extremos de $f$ se dan en los puntos críticos de $f$, o en puntos del dominio que no sean puntos interiores.

Esto nos da una receta para buscar valores extremos para un campo escalar. Los puntos candidatos a dar valores extremos son:

  1. Todos los puntos del dominio que no sean interiores.
  2. Aquellos puntos donde la función no sea diferenciable.
  3. Los puntos la función es diferenciable y el gradiente se anule.

Ya teniendo a estos candidatos, hay que tener cuidado, pues desafortunadamente no todos ellos serán puntos extremos. En la teoría que desarrollaremos a continuación, profundizaremos en el entendimiento de los puntos estacionarios y de los distintos comportamientos que las funciones de varias variables pueden tener.

Intuición geométrica

Para entender mejor qué quiere decir que el gradiente de un campo escalar se anuele, pensemos qué pasa en términos geomértricos en un caso particular, que podamos dibujar. Tomemos un campo escalar $f:\mathbb{R}^2\to \mathbb{R}$. La gráfica de la función $f$ es la superficie en $\mathbb{R}^{3}$ que se obtiene al variar los valores de $x,y$ en la expresión $(x,y,f(x,y))$.

Otra manera de pensar a esta gráfica es como un conjunto de nivel. Si definimos $F(x,y,z)=z-f(x,y)$, entonces la gráfica es precisamente el conjunto de nivel para $F$ en el valor $0$, pues precisamente $F(x,y,z)=0$ si y sólo si $z=f(x,y)$.

Si $f$ alcanza un extremo en $(a,b)$, entonces $\triangledown f(a,b)=0$ por lo cual $\triangledown F (a,b,f(a,b))=(0,0,1)$. Así, el gradiente es paralelo al eje $z$ y por lo tanto es un vector normal a la superficie $F(x,y,z)=0$. Esto lo podemos reinterpretar como que el plano tangente a la superficie citada en el punto $(a,b,f(a,b))$ es horizontal.

Puntos silla

Cuando la función es diferenciable y el gradiente se anula, en realida tenemos pocas situaciones que pueden ocurrir. Sin embargo, falta hablar de una de ellas. Vamos a introducirla mediante un ejemplo.

Ejemplo. Consideremos $f(x,y)=xy$. En este caso

$$\frac{\partial f}{\partial x}=y\hspace{0.5cm}\textup{y}\hspace{0.5cm}\frac{\partial f}{\partial y}=x.$$

Si $(x,y)=(0,0)$, entonces las parciales se anulan, así que el gradiente también. Por ello, $(0,0)$ es un punto estacionario (y por lo tanto también crítico). Pero veremos a continuación que $f(0,0)=0$ no es máximo relativo ni mínimo relativo.

Tomemos $r>0$ abitrario y $\varepsilon= r/\sqrt{8}$. El punto $(\varepsilon ,\varepsilon)\in B_{r}(0)$ pues $\sqrt{\varepsilon ^{2}+\varepsilon ^{2}}$ es igual a $\sqrt{r^{2}/8\hspace{0.1cm}+\hspace{0.1cm}r^{2}/8}=r/2<r$. Análogamente, tenemos que el punto $(\varepsilon,-\varepsilon)\in B_{r}(0)$. Sin embargo $f(\varepsilon,-\varepsilon)=-r^{2}/8<0$, por lo que $0$ no es un mínimo local, también $f(\varepsilon,\varepsilon)=r^{2}/8>0$, por lo que $0$ tampoco es máximo local. En la Figura 1 tenemos un bosquejo de esta gráfica.

Figura 1

$\triangle$

Los puntos como los de este ejemplo tienen un nombre especial que definimos a continuación.

Definición. Sea $f:S\subseteq \mathbb{R}^n\to\mathbb{R}$ un campo escalar y $\bar{a}$ un punto estacionario de $f$. Diremos que $\bar{a}$ es un punto silla si para todo $r>0$ existen $\bar{u},\bar{v}\in B_{r}(\bar{a})$ tales que $f(\bar{u})<f(\bar{a})$ y $f(\bar{v})>f(\bar{a})$.

Determinar la naturaleza de un punto estacionario

Cuando tenemos un punto estacionario $\bar{a}$ de una función $f:\mathbb{R}^n\to \mathbb{R}$, tenemos diferenciabilidad de $f$ en $\bar{a}$. Si tenemos que la función es de clase $C^2$ en ese punto, entonces tenemos todavía más. La intuición nos dice que probablemente podamos decir mucho mejor cómo se comporta $f$ cerca de $\bar{a}$ y con un poco de suerte entender si tiene algún valor extremo o punto silla ahí, y bajo qué circunstancias.

En efecto, podemos enunciar resultados de este estilo. Por la fórmula de Taylor tenemos que

$$f(\bar{a}+\bar{y})=f(\bar{a})+\triangledown f (\bar{a}) \cdot y + \frac{1}{2}[\bar{y}]^tH(\bar{a})[\bar{y}]+||\bar{y}||^{2}E_{2}(\bar{a},\bar{y}),$$

en donde el error $||\bar{y}||^{2}E_{2}(\bar{a},\bar{y})$ se va a cero conforme $||\bar{y}||\to 0$. Recuerda que aquí $H(\bar{a})$ es la matriz hessiana de $f$ en $\bar{a}$. Como $f:\mathbb{R}^n\to \mathbb{R}$, se tiene que $H(\bar{a})\in M_n(\mathbb{R})$.

Para un punto estacionario $\bar{a}$ se cumple que $\triangledown f(\bar{a})=0$, así que de lo anterior tenemos

\[ f(\bar{a}+\bar{y})-f(\bar{a})=\frac{1}{2}[\bar{y}]^tH(\bar{a})[\bar{y}]+||\bar{y}||^{2}E_{2}(\bar{a},\bar{y}).\]

De manera heurística, dado que $\lim\limits_{||\bar{y}||\to 0}||\bar{y}||^{2}E_{2}(\bar{a},\bar{y})=0$, estamos invitados a pensar que el signo de $f(\bar{a}+\bar{y})-f(\bar{a})$ es el mismo que el la expresión $[\bar{y}]^tH(\bar{a})[\bar{y}]$. Pero como hemos platicado anteriormente, esto es una forma cuadrática en la variable $\bar{y}$, y podemos saber si es siempre positiva, siempre negativa o una mezcla de ambas, estudiando a la matriz hessiana $H(\bar{a})$.

Esta matriz es simétrica y de entradas reales, así que por el teorema espectral es diagonalizable mediante una matriz ortogonal $P$. Tenemos entonces que $P^tAP$ es una matriz diagonal $D$. Sabemos también que las entradas de la diagonal de $D$ son los eigenvalores $\lambda_1,\ldots,\lambda_n$ de $A$ contados con la multiplicidad que aparecen en el polinomio característico.

Teorema. Sea $X$ una matriz simétrica en $M_n(\mathbb{R})$. Consideremos la forma bilineal $\mathfrak{B}(\bar{v})=[\bar{v}]^tX[\bar{v}]$. Se cumple:

  1. $\mathfrak{B}(\bar{v})>0$ para todo $\bar{v}\neq \bar{0}$ si y sólo si todos los eigenvalores de $X$ son positivos.
  2. $\mathfrak{B}(\bar{v})<0$ para todo $\bar{v}\neq \bar{0}$ si y sólo si todos los eigenvalores de $X$ son negativos.

Demostración. Veamos la demostración del inciso 1.

$\Rightarrow )$ Por la discusión anterior, existe una matriz ortogonal $P$ tal que $P^tXP$ es diagonal, con entradas $\lambda_1,\ldots,\lambda_n$ que son los eigenvalores de $X$. Así, en alguna base ortonormal $\beta$ tenemos $$\mathfrak{B}(\bar{v})=\sum_{i=1}^{n}\lambda _{i}a_{i}^{2}$$ donde $\bar{a}=(a_{1},\dots ,a_{n})$ es el vector $\bar{v}$ en la base $\beta$. Si todos los eigenvalores son positivos, claramente $\mathfrak{B}(\bar{v})>0$, para todo $\bar{v}\neq \bar{0}$.

$\Leftarrow )$ Si $\mathfrak{B}(\bar{v})>0$ para todo $\bar{v}\neq \bar{0}$ podemos elegir $\bar{v}$ como el vector $e_k$ de la base $\beta$. Para esta elección de $\bar{v}$ tenemos $\mathfrak{B}(\hat{e_{k}})=\lambda _{k}$, de modo que para toda $k$, $\lambda _{k}>0$.

El inciso $2$ es análogo y deja como tarea moral su demostración.

$\square$

A las formas cuadráticas que cumplen el primer inciso ya las habíamos llamado positivas definidas. A las que cumplen el segundo inciso las llamaremos negativas definidas.

Combinando las ideas anteriores, podemos formalmente enunciar el teorema que nos habla de cómo son los puntos estacionarios en términos de los eigenvalores de la matriz hessiana.

Teorema. Consideremos un campo escalar $f:S\subseteq \mathbb{R}^n\to \mathbb{R}$ de clase $C^2$ en un cierto punto interior $\bar{a}\in S$. Supongamos que $\bar{a}$ es un punto estacionario.

  1. Si todos los eigenvalores de $H(\bar{a})$ son positivos, $f$ tiene un mínimo relativo en $\bar{a}$.
  2. Si todos los eigenvalores de $H(\bar{a})$ son negativos, $f$ tiene un máximo relativo en $\bar{a}$.
  3. Si $H(\bar{a})$ tiene por lo menos un eigenvalor positivo, y por lo menos un eigenvalor negativo, $f$ tiene punto silla en $\bar{a}$.

Antes de continuar, verifica que los tres puntos anteriores no cubren todos los casos posibles para los eigenvalores. ¿Qué casos nos faltan?

Demostración: Definamos la forma bilineal $\mathfrak{B}(\bar{v})=[\bar{v}]^tH(\bar{a})[\bar{v}]$ y usemos el teorema de Taylor para escribir

\[ \begin{equation}\label{eq:taylor}f(\bar{a}+\bar{v})-f(\bar{a})=\frac{1}{2}\mathfrak{B}(\bar{v})+||\bar{v}||^{2}E(\bar{a},\bar{v}) \end{equation} \]

con

\[ \begin{equation}\label{eq:error}\lim\limits_{\bar{v}\to \bar{0}}E(\bar{a},\bar{v})=0. \end{equation} \]

En primer lugar haremos el caso para los eigenvalores positivos. Sean $\lambda _{1},\dots ,\lambda_{n}$ los eigenvalores de $H(\bar{a})$. Sea $\lambda _{*}=\min\{ \lambda _{1},\dots ,\lambda _{n}\}$. Si $\varepsilon <\lambda_{*}$, para cada $i=1,\dots , n$ tenemos $\lambda _{i}-\varepsilon>0$. Además, los números $\lambda _{i}-\varepsilon$ son los eigenvalores de la matriz $H(\bar{a})-\varepsilon I$, la cual es simétrica porque $H(\bar{a})$ lo es. De acuerdo con nuestro teorema anterior la forma cuadrática $[\bar{v}]^t(H(\bar{a})-\varepsilon I)[\bar{v}]$ es definida positiva, y por lo tanto

$$[\bar{v}]^tH(\bar{a})[\bar{v}]>[\bar{v}]^t\varepsilon I [\bar{v}] = \varepsilon ||\bar{v}||^2.$$

Esto funciona para todo $\varepsilon <\lambda _{*}$. Tomando $\varepsilon =\frac{1}{2}\lambda _{*}$ obtenemos $\mathfrak{B}(\bar{v})>\frac{1}{2}||\bar{v}||^2$ para todo $\bar{v}\neq \bar{0}$. Por el límite de \eqref{eq:error} tenemos que existe $r>0$ tal que $|E(\bar{a},\bar{v})|<\frac{1}{4}\lambda _{*}$ para $0<||\bar{v}||<r$. En este caso se cumple

\begin{align*}0&\leq ||\bar{v}||^{2}|E(\bar{a},\bar{v})|\\ &<\frac{1}{4}\lambda _{*}||\bar{v}||^{2}\\ &<\frac{1}{2}\mathfrak{B}(\bar{v}),\end{align*}

Luego por la ecuación \eqref{eq:taylor} tenemos
\begin{align*}
f(\bar{a}+\bar{v})-f(\bar{a})&=\frac{1}{2}\mathfrak{B}(\bar{v})+||\bar{v}||^{2}E(\bar{a},\bar{v})\\
&\geq \frac{1}{2}\mathfrak{B}(\bar{v})-||\bar{v}||^{2}|E(\bar{a},\bar{v})|\\
&>0.
\end{align*}

Esto muestra que $f$ tiene un mínimo relativo en $\bar{a}$ para la vecindad $B_{r}(\bar{a})$.

Para probar la parte $2$ se usa exactamente el mismo proceder sólo que hay que considerar la función $-f$, lo cual quedará hacer como tarea moral.

Revisemos pues la parte del punto silla, la parte $3$. Consideremos $\lambda _{1}$ y $\lambda _{2}$ dos eigenvalores de $H(\bar{a})$ tales que $\lambda _1 <0$ y $\lambda _2 >0$. Pongamos $\lambda _{*}=\min\{ |\lambda _{1}|,|\lambda _{2}|\}$. Notemos que para todo $\varepsilon \in (-\lambda _{*},\lambda _{*})$ se tiene que $\lambda _{1}-\varepsilon$ y $\lambda _{2}-\varepsilon$ son números de signos opuestos y además eigenvalores de la matriz $H(\bar{a})-\varepsilon I$. Tomando vectores en dirección de los eigenvectores $\bar{v}_1$ y $\bar{v}_2$ correspondientes a $\lambda_1$ y $\lambda_2$ notamos que $[\bar{v}](H(\bar{a})-\varepsilon I)[\bar{v}]^{t}$ toma valores positivos y negativos en toda vecindad de $\bar{0}$. Finalmente escojamos $r>0$ de tal manera que $|E(\bar{a},\bar{v})|<\frac{1}{4}\varepsilon$ cuando $0<||\bar{v}||<r$. Usando las mismas desigualdades del la parte $1$, vemos que para $\bar{v}$ en la dirección de $\bar{v}_1$ la diferencia $f(\bar{a}+\bar{v})-f(\bar{a})$ es negativa y para $\bar{v}$ en la dirección de $\bar{v}_2$ es positiva. Así, $f$ tiene un punto silla en $\bar{a}$.

$\square$

Hay algunas situaciones en las que el teorema anterior no puede ser usado. Por ejemplo, cuando los eigenvalores de $H(\bar{a})$ son todos iguales a cero. En dicho caso, el teorema no funciona y no nos dice nada de si tenemos máximo, mínimo o punto silla, y de hecho cualquiera de esas cosas puede pasar.

Ejemplos de análisis de puntos críticos

Ejemplo. Tomemos el campo escalar $f(x,y)=x^{2}+(y-1)^{2}$ y veamos cómo identificar y clasificar sus puntos estacionarios. Lo primero por hacer es encontrar el gradiente, que está dado por $$\triangledown f(x,y)=(2x,2(y-1)).$$ El gradiente se anula cuando $2x=0$ y $2(y-1)=0$, lo cual pasa si y sólo si $x=0$ y $y=1$. Esto dice que sólo hay un punto estacionario. Para determinar su naturaleza, encontraremos la matriz hessiana en este punto, así como los eigenvalores que tiene. La matriz hessiana es

\[ H(\bar{v})=\begin{pmatrix} \frac{\partial ^{2}f}{\partial x^{2}}(\bar{v}) & \frac{\partial ^{2}f}{\partial y \partial x}(\bar{v}) \\ \frac{\partial ^{2}f}{\partial x \partial y}(\bar{v}) & \frac{\partial ^{2}f}{\partial y^{2}}(\bar{v}) \end{pmatrix}=\begin{pmatrix} 2 & 0 \\ 0 & 2 \end{pmatrix}.\]

Notemos que la matriz hessiana ya está diagonalizada y es la misma para todo $\bar{v}$. En particular, en $(0,1)$ sus valores propios son $2$ y $2$, que son positivos. Así, la matriz hessiana es positiva definida y por lo tanto tenemos un mínimo local en el punto $(0,1)$. Esto lo confirma visualmente la gráfica de la Figura 2.

$\triangle$

Figura 2

Ejemplo. Veamos cómo identificar y clasificar los puntos estacionarios del campo escalar $f(x,y)=x^{3}+y^{3}-3xy.$ Localicemos primero los puntos estacionarios. Para ello calculemos el gradiente $\triangledown f(x,y)=(3x^{2}-3y,3y^{2}-3x)$. Esto nos dice que los puntos estacionarios cumplen el sistema de ecuaciones

\[\left\{ \begin{matrix} 3x^2-3y=0\\ 3y^2-3x=0.\end{matrix} \right.\]

Puedes verificar que las únicas soluciones están dadas son los puntos $(0,0)$ y $(1,1)$ (Sugerencia. Multiplica la segunda ecuación por $x$ y suma ambas). La matriz hessiana es la siguiente:

\[ H(x,y)=\begin{pmatrix} 6x & -3 \\ -3 & 6y \end{pmatrix}.\]

En $(x,y)=(0,0)$ la matriz hessiana es $\begin{pmatrix} 0 & -3 \\ -3 & 0 \end{pmatrix}$. Para encontar sus eigenvalores calculamos el polinomio característico

\begin{align*} \det(H(0,0)-\lambda I)&=\begin{vmatrix} -\lambda & -3 \\ -3 & -\lambda \end{vmatrix} \\ &= \lambda ^{2}-9.\end{align*}

Las raíces del polinomio característico (y por lo tanto los eigenvalores) son $\lambda _{1}=3$ y $\lambda _{2}=-3$. Ya que tenemos valores propios de signos distintos tenemos un punto silla en $(0,0)$.

Para $(x,y)=(1,1)$ la cuenta correspondiente de polinomio característico es

\begin{align*} \det(H(1,1)-\lambda I)&=\begin{vmatrix} 6-\lambda & -3 \\ -3 & 6-\lambda\end{vmatrix}\\ &=(6-\lambda )^{2}-9.\end{align*}

Tras manipulaciones algebraicas, las raíces son $\lambda _{1}=9$, $\lambda _{2}=3$. Como ambas son positivas, en $(1,1)$ tenemos un mínimo.

Puedes confirmar visualmente todo lo que encontramos en la gráfica de esta función, la cual está en la Figura 3.

$\triangle$

Figura 3

A continuación se muestra otro problema que se puede resolver con lo que hemos platicado. Imaginemos que queremos aproximar a la función $x^2$ mediante una función lineal $ax+b$. ¿Cuál es la mejor forma de elegir $a,b$ para que las funciones queden «cerquita» en el intervalo $[0,1]$? Esa cercanía se puede medir de muchas formas, pero una es pidiendo que una integral se haga chiquita.

Ejemplo. Determinemos qué valores de las constantes $a,b\in \mathbb{R}$ minimizan la siguiente integral

\[ \int_{0}^{1}[ax+b-x^2]^2 dx.\]

Trabajemos sobre la integral.

\begin{align*} \int_{0}^{1}[ax+b-x^{2}]^{2}dx&=\int_{0}^{1}(2abx+(a^{2}-2b)x^{2}-2ax^{3}+x^{4}+b^{2})dx\\ &=\int_{0}^{1}2abx\hspace{0.1cm}dx+\int_{0}^{1}(a^{2}-2b)x^{2}dx-\int_{0}^{1}2ax^{3}dx+\int_{0}^{1}x^{4}dx+\int_{0}^{1}b^{2}dx\\ &=b^{2}+\frac{1}{3}a^{2}+ab-\frac{2}{3}b-\frac{1}{2}a+\frac{1}{5}. \end{align*}

Es decir, tenemos

\[ \int_{0}^{1}[ax+b-x^{2}]^{2}dx=b^{2}+\frac{1}{3}a^{2}+ab-\frac{2}{3}b-\frac{1}{2}a+\frac{1}{5}.\]

Ahora definamos $f(a,b)=b^{2}+\frac{1}{3}a^{2}+ab-\frac{2}{3}b-\frac{1}{2}a+\frac{1}{5}$; basándonos en la forma general de la ecuación cuadrática de dos variables podemos comprobar rápidamente que $f$ nos dibuja una elipse en cada una de sus curvas de nivel. Continuando con nuestra misión, tenemos que $\triangledown f(a,b)=(\frac{2}{3}a+b-\frac{1}{2},2b+a-\frac{2}{3})$. Al resolver el sistema
\[\left\{\begin{matrix}\frac{2}{3}a+b-\frac{1}{2}=0\\2b+a-\frac{2}{3}=0,\end{matrix}\right.\]

hay una única solución $a=1$ y $b=-\frac{1}{6}$. Puedes verificar que la matriz hessiana es la siguiente en todo punto.

\[ H(\bar{v})=\begin{pmatrix} \frac{2}{3} & 1 \\ 1 & 2 \end{pmatrix}.\]

Para determinar si tenemos un mínimo, calculamos el polinomio característico como sigue

\begin{align*} \det(H(\bar{v})-\lambda I)&=\begin{vmatrix} \frac{2}{3}-\lambda & 1 \\ 1 & 2-\lambda \end{vmatrix}\\ &=\left( \frac{2}{3}-\lambda \right)\left( 2-\lambda\right)-1\\ &=\lambda ^{2}-\frac{8}{3}\lambda + \frac{1}{3}.\end{align*}

Esta expresión se anula para $\lambda _{1}=\frac{4+\sqrt{13}}{3}$ y $\lambda_{2}=\frac{4-\sqrt{13}}{3}$. Ambos son números positivos, por lo que en el único punto estacionario de $f$ tenemos un mínimo. Así el punto en el cual la integral se minimiza es $(a,b)=(1,-\frac{1}{6})$. Concluimos que la mejor función lineal $ax+b$ que aproxima a la función $x^2$ en el intervalo $[0,1]$ con la distancia inducida por la integral dada es la función $x-\frac{1}{6}$.

En la Figura 3 puedes ver un fragmento de la gráfica de la función $f(a,b)$ que nos interesa.

Figura 3. Gráfica de la función $f(a,b)$.

$\triangle$

Mas adelante…

La siguiente será nuestra última entrada del curso y nos permitirá resolver problemas de optimización en los que las variables que nos dan tengan ciertas restricciones. Esto debe recordarnos al teorema de la función implícita. En efecto, para demostrar los resultados de la siguiente entrada se necesitará este importante teorema, así que es recomendable que lo repases y recuerdes cómo se usa.

Tarea moral

  1. Identifica y clasifica los puntos estacionarios de los siguientes campos escalares:
    • $f(x,y)=(x-y+1)^{2}$
    • $f(x,y)=(x^{2}+y^{2})e^{-(x^{2}+y^{2})}$
    • $f(x,y)=\sin(x)\cos(x)$.
  2. Determina si hay constantes $a,b\in \mathbb{R}$ tales que el valor de la integral \[\int_{0}^{1}[ax+b-f(x)]^{2}dx \] sea mínima para $f(x)=(x^{2}+1)^{-1}$. Esto en cierto sentido nos dice «cuál es la mejor aproximación lineal para $\frac{1}{x^2+1}$».
  3. Este problema habla de lo que se conoce como el método de los mínimos cuadrados. Consideremos $n$ puntos $(x_{i},y_{i})$ en $\mathbb{R}^2$, todos distintos. En general es imposible hallar una recta que pase por todos y cada uno de estos puntos; es decir, hallar una función $f(x)=ax+b$ tal que $f(x_{i})=y_{i}$ para cada $i$. Sin embargo, sí es posible encontrar una función lineal $f(x)=ax+b$ que minimice el error cuadrático total que está dado por \[ E(a,b)=\sum_{i=1}^{n}[f(x_{i})-y_{i}]^{2}.\] Determina los valores de $a$ y $b$ para que esto ocurra. Sugerencia. Trabaja con el campo escalar $E(a,b)$ recuerda que los puntos $(x_{i},y_{i})$ son constantes.
  4. Completa la demostración de que si una matriz $X$ tiene puros eigenvalores negativos, entonces es negativa definida.
  5. En el teorema de clasificación de puntos estacionarios, muestra que en efecto si la matriz hessiana es negativa definida, entonces el punto estacionario es un punto en donde la función tiene máximo local.

Entradas relacionadas

Cálculo Diferencial e Integral II: Método de sustitución o cambio de variable

Por Miguel Ángel Rodríguez García

Introducción

En las unidades anteriores, se dieron las bases para la integración de funciones, así como, la integración de funciones con rigurosidad matemática. En esta unidad se estudiaran varias técnicas de integración para determinar integrales sin demasiada rigurosidad matemática y aunque no se estudiaran todas las técnicas de integración se verán las más relevantes.

Método de sustitución o cambio de variable

La integración por sustitución o cambio de variable, que como bien se menciona, es una técnica de integración que necesita uno o más cambios de variables adecuados en el integrando, de tal forma que la integral sea más sencilla de resolver. Comenzamos enunciando el teorema siguiente, la integración por sustitución.

Teorema: Método de sustitución

Sea $g$ una función derivable y con derivada continua, sea $f$ una función continua en un intervalo. Supón además que $F$ es una antiderivada de $f$ entonces:

$$\int_{a}^{b}f(g(x)) \cdot g'(x)dx=\int_{g(a)}^{g(b)}f(u)du= F(g(x)){\bigg|}_{ a }^{ b } $$

Demostración:

Por hipótesis, $F$ es primitiva de $f$, entonces por el segundo teorema fundamental del Cálculo [ Hipervinculo: Calculo II-Segundo Calculo fundamental del calculo] tenemos que:

$$\int_{g(a)}^{g(b)}f(u)du = F(g(b))-F(g(a)) \tag{1}$$

Por otro lado, dado que $f$ es continua, entonces tiene una antiderivada $F$, la función compuesta $f\circ g$ está definida, ya que $g$ es una función, como $g$ es diferenciable, tenemos que, por la regla de la cadena y la definición de antiderivada obtenemos que:

$$\frac { d }{ dx } (F(g(x))=F'(g(x))\cdot g'(x)=f(g(x))\cdot g'(x) \tag{2}$$

Integramos de $a$ hasta $b$, nos fijamos en el lado derecho e izquierdo de la ecuación $(2)$ como sigue:

$$\int_{a}^{b} \frac { d }{ dx } (F(g(x))dx=\int_{a}^{b} f(g(x)) \cdot g'(x) dx $$

Utilizamos nuevamente el teorema fundamental del Cálculo, obteniendo lo siguiente:

$$\int _{ a }^{ b }{ f(g(x)) \cdot g'(x)dx=F(g(b))-F(g(a)) } \tag{3}$$

Observamos las ecuaciones $(1)$ y $(3)$, vemos que se obtuvo la igualdad deseada, por lo que:

$$\int _{ a }^{ b }{ f(g(x)) \cdot g'(x)=F(g(b))-F(g(a)) } = \int_{g(a)}^{g(b)}f(u)du$$

$\square$

Puede quedar no muy claro el cómo utilizar este teorema, por lo que a continuación se ejemplificara con varios ejercicios el método de sustitución.

Ejemplos:

  • $\int { { ({ x }^{ 2 }+1) }^{ 2 }(2x)dx }$

Se hace un cambio de variable para resolver esta integral, cabe destacar que el símbolo para el cambio de variable puede ser cualquiera que guste, por ejemplo cualquier letra del alfabeto o incluso una carita feliz, en la literatura es común utilizar los símbolos de $u$ y $v$ para tales cambios de variable.

Para resolver esta integral, proponemos a $u = {x}^{2}+1$, por lo que, al derivar, se obtiene: $du = 2x dx$, así, al sustituir estas variables, el integrando queda de la siguiente forma:

$$\int u^{2}du$$

Vemos que al hacer el cambio de variable la integral es más sencilla, ya que sabemos que en general cualquier polinomio de grado $n$ se integra como:

$$\int { { x }^{ n }dx } =\frac { { x }^{ n+1 } }{ n } +C$$

Donde $C$ es la constante de integración, siguiendo con el ejercicio:

$$\int { { u }^{ 2 }du= \frac { { u }^{ 3 } }{ 3 } +C } $$

Volviendo a la variable original $x$, la resolución de la integral es:

$$\int { { ({ x }^{ 2 }+1) }^{ 2 }(2x)dx } = \frac { { ({ x }^{ 2 }+1) }^{ 3 } }{ 3 } +C $$

Obsérvese que este integral se puede resolver también multiplicando los factores y utilizar la linealidad de la integral, pero esto es un poco más laborioso. Así vemos que este método nos ayuda a resolver integrales fácilmente.

  • $\int { \frac { 2x-9 }{ \sqrt { { x }^{ 2 }-9x+1 } } } dx$

A simple vista esta integral puede ser complicada y necesitar de otros métodos, pero veamos que no es necesario.

Proponemos como cambio de variable: $u={ x }^{ 2 }-9x+1$, la derivada es: $du=(2x-9)dx$, por lo que la integral se reescribe como:

$$\int { \frac { du }{ \sqrt { u } } }=\int { { u }^{ -1/2 }du }$$

Esta integral se resuelve como:

$$\int { { u }^{ -1/2 }du }=\frac { { u }^{ -1/2+1 } }{ -\frac{1}{2}+1 } +C={ 2u }^{ 1/2 }+C$$

Volviendo a la variable original, el resultado es:

$$\int { \frac { 2x-9 }{ \sqrt { { x }^{ 2 }-9x+1 } } } dx=2\sqrt { { x }^{ 2 }-9x+1 } +C$$

  • $\int { \frac { x+1 }{ { x }^{ 2 }+2x } dx }$

Proponemos como cambio de variable: $u={x}^{2}+2x \Rightarrow du=(2x+2)dx=2(x+1)dx$

Vemos en el integrando que solo está el término $x+1$, por lo que en la relación de la diferencia de $u$, al ser una igualdad, pasamos el $2$ dividiendo como sigue:

$$\Rightarrow \frac { du }{ 2 } =\left(x+1 \right) dx$$

Por lo que reescribimos la integral y la resolvemos:

$$\int \frac { 1 }{ u } \frac{du}{2}=\frac { 1 }{ 2 } ln\left| u \right| +C$$

Volviendo a la variable original, se obtiene que la resolución de la integral es:

$$\int { \frac { x+1 }{ { x }^{ 2 }+2x } dx }=\frac { 1 }{ 2 } ln\left| { x }^{ 2 }+2x \right| +C $$

  • $\int _{ 1 }^{ 3 }{ \frac { { e }^{ 3/x } }{ { x }^{ 2 } } dx }$

Vemos en este caso que tenemos una integral definida. Proponemos como cambio de variable: $$u=\frac { 3 }{ x } \Rightarrow du=-3{ x }^{ -2 }dx$$

Al hacer un cambio de variable en las integrales con límites de integración, se tiene que cambiar los límites de integración como sigue: Si $x=1 \Rightarrow u=3$, si $x=3 \Rightarrow u=1$, así la integral se reescribe como:

$$\int _{ 3 }^{ 1 }{\left ( -\frac { 1 }{ 3 }\right ) { e }^{ u }du }$$

Resolviendo esta integral, sabemos que al cambiar los límites de integración se cambia el signo de la integral [ Hipervinculo: Calculo II-Tema que contiene el cambio de signo al cambiar los límites de integración], entonces tenemos que:

$$\int _{ 1 }^{ 3 }{ \frac { 1 }{ 3 } { e }^{ u }du}={ \left[ \frac { 1 }{ 3 } { e }^{ u }du \right] }{\bigg|}_{ 1 }^{ 3 }=\frac { 1 }{ 3 } \left( { e }^{ 3 }-{ e } \right)$$

Tarea moral

Los siguientes ejercicios no son para evaluación, pero son ejercicios para que practiques lo aprendido que te ayudaran en el desarrollo del entendimiento del tema, por lo que te invitamos a resolver los siguientes ejercicios propuestos relacionados con el tema visto.

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

Resuelve las siguientes integrales utilizando el método de sustitución:

  1. $$\int \sqrt { 2x+1 }dx$$
  2. $$\int 3{ x }^{ 2 }\sqrt { { x }^{ 3 }-2 } dx$$
  3. $$\int \frac { { x }^{ 2 }+x+1 }{ { x }^{ 2 }+1 } dx $$ Hint: Hacer la división de polinomios.
  4. $$\int _{ -2 }^{ 3 } x \cos { {( x }^{ 2 }+3)}dx$$
  5. $$\int _{ 0 }^{ \pi /4 } \sqrt { 1+\cos(4x)} dx$$ Hint: Utilizar la identidad ${ \cos }^{2 }(\theta) =\frac { 1+\cos { (2\theta) } }{ 2 }$ y utilizar un cambio de variable.

Más adelante…

Como se mencionó anteriormente, esta técnica de integración facilita resolver algunas integrales utilizando uno o más cambios de variables apropiados para poder resolver la integral como se vio en esta sección, pero en otros casos no se pueden resolver integrales solo utilizando el cambio de variable, en la siguiente sección veremos otro método de integración llamado integración por partes.

Entradas relacionadas

Álgebra Lineal I: Subespacios vectoriales

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la entrada anterior dimos la definición de espacio vectorial y vimos varios ejemplos de espacios vectoriales. Ahora hablaremos de subespacios vectoriales o simplemente, subespacios. A grandes rasgos, podemos pensar a un subespacio como un subconjunto de un espacio vectorial $V$ que también es un espacio vectorial con las mismas operaciones de $V$.

Definición de subespacios vectoriales y primeras consecuencias

Definición. Sea $V$ un espacio vectorial sobre un campo $F$. Un subespacio vectorial de $V$, o simplemente un subespacio de $V$, es un subconjunto no vacío $W$ de $V$ cerrado bajo las operaciones de suma vectorial y multiplicación escalar de $V$. En otras palabras, $W$ es un subespacio de $V$ si se cumplen las siguientes dos propiedades:

  1. (Cerradura de la suma vectorial) Para cualesquiera $u$ y $v$ elementos de $W$, se cumple que $u+v$ está en $W$.
  2. (Cerradura de la multiplicación por escalar) Para cualquier escalar $c$ en $F$ y vector $v$ en $W$ se cumple que $cv$ está en $W$.

En la entrada anterior ya vimos un ejemplo. Si tenemos un campo $F$ y nos fijamos el espacio vectorial $F[x]$ de polinomios, entonces para cualquier entero $n$ el subconjunto $F_n[x]$ de $F[x]$ de polinomios de grado a lo más $n$ es cerrado bajo la suma de polinomios y bajo el producto escalar. De esta forma, $F_n[x]$ es un subespacio de $F[x]$. Más abajo veremos muchos ejemplos de subespacios, pero primero nos enfocaremos en algunas consecuencias de la definición.

Observación. Se cumple todo lo siguiente:

  1. Si $W$ es un subespacio de un espacio vectorial $V$, entonces $W$ debe tener al vector $0$ de $V$ (es decir, la identidad aditiva de la suma vectorial). Esto se debe a que $W$ es no vacío, así que tiene por lo menos un elemento $v$. Si tomamos al $0$ de $F$ y usamos la propiedad (2) de subespacio con $0$ y $v$ obtenemos que $0v=0$ está en $W$.
  2. Si $W$ es un subespacio de un espacio vectorial $V$ y $v$ está en $W$, entonces $-v$ también. Esto se debe a que por la propiedad (2) de subespacio tenemos que $(-1)v=-v$ está en $W$.
  3. Si $V$ es un espacio vectorial sobre $F$ y $W$ es un subespacio de $V$, entonces $W$ también es un espacio vectorial sobre $F$ con las mismas operaciones que $V$. Por un lado, el neutro e inversos aditivos existen por los dos incisos anteriores. Para el resto de las propiedades, se usa que se cumplen para elementos de $V$ y por lo tanto también para los de $W$ (pues es un subconjunto).
  4. Si $W_1$ y $W_2$ son dos subespacios de un espacio vectorial $V$, entonces la intersección $W_1\cap W_2$ también lo es.

$\square$

La primera propiedad nos puede ayudar en algunas ocasiones (no siempre) a darnos cuenta rápidamente si un subconjunto no es subespacio vectorial: si no tiene al vector $0$, entonces no es subespacio.

La tercera propiedad tiene una consecuencia práctica muy importante: para mostrar que algo es un espacio vectorial, basta con mostrar que es un subespacio de algo que ya sabemos que es un espacio vectorial.

Problema. Muestra que $\mathcal{C}[0,1]$, el conjunto de funciones continuas de $[0,1]$ a $\mathbb{R}$, es un espacio vectorial sobre $\mathbb{R}$ con las operaciones de suma de funciones y multiplicación por escalar.

Solución. En la entrada anterior vimos que el conjunto $V$ de funciones de $[0,1]$ a los reales es un espacio vectorial sobre $\mathbb{R}$ con las operaciones de suma de funciones y multiplicación escalar. El conjunto $\mathcal{C}[0,1]$ es un subconjunto de $V$.

Por argumentos de cálculo, la suma de dos funciones continuas es una función continua. Así mismo, al multiplicar una función continua por un real obtenemos de nuevo una función continua. De esta forma, $\mathcal{C}[0,1]$ es un subespacio de $V$.

Por la observación (3) de la discusión previa, obtenemos que $\mathcal{C}[0,1]$ es un espacio vectorial sobre $\mathbb{R}$ con las operaciones de suma de funciones y multiplicación por escalar.

$\square$

Definiciones alternativas de subespacios vectoriales

Algunos textos manejan definiciones ligeramente distintas a la que nosotros dimos. Sin embargo, todas ellas son equivalentes.

Proposición. Sea $V$ un espacio vectorial sobre el campo $F$ y $W$ un subconjunto de $V$. Los siguientes enunciados son equivalentes.

  1. $W$ es un subespacio de $V$ de acuerdo a nuestra definición.
  2. Para cualesquiera vectores $u$ y $v$ en $W$ y escalares $a$ y $b$ en $F$, se tiene que $au+bv$ está en $W$.
  3. Para cualesquiera vectores $u$ y $v$ en $W$ y cualquier escalar $c$ en $F$ se tiene que $cu+v$ está en $W$.

Demostración. (1) implica (2). Supongamos que $W$ es un subespacio de $V$. Tomemos vectores $u,v$ en $W$ y escalares $a,b$ en $F$. Como $W$ es cerrado bajo producto escalar, se tiene que $au$ está en $W$. De manera similar, $bv$ está en $W$. Como $W$ es cerrado bajo sumas, se tiene que $au+bv$ está en $W$.

(2) implica (3). Supontamos que $W$ satisface (2) y tomemos $u,v$ en $W$ y cualquier escalar $c$ en $F$. Tomando $a=c$ y $b=1$ en (2), tenemos que $cu+1v=cu+v$ está en $W$.

(3) implica (1). Supongamos que $W$ satisface (3). Hay que ver que $W$ es cerrado bajo sumas y producto escalar. Si tomamos $u$ y $v$ en $W$ y al escalar $c=1$ de $F$, por (3) obtenemos que $cu+v=1u+v=u+v$ está en $W$, lo cual muestra la cerradura de la suma. Si tomamos cualquier escalar $c$ y al vector $w=0$, entonces por (3) se tiene que $cu+w=cu+0=cu$ está en $W$. Esto muestra la cerradura bajo producto escalar.

$\square$

La consecuencia práctica de la proposición anterior es que basta verificar (2) o (3) para garantizar que $W$ es un subespacio.

Problema. Considera $V$ el espacio vectorial de matrices en $M_n(F)$. Muestra que el subconjunto $W$ de matrices simétricas forman un subespacio de $V$.

Solución. Lo demostraremos probando el punto (3) de la proposición. Sea $c$ un escalar en $F$ y sean $A$ y $B$ matrices en $W$, es decir, tales que $^tA=A$ y $^tB = B$. Debemos mostrar que $cA+B$ está en $W$, es decir, que $^t(cA+B)=cA+B$. Usando propiedades de la transpuesta y la hipótesis sobre $A$ y $B$ tenemos que: $$^t(cA+B) = c \ ^tA+ \ ^tB = cA + B.$$ Con esto termina la demostración.

$\square$

Más ejemplos de subespacios vectoriales

A continuación presentamos más ejemplos de subespacios vectoriales. En cada ejemplo damos un espacio vectorial y un subconjunto $W$. Para cada uno de los casos, piensa por qué la suma de dos elementos de $W$ es de nuevo un elemento de $W$ y por qué el producto de un escalar por un elemento de $W$ es un elemento de $W$. También puedes usar la última proposición para probar ambas cosas simultáneamente.

  • Si tomamos $M_2(\mathbb{R})$, el subconjunto $W$ de matrices que cumplen que la suma de entradas en su diagonal principal es igual a $0$ es un subespacio.
  • En el espacio vectorial $F^4$, el subconjunto $W$ de vectores cuya primera y tercer entrada son iguales a $0$ forman un subespacio.
  • Las funciones acotadas del intervalo $[-3, 3]$ a $\mathbb{R}$ forman un subconjunto $W$ que es un subespacio de las funciones del intervalo $[-3,3]$ a $\mathbb{R}$.
  • El subconjunto $W$ de vectores $(x,y,z)$ de $\mathbb{R}^3$ tales que $$\begin{cases}x+y+z &= 0\\ x+ 2y + 3z &= 0 \end{cases}$$ es un subespacio de $\mathbb{R}^3$.
  • Si tomamos $W=\mathbb{R}_3[x]$, entonces este es un subespacio de $\mathbb{R}_4[x]$.
  • Si tomamos $W=\mathbb{R}_4[x]$, entonces este es un subespacio de $\mathbb{R}_5[x]$.
  • El subconjunto $W$ de funciones diferenciables de $[0,10]$ a $\mathbb{R}$ tales que su derivada evaluada en $7$ es igual a $0$ es un subespacio del espacio de funciones continuas de $[0,10]$ a $\mathbb{R}$.
  • Las matrices triangulares superiores de $M_n(F)$ forman un subespacio $W$ del espacio $M_n(F)$. Las matrices triangulares inferiores también. Como la intersección de estos subespacios es el conjunto de matrices diagonales, obtenemos que las matrices diagonales también son un subespacio (aunque claro, esto también se puede probar directamente de la definición).

Ejemplos de subconjuntos que no son subespacios vectoriales

Aunque ya vimos muchos ejemplos de subespacios, resulta que en realidad es un poco raro que un subconjunto de un espacio vectorial sea un subespacio. Los ejemplos de subconjuntos que no son subespacios vectoriales abundan. Veamos algunos y qué tipo de cosas pueden salir mal.

  • El subconjunto $W=\{(x,y,z): x^2+y^2+z^2=1\}$ no es un subespacio de $\mathbb{R}^3$. Podemos dar el siguiente argumento: ya demostramos que un subespacio debe tener al vector cero. En este caso, $W$ debería tener a $(0,0,0)$ para ser subespacio. Pero $0^2+0^2+0^2=0\neq 1$. Así, $(0,0,0)$ no está en $W$ y por lo tanto $W$ no es subespacio.
  • Alternativamente, en el ejemplo anterior podemos ver que $(1,0,0)$ está en $W$, pero $2(1,0,0)=(2,0,0)$ no.
  • El subconjunto $W=\{(0,0), (1,2), (-1,2)\}$ de $\mathbb{R}^2$ no es un subespacio, pues $(1,2)$ está en $W$. Tomando $u=(1,2)$ y $v=(1,2)$, vemos que $W$ no es cerrado bajo sumas pues $(1,2)+(1,2)=(2,4)$ no está en $W$.
  • Las matrices del subconjunto $GL_n(F)$ de $M_n(F)$, es decir, las matrices invertibles, no conforman un subespacio. Por un lado, ya vimos que el neutro aditivo de la suma debe estar en un subespacio, pero la matriz $O_n$ no es invertible, así que no está en $GL_n(F)$.
  • El subconjunto $W$ de funciones $f:[-3,3]\to \mathbb{R}$ diferenciables tales que su derivada en $0$ es igual a $2$ no es un subespacio de las funciones continuas de $[-3,3]$ a $\mathbb{R}$. Hay muchas formas de verlo. Podemos darnos cuenta que $f(x)=x^2+2x$ es una de las funciones en $W$ pues $f'(x)=2x+2$ y $f'(0)=2$. Sin embargo, $3f$ no está en $W$.
  • El subconjunto $W$ de polinomios de $\mathbb{R}[x]$ con coeficientes no negativos no es un subespacio de $\mathbb{R}[x]$. El polinomio $0$ sí está en $W$ y la suma de cualesquiera dos elementos de $W$ está en $W$. Sin embargo, falla la multiplicación escalar pues $x$ está en $W$, pero $(-1)x=-x$ no.
  • La unión del eje $X$, el eje $Y$ y el eje $Z$ de $\mathbb{R}^3$ es un subconjunto $W$ de $\mathbb{R}^3$ que no es un subespacio. Cualquier producto escalar queda dentro de $W$, pero la suma no es cerrada.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Demuestra que los siguientes conjuntos $W$ son subespacios del espacio vectorial indicado.
    • El subconjunto $W$ de vectores $(w,x,y,z)$ de $\mathbb{C}^4$ tales que $w+x+y+z=0$.
    • La colección $W$ de funciones continuas $f:[0,1]\to \mathbb{R}$ tales que $\int_0^1 f(x) \, dx = 0$ es un subespacio del espacio de funciones de $[0,1]$ a $\mathbb{R}$.
    • $W=\left\{\begin{pmatrix} a+b & b\\ -b & c+b \end{pmatrix}: a,b,c \in \mathbb{R} \right\}$ es un subespacio de las matrices en $M_2(\mathbb{R})$.
  • Demuestra que los siguientes conjuntos $W$ no son subespacios del espacio vectorial indicado.
    • El subconjunto $W$ de vectores $(x,y)$ de $\mathbb{R}^2$ tales que $xy\geq 0$ no es un subespacio de $\mathbb{R}^2$.
    • El subconjunto $W$ de matrices en $M_{3,2}(F)$ cuyo producto de todas las entradas es igual a $0$ no es un subespacio de $M_{3,2}$
    • Cuando $W$ es un subconjunto finito y con al menos dos polinomios con coeficientes complejos y de grado a lo más $3$, es imposible que sea un subespacio de $\mathbb{C}_3[x]$.
  • Sea $V$ un espacio vectorial y $n$ un entero positivo. Demuestra que si $W_1, W_2, \ldots, W_n$ son subespacios de $V$, entonces la intersección $$W_1 \cap W_2 \cap \ldots \cap W_n$$ también lo es.
  • Escribe por completo la demostración de que cualquier subespacio de un espacio vectorial es también un espacio vectorial con las mismas operaciones.
  • Demuestra que si $V$ es un espacio vectorial, $W$ es un subespacio de $V$ y $U$ es un subespacio de $W$, entonces $U$ es un subespacio de $V$.

Más adelante…

En esta entrada definimos el concepto de subespacio de un espacio vectorial. En la siguiente hablaremos de algunas operaciones que se les puede hacer a los subespacios vectoriales para «combinarlos» y obtener más subespacios. Una operación muy imporante es la de suma de subespacios, que puede tener dos o más sumandos. La operación de suma de subespacios es particularmente especial cuando los subespacios están en posición de suma directa. Para irte dando una idea de qué quiere decir esto, dos subespacios están en posición de suma directa si su único elemento en común es el vector $0$. El caso general de más subespacios se enuncia de forma distinta y también lo veremos en la siguiente entrada.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Lineal I: Aplicaciones de bases ortogonales y descomposición de Fourier

Por Leonardo Ignacio Martínez Sandoval

Introducción

En esta entrada continuamos hablando de bases ortogonales. Como recordatorio, para poder hablar de esto, necesitamos un espacio vectorial sobre $\mathbb{R}$ equipado con un producto interior, y por lo tanto podemos hablar de normas. Una base ortogonal de $V$ es una base en la cual cada par de vectores tiene producto interior $0$. Es ortonormal si además cada elemento es de norma $1$. Ahora veremos que dada una base ortonormal, podemos hacer una descomposición de Fourier de los vectores de $V$, que nos permite conocer varias de sus propiedades fácilmente.

La teoría que discutiremos está basada en el contenido de la Sección 10.5 del libro Essential Lineal Algebra with Applications de Titu Andreescu. Las últimas dos secciones de esta entrada son un poco abstractas, pero son la puerta a ideas matemáticas interesantes con muchas aplicaciones dentro de la matemática misma y en el mundo real.

Descomposición de Fourier

Es fácil conocer las coordenadas de un vector en términos de una base ortonormal.

Teorema. Si $V$ es un espacio Euclideano de dimensión $n$ con producto interior $\langle\cdot, \cdot\rangle$ y $B=\{e_1,\ldots,e_n\}$ es una base ortonormal con este producto interior, entonces para cualquier vector $v$, la coordenada de $v$ con respecto a $e_i$ es $\langle v, e_i \rangle$.

Demostración. Expresemos a $v$ en la base $B$ como $$v=\alpha_1e_1+\ldots+\alpha_n e_n.$$

Tomemos $j$ en $1,2,\ldots,n$. Usando la linealidad del producto interior, tenemos que
\begin{align*}
\langle v, e_j \rangle &= \left \langle \sum_{i=1}^n \alpha_i e_i, e_j \right \rangle\\
&=\sum_{i=1}^n \alpha_i \langle e_i,e_j \rangle.
\end{align*}

Como $B$ es base ortonormal, tenemos que en el lado derecho $\langle e_j,e_j\rangle = 1$ y que si $i\neq j$ entonces $\langle e_i, e_j\rangle=0$. De esta forma, el lado derecho de la expresión es $\alpha_j$, de donde concluimos que $$\langle v, e_j \rangle = \alpha_j,$$ como queríamos.

$\square$

Definición. Si $V$ es un espacio Euclideano de dimensión $n$ con producto interior $\langle\cdot, \cdot\rangle$ y $B=\{e_1,\ldots,e_n\}$ es una base ortonormal, a $$v=\sum_{i=1}^n \langle v, e_i \rangle e_i$$ le llamamos la descomposición de Fourier de $v$ con respecto a $B$.

Ejemplo. Trabajemos en el espacio vectorial $V=\mathbb{R}_2[x]$ de polinomios reales de grado a lo más $2$. Ya mostramos anteriormente (con más generalidad) que $$\langle p,q \rangle = p(-1)q(-1)+p(0)q(0)+p(1)q(1)$$ es un producto interior en $V$.

Los polinomios $\frac{1}{\sqrt{3}}$, $\frac{x}{\sqrt{2}}$ y $\frac{3x^2-2}{\sqrt{6}}$ forman una base ortonormal, lo cual se puede verificar haciendo las operaciones y queda de tarea moral. ¿Cómo expresaríamos a la base canónica $\{1,x,x^2\}$ en términos de esta base ortonormal? Los primeros dos son sencillos:
\begin{align}
1&=\sqrt{3}\cdot \frac{1}{\sqrt{3}}\\
x&=\sqrt{2}\cdot \frac{x}{\sqrt{2}}.
\end{align}

Para encontrar el tercero, usamos el teorema de descomposición de Fourier. Para ello, calculamos los siguientes productos interiores:

\begin{align*}
\left\langle x^2, \frac{1}{\sqrt{3}}\right\rangle &= \frac{2}{\sqrt{3}},\\
\left \langle x^2, \frac{x}{\sqrt{2}}\right\rangle &=0,\\
\left\langle x^2, \frac{3x^2-2}{\sqrt{6}} \right\rangle &=\frac{2}{\sqrt{6}}.
\end{align*}

De este modo, $$x^2= \frac{2}{\sqrt{3}} \cdot \frac{1}{\sqrt{3}} + \frac{2}{\sqrt{6}}\cdot \frac{3x^2-2}{\sqrt{6}}.$$

$\square$

Norma usando la descomposición de Fourier

Cuando tenemos bases ortogonales u ortonormales, también podemos calcular la norma de un vector fácilmente.

Teorema. Si $V$ es un espacio Euclideano de dimensión $n$ con producto interior $\langle\cdot, \cdot\rangle$ y $B=\{e_1,\ldots,e_n\}$ es una base ortogonal con este producto interior, entonces para cualquier vector $$v=\alpha_1e_1+\ldots+\alpha_ne_n,$$ tenemos que $$\norm{v}^2 = \sum_{i=1}^n \alpha_i^2 \norm{e_i}^2.$$

En particular, si $B$ es una base ortonormal, entonces $$\norm{v}^2 = \sum_{i=1}^n \langle v, e_i \rangle^2.$$

Demostración. Usando la definición de norma y la bilinealidad del producto interior, tenemos que
\begin{align*}
\norm{v}^2 &= \langle v,v \rangle\\
&=\sum_{i=1}^n \sum_{j=1}^n \alpha_i \alpha_j \langle e_i, e_j\rangle.
\end{align*}

Como $B$ es base ortogonal, los únicos sumandos que quedan a la derecha son aquellos en los que $i=j$, es decir,
\begin{align*}
\norm{v}^2&=\sum_{i=1}^n \alpha_i^2 \langle e_i, e_i\rangle\\
&=\sum_{i=1}^n \alpha_i^2 \norm{e_i}^2\\
\end{align*}

como queríamos mostrar.

Si $B$ es base ortonormal, cada $\norm{e_i}^2$ es $1$, y por el teorema anterior, $\alpha_i=\langle v, e_i\rangle$. Esto prueba la última afirmación.

$\square$

Ejemplo. Continuando con el ejemplo anterior, como ya escribimos a $x^2$ en términos de la base ortogonal, podemos encontrar fácilmente su norma. Tendríamos que
\begin{align*}
\norm{x^2}^2&=\left(\frac{2}{\sqrt{3}}\right)^2+\left(\frac{2}{\sqrt{6}}\right)^2\\
&=\frac{4}{3}+\frac{4}{6}\\
&=2.
\end{align*}

De esta forma, $\norm{x^2}=\sqrt{2}$. En efecto, esto es lo que obtendríamos si hubiéramos calculado la norma de $x^2$ con la definición.

$\square$

Aplicación de descomposición de Fourier a polinomios

Vamos a continuar con un ejemplo que vimos en la entrada anterior. Recordemos que estábamos trabajando en $V=\mathbb{R}_n[x]$, que habíamos elegido $n+1$ reales distintos $x_0,\ldots,x_n$, y que a partir de ellos definimos $$\langle P, Q\rangle = \sum_{i=0}^n P(x_i)Q(x_i).$$ Mostramos que $\langle \cdot , \cdot \rangle$ es un producto interior y que para $j=0,\ldots,n$ los polinomios $$L_i=\prod_{0\leq j \leq n, j\neq i} \frac{x-x_j}{x_i-x_j}$$ forman una base ortonormal de $V$.

Por el teorema de descomposición de Fourier, tenemos que cualquier polinomio $P$ de grado a lo más $n+1$ con coeficientes reales satisface que $$P=\sum_{i=0}^n \langle P, L_i \rangle L_i,$$ lo cual en otras palabras podemos escribir como sigue.

Teorema (de interpolación de Lagrange). Para $P$ un polinomio con coeficientes en los reales de grado a lo más $n$ y $x_0,x_1,\ldots,x_n$ reales distintos, tenemos que $$P(x)=\sum_{i=0}^n P(x_i) \left(\prod_{0\leq j \leq n, j\neq i} \frac{x-x_j}{x_i-x_j}\right).$$

El teorema de interpolación de Lagrange nos permite decir cuánto vale un polinomio de grado $n$ en cualquier real $x$ conociendo sus valores en $n+1$ reales distintos. Ya habíamos mostrado este teorema antes con teoría de dualidad. Esta es una demostración alternativa con teoría de bases ortogonales y descomposición de Fourier.

Aplicación de ideas de Fourier en funciones periódicas

También ya habíamos visto que $$\langle f,g \rangle = \int_{-\pi}^\pi f(x)g(x)\, dx$$ define un producto interior en el espacio vectorial $V$ de funciones $f:\mathbb{R}\to \mathbb{R}$ continuas y periódicas de periodo $2\pi$.

En ese ejemplo, definimos \begin{align*}
C_n(x)&=\frac{\cos(nx)}{\sqrt{\pi}}\\
S_n(x)&=\frac{\sin(nx)}{\sqrt{\pi}}.
\end{align*} y $C_0(x)=\frac{1}{\sqrt{2\pi}}$, y mostramos que $$\mathcal{F}:=\{C_n:n\geq 0\}\cup \{S_n:n\geq 1\}$$ era un conjunto ortonormal.

No se puede mostrar que $\mathcal{F}$ sea una base ortonormal, pues el espacio $V$ es de dimensión infinita, y es bastante más complicado que los espacios de dimensión finita. Sin embargo, la teoría de Fourier se dedica a ver que, por ejemplo, la familia $\mathcal{F}$ es buena aproximando a elementos de $V$, es decir a funciones continuas y periódicas de periodo $2\pi$. No profundizaremos mucho en esto, pero daremos algunos resultados como invitación al área.

Para empezar, restringimos a la familia $\mathcal{F}$ a una familia más pequeña:

$$\mathcal{F}_n:=\{C_m:0\leq m \leq n\}\cup \{S_m:1\leq m \leq n\}$$

Motivados en la descomposición de Fourier para espacios Euclideanos, definimos a la $n$-ésima serie parcial de Fourier de una función $f$ en $V$ a la expresión $$S_n(f)=\sum_{g\in \mathcal{F}_n} \langle f, g \rangle g.$$ Haciendo las cuentas, se puede mostrar que $$S_n(f)=\frac{a_0(f)}{2}+\sum_{k=1}^n \left(a_k(f)\cos(kx)+b_k(f)\sin(kx)\right),$$ en donde para $k\geq 1$ tenemos $$a_k=\frac{1}{\pi}\int_{-\pi}^\pi f(x)\cos(kx)\, dx$$ y $$b_k=\frac{1}{\pi}\int_{-\pi}^\pi f(x)\sin(kx)\, dx.$$

A los números $a_k$ y $b_k$ se les conoce como los $k$-ésimos coeficientes de Fourier. Aunque $\mathcal{F}$ no sea una base para $V$, sí es buena «aproximando» a elementos de $V$. Por ejemplo, un resultado lindo de Dirichlet dice que si $f$ y su derivada son continuas, entonces $$\lim_{n\to \infty} S_n(f)(x) = f(x).$$ Este tipo de teoremas de aproximación se estudian con más a detalle en un curso de análisis matemático avanzado o de análisis de Fourier.

Considera ahora $W_n$ el subespacio de $V$ generado por $\mathcal{F}_n$. Tomemos una función $f$ cualquiera en $V$. La $n$-ésima serie de Fourier de $f$ es un elemento de $W_n$. De hecho, es precisamente la proyección de $f$ en $W_n$. Por esta razón, $$\norm{f_n}^2\leq \norm{f}^2<\infty$$

Podemos calcular la norma de $f_n$, usando el resultado para espacios Euclideanos en el espacio (de dimensión finita) $W_n$. Haciendo esto, podemos reescribir la desigualdad anterior como sigue:

$$\frac{a_0(f)^2}{2}+\sum_{k=1}^n(a_k(f)^2+b_k(f)^2)\leq \frac{1}{\pi} \norm{f}^2.$$

El lado derecho es constante, y en el lado izquierdo tenemos una suma parcial de la serie $$\sum_{k\geq 1}(a_k(f)^2+b_k(f)^2).$$ Los términos son positivos y la sucesión de sumas parciales es acotada, así que la serie converge. Entonces, necesariamente la sucesión de términos debe converger a cero. Acabamos de esbozar la demostración del siguiente teorema.

Teorema (de Riemann-Lebesgue). Sea $f$ una función continua y de periodo $2\pi$. Si $a_n(f)$ y $b_n(f)$ son los coeficientes de Fourier de $f$, entonces $$\lim_{n\to \infty} a_n(f) = \lim_{n\to \infty} b_n(f) = 0.$$

De hecho, se puede mostrar que la desigualdad que mostramos se convierte en igualdad cuando $n\to \infty$. Este es un resultado bello, profundo y cuya demostración queda fuera del alcance de estas notas.

Teorema (de Plancherel). Sea $f$ una función continua y de periodo $2\pi$. Si $a_n(f)$ y $b_n(f)$ son los coeficientes de Fourier de $f$, entonces $$\frac{a_0(f)^2}{2}+\sum_{k=1}^\infty(a_k(f)^2+b_k(f)^2)= \frac{1}{\pi} \int_{-\pi}^\pi f(x)^2\, dx.$$

Aunque no daremos la demostración de este resultado, en una entrada posterior veremos cómo podemos aplicarlo.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Verifica que los tres polinomios del ejemplo de descomposición de Fourier en efecto forman una base ortogonal.
  • Calcula la norma de $x^2$ con el producto interior del ejemplo de descomposición de Fourier usando la definición, y verifica que en efecto es $\sqrt{2}$.
  • Con la misma base ortonormal $B$ de ese ejemplo, calcula las coordenadas y la norma del polinomio $1+x+x^2$.
  • Verifica que todo lo que mencionamos se cumple con el producto punto en $\mathbb{R}^n$ y con la base canónica.

Más adelante…

En esta entrada seguimos estudiando las bases ortogonales. Usamos este concepto para hacer una descomposición de Fourier, para conocer propiedades de V y obtener otra manera de calcular la norma de un vector. Así mismo, vimos aplicaciones de la descomposición a polinomios, viendo el teorema de la interpolación de Lagrange ya previamente demostrado mediante teoría de dualidad.

Hasta ahora solo hemos hablado de cómo ver si una base es ortonomal y algunas propiedades de estas bases y conjuntos, en la siguiente entrada hablaremos de un método pata encontrar estas bases ortonormales usando el proceso de Gram-Schmidt.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Lineal I: Bases ortogonales

Por Leonardo Ignacio Martínez Sandoval

Introducción

Como ya discutimos en las entradas anteriores, si tenemos un espacio vectorial $V$ con producto interior, entonces podemos definir varias nociones geométricas en $V$, como ángulos, norma y distancia. Ahora vamos a definir una noción muy útil en álgebra lineal: la de bases ortogonales. Para ello, combinaremos las nociones de bases y producto interior.

Las bases ortogonales no sólo tienen aplicaciones en álgebra lineal. También son el punto de partida de muchos conceptos matemáticos avanzados. Un primer ejemplo es el análisis de Fourier, que estudia cómo aproximar funciones mediante funciones trigonométricas y que tiene aplicaciones en el mundo real en análisis de señales. Otro ejemplo es la vasta teoría de polinomios ortogonales, con aplicaciones en el mundo real en aproximación e integración numérica.

En estas entradas de bases ortogonales tomaremos espacios vectoriales sobre $\mathbb{R}$ con un producto interior $\langle \cdot,\cdot \rangle$.

Conjuntos ortogonales y ortonormales

Comenzamos con la siguiente definición. Recuerda que $V$ es un espacio vectorial sobre $\mathbb{R}$ con producto interior, así que induce una norma $\Vert \cdot \Vert$.

Definición. Sea $S$ un conjunto de vectores en $V$. Decimos que $S$ es

  • Ortogonal si cualquier par de vectores distintos de $S$ es ortogonal, es decir, si para todo $v,w$ en $S$, con $v\neq w$ se tiene que $$\langle v, w \rangle = 0.$$
  • Ortonormal si es ortogonal, y además todo vector de $S$ tiene norma $1$.

En otras palabras, $S$ es ortonormal si para todo $v$ en $S$ se tiene $\langle v, v\rangle =1$ y para $v$ y $w$ en $S$ distintos se tiene $\langle v, w\rangle =0$.

Ejemplo. Si tomamos a $\mathbb{R}^n$ con el producto punto, entonces la base canónica es un conjunto ortonormal pues, en efecto, $e_i\cdot e_i = 1$ y para $i\neq j$ se tiene $e_i\cdot e_j = 0$.

Todo conjunto de un sólo elemento es ortogonal, pues no hay nada que probar. Otro conjunto ortonormal en $\mathbb{R}^2$ es el conjunto que sólo tiene al vector $\left(\frac{3}{5},\frac{4}{5}\right)$, pues este es un vector de norma $1$.

Los vectores $(1,1,0)$, $(1,-1,0)$ y $(0,0,1)$ forman otro conjunto ortogonal en $\mathbb{R}^3$, pues en efecto
\begin{align*}
(1,1,0)\cdot (1,-1,0)&=1-1=0\\
(1,-1,0)\cdot (0,0,1)&=0\\
(0,0,1)\cdot (1,1,0)&=0.
\end{align*}

Sin embargo, este no es un conjunto ortonormal, pues la norma de $(1,1,0)$ es $\sqrt{2}\neq 1$. Si normalizamos a cada vector, es decir, si lo dividimos entre su norma, entonces obtenemos los vectores ortonormales $\left(1/\sqrt{2},1/\sqrt{2},0\right)$, $\left(1/\sqrt{2},-1/\sqrt{2},0\right)$ y $(0,0,1)$.

$\square$

Propiedades de conjuntos ortogonales y ortonormales

Todo conjunto ortogonal de vectores no nulos se puede normalizar como en el ejemplo de la sección anterior para obtener un conjunto ortonormal. Es decir, si $S$ es un conjunto de vectores distintos de $0$, entonces $$S’=\left\{\frac{v}{\Vert v \Vert}: v\in S\right\}$$ es un conjunto ortonormal.

Una propiedad fundamental de los conjuntos ortonormales de vectores es que son linealmente independientes. Se puede probar algo un poco más general.

Proposición. Si $S$ es un conjunto ortogonal de vectores no nulos, entonces los elementos de $V$ son linealmente independientes.

Demostración. Tomemos $v_1,\ldots,v_n$ elementos de $S$ y supongamos que existen $\alpha_1,\ldots,\alpha_n$ escalares tales que $$v:=\sum_{i=1}^n \alpha_i v_i =0.$$

Tomemos un índice $j$ en $1,\ldots,n$ y hagamos el producto interior $\langle v, v_j\rangle$. Por un lado, como $v=0$, este produto es $0$. Por otro lado, por linealidad es $$\sum_{i=1}^n \alpha_i \langle v_i,v_j\rangle.$$

Cuando $i\neq j$, el sumando correspondiente es igual a $0$. De este modo, el único sumando no cero es cuando $i=j$, el cual es $\alpha_j \langle v_j,v_j\rangle$. De estos argumentos, deducimos que $$\alpha_j\langle v_j,v_j\rangle =0.$$ Como los vectores son no nulos, se tiene que $\langle v_j,v_j\rangle \neq 0$. Así, $\alpha_j=0$ para todo $j=1,\ldots,n$, lo cual muestra que los vectores son linealmente independientes.

$\square$

Como cada elemento de un conjunto ortonormal tiene norma $1$, entonces no puede ser nulo, así que como corolario de la proposición anterior, todo conjunto ortonormal es linealmente independiente. Otro corolario es el siguiente.

Corolario. En un espacio Euclideano de dimensión $d$, los conjuntos ortogonales sin vectores nulos tienen a lo más $d$ elementos.

Bases ortogonales y ortonormales

Cuando una base de un espacio vectorial es ortogonal (o bien, ortonormal), pasan varias cosas buenas. Esto amerita una definición por separado.

Definición. Sea $S$ un conjunto de vectores en $V$. Decimos que $S$ es

  • Una base ortogonal si $S$ es una base de $V$ y es un conjunto ortogonal.
  • Una base ortonormal si $S$ una base de $V$ y es un conjunto ortonormal.

Ejemplo. En $\mathbb{R}^n$ la base canónica es una base ortonormal.

En $\mathbb{R}^2$ el conjunto $S=\{(2,3),(9,-6)\}$ es un conjunto ortogonal. Además, se puede verificar fácilmente que son dos vectores linealmente independientes. De este modo, $S$ es una base ortogonal.

Sin embargo, $S$ no es una base ortonormal pues el primero de ellos tiene norma $\sqrt{2^2+3^2}=\sqrt{13}$. Si quisiéramos convertir a $S$ en una base ortonormal, podemos normalizar a cada uno de sus elementos.

$\square$

En la sección anterior vimos que los conjuntos ortonormales son linealmente independientes. Otro corolario de este resultado es lo siguiente.

Corolario. En un espacio Euclideano de dimensión $n$, un conjunto ortonormal de $n$ vectores es una base ortonormal.

La importancia de las bases ortogonales yace en que dada una base ortonormal $B$ y un vector $v$, podemos encontrar varias propiedades de $v$ en términos de $B$ fácilmente. Por ejemplo, veremos más adelante que:

  • Las coordenadas de $v$ con respecto a la base $B$ son sencillas.
  • Hay una fórmula simple para la norma de $v$ en términos de sus coordenadas en la base $B.$
  • Si $B$ es una base de un subespacio $W$ de $V$, entonces es fácil encontrar la distancia de $v$ a $W.$

Mejor aún, las bases ortonormales siempre existen.

Teorema. Todo espacio Euclideano tiene una base ortonormal.

Es decir, sin importar qué espacio vectorial real de dimensión finita tomemos, y sin importar qué producto punto le pongamos, podemos dar una base ortogonal. De hecho, veremos un resultado un poco más fuerte, que nos dará un procedimiento para encontrar dicha base, incluso imponiendo restricciones adicionales.

Ejemplo de bases ortogonales en polinomios

Ejemplo. Tomemos $\mathbb{R}_n[x]$ el espacio de polinomios de grado a lo más $n$ con coeficientes reales. Además, tomemos números reales distintos $x_0,\ldots,x_n$. A partir de estos reales podemos definir la operación $$\langle P, Q \rangle = \sum_{j=0}^n P(x_j)Q(x_j),$$ la cual es claramente bilineal y simétrica.

Tenemos que $\langle P,P\rangle$ es una suma de cuadrados, y por lo tanto es no negativa. Además, si $\langle P, P\rangle =0$, es porque $$\sum_{j=0}^n P(x_j)^2=0,$$ y como estamos trabajando en $\mathbb{R}$ esto implica que cada sumando debe ser cero. Pero las igualdades $$P(x_0)=\ldots=P(x_n)=0$$ dicen que los $n+1$ reales distintos $x_i$ son raíces de $P$, y como $P$ es de grado a lo más $n$, tenemos que $P$ es el polinomio $0$. En resumen, $\langle \cdot, \cdot \rangle$ es un producto interior en $\mathbb{R}_n[x]$. Vamos a dar una base ortogonal con respecto a este producto interior.

Para $i=0,\ldots,n$, consideremos los polinomios $$L_i(x)=\prod_{0\leq k \leq n, k\neq i} \frac{x-x_k}{x_i-x_k}.$$ Observa que $L_j(x_j)=1$ y si $j\neq i$, tenemos $L_i(x_j)=0$. Afirmamos que $$B=\{L_j:j=0,\ldots,n+1\}$$ es una base ortonormal de $\mathbb{R}_n[x]$ con el producto interior que definimos. Como consiste de $n+1$ polinomios y $\dim(\mathbb{R}_n[x])=n+1$, basta con que veamos que es un conjunto ortonormal.

Primero, notemos que
\begin{align*}
\langle L_i,L_i \rangle = \sum_{j=0}^n L_i(x_j)^2 = L_i(x_i)^2=1,
\end{align*}

de modo que cada $L_i$ tiene norma $1$.

Luego, notemos que si $i\neq j$, entonces $L_i(x_k)L_j(x_k)=0$ pues $x_k$ no puede ser simultáneamente $x_i$ y $x_j$. De este modo,

\begin{align*}
\langle L_i,L_j \rangle = \sum_{k=0}^n L_i(x_k)L_j(x_k)=0.
\end{align*}

Con esto mostramos que cada par de polinomios distintos es ortogonal. Esto termina la demostración de que $B$ es base ortonormal.

$\square$

Ejemplo de conjuntos ortogonales en funciones periódicas

Ejemplo. Consideremos $V$ el conjunto de funciones $f:\mathbb{R}\to \mathbb{R}$ continuas y periódicas de periodo $2\pi$. Definimos $$\langle f,g \rangle = \int_{-\pi}^\pi f(x)g(x)\, dx.$$ Se puede mostrar que $\langle \cdot, \cdot \rangle$ así definido es un producto interior en $V$.

Para cada entero positivo $n$, definimos
\begin{align*}
C_n(x)&=\frac{\cos(nx)}{\sqrt{\pi}}\\
S_n(x)&=\frac{\sin(nx)}{\sqrt{\pi}}.
\end{align*}

Además, definimos $C_0(x)=\frac{1}{\sqrt{2\pi}}$. Afirmamos que $$\mathcal{F}:=\{C_n:n\geq 0\}\cup \{S_n:n\geq 1\}$$ es un conjunto ortonormal de vectores. Mostremos esto.

Para empezar, notamos que $$\Vert C_0\Vert ^2 = \int_{-\pi}^{\pi} \frac{1}{2\pi}\, dx =1.$$

Luego, tenemos que para $n\geq 1$ que
\begin{align*}
\Vert C_n\Vert ^2 &= \int_{-\pi}^\pi \frac{1}{\pi} \cos^2(nx)\, dx\\
&= \int_{-\pi}^\pi \frac{1+\cos(2nx)}{2\pi}\, dx\\
&= 1,
\end{align*}

ya que para todo entero $m\neq 0$ se tiene que $$\int_{-\pi}^\pi \cos(mx) \, dx=0.$$ De manera similar, usando la identidad $$\sin^2(nx)=\frac{1-\cos(nx)}{2},$$ se puede ver que la norma de $S_n$ es $1$.

Para ver que las parejas de elementos distintas son ortogonales, tenemos varios casos. Si tomamos $n\geq 1$, el resultado para $\langle C_0,C_n\rangle$ ó $\langle C_0,S_n\rangle$ se deduce de que
$$\int_{-\pi}^\pi \cos(mx)\, dx=\int_{-\pi}^\pi \sin(mx)\, dx=0$$ para todo entero $m\neq 0$.

Si tomamos dos $C_i$’s distintos, dos $S_i’s$ distintos o un $C_i$ y un $S_i$, el resultado se deduce de las fórmulas «producto a suma» de las funciones trigonométricas.

$\square$

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Encuentra un conjunto ortogonal de vectores en $\mathbb{R}^4$ tal que ninguna de las entradas de ninguno de sus vectores sea igual a $0$.
  • Escribe las demostraciones de los corolarios enunciados en esta entrada.
  • Muestra que $\langle \cdot, \cdot \rangle$ definido en el ejemplo de funciones periódicas es un producto interior.
  • Termina de mostrar que la familia $\mathcal{F}$ del ejemplo de funciones periódicas es ortonormal. Sugerencia: Usa identidades de suma y resta de ángulos para poner el producto de senos (o cosenos o mixto) como una suma de senos y/o cosenos.

Más adelante…

En esta entrada combinamos las nociones de bases y el producto interior, estudiadas en entradas anteriores, para definir a las bases ortogonales. Vimos algunas propiedades de conjuntos ortogonales y ortonormales, para extenderlos a bases ortogonales y ortonormales. Vimos unos ejemplos de bases ortogonales de los polinomios y otros ejemplos de conjuntos ortogonales en funciones periódicas.

En la siguiente entrada veremos aplicaciones de estos conceptos, culminando en una descomposición de Fourier.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»