Archivo del Autor: Alejandro Antonio Estrada Franco

Cálculo Diferencial e Integral III: Derivadas parciales de segundo orden

Por Alejandro Antonio Estrada Franco

Introducción

En las entradas anteriores definimos qué quiere decir que un campo escalar sea diferenciable. Así mismo, definimos las derivadas parciales y el gradiente. Ya usamos estas herramientas para hablar de dirección de cambio máximo y de puntos críticos. Además demostramos una versión del teorema del valor medio para este caso, lo que nos permitió poner un poco de orden a nuestra teoría: una función es diferenciable en un punto cuando existen sus parciales en ese punto y son continuas. Es momento de hablar de derivadas parciales de segundo orden. Cualquiera de las derivadas parciales es por sí misma un campo escalar, así que podemos preguntarnos si tiene o no sus propias derivadas parciales. Exploraremos esta idea.

Derivadas parciales de segundo orden

Las derivadas parciales de un campo escalar $f$ nos originan nuevos campos escalares. Supongamos que $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ es un campo escalar para el cual existe la $k$-ésima derivada parcial en un conjunto abierto $S’\subseteq S$. Entonces, obtenemos un nuevo campo escalar $\frac{\partial f}{\partial x_{k}}:S’\rightarrow \mathbb{R}$.

Este campo escalar puede o no tener $j$-ésima derivada parcial. Suponiendo que la tiene en algún $U\subseteq S’$ podríamos escribirla como

$$\frac{\partial\left(\frac{\partial f}{\partial x_k}\right)}{\partial x_j}.$$

Sin embargo, esta notación es engorrosa, y por ello optamos o bien por escribir la expresión como sigue

\[ \frac{\partial}{\partial x_{j}}\left( \frac{\partial f}{\partial x_{k}}\right)\]

o todavía más compacto, como

\[ \frac{\partial ^{2}f}{\partial x_{j}\partial x_{k}}.\]

A esto le llamamos una derivada parcial de segundo orden. Si $j=k$, introducimos la notación

\[ \frac{\partial ^{2}f }{\partial x_{k}^{2}}.\]

Las derivadas parciales de segundo orden vuelven a ser, una vez más, cada una de ellas un campo escalar. Esto permite seguir iterando la idea: podríamos hablar de derivadas parciales de segundo, tercero, cuarto, … , $k$-ésimo, … orden. Daremos una definición un poco más formal en una siguente entrada, pero por ahora trabajemos en entender a las derivadas parciales de segundo orden.

Un ejemplo de derivadas parciales de segundo orden

Ejemplo. Consideremos el campo escalar $f(x,y,z)=x^{2}yz$. Para este campo escalar tenemos que sus derivadas parciales con respecto a $x$, $y$ y $z$ son:

\begin{align*}
\frac{\partial f}{\partial x}(x,y,z)&=2xyz,\\
\frac{\partial f}{\partial y}(x,y,z)&=x^{2}z\\
\frac{\partial f}{\partial z}(x,y,z)&=x^{2}y.
\end{align*}

Cada una de estas expresiones es a su vez un campo escalar. Cada una de ellas es derivable con respecto a $x$ en todo $\mathbb{R}^3$. Al derivarlas con respecto a $x$ obtenemos:

\begin{align*}
\frac{\partial ^{2}f}{\partial x^{2}}(x,y,z)&=2yz,\\
\frac{\partial ^{2}f}{\partial x\partial y}(x,y,z)&=2xz,\\
\frac{\partial ^{2}f}{\partial x\partial z}(x,y,z)&=2xy.
\end{align*}

Por otro lado, las derivadas parciales de primer orden también podríamos haberlas derivado con respecto a $y$. En este caso, hubieramos obtenido.

\begin{align*}
\frac{\partial ^{2}f}{\partial y \partial x}(x,y,z)&=2xz,\\
\frac{\partial ^{2}f}{\partial y ^2}(x,y,z)&=0,\\
\frac{\partial ^{2}f}{\partial y\partial z}(x,y,z)&=x^2.
\end{align*}

También podríamos derivar a las derivadas parciales de primer orden con respecto a $z$ para obtener las tres derivadas de orden dos faltantes. En total tenemos tres derivadas parciales de primer orden y nueve derivadas parciales de segundo orden.

$\triangle$

Igualdad de las derivadas parciales de segundo orden mixtas

En numerosos campos escalares de interés tenemos una propiedad muy peculiar: que los operadores «obtener la derivada parcial con respecto a $x$» y «obtener la derivada parcial con respecto a $y$» conmutan. Es decir, varias veces podemos intercambiar el orden de derivación de las parciales y obtener el mismo resultado. En el ejemplo anterior quizás hayas notado que

\[ \frac{\partial ^{2}f}{\partial y\partial x}=2xz=\frac{\partial ^{2}f}{\partial x\partial y}.\]

Esto no siempre pasa, pero hay criterios de suficiencia sencillos de verificar. Por ejemplo, basta que las parciales mixtas existan y sean continuas para que sean iguales. El siguiente teorema formaliza el resultado.

Teorema. Sea $f:S\subseteq \mathbb{R}^{2}\rightarrow \mathbb{R}$ un campo escalar tal que las derivadas parciales $\frac{\partial f}{\partial x}$, $\frac{\partial f}{\partial y}$, $\frac{\partial^{2} f}{\partial y\partial x}$, $\frac{\partial ^{2}f}{\partial x\partial y}$ existen en un conjunto abierto $U$. Si $(a,b)\in U$ es tal que $\frac{\partial^{2} f}{\partial y\partial x}$, $\frac{\partial ^{2}f}{\partial x\partial y}$ son continuas en $(a,b)$, entonces dichas derivadas mixtas de segundo orden son iguales en $(a,b)$.

Demostración. Sean $h,k\neq 0$ suficientemente chicos para que los puntos en el plano $(a,b)$, $(a,b+k)$, $(a+h,b)$, y $(a+h,b+k)$ estén en $U$.

Definamos la función $\Gamma (x)=f(x,b+k)-f(x,b)$ para $x\in [a,a+h]$ y definamos

\begin{equation} \Delta (h,k)=\Gamma (a+h)-\Gamma (a).\end{equation}

Notemos que $\Gamma$ es una función de $\mathbb{R}$ en $\mathbb{R}$ cuya derivada es $$\Gamma'(x)=\frac{\partial f}{\partial x}(x,b+k)-\frac{\partial f}{\partial x}(x,b).$$ Así, se le puede aplicar el teorema del valor medio con extremos en $a$ y $a+h$ para concluir que existe $\xi _{1}\in [a,a+h]$ que nos permite escribir $\Delta(h,k)$ de la siguiente manera:

\begin{align*}
\Delta(h,k)&=\Gamma (a+h)-\Gamma (a)\\
&= h\Gamma'(\xi _{1})\\
&=h\left[ \frac{\partial f}{\partial x}(\xi _{1},b+k)-\frac{\partial f}{\partial x}(\xi _{1},b) \right]
\end{align*}

Ahora podemos aplicar el teorema del valor medio en la función $y\mapsto \frac{\partial f}{\partial x} (\xi _{1},y)$ con extremos $b$ y $b+k$. Esto nos permite continuar la cadena de igualdades anterior mediante un $\eta _{1}\in [b,b+k]$ que cumple

\begin{equation}\label{eq:primerdelta} \Delta (h,k)=hk\frac{\partial ^{2}f}{\partial y\partial x}(\xi _{1},\eta _{1}).\end{equation}

Como $(\xi _{1},\eta _{1})\in [a,a+h]\times[b,b+k]$, se tiene que $(\xi _{1},\eta _{1})\to (a,b)$ conforme $(h,k)\to \bar{0}$.

Ahora consideremos análogamente a la función $\varLambda (y)=f(a+h,y)-f(a,y)$. Mediante un procedimiento similar al que acabamos de hacer, pero aplicado a $\varLambda$ en vez de a $\Gamma$, se tiene otra forma de expresar a $\Delta(h,k)$:

\begin{equation}\label{eq:segundodelta}\Delta(h,k)=hk\frac{\partial ^{2} f}{\partial x\partial y}(\xi _{2},\eta _{2}),\end{equation} donde $(\xi _{2},\eta _{2})\in [a,a+h]\times[b,b+k]$. Nuevamente, $(\xi _{2},\eta _{2})\to (a,b)$ conforme $(h,k)\to (0,0)$.

Igualando las expresiones en \eqref{eq:primerdelta} y \eqref{eq:segundodelta}, tenemos lo siguiente:

\[ \frac{\partial f}{\partial y\partial x}(\xi _{1},\eta _{1})=\frac{\partial f}{\partial x\partial y}(\xi _{2},\eta _{2}).\]

El resultado se sigue de hacer tender $(h,k)\to (0,0)$, ya que dado que las derivadas parciales les estamos pidiendo que sean continuas, tenemos que:

\begin{align*}
\frac{\partial ^{2} f}{\partial y\partial x}(a,b)&=\lim\limits_{(h,k)\to (0,0)}\frac{\partial ^{2} f}{\partial y\partial x}(\xi _{1},\eta _{1})\\
&=\lim\limits_{(h,k)\to (0,0)}\frac{\partial ^{2}f}{\partial x\partial y}(\xi _{2},\eta _{2})\\
&=\frac{\partial ^{2}f}{\partial x\partial y}(a,b).
\end{align*}

Así concluimos nuestro resultado.

$\square$

Más adelante…

En esta entrada hablamos de las derivadas parciales de segundo orden y vimos que bajo condiciones razonables podemos elegir las variables de derivación en el orden que queramos. Estas ideas son más generales, y a continuación nos llevarán a definir las derivadas parciales de cualquier orden $k$. Después, usaremos estas derivadas parciales para generalizar otro de los teoremas de cálculo unidimensional: el teorema de Taylor.

Tarea moral

  1. Para las siguientes funciones calcula $\frac{\partial ^{2}f}{\partial x^{2}}$:
    • $f(x,y)=x^{2}+y^{2}cos(xy)$
    • $f(x,y)=e^{x}cos(y)$
    • $f(x,y,z)=\textup{log}(x^{2}+2y^{2}-3z^{2})$
  2. En el teorema que afirma que las derivadas parciales mixtas son iguales usamos cuatro veces el teorema del valor medio (¿cuáles 4 son?). Asegúrate de que en verdad lo podamos usar.
  3. Calcula $\frac{\partial ^{2}f}{\partial y^{2}}$, y $\frac{\partial ^{2}f}{\partial x\partial y}$ para las funciones del punto 1. Explica por qué no es necesario calcular de manera separada $\frac{\partial ^{2}f}{\partial y\partial x}$
  4. Investiga de un ejemplo en el que las derivadas parciales $\frac{\partial ^{2}f}{\partial x\partial y}$ y $\frac{\partial ^{2}f}{\partial y\partial x}$ no sean iguales. Realiza las cuentas para verificar que en efecto tienen valores distintos en algún punto.
  5. El teorema que enunciamos está muy limitado. Sólo nos habla de campos escalares de $\mathbb{R}^2$ en $\mathbb{R}$. Sin embargo, debería también funcionar si $f:\mathbb{R}^n\to \mathbb{R}$. Enuncia y demuestra un resultado similar que te permita garantizar que $$\frac{\partial^{2} f}{\partial x_i\partial x_j}=\frac{\partial ^{2}f}{\partial x_j\partial x_i}.$$

Entradas relacionadas

Cálculo Diferencial e Integral III: Teorema del valor medio para campos escalares

Por Alejandro Antonio Estrada Franco

Introducción

Ya hemos definido qué es el gradiente $\nabla f$ de un campo escalar $f$. Hemos visto cómo está relacionado con las derivadas direccionales. Así mismo, mostramos que conocer este gradiente nos permite dar información sobre los máximos y mínimos del campo escalar. En esta entrada mostraremos una propiedad más del gradiente: que nos ayuda a dar una generalización del teorema del valor medio de Cálculo I, pero para campos escalares. Este será un resultado fundamental para demostrar otras propiedades de los campos escalares. Como ejemplo, también damos en esta entrada un criterio suficiente para que un campo escalar sea diferenciable.

Teorema del valor medio para funciones de $\mathbb{R}$ en $\mathbb{R}$

Para facilitar la lectura de este material, recordemos lo que nos dice el teorema del valor medio sencillo, es decir, el de $\mathbb{R}$ en $\mathbb{R}$.

Teorema. Sean $a<b$ reales. Sea $f:[a,b]\to\mathbb{R}$ una función continua en el intervalo $[a,b]$ y diferenciable en el intervalo $(a,b)$. Entonces existe algún punto $c\in (a,b)$ tal que $$f'(c)=\frac{f(b)-f(a)}{b-a}.$$

Una vez que uno interpreta el teorema gráficamente, se vuelve muy intuitivo. Considera la siguiente figura.

Intuición geométrica del teorema del valor medio

El término $$\frac{f(b)-f(a)}{b-a}$$ es la pendiente del segmento que une los puntos $(a,f(a))$ y $(b,f(b))$ El término $f'(c)$ va marcando la pendiente de la recta tangente a $f$ en cada punto $c$. En términos geométricos, lo que nos dice este teorema es que para algún valor de $c$, la pendiente de la recta tangente en $c$ es la pendiente del segmento entre los extremos.

Lo que haremos a continuación es dar una generalización apropiada para funciones de $\mathbb{R}^n$ a $\mathbb{R}$.

Teorema del valor medio para funciones de $\mathbb{R}^n$ en $\mathbb{R}$

Para generalizar el teorema del valor medio a funciones de $\mathbb{R}^n$ a $\mathbb{R}$, necesitaremos cambiar un poco las hipótesis. El segmento $[a,b]$ que usábamos ahora será un segmento (multidimensional) que conecte a dos vectores $\bar{x}$ y $\bar{y}$ en $\mathbb{R}^n$. La diferenciabilidad la pediremos en todo un abierto que contenga al segmento. El enunciado apropiado se encuentra a continuación.

Teorema (del valor medio para campos escalares). Sea $S$ un abierto de $\mathbb{R}^n$. Tomemos $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ un campo escalar diferenciable. Sean $\bar{x}$ y $\bar{y}$ en $S$ tales que el segmento que une a $\bar{x}$ con $\bar{y}$ se queda contenido en $S$. Entonces, existe $c \in (0,1)$ tal que $$\nabla f((1-c )\bar{x}+c \bar{y})\cdot (\bar{y}-\bar{x})=f(\bar{y})-f(\bar{x}).$$

En este caso no podemos «pasar dividiendo $\bar{y}-\bar{x}$» pues no tiene sentido dividir entre vectores. Pero en el caso $n=1$ sí se puede, y justo obtenemos de vuelta el teorema del valor medio de $\mathbb{R}$ en $\mathbb{R}$. Uno podría pensar que entonces esta es una manera alternativa de demostrar el teorema para funciones de $\mathbb{R}$ en $\mathbb{R}$. Sin embargo, como veremos a continuación, la demostración de la versión para campos escalares usa la versión para funciones reales.

Demostración. Consideremos la función $\gamma:[0,1] \to \mathbb{R}^{n}$ dada $\gamma (t)=(1-t)\bar{x}+t\bar{y}$. Notemos que $\gamma$ es diferenciable, con $\gamma’ (t)=\bar{y}-\bar{x}$. Además, por hipótesis $f$ es diferenciable en $S$. Así, $f\circ \gamma:[0,1]\to \mathbb{R}$ también es diferenciable, y por regla de la cadena

\begin{align*}
(f\circ \gamma)'(t)&=\nabla f(\gamma(t))\cdot \gamma'(t)\\
&=\nabla f(\gamma(t))\cdot (\bar{y}-\bar{x}).
\end{align*}

¡Pero $f\circ \gamma$ ya es una función de $\mathbb{R}$ en $\mathbb{R}$! Así, podemos aplicarle el teorema del valor medio real (verifica las hipótesis como tarea moral). Al hacer esto, obtenemos que existe una $c\in (0,1)$ tal que
\begin{align*}
(f\circ \gamma)'(c) &= \frac{(f\circ \gamma)(1)-(f\circ \gamma)(0)}{1-0}\\
&=f(\bar{y})-f(\bar{x}).
\end{align*}

Usando la fórmula que obtuvimos por regla de la cadena para $(f\circ \gamma)’$ y la definición de $\gamma$ obtenemos que

$$ \nabla f((1-c)\bar{x}+c\bar{y})\cdot (\bar{y}-\bar{x})=f(\bar{y})-f(\bar{x}),$$

tal y como buscábamos.

$\square$

En el teorema anterior estamos pidiendo que $f$ sea diferenciable. Sin embargo, basta con que exista la derivada de la composición en el segmento que nos interesa y el resultado también se sigue. Es decir, tenemos la siguiente versión con una hipótesis más débil. La enunciamos pues la usaremos en la siguiente sección.

Teorema (del valor medio para campos escalares, hipótesis debilitada). Sea $S$ un abierto de $\mathbb{R}^n$. Tomemos $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ un campo escalar. Sean $\bar{x}$ y $\bar{y}$ en $S$ tales que el segmento que une a $\bar{x}$ con $\bar{y}$ se queda contenido en $S$ y tales que para toda $c\in[0,1]$ se cumple que la derivada (real) de $f((1-c)\bar{x}+c\bar{y}))$ existe. Entonces, existe $c \in (0,1)$ tal que $$\nabla f((1-c )\bar{x}+c \bar{y})\cdot (\bar{y}-\bar{x})=f(\bar{y})-f(\bar{x}).$$

La demostración es exactamente la misma.

Aplicación del teorema del valor medio

Como primera aplicación del teorema del valor medio para campos escalares mostraremos un criterio de diferenciabilidad muy útil, al que llamaremos el teorema de diferenciabilidad y derivadas parciales.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ un campo escalar. Supongamos que para cierto punto $\bar{a}\in S$ y cierta vecindad $B_r(\bar{a})\subset S$ existen las derivadas parciales $\frac{\partial f}{\partial x_{1}},\dots ,\frac{\partial f}{\partial x_{n}}$ y son continuas en $\bar{a}$. Entonces $f$ es diferenciable en $\bar{a}$.

Demostración. Elijamos un vector $\bar{u}=u_1\hat{e}_1+\dots +u_n\hat{e}_n$ de norma $1$ y tomemos $\bar{v}=\lambda \bar{u}$ con $\lambda$ suficientemente chico como para que $\bar{a}+\bar{v}$ esté en $B_{r}(\bar{a})$. Definamos los siguientes vectores:

\begin{align*}
\bar{v}_0&=\bar{0}\\
\bar{v}_1&=u_1\hat{e}_1\\
\bar{v}_2&=u_1\hat{e}_1+u_2\hat{e}_2\\
&\vdots\\
\bar{v}_n&=u_1\hat{e}_1+u_2\hat{e}_2+\ldots+u_n\hat{e}_n=\bar{u}.
\end{align*}

Con ellos creamos la siguiente suma telescópica para expresar a $f(\bar{a}+\bar{v})-f(\bar{a})$

\begin{align}
f(\bar{a}+\bar{v})-f(\bar{a})&=f(\bar{a}+\lambda \bar{u})-f(\bar{a}) \nonumber\\
&=\sum_{k=1}^{n}[f(\bar{a}+\lambda \bar{v}_{k})-f(\bar{a}+\lambda \bar{v}_{k-1})] \label{eq:telescopica}
\end{align}

Notemos que el $k$-ésimo término de esta suma puede ser escrito como $$f(\bar{a}+\lambda \bar{v}_{k-1}+\lambda u_{k}\hat{e}_{k})-f(\bar{a}+\lambda \bar{v}_{k-1}).$$ Para simplificar, definimos $\bar{b}_{k}=\bar{a}+\lambda \bar{v}_{k-1}$ y reescribiendo el $k$-ésimo término tenemos $$f(\bar{b}_{k}+\lambda u_{k}\hat{e}_{k})-f(\bar{b}_{k}).$$

Aplicando el teorema del valor medio con hipótesis debilidada para campos escalares a los puntos $\bar{b}_{k}$ y $\bar{b}_{k}+\lambda u_{k}\hat{e}_{k}$ (verifica las hipótesis), tenemos que para cada $k$ existe $\xi_k \in (0,1)$ tal que

\begin{align*}
f(\bar{b}_{k}+\lambda u_{k}\hat{e}_{k})-f(\bar{b}_{k})&=\triangledown f((1-\xi_k )\bar{b}_{k}+\xi_k (\bar{b}_{k}+\lambda u_{k}\hat{e}_{k}))\cdot (\lambda u_{k}\hat{e}_{k})\\
&=\lambda u_{k}\frac{\partial f}{\partial x_{k}}(\bar{c}_{k}),
\end{align*}

en donde hemos definido $\bar{c}_k:=(1-\xi_k )\bar{b}_{k}+\xi_k (\bar{b}_{k}+\lambda u_{k}\hat{e}_{k})$, que es un punto en el segmento que une a $\bar{b}_k$ con $\bar{b}_k+\lambda u_k\hat{e}_k$.

Tenemos pues que podemos escribir al $k$-ésimo término como:

$$f(\hat{b}_{k}+\lambda u_{k}\hat{e}_{k})-f(\bar{b}_{k})=\lambda u_{k}\frac{\partial f}{\partial x_{k}}(\bar{c}_{k}).$$

Notemos además que si $\lambda \to 0$, entonces $\bar{b}_{k}\to \bar{a}$, $\bar{c}_{k} \to a$ y $\bar{v}\to \bar{0}$.

Escribimos entonces la ecuación \eqref{eq:telescopica} como:

\begin{equation}
\label{eq:resumen}
f(\bar{a}+\bar{v})-f(\bar{a})=\lambda \sum_{k=1}^{n}u_k\frac{\partial f}{\partial x_{k}}(\bar{c}_{k})
\end{equation}

En unos momentos usaremos esta expresión. Antes de ello, estudiemos otro de los términos involucrados en la diferenciabilidad. Tenemos que:

\begin{align}
\triangledown f(\bar{a})\cdot \bar{v}&=\triangledown f(\bar{a})\cdot \lambda u \nonumber\\
&=\lambda \triangledown f(\bar{a})\cdot u \nonumber\\
&=\lambda \sum_{k=1}^{n}u_{k}\frac{\partial f}{\partial x_{k}}(\bar{a}) \label{eq:ppunto}.
\end{align}

Empecemos entonces a combinar lo visto hasta ahora para entender los términos en la definición de diferenciabilidad. Tenemos juntando \eqref{eq:resumen} y \eqref{eq:ppunto} que

\begin{align*}
f(\bar{a}+\bar{v})-f(\bar{a})-\triangledown f(\bar{a})\cdot v&=\lambda \sum_{k=1}^{n}u_{k}\frac{\partial f}{\partial x_{k}}(\bar{c}_{k})-\lambda \sum_{k=1}^{n}u_{k}\frac{\partial f}{\partial x_{k}}(\bar{a})\\&=\lambda \sum_{k=1}^{n}u_{k}\left[ \frac{\partial f}{\partial x_{k}}(\bar{c}_{k})-\frac{\partial f}{\partial x_{k}}(\bar{a}) \right].
\end{align*}

Como mencionamos, si $\lambda \to 0$ entonces $\bar{v}\to \bar{0}$. Además, $||\bar{v}||=|\lambda|$. Así:

\[ \lim\limits_{\bar{v}\to \bar{0}} \frac{|f(\bar{a}+\bar{v})-f(\bar{a})-\triangledown f(\bar{a})\cdot \bar{v}|}{||\bar{v}||}=\lim\limits_{\lambda \to 0} \left|\sum_{k=1}^{n}\left[ \frac{\partial f}{\partial x_{k}}(\bar{c}_{k})-\frac{\partial f}{\partial x_{k}}(\bar{a}) \right]u_{k}\right|.\]

Veamos qué más sucede cuando $\lambda \to 0$. Ya notamos que $\bar{c}_k\to \bar{a}$, así que usando la continuidad de las derivadas parciales tenemos:

\[ \lim\limits_{\lambda \to 0}\frac{\partial f}{\partial x_{k}}(\bar{c}_{k})=\lim\limits_{\bar{c}_{k}\to \bar{a}}\frac{\partial f}{\partial x_{k}}(\bar{c}_{k})=\frac{\partial f}{\partial x_{k}}(\bar{a}).\]

Aplicando desigualdad del trángulo en la suma, el límite buscado es menor o igual a

\[ \lim\limits_{\lambda \to 0}\sum_{k=1}^{n}\left|\left[ \frac{\partial f}{\partial x_{k}}(\bar{c}_{k})-\frac{\partial f}{\partial x_{k}}(\bar{a}) \right]u_{k}\right|=0.\]

Y aquí cada sumando se va a $0$. La conclusión final es que

\[ \lim\limits_{\bar{v}\to \bar{0}}\frac{|f(\bar{a}+\bar{v})-f(\bar{a})-\triangledown f(\bar{a})\cdot \bar{v}|}{||\bar{v}||}=0,\]

de modo que $f$ es diferenciable en $\bar{a}$.

$\square$

El regreso del teorema anterior no se vale

El teorema de diferenciabilidad nos dice que si las derivadas parciales existen y son continuas, entonces la función es diferenciable. Sin embargo, el regreso de este teorema no se vale, en el sentido de que existen funciones diferenciables cuyas derivadas parciales no son continuas. En otras palabras, si las derivadas parciales no son continuas, no podemos descartar la diferenciablidad de una función.

A continuación esbozamos un ejemplo que deberás completar como tarea moral.

Ejemplo. Consideremos la función

$$f(x,y)=\begin{cases} (x^2+y^2)\sin\left(\frac{1}{\sqrt{x^2+y^2}}\right) &\text{si $(x,y)\neq (0,0)$}\\ 0 & \text{si $(x,y)=(0,0)$}\end{cases}$$

Se puede demostrar que $f$ es diferenciable en $(0,0)$. De manera intuitiva, la función queda entre las funciones $(x,y)\to x^2+y^2$ y $(x,y)\to -x^2-y^2$. Se puede usar un argumento de acotamiento para mostrar que el plano tangente coincide entonces con el de estas funciones en $(0,0)$ que es el plano $z=0$. Verifica los detalles de tarea moral.

Así mismo, se puede ver que las derivadas parciales en $(0,0)$ existen y que de hecho se satisface $$\frac{\partial f}{\partial x} (0,0) = \frac{\partial f}{\partial y} (0,0) = 0.$$

Finalmente, se puede ver que las derivadas parciales no convergen a $0$. Fuera del $(0,0)$, tenemos por reglas de derivación que

\begin{align*} \frac{\partial f}{\partial x}(x,y) &= 2 x \sin \left(\frac{1}{\sqrt{x^2+y^2}}\right)-\frac{x \cos \left(\frac{1}{\sqrt{x^2+y^2}}\right)}{\sqrt{x^2+y^2}}\\ \frac{\partial f}{\partial y}(x,y) &= 2 y \sin \left(\frac{1}{\sqrt{x^2+y^2}}\right)-\frac{y \cos \left(\frac{1}{\sqrt{x^2+y^2}}\right)}{\sqrt{x^2+y^2}}. \end{align*}

Una manear de ver que estas no son contínuas es aproximándonos por un eje. Por ejemplo, puedes verificar que sobre el eje $x$, conforme $x\to 0$, tenemos que la primera parcial oscila entre $-1$ y $1$.

$\triangle$

Más adelante…

Hemos enunciado y demostrado una versión del teorema del valor medio para campos escalaras. Gracias a ella hemos podido mostrar que si un campo escalar tiene derivadas parciales continuas, entonces es diferenciable. Las aplicaciones del teorema del valor medio para campos escalares van más allá. En la siguiente entrada hablaremos de las derivadas parciales de orden superior. El teorema del valor medio para campos escalares nos permitirá demostrar que bajo ciertas condiciones, en cierto sentido estas derivadas parciales «conmutan».

Tarea moral

  1. ¿Qué dice el teorema del valor medio para campos escalares para la función $f(x,y)=\sin(x)\cos(y)$ tomando como extremos los puntos $\left(0,\frac{\pi}{2}\right)$ y $\left(\frac{\pi}{2},0\right)$? Verifica si puedes aplicar las hipótesis.
  2. En la demostración del teorema del valor medio que dimos, verifica que la función $f\circ \gamma$ dada en efecto satisface las hipótesis del teorema del valor medio real.
  3. Supongamos que $f:\mathbb{R}^n\to \mathbb{R}$ es diferenciable en un abierto $S$ que contiene al segmento cuyos extremos son ciertos vectores $\bar{x}$ y $\bar{y}$ de $\mathbb{R}^n$. Supongamos que $f(\bar{x})=f(\bar{y})$. ¿Será cierto siempre que $\nabla f$ se anula en algún vector del segmento que une $x$ con $y$? Ten cuidado, pues hay un producto escalar involucrado. En caso de que no siempre sea cierto, ¿Qué es lo que sí puedes garantizar?
  4. En la demostración del teorema de diferenciabilidad, verifica que se pueden usar las hipótesis del teorema del valor medio para campos escalares con hipótesis debilitada. Necesitarás ver que la derivada real que tiene que existir es justo una parcial de las que suponemos que existen, completa los detalles. Luego, verifica que en efecto la conclusión que obtuvimos es justo la que se obtiene. Observa además que no podemos usar el teorema del valor medio para campos diferenciables con la hipótesis usual pues necesitaríamos saber que $f$ es diferenciable, lo cual es justo lo que queremos mostrar.
  5. Completa el contraejemplo al regreso del teorema de diferenciabilidad. Entre otras cosas, tienes que hacer lo siguiente:
    • Verificar que en efecto la función es diferenciable en $(0,0)$. Puedes proceder por definición o acotando como se sugiere.
    • Revisar que las parciales en $(0,0)$ en efecto existen y coinciden con lo que sabemos a partir de que el plano tangente en el origen es $(0,0)$.
    • Obtener paso a paso la fórmula que dimos para las parciales, usando lo que sabes de regla de la cadena, derivadas en $\mathbb{R}$, etc.
    • Verificar que ninguna de las dos derivadas parciales es continua, completando el argumento de que al acercarnos por los ejes tenemos oscilaciones.

Entradas relacionadas

Cálculo Diferencial e Integral III: Formas cuadráticas

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior hablamos de formas bilineales. A partir de esta noción podemos introducir otra más: la de formas cuadráticas. Las formas cuadráticas son cruciales, pues es a partir de ellas que podemos hacer geometría en espacios vectoriales.

Formas bilineales simétricas

Hay unas formas bilineales que son especiales pues al intercambiar los vectores argumento no cambian de valor.

Definición. Una forma bilineal $b\in B(\mathbb{R}^n)$ es simétrica si $b(\bar{u},\bar{v})=b(\bar{v},\bar{u})$ para todos los $\bar{u},\bar{v}\in \mathbb{R}^n$.

Cuando una forma bilineal es simétrica, la matriz que la representa también. En efecto, si $A$ es una representación matricial de la forma bilineal $b$ en la base $\beta$, podemos escribir: \[b(\bar{u},\bar{v})=[\bar{u}]^{t}A[\bar{v}]=\left( [\bar{u}]^{t}A[\bar{v}] \right) ^{t}=[\bar{v}]^{t}A^{t}[\bar{u}].\]

En la igualdad de en medio usamos que $[\bar{u}]^{t}A[\bar{v}] \in \mathbb{R}$ para obtener que este producto matricial es igual a su transpuesta (¿por qué?). Así pues, si $b$ es simétrica: \[ [\bar{v}]^{t}A^{t}[\bar{u}]=b\left( \bar{u},\bar{v} \right)=b\left( \bar{v},\bar{u}\right)=[\bar{v}]^{t}A[\bar{u}],\]

para todo $\bar{u},\bar{v}\in \mathbb{R}^n$. En particular, al evaluar $b(\bar{e}_i,\bar{e}_j)$ para $\bar{e}_i,\bar{e}_j$ una pareja de elementos de la base $\beta$ obtenemos que $A$ y $A^{t}$ coinciden en cualquier entrada $(i,j)$. Por lo tanto $A=A^{t}$, entonces $A$ es simétrica.

Formas cuadráticas y su forma polar

Una forma cuadrática se obtiene de evaluar una forma bilineal usando el mismo vector para ambas entradas. Formalmente, tenemos lo siguiente.

Definición. Una función $q:\mathbb{R}^n \to \mathbb{R}$ es una forma cuadrática si existe una forma bilineal $b:\mathbb{R}^n\times \mathbb{R}^n\to \mathbb{R}$ tal que $q(\bar{v})=b(\bar{v},\bar{v})$ para todo $\bar{v}$ en $\mathbb{R}^n$. A $q$ le llamamos la forma cuadrática asociada a $b$.

Es posible que una misma forma cuadrática pueda ser creada por dos formas bilineales distintas.

Ejemplo. Tomemos la forma bilineal $b_1((x_1,x_2),(y_1,y_2))=0$ para todos $\bar{u},\bar{v}\in \mathbb{R}^2$ y la forma bilineal $b_2((x_1,x_2),(y_1,y_2))=x_1y_2-x_2y_1$. Si $q_1$ es la forma cuadrática asociada a $b_1$ y $q_2$ es la forma cuadrática asociada a $b_2$, se tiene que $q_1((x_1,x_2))=0$ para todo $(x_1,x_2)$ en $\mathbb{R}^2$, y también se tiene que $q_2((x_1,x_2))=0$ para todo $(x_1,x_2)$ en $\mathbb{R}^2$ (verifícalo). Así, aunque $b_1\neq b_2$, se tiene que $q_1=q_2$.

$\triangle$

Si agregamos la hipótesis adicional de que la forma bilineal que se usa sea simétrica, entonces sí tenemos unicidad. De hecho, podemos saber exactamente de qué forma bilineal simétrica $b$ viene una forma cuadrática dada $q$. Este es el contenido del siguiente teorema, que se llama el teorema de la identidad de polarización.

Teorema. Si $q$ es una forma cuadrática en $\mathbb{R}^n$, entonces existe una única forma bilineal $b$ simétrica tal que $q(\bar{v})=b(\bar{v},\bar{v})$ para todo $\bar{v}\in \mathbb{R}^n$. Más aún, \[ \begin{equation} b(\bar{u},\bar{v})=\frac{1}{2}\left(q(\bar{u}+\bar{v})-q(\bar{u})-q(\bar{v})\right). \end{equation}.\]

Demostración. Haremos sólo parte de la demostración: la de la unicidad. El resto puede consultarse, por ejemplo, en la entrada Formas cuadráticas, propiedades, polarización y teorema de Gauss. Supongamos que $q$ es forma cuadrática y que viene de la forma bilineal simétrica $B$. Desarrollando el lado derecho de la ecuación tenemos

\begin{align*}
\frac{1}{2}\left( q(\bar{u}+\bar{v})-q(\bar{u})-q(\bar{v})\right) &= \frac{1}{2}\left( B(\bar{u}+\bar{v},\bar{u}+\bar{v})-B(\bar{u},\bar{u})-B(\bar{v},\bar{v})\right)\\&=\frac{1}{2}\left(B(\bar{u}+\bar{v},\bar{u})+B(\bar{u}+\bar{v},\bar{v})-B(\bar{u},\bar{u})-B(\bar{v},\bar{v})\right)\\
&=\frac{1}{2}\left(B(\bar{u},\bar{u})+B(\bar{v},\bar{u})+B(\bar{u},\bar{v})+B(\bar{v},\bar{v})-B(\bar{u},\bar{u})-B(\bar{v},\bar{v})\right)\\
&=\frac{1}{2}\left(2B(\bar{u},\bar{v})\right)=B(\bar{u},\bar{v}).
\end{align*}

Esto muestra que la expresión del teorema es la única que podría servir para obtener la forma bilineal simétrica de la que viene $q$. El resto de la demostración consiste en ver que, en efecto, la expresión propuesta es bilineal y es simétrica.

$\square$

Por el teorema de la identidad de polarización, podemos siempre suponer que una forma cuadrática viene de una forma bilineal simétrica $b$, a la que le llamaremos su forma polar.

Forma matricial de una forma cuadrática

Definición. Sea $q$ una forma cuadrática de $\mathbb{R}^n$ y $\beta$ una base de $\mathbb{R}^n$. La forma matricial de $q$ en la base $\beta$ será la forma matricial de su forma polar en la base $\beta$.

Por lo visto anteriormente, si $b$ es simétrica, se representa por una matriz simétrica $A=a_{ij}$. Así, las formas matriciales de formas cuadráticas siempre son simétricas. Para evaluar $q$, podemos hacer lo siguiente:

\begin{align*}
q(\bar{v})&=b(\bar{v},\bar{v})\\
&=[\bar{v}]^{t}A[\bar{v}]\\
&=\begin{pmatrix}x_{1} & \dots & x_{n}\end{pmatrix} \begin{pmatrix} a_{11} & \dots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{n1} & \dots & a_{nn} \end{pmatrix} \begin{pmatrix} x_{1} \\ \vdots \\ x_{n} \end{pmatrix}
\end{align*}

Desarrollando el producto obtenemos $$q(\bar{v})=a_{11}x_{1}^{2}+a_{22}x_{2}^{2}+\dots +a_{nn}x_{n}^{2}+2\sum_{i<j}a_{ij}x_{i}x_{j}.$$

Esta última ecuación en las variables $x_{i}$ se denomina el polinomio cuadrático correspondiente a la matriz simétrica $A$.

Nota que si la matriz $A$ es diagonal, entonces $q$ tendrá el siguiente polinomio cuadrático: \[ \begin{equation} q(\bar{v})=[\bar{v}]^{t}A[\bar{v}]=a_{11}x_{1}^{2}+a_{22}x_{2}^{2}+\dots +a_{nn}x_{n}^{2}. \end{equation} \]

Este es un polinomio muy sencillo: no tendrá términos con «productos cruzados».

Teorema de Gauss para formas cuadráticas

Enseguida presentamos un teorema muy importante de formas cuadráticas. Su importancia radica en que siempre deseamos simplificar los objetos que tenemos.

Teorema. Sea $b$ una forma bilineal simétrica en $V$, un espacio vectorial de dimensión finita $n$ sobre $\mathbb{R}$. Entonces $V$ tiene una base $\{\bar{v}_{1},\dots ,\bar{v}_{n}\}$ en la que $b$ se representa por una matriz diagonal, es decir, $b(\bar{v}_{i},\bar{v}_{j})=0$ para $i\neq j$.

Demostración. Procederemos por inducción sobre $n=\dim V$. Si $\dim V=1$, se cumple claramente (¿Por qué?). Por tanto, podemos suponer $\dim V>1$. Si $b=0$, también la afirmación es cierta inmediatamente, pues $b$ se representa por una matriz de puros ceros. Si $q(\bar{v})=b(\bar{v},\bar{v})=0$ para todo $\bar{v}\in V$, al escribir $b$ en su forma polar se obtiene que $b=0$ . Por esta razón se puede suponer que existe un vector $\bar{v}_{1}\in V$ tal que $b(\bar{v}_{1},\bar{v}_{1})\neq0$. Sean $U$ el subespacio generado por $\bar{v}_{1}$ y $W$ el conjunto de aquellos vectores $\bar{v}\in V$ para los que $b(\bar{v}_{1},\bar{v})=0$. Afirmamos que $V=U\oplus W$.

  1. $U\cap W=\{\bar{0} \}$. Supongamos $\bar{u}\in U\cap W$. Como $\bar{u}\in U$, $\bar{u}=k\bar{v}_{1}$ para algún escalar $k\in \mathbb{R}$. Como $\bar{u}\in W$, $0=b(\bar{v}_{1},\bar{u})=b(\bar{v}_{1},k\bar{v}_{1})=kb(\bar{v}_{1},\bar{v}_{1})$. Pero $b(\bar{v}_{1},\bar{v}_{1})\neq 0$; luego $k=0$ y por consiguiente $\bar{u}=\bar{0}$. Así $U\cap W=\{ \bar{0}\}$.
  2. Veamos que $V=U+W$. Sea $\bar{v}\in V$. Consideremos $\bar{w}$ definido como: \[ \bar{w}=\bar{v}-\frac{b(\bar{v}_{1},\bar{v})}{b(\bar{v}_{1},\bar{v}_{1})}\bar{v}_{1}.\] Entonces \[ b(\bar{v}_{1},\bar{w})=b(\bar{v}_{1},\bar{v})-\frac{b(\bar{v}_{1},\bar{v})}{b(\bar{v}_{1},\bar{v}_{1})}b(\bar{v}_{1},\bar{v}_{1})=0. \] Así $\bar{w}\in W$. Por tanto $\bar{v}$ es la suma de un elemento de $U$ y uno de $W$. Entonces se cumple $V=U+W$.
    Ahora $b$ restringida a $W$ es una forma bilineal simétrica en $W$. Pero $\dim W=n-1$, luego existe una base $\{ \bar{v}_{2},\dots ,\bar{v}_{n} \}$ de $W$ tal que $b(\bar{v}_{i},\bar{v}_{j})=0$ para $i\neq j$ y $2\leq i,j\leq n$. Por la propia definición de $W$, $b(\bar{v}_{1},\bar{v}_{j})=0$ para $j=2,\dots n$. Por tanto, la base $\{\bar{v}_{1},\dots ,\bar{v}_{n} \}$ de $V$ tiene la propiedad requerida de que $b(\bar{v}_{i},\bar{v}_{j})=0$ para $i\neq j$.

$\square$

Tenemos pues que para toda forma bilineal simétrica tenemos una representación matricial diagonal. Dicho en otras palabras, para cualquier matriz simétrica $A$ en $M_n(\mathbb{R})$, se tiene que es congruente a alguna matriz diagonal. También de aquí se tiene que para toda forma cuadrática tenemos una representación matricial diagonal.

Formas cuadráticas positivas y positivas definidas

Otra noción importante para formas cuadráticas es la siguiente.

Definición. Diremos que una forma cuadrática $q:\mathbb{R}^n\to \mathbb{R}$ es positiva si se cumple que $q(\bar{x})\geq 0$ para todo $\bar{x}\in \mathbb{R}^n$. Diremos que es positiva definida si se cumple que $q(\bar{x})>0$ para todo $\bar{x}\in \mathbb{R}^n \setminus \{\bar{0}\}$.

Si $b$ es la forma bilineal simétrica que define a $q$ y $A$ es una matriz que represente a $b$ en alguna base $\beta$, se puede ver que $q$ es positiva si y sólo si $X^{t}AX\geq 0$ para todo $X\in \mathbb{R}^n$. Así mismo, es positiva definida si y sólo si $X^{t}AX>0$ para todo $X\neq 0$ en $\mathbb{R}^n$. Esto motiva la siguiente definición para matrices.

Definición. Sea $A\in \mathbb{R}^n$ una matriz simétrica. Diremos que es positiva si se cumple que $X^{t}AX\geq 0$ para todo $X\in \mathbb{R}^n$. Diremos que es, es positiva definida si y sólo si $X^{t}AX>0$ para todo $X\neq 0$ en $\mathbb{R}^n$.

Una propiedad importante que queda como tarea moral es que la propiedad de ser positiva (o positiva definida) es invariante bajo congruencia de matrices.

Hay otras maneras de saber si una matriz es positiva, o positiva definida. De hecho, en la entrada de Matrices positivas y congruencia de matrices de nuestro curso de Álgebra Lineal II puedes encontrar la siguiente caracterización:

Teorema. Sea $A$ una matriz simétrica en $M_n(\mathbb{R})$. Las siguientes afirmaciones son equivalentes:

  1. $A$ es positiva.
  2. $A$ es congruente a una matriz diagonal con puras entradas mayores o iguales a cero.
  3. $A$ puede ser escrita de la forma $B^{t}B$ para alguna matriz $B\in M_n(\mathbb{R})$.

Hay otro resultado más que relaciona a las matrices positivas definidas con sus eigenvalores.

Teorema. Si $A$ es una matriz simétrica en $M_n(\mathbb{R})$ y es positiva definida, entonces todos sus eigenvalores son positivos.

Matriz Hessiana

Veamos cómo se aplican algunas de las ideas vistas en cálculo. Retomemos la discusión de la entrada Polinomio de Taylor para campos escalares. Hacia el final de la entrada enunciamos el teorema de Taylor en el caso especial de grado $2$. Al tomar un campo escalar $f$ y un punto $\bar{a}$, el polinomio de Taylor de grado $2$ estaba dado como sigue:

$$T_{2,\bar{a}}(\bar{a}+\bar{v})=f(\bar{a})+\frac{(\bar{v}\cdot \triangledown )f(\bar{a})}{1!}+\frac{(\bar{v}\cdot \triangledown)^{2}f(\bar{a})}{2!}.$$

Donde

$$\frac{(\bar{v}\cdot \triangledown)^{2}f(\bar{a})}{2!}=\sum_{i=1}^{n}\sum_{j=1}^n v_{i}v_{j}\frac{\partial ^{2}f}{\partial x_{j}\partial x_{i}}(\bar{a}).$$

Observa que este sumando se puede pensar como una forma cuadrática:

\[ q(\bar{v})=\begin{pmatrix}v_{1} & \dots & v_n\end{pmatrix}\begin{pmatrix} \frac{\partial ^{2}f}{\partial x_{1}^{2}}(a) & \dots & \frac{\partial ^{2}f}{\partial x_{1}\partial x_{_{n}}}(\bar{a})\\ \vdots & \ddots & \vdots \\ \frac{\partial ^{2}f}{\partial x_{_{n}}\partial x_{1}}(\bar{a}) & \dots & \frac{\partial ^{2}f}{\partial x_{_{n}}^{2}}(\bar{a}) \end{pmatrix}\begin{pmatrix} v_{1} \\ \vdots \\ v_n\end{pmatrix}\]

La matriz de esta forma cuadrática tiene una importancia especial en el cálculo de varias variables, y por ello tiene su propia definición.

Definición. Sea $f$ un campo escalar definido sobre algún subconjunto abierto de $\mathbb{R}^{n}$. Si $f$ tiene derivadas parciales de segundo orden en el punto $\bar{a}$, a la siguiente matriz la llamamos la matriz hessiana de $f$ en $\bar{a}$:

\[ H_f(\bar{a})=\begin{pmatrix} \frac{\partial ^{2}f}{\partial x_{1}^{2}}(\bar{a}) & \dots & \frac{\partial ^{2}f}{\partial x_{1}\partial x_{_{n}}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial ^{2}f}{\partial x_{_{n}}\partial x_{1}}(\bar{a}) & \dots & \frac{\partial ^{2}f}{\partial x_{_{n}}^{2}}(\bar{a})\end{pmatrix}.\]

Cuando hablemos de optimización, esta matriz tomará un significado especial. Por ahora, enfoquémonos en entender cómo obtenerla.

Ejemplo. Encontraremos la matriz Hessiana del campo escalar $f(x,y)=\sin(xy)$ en el punto $\left( 1,\frac{\pi}{4} \right)$. Para ello, calculamos las siguientes derivadas parciales de orden $1$ y $2$:

\[ \frac{\partial f}{\partial x}=y\cos(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial x^{2}}=-y^{2}\sin(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial y\partial x}=\cos(xy)-xy\sin(xy) \]

\[ \frac{\partial f}{\partial y}=x\cos(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial y^{2}}=-x^{2}\sin(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial x\partial y}=\cos(xy)-xy\sin(xy).\]

Por lo tanto

\[ H(x,y)=\begin{pmatrix} -y^{2}\sin(xy) &\cos(xy)-xy\sin(xy) \\ \cos(xy)-xy\sin(xy) & -x^{2}\sin(xy) \end{pmatrix}.\]

Evaluando en el punto $\left(1,\frac{\pi}{4} \right),$

\[ H\left(1,\frac{\pi}{4} \right)=\begin{pmatrix} -\frac{\pi ^{2}}{16}\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2}\left( 1-\frac{\pi}{4}\right) \\ \frac{\sqrt{2}}{2}\left( 1-\frac{\pi}{4}\right) & -\frac{\sqrt{2}}{2} \end{pmatrix}.\]

$\triangle$

Mas adelante…

Con esto terminamos nuestro repaso de álgebra lineal, y con ello tenemos las herramientas necesarias para poder retomar nuestro estudio de las funciones en varias variables. En la siguiente entrada comenzaremos con el concepto de diferenciabilidad. A lo largo de las siguientes entradas, iremos viendo por qué las herramientas de álgebra lineal que desarrollamos son importantes.

Así mismo, cuando lleves un curso de Cálculo Diferencial e Integral IV también retomaras una parte importante de la teoría que hemos repasado.

Tarea moral

  1. Responder en la primer definición porque $[\bar{u}]^{t}A[\bar{v}]\in \mathbb{R}$.
  2. Demostrar que el espacio $W$ del último teorema es un subespacio vectorial de $V$.
  3. Explicar en la demostración del último teorema por qué éste se cumple cuando $b=0$ o $\dim V=1$.
  4. Explicar porque $\dim W=n-1$.
  5. Verifica que si una matriz $A$ es positiva definida, entonces cualquier matriz $B$ congruente a $A$ también es positiva definida.
  6. Demuestra el último teorema de esta entrada, es decir, que las matrices simétricas positivas definidas tienen eigenvalores positivos.

Entradas relacionadas

Cálculo Diferencial e Integral III: Formas lineales y formas bilineales

Por Alejandro Antonio Estrada Franco

Introducción

Hasta ahora hemos cubierto a modo de repaso varios temas de álgebra lineal relacionados con sistemas de ecuaciones lineales, transformaciones lineales, sus matrices asociadas y más. En esta y las entradas que siguen recordaremos más herramientas de álgebra lineal que serán de utilidad para nuestro contenido de diferenciabilidad. Hablaremos de las formas lineales de $\mathbb{R}^n$, de sus formas bilineales y de sus formas cuadráticas.

Como es usual, este contenido cubre sólo por encima lo que se vería en un curso completo de álgebra lineal, en donde se ahonda en varias demostraciones, se dan más ejemplos y se tratan espacios vectoriales más generales. Para estos temas en específico, las siguientes entradas pueden ser un buen punto de partida:

Formas lineales

Las formas lineales son transformaciones lineales, pero son unas muy específicas: las que caen en $\mathbb{R}$.

Definición. Una transformación lineal $\bar{\phi} :\mathbb{R}^n\to \mathbb{R}$ se le llama forma lineal o funcional lineal.

Definición. Llamaremos al espacio vectorial $\mathcal{L}(\mathbb{R}^n,\mathbb{R})$ el espacio dual de $\mathbb{R}^n$ y lo denotamos por ${\mathbb{R}^n}^\ast$.

Hay una relación directa entre las bases de $\mathbb{R}^n$ y las de ${\mathbb{R}^n}^\ast$. Como los elementos de ${\mathbb{R}^n}^\ast$ son transformaciones lineales, basta decir qué les hacen a los elementos de una base. De aquí se motiva la siguiente definición.

Definición. Tomemos una base $\beta=\{ \bar{e}_{1},\dots ,\bar{e}_{n} \}$ para $\mathbb{R}^n$. Sean $\bar{\phi} _{1},\dots ,\bar{\phi} _{n}\in {\mathbb{R}^n}^\ast$ definidas como sigue: \[ \bar{\phi} _{i}(\bar{e}_{j})=\left\lbrace\begin{array}{c} 1\hspace{1cm}si\hspace{1cm}i=j \\ 0\hspace{1cm}si\hspace{1cm}i\neq j. \end{array}\right. \]

A $\bar{\phi} _{1},\dots ,\bar{\phi} _{n}$ le llamamos la base dual a $\beta$ y la denotamos por $\beta^\ast$.

El nombre queda justificado por el siguiente resultado.

Teorema. Se tiene que $\beta^\ast=\{\bar{\phi} _{1},\dots ,\bar{\phi} _{n}\}$ es una base para ${\mathbb{R}^n}^\ast$.

Demostración. Debemos mostrar que $\beta^\ast$ es generador e independiente. Veremos que es generador, y la independencia lineal quedará de tarea moral. Tomemos $\bar{\alpha} \in {\mathbb{R}^n}^\ast$. Supongamos que para cada $j$ se tiene $\bar{\alpha} (\bar{e}_{j})=r_{j}$. Afirmamos que $\bar{\alpha} = r_{1}\bar{\phi} _{1} +\dots +r_{n}\bar{\phi} _{n}$.

Para mostrar la igualdad anterior, que es una igualdad de formas lineales, veremos la igualdad vector a vector. Sea $\bar{v}\in \mathbb{R}^n$. Calcularemos $\bar{\alpha} (\bar{v})$. Para ello, expresamos a $\bar{v}$ como combinación de elementos de $\beta$: $$\bar{v}=\sum _{i=1}^{n}x_{i}\bar{e}_{i}.$$

Al aplicar $\alpha$ obtenemos:

\begin{align*}
\bar{\alpha} (\bar{v})&=\bar{\alpha} \left( \sum _{i=1}^{n}x_{i}\bar{e}_{i} \right)\\
&=\sum_{i=1}^{n}x_{i}\bar{\alpha} (\bar{e}_{i})\\
&=\sum_{i=1}^{n}x_{i}r_{i}\\
&=\sum_{i=1}^{n}x_{i}r_{i}\bar{\phi} _{i}(\bar{e}_{i})\\
&= \sum_{i=1}^{n}r_{i}\bar{\phi }_{i}(x_{i}\bar{e}_{i})\\
&=\sum_{i=1}^{n}r_{i}\bar{\phi} _{i}\left( \sum_{k=1}^{n}x_{k}\bar{e}_{k} \right) \quad \text{(agregando varios $0$)}\\
&=\left( r_{1}\bar{\phi} _{1}+\dots +r_{n}\bar{\phi} _{n}\right)\left( \sum_{k=1}^{n}x_{k}\bar{e}_{k}\right)\\
&=\left( r_{1}\bar{\phi} _{1}+\dots +r_{n}\bar{\phi} _{n}\right)(\bar{v})\\
\end{align*}

Así se da la igualdad $\bar{\alpha} = r_{1}\bar{\phi} _{1} +\dots +r_{n}\bar{\phi} _{n}$, por lo tanto $\beta^\ast$ es un conjunto generador ${\mathbb{R}^n}^\ast$

$\square$

De la demostración podemos obtener algo más. Supongamos que tomamos $\bar{v}\in \mathbb{R}^n$ y una base $\beta=\{\bar{e}_1,\ldots,\bar{e}_n\}$. Supongamos que $\bar{v}=\sum_{i=1}^{n}x_{i}\bar{e}_{i}$. A partir de aquí, podemos construir una forma lineal $\psi(\bar{v})$ que cumple $\psi(\bar{v})=\sum_{i=1}^n x_i \bar{\phi}_i$. Se puede verificar que la asignación $\psi: \mathbb{R}^n\to {\mathbb{R}^n}^\ast$ es un isomorfismo. De aquí, obtenemos que $\mathbb{R}^n\cong {\mathbb{R}^n}^\ast$.

Hasta ahora, de cualquier base de $\mathbb{R}^n$ se puede obtener una base dual, que es base de ${\mathbb{R}^n}^\ast$. ¿Podemos hacer lo inverso? El siguiente resultado dice que sí, si tenemos una base para ${\mathbb{R}^n}^\ast$, podemos construir una para $\mathbb{R}^n$ muy conveniente.

Teorema. Dada $\beta^\ast =\{\bar{\phi} _{1},\dots ,\bar{\phi} _{n}\}$ base para ${\mathbb{R}^n}^\ast$, existe $\beta =\{\bar{w}_{1},\dots , \bar{w}_{n}\}$ base para $\mathbb{R}^n$; tal que $\bar{\phi} _{i}(\bar{w}_{j})=\delta _{ij}$ donde: \[ \delta_{ij}= \left\lbrace\begin{array}{c} 1\hspace{1cm}si\hspace{1cm}i=j \\ 0\hspace{1cm}si\hspace{1cm}i\neq j, \end{array} \right . \]

es decir, tal que $\beta^\ast$ es justo la base dual de $\beta$.

Demostración. Para construir la base deseada, hacemos los siguientes pasos. Cada paso está esbozado. Los detalles quedan como tarea moral.

  1. Primero notemos que para cada $i=1,\dots ,n$ se tiene, por el teorema de la dimensión, que:
    \begin{align*}
    n&=\dim\mathbb{R}^n\\
    &=\dim(\ker(\bar{\phi}_{i}))+\dim(\text{Im}(\bar{\phi} _{i}))\\
    &=\dim(\ker(\bar{\phi}_{i}))+1,
    \end{align*}
    en donde usamos que $\bar{\phi}_i$ es forma lineal no cero (por estar en una base), de donde su imagen tiene dimensión $1$. De aquí $\dim(\ker(\bar{\phi} _{i}))=n-1$. Si tomamos una base de $\ker(\bar{\phi}_i)$, tiene $n-1$ elementos y por lo tanto podemos completarla a una base de $\mathbb{R}^n$ agregando un cierto vector $\bar{v}_i$.
  2. Afirmamos que $\bar{v}_1,\bar{v}_2,\ldots,\bar{v}_n$ elegidos de la manera anterior son un conjunto linealmente independiente. En efecto, al tener una combinación lineal $$\alpha_1\bar{v}_1+\ldots + \alpha_n\bar{v}_n=\bar{0},$$ podemos para cada $i=1,\ldots,n$ aplicar $\bar{\phi}_i$ a ambos lados. Del lado izquierdo se eliminarán todos términos excepto $\alpha_i\bar{\phi}_i(\bar{v}_i)$. Como $\bar{\phi}_i(\bar{v}_i)\neq 0$, entonces $\alpha_i=0$ para todo $i=1,\ldots,n$. Como $\bar{v}_1,\ldots,\bar{v}_n$ son linealmente independientes, y son $n$, entonces son una base de $\mathbb{R}^n$.
  3. Ahora, pensemos que $\bar{\phi}_i(\bar{v}_i)=r_i\neq 0$. Podemos dividir entre $r_i$ para obtener $\bar{\phi}_i\left(\frac{\bar{v}_i}{r_i}\right)=1$.
  4. De todo lo anterior, $\{\bar{v}_{1}/r_{1},\dots ,\bar{v}_{n}/r_{n} \}$ es la base buscada.

$\square$

A la base conformada por los vectores $\bar{w}_1,\ldots,\bar{w}_n$ le llamamos la base primal de $\beta^\ast$.

En estos dos teoremas hemos desarrollado técnicas para construir bases para un espacio y su dual que se coordinan haciendo simples las evaluaciones de las funciones de la base dual sobre las de la base del espacio original. Entre estas dos bases para el espacio y su dual tenemos un par de ecuaciones que las correlacionan muy convenientemente.

Teorema. Sean $\{ \bar{v}_{1},\dots \bar{v}_{n}\}$ una base de $\mathbb{R}^n$ y $\{ \bar{\phi} _{1},\dots \bar{\phi} _{n} \}$ la base dual de ${\mathbb{R}^n}^\ast$. Para todo $\bar{u}\in \mathbb{R}^n$ tenemos $$\bar{u}=\sum_{i=1}^n\bar{\phi} _{i}(\bar{u})\bar{v}_{i}, $$ y para todo $\Phi \in {\mathbb{R}^n}^\ast$ tenemos $$\Phi =\sum_{i=1}^n\Phi (\bar{v}_{i})\bar{\phi} _{i}.$$

Demostración. Sea $\bar{u}\in \mathbb{R}^n$, supongamos $\bar{u}=\sum_{i}x_{i}\bar{v}_{i}$. Para cada $j$ entre $1$ y $n$, tenemos
\begin{align*}
\bar{\phi} _{j}(\bar{u})&=\sum_{i=1}^n x_{i}\bar{\phi} _{j}(\bar{v}_{i})\\
&=x_{j}\bar{\phi} _{j}(\bar{v}_{j})\\
&=x_{j}.
\end{align*}

De esta manera $x_{j}=\bar{\phi} _{j}(\bar{u})$, por tanto obtenemos $\bar{u}=\sum_{i=1}^n\bar{\phi} _{i}(\bar{u})\bar{v}_{i}$.

De manera similar, sea $\Phi \in {\mathbb{R}^n}^\ast$, supongamos $\Phi =\sum_{i}y_{i}\bar{\phi} _{i}$. Para cada $j$ entre $1$ y $n$, tenemos
\begin{align*}
\Phi (\bar{v}_{j})&=\sum_{i=1}^n y_{i}\bar{\phi} _{i}(\bar{v}_{j})\\
&=y_{j}\bar{\phi} _{j}(\bar{v}_{j})\\
&=y_{j}.
\end{align*}

Así hemos obtenido $\Phi (\bar{v}_{j})=y_{j}$, con lo que concluimos $\Phi = \sum_{i=1}^n \Phi (\bar{v}_{i})\bar{\phi} _{i}$.

$\square$

Formas bilineales

Este desarrollo teórico nos permite abordar las formas bilineales tal y como las usaremos mas adelante.

Definición. Sea $\mathbb{R}^n$ un espacio vectorial sobre $\mathbb{R}$. Una forma bilineal es una función $b:\mathbb{R}^n\times \mathbb{R}^n\to \mathbb{R}$ que satisface:

  1. $b(r\bar{u}_{1}+\bar{u}_{2},\bar{v})=rb(\bar{u}_{1},\bar{v})+b(\bar{u}_{2},\bar{v})$ para todo real $r$ y vectores $\bar{u}_1,\bar{u}_2,\bar{v}$ en $\mathbb{R}^n$, a lo que llamamos linealidad en la primera entrada.
  2. $b(\bar{u},r\bar{v}_{1}+\bar{v}_{2})=rb(\bar{u},\bar{v}_{1})+b(\bar{u},\bar{v}_{2})$ para todo real $r$ y vectores $\bar{v}_1,\bar{v}_2,\bar{u}$ en $\mathbb{R}^n$ a lo que llamamos linealidad en la segunda entrada.

Ejemplo. Sea $A\in M_n\left( \mathbb{R}\right)$. A partir de la matriz $A$ puede construirse una forma bilineal $b_{A}$ sobre $\mathbb{R}^{n}$. Para los vectores $\bar{x}=(x_{1},\dots ,x_{n})$ y $\bar{y}=(y_{1},\dots ,y_{n})$, queda definida como sigue

$$b_{A}(\bar{x},\bar{y})=\bar{x}^{T}A\bar{y}.$$

Realizando las cuentas matriciales, tenemos:

\begin{align*}
b_{A}(\bar{x},\bar{y})&=\begin{pmatrix}x_{1}\dots x_{n}\end{pmatrix} \begin{pmatrix} a_{11} & \dots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{n1} & \dots & a_{nn} \end{pmatrix}\begin{pmatrix}y_{1} \\ \vdots \\ y_{n} \end{pmatrix}\\
&=\sum_{i,j=1}^{n}x_{i}a_{ij}y_{j}.
\end{align*}

Queda como tarea moral verificar que $f_{A}$ en efecto es bilineal, lo que se recomienda verificar en la expresión $\bar{x}^{T}A\bar{y}$.

Un ejemplo todavía más concreto sería tomar la matriz $A=\begin{pmatrix} 2 & 5 \\ 3 & 4 \end{pmatrix}$. Al realizar las cuentas matriciales obtenemos:

$$\begin{pmatrix} x_1 & x_2 \end{pmatrix}\begin{pmatrix} 2 & 5 \\ -3 & 4 \end{pmatrix} \begin{pmatrix} y_1 \\ y_2 \end{pmatrix} = 2x_1y_1 + 5x_1y_2 – 3x_2y_1 + 4 x_2y_2.$$

$\triangle$

El espacio de formas bilineales

Denotaremos por $B(\mathbb{R}^n)$ al conjunto de las formas bilineales en $\mathbb{R}^n$. Le damos a $B(\mathbb{R}^n)$ estructura de espacio vectorial con las operaciones siguientes: $$(b_1+b_2)(\bar{u},\bar{v})=b_1(\bar{u},\bar{v})+b_2(\bar{u},\bar{v}),$$ y $$(rb)(\bar{u},\bar{v})=rb(\bar{u},\bar{v}),$$ para todos los $b_1,b_2,b\in B(\mathbb{R}^n)$ y $r\in \mathbb{R}$.

Con la teoría que tenemos hasta ahora, podemos construir fácilmente una base para el espacio $B(\mathbb{R}^n)$.

Teorema. Sea $\{\bar{\phi} _{1},\dots ,\bar{\phi} _{n}\}$ una base del espacio dual ${\mathbb{R}^n}^\ast$. Entonces $$\mathbb{B}=\{b_{ij}|i,j=1,\dots ,n \}$$ es una base para $B(\mathbb{R}^n)$, donde $$b_{ij}(\bar{u},\bar{v})=\bar{\phi} _{i}(\bar{u})\bar{\phi} _{j}(\bar{v}).$$ De este modo $\dim B(\mathbb{R}^n)=n^{2}$.

Demostración. Para $\{ \bar{\phi} _{1},\dots ,\bar{\phi} _{n}\}$ podemos construir su base primal $\{\bar{v}_{1},\dots ,\bar{v}_{n}\}$,es decir, base de $\mathbb{R}^n$ tal que $\bar{\phi} _{i}(\bar{v}_{j})=\delta _{ij}$, para todo $i,j$.

Veamos que las formas bilineales propuestas en efecto son un conjunto generador. Sea $b\in B(\mathbb{R}^n)$. Para $\bar{u},\bar{v}$ arbitrarios en $\mathbb{R}^n$, calculemos $b(\bar{u},\bar{v})$. Para ello recordemos que $$\bar{u}=\sum_{i=1}^n\bar{\phi}_{i}(\bar{u})\bar{v}_{i}$$ y $$\bar{v}=\sum_{j=1}^n\bar{\phi} _{j}(\bar{v})v_{ij}.$$ Usando esto:

\begin{align*}
b(\bar{u},\bar{v})&=b\left( \sum_{i=1}^n\phi _{i}(\bar{u})\bar{v}_{i}, \sum_{j=1}^n\bar{\phi} _{j}(\bar{v})\bar{v}_{j} \right)\\
&=\sum_{i=1}^n\bar{\phi} _{i}(\bar{u})b\left( \bar{v}_{i}, \sum_{j=1}^n\bar{\phi} _{j}(\bar{v})\bar{v}_{j} \right)\\
&=\sum_{i=1}^n\bar{\phi} _{i}(\bar{u})\sum_{j=1}^n\bar{\phi} _{j}(\bar{v})b(\bar{v}_{i}, \bar{v}_{j})\\
&=\sum_{i=1}^n\sum_{j=1}^n\bar{\phi} _{i}(\bar{u})\bar{\phi} _{j}(\bar{v})b(\bar{v}_{i}, \bar{v}_{j})\\
&=\sum_{i=1}^n\sum_{j=1}^n b_{ij}(\bar{u},\bar{v})b(\bar{v}_{i},\bar{u}_{j}).
\end{align*}

Así vemos que $b$ es combinación lineal del conjunto $\mathbb{B}$. Concluimos que $\mathbb{B}$ es un conjunto generador de $B(\mathbb{R}^n)$. Para calcular la dimensión de $B(\mathbb{R}^n)$, falta todavía ver que $\mathbb{B}$ es linealmente independiente, lo cual queda como tarea moral (en la lista de ejercicios hay una sugerencia). Tras probar que $\mathbb{B}$ es linealmente independiente, se tiene que $\dim B(\mathbb{R}^n)=n^{2}$.

$\square$

Forma matricial de formas bilineales

En el ejemplo anterior vimos cómo a partir de una matriz $A$ podemos construir una forma bilineal $(\bar{x},\bar{y})\to \bar{x}^T A \bar{y}$ de $\mathbb{R}^n$. En realidad así se pueden obtener todas las formas bilineales.

Definición. Consideremos una forma bilineal $b:\mathbb{R}^n\times \mathbb{R}^n \to \mathbb{R}$. Tomemos una base $\beta=\{\bar{u}_1,\ldots ,\bar{u}_n\}$. Tomemos la matriz $\text{Mat}_\beta(b)$ en $M_n(\mathbb{R})$ cuya entrada $(i,j)$ es $f(\bar{u}_{i},\bar{v}_{j})$. Llamaremos a esta matriz la representación matricial de $f$ relativa a la base $\beta$.

La matriz $A:=\text{Mat}_\beta(b)$ representa a $f$ en el siguiente sentido. Se tiene que, para cualesquiera $\bar{u},\bar{v}$ en $\mathbb{R}^n$ se cumple que si los vectores de coordenadas de $\bar{u}$ y $\bar{v}$ en la base $\beta$ son $X=(x_1,\ldots,x_n)$ y $Y=(y_1,\ldots,y_n)$, entonces:

\begin{align*}
b(\bar{u},\bar{v})&=\sum_{i=1}^n\sum_{j=1}^n x_{i}y_{j}b(\bar{u}_{i},\bar{u}_{j})\\
&=\begin{pmatrix} x_{1} & \dots & x_{n}\end{pmatrix}A\begin{pmatrix}y_{1} \\ \vdots \\ y_{n} \end{pmatrix}\\
&=X^{T}A Y.
\end{align*}

Ejemplo. Tomemos la forma bilineal $b$ de $\mathbb{R}^2$ dada por $$b((x_1,x_2),(y_1,y_2))=5x_1y_2+3x_2y_1$$ (verifica que es forma bilineal). Tomemos la base $(1,1)$ y $(1,-1)$ de $\mathbb{R}^2$. Para encontrar la representación matricial de $b$ en esta base, debemos hacer los siguientes cálculos:

\begin{align*}
b((1,1),(1,1))&=8\\
b((1,1),(1,-1))&=-2\\
b((1,-1),(1,1))&=2\\
b((1,-1)(1,-1))&=-8\\
\end{align*}

De esta manera, la representación matricial es $$\begin{pmatrix} 8 & -2 \\ 2 & -8 \end{pmatrix}.$$

$\triangle$

Matrices congruentes y rango

Recordemos dos definiciones más.

Definición. El rango de una matriz es el número máximo de columnas (tratadas como vectores columna) linealmente independientes. La notación para una matriz $A$ será $\rank(A)$.

Definición. Sean $A$ y $B$ matrices en $M_n(\mathbb{R})$. Se dice que $B$ es congruente a $A$ si existe una matriz invertible $P$ tal que $B=P^{t}AP$.

Es sencillo mostrar que esta relación «es congruente a» es una relación de equivalencia, lo cual queda como tarea moral revisar.

Por resultados de rango de matrices, se cumple que el rango de una matriz no cambia si la multiplicamos por una matriz invertible. Si $A$ y $B$ son congruentes mediante la matriz $P$, tenemos que $B=P^t A P$. Como $P$ es invertible, $P^t$ también. Así, $B$ tiene el mismo rango que $A$.

Al igual que con las transformaciones lineales, la representación matricial de las formas bilineales depende de la base del espacio dominio que se considere. Pero tenemos una relación importante entre distintas representaciones matriciales de formas bilineales.

Teorema. Cualesquiera dos representaciones matriciales de una misma forma bilineal son congruentes.

Demostración. Consideremos $b:\mathbb{R}^n\times \mathbb{R}^n\to \mathbb{R}$ una forma bilineal. Tomemos $\beta=\{\bar{v}_{1},\dots ,\bar{v}_{n}\}$ y $\beta’=\{\bar{u}_{1},\dots ,\bar{u}_{n}\}$ dos bases para $\mathbb{R}^n$. Supongamos que para cada $i$ tenemos $$\bar{v}_{i}=\sum_{k=1}^{n}c_{ik}\bar{u}_{k}.$$

Así:
\begin{align*}
b(\bar{v}_{i},\bar{v}_{j})&=b\left( \sum_{k=1}^{n}c_{ik}\bar{u}_{k},\sum_{t=1}^{n}c_{jt}\bar{u}_{t} \right)\\
&=\sum_{k=1}^n\sum_{t=1}^n c_{ik}c_{jt}b(\bar{u}_{k},\bar{u}_{t}).
\end{align*}

Definamos $a’_{kt}=b(\bar{u}_{k},\bar{u}_{t})$, y tomemos $A’$ como la matriz en $M_n(\mathbb{R})$ cuya entrada $(k,t)$ es $a’_{kt}$. Tenemos entonces:

\[b(\bar{v}_{i},\bar{v}_{j})=\begin{pmatrix}c_{i1} & \dots & c_{in} \end{pmatrix}A’\begin{pmatrix}c_{j1} \\ \vdots \\ c_{jn} \end{pmatrix}. \]

Definamos a la matriz $C$ en $M_n(\mathbb{R})$ a aquella con entradas $(k,t)$ iguales a $c_{kt}$. Al variar sobre los posibles valores de $(i,j)$, la igualdad anterior nos dice que la entrada $(i,j)$ de la forma matricial $A$ de $b$ en la base $\beta$ es igual a la entrada $(i,j)$ de la matriz $C^tA’C$, en donde notamos que $A’$ es la forma matricial de $b$ en la base $\beta’$. Esto nos dice que $A=C^{t}A’C$. Así $A$ y $A’$ son congruentes.

$\square$

Con esto, podemos establecer la siguiente definición sin ambigüedades.

Definición. El rango de una forma bilineal $b$ en $\mathbb{R}^n$, escrito $\rank(b)$ se define como el rango de cualquiera de sus representaciones matriciales. Además decimos que $b$ es degenerada o no degenerada según sea $\rank(b)<\dim\mathbb{R}^n$ o $\rank(b)=\dim\mathbb{R}^n$, respectivamente.

Más adelante…

Esta entrada repasa los conceptos de formas lineales y bilineales. La siguiente entrada será nuestra última entrada de repaso de álgebra lineal. Lo que haremos es recordar cómo a partir de las formas bilineales podemos definir a las formas cuadráticas. Las formas cuadráticas también nos ayudarán a establecer ciertas propiedades de funciones al combinarlas con la noción de diferenciabilidad.

En esta entrada hablamos del rango de una matriz. Más adelante retomaremos este concepto, y lo usaremos cuando enunciemos el teorema del rango, un resultado crucial en diferenciabilidad.

Tarea moral

  1. Realiza los siguientes dos problemas:
    • Encuentra la base dual de la base $\{(1,2,3),(3,2,1),(1,-1,0)\}$ de $\mathbb{R}^3$ explícitamente.
    • Encuentra una base de $\mathbb{R}^3$ cuya base dual sean las formas lineales $l_1(x,y,z)=x$, $l_2(x,y,z)=3x-2$, $l_3(x,y,z)=x+y-z$.
  2. Completa los detalles en cada paso del teorema que nos dice cómo obtener una base primar para una base dual.
  3. En el teorema de bases para el espacio de formas bilineales, verifica que el conjunto de formas lineales propuestas es linealmente independiente. Sugerencia. Toma una combinación lineal igual a cero; luego evalúa en los vectores de la base $\{\bar{v}_{1},\dots ,\bar{v}_{n}\}$. Recuerda la definición de $b_{ij}$ y el efecto de evaluar $\bar{\phi} _{j}$ en $\bar{v}_{i}$.
  4. Revisa este enlace correspondiente al curso de Álgebra Lineal I de este blog para profundizar en el tema del rango de una transformación lineal y cómo se relaciona con el rango de una matriz.
  5. Demuestra que la relación «es congruente a» es una relación de equivalencia en $M_n(\mathbb{R})$.

Entradas relacionadas

Cálculo Diferencial e Integral III: Polinomio característico

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior estudiamos las representaciones matriciales de una transformación lineal. Vimos cómo dadas ciertas bases del espacio dominio y codominio, existe un isomorfismo entre matrices y transformaciones lineales. Así mismo, planteamos la pregunta de cómo encontrar bases para que dicha forma matricial sea sencilla. Vimos que unos conceptos cruciales para entender esta pregunta son los de eigenvalor, eigenvector y eigenespacio. Lo que haremos ahora es introducir una nueva herramienta que nos permitirá encontrar los eigenvalores de una transformación: el polinomio característico.

A partir del polinomio característico daremos un método para encontrar también a los eigenvectores y, en algunos casos especiales, encontrar una representación de una transformación lineal como matriz diagonal. Todo lo que hacemos es una versión resumida de lo que se puede encontrar en un curso más completo de álgebra lineal. Dentro del blog, te recomendamos consultar las siguientes entradas:

Polinomio característico

Pensemos en el problema de hallar los eigenvalores de una transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$. Si $\lambda \in \mathbb{R}$ es uno de estos eigenvalores, queremos poder encontrar vectores $\bar{v}\neq \bar{0}$ tales que $T(\bar{v})=\lambda \bar{v}$. Esto sucede si y sólo si $\lambda \bar{v}-T(\bar{v})=\bar{0}$, lo cual sucede si y sólo si $(\lambda \text{Id}-T)(\bar{v})=\bar{0}$, en donde $\text{Id}:\mathbb{R}^n\to \mathbb{R}^n$ es la transformación identidad de $\mathbb{R}^n$ en $\mathbb{R}^n$. Tenemos de esta manera que $\bar{v}$ es un eigenvector si y sólo si $\bar{v}\in \ker(\lambda\text{Id}-T)$.

Si existe $\bar{v}\neq \bar{0}$ tal que $\bar{v}\in \ker(\lambda \text{Id}-T)$; entonces $\ker(\lambda \text{Id}-T)\neq \{ \bar{0}\}$ por lo cual la transformación $\lambda \text{Id}-T$ no es invertible, pues no es inyectiva. Así, en ninguna base $\text{Mat}_\beta(\lambda \text{Id}-T)$ es invertible, y por tanto su determinante es $0$. Estos pasos son reversibles. Concluimos entonces que $\lambda\in \mathbb{R}$ es un eigenvalor de $T$ si y sólo si en alguna base $\beta$ se cumple que $\det(\text{Mat}_\beta(\lambda \text{Id} – T))=0.$ Esto motiva la siguiente definición.

Definición. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal. Llamamos a $\det(\text{Mat}_\beta(\lambda \text{Id} – T))$ al polinomio característico de $T$ en la base $\beta$.

Por la discusión anterior, los escalares que cumplen $\det(\text{Mat}_\beta(\lambda \text{Id} – T))=0$ son los eigenvalores $T$. Para obtener los correspondientes eigenvectores, basta con resolver $\text{Mat}_\beta(T)X=\lambda X$, lo cual es un sistema de ecuaciones en el vector de variables $X$. Las soluciones $X$ nos darán las representaciones matriciales de vectores propios $\bar{v}\in \mathbb{R}^n$ en la base $\beta$.

Por el momento parece ser que tenemos mucha notación, pues debemos considerar la base en la que estamos trabajando. Un poco más adelante veremos que en realidad la base no importa mucho para determinar el polinomio característico. Pero por ahora, veamos un ejemplo concreto de las ideas platicadas hasta ahora.

Ejemplo: Consideremos $T:\mathbb{R}^{3}\rightarrow \mathbb{R}^{3}$ dada por $T(x,y,z)=(2x+z,y+x,-z)$. Calculemos su representación matricial con respecto a la base canónica $\beta$. Para ello, realizamos las siguientes evaluaciones:
\begin{align*}
T(1,0,0)&=(2,1,0)\\
T(0,1,0)&=(0,1,0)\\
T(0,0,1)&=(1,0,-1),
\end{align*}

de donde: $$\text{Mat}_\beta=\begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix}.$$

Calculando el polinomio característico obtenemos: \[ det\begin{pmatrix} \lambda-2 & 0 & -1 \\ -1 & \lambda-1 & 0 \\ 0 & 0 & \lambda+1 \end{pmatrix}= (\lambda-2)(\lambda-1)(\lambda+1). \]

Las raíces de $(\lambda-2)(\lambda-1)(\lambda+1)$ son $\lambda_{1}=2$, $\lambda_{2}=1$ y $\lambda_{3}=-1$. Pensemos ahora en quiénes son los eigenvectores asociados a cada eigenvalor. Tomemos como ejemplo el eigenvalor $\lambda=2$. Para que $(x,y,z)$ represente a un eigenvector en la base canónica, debe pasar que:

\[ \begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = 2\begin{pmatrix} x \\ y \\ z \end{pmatrix},\]

lo cual sucede si y sólo si:

\[\begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} – 2\begin{pmatrix} x \\ y \\ z \end{pmatrix}= \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix};\]

\[\left[ \begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} – 2\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}\right] \begin{pmatrix} x \\ y \\ z \end{pmatrix}= \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix};\]

\[\begin{pmatrix} 0 & 0 & 1 \\ 1 & -1& 0 \\ 0 & 0 & -3 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}.\]

De aquí, podemos llegar a la siguiente forma escalonada reducida del sistema de ecuaciones:

\[\begin{pmatrix} 1 & -1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}.\]

En esta forma es sencillo leer las soluciones. Tenemos que $z$ es variable pivote con $z=0$, que $y$ es variable libre, y que $x$ es variable pivote dada por $x=y$. Concluimos entonces que todos los posibles eigenvectores para el eigenvalor $2$ son de la forma $(y,y,0)$, es decir $E_2=\{(y,y,0): y \in \mathbb{R}\}$.

Queda como tarea moral que encuentres los eigenvectores correspondientes a los eigenvalores $1$ y $-1$.

$\triangle$

Matrices similares

En la sección anterior definimos el polinomio de una transformación lineal en términos de la base que elegimos para representarla. En realidad, la base elegida no es muy importante. Demostraremos un poco más abajo que dos representaciones matriciales cualesquiera de una misma transformación lineal tienen el mismo polinomio característico. Para ello, comencemos con la siguiente discusión.

Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal y sean $\beta_1=\{ \bar{e}_{1}, \dots , \bar{e}_{n}\}$, $\beta_2=\{ \bar{u}_{1}, \dots , \bar{u}_{n}\}$ dos bases (ordenadas) de $\mathbb{R}^n$. Supongamos que:

\begin{align*}
A&=\text{Mat}_{\beta_1}(T)=[a_{ij}]\\
B&=\text{Mat}_{\beta_2}(T)=[b_{ij}].
\end{align*}

Por cómo se construyen las matrices $A$ y $B$, tenemos que:

\begin{align*}
T(\bar{e}_j)&=\sum_{i=1}^n a_{ij} \bar{e}_i\quad\text{para $j=1,\ldots,n$}\\
T(\bar{u}_k)&=\sum_{j=1}^n b_{jk} \bar{u}_j\quad\text{para $k=1,\ldots,n$}.
\end{align*}

Como $\beta_{1}$ es base, podemos poner a cada un de los $\bar{u}_k$ de $\beta_{2}$ en términos de la base $\beta_{1}$ mediante combinaciones lineales, digamos:

\begin{equation}
\bar{u}_{k}=\sum_{j=1}^{n}c_{jk}\bar{e}_{j}
\label{eq:valor-u}
\end{equation}

en donde los $c_{jk}$ son escalares para $j=1,\ldots, n$ y $k=1,\ldots,n$. La matriz $C$ de $n\times n$, con entradas $c_{jk}$ representa a una transformación lineal invertible, ya que es una transformación que lleva uno a uno los vectores de una base a otra. Afirmamos que $CB=AC$. Para ello, tomaremos una $k$ en $[n]$ y expresaremos $T(\bar{u}_k)$ de dos formas distintas.

Por un lado, usando \eqref{eq:valor-u} y por como es cada $T(\bar{e}_k)$ en la base $\beta_{1}$ tenemos que:

\begin{align*}
T(\bar{u}_k)&=\sum_{j=1}^n c_{jk} T(\bar{e}_j)\\
&=\sum_{j=1}^n c_{jk} \sum_{i=1}^n a_{ij} \bar{e}_i\\
&=\sum_{j=1}^n \sum_{i=1}^n (c_{jk} a_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \sum_{j=1}^n (c_{jk} a_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \left(\sum_{j=1}^n a_{ij} c_{jk}\right) \bar{e}_i.
\end{align*}

Por otro lado, usando $\eqref{eq:valor-u}$ y por como es cada $T(\bar{u}_k)$ en la base $\beta_{2}$:

\begin{align*}
T(\bar{u}_k)&=\sum_{j=1}^nb_{jk} \bar{u}_j\\
&=\sum_{j=1}^n b_{jk} \sum_{i=1}^{n}c_{ji}\bar{e}_{j} \\
&=\sum_{j=1}^n \sum_{i=1}^n (b_{jk} c_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \sum_{j=1}^n (b_{jk} c_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \left(\sum_{j=1}^n c_{ij} b_{jk} \right) \bar{e}_i.
\end{align*}

Comparemos ambas expresiones para $T(\bar{u}_k)$. La primera es una combinación lineal de los $\bar{e}_i$ y la segunda también. Como $T(\bar{u}_k)$ tiene una única expresión como combinación lineal de los $\bar{e}_i$, entonces los coeficientes de la combinación lineal deben coincidir. Concluimos que para cada $i$ se cumple:

$$\sum_{j=1}^n a_{ij} c_{jk}=\sum_{j=1}^n c_{ij} b_{jk}.$$

Pero esto precisamente nos dice que la entrada $(i,k)$ de la matriz $AC$ es igual a la entrada $(i,k)$ de la matriz $CB$. Con esto concluimos que $AC=CB$, como queríamos.

En resumen, obtuvimos que para dos matrices $A$ y $B$ que representan a la misma transformación lineal, existe una matriz invertible $C$ tal que: $B=C^{-1}AC$. Además $C$ es la matriz con entradas dadas por \eqref{eq:valor-u}.

Introduciremos una definición que nos permitirá condensar en un enunciado corto el resultado que hemos obtenido.

Definición. Dos matrices $A$ y $B$ se llamarán similares (o semejantes), cuando existe otra matriz $C$ invertible tal que $B=C^{-1}AC$.

Sintetizamos nuestro resultado de la siguiente manera.

Proposición. Si dos matrices representan a la misma transformación lineal, entonces estas matrices son similares.

El recíproco de la proposición también se cumple, tal y como lo afirma el siguiente resultado.

Proposición. Sean $A$ y $B$ matrices similares. Entonces $A$ y $B$ representan a una misma transformación lineal $T$, quizás bajo distintas bases.

Demostración: Supongamos que las matrices $A$ y $B$ son similares con $B=C^{-1}AC$, donde las matrices $A$, $B$, $C$ están dadas por entradas $A=[a_{ij}]$ $B=[b_{ij}]$, $C=[c_{jk}]$. Tomemos una base ordenada $\beta=\{\bar{e}_{1}, \dots ,\bar{e}_{n}\}$ de $\mathbb{R}^n$. Consideremos la transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^n)$ dada por $$T(\bar{e}_j)=\sum_{i=1}^n a_{ij} \bar{e}_i.$$

De esta manera $T$ tiene forma matricial $A$ en la base $\beta$.

Construyamos ahora una nueva base ordenada de $\mathbb{R}^n$ dada por vectores $\bar{u}_k$ para $k=1,\ldots,n$ construidos como sigue:

$$\bar{u}_{k}=\sum_{j=1}^{n}c_{jk}\bar{e}_{j}.$$

Como $C$ es invertible, en efecto tenemos que $\beta’:=\{\bar{u}_1,\ldots,\bar{u}_n\}$ también es base de $\mathbb{R}^n$. Además, de acuerdo con las cuentas que hicimos anteriormente, tenemos que precisamente la forma matricial de $T$ en la base $\beta’$ será $B$.

Así, hemos exhibido una transformación $T$ que en una base tiene representación $A$ y en otra tiene representación $B$.

$\square$

Juntando ambos resultados en uno solo, llegamos a lo siguiente.

Teorema. Dos matrices $A$ y $B$ en $M_n(\mathbb{R})$ son similares si y sólo si representan a una misma transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$, quizás bajo distintas bases.

El polinomio característico no depende de la base

Si dos matrices son similares, entonces comparten varias propiedades relevantes para el álgebra lineal. Veamos un ejemplo de esto.

Teorema. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal en un espacio sobre $\mathbb{R}$ de dimensión finita. Sean $\beta$ y $\beta’$ bases de $\mathbb{R}^n$. Entonces se obtiene lo mismo calculando el polinomio característico de $T$ en la base $\beta$, que en la base $\beta’$.

Demostración. Tomemos $A=\text{Mat}_{\beta}(T)$ y $B=\text{Mat}_{\beta’}(T)$. Como $A$ y $B$ representan a la misma transformación lineal $T$, entonces son similares y por lo tanto existe $C$ invertible con $B=C^{-1}AC$.

Para encontrar el polinomio característico de $T$ en la base $\beta$, necesitamos $\Mat_{\beta}(\lambda\text{Id}-T)$, que justo es $\lambda I -A$. Así mismo, en la base $\beta’$ tenemos $\lambda I – B$. Debemos mostrar que el determinante de estas dos matrices es el mismo. Para ello, procedemos como sigue:

\begin{align*}
\det(\lambda I -B) &= \det (\lambda C^{-1}C – C^{-1} A C)\\
&=\det(C^{-1}(\lambda I – A) C)\\
&=\det(C^{-1})\det(\lambda I – A) \det(C)\\
&=\det(C^{-1})\det(C)\det(\lambda I-A)\\
&=\det(I)\det(\lambda I-A)\\
&=\det(\lambda I-A).
\end{align*}

Aquí estamos usando que el determinante es multiplicativo. Cuando reordenamos expresiones con $\det$, lo hicimos pues los determinantes son reales, cuyo producto es conmutativo.

$\square$

Este teorema nos permite hablar del polinomio característico de una transformación lineal.

Concluimos esta entrada con un resultado que relaciona al polinomio característico de una transformación lineal, con la posibilidad de que exista una base cuya representación matricial sea diagonal.

Teorema. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal. Supongamos que el polinomio característico de $T$ tiene raíces distintas $\lambda_{1}, \dots ,\lambda_{n}$. Entonces se cumple lo siguiente:

  1. Si tomamos un eigenvector $\bar{u}_i$ para cada eigenvalor $\lambda_i$, entonces $\bar{u}_{1},\dots ,\bar{u}_{n}$ forman una base $\beta$ para $\mathbb{R}^n$.
  2. Con dicha base $\beta$, se cumple que $\text{Mat}_\beta(T)$ es una matriz diagonal con entradas $\lambda_{1},\dots ,\lambda_{n}$ en su diagonal.
  3. Si $\beta’$ es otra base de $\mathbb{R}^n$ y $A=\text{Mat}_{\beta’}(T)$, entonces $\text{Mat}_\beta(T) = C^{-1}AC$ para una matriz invertible $C$ con entradas dadas por \eqref{eq:valor-u}.

La demostración de este resultado queda como tarea moral.

Más adelante…

En la entrada planteamos entonces un método para encontrar los eigenvectores de una transformación $T$: 1) la transformamos en una matriz $A$, 2) encontramos el polinomio característico mediante $\det(\lambda I – A)$, 3) encontramos las raíces de este polinomio, 4) cada raíz es un eigenvalor y las soluciones al sistema lineal de ecuaciones $(\lambda I – A) X=0$ dan los vectores coordenada de los eigenvectores.

Como platicamos en la entrada, una condición suficiente para que una transformación de $\mathbb{R}^n$ a sí mismo sea diagonalizable es que tenga $n$ eigenvalores distintos. Otro resultado muy bonito de álgebra lineal es que si la transformación tiene alguna forma matricial simétrica, entonces también es diagonalizable. A esto se le conoce como el teorema espectral para matrices simétricas reales. En otros cursos de álgebra lineal se estudia la diagonalizabilidad con mucho detalle. Aquí en el blog puedes consultar el curso de Álgebra Lineal II.

Otra herramienta de álgebra lineal que usaremos en el estudio de la diferenciabilidad y continuidad de las funciones de $\mathbb{R}^{n}$ a $\mathbb{R}^{m}$ son las formas bilineales y las formas cuadráticas. En la siguiente entrada comenzaremos con estos temas.

Tarea moral

  1. Encuentra los eigenvectores faltantes del ejemplo de la sección de polinomio característico.
  2. Considera la transformación lineal $T(x,y,z)=(2x+z,y+x,-z)$ de $\mathbb{R}^3$ en $\mathbb{R}^3$. Nota que es la misma que la del ejemplo de la entrada. Encuentra su representación matricial con respecto a la base $\{(1,1,1),(1,2,3),(0,1,1)\}$ de $\mathbb{R}^3$. Verifica explícitamente que, en efecto, al calcular el polinomio característico con esta base se obtiene lo mismo que con la dada en el ejemplo.
  3. Demuestra que si $A$ y $B$ son dos representaciones matriciales de una misma transformación lineal $T$, entonces $\det(A)=\det(B)$.
  4. Sea $T:\mathbb{R}^{3}\to \mathbb{R}^{3}$ dada por $T(x,y,z)=(x+y+z,x,y)$. Encuentra los eigenvalores correspondientes a la transformación, y responde si es posible representarla con una matriz diagonal. En caso de que sí, encuentra explícitamente la base $\beta$ en la cual $\text{Mat}_{\beta}(T)$ es diagonal.
  5. Demuestra el último teorema de la entrada. Necesitarás usar resultados de la entrada anterior.

Entradas relacionadas