Archivo de la etiqueta: desigualdades

Álgebra Lineal I: Producto interior y desigualdad de Cauchy-Schwarz

Por Leonardo Ignacio Martínez Sandoval

Introducción

Anteriormente, platicamos acerca de formas bilineales y de formas cuadráticas. Ahora veremos un tipo de formas bilineales especiales: las positivas y las positivas definidas. Las formas positivas definidas nos ayudan a definir qué es un producto interior. Esta es una noción fundamental que más adelante nos ayudará a definir distancias y ángulos.

Formas bilineales positivas y positivas definidas

Para hablar de geometría en espacios vectoriales, la siguiente noción es fundamental. Es importante notar que es una definición únicamente para formas bilineales simétricas.

Definición. Sea $b:V\times V\to \mathbb{R}$ una forma bilineal simétrica.

  • Diremos que $b$ es positiva si $b(x,x)\geq 0$ para todo vector $x$ de $V$.
  • Diremos que $b$ es positiva definida si $b(x,x)>0$ para todo vector $x\neq 0$ de $v$.

Tenemos una noción análoga para formas cuadráticas.

Definición. Sea $q:V\to \mathbb{R}$ una forma cuadrática con forma polar $b$. Diremos que $q$ es positiva si $b$ lo es, y diremos que es positiva definida si $b$ lo es.

Ejemplo 1. Como ya vimos antes, el producto punto de $\mathbb{R}^n$ es una forma bilineal simétrica. También es positiva definida, pues si tenemos $x=(x_1,\ldots,x_n)$, tenemos que $$x\cdot x = x_1^2+\ldots+x_n^2\geq 0,$$ y esta es una igualdad si y sólo si $x_1=\ldots=x_n=0$, lo cual sucede si y sólo si $x=0$.

$\triangle$

Ejemplo 2. Considera $V=\mathbb{R}_2[x]$ y consideremos la forma bilineal $b$ dada por $$b(p,q)=p(0)q(1)+p(1)q(0).$$ Esta es una forma bilineal simétrica pues \begin{align*}b(p,q)&=p(0)q(1)+p(1)q(0)\\&=q(0)p(1)+q(1)p(0)\\&=b(q,p).\end{align*} Notemos que $$b(p,p)=2p(0)p(1),$$ que no necesariamente es positivo. Por ejemplo, si tomamos el polinomio $p(x)=x-\frac{1}{2}$, tenemos que \begin{align*}b(p,p)&=2p(0)p(1)\\&=-2\cdot\frac{1}{2}\cdot\frac{1}{2}\\&=-\frac{1}{2}.\end{align*} Así, esta es una forma bilineal simétrica, pero no es positiva (y por lo tanto tampoco es positiva definida).

$\triangle$

Problema. Considera la forma cuadrática $Q$ en $M_{2}(\mathbb{R})$ que suma el cuadrado de las entradas de la diagonal de una matriz, es decir, aquella dada por $$Q\begin{pmatrix} a & b\\c & d\end{pmatrix}=a^2+d^2.$$ Determina su forma polar y si es positiva o positiva definida.

Solución. Para encontrar la forma polar $B$ de $Q$, usamos la identidad de polarización
\begin{align*}
B&\left(\begin{pmatrix}a&b\\c&d\end{pmatrix},\begin{pmatrix} e & f\\ g & h \end{pmatrix}\right)\\
&=\frac{(a+e)^2+(d+h)^2-a^2-e^2-d^2-h^2}{2}\\
&=\frac{2ae+2dh}{2}\\
&=ae+dh.
\end{align*}

Como $Q\begin{pmatrix}a&b\\c&d\end{pmatrix}=a^2+d^2\geq 0$, tenemos que $Q$ (y $B$) son positivas. Sin embargo, $Q$ no es positiva definida (ni $B$), pues por ejemplo, $$Q\begin{pmatrix}0&1\\1&0\end{pmatrix} = 0.$$

Producto interior

Estamos listos para definir aquellos espacios sobre los que podemos hacer geometría.

Definición. Sea $V$ un espacio vectorial sobre $\mathbb{R}$

  • Un producto interior en $V$ es una forma bilineal simétrica y positiva definida.
  • Decimos que $V$ es un espacio Euclideano si es de dimensión finita y está equipado con un producto interior.

Estamos siguiendo la convención del libro de Titu Andreescu, en donde es importante pedir que $V$ sea de dimensión finita para ser Euclideano.

Cuando estamos hablando de espacios con producto interior, o de espacios Euclideanos, tenemos una forma bilineal simétrica y positiva definida $b$. Sin embargo, en vez de usar constantemente $b(x,y)$, para simplificar la notación usaremos simplemente $\langle x, y\rangle$.

Definición. Si $V$ es un espacio con producto interior $\langle \cdot,\cdot \rangle$, definimos la norma de un vector $x$ como $$\Vert x \Vert =\sqrt{\langle x, x \rangle}.$$

Ejemplo. Como dijimos arriba, el producto punto en $\mathbb{R}^n$ es una forma bilineal simétrica, así que es un producto interior. Como $\mathbb{R}^n$ es de dimensión finita, entonces es un espacio Euclideano.

La norma de un vector $x=(x_1,\ldots,x_n)$ está dada por $\Vert x \Vert = \sqrt{x_1^2+\ldots+x_n^2},$ y geométricamente se interpreta como la distancia de $x$ al origen.

Un ejemplo más concreto es $\mathbb{R}^4$, en donde la norma del vector $(1,2,3,1)$ es $\sqrt{1^2+2^2+3^2+1^2}=\sqrt{15}$.

$\triangle$

La notación de producto interior quizás te recuerde la notación que se usa cuando hablamos de dualidad. Sin embargo, es muy importante que distingas los contextos. En el caso de dualidad, tenemos $$\langle \cdot, \cdot \rangle: V^\ast\times V \to \mathbb{R},$$ y en este contexto de producto interior tenemos $$\langle \cdot, \cdot \rangle: V\times V \to \mathbb{R}.$$ Más adelante, puede que te encuentres en tu preparación matemática con el teorema de representación de Riesz, a partir del cual tendrá sentido que se use la misma notación.

Desigualdad de Cauchy-Schwarz

A continuación presentamos un resultado fundamental es espacios con formas bilineales positivas y positivas definidas.

Teorema (desigualdad de Cauchy-Schwarz). Sea $b:V\times V\to \mathbb{R}$ una forma bilineal simétrica y $q$ su forma cuadrática asociada.

  • Si $b$ es positiva, entonces para todo $x$ y $y$ en $V$ tenemos que $$b(x,y)^2\leq q(x)q(y).$$ Si $x$ y $y$ son linealmente dependientes, se alcanza la igualdad.
  • Además, si $b$ es positiva definida y $x$ y $y$ son linealmente independientes, entonces la desigualdad es estricta.

Demostración. Supongamos primero solamente que $b$ es positiva. Consideremos la función $f:\mathbb{R}\to \mathbb{R}$ dada por $f(t)=q(x+ty)$. Como $q$ es forma cuadrática positiva, tenemos que $f(t)\geq 0$ para todo real $t$. Por otro lado, expandiendo y usando que $b$ es simétrica, tenemos que
\begin{align*}
f(t)&=q(x+ty)\\
&=b(x+ty,x+ty)\\
&=b(x,x)+2b(x,y)\cdot t + b(y,y) \cdot t^2\\
&=q(x) + 2b(x,y)\cdot t + q(y) \cdot t^2.
\end{align*}

En esta expresión, $q(x)$, $2b(x,y)$ y $q(y)$ son reales, así que $f(t)$ es un polinomio cuadrático en $t$. Como $f(t)\geq 0$ para todo $t$ en $\mathbb{R}$, el discriminante de este polinomio es no positivo, en otras palabras, $$(2b(x,y))^2-4q(x)q(y)\leq 0.$$

Sumando $4q(x)q(y)$ y dividiendo entre $4$ ambos lados de la desigualdad, obtenemos que $$b(x,y)^2\leq q(x)q(y),$$ la cual es la desigualdad que queremos.

Si $x$ y $y$ son linealmente dependientes, podemos despejar a uno en términos del otro. Sin perder generalidad, podemos suponer que $x=\alpha y$. En este caso, $$b(\alpha y,y)^2=\alpha^2 b(y,y)=q(\alpha(y))q(y),$$ así que se da la igualdad.

Ahora, supongamos además que $b$ es positiva definida y que se da la igualdad. Si esto sucede, el discriminante del polinomio cuadrático de arriba es igual a $0$ y por lo tanto el polinomio tiene una raíz $t$. En otras palabras, $q(x+ty)=0$. Pero como $q$ es positiva definida, esto implica que $x+ty=0$, de donde $x$ y $y$ son linealmente dependientes. Así, si $x$ y $y$ son linealmente independientes, tenemos que la desigualdad es estricta.

$\square$

El siguiente caso particular es uno de los más importantes y los más usados, por lo cual amerita que lo enunciemos separadamente.

Corolario. Sea $V$ un espacio vectorial sobre $\mathbb{R}$ equipado con un producto interior $\langle \cdot, \cdot \rangle$. Para cualesquiera $x,y$ en $V$ se cumple $|\langle x, y \rangle| \leq \Vert x \Vert \cdot \Vert y \Vert$.

Puede que te preguntes por qué enfatizamos los resultados de desigualdades. En varias partes de tu formación matemática trabajarás con espacios vectoriales en donde quieres hacer cálculo. Ahí, se define la convergencia y los límites en términos de una norma. Las desigualdades que probemos para espacios vectoriales son útiles para cuando se quiere demostrar la validez de ciertos límites. Más adelante mencionaremos algunas cosas adicionales al respecto.

Más adelante…

En esta entrada definimos el concepto de producto interior y vimos cómo el producto interior induce una norma en el espacio vectorial. El concepto de norma nos permite generalizar la noción de distancia y esto nos permitirá ver cómo se puede hacer cálculo en espacios vectoriales.

En las siguientes entradas veremos cómo se define esta norma para diferentes espacios vectoriales con diferentes productos interiores. Podremos ver entonces cómo se generalizan otras nociones que ya hemos visto en cursos anteriores; como el concepto de ángulo.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Considera la función $q(w,x,y,z)=wx+yz$. Muestra que es una forma cuadrática en $\mathbb{R}^4$. Encuentra su forma polar y determina si es una forma cuadrática positiva y/o positiva definida.
  • Muestra que $$q(w,x,y,z)=x^2+y^2+z^2+xy+yz+zx$$ es una forma cuadrática en $\mathbb{R}^4$ y determina si es positiva y/o positiva definida.
  • Considera $V=\mathcal{C}[0,1]$ el espacio vectorial de funciones continuas en el intervalo $[0,1]$. Muestra que $$\langle f,g\rangle = \int_0^1 f(x)g(x)\, dx$$ define un producto interior en $V$. ¿Es $V$ un espacio Euclideano? Determina la norma de la función $f(x)=x^3$.
  • Sea $V=\mathbb{R}_2[x]$ el espacio vectorial de polinomios con coeficientes reales y de grado a lo más $1$. Muestra que $$\langle p,q\rangle = p(0)q(0)+p(1)q(1)+p(2)q(2)$$ hace a $V$ un espacio Euclideano.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Lineal I: Problemas de transformaciones transpuestas y formas bilineales

Por Ayax Calderón

Introducción

En la entrada del miércoles pasado se definió el concepto de la transpuesta de una transformación lineal. Así mismo, se probó el impresionante y muy útil hecho de que si $A$ es la matriz asociada a la transformación $T$ con respecto a ciertas bases, entonces $^tA$ es la matriz asociada de la transformación $^tT$ con respecto a las bases duales. Comenzamos esta entrada con problemas de transformaciones transpuestas. Los problemas 1 y 2 de esta entrada nos servirán para repasar la teoría vista en esa clase.

Por otra parte, en la entrada del viernes pasado comenzamos con el estudio de las formas bilineales y también se definió la forma cuadrática asociada a una forma bilineal. Además, se presentó la identidad de polarización, la cuál dada una forma cuadrática $q$ nos recupera la única forma bilineal simétrica de la cuál viene $q$.

Para repasar esta teoría, en esta entrada se encuentran los problemas 3 y 4. El problema 4 es interesante porque introduce de manera sencilla los espacios de funciones $l_p$ , de los cuáles se hace un estudio mucho más profundo en un primer curso de análisis matemático. Además, para este problema hacemos uso de herramientas de convergencia de series.

Problemas resueltos

Veamos dos problemas de transformaciones transpuestas

Problema 1. Considera la transformación lineal $T:\mathbb{R}^3 \to \mathbb{R}^2$ dada por $$T(x,y,z)=(x+3y, x+y-z).$$
Sea $\mathcal{B}^*=\{e_1^*, e_2^*\}$ la base dual canónica de $\mathbb{R}^2$.
Calcula $^tT(e_1^*+e_2^*)$ y $^tT(e_1^*-e_2^*)$ en términos de la base dual canónica $\{f_1^\ast, f_2^\ast, f_3^\ast\}$ de $\mathbb{R}^3$.

Solución. Primero observemos que para un vector cualquiera de $\mathbb{R}^2$ se tiene que
\begin{align*}
e_1^*(x,y)&=x\\
e_2^*(x,y)&=y.
\end{align*}

entonces
\begin{align*}
(e_1^* + e_2^* )(x,y)&=x+y\\
(e_1^* – e_2^* )(x,y)&=x-y.
\end{align*}

Así,

\begin{align*}
(^tT(e_1^*&+e_2^*))(x,y,z)\\=&(e_1^* + e_2^*)(T(x,y,z))\\
=&(e_1^* + e_2^*)(x+3y, x+y-z)\\=&x+3y+x+y-z\\
=&2x+4y-z.
\end{align*}

Esto nos dice que $^tT(e_1^*+e_2^*)=2f_1^\ast+4f_2^\ast – f_3^\ast$.

Por otro lado,

\begin{align*}
(^tT(e_1^*&-e_2^*))(x,y,z)\\
=&(e_1^* – e_2^*)(T(x,y,z))\\
=&(e_1^* – e_2^*)(x+3y, x+y-z)\\
=&x+3y-x-y+z\\
=&2y+z.
\end{align*}

Por lo tanto, $ ^tT(e_1^*-e_2^*)) =2f_2^\ast+f_3^\ast.$

$\triangle$

Problema 2. Encuentra la matriz de $^tT$ con respecto a la base canónica de $\mathbb{R}^3$ sabiendo que

$T(x,y,z)=(x+y, y-z,x+2y-3z).$

Solución. Recordemos que para calcular la matriz asociada a una transformación con respecto a una base canónica sólo hace falta poner en la $i$-ésima columna la imagen del $i$-ésimo vector canónico. Por esto, calculamos los siguientes valores

$T(e_1)=T(1,0,0)=(1,0,1)$
$T(e_2)=T(0,1,0)=(1,1,2)$
$T(e_3)=(0,0,1)=(0,-1,-3).$

Entonces la matriz asociada a $T$ es

$A=\begin{pmatrix}
1 & 1 & 0\\
0 & 1 & -1\\
1 & 2 & -3\end{pmatrix}.$

Así, por Teorema 2 visto en la entrada de ortogonalidad y transformación transpuesta, sabemos que la matriz asociada a $^tT$ es justamente la matriz

$^tA=\begin{pmatrix}
1 & 0 & 1\\
1 & 1 & 2\\
0 & -1 & -3\end{pmatrix}$.

$\triangle$

Problemas de formas bilineales y cuadráticas

Problema 1. Demuestra que la transformación

$b:\mathbb{R}^2 \times \mathbb{R}^2 \to \mathbb{R}$
$b((x,y),(z,t))=xt-yz$

es una forma bilineal sobre $\mathbb{R}^2$. Describe la forma cuadrática asociada.

Demostración. Sea $(x,y)\in \mathbb{R}^2$ fijo. Queremos ver que

$b((x,y), \cdot):\mathbb{R}^2 \to \mathbb{R}$
definida por
$(u,v)\mapsto b((x,y),(u,v))$
es lineal.

Sean $(u,v),(z,t)\in \mathbb{R}^2$.

\begin{align*}
b(&(x,y),(u,v)+(z,t))\\&=b((x,y),(u+z, v+t))\\&=x(v+t)-y(u+z)\\&=(xv-yu)+(xt-yz)\\
&=b((x,y),(u,v))+b((x,y),(z,t)).
\end{align*}

Sea $k \in \mathbb{R}$.
\begin{align*}
b((x,y),k(u,v))&=b((x,y),(ku,kv))\\
&=kxv-kyu\\
&=k(xv-yu)\\
&=kb((x,y),(u,v)).
\end{align*}

Así, $(u,v)\mapsto b((x,y),(u,v))$ es lineal.

Ahora veamos que dado $(u,v)\in\mathbb{R}^2$ fijo, la transformación $(x,y)\mapsto b((x,y),(u,v))$ es lineal.

Sean $(x,y),(z,t)\in\mathbb{R}^2$ y $k\in \mathbb{R}$. Tenemos que
\begin{align*}
b((x&,y)+k(z,t),(u,v))\\
=&b((x+kz,y+kt),(u,v))\\
=&(x+kz)v – (y+kt)u\\
=& xv-kzv-yu-ktu\\
=&(xv-yu)+k(zv-tu)\\
=&b((x,y),(u,v))+kb((z,t),(u,v)).
\end{align*}

Así, $(x,y)\mapsto b((x,y),(u,v))$ es lineal y por consiguiente $b$ es una forma bilineal.

Ahora, tomemos $q:\mathbb{R}^2\to \mathbb{R}$ definida por $$q(x,y)=b((x,y),(x,y)).$$
Entonces $q(x,y)=xy-yx=0$. Así, la forma cuadrática cero es la forma cuadrática asociada a la forma bilineal $b$.

$\square$

Problema 2. Para un real $p\geq 0$, definimos el espacio $$l_p:=\left\{(x_n)_{n\in\mathbb{N}} : x_n\in\mathbb{R} \forall n\in \mathbb{N} ; \displaystyle\sum_{i\in \mathbb{N}}|x_i| ^p < \infty \right\}.$$

Notemos que para $p\in[1,\infty)$, $l_p$ es un espacio vectorial sobre $\mathbb{R}$ con las operaciones definidas de manera natural. La demostración no es totalmente trivial, pues hay que mostrar que este espacio es cerrado bajo la suma, y esto requiere de la desigualdad del triángulo para la norma $|\cdot |_p$. Puedes intentar demostrar esto por tu cuenta como tarea moral.

Ahora, considera $H:l_2\times l_2 \to\mathbb{R}$ definida por

$H((x_n)_{n\in \mathbb{N}},(y_n)_{n\in \mathbb{N}})=\displaystyle\sum_{n\in\mathbb{N}}x_ny_n$.


Demuestra que $H$ es una forma bilineal simétrica sobre $l_2$.

Demostración. Lo primero que haremos es mostrar que la forma bilineal que definimos en efecto tiene valores reales. Para ello, tenemos que ver que converge.

Observemos que para cada $n\in\mathbb{N}$ se tiene que

$0\leq(|x_n|- |y_n|)^2.$

Entonces ,
\begin{align*}
0&\leq |x_n| ^2 -2|x_ny_n|+ |y_n |^2\\
|x_n y_n|&\leq \frac{1}{2}(|x_n|^2 + |y_n|^2).
\end{align*}


Por consiguiente,

$\displaystyle\sum_{n\in\mathbb{N}}|x_n y_n|\leq \frac{1}{2}\left (\displaystyle\sum_{n\in\mathbb{N}}|x_n|^2 + \displaystyle\sum_{n\in\mathbb{N}}|y_n|^2 \right ) < \infty$.

Lo anterior se debe a que

$\displaystyle\sum_{n\in\mathbb{N}}|x_n|^2 < \infty$ ya que $(x_n)_{n\in \mathbb{N}}\in l_2$

y análogamente para $(y_n)_{n\in \mathbb{N}}$.

Así, $\displaystyle\sum_{n\in\mathbb{N}}x_n y_n < \infty$, pues converge absolutamente, y por lo tanto $H((x_n)_{n\in \mathbb{N}},(y_n)_{n\in \mathbb{N}})$ siempre cae en $\mathbb{R}$.

Ahora veamos que $H$ es bilineal. Sea $x=(x_n)_{n\in \mathbb{N}}\in l_2$ fija. Queremos ver que $$(y_n)_{n\in \mathbb{N}} \mapsto H((x_n)_{n\in \mathbb{N}},(y_n)_{n\in \mathbb{N}})$$ es lineal.

Sean $y=(y_n)_{n\in \mathbb{N}},z=(z_n)_{n\in \mathbb{N}}\in l_2$ y $k\in \mathbb{R}$.

Entonces

\begin{align*}
H(x,&y+kz)\\
&=\displaystyle\sum_{n\in\mathbb{N}}x_n y_n +kx_nz_n\\
&=\displaystyle\sum_{n\in\mathbb{N}}x_n y_n + k\displaystyle\sum_{n\in\mathbb{N}}x_n z_n\\
&= H(x,y) + k H(x,z).
\end{align*}

Así, $(y_n)_{n\in \mathbb{N}} \mapsto H((x_n)_{n\in \mathbb{N}},(y_n)_{n\in \mathbb{N}})$ es lineal.

De manera análoga se ve que si $(y_n)_{n\in \mathbb{N}} \in l_2$ fija, entonces $(x_n)_{n\in \mathbb{N}} \mapsto H((x_n)_{n\in \mathbb{N}},(y_n)_{n\in \mathbb{N}})$ es lineal.

Además
\begin{align*}
H(x,y)&=\displaystyle\sum_{n\in\mathbb{N}}x_n y_n\\
&=\displaystyle\sum_{n\in\mathbb{N}}y_n x_n \\
&= H(y,x).
\end{align*}

Por lo tanto, $H$ es una forma bilineal simétrica sobre $l_2$.

$\square$

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Muestra que en efecto $l_p$ es un espacio vectorial sobre $\mathbb{R}$ con las operaciones definidas entrada a entrada.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Lineal I: Formas bilineales, propiedades, ejemplos y aclaraciones

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores hemos platicado de dualidad, ortogonalidad y transformaciones transpuestas. Es importante que repases esas entradas y nos escribas si tienes dudas, pues ahora pasaremos a un tema un poco diferente: formas bilineales y cuadráticas. Estas nociones nos permitirán seguir hablando acerca de la geometría de espacios vectoriales en general.

Para esta parte del curso, nos vamos a enfocar únicamente en espacios vectoriales sobre $\mathbb{R}$. Se pueden definir los conceptos que veremos para espacios vectoriales en otros campos. Sobre todo, es posible definir conceptos análogos en $\mathbb{C}$ y obtener una teoría muy rica. Pero por ahora consideraremos sólo el caso de espacios vectoriales reales.

Aunque hablaremos de formas bilineales en general, una subfamilia muy importante de ellas son los productos interiores, que nos permiten hablar de espacios euclideanos. El producto interior es el paso inicial en una cadena muy profunda de ideas matemáticas:

  • Un producto interior nos permite definir la norma de un vector.
  • Con la noción de norma, podemos definir la distancia entre dos vectores.
  • A partir de un producto interior y su norma podemos mostrar la desigualdad de Cauchy-Schwarz, con la cual podemos definir ángulos entre vectores (por ejemplo, ¡podremos definir el ángulo entre dos polinomios!).
  • De la desigualdad de Cauchy-Schwarz, podemos probar que la noción de norma satisface la desigualdad del triángulo, y que por lo tanto la noción de distancia define una métrica.
  • Aunque no lo veremos en este curso, más adelante verás que una métrica induce una topología, y que con una topología se puede hablar de continuidad.

En resumen, a partir de un producto interior podemos hacer cálculo en espacios vectoriales en general.

Una forma bilineal con la cual probablemente estés familiarizado es el producto punto en $\mathbb{R}^n$, que a dos vectores $(x_1,x_2,\ldots,x_n)$ y $(y_1,y_2,\ldots,y_n)$ los manda al real $$x_1y_1+x_2y_2+\ldots+x_ny_n.$$ Este es un ejemplo de una forma bilineal que es un producto interior. También puede que estés familiarizado con la norma en $\mathbb{R}^n$, que a un vector $(x_1,\ldots,x_n)$ lo manda al real $$\sqrt{x_1^2+x_2^2+\ldots+x_n^2}.$$ Lo que está dentro de la raíz es un ejemplo de una forma cuadrática positiva definida. Incluyendo la raíz, este es un ejemplo de norma en espacios vectoriales.

Hay muchas otras formas bilineales y formas cuadráticas, pero los ejemplos mencionados arriba te pueden ayudar a entender la intuición detrás de algunos de los conceptos que mencionaremos. Para marcar algunas cosas en las que la intuición puede fallar, pondremos algunas «Aclaraciones» a lo largo de esta entrada.

En el futuro, tener una buena noción de la geometría de espacios vectoriales te ayudará a entender mucho mejor los argumentos de cursos de análisis matemático, de variable compleja y de optativas como geometría diferencial. Dentro de este curso, entender bien el concepto de forma bilineal te será de gran utilidad para cuando más adelante hablemos de formas multilineales y determinantes.

Formas bilineales

La definición fundamental para los temas que veremos en estas entradas es la siguiente, así que enunciaremos la definición, veremos varios ejemplos y haremos algunas aclaraciones.

Definición. Sea $V$ un espacio vectorial sobre $\mathbb{R}$. Una forma bilineal es una función $b:V\times V \to \mathbb{R}$ tal que:

  • Para todo $x$ en $V$, la función $b(x,\cdot):V\to \mathbb{R}$ que manda $v\in V$ a $b(x,v)$ es una forma lineal.
  • Para todo $y$ en $V$, la función $b(\cdot, y):V\to \mathbb{R}$ que manda $v\in V$ a $b(v,y)$ es una forma lineal.

Ejemplo 1. Considera el espacio vectorial de polinomios $\mathbb{R}_3[x]$ y considera la función $$b(p,q)=p(0)q(10)+p(1)q(11).$$ Afirmamos que $b$ es una forma bilineal. En efecto, fijemos un polinomio $p$ y tomemos dos polinomios $q_1$, $q_2$ y un real $r$. Tenemos que
\begin{align*}
b(p,q_1+rq_2)&=p(0)(q_1+rq_2)(10)+p(1)(q_1+rq_2)(11)\\
&= p(0)q_1(10)+p(1)q_1(11) + r ( p(0)q_2(10)+p(1)q_2(11))\\
&= b(p,q_1)+rb(p,q_2),
\end{align*}

De manera similar se puede probar que para $q$ fijo y $p_1$, $p_2$ polinomios y $r$ real tenemos que $$b(p_1+rp_2,q)=b(p_1,q)+rb(p_2,q).$$ Esto muestra que $b$ es una forma bilineal.

$\triangle$

Si $v=0$, entonces por el primer inciso de la definición, $b(x,v)=0$ para toda $x$ y por el segundo $b(v,y)=0$ para toda $y$, en otras palabras:

Proposición. Si $b$ es una forma bilineal en $b$, y alguno de $x$ o $y$ es $0$, entonces $b(x,y)=0$.

De la linealidad de ambas entradas de $b$, se tiene la siguiente proposición.

Proposición. Tomemos $b:V\times V\to \mathbb{R}$ una forma bilineal, vectores $x_1,\ldots,x_n$, $y_1,\ldots,y_m$ y escalares $a_1,\ldots,a_n,c_1,\ldots,c_m$. Tenemos que $$b\left(\sum_{i=1}^n a_ix_i, \sum_{j=1}^m c_j y_j\right)=\sum_{i=1}^n\sum_{j=1}^m a_ic_jb(x_i,y_j).$$

La proposición anterior muestra, en particular, que para definir una forma bilineal en un espacio vectorial $V$ de dimensión finita $n$, basta tomar una base $\{e_1,\ldots,e_n\}$ de $V$ y definir $b(e_i,e_j)$ para toda $1\leq i,j \leq n$.

Hagamos algunas aclaraciones acerca de las formas bilineales.

Aclaración 1. No es lo mismo una forma bilineal en $V$, que una transformación lineal de $V\times V$ a $\mathbb{R}$.

Ejemplo 2. La transformación $b((w,x),(y,z))=w+x+y+z$ sí es una transformación lineal de $\mathbb{R}^2\times \mathbb{R}^2 \to \mathbb{R}$, lo cual se puede verificar fácilmente a partir de la definición. Sin embargo, no es una forma bilineal. Una forma de verlo es notando que $$b((0,0),(1,1))=0+0+1+1=2.$$ Aquí una de las entradas es el vector cero, pero el resultado no fue igual a cero.

$\triangle$

Aclaración 2. Puede pasar que ninguna de las entradas de la forma bilineal sea $0$, pero que evaluando en ella sí de $0$.

Ejemplo 3. Consideremos la transformación $b:\mathbb{R}^2\times \mathbb{R}^2 \to \mathbb{R}$ tal que $$b((w,x),(y,z))=wy-xz.$$ Verificar que esta es una forma bilineal es sencillo y se deja como tarea moral. Además, se tiene que $b((1,0),(0,1))=0$.

$\triangle$

Más adelante, cuando definamos producto interior, nos van a importar mucho las parejas de vectores $v$, $w$ para las cuales $b(v,w)=0$.

Aclaración 3. Si $b$ es una forma bilineal, no necesariamente es cierto que $b(x,y)=b(y,x)$.

Ejemplo 4. Consideremos la transformación $b:\mathbb{R}^2\times \mathbb{R}^2 \to \mathbb{R}$ tal que $$b((w,x),(y,z))=wz-xy.$$ Verificar que esta es una forma bilineal es sencillo y se deja como tarea moral. Notemos que $b((2,1),(2,3))=6-2=4$, mientras que $b((2,3),(2,1))=2-6=-4$.

$\triangle$

Aquellas formas para las que sí sucede que $b(x,y)=b(y,x)$ son importantes y merecen un nombre especial.

Definición. Una forma bilineal $b:V\times V\to \mathbb{R}$ es simétrica si $b(x,y)=b(y,x)$ para todo par de vectores $x,y$ en $V$.

Para definir una forma bilineal $b$ simétrica en un espacio $V$ de dimensión finita $n$, basta tomar una base $\{e_1,\ldots,e_n\}$ y definir $b$ en aquellas parejas $b(e_i,e_j)$ con $1\leq i \leq j \leq n$.

Más ejemplos de formas bilineales

A continuación enunciamos más ejemplos de formas bilineales, sin demostración. Es un buen ejercicio verificar la definición para todas ellas.

Ejemplo 1. Si $a_1, a_2,\ldots, a_n$ son números reales y $V=\mathbb{R}^n$, entonces podemos definir $b:V\times V \to \mathbb{R}$ que manda a $x=(x_1,\ldots,x_n)$ y $y=(y_1,\ldots,y_n)$ a $$b(x,y)=a_1x_1y_1+\ldots+a_nx_ny_n.$$

Este es un ejemplo de una forma bilineal simétrica. Si todos los $a_i$ son iguales a $1$, obtenemos el producto punto o producto interior canónico de $\mathbb{R}^n$.

Ejemplo 2. Tomemos $V$ como el espacio vectorial de matrices $M_n(\mathbb{R})$. La transformación $b:V\times V\to \mathbb{R}$ tal que $b(A,B)=\text{tr}(AB)$ es una forma bilineal. Además, es simétrica, pues la traza cumple la importante propiedad $\text{tr}(AB)=\text{tr}(BA)$, cuya verificación queda como tarea moral.

Ejemplo 3. Tomemos $V$ el conjunto de funciones continuas y de periodo $2\pi$ que van de $\mathbb{R}$ a sí mismo. Es decir, $f:\mathbb{R}\to \mathbb{R}$ está en $V$ si es continua y $f(x)=f(x+2 \pi)$ para todo real $x$. Se puede mostrar que $V$ es un subespacio del espacio de funciones continuas, lo cual es sencillo y se queda como tarea moral. La transformación $b:V\times V \to \mathbb{R}$ tal que $$b(f,g)=\int_{-\pi}^\pi f(x) g(x)\, dx$$ es una forma bilineal.

Ejemplo 4. Consideremos $V=\mathbb{R}[x]$, el espacio vectorial de polinomios con coeficientes reales. Para $P$ y $Q$ polinomios definimos $$b(P,Q)=\sum_{n=1}^\infty \frac{P(n)Q(2n)}{2^n}.$$

La serie de la derecha converge absolutamente, de modo que esta expresión está bien definida. Se tiene que $b$ es una forma bilineal, pero no es simétrica.

Formas cuadráticas

Otra definición fundamental es la siguiente

Definición. Una forma cuadrática es una transformación $q:V\to \mathbb{R}$ que se obtiene tomando una forma bilineal $b:V\times V \to \mathbb{R}$ y definiendo $$q(x)=b(x,x).$$

Aclaración 4. Es posible que la forma bilineal $b$ que define a una forma cuadrática no sea única.

Ejemplo. Consideremos a la forma bilineal de $\mathbb{R}^2$ tal que $$b((x,y),(w,z))=xz-yw.$$ La forma cuadrática dada por $b$ es $$q(x,y)=b((x,y),(x,y))=xy-yx=0.$$ Esta es la misma forma cuadrática que la dada por la forma bilineal $$b'((x,y),(w,z))=yw-xz.$$ Pero $b$ y $b’$ son formas bilineales distintas, pues $b((1,0),(0,1))=1$, mientras que $b'((1,0),(0,1))=-1$.

$\triangle$

La aclaración anterior dice que puede que haya más de una forma bilineal que de una misma forma cuadrática. Sin embargo, resulta que la asignación es única si además pedimos a la forma bilineal ser simétrica. Este es el contenido del siguiente resultado importante.

Teorema (identidad de polarización). Sea $q:V\to \mathbb{R}$ una forma cuadrática. Existe una única forma bilineal simétrica $b:V\times V \to \mathbb{R}$ tal que $q(x)=b(x,x)$ para todo vector $x$. Esta forma bilineal está determinada mediante la identidad de polarización $$b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2}.$$

En la siguiente entrada mostraremos el teorema de la identidad de polarización. Por el momento, para tomar más intuición, observa como la identidad se parece mucho a la igualdad $$xy=\frac{(x+y)^2-x^2-y^2}{2}$$ en números reales.

Más adelante…

En esta entrada estudiamos una extensión de la noción de transformaciones lineales que ya habíamos discutido en la unidad anterior. Enunciamos algunos teoremas muy importantes sobre las transformaciones bilineales e hicimos algunos ejemplos de cómo podemos verificar si una transformación es bilineal. La noción de transformación bilineal, nos permitirá abordar un concepto muy importante: el producto interior.

En las siguientes entradas hablaremos del producto interior y cómo éste nos ayuda a definir ángulos y distancias entre vectores de un espacio vectorial.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Completa los detalles de la segunda parte del primer ejemplo.
  • Verifica que en efecto las transformaciones de los ejemplos de las aclaración 2 y 3 son formas bilineales.
  • Muestra que el subconjunto de funciones continuas $\mathbb{R}$ a $\mathbb{R}$ y de cualquier periodo $p$ es un subespacio del espacio vectorial $\mathcal{C}(\mathbb{R})$ de funciones continuas reales.
  • Demuestra que para $A$ y $B$ matrices en $M_{n}(F)$ se tiene que $\text{tr}(AB)=\text{tr}(BA)$.
  • Encuentra una forma cuadrática en el espacio vectorial $\mathbb{R}_3[x]$ que venga de más de una forma bilineal.
  • Muestra que el conjunto de formas bilineales de $V$ es un subespacio del espacio de funciones $V\times V \to \mathbb{R}$. Muestra que el conjunto de formas bilineales simétricas de $V$ es un subespacio del espacio de formas bilineales de $V$.
  • Piensa en cómo la igualdad $$xy=\frac{(x+y)^2-x^2-y^2}{2}$$ de números reales está relacionada con la identidad de polarización para el producto punto en $\mathbb{R}^n$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Seminario de Resolución de Problemas: Variantes del principio de inducción

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores ya hablamos acerca de la idea básica del principio de inducción y también vimos cómo la inducción puede interactuar con las heurísticas de trabajar hacia atrás y de generalización. En esta entrada hablaremos de dos formas adicionales y válidas en las que se puede hacer inducción.

Inducción fuerte

El principio de inducción funciona pues es un mecanismo que pasa por los números naturales «uno por uno». Al momento en el que suponemos la hipótesis inductiva para cierto natural $n$, lo que queremos hacer para continuar es mostrar la afirmación para el natural $n+1$. Es decir, el natural $n+1$ es el primer natural para el que todavía no sabemos que la afirmación funciona. Dicho de otra forma, para todo natural $m\leq n$ ya sabemos que la afirmación sí funciona.

Aunque típicamente usemos únicamente la afirmación para el paso $n$ para demostrar la validez del paso $n+1$, en realidad podríamos usar toda la información que ya tenemos de que la inducción se vale para todo $m$ entre la base inductiva y $n$. Esta es la idea detrás del principio de inducción fuerte.

Principio de inducción fuerte. Sea $P(n)$ una afirmación (o proposición o propiedad) que depende del número natural $n$. Si

  • la afirmación $P(a)$ es cierta y
  • la veracidad de la afirmación «$P(m)$ es cierto para todo $a\leq m \leq n$» implica la veracidad de la afirmación $P(n+1)$,

entonces la afirmación $P(n)$ es cierta para toda $n \geq a$.

Veamos un ejemplo de teoría de gráficas. No entraremos en detalles de las definiciones. Aunque no conozcas mucho de teoría de gráficas, es posible que de cualquier forma las definiciones te hagan sentido.

Problema. Un árbol es una gráfica que no tiene ciclos y que es conexa. Demuestra que todo árbol de $n$ vértices tiene $n-1$ aristas.

Solución. Lo vamos a demostrar por inducción sobre el número de vértices que tiene el árbol. Si el árbol tiene $1$ vértice, entonces el resultado es cierto, pues tiene $0$ aristas.

Tomemos ahora un entero $n$ y supongamos que el resultado es cierto para cuando el número de vértices es cualquier entero entre $1$ y $n$. Tomemos un árbol $T$ de $n+1$ vértices.

Árbol con $n+1$ vértices.

Tomemos una arista cualquiera de $T$ y quitémosla. Esto parte a $T$ en dos árboles (¡demuéstralo!) con, digamos $a$ y $b$ vértices, de modo que $a+b=n+1$.

Después de quitar la arista

Tenemos $1\leq a < n$ y $1\leq b <n$, así que cada uno de esos árboles tiene, por hipótesis inductiva, $a-1$ y $b-1$ aristas, respectivamente. Así, $T$ tiene esas aristas, y la que quitamos, es decir, $(a-1)+(b-1)+1=a+b-1=n$ aristas, como queríamos demostrar.

$\square$

Los que han estudiado teoría de gráficas quizás noten que pudimos haber evitado usar inducción fuerte si en vez de usar una arista arbitraria usábamos una que llegaba a un vértice hoja (de grado $1$). Haciendo eso se puede usar inducción «normal». La demostración anterior tiene la ventaja de no necesitar definir qué es una hoja.

Inducción de Cauchy

Hablemos ahora de otra variante. El principio de inducción es un mecanismo que nos permite probar una afirmación para los naturales «pasando por todos ellos» de una manera muy natural se prueba para el primero, luego para el siguiente, luego para el siguiente y así sucesivamente. Hay otras formas de cubrir a los números enteros.

Principio de inducción de Cauchy. Sea $P(n)$ una afirmación (o proposición o propiedad) que depende del número natural $n$. Si

  • la afirmación $P(1)$ es cierta,
  • la veracidad de la afirmación $P(n)$ implica la veracidad de la afirmación $P(2n)$ y
  • la veracidad de la afirmación $P(n)$ para un $n>a$ implica la veracidad de la afirmación $P(n-1)$,

entonces la afirmación $P(n)$ es cierta para toda $n \geq 1$.

Intuitivamente, lo que está pasando es que al probar $P(1)$ y la segunda afirmación, estamos probando $P(2)$, de ahí $P(4)$, de ahí $P(8)$ y en general $P(n)$ para cuando $n$ es potencia de $2$. Luego, con $P(4)$ y la tercera afirmación sale $P(3)$. Con $P(8)$ y la tercera afirmación sale $P(7), P(6),P(5)$. Esto garantiza cubrir todos los naturales pues para cualquier natural $n$ hay una potencia de dos $2^m$ mayor que él para la que sabemos que el resultado es cierto, y de ahí con la tercera afirmación «vamos bajando cubriendo todos los naturales», incluido $n$.

Como ejemplo, presentamos una demostración de la desigualdad entre la media aritmética y la media geométrica,

Problema. Sea $n$ un entero positivo y $x_1,x_2,\ldots,x_n$ números reales positivos. Demuestra que $$\frac{x_1+x_2+\ldots+x_n}{n}\geq \sqrt[n]{x_1x_2\cdots x_n}.$$

Solución. Vamos a proceder por inducción de Cauchy sobre $n$. Sea $P(n)$ la afirmación del problema.

En el caso $n=1$ tenemos sólo un real $x_1$ y tenemos que demostrar que $\frac{x_1}{1}\geq \sqrt[1]{x_1}$, lo cual es cierto pues en ambos lados tenemos $x_1$. Así, $P(1)$ es cierta.

Para el resto de la demostración, será útil que probemos también por separado el caso para dos números, es decir, $P(2)$. Pero esto es sencillo pues si tenemos reales positivos $a$ y $b$, entonces $\frac{a+b}{2}\geq \sqrt{ab}$ es equivalente a $a-2\sqrt{ab}+b\geq 0$, la cual es cierta pues el lado izquierdo es el número no negativo $(\sqrt{a}-\sqrt{b})^2$.

Ahora veremos que $P(n)$ implica $P(2n)$. Supongamos la veracidad de $P(n)$ y tomemos $2n$ números reales $x_1,x_2,\ldots,x_{2n}$. Queremos demostrar que $$\frac{x_1+\ldots+x_{2n}}{2n}\geq \sqrt[2n]{x_1\cdots x_{2n}}.$$ Llamemos $A$ al lado izquierdo y $G$ al lado derecho.

Sea $B$ la media aritmética de $x_1,\ldots, x_n$ y $C$ la de $x_{n+1},\ldots, x_{2n}$. Aplicando por separado $P(n)$ a estos números, tenemos que
\begin{align*}
B:=\frac{x_1+\ldots+x_n}{n}&\geq \sqrt[n]{x_1\cdots x_n}\\
C:=\frac{x_{n+1}+\ldots+x_{2n}}{n}&\geq \sqrt[n]{x_{n+1}\cdots x_{2n}}\\
\end{align*}

Notemos que $A=\frac{B+C}{2}$. Aplicando $P(2)$ a los números $B$ y $C$ tenemos que
\begin{align*}
A&=\frac{B+C}{2}\\
&\geq \sqrt[2]{BC} \\
&\geq \sqrt[2]{\sqrt[n]{x_1\cdots x_n} \cdot \sqrt[n]{x_{n+1}\cdots x_{2n}}}\\
& = G.
\end{align*}

Es decir, $P(2n)$ es cierta.

Para terminar con la inducción de Cauchy, el último paso es suponer la veracidad de $P(n)$ para $n>1$ y con ella demostrar la veracidad de $P(n-1)$. Supongamos entonces la veracidad de $P(n)$ y tomemos $n-1$ números $x_1,\ldots, x_{n-1}$. Queremos usar la veracidad de $P(n)$, así que tenemos que «inventarnos» otro número $m$ para poder aplicar $P(n)$. Tomemos $m=\frac{x_1+\ldots+x_{n-1}}{n-1}$, es decir, la media aritmética de los números de $x_1$ hasta $x_{n-1}$.

Observemos que $$\frac{x_1+\ldots+x_{n-1}+m}{n}=m.$$ Usando la veracidad de $P(n)$ para los números $x_1,\ldots, x_{n-1},m$ tenemos que $$m=\frac{x_1+\ldots+x_{n-1}+m}{n}\geq \sqrt[n]{x_1\cdots x_{n-1}m}.$$

Dividiendo entre $\sqrt[n]{m}=m^{1/n}$ en ambos extremos de la cadena, obtenemos $$m^{\frac{n-1}{n}}\geq \sqrt[n]{x_1 \cdots x_{n-1}}.$$

Elevando ambos lados de esta desigualdad a la $n/(n-1)$ obtenemos
$$m\geq \sqrt[n-1]{x_1 \cdots x_{n-1}}.$$

Esto es exactamente lo que queríamos probar. Con esto se comprueba la veracidad de $P(n-1)$ y así terminamos la inducción de Cauchy.

$\square$

La elección de $m$ en la última parte de la demostración parece un poco sacada de la manga. En realidad, sí tiene una cierta motivación. En la hipótesis $P(n)$ tenemos a la izquierda $\frac{x_1+x_2+\ldots+x_n}{n}$, pero lo que queremos es tener $\frac{x_1+x_2+\ldots+x_{n-1}}{n-1}$. Nuestra elección de $x_n=m$ vino de igualar ambas expresiones y despejar $x_n$.

Más ejemplos

Hay más ejemplos bastante elaborados del uso de estas ideas en Problem Solving Through Problems de Loren Larson, Secciones 2.1, 2.2, 2.3 y 2.4. Otro libro con muchos ejemplos interesantes es el Putnam and Beyond, de Gelca y Andreescu. También hay otros ejemplos de inducción en las siguientes entradas:

Una prueba del teorema de la función inversa

Por Leonardo Ignacio Martínez Sandoval

Introducción

Uno de los teoremas clave de los cursos de cálculo de varias variables es el teorema de la función inversa (TFI). En la Facultad de Ciencias de la UNAM se estudia en la materia Cálculo III. En esta entrada me gustaría presentar de la manera más auto-contenida posible este resultado.

Platicaré un poco de las definiciones de los términos que aparecen en el enunciado, así como de la intuición de por qué el teorema es cierto. Después presentaré los ingredientes principales para una prueba. Finalmente, presentaré la prueba intentando motivarla y dividiéndola en secciones pequeñas.

El enunciado con el que trabajaremos es el siguiente:

Teorema de la función inversa. Sea $F:\mathbb{R}^n\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$ con matriz Jacobiana $DF$. Supongamos que $F(a)=b$ y que $DF(a)$ es invertible. Entonces existen vecindades abiertas $U$ y $V$ de $a$ y $b$ respectivamente para las cuales:

a) $F:U\to V$ es una biyección,
b) su inversa $F^{-1}:V\to U$ es de clase $\mathcal{C}^1$ y
c) $DF^{-1}(b)=DF(a)^{-1}$.

Lo que nos espera es aproximadamente lo que está en el siguiente diagrama, donde las flechas indican a grandes rasgos qué resultado se usa para probar qué otro.

Definiciones e intuición

La función con la que comenzamos es una función de $\mathbb{R}^n$ a $\mathbb{R}^n$, así que la podemos descomponer en sus funciones coordenadas de la siguiente manera: $$F(x)=(F_1(x), F_2(x),\ldots, F_n(x)).$$

Que la función sea de clase $\mathcal{C}^1$ quiere decir que las derivadas parciales con respecto a cada una de las variables existen, que estas son continuas y que localmente $F$ «se comporta» como la transformación lineal correspondiente a la matriz Jacobiana siguiente:

$$DF(x)=\begin{pmatrix}
\frac{\partial F_1}{\partial x_1}(x) & \cdots & \frac{\partial F_1}{\partial x_n}(x)\\
\vdots & \ddots & \vdots \\
\frac{\partial F_n}{\partial x_1}(x) & \cdots & \frac{\partial F_n}{\partial x_n}(x)
\end{pmatrix}.$$

Entonces, a grandes rasgos lo que nos dice el teorema de la función inversa es lo siguiente. Si $F$ se comporta como una transformación lineal $T$ invertible «cerquita» del punto $a$, entonces en realidad es invertible «cerquita» del punto $a$ y más aún, la inversa se comporta como la transformación lineal $T^{-1}$ «cerquita» del punto $b=f(a)$.

Suena bastante razonable, pero hay algunos aspectos que son sorprendentes. Uno es que se garantiza la invertibilidad en todo un abierto $U$. Si no se requiriera que fuera abierto, sería chafa porque podríamos tomar $U=\{a\}$ y $V=\{b\}$ y la restricción sería trivialmente invertible. Lo otro es que el teorema también garantiza que la inversa es diferenciable, lo cual de entrada no es evidente.

Para la prueba necesitamos hablar de dos normas. Cuando tengamos un vector $x=(x_1,\ldots,x_n)$ en $\mathbb{R}^n$, $\norm{x}$ denotará la norma euclideana $$\norm{x}=\sqrt{\sum_{i=1}^nx_i^2}.$$

Necesitaremos también la norma de Frobenius. Como recordatorio, para una matriz $A=(a_{ij})$ de $n\times n$, su norma de Frobenius está dada por $$\norm{A}=\sqrt{\sum_{i=1}^n\sum_{j=1}^n a_{ij}^2},$$

o equivalentemente, si $A_i$ es el $i$-ésimo renglón de $A$, tenemos que

$$\norm{A}=\sqrt{\sum_{i=1}^n\norm{A_{i}}^2},$$

pues ambas expresiones suman todas las entradas de la matriz al cuadrado.

Ingredientes para la prueba

Pasemos ahora a algunos resultados auxiliares que es más cómodo probar desde antes. Algunos de ellos son más generales que lo que enuncio (e incluso con la misma prueba), pero con el fin de que la demostración sea auto-contenida, he decidido enunciar sólo lo que necesitamos.

Teorema del punto fijo de Banach (para $\mathbb{R}^n$). Sea $X$ un compacto de $\mathbb{R}^n$ y $\varphi:X\to X$ una función continua. Supongamos que $\varphi$ es una contracción, es decir, que existe un real $0<\lambda<1$ para el cual $\norm{\varphi(x)-\varphi(y)}\leq\lambda \norm{x-y}$ para todos $x,y \in X$.

Entonces $\varphi$ tiene un único punto fijo, es decir existe uno y sólo un punto $x_0\in X$ para el cual $\varphi(x_0)=x_0$.

Para probar el teorema del punto fijo de Banach basta tomar cualquier punto inicial $x_1$ y considerar la sucesión $\{x_m\}$ construida recursivamente con la regla $x_m=\varphi(x_{m-1})$ para $m\geq 2$. Usando que $\varphi$ es contracción y la fórmula para series geométricas se puede mostrar inductivamente que para $m>m’$ se tiene

$$\norm{x_m-x_m’}\leq\lambda ^{m’-1} \norm{x_2-x_1} \left(\frac{1}{1-\lambda}\right).$$

Como $\lambda<1$, el lado derecho se hace arbitrariamente pequeño conforme $m’$ se hace grande, así que ésta es una sucesión de Cauchy. Por la compacidad de $X$ y completud de $\mathbb{R}^n$, tenemos que la sucesión converge a un punto $x_0$. Por continuidad, este punto satisface:

$$x_0=\lim_{m\to \infty} x_{m+1} = \lim_{m\to \infty} \varphi(x_m)=\varphi\left(\lim_{m\to \infty} x_m\right) = \varphi(x_0).$$

La unicidad no necesita la compacidad de $X$, sino únicamente que $\varphi$ sea contracción. En efecto, si hay otro punto fijo $x$ entonces

$$\norm{x-x_0}=\norm{\varphi(x)-\varphi(x_0)}\leq \lambda \norm{x-x_0},$$

de donde $\norm{x-x_0}=0$, pues si no se tendría una contradicción. Así, $x=x_0$.

Desigualdades para la norma de Frobenius. Para $x\in \mathbb{R}^n$ y $A,B$ matrices reales de $n\times n$ tenemos que
a) $\norm{Ax}\leq \norm{A} \norm{x}$ y
b) $\norm{AB}\leq \norm{A} \norm{B}$.

La desigualdad (a) se prueba usando la desigualdad de Cauchy-Schwarz. En efecto, si $A_1,\ldots, A_n$ son los renglones de la matriz $A$, tenemos que $$Ax=(A_1\cdot x, A_2\cdot x, \ldots, A_n\cdot x),$$

entrada a entrada tenemos por Cauchy-Schwarz que

$$(A_i\cdot x)^2\leq \norm{A_i}^2\norm{x}^2,$$

de modo que sumando para $i=1,\ldots, n$ tenemos que

$$\norm{Ax}^2\leq \left(\sum_{i=1}^n \norm{A_i}^2\right)\norm{x}^2=\norm{A}^2\norm{x}^2,$$

lo cual prueba la desigualdad (a). La desigualdad (b) se prueba de manera similar, tomando fila por fila a la matriz $A$ y columna por columna a la matriz $B$.

Desigualdad del valor medio. Sea $U\subset \mathbb{R}^n$ un abierto convexo y $F:U\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$. Sean $x,y$ puntos en $U$ para los cuales la cual la norma de Frobenius del Jacobiano $\norm{DF}$ está acotada sobre el segmento $xy$ por una constante $C$. Entonces:

$$\norm{F(x)-F(y)}\leq C \norm{x-y}.$$

La desigualdad del valor medio requiere de algunos pasos intermedios. Definamos $h=y-x$. La clave es probar las siguientes tres afirmaciones:

\begin{align*}
F(x)-F(y)&=\int_0^1 DF(x+th) h \,dt\\
\norm{\int_0^1 DF(x+th) h \, dt } &\leq \int_0^1 \norm{DF(x+th)}\norm{h}\, dt\\
\int_0^1 \norm{DF(x+th)}\norm{h}\, dt &\leq C \norm{h}.
\end{align*}

La primera es una «generalización» del teorema del valor medio de una variable. Se prueba coordenada a coordenada usando el Teorema Fundamental del Cálculo, la regla de la cadena y un intercambio de integral con suma (usando la continuidad de las derivadas parciales).

La segunda se prueba usando desigualdad del triángulo para integrales y la desigualdad (a) que probamos arriba para la norma de Frobenius.

La tercera se sigue de manera inmediata de la cota hipótesis para la matriz Jacobiana, pues $x+th=x+t(y-x)$ recorre el segmento $xy$ conforme $t$ recorre el intervalo $[0,1]$.

Combinando las tres afirmaciones concluimos

$$\norm{F(x)-F(y)}\leq C\norm{h}=C\norm{y-x},$$

que es justo lo que queríamos probar.

Con esto terminamos los pre-requisitos para probar el TFI. Aquí ya se ve algo interesante sucediendo. En el TFI queremos mostrar que cierta restricción es biyectiva, osea que cierto sistema de ecuaciones tiene una y sólo una solución. Esto se asemeja al teorema del punto fijo de Banach, donde, bajo ciertas condiciones de contracción, hay uno y sólo un punto fijo. El teorema de la desigualdad media puede ayudar a mostrar que una función contrae. Todo esto no es casualidad. A continuación veremos cómo combinar estos ingredientes.

Demostración del TFI

Estamos listos para dar la demostración del teorema de la función inversa. Por comodidad, aquí lo enunciamos de nuevo:

Teorema de la función inversa. Sea $F:\mathbb{R}^n\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$ con matriz Jacobiana $DF$. Supongamos que $F(a)=b$ y que $DF(a)$ es invertible. Entonces existen vecindades abiertas $U$ y $V$ de $a$ y $b$ respectivamente para las cuales:

a) $F:U\to V$ es una biyección,
b) su inversa $F^{-1}:V\to U$ es de clase $\mathcal{C}^1$ y
c) $DF^{-1}(b)=DF(a)^{-1}$.

Para el teorema necesitamos definir quién es el abierto $U$. Lo tomaremos como $U:=B(a,\epsilon)$, una bola abierta y centrada en $a$ de radio $\epsilon$. La idea es tomar $\epsilon$ tan pequeño como para que para $x\in U$ tengamos que $DF(x)$ sea invertible y

$$\norm{DF(a)-DF(x)}\leq \frac{1}{2\norm{DF(a)^{-1}}}.$$

Ambas cosas las podemos hacer pues la asignación $x \mapsto DF(x)$ es continua ya que $F$ es de clase $\mathcal{C}^1$. En el transcurso de la prueba discutiremos la motivación de esta elección. A $V$ lo tomaremos como $F(U)$.

Lo primero que haremos es reformular parte (a) en términos de puntos fijos. Queremos que la restricción $F:U\to V$ que estamos buscando sea biyectiva. En otras palabras, para $y\in V$ queremos que la ecuación $y=F(x)$ tenga una y sólo una solución $x$ en $U$. Como por hipótesis la matriz $DF(a)$ es invertible, esto sucede si y sólo si

$$x+DF(a)^{-1}(y-F(x))=x,$$

es decir, si y sólo si $x$ es un punto fijo de la función $\varphi_y(x)=x+DF(a)^{-1}(y-F(x))$. Parece un poco artificial haber introducido a $DF(a)^{-1}$, pero como veremos a continuación tiene sentido pues nos ayudará para que $\varphi_y$ sea contracción.

Teniendo en mente que queremos usar la desigualdad del valor medio, calculamos y acotamos la norma de la derivada de $\varphi_y$ como sigue

\begin{align*}
\norm{D\varphi_y (x)} &= \norm{I – DF(a)^{-1} DF(x)} \\
&= \norm{DF(a)^{-1}(DF(a) – DF(x))}\\
&\leq \norm{DF(a)^{-1}}\norm{DF(a)-DF(x)}
\end{align*}

Aquí es donde usamos (y se motiva parte de) nuestra elección de $U$: nos permite acotar $\norm{DF(a)-DF(x)}$ superiormente con $\frac{1}{2\norm{DF(a)^{-1}}} $ y por lo tanto podemos concluir la desigualdad anterior como

\begin{align}\norm{D\varphi_y (x)} \leq \frac{1}{2}.\end{align}

Por la desigualdad del valor medio, concluimos la siguiente observación clave.

Observacion. Para $y$ en $V$ tenemos que $\varphi_y$ es contracción en $U$ con factor $\lambda=\frac{1}{2}$. En otras palabras, para $x,w$ en $U$, tenemos $$\norm{\varphi_y(x)-\varphi_y(w)}\leq \frac{\norm{x-x’}}{2}.$$

La prueba a partir de ahora se divide en los siguientes pasos:

  1. Mostrar que $F:U\to V$ es biyectiva.
  2. Mostrar que $V$ es abierto
  3. Mostrar que $F^{-1}:V\to U$ es diferenciable y y $DF^{-1}(b)=DF(a)^{-1}$
  4. Mostrar que las derivadas parciales son continuas

$F:U\to V$ es biyectiva.

La suprayectividad la tenemos gratis, pues por definición $V=F(U)$.

Para la inyectividad, tomamos $y\in V$ y supongamos que existen $x$ y $w$ en $U$ tales que $F(x)=y=F(w)$. Esto quiere decir que $x$ y $w$ son puntos fijos de la contracción $\varphi_y$. Como vimos en la prueba del teorema del punto fijo de Banach, esto implica que $x=w$. Así, $x=w$, de modo que $F:U\to V$ es inyectiva y por lo tanto es biyectiva.

Nota: Aquí no estamos usamos el teorema del punto fijo de Banach pues $U$ no es compacto. Sólo estamos usando que las contracciones son inyectivas.

$V$ es abierto

Tomemos $y’$ en $V$, es decir, para la cual existe $x’$ en $U$ con $F(x’)=y’$. Queremos ver que si «$y$ está muy cerquita de $y’$» , entonces hay una solución para $F(x)=y$ con $x$ en $U$.

Como $U$ es abierto, existe $r$ tal que la bola $B(x’,2r)$ abierta de centro $x’$ y radio $2r$ se queda contenida en $U$. Tomemos $y$ en la bola $B\left(y’,\frac{r}{2\norm{DF(a)^{-1}}}\right)$. Vamos a ver que $F(x)=y$ tiene solución en $U$. Consideremos la función $\varphi_y$, pero restringida a la bola cerrada $X:=\overline{B}(x’,r)\subset U$. Mostraremos que la imagen de $\varphi_y$ se queda contenida en $\overline{B}(x’,r)$. En efecto:

\begin{align*}
\norm{\varphi_y(x)-x’}&=\norm{\varphi_y(x)-\varphi_y(x’)+DF(a)^{-1}(y-y’)}\\
&\leq \norm{\varphi_y(x)-\varphi_y(x’)}+\norm{DF(a)^{-1}}\norm{y-y’}\\
&\leq \frac{\norm{x-x’}}{2}+\frac{r}{2}\leq r.
\end{align*}

De este modo, $\varphi_y$ es una contracción del compacto $X$ a sí mismo. Por lo tanto, tiene un punto fijo en $X$, de modo que $F(x)=y$ para $x\in X\subset U$. Esto muestra que $V=F(U)$ es abierto.

$F^{-1}:V\to U$ es diferenciable y $DF^{-1}(b)=DF(a)^{-1}$

Vamos a demostrar que $F^{-1}:V\to U$ es diferenciable a partir de la definición de diferenciabilidad. Más aún, veremos que si $y=F(x)$ para $x$ en $U$, entonces $DF^{-1}(y)=DF(x)^{-1}$. Aquí es donde se termina de motivar nuestra elección en $U$, pues nos garantiza que a la derecha en efecto tenemos una matriz invertible.

Tomemos entonces $y=F(x)$. Nos interesa el límite cuando $\norm{h}\to 0$ de la siguiente expresión

$$\frac{\norm{F^{-1}(y+h)-F^{-1}(y)-DF(x)^{-1}h}}{\norm{h}},$$

Como $U$ es abierto, si $\norm{h}$ es pequeña entonces $y+h$ está en $U$. De este modo, existe $k$ tal que $x+k \in U$ y $F(x+k)=y+h$. Así, la expresión anterior la podemos reescribir como

\begin{align}\frac{\norm{DF(x)^{-1}(F(x+k)-F(x)-DF(x)k)}}{\norm{k}}\frac{\norm{k}}{\norm{h}}\end{align}

Antes de continuar, probemos una desigualdad auxiliar. Notemos que

\begin{align*}
\norm{k}-\norm{DF^{-1}(a)h} &\leq \norm{k-DF^{-1}(a)h}\\
&=\norm{\varphi_y(x+k)-\varphi_y(x)}\\
&\leq\frac{\norm{k}}{2},
\end{align*}

así,

\begin{align}\norm{k}\leq 2\norm{DF^{-1}(a)h} \leq 2\norm{DF^{-1}(a)}\norm{h}.\end{align}

Substituyendo el valor de $\norm{k}$ en (2), concluimos que la expresión es menor o igual a

\begin{align}2\norm{DF(x)^{-1}}\frac{\norm{F(x+k)-F(x)-DF(x)k}}{\norm{k}}\norm{DF^{-1}(a)}\end{align}

Estamos listos para terminar. La desigualdad (3) también garantiza que $\norm{k}\to 0$ cuando $\norm{h}\to 0$. Así, como $F$ es diferenciable, tenemos que la expresión (4) tiende a $0$. Esto muestra que $F^{-1}$ es diferenciable en $y$ con $DF^{-1}(y)=DF(x)^{-1}$, tal como queríamos.

Las derivadas parciales son continuas

Esta parte es sencilla a partir de la parte anterior. Tenemos que:

$$DF^{-1}(b)=DF(F^{-1}(b))^{-1}$$

Por la regla de Cramer la inversa de una matriz depende continuamente de las entradas de la matriz original. Además, la asignación $b \mapsto F^{-1}(b)$ es continua. Así, las entradas de $DF^{-1}(b)$ (las derivadas parciales de $F^{-1}$) dependen continuamente de las derivadas parciales de $F$, que dependen continuamente de $b$ por hipótesis.

Con esto termina la prueba.

¿Ahora qué?

Si te gustó esta entrada, puedes compartirla o revisar otras relacionadas con matemáticas a nivel universitario: