Archivo de la etiqueta: infinitos

Álgebra Superior II: El tamaño de los naturales y de cada natural

Introducción

En la entrada pasada, demostramos que todo número natural es el conjunto formado por los elementos $\{0,1,…,n-1\}$. Esto nos dice intuitivamente que cada número natural $n$, tiene exactamente $n$ elementos. Pero, de modo formal, ¿qué quiere decir que un conjunto tenga $n$ elementos? Esto lo precisaremos en esta entrada. Más aun, siguiendo esta idea, definiremos que quiere decir que un conjunto sea infinito. Después, veremos las propiedades que los conjuntos finitos e infinitos tienen.

El tamaño de los conjuntos

A la hora de pensar en determinar el tamaño de un conjunto, uno podría aventurarse y empezar a contar los elementos de este uno por uno. Esta forma de aproximar el problema no sólo parece muy laboriosa, sino que también presenta el problema de que no todos los conjuntos tienen la propiedad de que se pueda enlistar a sus elementos (aunque no lo definimos aún, seguramente has escuchado que el conjunto $\mathbb{R}$ de números reales no cumple esta propiedad).

De entrada, parecería que el problema de catalogar a los conjuntos por su tamaño es más complicado de lo que parece. Sin embargo, hay una idea famosa que viene a salvar la situación.

Imagina que eres el acomodador de una sala de cine con una cantidad desconocida de asientos (incluso posiblemente infinita) y que quieres sentar en ellos a un cierto conjunto de espectadores (cuya cantidad también se desconoce). Como dijimos anteriormente, la labor de contar todos los asientos de la sala podría ser demasiado complicada. ¿Cómo podríamos cerciorarnos de que cada espectador podrá tener un asiento?

La respuesta es inusualmente sencilla. La mejor forma de cerciorarse de que todos puedan sentarse, es pidiéndoles que se sienten. Si logran hacerlo de modo que a cada asistente le toque exactamente un asiento y no sobren asientos, podremos decir que hay el mismo número de personas que de lugares.

Notemos que de esta forma no necesitamos saber de forma explícita cuántas sillas hay, ni cuantas personas asistieron a la función, para saber que hay la misma cantidad de personas que de sillas. Formalmente hablando, hemos dado una relación entre el conjunto de personas y el de asientos.

Recordemos que a una relación entre conjuntos se le llama función si a cada elemento de nuestro dominio le corresponde uno y solo un elemento del codominio. Más aún, si a todo elemento del codominio, está relacionado con uno del dominio, la función se llamará suprayectiva. Si una función satisface que los elementos del codominio se relacionan con a lo más un elemento del dominio, se le llama función inyectiva. Cuando ambas condiciones se satisfacen, diremos que la función es biyectiva.

Nota que en el ejemplo de la sala de cine, si logramos hacer que todos los asistentes se sienten sin que sobre alguna silla, entonces la función que damos es una función biyectiva. Con estas observaciones, introducimos la siguiente definición.

Definición. Diremos que dos conjuntos $A$ y $B$ tienen la misma cantidad de elementos, o la misma cardinalidad, si existe una función biyectiva entre ellos. En este caso escribimos $\vert A\vert=\vert B \vert$

El tamaño del conjunto $\mathbb{N}$

Aunque los conjuntos finitos parecen ser más cercanos a nuestra realidad, será más interesante definir primero qué son los conjuntos infinitos. Para ello usaremos una de las propiedades «raras» que estos tienen.

Definición. Diremos que un conjunto $X$ es infinito si existe un subconjunto propio $Y$ de $X$ y una función $f:X\to Y$ biyectiva entre ambos conjuntos.

Recuerda que un subconjunto propio es cualquier subconjunto que no sea el conjunto original. En otras palabras, un conjunto es infinito si tiene el mismo tamaño que alguno de sus subconjuntos propios.

Definición. Diremos que un conjunto es finito si no es infinito.

La propiedad que usamos para caracterizar a los conjuntos infinitos fue muy novedosa cuando se enunció por primera vez. Incluso con los años fue el origen de aparentes paradojas al sentido común. Si el tema te parece interesante, puedes leer o ver algún video sobre el famoso Hotel de Hilbert.

Con nuestra definición lista, empezaremos a catalogar los conjuntos que ya conocemos en finitos e infinitos.

Teorema. El conjunto $\mathbb{N}$ de números naturales es infinito.

Demostración. Para demostrar esto, consideraremos el conjunto $\mathbb{N}\setminus\{0\}$. Este es un subconjunto propio de $\mathbb{N}$. Tomemos la función $\sigma:\mathbb{N}\to \mathbb{N}\setminus\{0\}$. De acuerdo con la definición de conjunto infinito hay que demostrar que $\sigma$ es biyectiva, es decir, que es inyectiva y suprayectiva.

El hecho de que el codominio esté bien definido y que $\sigma$ sea inyectiva, fue demostrado en la entrada La construcción de los naturales, a la hora de probar los axiomas de Peano. La prueba de la suprayectividad se dejó como un ejercicio moral en la entrada de Principio de inducción y teoremas de recursión, ya que se usó para la prueba del teorema de Recursión débil. De cualquier forma, a continuación damos esa prueba.

Demostraremos que $\{0\}\cup \sigma(\mathbb{N})$ es inductivo. Evidentemente $0\in\mathbb{N}$ , y si $n\in \{0\}\cup\sigma(\mathbb{N})$, entonces es trivial que $\sigma(n)\in\sigma(\mathbb{N})$. Entonces $\{0\}\cup \sigma(\mathbb{N})=\mathbb{N}$, por lo que $\sigma(n)$ sí es suprayectiva y por lo tanto biyectiva. Con esto se concluye la prueba

$\square$

La idea de determinar si dos conjuntos tienen la misma cantidad de elementos usando funciones se puede extender un poco más. La usaremos a continuación para definir cuándo un conjunto tiene al menos tantos elementos como otro.

Definición. Decimos que un conjunto $A$ tiene a lo más tantos elementos como un conjunto $B$ si existe una función inyectiva $f:A\to B$. En este caso, escribimos $\vert A\vert\leq \vert B \vert$.

Todo número natural es finito

Como hemos visto, los conjuntos infinitos se comportan de forma inesperada. Sin embargo los conjuntos finitos sí se comportarán de una forma más intuitiva. El teorema siguiente ejemplifica esto.

Teorema. Si $A$ es un conjunto finito, y $f:A\to A$, entonces son equivalentes las siguientes tres afirmaciones:

  1. $f$ es biyectiva
  2. $f$ es inyectiva
  3. $f$ es suprayectiva

Demostración. Evidentemente, $1)\Rightarrow 2)$ y $1)\Rightarrow 3)$. Si logramos demostrar la equivalencia entre $2)$ y $3)$ terminaremos, pues al tener uno, tendríamos el otro y por lo tanto tendríamos ambas partes de la definición de biyectividad.

$2)\Rightarrow 3)$ Supongamos que $f$ es inyectiva y supongamos que $f$ no es suprayectiva. Entonces $f:A\to f(A)$ es una biyección de $A$ con un subconjunto propio, lo cual diría que $A$ es infinito. Esto es una contradicción, así que $f$ debe ser suprayectiva.

$3)\Rightarrow 2)$ Si $f$ es suprayectiva, entonces tiene inversa derecha, es decir, existe $g:A\to A$ tal que $f\circ g=Id_A$. A partir de esta igualdad se puede probar que $g$ es inyectiva. En efecto, si $g(a)=g(b)$, entonces $f(g(a))=f(g(b))$, pero entonces $a=b$. Por la implicación del párrafo anterior, $g$, también es suprayectiva. Pero con esto se puede mostrar que $f$ es inyectiva. Si tenemos $a$ y $b$ tales que $f(a)=f(b)$, tomemos $c$ y $d$ tales que $g(c)=a$ y $g(d)=b$. De aquí, $c=f(g(c))=f(g(d))=d$ y por lo tanto $a=g(c)=g(d)=b$.

$\square$

Sigamos estudiando propiedades de los conjuntos infinitos. El siguiente resultado es bastante intuitivo: si le quitamos un elemento a un conjunto infinito, sigue siendo infinito. La demostración es algo elaborada pues debemos hacerla a partir de nuestras definiciones.

Lema 1. Si $X$ es un conjunto infinito y $x\in X$, entonces $X\setminus \{x\}$ también es un conjunto infinito

Demostración. Sea $f:X\to A $ una biyección de $X$ a un subconjunto propio $A$. Tenemos que considerar dos casos: que $x\notin A$ o que $x\in A$. Comencemos con el caso $x\notin A$.

Para mostrar que $X\setminus \{x\}$ es infinito, utilizaremos como subconjunto a $A\setminus\{f(x)\}$ y como función a la restricción de $f$ a $X\setminus\{x\}$. Debemos demostrar que $A\setminus\{f(x)\}$ es un subconjunto propio de $X\setminus \{x\}$ y que dicha restricción es una biyección.

Lo primero sucede ya que $$A\setminus\{f(x)\}\subsetneq A\subseteq X\setminus \{x\}.$$ El hecho de que $f:X\setminus \{x\}\to A\setminus\{f(x)\}$ sea una biyección es consecuencia directa de que originalmente $f:X\to A $ era una biyección. Los detalles quedan como tarea moral.

Si por el contrario $x\in A$, como $A\subsetneq X$ debe existir $x’\in X\setminus A$. Consideremos la función

\begin{align*}
&g: & &X & &\longrightarrow & (A\cup \{x’&\})\setminus \{x\}& \\
& & &y & &\mapsto & f(&y) &\text{ si } y\neq f^{-1}(x) \\
& & f^{-1}&(x) & &\mapsto & &x’ &
\end{align*}

Veamos que $g$ es una biyección entre $X$ y $(A\cup \{x’\})\setminus \{x\}$. Lo primero que notamos es que el codominio está bien definido ya que para todo $y\in X$ se tiene que $g(y)\neq x$ (¿por qué?).

Además es inyectiva, ya que si $g(y)=g(z)$, con $y\neq f^{-1}(x)\neq z$, entonces se tiene que $f(y)=g(y)=g(z)=f(z)$, y por la inyectividad de $f$ se tiene que $y=z$. Mientras que si $y=f^{-1}(x)$, tenemos que $g(y)=x’=g(z)$ si $z\neq f^{-1}(x)$, tendríamos que $x’=f(z)$, por lo que $x’\in A$ lo cual es absurdo, entonces $z=f^{-1}(x)=y$, así $g$ es efectivamente inyectiva.

Para probar que es suprayectiva, consideremos $z\in(A\cup \{x’\})\setminus \{x\}$. Si $z=x’$, entonces $g(f^{-1}(x))=x’$, mientras que si $z\in A\setminus \{x\}$, por la suprayectvidad de $f$, debe de existir $y$ tal que $f(y)=z$. Además $y\neq f^{-1}(x)$ ya que si lo fuera $f(f^{-1}(x))=x=z$, lo cual sería absurdo. Se tiene entonces que $g(y)=f(y)=z$.

Con esto probamos que $g$ es una biyección de $X$ a un subconjunto propio al que no pertenece $x$. Para concluir, aplicamos el primer caso.

$\square$

Usando el lema anterior es fácil dar un corolario importante sobre conjuntos finitos, cuya prueba queda como un ejercicio.

Corolario. Si $X$ es un conjunto finito, y $x$ es un conjunto arbitrario, entonces $X\cup \{x\}$ es también un conjunto finito.

Armados con este corolario, podemos dar uno de los teoremas importantes de esta entrada.

Teorema. Si $n$ es un natural, entonces $n$ es un conjunto finito.

Demostración. Procedamos por inducción. Si $n=0$, entonces $n=\emptyset$, entonces $n$ no tiene subconjuntos propios con los que pueda biyectarse, ya que no tiene subconjuntos propios. Entonces por vacuidad el vacío es finito.

Supongamos que $n$ es un natural finito. Debemos demostrar que $\sigma(n) $ es también finito. Pero como $\sigma(n)=n\cup\{n\}$, el paso inductivo es consecuencia del corolario anterior. Con esto concluimos la inducción.

$\square$

Caracterizando los conjuntos finito e infinitos

Ya probamos que cada número natural es finito y que el conjunto de todos los naturales es infinito. Lo siguiente que haremos es ver que estos conjuntos nos sirven para catalogar a todos los demás conjuntos en finitos o infinitos. Comenzamos con un lema bastante intuitivo: si con conjunto tiene un subconjunto infinito, entonces es infinito.

Lema 2. Si $X$ es infinito y $X\subset Y$ entonces $Y$ también es infinito.

Demostración. Como $X$ es infinito, existe una biyección $f$ entre $X$ y uno de sus subconjuntos propios $A$. Consideremos entonces $(Y\setminus X)\cup A\subsetneq Y$, y demos una biyección entre $Y$ y este conjunto dada por

\begin{align*}
&g: & &Y & &\longrightarrow &(Y\setminus &X)\cup A & \\
& & &y & &\mapsto & &y &\text{ si } y\notin Y\setminus X\\
& & &x & &\mapsto & f(&x) &\text{ si } x\in X
\end{align*}

Probaremos que esta función es una biyección. Primero, veamos que es inyectiva. Esto se debe a que si $g(x)=g(y)$ y $x\in X$, entonces $g(y)=g(x)=f(x)\in A\subset X$, entonces $g(y)$ está en $X$, y como $Y\setminus X$ es enviado en si mismo, debe pasar que $y$ también está en $X$, por lo que $f(y)=g(y)=f(x)$ y por la inyectividad de $f$, tenemos que $y=x$. Por el contrario, si $x\notin X$, se tiene que $g(x)=x=g(y)$ entonces $g(y)\notin X$, por lo que $y$ tampoco puede estar en $X$, así, $g(y)=y=x$.

Veamos ahora que la función es suprayectiva. Si $z\in(Y\setminus X)\cup A$, consideremos dos casos: $z\in Y\setminus X$ en cuyo caso $g(z)=z$, o $z\in A$, por lo que por la suprayectividad de $f$, debemos tener que existe $x\in X$ tal que $z=f(x)=g(x)$. Así, $g$ es suprayectiva y por lo tanto es una biyección..

$\square$

Ahora sí, pasamos a demostrar los teoremas con los que concluiremos la entrada.

Teorema. El conjunto de números naturales es el conjunto infinito más pequeño, es decir, que si $X$ es un conjunto infinito, entonces $\vert\mathbb{N}\vert\leq\vert X\vert$

Demostración. Como $X$ es infinito, debe ser distinto del vacío. Así, existe $x_0\in X$. Consideremos el conjunto $X\setminus \{x_0\}$, por el lema 1 que demostramos, este es de nuevo infinito. Una vez más, no es vacío, entonces existe $x_1\in X\setminus \{x_0\}$, y el conjunto $X\setminus\{x_0,x_1\}=(X\setminus \{x_0\})\setminus\{x_1\}$ será de nuevo infinito. Procediendo de manera recursiva, podemos dar una función

\begin{align*}
h: &\mathbb{N} \to X \\
& n \mapsto x_n
\end{align*}

tal que todos los $x_n$ son distintos entre sí (esto se puede demostrar inductivamente). Pero entonces $h$ es una función inyectiva de $\mathbb{N}$ al conjunto $X$, que es precisamente nuestra definición de que $\vert\mathbb{N}\vert\leq \vert X\vert $

$\square$

El regreso del teorema anterior es evidentemente cierto, es decir que si un conjunto $X$ cumple que $\vert\mathbb{N}\vert\leq \vert X\vert $, entonces $X$ es infinito. Queda como ejercicio demostrarlo.

Para finalizar la entrada, damos un resultado análogo al anterior, para conjuntos finitos.

Teorema. Si $X$ es un conjunto finito, entonces existe $n\in\mathbb{N}$ tal que $\vert X\vert =\vert n\vert$.

Demostración. Si $X=\emptyset$, entonces $\vert\emptyset\vert= \vert X\vert $. Si $X$ no es vacío, entonces existe $x_0\in X$. Consideremos entonces $X\setminus \{x_0\}$. Si este conjunto es vacío, significa que $X=\{x_0\}$ y claramente podríamos biyectarlo con el conjunto $\sigma(0)=\{0\}$. Si por el contrario, $X\setminus \{x_0\}\neq \emptyset$, podemos elegir $x_1\in X\setminus \{x_0\}$ y verificar la misma condición.

Necesariamente debemos de terminar en algún momento pues, de otro modo, podremos usar el teorema de recursión para construir una función inyectiva de $\mathbb{N}$ a $X$. Esto diría que $X$ sería infinito, lo cual sería absurdo.

Entonces debe ocurrir que existe una $n$ tal que $X\setminus\{x_0,x_1,…,x_n\}$ es vacío, por lo que $X=\{x_0,x_1,…,x_n\}$, y por lo tanto podemos biyectarlo con $\sigma(n)$

$\square$

Tarea moral

  • Supón que diriges un hotel con tantas habitaciones como números naturales. Supón que todas tus habitaciones se encuentran ocupadas, y de repente llega una persona solicitando un cuarto. ¿Cómo puedes hospedarlo sin desalojar a ningún cliente? Supón ahora que después llega un camión con tantas personas como números naturales, todas buscando un cuarto. ¿De qué forma puedes acomodarlos a ellos y a todos los clientes ya hospedados?
  • Completa los detalles de la prueba del lema 1.
  • Demuestra el corolario de la entrada: Si $X$ es un conjunto finito, y $x$ es un conjunto arbitrario, entonces $X\cup \{x\}$ es también un conjunto finito.
  • Demuestra que si $X$ es tal que $\vert\mathbb{N}\vert\leq \vert X\vert $, entonces $X$ es infinito.
  • Demuestra por inducción que si $X$ es infinito y $A$ es un subconjunto con $k$ elementos, entonces $X\setminus A$ es infinito. Si $A$ tiene tantos elementos como naturales, ¿el resultado sigue siendo cierto?

Más adelante…

Así como los conjuntos transitivos, la teoría que se desarrolla al estudiar las cardinalidades de los conjuntos es un área de estudio importante en la teoría de conjuntos. Aunque no lo veremos a profundidad, la teoría que acabamos de desarrollar es suficiente para comparar la cardinalidad de la mayoría de los conjuntos que veamos con total precisión. Esto será cierto para, conjuntos como $\mathbb{Z}$ (el de los números enteros) o $\mathbb{Q}$ (el de los números racionales). No será sino hasta que definamos el conjunto de números reales que tendremos un conjunto con una cardinalidad estrictamente mayor que la de $\mathbb{N}$.

En la siguiente entrada definiremos el orden de los naturales, para lo cual de nuevo pensaremos a los números naturales como conjuntos. Más aún, las propiedades que estudiamos en la entrada pasada, serán de suma importancia a la hora de definir el buen orden de un conjunto. Esta es una propiedad que usamos anteriormente sin prueba, cuando demostramos el teorema de Recursión.

Entradas relacionadas

Una prueba del teorema de la función inversa

Introducción

Uno de los teoremas clave de los cursos de cálculo de varias variables es el teorema de la función inversa (TFI). En la Facultad de Ciencias de la UNAM se estudia en la materia Cálculo III. En esta entrada me gustaría presentar de la manera más auto-contenida posible este resultado.

Platicaré un poco de las definiciones de los términos que aparecen en el enunciado, así como de la intuición de por qué el teorema es cierto. Después presentaré los ingredientes principales para una prueba. Finalmente, presentaré la prueba intentando motivarla y dividiéndola en secciones pequeñas.

El enunciado con el que trabajaremos es el siguiente:

Teorema de la función inversa. Sea $F:\mathbb{R}^n\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$ con matriz Jacobiana $DF$. Supongamos que $F(a)=b$ y que $DF(a)$ es invertible. Entonces existen vecindades abiertas $U$ y $V$ de $a$ y $b$ respectivamente para las cuales:

a) $F:U\to V$ es una biyección,
b) su inversa $F^{-1}:V\to U$ es de clase $\mathcal{C}^1$ y
c) $DF^{-1}(b)=DF(a)^{-1}$.

Lo que nos espera es aproximadamente lo que está en el siguiente diagrama, donde las flechas indican a grandes rasgos qué resultado se usa para probar qué otro.

Definiciones e intuición

La función con la que comenzamos es una función de $\mathbb{R}^n$ a $\mathbb{R}^n$, así que la podemos descomponer en sus funciones coordenadas de la siguiente manera: $$F(x)=(F_1(x), F_2(x),\ldots, F_n(x)).$$

Que la función sea de clase $\mathcal{C}^1$ quiere decir que las derivadas parciales con respecto a cada una de las variables existen, que estas son continuas y que localmente $F$ «se comporta» como la transformación lineal correspondiente a la matriz Jacobiana siguiente:

$$DF(x)=\begin{pmatrix}
\frac{\partial F_1}{\partial x_1}(x) & \cdots & \frac{\partial F_1}{\partial x_n}(x)\\
\vdots & \ddots & \vdots \\
\frac{\partial F_n}{\partial x_1}(x) & \cdots & \frac{\partial F_n}{\partial x_n}(x)
\end{pmatrix}.$$

Entonces, a grandes rasgos lo que nos dice el teorema de la función inversa es lo siguiente. Si $F$ se comporta como una transformación lineal $T$ invertible «cerquita» del punto $a$, entonces en realidad es invertible «cerquita» del punto $a$ y más aún, la inversa se comporta como la transformación lineal $T^{-1}$ «cerquita» del punto $b=f(a)$.

Suena bastante razonable, pero hay algunos aspectos que son sorprendentes. Uno es que se garantiza la invertibilidad en todo un abierto $U$. Si no se requiriera que fuera abierto, sería chafa porque podríamos tomar $U=\{a\}$ y $V=\{b\}$ y la restricción sería trivialmente invertible. Lo otro es que el teorema también garantiza que la inversa es diferenciable, lo cual de entrada no es evidente.

Para la prueba necesitamos hablar de dos normas. Cuando tengamos un vector $x=(x_1,\ldots,x_n)$ en $\mathbb{R}^n$, $\norm{x}$ denotará la norma euclideana $$\norm{x}=\sqrt{\sum_{i=1}^nx_i^2}.$$

Necesitaremos también la norma de Frobenius. Como recordatorio, para una matriz $A=(a_{ij})$ de $n\times n$, su norma de Frobenius está dada por $$\norm{A}=\sqrt{\sum_{i=1}^n\sum_{j=1}^n a_{ij}^2},$$

o equivalentemente, si $A_i$ es el $i$-ésimo renglón de $A$, tenemos que

$$\norm{A}=\sqrt{\sum_{i=1}^n\norm{A_{i}}^2},$$

pues ambas expresiones suman todas las entradas de la matriz al cuadrado.

Ingredientes para la prueba

Pasemos ahora a algunos resultados auxiliares que es más cómodo probar desde antes. Algunos de ellos son más generales que lo que enuncio (e incluso con la misma prueba), pero con el fin de que la demostración sea auto-contenida, he decidido enunciar sólo lo que necesitamos.

Teorema del punto fijo de Banach (para $\mathbb{R}^n$). Sea $X$ un compacto de $\mathbb{R}^n$ y $\varphi:X\to X$ una función continua. Supongamos que $\varphi$ es una contracción, es decir, que existe un real $0<\lambda<1$ para el cual $\norm{\varphi(x)-\varphi(y)}\leq\lambda \norm{x-y}$ para todos $x,y \in X$.

Entonces $\varphi$ tiene un único punto fijo, es decir existe uno y sólo un punto $x_0\in X$ para el cual $\varphi(x_0)=x_0$.

Para probar el teorema del punto fijo de Banach basta tomar cualquier punto inicial $x_1$ y considerar la sucesión $\{x_m\}$ construida recursivamente con la regla $x_m=\varphi(x_{m-1})$ para $m\geq 2$. Usando que $\varphi$ es contracción y la fórmula para series geométricas se puede mostrar inductivamente que para $m>m’$ se tiene

$$\norm{x_m-x_m’}\leq\lambda ^{m’-1} \norm{x_2-x_1} \left(\frac{1}{1-\lambda}\right).$$

Como $\lambda<1$, el lado derecho se hace arbitrariamente pequeño conforme $m’$ se hace grande, así que ésta es una sucesión de Cauchy. Por la compacidad de $X$ y completud de $\mathbb{R}^n$, tenemos que la sucesión converge a un punto $x_0$. Por continuidad, este punto satisface:

$$x_0=\lim_{m\to \infty} x_{m+1} = \lim_{m\to \infty} \varphi(x_m)=\varphi\left(\lim_{m\to \infty} x_m\right) = \varphi(x_0).$$

La unicidad no necesita la compacidad de $X$, sino únicamente que $\varphi$ sea contracción. En efecto, si hay otro punto fijo $x$ entonces

$$\norm{x-x_0}=\norm{\varphi(x)-\varphi(x_0)}\leq \lambda \norm{x-x_0},$$

de donde $\norm{x-x_0}=0$, pues si no se tendría una contradicción. Así, $x=x_0$.

Desigualdades para la norma de Frobenius. Para $x\in \mathbb{R}^n$ y $A,B$ matrices reales de $n\times n$ tenemos que
a) $\norm{Ax}\leq \norm{A} \norm{x}$ y
b) $\norm{AB}\leq \norm{A} \norm{B}$.

La desigualdad (a) se prueba usando la desigualdad de Cauchy-Schwarz. En efecto, si $A_1,\ldots, A_n$ son los renglones de la matriz $A$, tenemos que $$Ax=(A_1\cdot x, A_2\cdot x, \ldots, A_n\cdot x),$$

entrada a entrada tenemos por Cauchy-Schwarz que

$$(A_i\cdot x)^2\leq \norm{A_i}^2\norm{x}^2,$$

de modo que sumando para $i=1,\ldots, n$ tenemos que

$$\norm{Ax}^2\leq \left(\sum_{i=1}^n \norm{A_i}^2\right)\norm{x}^2=\norm{A}^2\norm{x}^2,$$

lo cual prueba la desigualdad (a). La desigualdad (b) se prueba de manera similar, tomando fila por fila a la matriz $A$ y columna por columna a la matriz $B$.

Desigualdad del valor medio. Sea $U\subset \mathbb{R}^n$ un abierto convexo y $F:U\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$. Sean $x,y$ puntos en $U$ para los cuales la cual la norma de Frobenius del Jacobiano $\norm{DF}$ está acotada sobre el segmento $xy$ por una constante $C$. Entonces:

$$\norm{F(x)-F(y)}\leq C \norm{x-y}.$$

La desigualdad del valor medio requiere de algunos pasos intermedios. Definamos $h=y-x$. La clave es probar las siguientes tres afirmaciones:

\begin{align*}
F(x)-F(y)&=\int_0^1 DF(x+th) h \,dt\\
\norm{\int_0^1 DF(x+th) h \, dt } &\leq \int_0^1 \norm{DF(x+th)}\norm{h}\, dt\\
\int_0^1 \norm{DF(x+th)}\norm{h}\, dt &\leq C \norm{h}.
\end{align*}

La primera es una «generalización» del teorema del valor medio de una variable. Se prueba coordenada a coordenada usando el Teorema Fundamental del Cálculo, la regla de la cadena y un intercambio de integral con suma (usando la continuidad de las derivadas parciales).

La segunda se prueba usando desigualdad del triángulo para integrales y la desigualdad (a) que probamos arriba para la norma de Frobenius.

La tercera se sigue de manera inmediata de la cota hipótesis para la matriz Jacobiana, pues $x+th=x+t(y-x)$ recorre el segmento $xy$ conforme $t$ recorre el intervalo $[0,1]$.

Combinando las tres afirmaciones concluimos

$$\norm{F(x)-F(y)}\leq C\norm{h}=C\norm{y-x},$$

que es justo lo que queríamos probar.

Con esto terminamos los pre-requisitos para probar el TFI. Aquí ya se ve algo interesante sucediendo. En el TFI queremos mostrar que cierta restricción es biyectiva, osea que cierto sistema de ecuaciones tiene una y sólo una solución. Esto se asemeja al teorema del punto fijo de Banach, donde, bajo ciertas condiciones de contracción, hay uno y sólo un punto fijo. El teorema de la desigualdad media puede ayudar a mostrar que una función contrae. Todo esto no es casualidad. A continuación veremos cómo combinar estos ingredientes.

Demostración del TFI

Estamos listos para dar la demostración del teorema de la función inversa. Por comodidad, aquí lo enunciamos de nuevo:

Teorema de la función inversa. Sea $F:\mathbb{R}^n\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$ con matriz Jacobiana $DF$. Supongamos que $F(a)=b$ y que $DF(a)$ es invertible. Entonces existen vecindades abiertas $U$ y $V$ de $a$ y $b$ respectivamente para las cuales:

a) $F:U\to V$ es una biyección,
b) su inversa $F^{-1}:V\to U$ es de clase $\mathcal{C}^1$ y
c) $DF^{-1}(b)=DF(a)^{-1}$.

Para el teorema necesitamos definir quién es el abierto $U$. Lo tomaremos como $U:=B(a,\epsilon)$, una bola abierta y centrada en $a$ de radio $\epsilon$. La idea es tomar $\epsilon$ tan pequeño como para que para $x\in U$ tengamos que $DF(x)$ sea invertible y

$$\norm{DF(a)-DF(x)}\leq \frac{1}{2\norm{DF(a)^{-1}}}.$$

Ambas cosas las podemos hacer pues la asignación $x \mapsto DF(x)$ es continua ya que $F$ es de clase $\mathcal{C}^1$. En el transcurso de la prueba discutiremos la motivación de esta elección. A $V$ lo tomaremos como $F(U)$.

Lo primero que haremos es reformular parte (a) en términos de puntos fijos. Queremos que la restricción $F:U\to V$ que estamos buscando sea biyectiva. En otras palabras, para $y\in V$ queremos que la ecuación $y=F(x)$ tenga una y sólo una solución $x$ en $U$. Como por hipótesis la matriz $DF(a)$ es invertible, esto sucede si y sólo si

$$x+DF(a)^{-1}(y-F(x))=x,$$

es decir, si y sólo si $x$ es un punto fijo de la función $\varphi_y(x)=x+DF(a)^{-1}(y-F(x))$. Parece un poco artificial haber introducido a $DF(a)^{-1}$, pero como veremos a continuación tiene sentido pues nos ayudará para que $\varphi_y$ sea contracción.

Teniendo en mente que queremos usar la desigualdad del valor medio, calculamos y acotamos la norma de la derivada de $\varphi_y$ como sigue

\begin{align*}
\norm{D\varphi_y (x)} &= \norm{I – DF(a)^{-1} DF(x)} \\
&= \norm{DF(a)^{-1}(DF(a) – DF(x))}\\
&\leq \norm{DF(a)^{-1}}\norm{DF(a)-DF(x)}
\end{align*}

Aquí es donde usamos (y se motiva parte de) nuestra elección de $U$: nos permite acotar $\norm{DF(a)-DF(x)}$ superiormente con $\frac{1}{2\norm{DF(a)^{-1}}} $ y por lo tanto podemos concluir la desigualdad anterior como

\begin{align}\norm{D\varphi_y (x)} \leq \frac{1}{2}.\end{align}

Por la desigualdad del valor medio, concluimos la siguiente observación clave.

Observacion. Para $y$ en $V$ tenemos que $\varphi_y$ es contracción en $U$ con factor $\lambda=\frac{1}{2}$. En otras palabras, para $x,w$ en $U$, tenemos $$\norm{\varphi_y(x)-\varphi_y(w)}\leq \frac{\norm{x-x’}}{2}.$$

La prueba a partir de ahora se divide en los siguientes pasos:

  1. Mostrar que $F:U\to V$ es biyectiva.
  2. Mostrar que $V$ es abierto
  3. Mostrar que $F^{-1}:V\to U$ es diferenciable y y $DF^{-1}(b)=DF(a)^{-1}$
  4. Mostrar que las derivadas parciales son continuas

$F:U\to V$ es biyectiva.

La suprayectividad la tenemos gratis, pues por definición $V=F(U)$.

Para la inyectividad, tomamos $y\in V$ y supongamos que existen $x$ y $w$ en $U$ tales que $F(x)=y=F(w)$. Esto quiere decir que $x$ y $w$ son puntos fijos de la contracción $\varphi_y$. Como vimos en la prueba del teorema del punto fijo de Banach, esto implica que $x=w$. Así, $x=w$, de modo que $F:U\to V$ es inyectiva y por lo tanto es biyectiva.

Nota: Aquí no estamos usamos el teorema del punto fijo de Banach pues $U$ no es compacto. Sólo estamos usando que las contracciones son inyectivas.

$V$ es abierto

Tomemos $y’$ en $V$, es decir, para la cual existe $x’$ en $U$ con $F(x’)=y’$. Queremos ver que si «$y$ está muy cerquita de $y’$» , entonces hay una solución para $F(x)=y$ con $x$ en $U$.

Como $U$ es abierto, existe $r$ tal que la bola $B(x’,2r)$ abierta de centro $x’$ y radio $2r$ se queda contenida en $U$. Tomemos $y$ en la bola $B\left(y’,\frac{r}{2\norm{DF(a)^{-1}}}\right)$. Vamos a ver que $F(x)=y$ tiene solución en $U$. Consideremos la función $\varphi_y$, pero restringida a la bola cerrada $X:=\overline{B}(x’,r)\subset U$. Mostraremos que la imagen de $\varphi_y$ se queda contenida en $\overline{B}(x’,r)$. En efecto:

\begin{align*}
\norm{\varphi_y(x)-x’}&=\norm{\varphi_y(x)-\varphi_y(x’)+DF(a)^{-1}(y-y’)}\\
&\leq \norm{\varphi_y(x)-\varphi_y(x’)}+\norm{DF(a)^{-1}}\norm{y-y’}\\
&\leq \frac{\norm{x-x’}}{2}+\frac{r}{2}\leq r.
\end{align*}

De este modo, $\varphi_y$ es una contracción del compacto $X$ a sí mismo. Por lo tanto, tiene un punto fijo en $X$, de modo que $F(x)=y$ para $x\in X\subset U$. Esto muestra que $V=F(U)$ es abierto.

$F^{-1}:V\to U$ es diferenciable y $DF^{-1}(b)=DF(a)^{-1}$

Vamos a demostrar que $F^{-1}:V\to U$ es diferenciable a partir de la definición de diferenciabilidad. Más aún, veremos que si $y=F(x)$ para $x$ en $U$, entonces $DF^{-1}(y)=DF(x)^{-1}$. Aquí es donde se termina de motivar nuestra elección en $U$, pues nos garantiza que a la derecha en efecto tenemos una matriz invertible.

Tomemos entonces $y=F(x)$. Nos interesa el límite cuando $\norm{h}\to 0$ de la siguiente expresión

$$\frac{\norm{F^{-1}(y+h)-F^{-1}(y)-DF(x)^{-1}h}}{\norm{h}},$$

Como $U$ es abierto, si $\norm{h}$ es pequeña entonces $y+h$ está en $U$. De este modo, existe $k$ tal que $x+k \in U$ y $F(x+k)=y+h$. Así, la expresión anterior la podemos reescribir como

\begin{align}\frac{\norm{DF(x)^{-1}(F(x+k)-F(x)-DF(x)k)}}{\norm{k}}\frac{\norm{k}}{\norm{h}}\end{align}

Antes de continuar, probemos una desigualdad auxiliar. Notemos que

\begin{align*}
\norm{k}-\norm{DF^{-1}(a)h} &\leq \norm{k-DF^{-1}(a)h}\\
&=\norm{\varphi_y(x+k)-\varphi_y(x)}\\
&\leq\frac{\norm{k}}{2},
\end{align*}

así,

\begin{align}\norm{k}\leq 2\norm{DF^{-1}(a)h} \leq 2\norm{DF^{-1}(a)}\norm{h}.\end{align}

Substituyendo el valor de $\norm{k}$ en (2), concluimos que la expresión es menor o igual a

\begin{align}2\norm{DF(x)^{-1}}\frac{\norm{F(x+k)-F(x)-DF(x)k}}{\norm{k}}\norm{DF^{-1}(a)}\end{align}

Estamos listos para terminar. La desigualdad (3) también garantiza que $\norm{k}\to 0$ cuando $\norm{h}\to 0$. Así, como $F$ es diferenciable, tenemos que la expresión (4) tiende a $0$. Esto muestra que $F^{-1}$ es diferenciable en $y$ con $DF^{-1}(y)=DF(x)^{-1}$, tal como queríamos.

Las derivadas parciales son continuas

Esta parte es sencilla a partir de la parte anterior. Tenemos que:

$$DF^{-1}(b)=DF(F^{-1}(b))^{-1}$$

Por la regla de Cramer la inversa de una matriz depende continuamente de las entradas de la matriz original. Además, la asignación $b \mapsto F^{-1}(b)$ es continua. Así, las entradas de $DF^{-1}(b)$ (las derivadas parciales de $F^{-1}$) dependen continuamente de las derivadas parciales de $F$, que dependen continuamente de $b$ por hipótesis.

Con esto termina la prueba.

¿Ahora qué?

Si te gustó esta entrada, puedes compartirla o revisar otras relacionadas con matemáticas a nivel universitario:

Busca una contradicción

HeuristicasTerminamos esta serie de técnicas de resolución de problemas con una de las técnicas más finas y más usadas en las matemáticas: las pruebas por contradicción.

La idea es la siguiente. Por un momento suponemos que lo que queremos demostrar es falso. Después trabajaremos haciendo todo lo demás correctamente. La idea es llegar a una contradicción con las hipótesis del problema, o bien a algo que sabemos que es imposible. De esta forma, sabemos que debe haber un error en la demostración de eso imposible. Y como lo único que hicimos mal fue suponer que lo original era falso, debemos tener que en realidad es verdadero.

En estos videos veremos varios ejemplos de este argumento para acostumbrarnos. Es súper útil pensar en estos argumentos casi automáticamente.

Ir a los videos…