Imagina, por un momento, que en un futuro trabajas en la Agencia Espacial Mexicana (AEM). De repente, llega la directora y trae una función en las manos. «Para una misión crítica necesito que me conviertas esta función en una función invertible, cuanto antes posible». Te da la función. Le respondes «Ok, directora y, ¿cómo la quiere o qué?». Pero es demasiado tarde. Ya salió y hay que ponerse a trabajar. Entonces tomas la función, la pones en el gis y comienzas a estudiarla en el pizarrón.
Resulta que es una función de varias variables. Específicamente, es la función que pasa de coordenadas polares a coordenadas cartesianas. Es decir, es la función dada por:
La función sí es suprayectiva, así que ya va parte del trabajo hecho. Pero el problema es que no es inyectiva. Por ejemplo,
Peor aún, para todo se tiene que .
Pero la situación no es tan terrible. Una forma de solucionarla es restringir el dominio de la función. Si en vez de pensarla en una función la pensamos como una restricción para algunos conjuntos y , entonces muy posiblemente la podamos «convertir» en una función biyectiva.
No podemos ser demasiado arbitrarios. Por ejemplo, si tomamos y , entonces claramente la restricción es una biyección, pero está muy chafa: sólo nos quedamos con un punto. Por esta razón, vamos a poner una meta un poco más ambiciosa y a la vez más concreta: lograr que y sean conjuntos abiertos alrededor de los puntos y para algún . Si lo logramos, habremos encontrado una biyección «cerquita de » en conjuntos «más gorditos». Para algunos puntos lo podemos hacer, y para algunos otros puntos es imposible. Veamos ejemplos de ambas situaciones.
Si , entonces . En este caso, podemos elegir una vecindad pequeña alrededor de y tomar , pues los otros puntos con están lejos (están a brincos verticales de tamaño de ). Para resolver el problema de la AEM, basta restringir a .
Sin embargo, si , entonces . Sin importar qué tan pequeña tomemos la vecindad abierta alrededor de , vamos a seguir tomando puntos sobre la recta , para los cuales sucede . Si la directora de la AEM insiste en que haya un punto con , entonces no hay invertibilidad en todo un abierto alrededor de este punto. Esperemos que la misión no dependa de eso.
Aplicando el teorema de la función inversa
El teorema de la función inversa es una herramienta que da condiciones suficientes para que una función pueda invertirse localmente «cerca» de un punto de su dominio. Podemos utilizar este resultado cuando la función que estudiamos es «bien portada», donde esto quiere decir que sea continuamente diferenciable. Si bien hay ligeras variantes en la literatura, el enunciado que presento aquí es el siguiente:
Teorema de la función inversa
Sea una función de clase con matriz Jacobiana . Supongamos que y que es invertible. Entonces existen vecindades abiertas y de y respectivamente para las cuales:
a) es una biyección, b) su inversa es de clase y c) .
En otra entrada hablo de la intuición de este teorema, así como de su demostración. Por el momento sólo me enfocaré en dar un ejemplo de cómo podemos usarlo.
Regresemos al ejemplo de la Agencia Espacial Mexicana. La función que tenemos es que está dada por
Para usar el teorema de la función inversa, tenemos que estudiar la invertibilidad de , su matriz Jacobiana. Esta está construida a partir de las derivadas parciales de las funciones coordenadas como sigue:
Para estudiar su invertibilidad, notamos que su determinante es
y que es distinto de si y sólo si . Esto coincide con las observaciones que hicimos «a mano»: la función es invertible localmente en si . Cuando , la invertibilidad no está garantizada.
El teorema de la función inversa tiene más implicaciones. Nos dice además que la inversa también es continuamente diferenciable y que su derivada es la inversa de . Como ejemplo, consideremos el punto . Tenemos que
que
y que .
Así, es invertible localmente alrededor de , su inversa es continuamente diferenciable y además
Esto termina la motivación y el ejemplo del teorema de la función inversa. Si quieres entender un poco mejor la intuición detrás del teorema, así como su demostración, puedes darte una vuelta por esta otra entrada.
Uno de los teoremas clave de los cursos de cálculo de varias variables es el teorema de la función inversa (TFI). En la Facultad de Ciencias de la UNAM se estudia en la materia Cálculo III. En esta entrada me gustaría presentar de la manera más auto-contenida posible este resultado.
Platicaré un poco de las definiciones de los términos que aparecen en el enunciado, así como de la intuición de por qué el teorema es cierto. Después presentaré los ingredientes principales para la prueba «clásica». Finalmente, presentaré la prueba intentando motivarla y dividiéndola en secciones pequeñas.
El enunciado con el que trabajaremos es el siguiente:
Teorema de la función inversa
Sea una función de clase con matriz Jacobiana . Supongamos que y que es invertible. Entonces existen vecindades abiertas y de y respectivamente para las cuales:
a) es una biyección, b) su inversa es de clase y c) .
Lo que nos espera es aproximadamente lo que está en el siguiente diagrama, donde las flechas indican a grandes rasgos qué resultado se usa para probar qué otro.
Definiciones e intuición
La función con la que comenzamos es una función de a , así que la podemos descomponer en sus funciones coordenadas de la siguiente manera:
Que la función sea de clase quiere decir que las derivadas parciales con respecto a cada una de las variables existen, que estas son continuas y que localmente «se comporta» como la transformación lineal correspondiente a la matriz Jacobiana siguiente:
Entonces, a grandes rasgos lo que nos dice el teorema de la función inversa es lo siguiente. Si se comporta como una transformación lineal invertible «cerquita» del punto , entonces en realidad es invertible «cerquita» del punto y más aún, la inversa se comporta como la transformación lineal «cerquita» del punto .
Suena bastante razonable, pero hay algunos aspectos que son sorprendentes. Uno es que se garantiza la invertibilidad en todo un abierto . Si no se requiriera que fuera abierto, sería chafa porque podríamos tomar y y la restricción sería trivialmente invertible. Lo otro es que el teorema también garantiza que la inversa es diferenciable, lo cual de entrada no es evidente.
Para la prueba necesitamos hablar de dos normas. Cuando tengamos un vector en , denotará la norma euclideana
Necesitaremos también la norma de Frobenius. Como recordatorio, para una matriz de , su norma de Frobenius está dada por
o equivalentemente, si es el -ésimo renglón de , tenemos que
pues ambas expresiones suman todas las entradas de la matriz al cuadrado.
Ingredientes para la prueba
Pasemos ahora a algunos resultados auxiliares que es más cómodo probar desde antes. Algunos de ellos son más generales que lo que enuncio (e incluso con la misma prueba), pero con el fin de que la demostración sea auto-contenida, he decidido enunciar sólo lo que necesitamos.
Teorema del punto fijo de Banach (para )
Sea un compacto de y una función continua. Supongamos que es una contracción, es decir, que existe un real para el cual para todos .
Entonces tiene un único punto fijo, es decir existe uno y sólo un punto para el cual .
Para probar el teorema del punto fijo de Banach basta tomar cualquier punto inicial y considerar la sucesión construida recursivamente con la regla para . Usando que es contracción y la fórmula para series geométricas se puede mostrar inductivamente que para se tiene
Como , el lado derecho se hace arbitrariamente pequeño conforme se hace grande, así que ésta es una sucesión de Cauchy. Por la compacidad de y completud de , tenemos que la sucesión converge a un punto . Por continuidad, este punto satisface:
La unicidad no necesita la compacidad de , sino únicamente que sea contracción. En efecto, si hay otro punto fijo entonces
de donde , pues si no se tendría una contradicción. Así, .
Desigualdades entre la norma de Frobenius
Para y matrices reales de tenemos que a) y b) .
La desigualdad (a) se prueba usando la desigualdad de Cauchy-Schwarz. En efecto, si son los renglones de la matriz , tenemos que
entrada a entrada tenemos por Cauchy-Schwarz que
de modo que sumando para tenemos que
lo cual prueba la desigualdad (a). La desigualdad (b) se prueba de manera similar, tomando fila por fila a la matriz y columna por columna a la matriz .
Desigualdad del valor medio
Sea un abierto convexo y una función de clase . Sean puntos en para los cuales la cual la norma de Frobenius del Jacobiano está acotada sobre el segmento por una constante . Entonces:
La desigualdad del valor medio requiere de algunos pasos intermedios. Definamos . La clave es probar las siguientes tres afirmaciones:
La primera es una «generalización» del teorema del valor medio de una variable. Se prueba coordenada a coordenada usando el Teorema Fundamental del Cálculo, la regla de la cadena y un intercambio de integral con suma (usando la continuidad de las derivadas parciales).
La segunda se prueba usando desigualdad del triángulo para integrales y la desigualdad (a) que probamos arriba para la norma de Frobenius.
La tercera se sigue de manera inmediata de la cota hipótesis para la matriz Jacobiana, pues recorre el segmento conforme recorre el intervalo .
Combinando las tres afirmaciones concluimos
que es justo lo que queríamos probar.
Con esto terminamos los pre-requisitos para probar el TFI. Aquí ya se ve algo interesante sucediendo. En el TFI queremos mostrar que cierta restricción es biyectiva, osea que cierto sistema de ecuaciones tiene una y sólo una solución. Esto se asemeja al teorema del punto fijo de Banach, donde, bajo ciertas condiciones de contracción, hay uno y sólo un punto fijo. El teorema de la desigualdad media puede ayudar a mostrar que una función contrae. Todo esto no es casualidad. A continuación veremos cómo combinar estos ingredientes.
Demostración del TFI
Estamos listos para dar la demostración del teorema de la función inversa. Por comodidad, aquí lo enunciamos de nuevo:
Teorema de la función inversa
Sea una función de clase con matriz Jacobiana . Supongamos que y que es invertible. Entonces existen vecindades abiertas y de y respectivamente para las cuales:
a) es una biyección, b) su inversa es de clase y c) .
Para el teorema necesitamos definir quién es el abierto . Lo tomaremos como , una bola abierta y centrada en de radio . La idea es tomar tan pequeño como para que para tengamos que sea invertible y
Ambas cosas las podemos hacer pues la asignación es continua ya que de clase . En el transcurso de la prueba discutiremos la motivación de esta elección. A lo tomaremos como .
Lo primero que haremos es reformular parte (a) en términos de puntos fijos. Queremos que la restricción que estamos buscando sea biyectiva. En otras palabras, para queremos que la ecuación tenga una y sólo una solución en . Como por hipótesis la matriz es invertible, esto sucede si y sólo si
es decir, si y sólo si es un punto fijo de la función . Parece un poco artificial haber introducido a , pero como veremos a continuación tiene sentido pues nos ayudará para que sea contracción.
Teniendo en mente que queremos usar la desigualdad del valor medio, calculamos y acotamos la norma de la derivada de como sigue
Aquí es donde usamos (y se motiva parte de) nuestra elección de : nos permite acotar superiormente con y por lo tanto podemos concluir la desigualdad anterior como
(1)
Por la desigualdad del valor medio, concluimos la siguiente observación clave:
Para en tenemos que es contracción en con factor . En otras palabras, para en , tenemos
La prueba a partir de ahora se divide en los siguientes pasos:
Mostrar que es biyectiva.
Mostrar que es abierto
Mostrar que es diferenciable y y
Mostrar que las derivadas parciales son continuas
es biyectiva.
La suprayectividad la tenemos gratis, pues por definición .
Para la inyectividad, tomamos y supongamos que existen y en tales que . Esto quiere decir que y son puntos fijos de la contracción . Como vimos en la prueba del teorema del punto fijo de Banach, esto implica que . Así, , de modo que es inyectiva y por lo tanto es biyectiva.
Nota: Aquí no estamos usamos el teorema del punto fijo de Banach pues no es compacto. Sólo estamos usando que las contracciones son inyectivas.
es abierto
Tomemos en , es decir, para la cual existe en con . Queremos ver que si « está muy cerquita de » , entonces hay una solución para con en .
Como es abierto, existe tal que la bola abierta de centro y radio se queda contenida en . Tomemos en la bola . Vamos a ver que tiene solución en . Consideremos la función , pero restringida a la bola cerrada . Mostraremos que la imagen de se queda contenida en . En efecto:
De este modo, es una contracción del compacto a sí mismo. Por lo tanto, tiene un punto fijo en , de modo que para . Esto muestra que es abierto.
es diferenciable y
Vamos a demostrar que es diferenciable a partir de la definición de diferenciabilidad. Más aún, veremos que si para en , entonces . Aquí es donde se termina de motivar nuestra elección en , pues nos garantiza que a la derecha en efecto tenemos una matriz invertible.
Tomemos entonces . Nos interesa el límite cuando de la siguiente expresión
Como es abierto, si es pequeña entonces está en . De este modo, existe tal que y . Así, la expresión anterior la podemos reescribir como
(2)
Antes de continuar, probemos una desigualdad auxiliar. Notemos que
así,
(3)
Substituyendo el valor de en (2), concluimos que la expresión es menor o igual a
(4)
Estamos listos para terminar. La desigualdad (3) también garantiza que cuando . Así, como es diferenciable, tenemos que la expresión (4) tiende a . Esto muestra que es diferenciable en con , tal como queríamos.
Las derivadas parciales son continuas
Esta parte es sencilla a partir de la parte anterior. Tenemos que:
Por la regla de Cramer la inversa de una matriz depende continuamente de las entradas de la matriz original. Además, la asignación es continua. Así, las entradas de (las derivadas parciales de ) dependen continuamente de las derivadas parciales de , que dependen continuamente de por hipótesis.
Esta entrada está motivada por una pregunta en el grupo de Matemáticos de Facebook. Palabras más, palabras menos, alguien preguntaba por qué «derivar es el inverso de integrar», si uno tiene que ver con sacar un área y el otro tiene que ver con sacar una pendiente.
La idea formal que está detrás de esto de que sean «inversas» son los teoremas fundamentales del cálculo (TFC). Pero en esta entrada no me quiero meter con definiciones de límite ni cosas por el estilo. A fin de cuentas es un blog y estamos navegando tranquilos. Así que déjenme trabajar «al ahí se va», osea, informalmente. La idea es entender por qué derivar e integrar son operaciones inversas «con dibujitos» y en un caso más sencillo: el caso discreto. Veremos los teoremas fundamentales de los cuadraditos (TFC). ¡Oh no! ¡Se confunden las siglas! Bueno, ni modo.
Los cuadraditos
Todo empieza con algunos cuadraditos ordenados en columnas. De izquierda a derecha, tenemos 1, 2, 5, 3, 2, 4 y 2 cuadraditos en cada columna. Le voy a llamar a la cantidad de cuadraditos en la columna . Por ejemplo, .