Una prueba del teorema de la función inversa

Por Leonardo Ignacio Martínez Sandoval

Introducción

Uno de los teoremas clave de los cursos de cálculo de varias variables es el teorema de la función inversa (TFI). En la Facultad de Ciencias de la UNAM se estudia en la materia Cálculo III. En esta entrada me gustaría presentar de la manera más auto-contenida posible este resultado.

Platicaré un poco de las definiciones de los términos que aparecen en el enunciado, así como de la intuición de por qué el teorema es cierto. Después presentaré los ingredientes principales para una prueba. Finalmente, presentaré la prueba intentando motivarla y dividiéndola en secciones pequeñas.

El enunciado con el que trabajaremos es el siguiente:

Teorema de la función inversa. Sea F:RnRn una función de clase C1 con matriz Jacobiana DF. Supongamos que F(a)=b y que DF(a) es invertible. Entonces existen vecindades abiertas U y V de a y b respectivamente para las cuales:

a) F:UV es una biyección,
b) su inversa F1:VU es de clase C1 y
c) DF1(b)=DF(a)1.

Lo que nos espera es aproximadamente lo que está en el siguiente diagrama, donde las flechas indican a grandes rasgos qué resultado se usa para probar qué otro.

Definiciones e intuición

La función con la que comenzamos es una función de Rn a Rn, así que la podemos descomponer en sus funciones coordenadas de la siguiente manera: F(x)=(F1(x),F2(x),,Fn(x)).

Que la función sea de clase C1 quiere decir que las derivadas parciales con respecto a cada una de las variables existen, que estas son continuas y que localmente F «se comporta» como la transformación lineal correspondiente a la matriz Jacobiana siguiente:

DF(x)=(F1x1(x)F1xn(x)Fnx1(x)Fnxn(x)).

Entonces, a grandes rasgos lo que nos dice el teorema de la función inversa es lo siguiente. Si F se comporta como una transformación lineal T invertible «cerquita» del punto a, entonces en realidad es invertible «cerquita» del punto a y más aún, la inversa se comporta como la transformación lineal T1 «cerquita» del punto b=f(a).

Suena bastante razonable, pero hay algunos aspectos que son sorprendentes. Uno es que se garantiza la invertibilidad en todo un abierto U. Si no se requiriera que fuera abierto, sería chafa porque podríamos tomar U={a} y V={b} y la restricción sería trivialmente invertible. Lo otro es que el teorema también garantiza que la inversa es diferenciable, lo cual de entrada no es evidente.

Para la prueba necesitamos hablar de dos normas. Cuando tengamos un vector x=(x1,,xn) en Rn, x denotará la norma euclideana x=i=1nxi2.

Necesitaremos también la norma de Frobenius. Como recordatorio, para una matriz A=(aij) de n×n, su norma de Frobenius está dada por A=i=1nj=1naij2,

o equivalentemente, si Ai es el i-ésimo renglón de A, tenemos que

A=i=1nAi2,

pues ambas expresiones suman todas las entradas de la matriz al cuadrado.

Ingredientes para la prueba

Pasemos ahora a algunos resultados auxiliares que es más cómodo probar desde antes. Algunos de ellos son más generales que lo que enuncio (e incluso con la misma prueba), pero con el fin de que la demostración sea auto-contenida, he decidido enunciar sólo lo que necesitamos.

Teorema del punto fijo de Banach (para Rn). Sea X un compacto de Rn y φ:XX una función continua. Supongamos que φ es una contracción, es decir, que existe un real 0<λ<1 para el cual φ(x)φ(y)λxy para todos x,yX.

Entonces φ tiene un único punto fijo, es decir existe uno y sólo un punto x0X para el cual φ(x0)=x0.

Para probar el teorema del punto fijo de Banach basta tomar cualquier punto inicial x1 y considerar la sucesión {xm} construida recursivamente con la regla xm=φ(xm1) para m2. Usando que φ es contracción y la fórmula para series geométricas se puede mostrar inductivamente que para m>m se tiene

xmxmλm1x2x1(11λ).

Como λ<1, el lado derecho se hace arbitrariamente pequeño conforme m se hace grande, así que ésta es una sucesión de Cauchy. Por la compacidad de X y completud de Rn, tenemos que la sucesión converge a un punto x0. Por continuidad, este punto satisface:

x0=limmxm+1=limmφ(xm)=φ(limmxm)=φ(x0).

La unicidad no necesita la compacidad de X, sino únicamente que φ sea contracción. En efecto, si hay otro punto fijo x entonces

xx0=φ(x)φ(x0)λxx0,

de donde xx0=0, pues si no se tendría una contradicción. Así, x=x0.

Desigualdades para la norma de Frobenius. Para xRn y A,B matrices reales de n×n tenemos que
a) AxAx y
b) ABAB.

La desigualdad (a) se prueba usando la desigualdad de Cauchy-Schwarz. En efecto, si A1,,An son los renglones de la matriz A, tenemos que Ax=(A1x,A2x,,Anx),

entrada a entrada tenemos por Cauchy-Schwarz que

(Aix)2Ai2x2,

de modo que sumando para i=1,,n tenemos que

Ax2(i=1nAi2)x2=A2x2,

lo cual prueba la desigualdad (a). La desigualdad (b) se prueba de manera similar, tomando fila por fila a la matriz A y columna por columna a la matriz B.

Desigualdad del valor medio. Sea URn un abierto convexo y F:URn una función de clase C1. Sean x,y puntos en U para los cuales la cual la norma de Frobenius del Jacobiano DF está acotada sobre el segmento xy por una constante C. Entonces:

F(x)F(y)Cxy.

La desigualdad del valor medio requiere de algunos pasos intermedios. Definamos h=yx. La clave es probar las siguientes tres afirmaciones:

F(x)F(y)=01DF(x+th)hdt01DF(x+th)hdt01DF(x+th)hdt01DF(x+th)hdtCh.

La primera es una «generalización» del teorema del valor medio de una variable. Se prueba coordenada a coordenada usando el Teorema Fundamental del Cálculo, la regla de la cadena y un intercambio de integral con suma (usando la continuidad de las derivadas parciales).

La segunda se prueba usando desigualdad del triángulo para integrales y la desigualdad (a) que probamos arriba para la norma de Frobenius.

La tercera se sigue de manera inmediata de la cota hipótesis para la matriz Jacobiana, pues x+th=x+t(yx) recorre el segmento xy conforme t recorre el intervalo [0,1].

Combinando las tres afirmaciones concluimos

F(x)F(y)Ch=Cyx,

que es justo lo que queríamos probar.

Con esto terminamos los pre-requisitos para probar el TFI. Aquí ya se ve algo interesante sucediendo. En el TFI queremos mostrar que cierta restricción es biyectiva, osea que cierto sistema de ecuaciones tiene una y sólo una solución. Esto se asemeja al teorema del punto fijo de Banach, donde, bajo ciertas condiciones de contracción, hay uno y sólo un punto fijo. El teorema de la desigualdad media puede ayudar a mostrar que una función contrae. Todo esto no es casualidad. A continuación veremos cómo combinar estos ingredientes.

Demostración del TFI

Estamos listos para dar la demostración del teorema de la función inversa. Por comodidad, aquí lo enunciamos de nuevo:

Teorema de la función inversa. Sea F:RnRn una función de clase C1 con matriz Jacobiana DF. Supongamos que F(a)=b y que DF(a) es invertible. Entonces existen vecindades abiertas U y V de a y b respectivamente para las cuales:

a) F:UV es una biyección,
b) su inversa F1:VU es de clase C1 y
c) DF1(b)=DF(a)1.

Para el teorema necesitamos definir quién es el abierto U. Lo tomaremos como U:=B(a,ϵ), una bola abierta y centrada en a de radio ϵ. La idea es tomar ϵ tan pequeño como para que para xU tengamos que DF(x) sea invertible y

DF(a)DF(x)12DF(a)1.

Ambas cosas las podemos hacer pues la asignación xDF(x) es continua ya que F es de clase C1. En el transcurso de la prueba discutiremos la motivación de esta elección. A V lo tomaremos como F(U).

Lo primero que haremos es reformular parte (a) en términos de puntos fijos. Queremos que la restricción F:UV que estamos buscando sea biyectiva. En otras palabras, para yV queremos que la ecuación y=F(x) tenga una y sólo una solución x en U. Como por hipótesis la matriz DF(a) es invertible, esto sucede si y sólo si

x+DF(a)1(yF(x))=x,

es decir, si y sólo si x es un punto fijo de la función φy(x)=x+DF(a)1(yF(x)). Parece un poco artificial haber introducido a DF(a)1, pero como veremos a continuación tiene sentido pues nos ayudará para que φy sea contracción.

Teniendo en mente que queremos usar la desigualdad del valor medio, calculamos y acotamos la norma de la derivada de φy como sigue

Dφy(x)=IDF(a)1DF(x)=DF(a)1(DF(a)DF(x))DF(a)1DF(a)DF(x)

Aquí es donde usamos (y se motiva parte de) nuestra elección de U: nos permite acotar DF(a)DF(x) superiormente con 12DF(a)1 y por lo tanto podemos concluir la desigualdad anterior como

(1)Dφy(x)12.

Por la desigualdad del valor medio, concluimos la siguiente observación clave.

Observacion. Para y en V tenemos que φy es contracción en U con factor λ=12. En otras palabras, para x,w en U, tenemos φy(x)φy(w)xx2.

La prueba a partir de ahora se divide en los siguientes pasos:

  1. Mostrar que F:UV es biyectiva.
  2. Mostrar que V es abierto
  3. Mostrar que F1:VU es diferenciable y y DF1(b)=DF(a)1
  4. Mostrar que las derivadas parciales son continuas

F:UV es biyectiva.

La suprayectividad la tenemos gratis, pues por definición V=F(U).

Para la inyectividad, tomamos yV y supongamos que existen x y w en U tales que F(x)=y=F(w). Esto quiere decir que x y w son puntos fijos de la contracción φy. Como vimos en la prueba del teorema del punto fijo de Banach, esto implica que x=w. Así, x=w, de modo que F:UV es inyectiva y por lo tanto es biyectiva.

Nota: Aquí no estamos usamos el teorema del punto fijo de Banach pues U no es compacto. Sólo estamos usando que las contracciones son inyectivas.

V es abierto

Tomemos y en V, es decir, para la cual existe x en U con F(x)=y. Queremos ver que si «y está muy cerquita de y» , entonces hay una solución para F(x)=y con x en U.

Como U es abierto, existe r tal que la bola B(x,2r) abierta de centro x y radio 2r se queda contenida en U. Tomemos y en la bola B(y,r2DF(a)1). Vamos a ver que F(x)=y tiene solución en U. Consideremos la función φy, pero restringida a la bola cerrada X:=B(x,r)U. Mostraremos que la imagen de φy se queda contenida en B(x,r). En efecto:

φy(x)x=φy(x)φy(x)+DF(a)1(yy)φy(x)φy(x)+DF(a)1yyxx2+r2r.

De este modo, φy es una contracción del compacto X a sí mismo. Por lo tanto, tiene un punto fijo en X, de modo que F(x)=y para xXU. Esto muestra que V=F(U) es abierto.

F1:VU es diferenciable y DF1(b)=DF(a)1

Vamos a demostrar que F1:VU es diferenciable a partir de la definición de diferenciabilidad. Más aún, veremos que si y=F(x) para x en U, entonces DF1(y)=DF(x)1. Aquí es donde se termina de motivar nuestra elección en U, pues nos garantiza que a la derecha en efecto tenemos una matriz invertible.

Tomemos entonces y=F(x). Nos interesa el límite cuando h0 de la siguiente expresión

F1(y+h)F1(y)DF(x)1hh,

Como U es abierto, si h es pequeña entonces y+h está en U. De este modo, existe k tal que x+kU y F(x+k)=y+h. Así, la expresión anterior la podemos reescribir como

(2)DF(x)1(F(x+k)F(x)DF(x)k)kkh

Antes de continuar, probemos una desigualdad auxiliar. Notemos que

kDF1(a)hkDF1(a)h=φy(x+k)φy(x)k2,

así,

(3)k2DF1(a)h2DF1(a)h.

Substituyendo el valor de k en (2), concluimos que la expresión es menor o igual a

(4)2DF(x)1F(x+k)F(x)DF(x)kkDF1(a)

Estamos listos para terminar. La desigualdad (3) también garantiza que k0 cuando h0. Así, como F es diferenciable, tenemos que la expresión (4) tiende a 0. Esto muestra que F1 es diferenciable en y con DF1(y)=DF(x)1, tal como queríamos.

Las derivadas parciales son continuas

Esta parte es sencilla a partir de la parte anterior. Tenemos que:

DF1(b)=DF(F1(b))1

Por la regla de Cramer la inversa de una matriz depende continuamente de las entradas de la matriz original. Además, la asignación bF1(b) es continua. Así, las entradas de DF1(b) (las derivadas parciales de F1) dependen continuamente de las derivadas parciales de F, que dependen continuamente de b por hipótesis.

Con esto termina la prueba.

¿Ahora qué?

Si te gustó esta entrada, puedes compartirla o revisar otras relacionadas con matemáticas a nivel universitario:

6 comentarios en “Una prueba del teorema de la función inversa

  1. Simeón Casanova Trujillo

    Hola Leo, nunca había visto la prueba del TFI mediante el uso de puntos fijos para contracciones. Muy chévere, lo felicito y gracias por compartirla. Se la explicaré a mis estudiantes de esa manera.

    Responder
  2. Luis Melendez

    Hola, estaba buscando una demostracion de este teorama para un trabajo de la universidad pero no me queda muy claro de donde sale la forma de la ecuacion (2) y la ultima parte de la demostracion :

    «Estamos listos para terminar. La desigualdad (3) también garantiza que cuando k –>0, h–>0 . Así, como es diferenciable, tenemos que la expresión (4) tiende a . Esto muestra que es diferenciable…»

    Quizas puedas ayudarme a despejar esas dudas, de todas formas gracias por subir este tipo de contenido muy enriquecedor

    Responder
    1. Simeón Casanova Trujillo

      Buenos días Luis, si me pasas una cuenta de correo electrónico, te paso los detalles que hice a la prueba presentada en el blog de Leo.

      Simeón Casanova Trujillo

      Responder

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.