Archivo del Autor: Alejandro Antonio Estrada Franco

Cálculo Diferencial e Integral III: Multiplicadores de Lagrange

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior buscábamos optimizar un campo escalar f. Retomaremos este problema, pero ahora agregando restricciones al dominio de f. Para ello hablaremos del método de los multiplicadores de Lagrange, el cual nos permitirá dar una solución bajo ciertas condiciones de diferenciabilidad.

Esto en general es lo mejor que podremos hacer. En realidad, los problemas de este estilo son muy difíciles y no tienen una solución absoluta. Si no tenemos las condiciones del teorema de Lagrange, es posible que se tengan que hacer cosas mucho más compliadas para obtener óptimos exactos, o bien que se tengan que hacer aproximaciones numéricas.

En la demostración del teorema de los multiplicadores de Lagrange usaremos el teorema de la función implícita, lo cual es evidencia adicional de lo importante y versátil que es este resultado.

Un ejemplo para motivar la teoría

Imagina que tenemos la función f(x,y)=x2+y2 y queremos encontrar su mínimo. Esto es muy fácil. El mínimo se da cuando x=y=0, pues en cualquier otro valor tenemos un número positivo. Pero, ¿Qué pasaría si además queremos que los pares (x,y) que usamos satisfagan también otra condición?, por ejemplo, que cumplan 2x2+3y2=10

En este caso, la respuesta ya no es obvia. Podríamos intentar encontrar el mínimo por inspección, pero suena que será difícil. Podríamos intentar usar la teoría de la entrada anterior, pero esa teoría no nos dice nada de qué hacer con nuestra condición.

La teoría que desarrollaremos a continuación nos permitirá respondernos preguntas de este estilo. En este ejemplo en concreto, puedes pensar que la solución se obtendrá de la siguiente manera: La ecuación 2x2+3y2=10 nos dibuja una elipse en el plano, como se ve en la figura 1 imagen 3. Las curvas de nivel de la superficie dibujada por la gráfica de la función f corresponden a circunferencias concéntricas, cuyo centro es el origen. Al ir tomando circunferencias cada vez mas grandes en el plano comenzando con el punto (0,0) nos quedaremos con la primera que toque a la elipse, de hecho la tocará en dos puntos, digamos (x1,y1) y (x2,y2), donde f(x1,y1)=f(x2,y2) sería el mínimo buscado, es decir el mínimo que sobre la superficie f(x,y) cumple con la ecuación 2x2+3y2=10.

Pero como ahí se da una tangencia, entonces suena que justo en ese punto (x,y) hay una recta simultáneamente tangente a la curva de nivel y a la elipse. Esto nos da una relación entre gradientes. El teorema de multiplicadores de Lagrange detecta y enuncia esta relación entre gradientes con precisión y formalidad, incluso cuando tenemos más de una condición. A estas condiciones también las llamamos restricciones, y están dadas por ecuaciones.

Enunciado del teorema de multiplicadores de Lagrange

A continuación enunciamos el teorema.

Teorema (multiplicadores de Lagrange). Sea f:SRnR es un campo escalar de clase C1. Para m<n, tomamos g1,,gm:S∈⊂RnR campos escalares de clase C1 en S. Consideremos el conjunto S donde todos los gi se anulan, es decir:

S={x¯S|g1(x¯)=g2(x¯)==gm(x¯)=0}.

Tomemos un x¯0 en S para el cual

  1. f tiene un extremo local en x¯0 para los puntos de S y
  2. g1(x¯0),,gm(x¯0) son linealmente independientes.

Entonces existen λ1,,λmR, a los que llamamos multiplicadores de Lagrange tales que:

f(x¯0)=λ1g1(x¯0)++λmgm(x¯0).

Si lo meditas un poco, al tomar m=1 obtenemos una situación como la del ejemplo motivador. En este caso, la conclusión es que f(x¯0)=λg(x¯0), que justo nos dice que en x¯0, las gráficas de los campos escalares f y g tienen una tangente en común.

Demostración del teorema de multiplicadores de Lagrange

Demostración. La demostración del teorema de multiplicadores de Lagrange usa varios argumentos de álgebra lineal. Esto tiene sentido, pues a final de cuentas, lo que queremos hacer es poner un gradiente (f(x¯0)) como combinación lineal de otros gradientes (g1(x¯0),,gm(x¯0)). A grandes rasgos, lo que haremos es:

  • Definir un espacio W.
  • Mostrar que g1(x¯0),,gm(x¯0) generan al espacio ortogonal W.
  • Mostrar que f(x¯0) es ortogonal a todo vector de W, por lo cual estará en W y así por el inciso anterior será combinación lineal de g1(x¯0),,gm(x¯0).

Para construir el espacio W del que hablamos, usaremos el teorema de la función implícita y la regla de la cadena. Empecemos este argumento. Consideremos la siguiente matriz:

(1)(g1x1(x¯0)g1xm(x¯0)g1xm+1(x¯0)g1xn(x¯0)gmx1(x¯0)gmxm(x¯0)gmxm+1(x¯0)g1xn(x¯0)).

Dado que los vectores g1(x¯0),,gm(x¯0) son linealmente independientes, el rango por renglones de esta matriz es m, de modo que su rango por columnas también es m (tarea moral). Sin perder generalidad (quizás tras hacer una permutación de columnas, que permuta las entradas), tenemos que las primeras m columnas son linealmente independientes. Así, la matriz

(g1x1(x¯0)g1xm(x¯0)gmx1(x¯0)gmxm(x¯0))

es invertible. Hagamos l=nm y reetiquetemos las variables coordenadas x1,,xm como v1,,vm, y las variables coordenadas xm+1,,xn como u1,,ul. Escribiremos x¯0=(v¯0,u¯0) para referirnos al punto al que hacen referencia las hipótesis. Esto nos permite pensar Rn=Rm×Rl y nos deja en el contexto del teorema de la función implícita. Como la matriz anterior es invertible, existen URl y VRm para los cuales u¯0U, v¯0V y hay una única función h=(h1,,hm):UV de clase C1 tal que para u¯U y v¯V se cumple que g(v¯,u¯)=0 si y sólo si v¯=h(u¯).

Definamos ahora la función H:URlRm×Rl como H(u¯)=(h(u¯),u¯), la cual es de clase C1 en U.

Por cómo construimos h, sucede que (h(u¯),u¯)S para toda u¯U. Por definición, esto quiere decir que para toda i=1,,m tenemos que (giH)(u¯)=0 para toda u¯U. Esto quiere decir que giH es una función constante y por lo tanto su derivada en u¯0 es la transformación 0. Pero otra forma de obtener la derivada es mediante la regla de la cadena como sigue:

D(giH)(u¯0)=Dgi(H(u¯0))DH(u¯0)=Dgi(v¯0,u¯0)DH(u¯0).

En términos matriciales, tenemos entonces que el siguiente producto matricial es igual al vector (0,,0) de l entradas (evitamos poner (v¯0,u¯0) para simplificar la notación):

(2)(giv1givmgiu1giul)(h1u1h1ulhmu1hmul1001),

para cada i=1,,m. Nos gustaría escribir esta conclusión de manera un poco más sencilla, para lo cual introducimos los siguientes vectores para cada j=1,,l:

w¯j=((h1uj(u¯0),,hmuj(u¯0)),e^j).

Cada uno de estos lo pensamos como vector en Rm×Rl. Además, son l vectores linealmente independientes, pues sus entradas e^j son linealmente independientes. El espacio vectorial W que generan es entonces un subespacio de Rm×Rl, con dim(W)=l.

De la ecuación (2) tenemos que gi(v¯0,u¯0)w¯j=0 para todo i=1,,m, y j=1,,l. Se sigue que gi(v¯0,u¯0)W, donde W es el complemento ortogonal de W en Rm×Rl. Pero además, por propiedades de espacios ortogonales tenemos que

dim(W)=dim(Rm×Rl)dim(W)=m+ll=m.

Así dim(W)=m, además el conjunto {gi(v¯0,u¯0)}i=1m es linealmente independiente con m elementos, por tanto este conjunto es una base para W. Nuestra demostración estará terminada si logramos demostrar que f(v¯0,u¯0) también está en W, es decir, que es ortogonal a todo elemento de W.

Pensemos qué pasa al componer f con H en el punto u¯0. Afirmamos que u¯0 es un extremo local de fH. En efecto, (fH)(u¯0)=f(g(u¯0),u¯0)=(v¯0,u¯0). Si, por ejemplo (v¯0,u¯0) diera un máximo, entonces los valores f(v¯,u¯) para (v¯,u¯) dentro de cierta bola Bδ(v¯0,u¯0) serían menores a f(v¯0,u¯0). Pero entonces los valores cercanos u¯ a u¯0 cumplen (fH)(u¯)=f(h(u¯),u¯), con (u¯,h(u¯)) en S y por lo tanto menor a f(v¯0,u¯0) (para mínimos es análogo).

Resumiendo lo anterior, u¯0 es extremo local de fH. Aplicando lo que aprendimos en la entrada anterior, la derivada de fH debe anularse en u¯0. Pero por regla de la cadena, dicha derivada es

(fH)(u¯0)=D(fH)(u¯0)=Df(H(u¯0))DH(u¯0)=Df(h(u¯0),u¯0)DH(u¯0)=Df(v¯0,u¯0)DH(u¯0)

Viéndolo como multiplicación de matrices, el siguiente producto es el vector (0,0,,0) de l entradas:

(fv1fvmfu1ful)(h1u1h1ulhmu1hmul1001)=0

De donde concluimos f(v¯0,u¯0)w¯j=0 para cada j=1,l. Esto precisamente nos dice que f(v¯0,u¯0)W. Esto es justo lo que queríamos, pues habíamos demostrado que {gi(v¯0,u¯0)}i=1m es una base de W. Por ello podemos expresar a f(v¯0,u¯0) como combinación lineal de esta base, es decir, existen λ1,,λm escalares tales que:

f(v¯0,u¯0)=λ1g1(v¯0,u¯0)++λmgm(v¯0,u¯0).

◻

¡Qué bonita demostración! Usamos el teorema de la función implícita, la regla de la cadena (dos veces), nuestros resultados para valores extremos de la entrada anterior, y un análisis cuidadoso de ciertos espacios vectoriales.

Ejemplos del método de multiplicadores de Lagrange

Veamos algunos problemas que podemos resolver con esta nueva herramienta.

Ejemplo. Determinaremos los puntos extremos de f(x,y)=x+2y bajo la condición x2+y2=5. Para poner todo en términos de nuestro teorema, definimos g(x,y)=x2+y25. Por el teorema de multiplicadores de Lagrange, en los puntos extremos debe existir una λ tal que f(x,y)=λg(x,y). Calculando las parciales correspondientes, debemos tener entonces

(1,2)=λ(2x,2y).

Adicionalmente, recordemos que se debe satisfaces g(x,y)=0. Llegamos entonces al sistema de ecuaciones

{12xλ=022yλ=0x2+y25=0

Al despejar x y y en ambas ecuaciones tenemos:

x=12λy=1λx2+y25=0.

Poniendo los valores de x y y en la tercera ecuación, llegamos a (12λ)2+(1λ)25=0, de donde al resolver tenemos las soluciones λ1=12 y λ2=12.

Al sustituir en las ecuaciones de nuestro sistema, obtenemos como puntos críticos a (x,y)=(1,2) y (x,y)=(1,2).

Si intentamos calcular el hessiano de f, esto no nos dirá nada (no tendremos eigenvalores sólo positivos, ni sólo negativos). Pero esto ignora las restricciones que nos dieron. Podemos hacer una figura para entender si estos puntos son máximos o mínimos. En la Figura 1 tenemos la gráfica de f, intersectada con la superfice dada por g. Nos damos cuenta que hay un punto máximo y uno mínimo. Al evaluar, obtenemos f(1,2)=5 y f(1,2)=5. Esto nos dice que el máximo en la superficie se alcanza en (1,2) y el mínimo en (1,2).

Figura 2: Ilustración del Ejemplo 1 la función g(x,y)=x2+y25 esta dibujada en azul esta impone restricción a la función f que dibuja un plano en el espacio.

Ejemplo. Veamos cómo minimizar la expresión f(x,y,z)=x2+y2+z2 sujetos a la condición x+y+z=1. Una vez más, proponemos g(x,y,z)=x+y+z1 para tener la situación del teorema de multiplicadores de Lagrange. Debe pasar que λ f(x,y,z)=λg(x,y,z). El gradiente de g(x,y,z) es de puros ceros unos, así que tenemos el sistema de ecuaciones:

{2x=λ2y=λ2z=λx+y+z1=0

De las primeras tres ecuaciones tenemos 2x=2y=2z de donde x=y=z. Sustituyendo en la tercera ecuación, 3x1=0, es decir x=y=z=13. Ya que sólo tenemos una solución, ésta es el mínimo del conjunto de soluciones. En la figura 3 tenemos la ilustración de la solución de este problema, la esfera centrada en el origen de radio 13 toca al plano x+y+z=1 en el punto (13,13,13)

Figura 3: En azul claro el plano x+y+z=1, inflamos esferas centradas en el origen; desde la de radio cero vamos aumentando el radio hasta tener el radio correspondiente para el cual la esfera toque tangentemente al plano.

Más adelante…

Con esta entrada cerramos el curso de Cálculo Diferencial e Integral III. ¡¡Felicidades!! Esperamos que todas estas notas te hayan sido de ayuda para estudiar, repasar o impartir la materia. Quedamos al pendiente de cualquier duda, observación o sugerencia en la sección de comentarios de las entradas.

Tarea moral

  1. Determina los extremos de la función f(x,y)=xy+14 bajo la restricción x2+y2=18
  2. El plano x+y+2z=2 interseca al paraboloide z=x2+y2 en una elipse E. Determina el punto de la elipse con el valor mayor en el eje z, y el punto con el valor mínimo en el mismo eje. Sugerencia: f(x,y,z)=x+y+2z2, y g(x,y,z)=x2+y2z
  3. Determinar el máximo valor de f(x,y,z)=x2+36xy4y218x+8y bajo la restricción 3x+4y=32
  4. Determinar los puntos extremos de la función f(x,y,z)=x2+y2+z2 bajo la restricción xyz=4
  5. Demuestra que en una matriz M su rango por columnas es igual a su rango por renglones. Sugerencia. Usa el teorema de reducción gaussiana. También, puedes revisar la entrada que tenemos sobre rango de matrices.

Entradas relacionadas

Cálculo Diferencial e Integral III: Puntos críticos de campos escalares

Por Alejandro Antonio Estrada Franco

Introducción

En las unidades anteriores hemos desarrollado varias herramientas de la teoría de diferenciabilidad que nos permiten estudiar tanto a los campos escalares, como a los campos vectoriales. Hemos platicado un poco de las aplicaciones que esta teoría puede tener. En esta última unidad, profundizamos un poco más en cómo dichas herramientas nos permitirán hacer un análisis geométrico y cuantitativo de las funciones. Es decir, a partir de ciertas propiedades analíticas, hallaremos algunas cualidades de su comportamiento geométrico. En esta entrada estudiaremos una pregunta muy natural: ¿cuándo una función diferenciable alcanza su máximo o su mínimo? Para ello, necesitaremos definir qué quiere decir que algo sea un punto crítico de una función. Esto incluirá a los puntos más altos, los más bajos, local y globalmente y ciertos «puntos de quiebre» que llamamos puntos silla.

Introducción al estudio de los puntos críticos

Si tenemos un campo escalar f:RnR, en muchas aplicaciones nos interesa poder decir cuándo alcanza sus valores máximos o mínimos. Y a veces eso sólo nos importa en una vecindad pequeña. La siguiente definición hace ciertas precisiones.

Definición. Sea f:SRnR un campo escalar, y a¯S.

  • Decimos que f tiene un máximo absoluto (o máximo global) en a¯ si f(x¯)f(a¯) para todo x¯S. A f(a¯) le llamamos el máximo absoluto (o máximo global) de f en S.
  • Decimos que f tiene un máximo relativo (o máximo local) en a¯ si existe una bola abierta Br(a¯) tal que para todo x¯Br(a¯) f(x¯)f(a¯).
  • Decimos que f tiene un mínimo absoluto (o mínimo global) en a¯ si f(x¯)f(a¯) para todo x¯S. A f(a¯) le llamamos el mínimo absoluto (o mínimo global) de f en S.
  • Decimos que f tiene un mínimo relativo (o mínimo local) en a¯ si existe una bola abierta Br(a¯) tal que para todo x¯Br(a¯) f(x¯)f(a¯).

En cualquiera de las situaciones anteriores, decimos que f tiene un valor extremo (ya sea relativo o absoluto) en a¯. Notemos que todo extremo absoluto en S será extremo relativo al tomar una bola Br(a¯) que se quede contenida en S. Y de manera similar, todo extremo relativo se vuelve un extremo absoluto para la función restringida a la bola Br(a¯) que da la definición.

Usualmente, cuando no sabemos nada de una función f, puede ser muy difícil, si no imposible estudiar sus valores extremos. Sin embargo, la intuición que tenemos a partir de las funciones de una variable real es que deberíamos poder decir algo cuando la función que tenemos tiene cierta regularidad, por ejemplo, cuando es diferenciable. Por ejemplo, para funciones diferenciables f:SRR quizás recuerdes que si f tiene un valor extremo en a¯S, entonces f(a¯)=0.

El siguiente teorema es el análogo en altas dimensiones de este resultado.

Teorema. Sea f:SRnR un campo escalar. Supongamos que f tiene un valor extremo en un punto interior a¯ de S, y que f es diferenciable en a¯. Entonces el gradiente de f se anula en a¯, es decir, f(a¯)=0.

Demostración. Demostraremos el resultado para cuando hay un máximo relativo en a¯. El resto de los casos quedan como tarea moral. De la suposición, obtenemos que existe un r>0 tal que f(x¯)f(a¯) para todo x¯Br(a¯). Escribamos a¯=(a1,,an).

Para cada i=1,,n tenemos:

fxi(a¯)=limξaif(ξe^i)f(a¯)ξai.

Además, ya que f es diferenciable en a¯ también se cumple

limξaif(ξei)f(a)ξai=limξai+f(ξei)f(a)ξai.

Dado que f alcanza máximo en a¯ tenemos que f(ξe^i)f(a¯)0. Para el límite por la izquierda tenemos ξai0, por lo tanto, en este caso

limξaif(ξei)f(a¯)ξai0.

Para el límite por la derecha tenemos ξai0, por lo cual

limξai+f(ξe^i)f(a¯)ξai0.

Pero la igualdad entre ambos límites dos dice entonces que

fxi(a¯)=limξaif(ξe^i)f(a¯)ξai=0.

Por lo cual cada derivada parcial del campo vectorial es cero, y así el gradiente también lo es.

◻

Parece ser que es muy importante saber si para un campo vectorial su gradiente se anula, o no, en un punto. Por ello, introducimos dos nuevas definiciones.

Definición. Sea f:SRnR un campo escalar diferenciable en un punto a¯ en S. Diremos que f tiene un punto estacionario en a¯ si f(a¯)=0.

Definición. Sea f:SRnR un campo escalar y tomemos a¯ en S. Diremos que f tiene un punto crítico en a¯ si o bien f no es diferenciable en a¯, o bien f tiene un punto estacionario en a¯.

Si f tiene un valor extremo en a¯ y no es diferenciable en a¯, entonces tiene un punto crítico en a¯. Si sí es diferenciable en a¯ y a¯ es un punto interior del dominio, por el teorema de arriba su gradiente se anula, así que tiene un punto estacionario y por lo tanto también un punto crítico en a¯. La otra opción es que sea diferenciable en a¯, pero que a¯ no sea un punto interior del dominio.

Observación. Los valores extremos de f se dan en los puntos críticos de f, o en puntos del dominio que no sean puntos interiores.

Esto nos da una receta para buscar valores extremos para un campo escalar. Los puntos candidatos a dar valores extremos son:

  1. Todos los puntos del dominio que no sean interiores.
  2. Aquellos puntos donde la función no sea diferenciable.
  3. Los puntos la función es diferenciable y el gradiente se anule.

Ya teniendo a estos candidatos, hay que tener cuidado, pues desafortunadamente no todos ellos serán puntos extremos. En la teoría que desarrollaremos a continuación, profundizaremos en el entendimiento de los puntos estacionarios y de los distintos comportamientos que las funciones de varias variables pueden tener.

Intuición geométrica

Para entender mejor qué quiere decir que el gradiente de un campo escalar se anuele, pensemos qué pasa en términos geomértricos en un caso particular, que podamos dibujar. Tomemos un campo escalar f:R2R. La gráfica de la función f es la superficie en R3 que se obtiene al variar los valores de x,y en la expresión (x,y,f(x,y)).

Otra manera de pensar a esta gráfica es como un conjunto de nivel. Si definimos F(x,y,z)=zf(x,y), entonces la gráfica es precisamente el conjunto de nivel para F en el valor 0, pues precisamente F(x,y,z)=0 si y sólo si z=f(x,y).

Si f alcanza un extremo en (a,b), entonces f(a,b)=0 por lo cual F(a,b,f(a,b))=(0,0,1). Así, el gradiente es paralelo al eje z y por lo tanto es un vector normal a la superficie F(x,y,z)=0. Esto lo podemos reinterpretar como que el plano tangente a la superficie citada en el punto (a,b,f(a,b)) es horizontal.

Puntos silla

Cuando la función es diferenciable y el gradiente se anula, en realida tenemos pocas situaciones que pueden ocurrir. Sin embargo, falta hablar de una de ellas. Vamos a introducirla mediante un ejemplo.

Ejemplo. Consideremos f(x,y)=xy. En este caso

fx=yyfy=x.

Si (x,y)=(0,0), entonces las parciales se anulan, así que el gradiente también. Por ello, (0,0) es un punto estacionario (y por lo tanto también crítico). Pero veremos a continuación que f(0,0)=0 no es máximo relativo ni mínimo relativo.

Tomemos r>0 abitrario y ε=r/8. El punto (ε,ε)Br(0) pues ε2+ε2 es igual a r2/8+r2/8=r/2<r. Análogamente, tenemos que el punto (ε,ε)Br(0). Sin embargo f(ε,ε)=r2/8<0, por lo que 0 no es un mínimo local, también f(ε,ε)=r2/8>0, por lo que 0 tampoco es máximo local. En la Figura 1 tenemos un bosquejo de esta gráfica.

Figura 1

Los puntos como los de este ejemplo tienen un nombre especial que definimos a continuación.

Definición. Sea f:SRnR un campo escalar y a¯ un punto estacionario de f. Diremos que a¯ es un punto silla si para todo r>0 existen u¯,v¯Br(a¯) tales que f(u¯)<f(a¯) y f(v¯)>f(a¯).

Determinar la naturaleza de un punto estacionario

Cuando tenemos un punto estacionario a¯ de una función f:RnR, tenemos diferenciabilidad de f en a¯. Si tenemos que la función es de clase C2 en ese punto, entonces tenemos todavía más. La intuición nos dice que probablemente podamos decir mucho mejor cómo se comporta f cerca de a¯ y con un poco de suerte entender si tiene algún valor extremo o punto silla ahí, y bajo qué circunstancias.

En efecto, podemos enunciar resultados de este estilo. Por la fórmula de Taylor tenemos que

f(a¯+y¯)=f(a¯)+f(a¯)y+12[y¯]tH(a¯)[y¯]+||y¯||2E2(a¯,y¯),

en donde el error ||y¯||2E2(a¯,y¯) se va a cero conforme ||y¯||0. Recuerda que aquí H(a¯) es la matriz hessiana de f en a¯. Como f:RnR, se tiene que H(a¯)Mn(R).

Para un punto estacionario a¯ se cumple que f(a¯)=0, así que de lo anterior tenemos

f(a¯+y¯)f(a¯)=12[y¯]tH(a¯)[y¯]+||y¯||2E2(a¯,y¯).

De manera heurística, dado que lim||y¯||0||y¯||2E2(a¯,y¯)=0, estamos invitados a pensar que el signo de f(a¯+y¯)f(a¯) es el mismo que el la expresión [y¯]tH(a¯)[y¯]. Pero como hemos platicado anteriormente, esto es una forma cuadrática en la variable y¯, y podemos saber si es siempre positiva, siempre negativa o una mezcla de ambas, estudiando a la matriz hessiana H(a¯).

Esta matriz es simétrica y de entradas reales, así que por el teorema espectral es diagonalizable mediante una matriz ortogonal P. Tenemos entonces que PtAP es una matriz diagonal D. Sabemos también que las entradas de la diagonal de D son los eigenvalores λ1,,λn de A contados con la multiplicidad que aparecen en el polinomio característico.

Teorema. Sea X una matriz simétrica en Mn(R). Consideremos la forma bilineal B(v¯)=[v¯]tX[v¯]. Se cumple:

  1. B(v¯)>0 para todo v¯0¯ si y sólo si todos los eigenvalores de X son positivos.
  2. B(v¯)<0 para todo v¯0¯ si y sólo si todos los eigenvalores de X son negativos.

Demostración. Veamos la demostración del inciso 1.

) Por la discusión anterior, existe una matriz ortogonal P tal que PtXP es diagonal, con entradas λ1,,λn que son los eigenvalores de X. Así, en alguna base ortonormal β tenemos B(v¯)=i=1nλiai2 donde a¯=(a1,,an) es el vector v¯ en la base β. Si todos los eigenvalores son positivos, claramente B(v¯)>0, para todo v¯0¯.

) Si B(v¯)>0 para todo v¯0¯ podemos elegir v¯ como el vector ek de la base β. Para esta elección de v¯ tenemos B(ek^)=λk, de modo que para toda k, λk>0.

El inciso 2 es análogo y deja como tarea moral su demostración.

◻

A las formas cuadráticas que cumplen el primer inciso ya las habíamos llamado positivas definidas. A las que cumplen el segundo inciso las llamaremos negativas definidas.

Combinando las ideas anteriores, podemos formalmente enunciar el teorema que nos habla de cómo son los puntos estacionarios en términos de los eigenvalores de la matriz hessiana.

Teorema. Consideremos un campo escalar f:SRnR de clase C2 en un cierto punto interior a¯S. Supongamos que a¯ es un punto estacionario.

  1. Si todos los eigenvalores de H(a¯) son positivos, f tiene un mínimo relativo en a¯.
  2. Si todos los eigenvalores de H(a¯) son negativos, f tiene un máximo relativo en a¯.
  3. Si H(a¯) tiene por lo menos un eigenvalor positivo, y por lo menos un eigenvalor negativo, f tiene punto silla en a¯.

Antes de continuar, verifica que los tres puntos anteriores no cubren todos los casos posibles para los eigenvalores. ¿Qué casos nos faltan?

Demostración: Definamos la forma bilineal B(v¯)=[v¯]tH(a¯)[v¯] y usemos el teorema de Taylor para escribir

(3)f(a¯+v¯)f(a¯)=12B(v¯)+||v¯||2E(a¯,v¯)

con

(4)limv¯0¯E(a¯,v¯)=0.

En primer lugar haremos el caso para los eigenvalores positivos. Sean λ1,,λn los eigenvalores de H(a¯). Sea λ=min{λ1,,λn}. Si ε<λ, para cada i=1,,n tenemos λiε>0. Además, los números λiε son los eigenvalores de la matriz H(a¯)εI, la cual es simétrica porque H(a¯) lo es. De acuerdo con nuestro teorema anterior la forma cuadrática [v¯]t(H(a¯)εI)[v¯] es definida positiva, y por lo tanto

[v¯]tH(a¯)[v¯]>[v¯]tεI[v¯]=ε||v¯||2.

Esto funciona para todo ε<λ. Tomando ε=12λ obtenemos B(v¯)>12||v¯||2 para todo v¯0¯. Por el límite de (4) tenemos que existe r>0 tal que |E(a¯,v¯)|<14λ para 0<||v¯||<r. En este caso se cumple

0||v¯||2|E(a¯,v¯)|<14λ||v¯||2<12B(v¯),

Luego por la ecuación (3) tenemos
f(a¯+v¯)f(a¯)=12B(v¯)+||v¯||2E(a¯,v¯)12B(v¯)||v¯||2|E(a¯,v¯)|>0.

Esto muestra que f tiene un mínimo relativo en a¯ para la vecindad Br(a¯).

Para probar la parte 2 se usa exactamente el mismo proceder sólo que hay que considerar la función f, lo cual quedará hacer como tarea moral.

Revisemos pues la parte del punto silla, la parte 3. Consideremos λ1 y λ2 dos eigenvalores de H(a¯) tales que λ1<0 y λ2>0. Pongamos λ=min{|λ1|,|λ2|}. Notemos que para todo ε(λ,λ) se tiene que λ1ε y λ2ε son números de signos opuestos y además eigenvalores de la matriz H(a¯)εI. Tomando vectores en dirección de los eigenvectores v¯1 y v¯2 correspondientes a λ1 y λ2 notamos que [v¯](H(a¯)εI)[v¯]t toma valores positivos y negativos en toda vecindad de 0¯. Finalmente escojamos r>0 de tal manera que |E(a¯,v¯)|<14ε cuando 0<||v¯||<r. Usando las mismas desigualdades del la parte 1, vemos que para v¯ en la dirección de v¯1 la diferencia f(a¯+v¯)f(a¯) es negativa y para v¯ en la dirección de v¯2 es positiva. Así, f tiene un punto silla en a¯.

◻

Hay algunas situaciones en las que el teorema anterior no puede ser usado. Por ejemplo, cuando los eigenvalores de H(a¯) son todos iguales a cero. En dicho caso, el teorema no funciona y no nos dice nada de si tenemos máximo, mínimo o punto silla, y de hecho cualquiera de esas cosas puede pasar.

Ejemplos de análisis de puntos críticos

Ejemplo. Tomemos el campo escalar f(x,y)=x2+(y1)2 y veamos cómo identificar y clasificar sus puntos estacionarios. Lo primero por hacer es encontrar el gradiente, que está dado por f(x,y)=(2x,2(y1)). El gradiente se anula cuando 2x=0 y 2(y1)=0, lo cual pasa si y sólo si x=0 y y=1. Esto dice que sólo hay un punto estacionario. Para determinar su naturaleza, encontraremos la matriz hessiana en este punto, así como los eigenvalores que tiene. La matriz hessiana es

H(v¯)=(2fx2(v¯)2fyx(v¯)2fxy(v¯)2fy2(v¯))=(2002).

Notemos que la matriz hessiana ya está diagonalizada y es la misma para todo v¯. En particular, en (0,1) sus valores propios son 2 y 2, que son positivos. Así, la matriz hessiana es positiva definida y por lo tanto tenemos un mínimo local en el punto (0,1). Esto lo confirma visualmente la gráfica de la Figura 2.

Figura 2

Ejemplo. Veamos cómo identificar y clasificar los puntos estacionarios del campo escalar f(x,y)=x3+y33xy. Localicemos primero los puntos estacionarios. Para ello calculemos el gradiente f(x,y)=(3x23y,3y23x). Esto nos dice que los puntos estacionarios cumplen el sistema de ecuaciones

{3x23y=03y23x=0.

Puedes verificar que las únicas soluciones están dadas son los puntos (0,0) y (1,1) (Sugerencia. Multiplica la segunda ecuación por x y suma ambas). La matriz hessiana es la siguiente:

H(x,y)=(6x336y).

En (x,y)=(0,0) la matriz hessiana es (0330). Para encontar sus eigenvalores calculamos el polinomio característico

det(H(0,0)λI)=|λ33λ|=λ29.

Las raíces del polinomio característico (y por lo tanto los eigenvalores) son λ1=3 y λ2=3. Ya que tenemos valores propios de signos distintos tenemos un punto silla en (0,0).

Para (x,y)=(1,1) la cuenta correspondiente de polinomio característico es

det(H(1,1)λI)=|6λ336λ|=(6λ)29.

Tras manipulaciones algebraicas, las raíces son λ1=9, λ2=3. Como ambas son positivas, en (1,1) tenemos un mínimo.

Puedes confirmar visualmente todo lo que encontramos en la gráfica de esta función, la cual está en la Figura 3.

Figura 3

A continuación se muestra otro problema que se puede resolver con lo que hemos platicado. Imaginemos que queremos aproximar a la función x2 mediante una función lineal ax+b. ¿Cuál es la mejor forma de elegir a,b para que las funciones queden «cerquita» en el intervalo [0,1]? Esa cercanía se puede medir de muchas formas, pero una es pidiendo que una integral se haga chiquita.

Ejemplo. Determinemos qué valores de las constantes a,bR minimizan la siguiente integral

01[ax+bx2]2dx.

Trabajemos sobre la integral.

01[ax+bx2]2dx=01(2abx+(a22b)x22ax3+x4+b2)dx=012abxdx+01(a22b)x2dx012ax3dx+01x4dx+01b2dx=b2+13a2+ab23b12a+15.

Es decir, tenemos

01[ax+bx2]2dx=b2+13a2+ab23b12a+15.

Ahora definamos f(a,b)=b2+13a2+ab23b12a+15; basándonos en la forma general de la ecuación cuadrática de dos variables podemos comprobar rápidamente que f nos dibuja una elipse en cada una de sus curvas de nivel. Continuando con nuestra misión, tenemos que f(a,b)=(23a+b12,2b+a23). Al resolver el sistema
{23a+b12=02b+a23=0,

hay una única solución a=1 y b=16. Puedes verificar que la matriz hessiana es la siguiente en todo punto.

H(v¯)=(23112).

Para determinar si tenemos un mínimo, calculamos el polinomio característico como sigue

det(H(v¯)λI)=|23λ112λ|=(23λ)(2λ)1=λ283λ+13.

Esta expresión se anula para λ1=4+133 y λ2=4133. Ambos son números positivos, por lo que en el único punto estacionario de f tenemos un mínimo. Así el punto en el cual la integral se minimiza es (a,b)=(1,16). Concluimos que la mejor función lineal ax+b que aproxima a la función x2 en el intervalo [0,1] con la distancia inducida por la integral dada es la función x16.

En la Figura 3 puedes ver un fragmento de la gráfica de la función f(a,b) que nos interesa.

Figura 3. Gráfica de la función f(a,b).

Mas adelante…

La siguiente será nuestra última entrada del curso y nos permitirá resolver problemas de optimización en los que las variables que nos dan tengan ciertas restricciones. Esto debe recordarnos al teorema de la función implícita. En efecto, para demostrar los resultados de la siguiente entrada se necesitará este importante teorema, así que es recomendable que lo repases y recuerdes cómo se usa.

Tarea moral

  1. Identifica y clasifica los puntos estacionarios de los siguientes campos escalares:
    • f(x,y)=(xy+1)2
    • f(x,y)=(x2+y2)e(x2+y2)
    • f(x,y)=sin(x)cos(x).
  2. Determina si hay constantes a,bR tales que el valor de la integral 01[ax+bf(x)]2dx sea mínima para f(x)=(x2+1)1. Esto en cierto sentido nos dice «cuál es la mejor aproximación lineal para 1x2+1».
  3. Este problema habla de lo que se conoce como el método de los mínimos cuadrados. Consideremos n puntos (xi,yi) en R2, todos distintos. En general es imposible hallar una recta que pase por todos y cada uno de estos puntos; es decir, hallar una función f(x)=ax+b tal que f(xi)=yi para cada i. Sin embargo, sí es posible encontrar una función lineal f(x)=ax+b que minimice el error cuadrático total que está dado por E(a,b)=i=1n[f(xi)yi]2. Determina los valores de a y b para que esto ocurra. Sugerencia. Trabaja con el campo escalar E(a,b) recuerda que los puntos (xi,yi) son constantes.
  4. Completa la demostración de que si una matriz X tiene puros eigenvalores negativos, entonces es negativa definida.
  5. En el teorema de clasificación de puntos estacionarios, muestra que en efecto si la matriz hessiana es negativa definida, entonces el punto estacionario es un punto en donde la función tiene máximo local.

Entradas relacionadas

Cálculo Diferencial e Integral III: Divergencia, laplaciano y rotacional

Por Alejandro Antonio Estrada Franco

Introducción

Después de algunas entradas muy técnicas, en las que hemos demostrado dos resultados sumamente importantes (el teorema de la función inversa y el teorema de la función implícita), pasaremos brevemente a una entrada un poco más ligera en términos de teoría, pero también relevante. En esta entrada nos volcaremos a una cara más práctica del cálculo diferencial e integral.

Recordemos que un campo vectorial es una función F:SRnRm. El nombre de campo vectorial está justificado con que a cada punto de un espacio base Rn, estamos asignando otro vector, en Rm. Si pegamos a cada vector del dominio el vector que le corresponde en a partir de F, podemos tener otra intuición geométrica de lo que hacen estas funciones. En la figura 1 apreciamos un ejemplo de esto, donde tenemos un campo vectorial F de R3 en R3 y entonces a cada vector de R3 le estamos «pegando una flecha».

Figura 1

Esta manera de pensar a los campos vectoriales se presta mucho para entender propiedades físicas de los objetos: flujo eléctrico, flujo de calor, fuerza, trabajo, etc. Si pensamos en esto, otros conceptos que hemos estudiado también comienzan a tener significado. Por ejemplo, el gradiente de un campo escalar está íntimamente relacionado a otras propiedades físicas descritas por el campo escalar. Un ejemplo que hemos discutido es que el gradiente, por ejemplo, nos da la dirección de cambio máximo.

Un ejemplo más concreto sería el siguiente. Pensemos en R3 en un sólido S y un campo escalar T:SR que da la temperatura de cada punto del sólido. Si consideramos la expresión J=kT, obtenemos lo que se conoce como el flujo de calor. Tiene sentido. Por lo que aprendemos en educación elemental, el calor va de los puntos de mayor temperatura a los de menor temperatura. El gradiente T da la dirección de máximo crecimiento. Pero entonces T da la dirección de máximo descenso (así como su magnitud). La k que aparece tiene que ver con qué tan bien el material del que hablamos transmite el calor.

Notación tradicional de los campos vectoriales

En el ámbito de las aplicaciones generalmente se usa la notación con gorros. Veamos un ejemplo de cómo escribir con esta notación. En vez de escribir para v¯R3 la expresión v¯=(x,y,z), escribimos v¯=xı^+yȷ^+zk^, es decir, podemos pensar que ı^=(1,0,0), ȷ^=(0,1,0), k^=(0,0,1).

Si F:R3R3 es un campo vectorial, escribimos F=Pı^+Qȷ^+Rk^, donde P, Q y R son los campos escalares componente, que cada uno de ellos va de R3 a R.

Generalmente escribimos también F(x,y,z)=P(x,y,z)ı^+Q(x,y,z)ȷ^+R(x,y,z)k^ tras evaluar.

Con esta notación también podemos escribir al gradiente y pensarlo como un «operador» que manda campos escalares a campos vectoriales. A este operador se le llama operador nabla. Lo escribimos de la siguiente manera:

=xı^+yȷ^+zk^.

Si tenemos un campo escalar ϕ:R3R, entonces el operador hace lo siguiente

ϕ(x,y,z)=ϕ(x,y,z)xı^+ϕ(x,y,z)yȷ^+ϕ(x,y,z)zk^.

Es decir, a partir de ϕ obtenemos su gradiente.

Líneas de flujo

Ahora introducimos el concepto de línea de flujo el cual es muy usado para campos vectoriales en el modelado fenómenos físicos.

Definición. Si F:RnRn es un campo vectorial, una línea de flujo para F es una función α:URRn tal que α(t)=F(α(t)) para todo tU.

Es decir una línea de flujo es una trayectoria sobre la cual F asigna en cada punto de ella su correspondiente vector tangente. En la Figura 2 tenemos una ilustración de una línea de flujo en un campo vectorial.

Figura 2

Divergencia

Supongamos que tenemos en el plano (o el espacio) una región S. Para cada punto x¯ de S sea x(t) una línea de flujo que parte de x¯ bajo el campo vectorial F. El conjunto de líneas x(t) describe cómo cambia el conjunto S bajo la acción de F a través del tiempo. Formalizando esto un poco, en el caso del plano tomemos F:SR2R2. Para cada x¯S podemos considerar γx:IxRR2, como la trayectoria x(t) y que es línea de flujo bajo F. Estas trayectorias van mostrando «cómo se va deformando S a causa del campo vectorial F». También, consideremos al conjunto S={x¯+F(x¯)|x¯S}, al cual pensaremos como el conjunto resultante de aplicar a S el campo vectorial F.

Estas nociones se pueden analizar a través de una herramienta llamada divergencia. La definimos a continuación, pero una demostración formal de que el operador divergencia mide la expansión del efecto de un campo vectorial es un tema que se estudia en un cuarto curso de cálculo diferencial e integral.

Figura 3. Aquí se ilustra el efecto de un campo vectorial sobre una sección S del plano.

Damos la definición en R3, pero podrías dar una versión análoga para R2.

Definición. Si F=Pı^+Qȷ^+Rk^ es un campo vectorial definimos la divergencia de F como:

F=Px+Qy+Rz.

En dimensiones más altas, si F=(F1,,Fn), entonces F=i=1nFixi.

Rotacional

Figura 4

Pensemos en un fluido que se mueve de acuerdo con el flujo marcado por el campo vectorial F. Tenemos una forma de determinar la rotación que el fluido imprimiría sobre un sólido llevado por él. Imaginemos un remolino y una pequeña esfera solida llevada por el remolino. Lo que llamaremos el rotacional del vector nos proporcionará la información sobre las rotaciones sobre su eje que el fluido imprime a la pequeña esfera (Figura 4).

Definición. Sea F(x,y,z)=F1(x,y,z)ı^+F2(x,y,z)ȷ^+F3(x,y,z)k^. Entonces definimos al rotacional de F como el siguiente campo vectorial:

×F(x,y,z)=(F3yF2z)ı^+(F1zF3x)ȷ^+(F2xF1y)k^.

También suele representarse por el siguiente determinante:

×F=|ı^ȷ^k^xyzF1F2F3|.

Una visión mas clara de por qué esta expresión calcula lo que queremos se puede aprender en un cuarto curso de cálculo diferencial e integral, o bien en algún curso de aplicaciones del cálculo a la física. Por ahora veremos en los ejemplos solamente la parte operativa.

Laplaciano

Hay un operador más que surge naturalmente en las ecuaciones que involucran al gradiente y a la divergencia.

Definición. Sea f:R3R un campo escalar. El operador laplaciano se establece de la siguiente manera:

2f=2fx2ı^+2fy2ȷ^+2fz2k^.

Es decir, el laplaciano consiste en aplicar el operador divergencia al gradiente de un campo escalar.

Ejemplos de problemas de los conceptos anteriores

Revisemos algunos problemas que tienen que ver con estos operadores. Esto nos permitirá ampliar nuestra visión en cuanto a la practicidad de esta herramienta matemática.

Consideremos el siguiente campo vectorial en el plano F(x,y)=xı^. Pensaremos el signo de la divergencia de F como la razón del cambio de áreas bajo este campo. Interpretaremos a F como aquel que asigna a cada punto del plano un vector velocidad de un fluido en el plano.

Para x>0 el campo apunta hacia la derecha con vectores paralelos al eje x con tamaño |x|, para x<0 los vectores apuntan a la izquierda paralelamente al eje x con tamaño |x| (Figura 5). Por ello las longitudes de las flechas de F son mas cortas en torno al origen; así cuando el fluido se mueve, se expande. Y esto coincide con el hecho de que F=1.

Figura 5

En el siguiente ejemplo consideremos el campo vectorial F(x,y)=yı^+xȷ^. Las líneas de flujo de F siguen circunferencias concéntricas centradas al origen en dirección contrarias a las manecillas del reloj. Al calcular la divergencia tenemos lo siguiente:

F=x(y)+y(x)=0.

En la figura 6 tenemos la ilustración de cómo se ve el campo de este ejemplo. Suena razonable. En este caso el fluido no se está expandiendo, sino que más bien está rotando.

Figura 6

En el laplaciano aplicamos la divergencia a un gradiente. Pero, ¿qué pasa cuando aplicamos el rotacional a un gradiente? Consideremos una función f con derivadas parciales diferenciables continuas es decir, de clase C2. Para una función así tenemos

f(x,y,z)=(f/x,f/y,f/z).

De acuerdo con la definición de rotacional, tenemos:

×(f)=|ı^ȷ^k^xyzfxfyfz|=(2fyz2fzy)ı^+(2fzx2fxz)ȷ^+(2fxy2fyx)k^=0¯

por la igualdad de las parciales mixtas. Es decir; si f es un campo escalar cuyas derivadas parciales son diferenciables con derivada continua tenemos ×f=0.

Esto nos puede ayudar a saber si una cierta función puede obtenerse como gradiente de otra. Tomemos G(x,y,z)=yı^xȷ^. Notemos que las funciones en ı^ y en ȷ^ son diferenciables con derivada continua. Entonces nos preguntaremos ¿G es gradiente de un campo escalar? Para ello calculemos ×G cuyo resultado en caso afirmativo debería ser igual a cero. Sin embargo,

×G=|ı^ȷ^k^xyzyx0|=2k^0,

por lo tanto G no es un gradiente.

También tenemos que la divergencia de un rotacional es igual a cero, es decir si F es un campo vectorial (×F)=0. Queda como tarea moral demostrar este hecho.

Mas adelante

Con esta entrada terminamos nuestro estudio de conceptos relacionados con campos vectoriales. Sin embargo, aún no los descartaremos por completo. Retomaremos a los campos vectoriales en la última unidad del curso. En ella, retomaremos varias partes de la teoría para establecer resultados de optimización de campos escalares, y de funciones bajo restricciones.

Tarea moral

  1. Para los siguientes campos vectoriales, halla su divergencia
    • F(x,y)=x3ı^+xsen(xy)ȷ^
    • G(x,y,z)=exyı^+exyȷ^+eyzk^.
  2. Obtén el rotacional de los siguientes campos vectoriales:
    • F(x,y,z)=(x2+y2+z2)(3ı^+4ȷ^+5k^)
    • G(x,y,z)=yzı^+xzȷ^+xyk^.
  3. Dibuja algunas líneas de flujo del campo F(x,y)=3xı^yȷ^. Calcula F y explica el significado del resultado de la divergencia en su relación con las líneas de flujo.
  4. Demuestra que (×F)=0
  5. Sean f y g dos campos escalares diferenciables, y F, y G dos campos vectoriales diferenciables. Demuestra las siguientes identidades (solo usa la parte operativa, piensa que todos los campos tanto los vectoriales como los escalares tienen el mismo dominio):
    1. gG=g(G)+G(g)
    2. (fg)=f(g)+g(f)
    3. (F×G)=G(×F)F(×G)

Entradas relacionadas

Cálculo Diferencial e Integral III: Ejemplos e intuición del teorema de la función implícita

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior revisamos el teorema de la función implícita formalmente enunciado y demostrado. En ésta lo que haremos será reflexionar sobre él y observar con más detalle su propósito y usos.

Dicho de forma simplista pero resaltando su objetivo principal el teorema de la función implícita busca establecer las condiciones bajo las cuales podemos despejar unas variables en término de otras. Da una condición en términos de cierta diferenciabilidad. Como esbozamos en la entrada anterior, lo que el teorema nos dice es cuándo es posible despejar las variables de un sistema de ecuaciones (o funciones coordenadas de un campo vectorial) en función de ciertas las variables libres, y alrededor de una vecindad. Para hacer esto, básicamente hay que resolver un sistema de ecuaciones en donde ciertos coeficientes vienen de ciertas derivadas parciales. El teorema de la función implícita también habla de cómo derivar una función definida implícitamente respecto de cualquiera de sus derivables.

¿Por qué teorema de la función implícita?

¿Por qué este nombre? En numerosos problemas matemáticos derivados de aplicaciones diversas se utilizan modelos geométricos. Estos modelos geométricos usualmente se construyen a partir de restringir ciertas variables con ciertas ecuaciones. Pensemos en objetos geométricos en tres dimensiones. Tenemos variables x,y,z. Definamos G(x,y,z):=x2+y2+z21. Podemos preguntarnos por el objeto geométrico descrito por la ecuación G(x,y,z)=0. Sabemos que las ternas (x,y,z) que satisfacen esto justo conforman una esfera de radio 1 centrada en el origen. Decimos que esta ecuación proporciona una representación implícita de la superficie.

Pero quizás nuestra aplicación nos lleva a preguntarnos si alguna coordenada está en términos de las otras para los puntos que están en dicha esfera. En afortunadas ocasiones es posible despejar en la ecuación G(x,y,z) algunas de las variables en términos de las otras. Esto nos lleva a una o varias ecuaciones de la forma z=g(x,y), en nuestro caso particular tenemos:

z=1x2y2yz=1x2y2.

El teorema de la función inversa nos dice que si ciertas derivadas existen y son invertibles como transformaciones lineales, entonces podemos hacer estos despejes. De hecho, nos dice algo mejor: que podemos hacerlos alrededor de toda una vecindad donde no se anule dicha derivada. De aquí sale la idea de «función implícita». Algunas ecuaciones, aunque no permitan despejar variables, sí lo permiten «localmente» y entonces ahí hay una «función oculta».

En la gran mayoría de los casos es difícil lograr estos despejes mediante expresiones algebraicas sencillas por ejemplo en una superficie representada por la ecuación y3+z2xz+ezx4=0 suena muy difícil que podamos despejar z. Sin embargo el teorema de la función implícita nos garantiza que, aunque no sepamos cómo, la variable z sí se puede poner en función de las variables x y y.

La derivada de la función implícita

Otra buena notica es que aunque no conozcamos explícitamente el despeje que nos interesa, con el teorema de la función implícita sí podemos encontrar las derivadas parciales de la función implícita que aparece. Si pensaste los problemas de la tarea moral de la entrada anterior, quizás ya hayas llegado al siguiente resultado.

Corolario. Sea F:SRnR un campo escalar diferenciable con S abierto. Supongamos que la ecuación F(x1,,xn)=0 define implícitamente a xn como función diferenciable de x1,,xn1 como xn=f(x1,,xn1), para todos los puntos (x1,,xn1)SRn1, entonces para cada k=1,2,,n1 la derivada parcial fxk está dada por la fórmula:

(5)fxk=FxkFxn

en los puntos en los que Fxn0. Las derivadas parciales de F están calculadas en el punto (x1,,xn1,f(x1,,xn)).

Demostración. Pensemos F:Rn1×RR. Si (x1,xn) es tal que F(x1,,xn)=0, por el teorema de la función implícita tenemos a una única función f:Rn1R tal que F(x1,,xn1,f(x1,,xn1))=0.

(Nota. En la entrada anterior teníamos entradas de la forma (y,x) y y quedaba en función de x. De manera totalmente análoga podemos intercambiar los papeles de x y y, pidiendo las hipótesis correctas. De hecho, usualmente se piensa en parejas (x,y) y las variables de y son las que quedan en términos de las variables x)

Ahora, pensemos en el campo vectorial G:SRn1Rn dado por G(x1,,xn1)=(x1,,xn1,f(x1,,xn1)). Así (FG)(x1,,xn1)=0. Por regla de la cadena, DFDG=0. Tenemos así 0=FDG, lo cual explícitamente es:

0=[Fx1Fxn][100010001fx1fx2fxn1]=

[Fx1+Fxnfx1Fx2+Fxnfx2Fxn1+Fxnfxn1].

Por ello, para cada i tenemos:

Fxi+Fxnfxi=0.

De esta ecuación se deduce la (1).

◻

Un primer ejemplo del teorema de la función inversa

Pasemos ahora a hacer algunas cuentas concretas para entender mejor lo que uno tiene que hacer para aplicar el teorema de la función implícita en funciones particulares.

Ejemplo. Consideremos la ecuación y2+xz+z2ezc=0. Expresaremos a z en función de x e y, es decir, z=f(x,y). Nos gustaría encontrar un valor de la constante c tal que f(0,e)=2. Para dicha c, queremos calcular las derivadas parciales con respecto a x y y en el punto (x,y)=(0,e).

Para la primera parte sustituimos x=0, y=e y z=2. Tenemos e2+02+22e2c=0, que es lo mismo que 4c=0, y esto implica c=4. De esta manera, estudiaremos la función F(x,y,z)=y2+xz+z2ez4.

Notemos que

Fz=x+2zez,Fx=z,Fy=2y,

por lo cual

fx=zx+2zez,fy=2yx+2zez.

Así para x=0, y=e y z=2 al sustituir resulta

fx(0,e)=2e24yfy(0,e)=2ee24.

En este ejemplo vemos cómo hemos podido calcular las derivadas parciales de z=f(x,y) usando el valor de f en el punto (0,e), sin conocer quién es la función f(x,y).

Un repaso chiquito de la demostación del teorema de la función implícita

Ahora repasaremos la demostración del teorema de la función implícita pero para un caso muy particular: Dos superficies S1 y S2 en el espacio con las siguientes representaciones implícitas:

paraS1:Ψ(x,y,z)=0yparaS2:Γ(x,y,z)=0.

Supongamos que las superficies se cortan en la curva C. En otras palabras, C es el conjunto solución para el siguiente sistema de ecuaciones:

{Ψ(x,y,z)=0Γ(x,y,z)=0.

Supongamos que podemos despejar x y y en estas ecuaciones en términos de z de la siguiente manera:

(6)x=X(z),y=Y(z)para todoz(a,b).

Aquí, al reemplazar x y y por X(z) y Y(z) (respectivamente), el sistema (2) se satisface. Por tanto tenemos Ψ(X(z),Y(z),z)=0 y Γ(X(z),Y(z),z)=0 para todo z(a,b). Podemos calcular las derivadas X(z), Y(z), sin un conocimiento explícito de X(z) y Y(z).

¿Cómo hacemos esto? Consideramos las siguientes funciones auxiliares:

ψ(z)=Ψ(X(z),Y(z),z),γ(z)=Γ(X(z),Y(z),z).

Tenemos ψ(z)=γ(z)=0 y en consecuencia ψ(z)=γ(z)=0.

Derivando con la regla de la cadena tenemos:

ψ(z)=ΨxX(z)+ΨyY(z)+Ψz,γ(z)=ΓxX(z)+ΓyY(z)+Γz

Dado que ψ(z)=γ(z)=0 tenemos el siguiente sistema de dos ecuaciones con dos incógnitas X(z), Y(z):

{ΨxX(z)+ΨyY(z)=ΨzΓxX(z)+ΓyY(z)=Γz

En los puntos en los cuales el determinante del sistema no es cero, usamos la regla de Cramer para obtener las soluciones como sigue:

X(z)=|ΨzΨyΓzΓy||ΨxΨyΓxΓz|,Y(z)=|ΨxΨzΓxΓz||ΨxΨyΓxΓz|.

Otro ejemplo para encontrar derivadas de funciones implícitas

Veamos un último ejemplo en donde pondemos usar las ideas anteriores.

Ejemplo. Consideremos las ecuaciones y=uv2, y x=u+v. Queremos ver que podemos determinar una función h tal que v=h(x,y) y para la cual:

hx(x,y)=h(x,y)3h(x,y)2x.

Además, queremos encontrar una fórmula análoga para hy.

Primero, en la ecuación x=u+v despejamos u y sustituimos en y=uv2, tenemos y=(xv)v2. De aquí xv2v3y=0. Esto nos sugiere pensar en la función F(x,y,v):=xv2v3y, pues nos permite representar nuestra ecuación como F(x,y,v)=0. Por el teorema de la función implícita (¡verifica las hipótesis!), esta ecuación define implícitamente a v como función de x e y, digamos, como v=h(x,y). Aplicando las fórmulas que conocemos para las derivadas de la función implicita, tenemos lo siguiente:

hx=F/xF/vyhy=F/yF/v

Donde Fx=v2, Fv=2xv3v2 y Fy=1. Luego tenemos:

hx(x,y)=v22xv3v2=v2x3v=h(x,y)3h(x,y)2x.

Esto muestra la primera parte. Para encontra la fórmula análoga, volvemos a usar las fórmulas para derivadas de la función implícita:

hy(x,y)=12xv3v2=12xh(x,y)3h2(x,y).

Más adelante…

Hemos cubierto el teorema de la función inversa y el teorema de la función implícita. Estos son temas teóricos profundos e importantes que tienen muchas consecuencias. Tienen también otras versiones en contextos más amplios como variedades, geometría diferencial, etc. Por el momento, dejaremos hasta aquí nuestro estudio de estos temas, pero te recomendamos de vez en cuando repasarlos, pues cada vez entenderás más de sus demostraciones y lo que significan.

Nuestra atención se enfocará ahora en otros conceptos que se pueden definir en términos de funciones de varias variables: la divergencia, el laplaciano y el rotacional. Después, hablaremos un poco de cómo la teoría que hemos desarrollado nos ayudará a encontrar puntos críticos para funciones de varias variables.

Tarea moral

  1. Las ecuaciones x+y=uv y xy=uv definen x y y como funciones implícitas de u y v, sean éstas x=X(u,v) y y=Y(u,v). Demuestra que X/u=(xv1)/(xy) si xy, y halla las fórmulas para X/v, Y/v, Y/u.
  2. Las tres ecuaciones {x2ycos(uv)+z2=0,x2+y2sen(uv)+2z2=2,xysenucosv+z=0 definen x, y, y z como funciones de u y v. Calcula las derivadas parciales x/u y x/v en el punto x=y=1, u=π/2, v=0, z=0.
  3. Las ecuaciones x+y=uv y xy=uv definen x y v como funciones de u y y, sean éstas x=X(u,v) y v=V(u,y). Demuestra que X/u=(u+v)/(1+yu) si 1+yu0 y halla las fórmulas de X/y, V/u, V/y.
  4. Sigue las ideas de los resultados de la entrada anterior para escribir una calca de ella pero ahora para f:SRm×Rl, en donde la función que se busca tiene ahora dominio en Rm que pone a las variables del dominio Rl en términos de las de Rm.
  5. Haz un esfuerzo extra, y medita nuevamente en el teorema de la función implícita tratando de escribir una demostración de como sería el asunto para f con dominio en Rm×Rl×Rk. ¿Se podrá hallar la función h, pero ahora con dominio en Rl?

Entradas relacionadas

Cálculo Diferencial e Integral III: Demostración del teorema de la función inversa

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior empezamos a hablar del teorema de la función inversa. Dimos su enunciado y probamos varias herramientas que nos ayudarán ahora con su demostración.

Recordemos que lo que queremos demostrar es lo siguiente.

Teorema (de la función inversa). Sea f:SRnRn de clase C1 en el abierto S. Si Df(a¯) es invertible, entonces, existe δ>0 tal que:

  1. Bδ(a¯)S y f es inyectiva en Bδ(a¯).
  2. f1:f(Bδ(a¯))RnRn es continua en f(Bδ(a¯)).
  3. f(Bδ(a¯))Rn es un conjunto abierto.
  4. f1 es de clase C1 en f(Bδ(a¯)) y además, si x¯=f(v¯)f(Bδ(a¯)), entonces, Df1(x¯)=Df1(f(v¯))=(Df(v¯))1.

La herramienta más importante que probamos en la entrada anterior nos dice que si una función f:SRnRn es de clase C1, a¯S y DF(a¯) es invertible, entonces existe una δ>0 tal que Bδ(a¯)S y Df(b¯) es invertible para todo b¯Bδ(a¯). Veremos cómo esta herramienta y otras que desarrollaremos en el transcurso de esta entrada nos permiten demostrar el teorema.

La función f es inyectiva en una vecindad de a¯

Vamos a enfocarnos en el punto (1) del teorema. Veremos que existe la δ que hace que la función restringida a la bola de radio δ centrada en a¯ es inyectiva. En esta parte de la prueba es conveniente que recuerdes que la norma infinito de un vector (x1,,xn)Rn es ||x¯||:=máx{|x1|,,|xn|}.

Además, cumple para todo x¯Rn que ||x¯||n||x¯||.

Veamos que bajo las hipótesis del problema se puede acotar ||f(u¯)f(v¯)|| en términos de ||u¯v¯|| dentro de cierta bola.

Proposición. Sea f:SRnRn de clase C1 en el conjunto abierto S, y a¯S. Si Df(a¯) es invertible, entonces existe δ>0 y ε>0 tal que Bδ(a¯)S y ||f(u¯)f(v¯)||ε||u¯v¯|| para cualesquiera u¯,v¯Bδ(a¯).

Demostración. Por la diferenciabilidad de f en a¯, tenemos

Df(a¯)(x¯)=(f1(a¯)x¯fn(a¯)x¯)

para cada a¯S y cada x¯Rn.

Como Df(a¯) es invertible, por los resultados de la entrada anterior existe un m>0 tal que

||Df(a¯)(x¯)||m||x¯||

para todo x¯Rn.

También por resultados de la entrada anterior, para ϵ:=m2n>0 existe δ>0 tal que si b¯Bδ(a¯)S entonces

||(Df(b¯)Df(a¯))(x¯)||m2n||x¯||

para todo x¯Rn.

Usaremos en un momento estas desigualdades, pero por ahora fijemos nuestra atención en lo siguiente. Dados u¯,v¯Bδ(a¯), tomemos el k{1,,n} tal que ||Df(a¯)(u¯v¯)||=|fk(a¯)(u¯v¯)|.

Para dicho k, tenemos

|fk(a¯)(u¯v¯)|=||Df(a¯)(u¯v¯)||1n||Df(a¯)(u¯v¯)||.

¿Cómo podemos seguir con nuestras desigualdades? Necesitamos usar el teorema del valor medio. Bastará el que demostramos para campos escalares. Aplicándolo a fk en los puntos u¯,v¯ cuyo segmento se queda en la bola convexa Bδ(a¯), podemos concluir que existe un vector w¯ en el segmento u¯v¯¯ que cumple

fk(u¯)fk(v¯)=f(w¯)(u¯v¯).

Sabemos que para cualquier vector el valor absoluto de cualquiera de sus coordenadas es en valor menor o igual que la norma del vector. Además, demostramos inicialmente unas desigualdades anteriores. Juntando esto, obtenemos la siguiente cadena de desigualdades:

||f(u¯)f(v¯)|||fk(u¯)fk(v¯)|=|f(w¯)(u¯v¯)||fk(a¯)(u¯v¯)||fk(w¯)(u¯v¯)fk(a¯)(u¯v¯)|1n||Df(a¯)(u¯v¯)||||Df(w¯)(u¯v¯)Df(a¯)(u¯v¯)||1n(m||u¯v¯||)m2n||u¯v¯||=m2n||u¯v¯||=ε||u¯v¯||.

La gran conclusión de esta cadena de desigualdades es que ||f(u¯)f(v¯)||ε||u¯v¯||, que es lo que buscábamos.

◻

¡Esto es justo lo que nos pide el primer punto! Hemos encontrado una bola alrededor de a¯ dentro de la cual si u¯v¯, entonces ||f(u¯)f(v¯)||ε||u¯v¯||>0, de modo que f(u¯)f(v¯). ¡La función restringida en esta bola es invertible! En términos geométricos el último teorema nos dice lo siguiente: Si f es diferenciable en un abierto S, y Df(a¯) es invertible, entonces hay una vecindad alrededor de a¯ en donde f «no se pega», es decir f es inyectiva.

Figura 1: Si la función no es inyectiva, lo que tenemos es que proyecta el rectángulo R en una superficie que pega los puntos a¯ y b¯. Arriba una función inyectiva y abajo una que no lo es.

Ya vimos cómo encontrar una bola Bδ(a¯) dentro de la cual f es inyectiva. Si pensamos que el contradominio es exactamente f(Bδ(a¯)), entonces la función también es suprayectiva. Esto hace que sea biyectiva y por tanto que tenga inversa f1.

La función inversa es continua

Veamos ahora que la función inversa es continua. De hecho, mostraremos algo un poco más fuerte.

Teorema. Sea f:SRnRn de clase C1 en el abierto S, y a¯S. Si Df(a¯) es invertible, entonces existe δ>0 tal que Bδ(a¯)S, f es inyectiva en Bδ(a¯) y además f1:f(Bδ(a¯))RnRn es uniformemente continua en su dominio.

Demostración. La primera parte y la existencia de f1:f(Bδ(a))RnRn se debe a la discusión de la sección anterior. De hecho, lo que mostramos es que existe δ>0 y ε>0 tal que ||f(v¯)f(u¯)||ε||v¯u¯|| para todo u¯,v¯Bδ(a¯).

Supongamos que nos dan un ε. Tomemos δ=εε. Tomemos x¯,y¯ en f(Bδ(a¯)) tales que ||y¯x¯||<δ. Como x¯ y y¯ están en dicha bola, podemos escribirlos como x¯=f(u¯), y¯=f(v¯) con u¯,v¯Bδ(a¯). Notemos entonces que

||f1(y¯)f1(x¯)||=||v¯u¯||1ε||f(v¯)f(u¯)||=1ε||y¯x¯||<εεε=ε.

Tenemos entonces que f1 es uniformemente continua en f(Bδ(a¯)).

◻

Esto demuestra el punto (2) de nuestro teorema. La prueba de que el conjunto f(Bδ(a¯)) es abierto no es para nada sencilla como parecería ser. Una demostración muy instructiva, al nivel de este curso, se puede encontrar en el libro Cálculo diferencial de varias variables del Dr. Javier Páez Cárdenas editado por la Facultad de Ciencias de la Universidad Nacional Autónoma de México (UNAM) en las páginas 474-476.

La función inversa es diferenciable

Resta hacer la demostración de (4). En esta sección veremos que la inversa f1 es derivable y que la derivada es precisamente lo que propone el teorema. En la siguiente sección veremos que la inversa es C1.

Tomemos un punto x¯0=f(v¯0)f(Bδ(a¯)). Mostraremos que, en efecto, T=(Df(v¯0))1 es la derivada de f1 en x¯0, lo cual haremos por definición verificando que

limx¯x¯0f1(x¯)f1(x¯0)T(x¯x¯0)||x¯x¯0||=0.

Para ello, introducimos la siguiente función auxiliar g:Bδ(a¯)RnRn dada por:

g(v¯)={v¯v¯0T(f(v¯)f(v¯0))||f(v¯)f(v¯0)||v¯v¯00¯v¯=v¯0.

Esta función está bien definida, pues f es inyectiva en la bola Bδ(a¯). La composición gf1 también está bien definida en el abierto f(Bδ(a¯)) y

(gf1)(x¯)={f1(x¯)f1(x¯0)T(x¯x¯0)||x¯x¯0||x¯x¯00¯x¯=x¯0

para todo x¯f(Bδ(a¯)). Esto nos permite poner el límite buscado como el límite de una composición de la siguiente forma:

limx¯x¯0f1(x¯)f1(x¯0)T(x¯x¯0)||x¯x¯0||=limx¯x¯0(gf1)(x¯)

Como f1 es continua en x¯0, basta demostrar que g es continua en v¯0=f1(x¯0). Esto equivale a probar que

limv¯v¯0g(v¯)=limv¯v¯0v¯v¯0(Df(v¯0))1(f(v¯)f(v¯0)))||f(v¯)f(v¯0)||=0.

Hay que demostrar este último límite. Reescribimos la expresión

v¯v¯0(Df(v¯0))1(f(v¯)f(v¯0))||f(v¯)f(v¯0)|| como

(Df(v¯0))1[Df(v¯0)(v¯v¯0)(f(v¯)f(v¯0))]||f(v¯)f(v¯0)||,

y luego multiplicamos y dividimos por ||v¯v¯0|| y reorganizamos para obtener

||v¯v¯0||||f(v¯)f(v¯0)||(Df(v¯0))1(f(v¯)f(v¯0)Df(v¯0)(v¯v¯0)||v¯v¯0||).

Como (Df(v¯0))1 es continua (por ser lineal) y f es diferenciable en v¯0, se tiene que

limv¯v¯0(Df(v¯0))1(f(v¯)f(v¯0)Df(v¯0)(v¯v¯0)||v¯v¯0||)=(Df(v¯0))1(limv¯v¯0f(v¯)f(v¯0)Df(v¯0)(v¯v¯0)||v¯v¯0||)=(Df(v¯0))1(0¯)=0¯.

El factor que nos falta entender es ||v¯v¯0||||f(v¯)f(v¯0)||. Pero por la primera proposición de esta entrada, sabemos que existe una ϵ>0 que acota este factor superiormente por 1ϵ. De esta manera,

limv¯v¯0g(v¯)=limv¯v¯0||v¯v¯0||||f(v¯)f(v¯0)||acotado(Df(v¯0))1(f(v¯)f(v¯0)Df(v¯0)(v¯v¯0)||v¯v¯0||)0=0.

Esto nos dice entonces que g es continua en v¯0 y por lo tanto:

limx¯x¯0(gf1)(x¯)=g(limx¯x¯0f1(x¯))=g(f1(x¯0))=g(v¯0)=0¯.

Por lo tanto f1 es diferenciable en x¯0 mediante la derivada que propusimos, es decir,

Df1(x¯0)=Df1(f(v¯0))=(Df(v¯0))1=(Df(f1(x¯0)))1

para todo x¯0f(Bδ(a¯)).

La función inversa es de clase C1

Resta verificar que f1 es de clase C1 en f(Bδ(a¯)). Lo haremos con la caracterización de la entrada anterior. Tomemos una μ>0. Nos gustaría ver que si x¯ y x¯0 están suficientemente cerca, entonces

||Df1(x¯)(z¯)Df1(x¯0)(z¯)||<μ||z¯||

para toda z¯Rn.

Recordemos que por la entrada anterior hay una m>0 tal que para todo z¯ en Rn se cumple

(7)1m||z¯||=1m|Df(v¯)((Df(v¯))1)(z¯)||||(Df(v¯))1(z¯)||

También notemos que, si X,Y son matrices invertibles en Mn(R), tenemos:

X1(YX)Y1=X1YY1X1XY1=X1Y1.

Tomando X=Df(v¯) y Y=Df(v¯0), aplicando la igualdad anterior en un punto x¯ en Rn, sacando normas y usando la desigualdad (7), obtenemos:

||(X1Y1)(z¯)||=||(X1(YX)Y1)(z¯)||1m||((YX)Y1)(z¯)||=1m||((Df(v¯0)Df(v¯))Df1(f(v¯0)))(z¯)||.

Como f es de clase C1, por la entrada anterior podemos construir una δ tal que Bδ(v¯0)Bδ(a¯) y para la cual si v¯ está en Bδ(v¯0), entonces:

(8)||(Df(v¯0)Df(v¯))(z¯)||m2μ||z¯||.

Para todo x¯Rn.

Finalmente, como f1 es continua en f(Bδ(a¯)), si x¯ y x¯0 están suficientemente cerca, digamos ||x¯x¯0||<ν, entonces

(9)||f1(x¯)f1(x¯0)||=||v¯v¯0||<δ..

Usamos todo lo anterior para establecer la siguiente cadena de desigualdades cuando ||x¯x¯0||<ν:

||Df1(x¯)(z¯)Df1(x¯0)(z¯)||=||Df1(f(v¯))(z¯)Df1(f(v¯0))(z¯)||1m||[Df(v¯0)Df(v¯)](Df1(f(v¯0)))(z¯)||1m(m2μ||Df1(f(v¯0))(z¯)||)=mμ||Df1(f(v¯0))(z¯)||mμ(1m||z¯||)=μ||z¯||.

Esto implica que f1 es de clase C1. Como tarea moral, revisa los detalles y di explícitamente qué resultado de la entrada anterior estamos usando.

◻

Ejemplo del teorema de la función inversa

Ejemplo. Consideremos ξ:R3R3 dada por ξ(r,θ,ϕ)=(rsenϕcosθ,rsenϕsenθ,rcosϕ). Se tiene que ξ es diferenciable en todo su dominio pues cada una de sus derivadas parciales es continua. Esta es la función de cambio de coordenadas de esféricas a rectangulares o cartesianas. La matriz jacobiana está dada como sigue.

Dξ(r,θ,ϕ)=(senϕcosθrsenϕsenθrcosϕcosθsenϕsenθrsenϕcosθrcosϕsenθcosϕ0rsenϕ).

Luego det(Dξ(r,θ,ϕ))=r2senϕ entonces Dξ es invertible cuando r0 y ϕkπ, kZ. Su inversa es:

(Dξ(r,θ,ϕ))1=(senϕcosθsenϕsenθcosϕsenθrsenϕcosθrsenϕ01rcosθcosϕ1rcosϕsenθ1rsenϕ).

El teorema de la función inversa nos garantiza la existencia local de una función ξ1. En este caso, sería la función de cambio de coordenadas rectangulares a esféricas. Si f:SR3R es una función C1 dada en coordenadas esféricas; podemos asumir que fξ1 es la misma función pero en términos de coordenadas rectangulares.

Más adelante…

¡Lo logramos! Hemos demostrado el teorema de la función inversa, uno de los resultados cruciales de nuestro curso. El siguiente tema es el teorema de la función implícita, que será otro de nuestros resultados principales. Uno podría pensar que nuevamente tendremos que hacer una demostración larga y detallada. Pero afortunadamente la demostración del teorema de la función implícita se apoya fuertemente en el teorema de la función inversa que ya demostramos. En la siguiente entrada enunciaremos y demostraremos nuestro nuevo resultado y una entrada más adelante veremos varios ejemplos para profundizar en su entendimiento.

Tarea moral

  1. En el ejemplo que dimos, verifica que el determinante en efecto es r2sinϕ. Verifica también que la inversa es la matriz dada.
  2. Repasa cada una de las demostraciones de esta entrada y asegúrate de entender por qué se siguen cada una de las desigualdades. Explica en qué momentos estamos usando resultados de la entrada anterior.
  3. Da la función inversa de la transformación de cambio de coordenadas polares a rectangulares g(r,θ)=(rcosθ,rsenθ).
  4. Demuestra que para todo x¯Rn se tiene ||x¯||n||x¯||.
  5. Verifica que en efecto |||| es una norma.

Entradas relacionadas