En la entrada anterior buscábamos optimizar un campo escalar . Retomaremos este problema, pero ahora agregando restricciones al dominio de . Para ello hablaremos del método de los multiplicadores de Lagrange, el cual nos permitirá dar una solución bajo ciertas condiciones de diferenciabilidad.
Esto en general es lo mejor que podremos hacer. En realidad, los problemas de este estilo son muy difíciles y no tienen una solución absoluta. Si no tenemos las condiciones del teorema de Lagrange, es posible que se tengan que hacer cosas mucho más compliadas para obtener óptimos exactos, o bien que se tengan que hacer aproximaciones numéricas.
En la demostración del teorema de los multiplicadores de Lagrange usaremos el teorema de la función implícita, lo cual es evidencia adicional de lo importante y versátil que es este resultado.
Un ejemplo para motivar la teoría
Imagina que tenemos la función y queremos encontrar su mínimo. Esto es muy fácil. El mínimo se da cuando , pues en cualquier otro valor tenemos un número positivo. Pero, ¿Qué pasaría si además queremos que los pares que usamos satisfagan también otra condición?, por ejemplo, que cumplan
En este caso, la respuesta ya no es obvia. Podríamos intentar encontrar el mínimo por inspección, pero suena que será difícil. Podríamos intentar usar la teoría de la entrada anterior, pero esa teoría no nos dice nada de qué hacer con nuestra condición.
La teoría que desarrollaremos a continuación nos permitirá respondernos preguntas de este estilo. En este ejemplo en concreto, puedes pensar que la solución se obtendrá de la siguiente manera: La ecuación nos dibuja una elipse en el plano, como se ve en la figura 1 imagen 3. Las curvas de nivel de la superficie dibujada por la gráfica de la función corresponden a circunferencias concéntricas, cuyo centro es el origen. Al ir tomando circunferencias cada vez mas grandes en el plano comenzando con el punto nos quedaremos con la primera que toque a la elipse, de hecho la tocará en dos puntos, digamos y , donde sería el mínimo buscado, es decir el mínimo que sobre la superficie cumple con la ecuación .
Figura 1; Imagen 1-Superior izquierda. Tenemos la gráfica de la ecuación . Imagen 2- Inferior izquierda. Planos que intersecan a la superficie , nos dan las curvas de niver que son circunferencias concéntricas. Imagen 3- Derecha. En azul la elipse dibujada por la ecuación , y las curvas de nivel que se acercan a ella conforme cortamos mas arriba.
Pero como ahí se da una tangencia, entonces suena que justo en ese punto hay una recta simultáneamente tangente a la curva de nivel y a la elipse. Esto nos da una relación entre gradientes. El teorema de multiplicadores de Lagrange detecta y enuncia esta relación entre gradientes con precisión y formalidad, incluso cuando tenemos más de una condición. A estas condiciones también las llamamos restricciones, y están dadas por ecuaciones.
Enunciado del teorema de multiplicadores de Lagrange
A continuación enunciamos el teorema.
Teorema (multiplicadores de Lagrange). Sea es un campo escalar de clase . Para , tomamos campos escalares de clase en . Consideremos el conjunto donde todos los se anulan, es decir:
Tomemos un en para el cual
tiene un extremo local en para los puntos de y
son linealmente independientes.
Entonces existen , a los que llamamos multiplicadores de Lagrange tales que:
Si lo meditas un poco, al tomar obtenemos una situación como la del ejemplo motivador. En este caso, la conclusión es que , que justo nos dice que en , las gráficas de los campos escalares y tienen una tangente en común.
Demostración del teorema de multiplicadores de Lagrange
Demostración. La demostración del teorema de multiplicadores de Lagrange usa varios argumentos de álgebra lineal. Esto tiene sentido, pues a final de cuentas, lo que queremos hacer es poner un gradiente () como combinación lineal de otros gradientes (). A grandes rasgos, lo que haremos es:
Definir un espacio .
Mostrar que generan al espacio ortogonal .
Mostrar que es ortogonal a todo vector de , por lo cual estará en y así por el inciso anterior será combinación lineal de .
Para construir el espacio del que hablamos, usaremos el teorema de la función implícita y la regla de la cadena. Empecemos este argumento. Consideremos la siguiente matriz:
Dado que los vectores son linealmente independientes, el rango por renglones de esta matriz es , de modo que su rango por columnas también es (tarea moral). Sin perder generalidad (quizás tras hacer una permutación de columnas, que permuta las entradas), tenemos que las primeras columnas son linealmente independientes. Así, la matriz
es invertible. Hagamos y reetiquetemos las variables coordenadas como , y las variables coordenadas como . Escribiremos para referirnos al punto al que hacen referencia las hipótesis. Esto nos permite pensar y nos deja en el contexto del teorema de la función implícita. Como la matriz anterior es invertible, existen y para los cuales , y hay una única función de clase tal que para y se cumple que si y sólo si .
Definamos ahora la función como , la cual es de clase en .
Por cómo construimos , sucede que para toda . Por definición, esto quiere decir que para toda tenemos que para toda . Esto quiere decir que es una función constante y por lo tanto su derivada en es la transformación . Pero otra forma de obtener la derivada es mediante la regla de la cadena como sigue:
En términos matriciales, tenemos entonces que el siguiente producto matricial es igual al vector de entradas (evitamos poner para simplificar la notación):
para cada . Nos gustaría escribir esta conclusión de manera un poco más sencilla, para lo cual introducimos los siguientes vectores para cada :
Cada uno de estos lo pensamos como vector en . Además, son vectores linealmente independientes, pues sus entradas son linealmente independientes. El espacio vectorial que generan es entonces un subespacio de , con .
De la ecuación tenemos que para todo , y . Se sigue que , donde es el complemento ortogonal de en . Pero además, por propiedades de espacios ortogonales tenemos que
Así , además el conjunto es linealmente independiente con elementos, por tanto este conjunto es una base para . Nuestra demostración estará terminada si logramos demostrar que también está en , es decir, que es ortogonal a todo elemento de .
Pensemos qué pasa al componer con en el punto . Afirmamos que es un extremo local de . En efecto, . Si, por ejemplo diera un máximo, entonces los valores para dentro de cierta bola serían menores a . Pero entonces los valores cercanos a cumplen , con en y por lo tanto menor a (para mínimos es análogo).
Resumiendo lo anterior, es extremo local de . Aplicando lo que aprendimos en la entrada anterior, la derivada de debe anularse en . Pero por regla de la cadena, dicha derivada es
Viéndolo como multiplicación de matrices, el siguiente producto es el vector de entradas:
De donde concluimos para cada . Esto precisamente nos dice que . Esto es justo lo que queríamos, pues habíamos demostrado que es una base de . Por ello podemos expresar a como combinación lineal de esta base, es decir, existen escalares tales que:
¡Qué bonita demostración! Usamos el teorema de la función implícita, la regla de la cadena (dos veces), nuestros resultados para valores extremos de la entrada anterior, y un análisis cuidadoso de ciertos espacios vectoriales.
Ejemplos del método de multiplicadores de Lagrange
Veamos algunos problemas que podemos resolver con esta nueva herramienta.
Ejemplo. Determinaremos los puntos extremos de bajo la condición . Para poner todo en términos de nuestro teorema, definimos . Por el teorema de multiplicadores de Lagrange, en los puntos extremos debe existir una tal que . Calculando las parciales correspondientes, debemos tener entonces
Adicionalmente, recordemos que se debe satisfaces . Llegamos entonces al sistema de ecuaciones
Al despejar y en ambas ecuaciones tenemos:
Poniendo los valores de y en la tercera ecuación, llegamos a , de donde al resolver tenemos las soluciones y .
Al sustituir en las ecuaciones de nuestro sistema, obtenemos como puntos críticos a y .
Si intentamos calcular el hessiano de , esto no nos dirá nada (no tendremos eigenvalores sólo positivos, ni sólo negativos). Pero esto ignora las restricciones que nos dieron. Podemos hacer una figura para entender si estos puntos son máximos o mínimos. En la Figura tenemos la gráfica de , intersectada con la superfice dada por . Nos damos cuenta que hay un punto máximo y uno mínimo. Al evaluar, obtenemos y . Esto nos dice que el máximo en la superficie se alcanza en y el mínimo en .
Figura 2: Ilustración del Ejemplo 1 la función esta dibujada en azul esta impone restricción a la función que dibuja un plano en el espacio.
Ejemplo. Veamos cómo minimizar la expresión sujetos a la condición . Una vez más, proponemos para tener la situación del teorema de multiplicadores de Lagrange. Debe pasar que . El gradiente de es de puros ceros unos, así que tenemos el sistema de ecuaciones:
De las primeras tres ecuaciones tenemos de donde . Sustituyendo en la tercera ecuación, , es decir . Ya que sólo tenemos una solución, ésta es el mínimo del conjunto de soluciones. En la figura 3 tenemos la ilustración de la solución de este problema, la esfera centrada en el origen de radio toca al plano en el punto
Figura 3: En azul claro el plano , inflamos esferas centradas en el origen; desde la de radio cero vamos aumentando el radio hasta tener el radio correspondiente para el cual la esfera toque tangentemente al plano.
Más adelante…
Con esta entrada cerramos el curso de Cálculo Diferencial e Integral III. ¡¡Felicidades!! Esperamos que todas estas notas te hayan sido de ayuda para estudiar, repasar o impartir la materia. Quedamos al pendiente de cualquier duda, observación o sugerencia en la sección de comentarios de las entradas.
Tarea moral
Determina los extremos de la función bajo la restricción
El plano interseca al paraboloide en una elipse . Determina el punto de la elipse con el valor mayor en el eje , y el punto con el valor mínimo en el mismo eje. Sugerencia:, y
Determinar el máximo valor de bajo la restricción
Determinar los puntos extremos de la función bajo la restricción
Demuestra que en una matriz su rango por columnas es igual a su rango por renglones. Sugerencia. Usa el teorema de reducción gaussiana. También, puedes revisar la entrada que tenemos sobre rango de matrices.
En las entradas anteriores definimos qué quiere decir que un campo escalar sea diferenciable. Así mismo, definimos las derivadas parciales y el gradiente. Ya usamos estas herramientas para hablar de dirección de cambio máximo y de puntos críticos. Además demostramos una versión del teorema del valor medio para este caso, lo que nos permitió poner un poco de orden a nuestra teoría: una función es diferenciable en un punto cuando existen sus parciales en ese punto y son continuas. Es momento de hablar de derivadas parciales de segundo orden. Cualquiera de las derivadas parciales es por sí misma un campo escalar, así que podemos preguntarnos si tiene o no sus propias derivadas parciales. Exploraremos esta idea.
Derivadas parciales de segundo orden
Las derivadas parciales de un campo escalar nos originan nuevos campos escalares. Supongamos que es un campo escalar para el cual existe la -ésima derivada parcial en un conjunto abierto . Entonces, obtenemos un nuevo campo escalar .
Este campo escalar puede o no tener -ésima derivada parcial. Suponiendo que la tiene en algún podríamos escribirla como
Sin embargo, esta notación es engorrosa, y por ello optamos o bien por escribir la expresión como sigue
o todavía más compacto, como
A esto le llamamos una derivada parcial de segundo orden. Si , introducimos la notación
Las derivadas parciales de segundo orden vuelven a ser, una vez más, cada una de ellas un campo escalar. Esto permite seguir iterando la idea: podríamos hablar de derivadas parciales de segundo, tercero, cuarto, … , -ésimo, … orden. Daremos una definición un poco más formal en una siguente entrada, pero por ahora trabajemos en entender a las derivadas parciales de segundo orden.
Un ejemplo de derivadas parciales de segundo orden
Ejemplo. Consideremos el campo escalar . Para este campo escalar tenemos que sus derivadas parciales con respecto a , y son:
Cada una de estas expresiones es a su vez un campo escalar. Cada una de ellas es derivable con respecto a en todo . Al derivarlas con respecto a obtenemos:
Por otro lado, las derivadas parciales de primer orden también podríamos haberlas derivado con respecto a . En este caso, hubieramos obtenido.
También podríamos derivar a las derivadas parciales de primer orden con respecto a para obtener las tres derivadas de orden dos faltantes. En total tenemos tres derivadas parciales de primer orden y nueve derivadas parciales de segundo orden.
Igualdad de las derivadas parciales de segundo orden mixtas
En numerosos campos escalares de interés tenemos una propiedad muy peculiar: que los operadores «obtener la derivada parcial con respecto a » y «obtener la derivada parcial con respecto a » conmutan. Es decir, varias veces podemos intercambiar el orden de derivación de las parciales y obtener el mismo resultado. En el ejemplo anterior quizás hayas notado que
Esto no siempre pasa, pero hay criterios de suficiencia sencillos de verificar. Por ejemplo, basta que las parciales mixtas existan y sean continuas para que sean iguales. El siguiente teorema formaliza el resultado.
Teorema. Sea un campo escalar tal que las derivadas parciales , , , existen en un conjunto abierto . Si es tal que , son continuas en , entonces dichas derivadas mixtas de segundo orden son iguales en .
Demostración. Sean suficientemente chicos para que los puntos en el plano , , , y estén en .
Definamos la función para y definamos
Notemos que es una función de en cuya derivada es Así, se le puede aplicar el teorema del valor medio con extremos en y para concluir que existe que nos permite escribir de la siguiente manera:
Ahora podemos aplicar el teorema del valor medio en la función con extremos y . Esto nos permite continuar la cadena de igualdades anterior mediante un que cumple
Como , se tiene que conforme .
Ahora consideremos análogamente a la función . Mediante un procedimiento similar al que acabamos de hacer, pero aplicado a en vez de a , se tiene otra forma de expresar a :
donde . Nuevamente, conforme .
Igualando las expresiones en y , tenemos lo siguiente:
El resultado se sigue de hacer tender , ya que dado que las derivadas parciales les estamos pidiendo que sean continuas, tenemos que:
Así concluimos nuestro resultado.
Más adelante…
En esta entrada hablamos de las derivadas parciales de segundo orden y vimos que bajo condiciones razonables podemos elegir las variables de derivación en el orden que queramos. Estas ideas son más generales, y a continuación nos llevarán a definir las derivadas parciales de cualquier orden . Después, usaremos estas derivadas parciales para generalizar otro de los teoremas de cálculo unidimensional: el teorema de Taylor.
Tarea moral
Para las siguientes funciones calcula :
En el teorema que afirma que las derivadas parciales mixtas son iguales usamos cuatro veces el teorema del valor medio (¿cuáles 4 son?). Asegúrate de que en verdad lo podamos usar.
Calcula , y para las funciones del punto 1. Explica por qué no es necesario calcular de manera separada
Investiga de un ejemplo en el que las derivadas parciales y no sean iguales. Realiza las cuentas para verificar que en efecto tienen valores distintos en algún punto.
El teorema que enunciamos está muy limitado. Sólo nos habla de campos escalares de en . Sin embargo, debería también funcionar si . Enuncia y demuestra un resultado similar que te permita garantizar que
Una intuición que se obtiene de un primer curso de cálculo diferencial e integral es que las funciones que tienen muchas derivadas «se parecen mucho a polinomios», en el sentido de que podemos aproximarlas apropiadamente con este tipo de expresiones. Esta intuición nos las da el teorema del polinomio de Taylor. En muchas aplicaciones, es conveniente estudiar polinomios en vez de funciones en general, así que sería ideal tener una versión de este mismo resultado para cálculo de varias variables. En esta entrada recordaremos un poco del caso unidimensional y luego enunciaremos la teoría correspondiente para el polinomio de Taylor.
Recordatorio de polinomio de Taylor en
Recordemos qué es lo que dice el teorema del polinomio de Taylor para el caso unidimensional. Esto nos ayudará pues lo usaremos posteriormente para enunciar una versión para varias variables.
Teorema. Sea una función y de tal manera que existen . Sea con y definamos a partir de esto
al que llamamos el polinomio de Taylor de de grado alrededor de .
Entonces
La demostración de este teorema la puedes encontrar en la entrada El Polinomio de Taylor (Parte 1) del curso de Cálculo I. Es recomendable que consultes esta entrada para recordar todo lo referente a este tema en una variable real.
Pidiendo un poco más de regularidad, se puede estudiar el residuo
Por ejemplo, se puede demostrar el siguiente teorema.
Teorema. Sea . Supongamos que están definidas sobre . Entonces, se puede expresar el residuo del teorema de Taylor como
para algún .
Para la demostración de este teorema y otras expresiones del residuo (por ejemplo, una expresión en términos de integrales), puedes visitar el curso de Cálculo II, en particular la entrada Series de Taylor y de Maclaurin.
Pensemos de momento que tiene derivadas parciales de todos los órdenes (es decir, que es ). En este caso, tiene polinomios de Taylor de todos los grados. De entrada, no tendría por qué suceder que , y de hecho hay contraejemplos para ello. Pero si además tenemos que se tiene , entonces la igualdad anterior sí se cumple. En este caso, verdaderamente se puede expresar como un polinomio infinito (una serie de potencias) alrededor de de la siguiente manera:
Ejemplo. Calculemos en el polinomio de Taylor de . Para cada entero positivo se tiene:
De aquí, por la forma que toma el residuo, existe para el cual
aquí está acotado y el cociente se va a cero conforme . De este modo, tenemos la igualdad
Preliminares para polinomio de Taylor para campos escalares
La manera en la cual generalizaremos el teorema del polinomio de Taylor será a través de evaluar nuestro campo escalar sobre un segmento, muy parecido a como generalizamos el teorema del valor medio. Pongamos la situación en contexto.
Tomemos un abierto y un campo escalar . Tomemos vectores
y en el intervalo . Supondremos además que para todo dicho se cumple .
Podemos recorrer el segmento de a mediante la trayectoria dada por . Si componemos a esta trayectoria con la función , obtenemos una función dada por
Por la hipótesis de diferenciabilidad de , es una función derivable de una variable real. Por la regla de la cadena su derivada está dada por la siguiente expresión:
Vamos a introducir una notación muy usada y útil para el desarrollo que estamos haciendo. Definiremos un operador con la expresión anterior simplemente como
Esta expresión no se sigue de manera tan formal de cosas que hemos hecho antes, pero observa que tiene sentido. En la expresión estamos haciendo algo así como un «producto punto de operadores». En el fondo, este operador manda a cada función diferenciable a su derivada direccional en la dirección de .
Para poder hablar de Taylor, necesitamos derivar iteradamente. Podemos entonces tomar ahora y derivarla nuevamente, de donde obtendríamos
Es importante que medites en por qué se da la redistribución de paréntesis que hicimos en la última igualdad. Simplificaremos la expresión como , y de manera similar definimos como componer el operador veces. Continuando como arriba, bajo las hipótesis adecuadas de diferenciabilidad llegamos al siguiente resultado.
Proposición. Sea un entero positivo y con abierto y derivadas parciales continuas de orden . Sea , y un vector tal que para todo . Entonces:
Demostración. Queda como tarea moral. Se sugiere hacerlo por inducción.
Algo sorprendente y curioso que sucede con las expresiones del estilo es que «se vale el binomio de Newton» para ellas, o en general, cualquier fórmula para elevar a la -ésima potencia. Esto se ve muy claro en el caso de y derivadas de orden . Si tenemos , entonces . Se puede demostrar, por ejemplo, que si las -ésimas parciales son continuas entonces
Un caso particular sería el de y , en el que se obtiene que:
En la práctica esto nos permitirá encontrar las expresiones que necesitamos para el polinomio de Taylor para campos escalares. Observa que estas expresiones son también las que nos confirman que la expresión que obtendremos será un polinomio en (en general, en las entradas de ), pues tras aplicar el operador en y evaluar en un punto, finalmente quedará escrito para ciertas constantes como lo cual en efecto es un polinomio (en este caso de grado y dos variables).
Polinomio de Taylor para campos escalares
Con la notación que hemos introducido, ahora sí podemos enunciar apropiadamente el polinomio de Taylor. Pensemos en que es veces diferenciable y que todas esas derivadas son continuas. En la sección anterior vimos que también sería veces diferenciable y dimos fórmulas para sus derivadas en términos de la notación .
Aplicando el teorema de Taylor con la versión de residuo dada en la ecuación , para la función , en los puntos , , tenemos que existe tal que se satisface lo siguiente:
Al usar las fórmulas dadas por la ecuación , obtenemos que
Así, reescribiendo todo en términos de obtenemos que:
Si de esta expresión quitamos el último término (el correspondiente al residuo) y hacemos la sustitución , obtenemos la siguiente expresión:
le llamamos el polinomio de Taylor de de grado alrededor de y converge a conforme .
Ejemplo de polinomio de Taylor para campos escalares
Ejemplo. Determinemos el polinomio de Taylor de grado 3 de la expresión alrededor del punto . Para ello, usaremos la expresión de la fórmula quitando el residuo y fórmulas tipo «binomio de Newton» como la de la ecuación .
Comencemos con el término de grado . Está dado por el operador
que aplicado a nuestra función es
Necesitaremos su evaluación en , que es .
Para pasar al término de segundo grado, necesitamos
Al aplicar este operador en nuestra , se obtiene:
Lo necesitaremos evaluado en , que es .
Finalmente, también requeriremos del término de orden , para el cual es necesario calcular el siguiente operador
y aplicarlo a nuestra para obtener
Una vez más, requerimos la evaluación en , la cual es .
Juntando todo esto, obtenemos que
Observa que, en efecto, obtenemos un polinomio en dos variables y de grado tres.
Los casos especiales para grado y grado
Las presentaciones más clásicas del polinomio de Taylor para campos escalares de varias variables son las versiones de primero y segundo grado. Para el polinomio de primer grado, tenemos la siguiente expresión:
En el caso de la presentación clásica para la fórmula de segundo orden tenemos
Donde
Esta suma tendrá utilidad especial hacia el final del curso, cuando hablemos de optimización. La expresión también puede ponerse en términos de otro objeto matemático que se llama la matriz Hessiana, la cual definiremos más adelante una vez que hayamos hecho un repaso de álgebra lineal, matrices y formas cuadráticas.
Mas adelante…
Con lo que hemos trabajado hasta ahora hemos desarrollado un muy buen entendimiento de las curvas y de los campos escalares, que respectivamente son funciones y . Sin embargo, nos gustaría ahora poder hablar con mucha mayor generalidad y entender a las funciones del estilo . Ya entendimos un poco de cómo son en términos de continuidad, cuando hablamos de la topología de . Sin embargo, para poder hablar de su diferenciabilidad y de otros resultados teóricos será necesario hacer un repaso de algunos conceptos adicionales de álgebra lineal. Por esta razón, en la siguiente unidad hablaremos de temas como transformaciones lineales, matrices, sistemas de ecuaciones, formas lineales y bilineales.
Tarea moral
Encuentra el polinomio de Taylor de primer grado para las siguientes funciones:
Calcula el polinomio de Taylor de segundo grado para los siguientes campos escalares en el punto dado:
en el punto .
alrededor del punto .
Demuestra por inducción la fórmula
Demuestra por inducción
En esta entrada sólo discutimos con detalle lo que pasa con el polinomio de Taylor «hasta cierto grado ». Sin embargo, no dimos una versión que generalice el polinomio de Taylor para cuando usamos todos los términos posibles (como en la ecuación ). Observa que en el recordatorio de una variable real sí pusimos el resultado para la serie de Taylor. Enuncia y demuestra una versión para campos escalares.