Archivo de la categoría: Matemáticas

Posts de matemáticas, la ciencia más cercana a las artes.

Teoría de los Conjuntos I: Buenos órdenes para cualquier conjunto

Por Gabriela Hernández Aguilar

Introducción

En esta entrada usaremos lo que aprendimos en la entrada anterior sobre el lema de Zorn para demostrar que cualquier conjunto no vacío puede ser bien ordenado.

Ordenando buenos órdenes de subconjuntos

En esta entrada demostraremos que cualquier conjunto no vacío $X$ tiene un buen orden. Si $a\in X$, entonces $(a,a)$ es un buen orden para $\{a\}\subseteq X$, así que podemos darle un buen orden a un elemento de $X$. La intuición de nuestra prueba es que podemos ir «agrandando» un buen orden para «pocos elementos» de $X$ hasta llegar a ordenar todo $X$. Sin embargo, no podemos hacer esto paso a paso. Tendremos que hacerlo de golpe usando el lema de Zorn. Para ello, daremos una noción de cuándo «un buen orden ordena más elementos de $X$ que otro y lo extiende». Nuestro resultado se obtendrá aplicando el lema de Zorn a esta noción. Comencemos con formalizarla.

Lema. Sea $X$ un conjunto y $\mathcal{B}$ la familia de todos los pares ordenados $(A,R)$ donde $A$ es un subconjunto de $X$ y $R$ es un buen orden para $A$. Definimos en $\mathcal{B}$ la relación $\leq$ como sigue: dados $(A,R),(B,R’)\in\mathcal{B}$ diremos que $(A,R)\leq(B,R’)$ si y sólo si $A\subseteq B$, $R\subseteq R’$ y para todo $x\in A$ y $y\in B\setminus A$ se cumple que $(x,y)\in R’$. Entonces, $\leq$ es una relación de orden parcial en $\mathcal{B}$.

Demostración.

Verifiquemos primero la reflexividad. Sea $(A,R)\in\mathcal{B}$. Luego, $A\subseteq A$, $R\subseteq R$ y, por vacuidad, para todo $x\in A$ y $y\in A\setminus A$ se tiene que $(x,y)\in R$, lo que muestra que $(A,R)\leq(A,R)$. Por tanto, $\leq$ es una relación reflexiva.

Verifiquemos ahora la antisimetría. Si $(A,R)\leq (B,R’)$ y $(B,R’)\leq(A,R)$, entonces, como consecuencia de la definición de $\leq$ tenemos que $A\subseteq B$, $R\subseteq R’$ y para todo $x\in A$ y $y\in B\setminus A$ se tiene que $(x,y)\in R’$; pero también, $B\subseteq A$, $R’\subseteq R$ y para todo $x\in B$ y $y\in A\setminus B$ se tiene que $(x,y)\in R$. En particular tenemos que $A\subseteq B$, $B\subseteq A$, $R\subseteq R’$ y $R’\subseteq R$, lo cual implica que $A=B$ y $R=R’$. Por tanto, $(A,R)=(B,R’)$, lo que muestra que $\leq$ es antisimétrica.

Por último mostraremos que la relación $\leq$ es transitiva. Sean $(A,R_0),(B,R_1),(C,R_2)\in\mathcal{B}$ elementos tales que $(A,R_0)\leq(B,R_1)$ y $(B,R_1)\leq(C,R_2)$. Luego, por definición de la relación $\leq$ tenemos que, $A\subseteq B$, $R_0\subseteq R_1$ y para todo $x\in A$ y $y\in B\setminus A$ se cumple que $(x,y)\in R_1$; asimismo, $B\subseteq C$, $R_1\subseteq R_2$ y para todo $x\in B$ y $y\in C\setminus B$ se cumple que $(x,y)\in R_2$. Así, como $A\subseteq B$ y $B\subseteq C$, entonces $A\subseteq C$ y, también, como $R_0\subseteq R_1$ y $R_1\subseteq R_2$, entonces $R_0\subseteq R_2$. Ahora, sean $x\in A$ y $y\in C\setminus A$ cualesquiera elementos. Si $y\in B$, entonces $x\in A$ y $y\in B\setminus A$, por lo que $(x,y)\in R_1$ y, por ende, $(x,y)\in R_2$. Si $y\notin B$, entonces $y\in C\setminus B$ y dado que $x\in A\subseteq B$, entonces $(x,y)\in R_2$. En cualquier caso $(x,y)\in R_2$, lo que demuestra que $(A,R_1)\leq(C,R_2)$.

Por lo tanto $\leq$ es una relación de orden en $\mathcal{B}$.

$\square$

Ya tenemos el conjunto parcialmente ordenado $(\mathcal{B},\leq)$ al que queremos aplicar el lema de Zorn. Pero tenemos que verificar una hipótesis importante: que cada cadena tiene cota superior. Esto lo hacemos en el siguiente lema.

Lema. Sea $X$ un conjunto y $\mathcal{B}$ y $\leq$ definidos como en el lema anterior. Entonces, en $(\mathcal{B}, \leq)$ toda cadena tiene una cota superior.

Demostración.

Sea $\mathcal{C}$ una cadena en $\mathcal{B}$. Definamos $f:\mathcal{C}\to\mathcal{P}(X)$ como sigue: si $(A,R)\in\mathcal{C}$, con $A\subseteq X$ y $R$ un buen orden en $A$, entonces $f((A,R))=A$. Ahora, notemos que si $A\subseteq X$ y $R$ es un buen orden en $A$, entonces $R\subseteq A\times A\subseteq X\times X$, es decir, $R$ es también una relación en $X$. Teniendo en cuenta esto definamos $g:\mathcal{C}\to\mathcal{P}(X\times X)$ como sigue: si $(A,R)\in\mathcal{C}$, con $A\subseteq X$ y $R$ un buen orden en $A$, entonces $g((A,R))=R$. Sean $Y_1:=f[\mathcal{C}]$ y $Y_2:=g[\mathcal{C}]$ y definamos $\mathcal{A}=\bigcup Y_1$ y $\mathcal{R}=\bigcup Y_2$.

Lo que haremos será probar que $\mathcal{A}$ es un subconjunto de $X$ y que $\mathcal{R}$ es un buen orden para $\mathcal{A}$, con lo cual tendríamos que $(\mathcal{A},\mathcal{R})\in\mathcal{B}$.

Primero, como $f((A,R))=A\subseteq X$ para cualquier $(A,R)\in\mathcal{C}$, entonces $Y_1=f[\mathcal{C}]$ es una familia de subconjuntos de $X$ y, por tanto, $\mathcal{A}=\bigcup Y_1$ es un subconjunto de $X$. Ahora, veamos que $\mathcal{R}$ es un buen orden en $\mathcal{A}$.

Lo primero que tenemos que mostrar es que $\mathcal{R}$ es efectivamente una relación en $\mathcal{A}$, es decir, que $\mathcal{R}$ es un subconjunto de $\mathcal{A}\times\mathcal{A}$. Sea $u\in\mathcal{R}$ un elemento arbitrario. Luego, $u\in g((A,R))=R$ para algún $(A,R)\in\mathcal{C}$. Dado que $u\in R$ y $R\subseteq A\times A$, entonces $u\in A\times A$. Además, como $(A,R)\in\mathcal{C}$, entonces $A=f((A,R))\in f[\mathcal{C}]$ y, en consecuencia, $A\subseteq\bigcup f[\mathcal{C}]=\mathcal{A}$, por lo que $A\times A\subseteq\mathcal{A}\times\mathcal{A}$. De este modo, como $u\in A\times A$ se sigue que $u\in\mathcal{A}\times\mathcal{A}$. Esto demuestra que $\mathcal{R}\subseteq\mathcal{A}\times\mathcal{A}$, es decir, $\mathcal{R}$ es una relación en $\mathcal{A}$.

Ahora veamos que $\mathcal{R}$ es una relación de orden en $\mathcal{A}$.

Sea $x\in\mathcal{A}$. Luego, $x\in f((A,R))=A$ para algún $(A,R)\in\mathcal{C}$. Como $R$ es un buen orden en $A$, entonces $(x,x)\in R$ y, dado que $R\subseteq\mathcal{R}$, se sigue que $(x,x)\in\mathcal{R}$. Esto prueba que $\mathcal{R}$ es una relación reflexiva.

Ahora, sean $x,y\in\mathcal{A}$ elementos tales que $(x,y)\in\mathcal{R}$ y $(y,x)\in\mathcal{R}$. Luego, $(x,y)\in g((A,R))=R$ y $(y,x)=g((B,R’))=R’$ para algunos $(A,R),(B,R’)\in\mathcal{C}$. Dado que $\mathcal{C}$ es una cadena, entonces $(A,R)\leq(B,R’)$ o $(B,R’)\leq(A,R)$, lo cual implica que $R\subseteq R’$ o $R’\subseteq R$. De modo que $(x,y),(y,x)\in R$ o $(x,y),(y,x)\in R’$. En cualquier caso podemos concluir que $x=y$ ya que tanto $R$ como $R’$ son relaciones de orden. Esto prueba que $\mathcal{R}$ es una relación antisimétrica.

Supongamos que $x,y,z\in\mathcal{A}$ son cualesquiera elementos tales que $(x,y),(y,z)\in\mathcal{R}$. Luego, $(x,y)\in g((A,R))=R$ y $(y,z)\in g((B,R’))=R’$ para algunos $(A,R),(B,R’)\in\mathcal{C}$. Ahora, como $\mathcal{C}$ es una cadena, entonces $(A,R)\leq(B,R’)$ o $(B,R’)\leq(A,R)$, por lo que $R\subseteq R’$ o $R’\subseteq R$. Así, $(x,y),(y,z)\in R$ o $(x,y),(y,z)\in R’$ y, por tanto, $(x,z)\in R$ o $(x,z)\in R’$ pues tanto $R$ como $R’$ son relaciones de orden. En cualquier caso $(x,z)\in\mathcal{R}$, ya que $R,R’\subseteq\mathcal{R}$. Esto prueba que $\mathcal{R}$ es una relación transitiva.

Por lo tanto, $\mathcal{R}$ es una relación de orden en $\mathcal{A}$.

Resta probar que $\mathcal{R}$ es un buen orden en $\mathcal{A}$. Sea pues $D\subseteq\mathcal{A}$ un conjunto no vacío. Luego, como $D\subseteq\mathcal{A}$ y $D\not=\emptyset$, entonces $D\cap f((A,R))=D\cap A\not=\emptyset$ para algún $(A,R)\in\mathcal{C}$. Luego, como $D\cap A\subseteq A$ no vacío, entonces existe el mínimo de $D\cap A$ con respecto a la relación $R$, ya que $R$ es un buen orden en $A$, es decir, existe $a_0\in D\cap A$ tal que $(a_0,x)\in R$ para todo $x\in D\cap A$. Veamos que $a_0$ es el mínimo de $D$ con respecto a la relación $\mathcal{R}$. Sea $x\in D$ cualquier elemento. Si $x\in A$, entonces $(a_0,x)\in R\subseteq\mathcal{R}$. Si ahora $x\notin A$, entonces, como $D\subseteq\mathcal{A}$, existe $(B,R’)\in\mathcal{C}\setminus\set{(A,R)}$ tal que $x\in f((B,R’))=B$. Luego, como $\mathcal{C}$ es una cadena se tiene que $(A,R)\leq(B,R’)$ o $(B,R’)\leq(A,R)$, sin embargo, no puede ocurrir que $(B,R’)\leq(A,R)$ pues de ser así tendríamos que $B\subseteq A$ y, por ende, $x\in A$ lo cual asumimos no ocurre. Así pues, necesariamente, $(A,R)\leq(B,R’)$ y, por consiguiente, $A\subseteq B$, $R\subseteq R’$ y para cualesquiera $a\in A$ y $b\in B\setminus A$ se tiene $(a,b)\in R’$. Debido a que $a_0\in A$ y $x\in B\setminus A$, entonces $(a_0,x)\in R’\subseteq\mathcal{R}$. Por lo tanto, para todo $x\in D$, $(a_0,x)\in\mathcal{R}$, lo que demuestra que $a_0$ es el mínimo de $D$ en la relación $\mathcal{R}$. Consecuentemente, $\mathcal{R}$ es un buen orden para $\mathcal{A}$.

Los argumentos anteriores nos permiten concluir que $(\mathcal{A},\mathcal{R})\in\mathcal{B}$, pues $\mathcal{A}\subseteq X$ y $\mathcal{R}$ es un buen orden para $\mathcal{A}$. Ahora, $(\mathcal{A},\mathcal{R})$ es una cota superior para $\mathcal{C}$. En efecto, si $(A,R)\in\mathcal{C}$ es cualquier elemento, entonces $A=f((A,R))\subseteq\bigcup f[\mathcal{C}]=\mathcal{A}$ y $R=g((A,R))\subseteq\bigcup g[\mathcal{C}]=\mathcal{R}$. Por último, si $x\in A$ y $y\in\mathcal{A}\setminus A$, entonces $y\in f((B,R’))=B$ para algún $(B,R’)\in\mathcal{C}$, pero dado que $\mathcal{C}$ es una cadena, entonces $(A,R)\leq(B,R’)$ o $(B,R’)\leq(A,R)$. Sin embargo, no puede ocurrir que $(B,R’)\leq(A,R)$ pues en ese caso tendríamos, en particular, que $B\subseteq A$ y por ende $y\in A$, lo que contradice la elección de $y$. Así que necesariamente, $(A,R)\leq(B,R’)$. Por consiguiente, $A\subseteq B$, $R\subseteq R’$ y para cualquier $a\in A$ y $b\in B\setminus A$, se tiene que $(a,b)\in R’$. En consecuencia, $(x,y)\in R’$ y como $R’\subseteq\mathcal{R}$, entonces $(x,y)\in\mathcal{R}$.

Por lo tanto, $A\subseteq\mathcal{A}$, $R\subseteq\mathcal{R}$ y para cualesquiera $x\in A$ y $y\in\mathcal{A}\setminus A$, $(x,y)\in\mathcal{R}$, es decir, $(A,R)\leq(\mathcal{A},\mathcal{R})$. Esto demuestra que $(\mathcal{A},\mathcal{R})$ es una cota superior para $\mathcal{C}$.

$\square$

El teorema del buen orden

Ya con los ingredientes anteriores, podemos enfocarnos en el resultado principal de esta entrada.

Teorema. (teorema del buen orden). Todo conjunto no vacío puede ser bien ordenado.

Demostración.

Sea $X$ un conjunto no vacío. Sea $\mathcal{B}$ el conjunto de todos los pares ordenados $(A,R)$ tales que $A\subseteq X$ y $R$ es un buen orden para $A$. Por uno de los lemas anteriores tenemos que $(\mathcal{B},\leq)$ es un conjunto ordenado, donde $\leq$ es la relación definida como $(A,R)\leq(B,R’)$ si y sólo si $A\subseteq B$, $R\subseteq R’$ y para todo $x\in A$ y $y\in B\setminus A$, $(x,y)\in R’$.

Antes de continuar veamos que $\mathcal{B}$ es no vacío. Como $X\not=\emptyset$, entonces existe $a\in X$. Luego, $R=\set{(a,a)}$ es un buen orden para $\set{a}$. Por tanto, $(\set{a},\set{(a,a)})\in\mathcal{B}$ y así $\mathcal{B}$ es no vacío.

Ahora, por el último lema probado, toda cadena en $\mathcal{B}$ está acotada superiormente y, como $\mathcal{B}$ es no vacío, podemos aplicar el lema de Kuratowski-Zorn y concluir que $\mathcal{B}$ tiene un elemento maximal. Sea $(A,R)$ elemento maximal de $\mathcal{B}$. Lo que probaremos es que $A=X$.

Si $X\not=A$, entonces existe $x\in X\setminus A$. Luego, definiendo $B=A\cup\set{x}$ y $R’=R\cup\set{(a,x):a\in A}\cup\set{(x,x)}$ tenemos que $R’$ es un buen orden para $B$. En efecto, primero probaremos que $R’$ es una relación de orden en $B$.

Si $u\in R’$, entonces $u\in R$ o $u\in\set{(a,x):a\in A}$ o $u=(x,x)$. Luego, como $A\subseteq B$ y $R\subseteq A\times A$, entonces $u\in A\times A\subseteq B\times B$ o $u=(a,x)\in A\times B\subseteq B\times B$ para algún $a\in A$ o $u=(x,x)\in B\times B$. En cualquier caso $u\in B\times B$ y, por tanto, $R’\subseteq B\times B$, lo que muestra que $R’$ es una relación en $B$.

Ahora, si $b\in B$, entonces $b\in A$ o $b=x$. Si $b\in A$, entonces $(b,b)\in R$ por ser $R$ una relación de orden en $A$ y, por tanto, $(b,b)\in R’$ pues $R\subseteq R’$. Si $b=x$, entonces $(b,b)\in R’$, por definición de $R’$. En cualquier caso se cumple que $(b,b)\in R’$, lo que muestra que $R’$ es una relación reflexiva.

Por otro lado, si $c,b\in B$ son tales que $(c,b)\in R’$ y $(b,c)\in R’$, entonces tenemos algunos casos:

Caso 1. $(c,b)\in R$ y $(b,c)\in R$. Luego, por ser $R$ una relación de orden se cumple que $R$ es antisimétrica, por lo que $c=b$.

Caso 2. $(c,b)\in R$ y $(b,c)\in\set{(a,x):a\in A}$. Luego, $(b,c)=(a,x)$ para algún $a\in A$ y, como $(c,b)\in R\subseteq A\times A$, entonces $(c,b)=(a_1,a_2)$ para algunos $a_1,a_2\in A$. De lo anterior se sigue que $c=a_1\in A$ pero también que $c=x\notin A$ y esto es una contradicción. Así el caso 2 no puede ocurrir.

Caso 3. $(c,b)\in R$ y $(b,c)\in\set{(x,x)}$. Este caso tampoco puede darse por las razones dadas en el caso 2.

Caso 4. $(c,b)\in\set{(a,x):a\in A}$ y $(b,c)\in\set{(a,x):a\in A}$. Luego, $(c,b)=(a_1,x)$ y $(b,c)=(a_2,x)$ para algunos $a_1,a_2\in A$. De esto se sigue que $c=a_1\in A$ y $c=x\notin A$ lo cual es una contradicción. Por lo tanto, el caso 5 tampoco pede darse.

Caso 5. $(c,b)\in\set{(a,x):a\in A}$ y $(b,c)\in\set{(x,x)}$. Luego, $(c,b)=(a_1,x)$ para algún $a_1\in A$ y $(c,b)=(x,x)$, por lo que $c=a_1\in A$ y $c=x\notin A$ lo cual es una contradicción. Por tanto, el caso 5 tampoco puede darse.

Caso 6. $(c,b)\in\set{(x,x)}$ y $(b,c)\in\set{(x,x)}$. En este caso se tiene que $b=x=c$.

Los 6 casos anteriores son las únicas posibilidades y, por tanto, concluimos que $b=c$. Esto muestra que $R’$ es una relación antisimétrica.

Ahora, sean $b,c,d\in B$ tales que $(b,c)\in R’$ y $(c,d)\in R’$. Luego, tenemos los siguientes casos:

Caso 1. $(b,c),(c,d)\in R$. En este caso se sigue que $(b,d)\in R\subseteq R’$ pues $R$ es transitiva.

Caso 2. $(b,c)\in R$ y $(c,d)\in\set{(a,x):a\in A}$. Luego, como $(b,c)\in R\subseteq A\times A$, entonces $b\in A$ y, por tanto, $(b,x)\in R’$. Ahora, como $(c,d)\in\set{(a,x):a\in A}$, entonces $d=x$ y, por tanto, $(b,d)\in R’$.

Caso 3. $(b,c)\in R$ y $(c,d)\in\set{(x,x)}$. Así como en el caso 2 se sigue que $(b,d)\in R’$.

Caso 4. $(b,c),(c,d)\in\set{(a,x):a\in A}$. En este caso se sigue que $c=d=x$ y, por tanto, $(b,c)=(b,d)\in R’$.

Caso 5. $(b,c)\in\set{(a,x):a\in A}$ y $(c,d)\in\set{(x,x)}$. Así como en el caso 3 se sigue que $c=d=x$ y, por tanto, que $(b,d)\in R’$.

Caso 6. $(b,c),(c,d)\in\set{(x,x)}$. Se sigue inmediatamente que $b=c=d=x$ y, por tanto, $(b,d)\in R’$.

Estos son los únicos casos posibles, pues no pueden ocurrir los siguientes casos:

Caso i. $(c,d)\in R$ y $(b,c)\in\set{(a,x):a\in A}$. En este caso se tendría que $c=x$ y que $c\in A$, lo cual no ocurre por la elección de $x$.

Caso ii. $(c,d)\in R$ y $(b,c)\in\set{(x,x)}$. Lo mismo que en el caso i.

Caso iii. $(c,d)\in\set{(a,x):a\in A}$ y $(b,c)\in\set{(x,x)}$. Lo mismo que en los casos i y ii.

En los únicos casos posibles se concluye que $(b,d)\in R’$, lo que muestra que $R’$ es una relación transitiva.

Por lo tanto $R’$ es una relación de orden en $B$. Ahora, sea $D\subseteq B$ no vacío. Si $D\cap A\not=\emptyset$, entonces $D\cap A$ tiene un elemento mínimo en $A$ respecto a la relación de orden $R$, es decir, existe $a_0\in D\cap A$ tal que $(a_0,a)\in R$ para todo $a\in D\cap A$. Luego, si $d\in D$ es cualquier elemento, entonces $d\in A$ o $d=x$. Si $d\in A$, entonces $(a_0,d)\in R\subseteq R’$ y, si $d=x$, entonces $(a_0,d)\in R’$ por definición de $R’$. Lo que demuestra que $a_0$ es el mínimo de $D$ con respecto a la relación de orden $R’$. Si ahora $D\cap A=\emptyset$, entonces, necesariamente, $D=\set{x}$ y, ciertamente, $D$ tiene mínimo, el cual es $x$. Por lo tanto, cualquier subconjunto no vacío de $B$ tiene elemento mínimo con respecto a la relación $R’$. Lo que muestra que $R’$ es un buen orden para $B$.

Luego, $(B,R’)\in\mathcal{B}$. Dado que $A\subseteq B$, $R\subseteq R’$ y para cualquier $a\in A$ y $b\in B\setminus A=\set{x}$ se tiene que $(a,b)\in R’$, se sigue que $(A,R)\leq(B,R’)$ y, sin embargo, $(A,R)\not=(B,R’)$, lo cual contradice la maximalidad de $(A,R)$ en $\mathcal{B}$.

Concluimos entonces que $A=X$ y, por tanto, $R$ es un buen orden para $X$. Por lo tanto, $X$ puede ser bien ordenado.

$\square$

Para culminar esta entrada, mostraremos que el teorema del buen orden implica el axioma de elección. La idea intuitiva es sencilla. Para un conjunto $X$, ¿cuál elemento elegimos de cada subconjunto no vacío de $X$? Pues damos un buen orden a $X$ y para cada subconjunto no vacío elegimos el mínimo.

Teorema. El teorema del buen orden implica el axioma de elección.

Demostración.

Sea $X$ un conjunto no vacío. Luego, por el teorema del buen orden, existe una relación $R$ en $X$ que es un buen orden en $X$. Definamos $e:\mathcal{P}(X)\setminus\set{\emptyset}\to X$ por medio de $e(B)=\min_R(B)$, donde $\min_R(B)$ denota al elemento mínimo del subconjunto no vacío $B$ de $A$ con respecto a la relación $R$. Dado que, por definición, el mínimo de un conjunto pertenece a dicho conjunto, concluimos que $e(B)\in B$ para todo $B\in\mathcal{P}(X)\setminus\set{\emptyset}$. Esto demuestra que $X$ tiene una función de elección.

$\square$

Resumen de últimas equivalencias

Podemos resumir la serie de resultados probados en esta entrada y la anterior mediante el siguiente teorema.

Teorema. Son equivalentes los siguientes resultados

  1. El axioma de elección.
  2. El lema de Tukey-Teichmüller.
  3. Principio maximal de Hausdorff.
  4. El lema de Kuratowski-Zorn.
  5. El teorema del buen orden.

Con esto damos por termnado esl estudio de algunas de las equivalencias más importantes del axioma de elección.

Tarea moral

  1. Sea $(X,\leq)$ un conjunto parcialmente ordenado en el que cualquier cadena tiene una cota superior. Muestra que para cada $a\in X$ existe un elemento $\leq-$maximal $x\in X$ tal que $a\leq x$.
  2. Sea $(L,\leq)$ un conjunto linealmente ordenado. Prueba que existe un conjunto $W\subseteq L$ tal que $\leq$ es un buen orden para $W$ y tal que para cada $x\in L$ existe $y\in W$ tal que $x\leq y$.
  3. Sea $X$ cualquier conjunto infinito. Prueba que $X$ puede ser bien ordenado de tal forma que $X$ no tenga máximo. Prueba también que $X$ puede ser bien ordenado de tal forma que tenga un máximo.

Más adelante…

En la siguiente y última entrada veremos una aplicación del axioma de elección relevante en álgebra lineal.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Cálculo Diferencial e Integral III: Teorema de la función implícita y demostración

Por Alejandro Antonio Estrada Franco

Introducción

En esta parte del curso estamos abordando los resultados principales de campos vectoriales y su diferenciabilidad. Hemos hablado de cómo la derivada de una composición se calcula con regla de la cadena. También, enunciamos el teorema de la función inversa, lo demostramos, y vimos un ejemplo de cómo se usa. Ahora pasaremos a otro de los resultados fundamentales en el tema: el teorema de la función implícita. Vamos a motivarlo a partir del problema de resolver sistemas de ecuaciones no lineales. Luego, lo enunciaremos formalmente y lo demostraremos. La discusión y los ejemplos los dejaremos para la siguiente entrada.

Una motivación: resolver sistemas de ecuaciones no lineales

Con lo que repasamos sobre sistemas de ecuaciones lineales, y con lo que se ve en un curso de Álgebra Lineal I, se puede entender completamente cómo resolver sistemas de eccuaciones lineales. Recordemos un poco de esto. Tomemos el siguiente sistema de ecuaciones lineales en las variables $x_1,\ldots,x_n$:

\begin{align*}
\left\{ \begin{matrix}
a_{11}x_1+a_{12}x_2+\ldots+a_{1n}x_n = b_1\\
a_{21}x_1+a_{22}x_2+\ldots+a_{2n}x_n = b_2\\
\vdots\\
a_{m1}x_1+a_{m2}x_2+\ldots+a_{mn}x_n = b_m.\\
\end{matrix} \right.
\end{align*}

Para resolverlo, se podría utilizar el proceso de reducción gaussiana. Tras hacer esto, podíamos clasificar a las variables en libres (que podían valer lo que sea) y pivote (que dependían afinmente de las libres). Esto daba todas las soluciones. Si, por decir algo, las variables pivote son $x_1,x_2,\ldots,x_m$ y las libre son $x_{m+1},\ldots,x_n$, entonces podemos reescribir lo anterior de la siguiente manera: «podemos despejar a las primeras en función de las segundas», algo así como

\begin{align*}
x_1 &= T_1(x_{m+1},\ldots,x_n)\\
x_2 &= T_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=T_m(x_{m+1},\ldots,x_n).
\end{align*}

Elegimos a $x_{m+1},\ldots,x_n$ como queramos. De ahí $x_1,\ldots,x_m$ quedan definidos afinmente con las $T_1,\ldots,T_m$. Y esto da todas las soluciones. Pero, ¿qué sucedería si tenemos un sistema de ecuaciones mucho más general?

Para plantear esto, imaginemos que ahora tenemos cualesquiera funciones $f_1,\ldots,f_m:\mathbb{R}^n\to \mathbb{R}$ y que queremos encontrar todas las soluciones $x_1,\ldots,x_n$ al siguiente sistema de ecuaciones:

\begin{equation}
\label{eq:sistemadificil}
\left\{ \begin{matrix}
f_{1}(x_{1},\dots ,x_{n})=0 \\
\vdots \\
f_{m}(x_{1},\dots ,x_{n})=0.
\end{matrix}\right.
\end{equation}

Esto es tan general como pudiéramos esperar. A la izquierda hay ceros, pero es porque si hubiera otras cosas, podríamos pasarlas a la izquierda para dejar ceros a la derecha.

Este sistema \eqref{eq:sistemadificil} parece imposible de resolver: no tenemos idea de quiénes son las funciones $f_1,\ldots, f_n$, no hay reducción gaussiana, no hay variables libres, etc. Pero imaginemos que el campo vectorial $(f_1,\ldots,f_m)$ es de clase $C^1$ alrededor de algún punto $\bar{v}_0=(x_{1}^{0},\dots,x_{n}^{0})$ en donde queremos despejar. Esto nos diría que cerca de $\bar{v}_0$ cada expresión $f_i(\bar{v})$ con $\bar{v}=(x_{1},\dots,x_{n})$ se parece muchísimo a su mejor aproximación lineal:

\[f_i(\bar{v}_0)+\triangledown f_i(\bar{v}_0)\bullet (\bar{v}-\bar{v}_0)\]

donde, tenemos:
\begin{align*}
f_i(\bar{v}_0)+\triangledown f_i(\bar{v}_0)\bullet (\bar{v}-\bar{v}_0)
&=f_i(\bar{v}_0)+\left(\frac{\partial f_i}{\partial x_1}(\bar{v}_0),\dots ,\frac{\partial f_i}{\partial x_n}(\bar{v}_0)\right)\bullet\left(x_1 -x_{1}^{0},\dots , x_n -x_{n}^{0}\right)\\ &=f_i(\bar{v}_0)+\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)(x_j -x_{j}^{0})\\ &=f_i(\bar{v}_0)+\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_j -\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_{j}^{0}\\ &=\triangledown f_i(\bar{v}_0)\bullet (\bar{v})+f_i(\bar{v}_0) -\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}} (\bar{v}_0)x_{j}^{0}\\ &=\triangledown f_i(\bar{v}_0)\bullet (\bar{v}) + \bar{b}_i,
\end{align*}

donde $\bar{b}_i=f_i(\bar{v}_0)-\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_{j}^0$. Pero entonces el sistema es prácticamente el mismo sistema que

\begin{equation}\label{eq:sistemafacil}\left \{\begin{matrix}\frac{\partial f_{1}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{1}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{1}\hspace{0.1cm}=\hspace{0.1cm}0 \\
\frac{\partial f_{2}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{2}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{2}\hspace{0.1cm}=\hspace{0.1cm}0 \\ \vdots & \vdots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{m}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{m}\hspace{0.1cm}=\hspace{0.1cm}0 \end{matrix}\right.\end{equation}

Esto se ve un poco complicado, pero cada $\frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_{0})x_{j}$ es simplemente un número real. ¡Cerquita de $\bar{v}_0$ el sistema de ecuaciones \eqref{eq:sistemadificil} es prácticamente un sistema lineal! Sería entonces de esperarse que las soluciones el sistema \eqref{eq:sistemadificil} original sean muy cercanas a las del sistema lineal \eqref{eq:sistemafacil} que sale y de nuevo recuperamos los trucos usuales: reducción gaussiana, variables libres, variables pivote, etc.

Pensando en que en el sistema \eqref{eq:sistemafacil} las variables pivote son $x_1,\ldots, x_m$ y las libres son $x_{m+1},\ldots,x_n$, entonces podemos encontrar transformaciones afines $T_1,\ldots,T_m:\mathbb{R}^n\to \mathbb{R}$ tales que las soluiones de \eqref{eq:sistemafacil} consisten en elegir $x_{m+1},\ldots,x_n$ arbitrariamente, y tomar

\begin{align*}
x_1 &= T_1(x_{m+1},\ldots,x_n)\\
x_2 &= T_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=T_m(x_{m+1},\ldots,x_n).
\end{align*}

Muy probablemente $(x_1,\ldots,x_n)$ no será una solución de \eqref{eq:sistemadificil}, pues son sistemas diferentes entre sí. Pero suena a que son tan tan cercanos, que con tantita maniobra podremos encontrar funciones $S_1,\ldots, S_m: \mathbb{R}^n\to \mathbb{R}$ tales que cualquier solución a \eqref{eq:sistemadificil} similarmente está dada por elegir $x_{m+1},\ldots, x_n$ arbitrariamente y tomar

\begin{align*}
x_1 &= S_1(x_{m+1},\ldots,x_n)\\
x_2 &= S_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=S_m(x_{m+1},\ldots,x_n).
\end{align*}

Gracias a que pudimos poner a todos los $x_1,\ldots x_m$ en función de los $x_{m+1},\ldots,x_n$, hemos logrado encontrar todas las soluciones a \eqref{eq:sistemadificil} cerca de $\bar{v}_0$. El teorema de la función inversa nos ayuda a volver precisas muchas de las cosas discutidas en esta sección.

Enunciado del teorema de la función implícita

Pensemos que tenemos algunas restricciones dadas por ecuaciones como las del sistema \eqref{eq:sistemadificil}. Lo que el teorema de la función implícita nos dirá es que bajo suficiente regularidad y algunas condiciones de invertibilidad, en una vecindad de un punto $\bar{v}_{0}$ las incógnitas $x_{1},\dots ,x_{m}$ se pueden poner en función de las incógnitas $x_{m+1},\dots ,x_{n}$, es decir, que se puede despejar como lo mencionamos al final de la sección anterior. El enunciado es el siguiente.

Teorema (de la función implícita). Sea $f:S\subseteq\mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^m$ un campo vectorial de clase $C^1$ en $S$ con funciones componentes $f_i: S\subseteq\mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}$, para $i=1,\ldots,m$.

Pensemos en el conjunto $A$ de soluciones $(y_1,\ldots,y_m,x_1,\ldots,x_l)$ del siguiente sistema de ecuaciones:

\begin{equation}
\label{eq:sistemaimplicita}
\left\{ \begin{matrix}
f_{1}(y_{1},\dots ,y_m,x_1,\ldots,x_l)=0 \\
\vdots \\
f_{m}(y_{1},\dots ,y_m,x_1,\ldots,x_l)=0.
\end{matrix}\right.
\end{equation}

Supongamos además que para el punto $$(\bar{y}_0,\bar{x}_0)=\left(y_{1}^{0},\dots ,y_{m}^{0},x_{1}^{0},\dots ,x_{l}^{0}\right)\in S\cup A$$ la matriz

\[ \begin{pmatrix} \frac{\partial f_{1}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{i}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) \end{pmatrix} \]

es invertible. Entonces existen abiertos $V\subset \mathbb{R}^{m}$ y $U\subset \mathbb{R}^l$ con $\bar{y}_0\in V$, $\bar{x}_0\in U$, para los cuales hay una única función $h:U\to V$ de clase $C^{1}$ en $V$, tal que $f(\bar{y},\bar{x})=\bar{0}$ si y sólo si $\bar{y}=h(\bar{x})$.

Sólo para aclarar algunas diferencias con lo discutido anteriormente, aquí ya estamos separando en lo que esperaremos que serán las variables libres $x_1,\ldots,x_m$ y las variables pivote $y_1,\ldots,y_l$. Estamos además estudiando el caso en el que tenemos tantas variables libres como ecuaciones, pues este caso es fácil de enunciar en términos de la invertibilidad de una matriz. El caso más general se trata con reducción gaussiana como platicamos en la sección anterior. La igualdad $\bar{y}=h(\bar{x})$ es lo que entendemos como «despejar» a los $y_i$’s en función de los $x_j$’s.

Demostración del teorema de la función implícita

Veamos la demostración del teorema.

Demostración. Definamos $F:S\subset \mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ como $F(\bar{y},\bar{x})=(f(\bar{y},\bar{x}),\bar{x})$. Dado que $f$ es de clase $C^1$, se tendrá que $F$ también (explica esto como tarea moral).

Notemos que

\begin{align*}
F(\bar{y}_{0},\bar{x}_{0})&=(f(\bar{y}_{0},\bar{x}_{0}),\bar{x}_{0})=(\bar{0},\bar{x}_0).\end{align*}

Por otro lado, notemos que la matriz jacobiana de $F$ en $(\bar{y}_0,\bar{x}_0)$ es

$$\begin{bmatrix} \frac{\partial f_{1}}{\partial \bar{y}_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{1}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) & \frac{\partial f_{1}}{\partial x_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{1}}{\partial x_{l}}(\bar{y}_{0},\bar{x}_{0}) \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) & \frac{\partial f_{m}}{\partial x_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{l}}(\bar{y}_{0},\bar{x}_{0}) \\ 0 & \dots & 0 & 1 & \dots & 0 \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ 0 & \dots & 0 & 0 & \dots & 1 \end{bmatrix}$$

esta matriz además es invertible (también tendrás que explicar ambas cosas de tarea moral).

La idea clave es que entonces podemos usar el teorema de la función inversa en $F$. Aplícandolo en este contexto, obtenemos que existe $\delta >0$ tal que $F$ es inyectiva en una bola $B_{\delta}(\bar{y}_{0},\bar{x}_{0})\subset S$. Nos dice también que $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$ es un conjunto abierto, y que $F ^{-1}:F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))\subset \mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ es de clase $C^{1}$ en $F(B_{\delta}(\bar{y}_{0},\bar{x}_{0}))$. También dice algo de quién es la derivada explícitamente, pero eso no lo necesitaremos por ahora (de tarea moral tendrás que pensar qué nos dice esto).

Como $F$ manda $(\bar{y}_0,\bar{x}_0)$ a $(\bar{0},\bar{x}_0)$ y $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$ es un abierto, entonces hay una bola abierta $W$ alrededor de $(\bar{0},\bar{x}_0)$ contenida en $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$. El conjunto $U$ que propondremos será el abierto que se obtiene al intersectar $W$ con el espacio en donde la coordenada correspondiente a $f(\bar{y},\bar{x})$ es cero. En otras palabras, $U$ es un abierto y consiste de $\bar{x}$ para los cuales existe un $\bar{y}$ tal que $F(\bar{y},\bar{x})=(\bar{0},\bar{x})$ (es decir, $f(\bar{y},\bar{x})=\bar{0}$).

Tomemos ahora un $\bar{x}\in U$. Afirmamos que hay sólo un $\bar{y}$ tal que $(\bar{y},\bar{x})\in B_{\delta}(\bar{y}_{0},\bar{x}_{0})$ y $f(\bar{y},\bar{x})=\bar{0}$. Si hubiera $\bar{y}$ y $\bar{y}’$ que satisfacen eso, tendríamos

$$F(\bar{y},\bar{x})=(f(\bar{y},\bar{x}),\bar{x})=(\bar{0},\bar{x})=(f(\bar{y}’,\bar{x}),\bar{x})=F(\bar{y}’,\bar{x}),$$

que por la inyectividad de $F$ implica $\bar{y}=\bar{y}’$. De hecho, dicho único $\bar{y}$ está en función de $F^{-1}$, que es de clase $C^1$ de modo que el conjunto de los $\bar{y}$ asignados a los $\bar{x}$ en $U$ es un abierto $V$.

Así, podemos definir $h:U\to V$ de la siguiente manera: $h(\bar{x})=\bar{y}$, donde $\bar{y}$ es el único elemento para el cual $f(\bar{y},\bar{x})=\bar{0}$ y $(\bar{y},\bar{x})\in B_{\delta}(\bar{y}_{0},\bar{x}_{0})$. De la discusión desarrollada, $h$ está bien definida y cumple con las propiedades buscadas.

Por último probemos que $h$ es de clase $C^{1}$ en $U$. Como $F^{-1}$ esta definida y, además es de clase $C^{1}$ sobre el conjunto $F(B_{\delta}(\bar{x}_{0},\bar{y}_{0}))$, si escribimos que $F^{-1}=\left( (F^{-1})_{1},\dots ,(F^{-1})_{m} \right)$, bastaría con demostrar:

\[ h(\bar{x})=\left( (F^{-1})_{1}(\bar{0},\bar{x}),\dots , (F^{-1})_{m}(\bar{0},\bar{x})\right) \]

para cada $\bar{x}\in V$. Esto se hace como sigue:

\begin{align*} (h(\bar{x}),\bar{x})&=F^{-1}(F(h(\bar{x}),\bar{x}))\\ &=F^{-1}(\bar{0},\bar{x}) \\ &=\left( (F^{-1})_{1}(\bar{0},\bar{x}),\dots ,(F^{-1})_{m}(\bar{0},\bar{x}),(F^{-1})_{m+1}(\bar{0},\bar{x}),\dots ,(F^{-1})_{m+l}(\bar{0},\bar{x}) \right). \end{align*}

Así queda terminada de la demostración de este importante teorema.

$\square$

Algunas reflexiones finales

Si quisiéramos usar de manera práctica la demostración para encontrar la función implícita $h$, necesitaríamos calcular la inversa $F^{-1}$. Sin embargo, las técnicas que tenemos hasta ahora no nos permiten hacer eso tan fácilmente. La versión del teorema de la función inversa que tenemos nos dice que hay una inversa, pero no nos dice quién es. La mayoría de las veces dar esta inversa es muy difícil, por no decir imposible.

Aunque esto parezca algo negativo, de cualquier forma tenemos un resultado muy importante. En algunos casos, sí podremos dar la función inversa con relativa facilidad. Y en otros contextos, aunque no podamos dar la inversa explícitamente, sí tendremos una base teórica robusta para demostrar otros resultados. El teorema de la función implícita es una palanca importante para otros resultados que brindan mucha luz acerca del comportamiento de los campos vectoriales.

Mas adelante

La demostración y el desarrollo teórico tanto del teorema de la función inversa, como el de la función implícita, son muy técnicos. Dejaremos los aspectos técnicos hasta aquí y en la siguiente entrada procesaremos mejor lo que quiere decir este teorema hablando de varios ejemplos, y también de sus consecuencias.

Tarea moral

  1. Considérese la función $T:\mathbb{R}^{3}\rightarrow \mathbb{R}^{2}$ dada por $T(x,y,z)=(x+z,y+x)$ aplica el teorema de la función implícita para obtener una función $h:\mathbb{R}\rightarrow \mathbb{R}^{2}$ tal que $(h(\bar{a}),\bar{a})$ es solución de la ecuación $T(x,y,z)=(0,0)$.
  2. Explica con detalle por qué la función $F$ de la demostración del teorema de la función implícita es de clase $C^1$.
  3. Verifica que en efecto $DF(\bar{y}_0,\bar{x}_0)$ es la expresión dada en la demostración del teorema. Además, justifica por qué es invertible.
  4. Justifica con detalle por qué los conjuntos $U$ y $V$ de la demostración en efecto son conjuntos abiertos.
  5. El teorema de la función inversa también nos dice quién es la derivada de la inversa. ¿Eso qué quiere decir en el contexto del teorema de la función implícita?

Entradas relacionadas

Cálculo Diferencial e Integral III: Derivadas parciales de orden superior

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior hablamos de derivadas parciales de segundo orden y dimos una condición sencilla de verificar para garantizar que ciertas derivadas mixtas sean iguales. Lo que haremos ahora es dar un siguiente paso y hablar de derivadas parciales de orden superior. Enunciaremos un resultado análogo al de la entrada anterior, para garantizar que cualesquiera dos derivadas conmuten. Un poco más adelante, usaremos las derivadas de orden superior para enunciar un teorema de Taylor para funciones de varias variables.

Definiciones de derivadas parciales de orden superior

En la entrada anterior tomamos un campo escalar $f:S\subset \mathbb{R}^{n}\to\mathbb{R}$ con dominio cierto abierto $S$ con derivadas parciales $$\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \ldots, \frac{\partial f}{\partial x_n}$$

en un cierto abierto $R\subset S$. Hicimos notar que cada una de estas funciones es nuevamente un campo escalar en el abierto $R$ y que por lo tanto podríamos hacernos nuevamente la pregunta, para cada una de ellas, si resulta tener derivadas parciales o no. En caso de que sí, esto nos permitía crear derivadas parciales de segundo orden, del estilo $$\frac{\partial^2 f}{\partial x_i \partial x_j}.$$

Al variar $i$ y $j$ de $1$ a $n$, obtenemos otras $n^2$ posibles funciones, que nuevamente son campos escalares, de las cuales nuevamente podemos preguntarnos si tienen o no derivadas parciales. Esta idea podemos iterarla tantas veces como queramos. Para formalizarla, planteamos la siguiente definición. La definición es para funciones con dominio $\mathbb{R}^n$ y un punto dado $\bar{a}$, pero se pueden hacer las adecuaciones necesarias para hablar de la diferenciabilidad de una función cunado su dominio es cierto abierto, o cuando se quiere hablar de diferenciabilidad en todo un abierto.

Definición. Sea $f:\mathbb{R}^n\to \mathbb{R}$ una función y $\bar{a}\in \mathbb{R}^n$ un vector. Definimos recursivamente sobre $k$ el símbolo

$$\frac{\partial^k f}{\partial x_{i_k}\cdots \partial x_{i_1}}(\bar{a})$$

para $i_1,\ldots,i_k\in \{1,2,\ldots,n\}$ como sigue:

  1. Si $k=0$, el símbolo simplemente representa a $f(\bar{a})$.
  2. En otro caso, $$\frac{\partial^k f}{\partial x_{i_k}\cdots \partial x_{i_1}}(\bar{a}):=\frac{\partial}{\partial x_{i_k}} \left(\frac{\partial^{k-1} f}{\partial x_{i_{k-1}}\cdots \partial x_{i_1}}\right)(\bar{a}),$$
    siempre y cuando se pueda derivar
    $$\frac{\partial^{k-1} f}{\partial x_{i_{k-1}}\cdots \partial x_{i_1}}$$ con respecto a la variable $x_{i_k}$ en el punto $\bar{a}$.

A ese símbolo le llamamos la derivada parcial de $f$ de $k$-ésimo orden con respecto a las variables $x_{i_k},\ldots,x_{i_1}$.

En otras palabras, siempre y cuando sea posible, tomamos $f$ y la vamos derivando primero con respecto a $x_{i_1}$, luego con respecto a $x_{i_2}$ y así sucesivamente hasta que la última derivación es con respecto a $x_{i_k}$.

Como en el caso de dos variables, nos permitiremos «agrupar variables en potencias» para simplificar algunas notaciones en caso de que la derivación sea consecutivamente con respecto a una misma variable. Por ejemplo, a la siguiente derivada parcial de orden $3$:

$$\frac{\partial^3 f}{\partial x \partial x \partial y}$$

usualmente la escribiremos en forma simplificada

$$\frac{\partial^3 f}{\partial x^2 \partial y}.$$

Ejemplos de derivadas parciales de orden $3$

Ejemplo. Tomemos el campo escalar $f:\mathbb{R}^3 \to \mathbb{R}$ dado por

$$f(x,y,z)=\sin(xyz).$$

Encontremos las siguientes derivadas parciales:

$$\frac{\partial^3 f}{\partial x \partial y^2}, \frac{\partial^3 f}{\partial x \partial y \partial z}, \frac{\partial^3 f}{\partial y^3}.$$

Comenzamos con $$\frac{\partial^3 f}{\partial x \partial y^2}$$

\begin{align*} \frac{\partial f}{\partial y}(x,y,z)&=xz\cos(xyz),\\ \frac{\partial^2 f}{\partial y^2}(x,y,z)&=-x^2z^2\sin(xyz),\\ \frac{\partial^3 f}{\partial z \partial y^2}(x,y,z)&=-2zx^2\sin(xyz)-z^2x^3y\cos(xyz). \end{align*}

Luego calculemos $$\frac{\partial^3 f}{\partial x \partial y \partial z}$$

\begin{align*} \frac{\partial f}{\partial z}(x,y,z)&=xy\cos(xyz),\\ \frac{\partial^2 f}{\partial y \partial z}(x,y,z)&=x\cos(xyz)-x^2yz\sin(xyz),\\ \frac{\partial^3 f}{\partial x \partial y \partial z}(x,y,z)&=-3xyz\sin(xyz)+(1-x^2y^2z^2)\cos(xyz). \end{align*}

Por último calcularemos $$\frac{\partial^3 f}{\partial y^3}$$

\begin{align*} \frac{\partial f}{\partial y}(x,y,z)&=xz\cos(xyz),\\ \frac{\partial^2 f}{\partial y^2}(x,y,z)&=-x^2z^2\sin(xyz),\\ \frac{\partial^3 f}{\partial y^3}(x,y,z)&=-x^3z^3\cos(xyz). \end{align*}

$\triangle$

Sería algo laborioso encontrar todas todas las derivadas parciales de orden $3$ en el ejemplo anterior. ¡Son 27! Aunque, bueno, muchas de ellas serán iguales gracias a un teorema que enunciaremos en la siguiente sección.

Veamos un ejemplo de $\mathbb{R}^2$ en el que sí encontraremos todas las $8$ derivadas parciales de orden $3$.

Ejemplo. Veamos cuáles son todas las derivadas parciales de orden $3$ para el siguiente campo escalar $g:\mathbb{R}^2\to \mathbb{R}$:

$$g(x,y)=3x^2y^3.$$

Primero encontremos ambas derivadas parciales de primer orden

\begin{align*}
\frac{\partial g}{\partial x}(x,y)=6xy^3, \quad \frac{\partial g}{\partial y}(x,y)=9x^2y^2.
\end{align*}

Con ellas podemos encontrar las de segundo orden:

\begin{align*}
\frac{\partial^2 g}{\partial x^2}(x,y)=6y^3&, \quad \frac{\partial^2 g}{\partial x \partial y}(x,y)=18xy^2,\\
\frac{\partial^2 g}{\partial y\partial x}(x,y)=18xy^2&, \quad \frac{\partial^2 g}{\partial y^2}(x,y)=18x^2y.
\end{align*}

Finalmente, usamos estas últimas para encontrar las derivadas parciales de tercer orden. Primero, aquellas en donde derivamos las anteriores con respecto a $x$:

\begin{align*}
\frac{\partial^3 g}{\partial x^3}(x,y)=0&, \quad \frac{\partial^3 g}{\partial x^2 \partial y}(x,y)=18y^2,\\
\frac{\partial^3 g}{\partial x\partial y\partial x}(x,y)=18y^2&, \quad \frac{\partial^3 g}{\partial x\partial y^2}(x,y)=36xy,
\end{align*}

y sólo faltan en donde derivamos las de segundo orden con respecto a $y$:

\begin{align*}
\frac{\partial^3 g}{\partial y\partial x^2}(x,y)=18y^2&, \quad \frac{\partial^3 g}{\partial y \partial x \partial y}(x,y)=36xy,\\
\frac{\partial^3 g}{\partial y^2\partial x}(x,y)=36xy&, \quad \frac{\partial^3 g}{\partial y^3}(x,y)=18x^2.
\end{align*}

$\triangle$

Hay varias de estas derivadas parciales del ejemplo anterior que son iguales. ¿Cuáles? ¿Cuál parece ser que sea el criterio para que dos derivadas parciales de orden superior sean iguales?

Conmutatividad de derivadas parciales de orden superior

En los ejemplos anteriores hay algunas derivadas de orden superior que coinciden entre sí. El siguiente teorema nos da una condición para garantizar la conmutatividad en el orden en que derivamos para una gran cantidad de situaciones. Una vez más, nos limitamos a enunciar el resultado para un punto dentro de un abierto

Teorema. Sea $f:\mathbb{R}^n\to \mathbb{R}$ una función y $k\geq 2$ un entero. Sean $i_1,\ldots, i_k, j_1,\ldots,j_k$ enteros con valores en $\{1,\ldots, n\}$. Supongamos que:

  • Hay un abierto $S\subset \mathbb{R}^n$ en el que las siguiente derivadas de orden $k$ existen:
    $$\frac{\partial^k f}{\partial x_{i_k}\cdots \partial x_{i_1}} \quad \text{y} \quad \frac{\partial^k f}{\partial x_{j_k}\cdots \partial x_{j_1}}.$$
  • Dichas derivadas son continuas en un punto $\bar{a}\in S$.
  • Cada entero de $1$ a $n$ aparece la misma cantidad de veces en $i_1,\ldots, i_k$ que en $j_1,\ldots,j_k$.

Entonces, ambas derivadas coinciden en $\bar{a}$.

La última condición es muy natural: tuvimos que haber derivado la misma cantidad de veces con respecto a cada variable. Así pues, por ejemplo, si tenemos $f:\mathbb{R}^3\to \mathbb{R}$ con las condiciones adecuadas de continuidad y diferenciabilidad, podríamos por ejemplo garantizar que:

$$\frac{\partial^7 f}{\partial x^2 \partial y \partial z \partial y^2 \partial x} = \frac{\partial^7 f}{\partial z \partial x^3 \partial y^3}.$$

No daremos la demostración del teorema, pero quedará como tarea moral. Para que puedas realizarla, estudia con mucho detalle la demostración del teorema de la entrada anterior. Ya que la manejes bien, la demostración de este teorema requerirá de que plantees adecuadamente una inducción para aprovechar al máximo la definición recursiva para derivadas parciales de orden $k$.

Más adelante…

Ya que hemos definido y entendido las derivadas parciales para cualquier orden $k$, podemos enunciar otro de los teoremas clásicos de cálculo de una variable, pero en su versión para campos escalares: el teorema de Taylor. Haremos esto en la siguiente entrada.

Tarea moral

  1. Encuentra todas las derivadas parciales de orden $3$ (con respecto a todas las formas de elegir variables) para las siguientes funciones, enunciando apropiadamente el dominio en el que estás trabajando y en el que funionan tus cálculos.
    • $f(x,y)=e^{x+y}$
    • $f(x,y)=x^2+x+y^2+y+1$
    • $f(x,y)=\sin(x)\cos(x)+\tan(xy)$
    • $f(x,y)=\frac{1}{1+\sin^2(x)}+\frac{1}{1+\cos^2(x)}$
    • $f(x,y,z)=x+y+z$
    • $f(x,y,z)=e^{x+y+z}$
  2. Demuestra que el campo escalar $f:\mathbb{R}^n\to \mathbb{R}$ dado por $$f(x_1,\ldots,x_n)=e^{-(x_1+\ldots+x_n)}$$ tiene todas sus derivadas parciales con respecto a cualesquiera variables para todos los órdenes $k$.
  3. Cuando una función $f:\mathbb{R}\to\mathbb{R}$ tiene todas sus derivadas de todos sus órdenes $f^{\prime}, f^{\prime \prime}, f^{(3)},\ldots$, decimos que es infinitamente diferencible o $C$-infinito (en símbolos «$f$ es $C^{\infty}$»). Haz una propuesta de qué querría decir que un campo escalar sea $C$-infinito. Verifica que si un campo escalar es $C$-infinito en todo $\mathbb{R}^n$, entonces se dan todas las conmutatividades de derivadas parciales.
  4. Para convencerte de que el teorema de conmutatividad de derivadas parciales funciona, encuentra explícitamente las derivadas $$\frac{\partial^7 f}{\partial x^2 \partial y \partial z \partial y^2 \partial x} = \frac{\partial^7 f}{\partial z \partial x^3 \partial y^3}$$ para el campo escalar $f:\mathbb{R}^3\to \mathbb{R}$ dado por $f(x,y,z)=x^4y^4z$.
  5. Demuestra el teorema de conmutatividad para derivadas parciales.

Entradas relacionadas

Cálculo Diferencial e Integral III: Derivadas parciales de segundo orden

Por Alejandro Antonio Estrada Franco

Introducción

En las entradas anteriores definimos qué quiere decir que un campo escalar sea diferenciable. Así mismo, definimos las derivadas parciales y el gradiente. Ya usamos estas herramientas para hablar de dirección de cambio máximo y de puntos críticos. Además demostramos una versión del teorema del valor medio para este caso, lo que nos permitió poner un poco de orden a nuestra teoría: una función es diferenciable en un punto cuando existen sus parciales en ese punto y son continuas. Es momento de hablar de derivadas parciales de segundo orden. Cualquiera de las derivadas parciales es por sí misma un campo escalar, así que podemos preguntarnos si tiene o no sus propias derivadas parciales. Exploraremos esta idea.

Derivadas parciales de segundo orden

Las derivadas parciales de un campo escalar $f$ nos originan nuevos campos escalares. Supongamos que $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ es un campo escalar para el cual existe la $k$-ésima derivada parcial en un conjunto abierto $S’\subseteq S$. Entonces, obtenemos un nuevo campo escalar $\frac{\partial f}{\partial x_{k}}:S’\rightarrow \mathbb{R}$.

Este campo escalar puede o no tener $j$-ésima derivada parcial. Suponiendo que la tiene en algún $U\subseteq S’$ podríamos escribirla como

$$\frac{\partial\left(\frac{\partial f}{\partial x_k}\right)}{\partial x_j}.$$

Sin embargo, esta notación es engorrosa, y por ello optamos o bien por escribir la expresión como sigue

\[ \frac{\partial}{\partial x_{j}}\left( \frac{\partial f}{\partial x_{k}}\right)\]

o todavía más compacto, como

\[ \frac{\partial ^{2}f}{\partial x_{j}\partial x_{k}}.\]

A esto le llamamos una derivada parcial de segundo orden. Si $j=k$, introducimos la notación

\[ \frac{\partial ^{2}f }{\partial x_{k}^{2}}.\]

Las derivadas parciales de segundo orden vuelven a ser, una vez más, cada una de ellas un campo escalar. Esto permite seguir iterando la idea: podríamos hablar de derivadas parciales de segundo, tercero, cuarto, … , $k$-ésimo, … orden. Daremos una definición un poco más formal en una siguente entrada, pero por ahora trabajemos en entender a las derivadas parciales de segundo orden.

Un ejemplo de derivadas parciales de segundo orden

Ejemplo. Consideremos el campo escalar $f(x,y,z)=x^{2}yz$. Para este campo escalar tenemos que sus derivadas parciales con respecto a $x$, $y$ y $z$ son:

\begin{align*}
\frac{\partial f}{\partial x}(x,y,z)&=2xyz,\\
\frac{\partial f}{\partial y}(x,y,z)&=x^{2}z\\
\frac{\partial f}{\partial z}(x,y,z)&=x^{2}y.
\end{align*}

Cada una de estas expresiones es a su vez un campo escalar. Cada una de ellas es derivable con respecto a $x$ en todo $\mathbb{R}^3$. Al derivarlas con respecto a $x$ obtenemos:

\begin{align*}
\frac{\partial ^{2}f}{\partial x^{2}}(x,y,z)&=2yz,\\
\frac{\partial ^{2}f}{\partial x\partial y}(x,y,z)&=2xz,\\
\frac{\partial ^{2}f}{\partial x\partial z}(x,y,z)&=2xy.
\end{align*}

Por otro lado, las derivadas parciales de primer orden también podríamos haberlas derivado con respecto a $y$. En este caso, hubieramos obtenido.

\begin{align*}
\frac{\partial ^{2}f}{\partial y \partial x}(x,y,z)&=2xz,\\
\frac{\partial ^{2}f}{\partial y ^2}(x,y,z)&=0,\\
\frac{\partial ^{2}f}{\partial y\partial z}(x,y,z)&=x^2.
\end{align*}

También podríamos derivar a las derivadas parciales de primer orden con respecto a $z$ para obtener las tres derivadas de orden dos faltantes. En total tenemos tres derivadas parciales de primer orden y nueve derivadas parciales de segundo orden.

$\triangle$

Igualdad de las derivadas parciales de segundo orden mixtas

En numerosos campos escalares de interés tenemos una propiedad muy peculiar: que los operadores «obtener la derivada parcial con respecto a $x$» y «obtener la derivada parcial con respecto a $y$» conmutan. Es decir, varias veces podemos intercambiar el orden de derivación de las parciales y obtener el mismo resultado. En el ejemplo anterior quizás hayas notado que

\[ \frac{\partial ^{2}f}{\partial y\partial x}=2xz=\frac{\partial ^{2}f}{\partial x\partial y}.\]

Esto no siempre pasa, pero hay criterios de suficiencia sencillos de verificar. Por ejemplo, basta que las parciales mixtas existan y sean continuas para que sean iguales. El siguiente teorema formaliza el resultado.

Teorema. Sea $f:S\subseteq \mathbb{R}^{2}\rightarrow \mathbb{R}$ un campo escalar tal que las derivadas parciales $\frac{\partial f}{\partial x}$, $\frac{\partial f}{\partial y}$, $\frac{\partial^{2} f}{\partial y\partial x}$, $\frac{\partial ^{2}f}{\partial x\partial y}$ existen en un conjunto abierto $U$. Si $(a,b)\in U$ es tal que $\frac{\partial^{2} f}{\partial y\partial x}$, $\frac{\partial ^{2}f}{\partial x\partial y}$ son continuas en $(a,b)$, entonces dichas derivadas mixtas de segundo orden son iguales en $(a,b)$.

Demostración. Sean $h,k\neq 0$ suficientemente chicos para que los puntos en el plano $(a,b)$, $(a,b+k)$, $(a+h,b)$, y $(a+h,b+k)$ estén en $U$.

Definamos la función $\Gamma (x)=f(x,b+k)-f(x,b)$ para $x\in [a,a+h]$ y definamos

\begin{equation} \Delta (h,k)=\Gamma (a+h)-\Gamma (a).\end{equation}

Notemos que $\Gamma$ es una función de $\mathbb{R}$ en $\mathbb{R}$ cuya derivada es $$\Gamma'(x)=\frac{\partial f}{\partial x}(x,b+k)-\frac{\partial f}{\partial x}(x,b).$$ Así, se le puede aplicar el teorema del valor medio con extremos en $a$ y $a+h$ para concluir que existe $\xi _{1}\in [a,a+h]$ que nos permite escribir $\Delta(h,k)$ de la siguiente manera:

\begin{align*}
\Delta(h,k)&=\Gamma (a+h)-\Gamma (a)\\
&= h\Gamma'(\xi _{1})\\
&=h\left[ \frac{\partial f}{\partial x}(\xi _{1},b+k)-\frac{\partial f}{\partial x}(\xi _{1},b) \right]
\end{align*}

Ahora podemos aplicar el teorema del valor medio en la función $y\mapsto \frac{\partial f}{\partial x} (\xi _{1},y)$ con extremos $b$ y $b+k$. Esto nos permite continuar la cadena de igualdades anterior mediante un $\eta _{1}\in [b,b+k]$ que cumple

\begin{equation}\label{eq:primerdelta} \Delta (h,k)=hk\frac{\partial ^{2}f}{\partial y\partial x}(\xi _{1},\eta _{1}).\end{equation}

Como $(\xi _{1},\eta _{1})\in [a,a+h]\times[b,b+k]$, se tiene que $(\xi _{1},\eta _{1})\to (a,b)$ conforme $(h,k)\to \bar{0}$.

Ahora consideremos análogamente a la función $\varLambda (y)=f(a+h,y)-f(a,y)$. Mediante un procedimiento similar al que acabamos de hacer, pero aplicado a $\varLambda$ en vez de a $\Gamma$, se tiene otra forma de expresar a $\Delta(h,k)$:

\begin{equation}\label{eq:segundodelta}\Delta(h,k)=hk\frac{\partial ^{2} f}{\partial x\partial y}(\xi _{2},\eta _{2}),\end{equation} donde $(\xi _{2},\eta _{2})\in [a,a+h]\times[b,b+k]$. Nuevamente, $(\xi _{2},\eta _{2})\to (a,b)$ conforme $(h,k)\to (0,0)$.

Igualando las expresiones en \eqref{eq:primerdelta} y \eqref{eq:segundodelta}, tenemos lo siguiente:

\[ \frac{\partial f}{\partial y\partial x}(\xi _{1},\eta _{1})=\frac{\partial f}{\partial x\partial y}(\xi _{2},\eta _{2}).\]

El resultado se sigue de hacer tender $(h,k)\to (0,0)$, ya que dado que las derivadas parciales les estamos pidiendo que sean continuas, tenemos que:

\begin{align*}
\frac{\partial ^{2} f}{\partial y\partial x}(a,b)&=\lim\limits_{(h,k)\to (0,0)}\frac{\partial ^{2} f}{\partial y\partial x}(\xi _{1},\eta _{1})\\
&=\lim\limits_{(h,k)\to (0,0)}\frac{\partial ^{2}f}{\partial x\partial y}(\xi _{2},\eta _{2})\\
&=\frac{\partial ^{2}f}{\partial x\partial y}(a,b).
\end{align*}

Así concluimos nuestro resultado.

$\square$

Más adelante…

En esta entrada hablamos de las derivadas parciales de segundo orden y vimos que bajo condiciones razonables podemos elegir las variables de derivación en el orden que queramos. Estas ideas son más generales, y a continuación nos llevarán a definir las derivadas parciales de cualquier orden $k$. Después, usaremos estas derivadas parciales para generalizar otro de los teoremas de cálculo unidimensional: el teorema de Taylor.

Tarea moral

  1. Para las siguientes funciones calcula $\frac{\partial ^{2}f}{\partial x^{2}}$:
    • $f(x,y)=x^{2}+y^{2}cos(xy)$
    • $f(x,y)=e^{x}cos(y)$
    • $f(x,y,z)=\textup{log}(x^{2}+2y^{2}-3z^{2})$
  2. En el teorema que afirma que las derivadas parciales mixtas son iguales usamos cuatro veces el teorema del valor medio (¿cuáles 4 son?). Asegúrate de que en verdad lo podamos usar.
  3. Calcula $\frac{\partial ^{2}f}{\partial y^{2}}$, y $\frac{\partial ^{2}f}{\partial x\partial y}$ para las funciones del punto 1. Explica por qué no es necesario calcular de manera separada $\frac{\partial ^{2}f}{\partial y\partial x}$
  4. Investiga de un ejemplo en el que las derivadas parciales $\frac{\partial ^{2}f}{\partial x\partial y}$ y $\frac{\partial ^{2}f}{\partial y\partial x}$ no sean iguales. Realiza las cuentas para verificar que en efecto tienen valores distintos en algún punto.
  5. El teorema que enunciamos está muy limitado. Sólo nos habla de campos escalares de $\mathbb{R}^2$ en $\mathbb{R}$. Sin embargo, debería también funcionar si $f:\mathbb{R}^n\to \mathbb{R}$. Enuncia y demuestra un resultado similar que te permita garantizar que $$\frac{\partial^{2} f}{\partial x_i\partial x_j}=\frac{\partial ^{2}f}{\partial x_j\partial x_i}.$$

Entradas relacionadas

Cálculo Diferencial e Integral III: Teorema del valor medio para campos escalares

Por Alejandro Antonio Estrada Franco

Introducción

Ya hemos definido qué es el gradiente $\nabla f$ de un campo escalar $f$. Hemos visto cómo está relacionado con las derivadas direccionales. Así mismo, mostramos que conocer este gradiente nos permite dar información sobre los máximos y mínimos del campo escalar. En esta entrada mostraremos una propiedad más del gradiente: que nos ayuda a dar una generalización del teorema del valor medio de Cálculo I, pero para campos escalares. Este será un resultado fundamental para demostrar otras propiedades de los campos escalares. Como ejemplo, también damos en esta entrada un criterio suficiente para que un campo escalar sea diferenciable.

Teorema del valor medio para funciones de $\mathbb{R}$ en $\mathbb{R}$

Para facilitar la lectura de este material, recordemos lo que nos dice el teorema del valor medio sencillo, es decir, el de $\mathbb{R}$ en $\mathbb{R}$.

Teorema. Sean $a<b$ reales. Sea $f:[a,b]\to\mathbb{R}$ una función continua en el intervalo $[a,b]$ y diferenciable en el intervalo $(a,b)$. Entonces existe algún punto $c\in (a,b)$ tal que $$f'(c)=\frac{f(b)-f(a)}{b-a}.$$

Una vez que uno interpreta el teorema gráficamente, se vuelve muy intuitivo. Considera la siguiente figura.

Intuición geométrica del teorema del valor medio

El término $$\frac{f(b)-f(a)}{b-a}$$ es la pendiente del segmento que une los puntos $(a,f(a))$ y $(b,f(b))$ El término $f'(c)$ va marcando la pendiente de la recta tangente a $f$ en cada punto $c$. En términos geométricos, lo que nos dice este teorema es que para algún valor de $c$, la pendiente de la recta tangente en $c$ es la pendiente del segmento entre los extremos.

Lo que haremos a continuación es dar una generalización apropiada para funciones de $\mathbb{R}^n$ a $\mathbb{R}$.

Teorema del valor medio para funciones de $\mathbb{R}^n$ en $\mathbb{R}$

Para generalizar el teorema del valor medio a funciones de $\mathbb{R}^n$ a $\mathbb{R}$, necesitaremos cambiar un poco las hipótesis. El segmento $[a,b]$ que usábamos ahora será un segmento (multidimensional) que conecte a dos vectores $\bar{x}$ y $\bar{y}$ en $\mathbb{R}^n$. La diferenciabilidad la pediremos en todo un abierto que contenga al segmento. El enunciado apropiado se encuentra a continuación.

Teorema (del valor medio para campos escalares). Sea $S$ un abierto de $\mathbb{R}^n$. Tomemos $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ un campo escalar diferenciable. Sean $\bar{x}$ y $\bar{y}$ en $S$ tales que el segmento que une a $\bar{x}$ con $\bar{y}$ se queda contenido en $S$. Entonces, existe $c \in (0,1)$ tal que $$\nabla f((1-c )\bar{x}+c \bar{y})\cdot (\bar{y}-\bar{x})=f(\bar{y})-f(\bar{x}).$$

En este caso no podemos «pasar dividiendo $\bar{y}-\bar{x}$» pues no tiene sentido dividir entre vectores. Pero en el caso $n=1$ sí se puede, y justo obtenemos de vuelta el teorema del valor medio de $\mathbb{R}$ en $\mathbb{R}$. Uno podría pensar que entonces esta es una manera alternativa de demostrar el teorema para funciones de $\mathbb{R}$ en $\mathbb{R}$. Sin embargo, como veremos a continuación, la demostración de la versión para campos escalares usa la versión para funciones reales.

Demostración. Consideremos la función $\gamma:[0,1] \to \mathbb{R}^{n}$ dada $\gamma (t)=(1-t)\bar{x}+t\bar{y}$. Notemos que $\gamma$ es diferenciable, con $\gamma’ (t)=\bar{y}-\bar{x}$. Además, por hipótesis $f$ es diferenciable en $S$. Así, $f\circ \gamma:[0,1]\to \mathbb{R}$ también es diferenciable, y por regla de la cadena

\begin{align*}
(f\circ \gamma)'(t)&=\nabla f(\gamma(t))\cdot \gamma'(t)\\
&=\nabla f(\gamma(t))\cdot (\bar{y}-\bar{x}).
\end{align*}

¡Pero $f\circ \gamma$ ya es una función de $\mathbb{R}$ en $\mathbb{R}$! Así, podemos aplicarle el teorema del valor medio real (verifica las hipótesis como tarea moral). Al hacer esto, obtenemos que existe una $c\in (0,1)$ tal que
\begin{align*}
(f\circ \gamma)'(c) &= \frac{(f\circ \gamma)(1)-(f\circ \gamma)(0)}{1-0}\\
&=f(\bar{y})-f(\bar{x}).
\end{align*}

Usando la fórmula que obtuvimos por regla de la cadena para $(f\circ \gamma)’$ y la definición de $\gamma$ obtenemos que

$$ \nabla f((1-c)\bar{x}+c\bar{y})\cdot (\bar{y}-\bar{x})=f(\bar{y})-f(\bar{x}),$$

tal y como buscábamos.

$\square$

En el teorema anterior estamos pidiendo que $f$ sea diferenciable. Sin embargo, basta con que exista la derivada de la composición en el segmento que nos interesa y el resultado también se sigue. Es decir, tenemos la siguiente versión con una hipótesis más débil. La enunciamos pues la usaremos en la siguiente sección.

Teorema (del valor medio para campos escalares, hipótesis debilitada). Sea $S$ un abierto de $\mathbb{R}^n$. Tomemos $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ un campo escalar. Sean $\bar{x}$ y $\bar{y}$ en $S$ tales que el segmento que une a $\bar{x}$ con $\bar{y}$ se queda contenido en $S$ y tales que para toda $c\in[0,1]$ se cumple que la derivada (real) de $f((1-c)\bar{x}+c\bar{y}))$ existe. Entonces, existe $c \in (0,1)$ tal que $$\nabla f((1-c )\bar{x}+c \bar{y})\cdot (\bar{y}-\bar{x})=f(\bar{y})-f(\bar{x}).$$

La demostración es exactamente la misma.

Aplicación del teorema del valor medio

Como primera aplicación del teorema del valor medio para campos escalares mostraremos un criterio de diferenciabilidad muy útil, al que llamaremos el teorema de diferenciabilidad y derivadas parciales.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ un campo escalar. Supongamos que para cierto punto $\bar{a}\in S$ y cierta vecindad $B_r(\bar{a})\subset S$ existen las derivadas parciales $\frac{\partial f}{\partial x_{1}},\dots ,\frac{\partial f}{\partial x_{n}}$ y son continuas en $\bar{a}$. Entonces $f$ es diferenciable en $\bar{a}$.

Demostración. Elijamos un vector $\bar{u}=u_1\hat{e}_1+\dots +u_n\hat{e}_n$ de norma $1$ y tomemos $\bar{v}=\lambda \bar{u}$ con $\lambda$ suficientemente chico como para que $\bar{a}+\bar{v}$ esté en $B_{r}(\bar{a})$. Definamos los siguientes vectores:

\begin{align*}
\bar{v}_0&=\bar{0}\\
\bar{v}_1&=u_1\hat{e}_1\\
\bar{v}_2&=u_1\hat{e}_1+u_2\hat{e}_2\\
&\vdots\\
\bar{v}_n&=u_1\hat{e}_1+u_2\hat{e}_2+\ldots+u_n\hat{e}_n=\bar{u}.
\end{align*}

Con ellos creamos la siguiente suma telescópica para expresar a $f(\bar{a}+\bar{v})-f(\bar{a})$

\begin{align}
f(\bar{a}+\bar{v})-f(\bar{a})&=f(\bar{a}+\lambda \bar{u})-f(\bar{a}) \nonumber\\
&=\sum_{k=1}^{n}[f(\bar{a}+\lambda \bar{v}_{k})-f(\bar{a}+\lambda \bar{v}_{k-1})] \label{eq:telescopica}
\end{align}

Notemos que el $k$-ésimo término de esta suma puede ser escrito como $$f(\bar{a}+\lambda \bar{v}_{k-1}+\lambda u_{k}\hat{e}_{k})-f(\bar{a}+\lambda \bar{v}_{k-1}).$$ Para simplificar, definimos $\bar{b}_{k}=\bar{a}+\lambda \bar{v}_{k-1}$ y reescribiendo el $k$-ésimo término tenemos $$f(\bar{b}_{k}+\lambda u_{k}\hat{e}_{k})-f(\bar{b}_{k}).$$

Aplicando el teorema del valor medio con hipótesis debilidada para campos escalares a los puntos $\bar{b}_{k}$ y $\bar{b}_{k}+\lambda u_{k}\hat{e}_{k}$ (verifica las hipótesis), tenemos que para cada $k$ existe $\xi_k \in (0,1)$ tal que

\begin{align*}
f(\bar{b}_{k}+\lambda u_{k}\hat{e}_{k})-f(\bar{b}_{k})&=\triangledown f((1-\xi_k )\bar{b}_{k}+\xi_k (\bar{b}_{k}+\lambda u_{k}\hat{e}_{k}))\cdot (\lambda u_{k}\hat{e}_{k})\\
&=\lambda u_{k}\frac{\partial f}{\partial x_{k}}(\bar{c}_{k}),
\end{align*}

en donde hemos definido $\bar{c}_k:=(1-\xi_k )\bar{b}_{k}+\xi_k (\bar{b}_{k}+\lambda u_{k}\hat{e}_{k})$, que es un punto en el segmento que une a $\bar{b}_k$ con $\bar{b}_k+\lambda u_k\hat{e}_k$.

Tenemos pues que podemos escribir al $k$-ésimo término como:

$$f(\hat{b}_{k}+\lambda u_{k}\hat{e}_{k})-f(\bar{b}_{k})=\lambda u_{k}\frac{\partial f}{\partial x_{k}}(\bar{c}_{k}).$$

Notemos además que si $\lambda \to 0$, entonces $\bar{b}_{k}\to \bar{a}$, $\bar{c}_{k} \to a$ y $\bar{v}\to \bar{0}$.

Escribimos entonces la ecuación \eqref{eq:telescopica} como:

\begin{equation}
\label{eq:resumen}
f(\bar{a}+\bar{v})-f(\bar{a})=\lambda \sum_{k=1}^{n}u_k\frac{\partial f}{\partial x_{k}}(\bar{c}_{k})
\end{equation}

En unos momentos usaremos esta expresión. Antes de ello, estudiemos otro de los términos involucrados en la diferenciabilidad. Tenemos que:

\begin{align}
\triangledown f(\bar{a})\cdot \bar{v}&=\triangledown f(\bar{a})\cdot \lambda u \nonumber\\
&=\lambda \triangledown f(\bar{a})\cdot u \nonumber\\
&=\lambda \sum_{k=1}^{n}u_{k}\frac{\partial f}{\partial x_{k}}(\bar{a}) \label{eq:ppunto}.
\end{align}

Empecemos entonces a combinar lo visto hasta ahora para entender los términos en la definición de diferenciabilidad. Tenemos juntando \eqref{eq:resumen} y \eqref{eq:ppunto} que

\begin{align*}
f(\bar{a}+\bar{v})-f(\bar{a})-\triangledown f(\bar{a})\cdot v&=\lambda \sum_{k=1}^{n}u_{k}\frac{\partial f}{\partial x_{k}}(\bar{c}_{k})-\lambda \sum_{k=1}^{n}u_{k}\frac{\partial f}{\partial x_{k}}(\bar{a})\\&=\lambda \sum_{k=1}^{n}u_{k}\left[ \frac{\partial f}{\partial x_{k}}(\bar{c}_{k})-\frac{\partial f}{\partial x_{k}}(\bar{a}) \right].
\end{align*}

Como mencionamos, si $\lambda \to 0$ entonces $\bar{v}\to \bar{0}$. Además, $||\bar{v}||=|\lambda|$. Así:

\[ \lim\limits_{\bar{v}\to \bar{0}} \frac{|f(\bar{a}+\bar{v})-f(\bar{a})-\triangledown f(\bar{a})\cdot \bar{v}|}{||\bar{v}||}=\lim\limits_{\lambda \to 0} \left|\sum_{k=1}^{n}\left[ \frac{\partial f}{\partial x_{k}}(\bar{c}_{k})-\frac{\partial f}{\partial x_{k}}(\bar{a}) \right]u_{k}\right|.\]

Veamos qué más sucede cuando $\lambda \to 0$. Ya notamos que $\bar{c}_k\to \bar{a}$, así que usando la continuidad de las derivadas parciales tenemos:

\[ \lim\limits_{\lambda \to 0}\frac{\partial f}{\partial x_{k}}(\bar{c}_{k})=\lim\limits_{\bar{c}_{k}\to \bar{a}}\frac{\partial f}{\partial x_{k}}(\bar{c}_{k})=\frac{\partial f}{\partial x_{k}}(\bar{a}).\]

Aplicando desigualdad del trángulo en la suma, el límite buscado es menor o igual a

\[ \lim\limits_{\lambda \to 0}\sum_{k=1}^{n}\left|\left[ \frac{\partial f}{\partial x_{k}}(\bar{c}_{k})-\frac{\partial f}{\partial x_{k}}(\bar{a}) \right]u_{k}\right|=0.\]

Y aquí cada sumando se va a $0$. La conclusión final es que

\[ \lim\limits_{\bar{v}\to \bar{0}}\frac{|f(\bar{a}+\bar{v})-f(\bar{a})-\triangledown f(\bar{a})\cdot \bar{v}|}{||\bar{v}||}=0,\]

de modo que $f$ es diferenciable en $\bar{a}$.

$\square$

El regreso del teorema anterior no se vale

El teorema de diferenciabilidad nos dice que si las derivadas parciales existen y son continuas, entonces la función es diferenciable. Sin embargo, el regreso de este teorema no se vale, en el sentido de que existen funciones diferenciables cuyas derivadas parciales no son continuas. En otras palabras, si las derivadas parciales no son continuas, no podemos descartar la diferenciablidad de una función.

A continuación esbozamos un ejemplo que deberás completar como tarea moral.

Ejemplo. Consideremos la función

$$f(x,y)=\begin{cases} (x^2+y^2)\sin\left(\frac{1}{\sqrt{x^2+y^2}}\right) &\text{si $(x,y)\neq (0,0)$}\\ 0 & \text{si $(x,y)=(0,0)$}\end{cases}$$

Se puede demostrar que $f$ es diferenciable en $(0,0)$. De manera intuitiva, la función queda entre las funciones $(x,y)\to x^2+y^2$ y $(x,y)\to -x^2-y^2$. Se puede usar un argumento de acotamiento para mostrar que el plano tangente coincide entonces con el de estas funciones en $(0,0)$ que es el plano $z=0$. Verifica los detalles de tarea moral.

Así mismo, se puede ver que las derivadas parciales en $(0,0)$ existen y que de hecho se satisface $$\frac{\partial f}{\partial x} (0,0) = \frac{\partial f}{\partial y} (0,0) = 0.$$

Finalmente, se puede ver que las derivadas parciales no convergen a $0$. Fuera del $(0,0)$, tenemos por reglas de derivación que

\begin{align*} \frac{\partial f}{\partial x}(x,y) &= 2 x \sin \left(\frac{1}{\sqrt{x^2+y^2}}\right)-\frac{x \cos \left(\frac{1}{\sqrt{x^2+y^2}}\right)}{\sqrt{x^2+y^2}}\\ \frac{\partial f}{\partial y}(x,y) &= 2 y \sin \left(\frac{1}{\sqrt{x^2+y^2}}\right)-\frac{y \cos \left(\frac{1}{\sqrt{x^2+y^2}}\right)}{\sqrt{x^2+y^2}}. \end{align*}

Una manear de ver que estas no son contínuas es aproximándonos por un eje. Por ejemplo, puedes verificar que sobre el eje $x$, conforme $x\to 0$, tenemos que la primera parcial oscila entre $-1$ y $1$.

$\triangle$

Más adelante…

Hemos enunciado y demostrado una versión del teorema del valor medio para campos escalaras. Gracias a ella hemos podido mostrar que si un campo escalar tiene derivadas parciales continuas, entonces es diferenciable. Las aplicaciones del teorema del valor medio para campos escalares van más allá. En la siguiente entrada hablaremos de las derivadas parciales de orden superior. El teorema del valor medio para campos escalares nos permitirá demostrar que bajo ciertas condiciones, en cierto sentido estas derivadas parciales «conmutan».

Tarea moral

  1. ¿Qué dice el teorema del valor medio para campos escalares para la función $f(x,y)=\sin(x)\cos(y)$ tomando como extremos los puntos $\left(0,\frac{\pi}{2}\right)$ y $\left(\frac{\pi}{2},0\right)$? Verifica si puedes aplicar las hipótesis.
  2. En la demostración del teorema del valor medio que dimos, verifica que la función $f\circ \gamma$ dada en efecto satisface las hipótesis del teorema del valor medio real.
  3. Supongamos que $f:\mathbb{R}^n\to \mathbb{R}$ es diferenciable en un abierto $S$ que contiene al segmento cuyos extremos son ciertos vectores $\bar{x}$ y $\bar{y}$ de $\mathbb{R}^n$. Supongamos que $f(\bar{x})=f(\bar{y})$. ¿Será cierto siempre que $\nabla f$ se anula en algún vector del segmento que une $x$ con $y$? Ten cuidado, pues hay un producto escalar involucrado. En caso de que no siempre sea cierto, ¿Qué es lo que sí puedes garantizar?
  4. En la demostración del teorema de diferenciabilidad, verifica que se pueden usar las hipótesis del teorema del valor medio para campos escalares con hipótesis debilitada. Necesitarás ver que la derivada real que tiene que existir es justo una parcial de las que suponemos que existen, completa los detalles. Luego, verifica que en efecto la conclusión que obtuvimos es justo la que se obtiene. Observa además que no podemos usar el teorema del valor medio para campos diferenciables con la hipótesis usual pues necesitaríamos saber que $f$ es diferenciable, lo cual es justo lo que queremos mostrar.
  5. Completa el contraejemplo al regreso del teorema de diferenciabilidad. Entre otras cosas, tienes que hacer lo siguiente:
    • Verificar que en efecto la función es diferenciable en $(0,0)$. Puedes proceder por definición o acotando como se sugiere.
    • Revisar que las parciales en $(0,0)$ en efecto existen y coinciden con lo que sabemos a partir de que el plano tangente en el origen es $(0,0)$.
    • Obtener paso a paso la fórmula que dimos para las parciales, usando lo que sabes de regla de la cadena, derivadas en $\mathbb{R}$, etc.
    • Verificar que ninguna de las dos derivadas parciales es continua, completando el argumento de que al acercarnos por los ejes tenemos oscilaciones.

Entradas relacionadas