Teoría de los Conjuntos I: Buenos órdenes para cualquier conjunto

Por Gabriela Hernández Aguilar

Introducción

En esta entrada usaremos lo que aprendimos en la entrada anterior sobre el lema de Zorn para demostrar que cualquier conjunto no vacío puede ser bien ordenado.

Ordenando buenos órdenes de subconjuntos

En esta entrada demostraremos que cualquier conjunto no vacío $X$ tiene un buen orden. Si $a\in X$, entonces $(a,a)$ es un buen orden para $\{a\}\subseteq X$, así que podemos darle un buen orden a un elemento de $X$. La intuición de nuestra prueba es que podemos ir «agrandando» un buen orden para «pocos elementos» de $X$ hasta llegar a ordenar todo $X$. Sin embargo, no podemos hacer esto paso a paso. Tendremos que hacerlo de golpe usando el lema de Zorn. Para ello, daremos una noción de cuándo «un buen orden ordena más elementos de $X$ que otro y lo extiende». Nuestro resultado se obtendrá aplicando el lema de Zorn a esta noción. Comencemos con formalizarla.

Lema. Sea $X$ un conjunto y $\mathcal{B}$ la familia de todos los pares ordenados $(A,R)$ donde $A$ es un subconjunto de $X$ y $R$ es un buen orden para $A$. Definimos en $\mathcal{B}$ la relación $\leq$ como sigue: dados $(A,R),(B,R’)\in\mathcal{B}$ diremos que $(A,R)\leq(B,R’)$ si y sólo si $A\subseteq B$, $R\subseteq R’$ y para todo $x\in A$ y $y\in B\setminus A$ se cumple que $(x,y)\in R’$. Entonces, $\leq$ es una relación de orden parcial en $\mathcal{B}$.

Demostración.

Verifiquemos primero la reflexividad. Sea $(A,R)\in\mathcal{B}$. Luego, $A\subseteq A$, $R\subseteq R$ y, por vacuidad, para todo $x\in A$ y $y\in A\setminus A$ se tiene que $(x,y)\in R$, lo que muestra que $(A,R)\leq(A,R)$. Por tanto, $\leq$ es una relación reflexiva.

Verifiquemos ahora la antisimetría. Si $(A,R)\leq (B,R’)$ y $(B,R’)\leq(A,R)$, entonces, como consecuencia de la definición de $\leq$ tenemos que $A\subseteq B$, $R\subseteq R’$ y para todo $x\in A$ y $y\in B\setminus A$ se tiene que $(x,y)\in R’$; pero también, $B\subseteq A$, $R’\subseteq R$ y para todo $x\in B$ y $y\in A\setminus B$ se tiene que $(x,y)\in R$. En particular tenemos que $A\subseteq B$, $B\subseteq A$, $R\subseteq R’$ y $R’\subseteq R$, lo cual implica que $A=B$ y $R=R’$. Por tanto, $(A,R)=(B,R’)$, lo que muestra que $\leq$ es antisimétrica.

Por último mostraremos que la relación $\leq$ es transitiva. Sean $(A,R_0),(B,R_1),(C,R_2)\in\mathcal{B}$ elementos tales que $(A,R_0)\leq(B,R_1)$ y $(B,R_1)\leq(C,R_2)$. Luego, por definición de la relación $\leq$ tenemos que, $A\subseteq B$, $R_0\subseteq R_1$ y para todo $x\in A$ y $y\in B\setminus A$ se cumple que $(x,y)\in R_1$; asimismo, $B\subseteq C$, $R_1\subseteq R_2$ y para todo $x\in B$ y $y\in C\setminus B$ se cumple que $(x,y)\in R_2$. Así, como $A\subseteq B$ y $B\subseteq C$, entonces $A\subseteq C$ y, también, como $R_0\subseteq R_1$ y $R_1\subseteq R_2$, entonces $R_0\subseteq R_2$. Ahora, sean $x\in A$ y $y\in C\setminus A$ cualesquiera elementos. Si $y\in B$, entonces $x\in A$ y $y\in B\setminus A$, por lo que $(x,y)\in R_1$ y, por ende, $(x,y)\in R_2$. Si $y\notin B$, entonces $y\in C\setminus B$ y dado que $x\in A\subseteq B$, entonces $(x,y)\in R_2$. En cualquier caso $(x,y)\in R_2$, lo que demuestra que $(A,R_1)\leq(C,R_2)$.

Por lo tanto $\leq$ es una relación de orden en $\mathcal{B}$.

$\square$

Ya tenemos el conjunto parcialmente ordenado $(\mathcal{B},\leq)$ al que queremos aplicar el lema de Zorn. Pero tenemos que verificar una hipótesis importante: que cada cadena tiene cota superior. Esto lo hacemos en el siguiente lema.

Lema. Sea $X$ un conjunto y $\mathcal{B}$ y $\leq$ definidos como en el lema anterior. Entonces, en $(\mathcal{B}, \leq)$ toda cadena tiene una cota superior.

Demostración.

Sea $\mathcal{C}$ una cadena en $\mathcal{B}$. Definamos $f:\mathcal{C}\to\mathcal{P}(X)$ como sigue: si $(A,R)\in\mathcal{C}$, con $A\subseteq X$ y $R$ un buen orden en $A$, entonces $f((A,R))=A$. Ahora, notemos que si $A\subseteq X$ y $R$ es un buen orden en $A$, entonces $R\subseteq A\times A\subseteq X\times X$, es decir, $R$ es también una relación en $X$. Teniendo en cuenta esto definamos $g:\mathcal{C}\to\mathcal{P}(X\times X)$ como sigue: si $(A,R)\in\mathcal{C}$, con $A\subseteq X$ y $R$ un buen orden en $A$, entonces $g((A,R))=R$. Sean $Y_1:=f[\mathcal{C}]$ y $Y_2:=g[\mathcal{C}]$ y definamos $\mathcal{A}=\bigcup Y_1$ y $\mathcal{R}=\bigcup Y_2$.

Lo que haremos será probar que $\mathcal{A}$ es un subconjunto de $X$ y que $\mathcal{R}$ es un buen orden para $\mathcal{A}$, con lo cual tendríamos que $(\mathcal{A},\mathcal{R})\in\mathcal{B}$.

Primero, como $f((A,R))=A\subseteq X$ para cualquier $(A,R)\in\mathcal{C}$, entonces $Y_1=f[\mathcal{C}]$ es una familia de subconjuntos de $X$ y, por tanto, $\mathcal{A}=\bigcup Y_1$ es un subconjunto de $X$. Ahora, veamos que $\mathcal{R}$ es un buen orden en $\mathcal{A}$.

Lo primero que tenemos que mostrar es que $\mathcal{R}$ es efectivamente una relación en $\mathcal{A}$, es decir, que $\mathcal{R}$ es un subconjunto de $\mathcal{A}\times\mathcal{A}$. Sea $u\in\mathcal{R}$ un elemento arbitrario. Luego, $u\in g((A,R))=R$ para algún $(A,R)\in\mathcal{C}$. Dado que $u\in R$ y $R\subseteq A\times A$, entonces $u\in A\times A$. Además, como $(A,R)\in\mathcal{C}$, entonces $A=f((A,R))\in f[\mathcal{C}]$ y, en consecuencia, $A\subseteq\bigcup f[\mathcal{C}]=\mathcal{A}$, por lo que $A\times A\subseteq\mathcal{A}\times\mathcal{A}$. De este modo, como $u\in A\times A$ se sigue que $u\in\mathcal{A}\times\mathcal{A}$. Esto demuestra que $\mathcal{R}\subseteq\mathcal{A}\times\mathcal{A}$, es decir, $\mathcal{R}$ es una relación en $\mathcal{A}$.

Ahora veamos que $\mathcal{R}$ es una relación de orden en $\mathcal{A}$.

Sea $x\in\mathcal{A}$. Luego, $x\in f((A,R))=A$ para algún $(A,R)\in\mathcal{C}$. Como $R$ es un buen orden en $A$, entonces $(x,x)\in R$ y, dado que $R\subseteq\mathcal{R}$, se sigue que $(x,x)\in\mathcal{R}$. Esto prueba que $\mathcal{R}$ es una relación reflexiva.

Ahora, sean $x,y\in\mathcal{A}$ elementos tales que $(x,y)\in\mathcal{R}$ y $(y,x)\in\mathcal{R}$. Luego, $(x,y)\in g((A,R))=R$ y $(y,x)=g((B,R’))=R’$ para algunos $(A,R),(B,R’)\in\mathcal{C}$. Dado que $\mathcal{C}$ es una cadena, entonces $(A,R)\leq(B,R’)$ o $(B,R’)\leq(A,R)$, lo cual implica que $R\subseteq R’$ o $R’\subseteq R$. De modo que $(x,y),(y,x)\in R$ o $(x,y),(y,x)\in R’$. En cualquier caso podemos concluir que $x=y$ ya que tanto $R$ como $R’$ son relaciones de orden. Esto prueba que $\mathcal{R}$ es una relación antisimétrica.

Supongamos que $x,y,z\in\mathcal{A}$ son cualesquiera elementos tales que $(x,y),(y,z)\in\mathcal{R}$. Luego, $(x,y)\in g((A,R))=R$ y $(y,z)\in g((B,R’))=R’$ para algunos $(A,R),(B,R’)\in\mathcal{C}$. Ahora, como $\mathcal{C}$ es una cadena, entonces $(A,R)\leq(B,R’)$ o $(B,R’)\leq(A,R)$, por lo que $R\subseteq R’$ o $R’\subseteq R$. Así, $(x,y),(y,z)\in R$ o $(x,y),(y,z)\in R’$ y, por tanto, $(x,z)\in R$ o $(x,z)\in R’$ pues tanto $R$ como $R’$ son relaciones de orden. En cualquier caso $(x,z)\in\mathcal{R}$, ya que $R,R’\subseteq\mathcal{R}$. Esto prueba que $\mathcal{R}$ es una relación transitiva.

Por lo tanto, $\mathcal{R}$ es una relación de orden en $\mathcal{A}$.

Resta probar que $\mathcal{R}$ es un buen orden en $\mathcal{A}$. Sea pues $D\subseteq\mathcal{A}$ un conjunto no vacío. Luego, como $D\subseteq\mathcal{A}$ y $D\not=\emptyset$, entonces $D\cap f((A,R))=D\cap A\not=\emptyset$ para algún $(A,R)\in\mathcal{C}$. Luego, como $D\cap A\subseteq A$ no vacío, entonces existe el mínimo de $D\cap A$ con respecto a la relación $R$, ya que $R$ es un buen orden en $A$, es decir, existe $a_0\in D\cap A$ tal que $(a_0,x)\in R$ para todo $x\in D\cap A$. Veamos que $a_0$ es el mínimo de $D$ con respecto a la relación $\mathcal{R}$. Sea $x\in D$ cualquier elemento. Si $x\in A$, entonces $(a_0,x)\in R\subseteq\mathcal{R}$. Si ahora $x\notin A$, entonces, como $D\subseteq\mathcal{A}$, existe $(B,R’)\in\mathcal{C}\setminus\set{(A,R)}$ tal que $x\in f((B,R’))=B$. Luego, como $\mathcal{C}$ es una cadena se tiene que $(A,R)\leq(B,R’)$ o $(B,R’)\leq(A,R)$, sin embargo, no puede ocurrir que $(B,R’)\leq(A,R)$ pues de ser así tendríamos que $B\subseteq A$ y, por ende, $x\in A$ lo cual asumimos no ocurre. Así pues, necesariamente, $(A,R)\leq(B,R’)$ y, por consiguiente, $A\subseteq B$, $R\subseteq R’$ y para cualesquiera $a\in A$ y $b\in B\setminus A$ se tiene $(a,b)\in R’$. Debido a que $a_0\in A$ y $x\in B\setminus A$, entonces $(a_0,x)\in R’\subseteq\mathcal{R}$. Por lo tanto, para todo $x\in D$, $(a_0,x)\in\mathcal{R}$, lo que demuestra que $a_0$ es el mínimo de $D$ en la relación $\mathcal{R}$. Consecuentemente, $\mathcal{R}$ es un buen orden para $\mathcal{A}$.

Los argumentos anteriores nos permiten concluir que $(\mathcal{A},\mathcal{R})\in\mathcal{B}$, pues $\mathcal{A}\subseteq X$ y $\mathcal{R}$ es un buen orden para $\mathcal{A}$. Ahora, $(\mathcal{A},\mathcal{R})$ es una cota superior para $\mathcal{C}$. En efecto, si $(A,R)\in\mathcal{C}$ es cualquier elemento, entonces $A=f((A,R))\subseteq\bigcup f[\mathcal{C}]=\mathcal{A}$ y $R=g((A,R))\subseteq\bigcup g[\mathcal{C}]=\mathcal{R}$. Por último, si $x\in A$ y $y\in\mathcal{A}\setminus A$, entonces $y\in f((B,R’))=B$ para algún $(B,R’)\in\mathcal{C}$, pero dado que $\mathcal{C}$ es una cadena, entonces $(A,R)\leq(B,R’)$ o $(B,R’)\leq(A,R)$. Sin embargo, no puede ocurrir que $(B,R’)\leq(A,R)$ pues en ese caso tendríamos, en particular, que $B\subseteq A$ y por ende $y\in A$, lo que contradice la elección de $y$. Así que necesariamente, $(A,R)\leq(B,R’)$. Por consiguiente, $A\subseteq B$, $R\subseteq R’$ y para cualquier $a\in A$ y $b\in B\setminus A$, se tiene que $(a,b)\in R’$. En consecuencia, $(x,y)\in R’$ y como $R’\subseteq\mathcal{R}$, entonces $(x,y)\in\mathcal{R}$.

Por lo tanto, $A\subseteq\mathcal{A}$, $R\subseteq\mathcal{R}$ y para cualesquiera $x\in A$ y $y\in\mathcal{A}\setminus A$, $(x,y)\in\mathcal{R}$, es decir, $(A,R)\leq(\mathcal{A},\mathcal{R})$. Esto demuestra que $(\mathcal{A},\mathcal{R})$ es una cota superior para $\mathcal{C}$.

$\square$

El teorema del buen orden

Ya con los ingredientes anteriores, podemos enfocarnos en el resultado principal de esta entrada.

Teorema. (teorema del buen orden). Todo conjunto no vacío puede ser bien ordenado.

Demostración.

Sea $X$ un conjunto no vacío. Sea $\mathcal{B}$ el conjunto de todos los pares ordenados $(A,R)$ tales que $A\subseteq X$ y $R$ es un buen orden para $A$. Por uno de los lemas anteriores tenemos que $(\mathcal{B},\leq)$ es un conjunto ordenado, donde $\leq$ es la relación definida como $(A,R)\leq(B,R’)$ si y sólo si $A\subseteq B$, $R\subseteq R’$ y para todo $x\in A$ y $y\in B\setminus A$, $(x,y)\in R’$.

Antes de continuar veamos que $\mathcal{B}$ es no vacío. Como $X\not=\emptyset$, entonces existe $a\in X$. Luego, $R=\set{(a,a)}$ es un buen orden para $\set{a}$. Por tanto, $(\set{a},\set{(a,a)})\in\mathcal{B}$ y así $\mathcal{B}$ es no vacío.

Ahora, por el último lema probado, toda cadena en $\mathcal{B}$ está acotada superiormente y, como $\mathcal{B}$ es no vacío, podemos aplicar el lema de Kuratowski-Zorn y concluir que $\mathcal{B}$ tiene un elemento maximal. Sea $(A,R)$ elemento maximal de $\mathcal{B}$. Lo que probaremos es que $A=X$.

Si $X\not=A$, entonces existe $x\in X\setminus A$. Luego, definiendo $B=A\cup\set{x}$ y $R’=R\cup\set{(a,x):a\in A}\cup\set{(x,x)}$ tenemos que $R’$ es un buen orden para $B$. En efecto, primero probaremos que $R’$ es una relación de orden en $B$.

Si $u\in R’$, entonces $u\in R$ o $u\in\set{(a,x):a\in A}$ o $u=(x,x)$. Luego, como $A\subseteq B$ y $R\subseteq A\times A$, entonces $u\in A\times A\subseteq B\times B$ o $u=(a,x)\in A\times B\subseteq B\times B$ para algún $a\in A$ o $u=(x,x)\in B\times B$. En cualquier caso $u\in B\times B$ y, por tanto, $R’\subseteq B\times B$, lo que muestra que $R’$ es una relación en $B$.

Ahora, si $b\in B$, entonces $b\in A$ o $b=x$. Si $b\in A$, entonces $(b,b)\in R$ por ser $R$ una relación de orden en $A$ y, por tanto, $(b,b)\in R’$ pues $R\subseteq R’$. Si $b=x$, entonces $(b,b)\in R’$, por definición de $R’$. En cualquier caso se cumple que $(b,b)\in R’$, lo que muestra que $R’$ es una relación reflexiva.

Por otro lado, si $c,b\in B$ son tales que $(c,b)\in R’$ y $(b,c)\in R’$, entonces tenemos algunos casos:

Caso 1. $(c,b)\in R$ y $(b,c)\in R$. Luego, por ser $R$ una relación de orden se cumple que $R$ es antisimétrica, por lo que $c=b$.

Caso 2. $(c,b)\in R$ y $(b,c)\in\set{(a,x):a\in A}$. Luego, $(b,c)=(a,x)$ para algún $a\in A$ y, como $(c,b)\in R\subseteq A\times A$, entonces $(c,b)=(a_1,a_2)$ para algunos $a_1,a_2\in A$. De lo anterior se sigue que $c=a_1\in A$ pero también que $c=x\notin A$ y esto es una contradicción. Así el caso 2 no puede ocurrir.

Caso 3. $(c,b)\in R$ y $(b,c)\in\set{(x,x)}$. Este caso tampoco puede darse por las razones dadas en el caso 2.

Caso 4. $(c,b)\in\set{(a,x):a\in A}$ y $(b,c)\in\set{(a,x):a\in A}$. Luego, $(c,b)=(a_1,x)$ y $(b,c)=(a_2,x)$ para algunos $a_1,a_2\in A$. De esto se sigue que $c=a_1\in A$ y $c=x\notin A$ lo cual es una contradicción. Por lo tanto, el caso 5 tampoco pede darse.

Caso 5. $(c,b)\in\set{(a,x):a\in A}$ y $(b,c)\in\set{(x,x)}$. Luego, $(c,b)=(a_1,x)$ para algún $a_1\in A$ y $(c,b)=(x,x)$, por lo que $c=a_1\in A$ y $c=x\notin A$ lo cual es una contradicción. Por tanto, el caso 5 tampoco puede darse.

Caso 6. $(c,b)\in\set{(x,x)}$ y $(b,c)\in\set{(x,x)}$. En este caso se tiene que $b=x=c$.

Los 6 casos anteriores son las únicas posibilidades y, por tanto, concluimos que $b=c$. Esto muestra que $R’$ es una relación antisimétrica.

Ahora, sean $b,c,d\in B$ tales que $(b,c)\in R’$ y $(c,d)\in R’$. Luego, tenemos los siguientes casos:

Caso 1. $(b,c),(c,d)\in R$. En este caso se sigue que $(b,d)\in R\subseteq R’$ pues $R$ es transitiva.

Caso 2. $(b,c)\in R$ y $(c,d)\in\set{(a,x):a\in A}$. Luego, como $(b,c)\in R\subseteq A\times A$, entonces $b\in A$ y, por tanto, $(b,x)\in R’$. Ahora, como $(c,d)\in\set{(a,x):a\in A}$, entonces $d=x$ y, por tanto, $(b,d)\in R’$.

Caso 3. $(b,c)\in R$ y $(c,d)\in\set{(x,x)}$. Así como en el caso 2 se sigue que $(b,d)\in R’$.

Caso 4. $(b,c),(c,d)\in\set{(a,x):a\in A}$. En este caso se sigue que $c=d=x$ y, por tanto, $(b,c)=(b,d)\in R’$.

Caso 5. $(b,c)\in\set{(a,x):a\in A}$ y $(c,d)\in\set{(x,x)}$. Así como en el caso 3 se sigue que $c=d=x$ y, por tanto, que $(b,d)\in R’$.

Caso 6. $(b,c),(c,d)\in\set{(x,x)}$. Se sigue inmediatamente que $b=c=d=x$ y, por tanto, $(b,d)\in R’$.

Estos son los únicos casos posibles, pues no pueden ocurrir los siguientes casos:

Caso i. $(c,d)\in R$ y $(b,c)\in\set{(a,x):a\in A}$. En este caso se tendría que $c=x$ y que $c\in A$, lo cual no ocurre por la elección de $x$.

Caso ii. $(c,d)\in R$ y $(b,c)\in\set{(x,x)}$. Lo mismo que en el caso i.

Caso iii. $(c,d)\in\set{(a,x):a\in A}$ y $(b,c)\in\set{(x,x)}$. Lo mismo que en los casos i y ii.

En los únicos casos posibles se concluye que $(b,d)\in R’$, lo que muestra que $R’$ es una relación transitiva.

Por lo tanto $R’$ es una relación de orden en $B$. Ahora, sea $D\subseteq B$ no vacío. Si $D\cap A\not=\emptyset$, entonces $D\cap A$ tiene un elemento mínimo en $A$ respecto a la relación de orden $R$, es decir, existe $a_0\in D\cap A$ tal que $(a_0,a)\in R$ para todo $a\in D\cap A$. Luego, si $d\in D$ es cualquier elemento, entonces $d\in A$ o $d=x$. Si $d\in A$, entonces $(a_0,d)\in R\subseteq R’$ y, si $d=x$, entonces $(a_0,d)\in R’$ por definición de $R’$. Lo que demuestra que $a_0$ es el mínimo de $D$ con respecto a la relación de orden $R’$. Si ahora $D\cap A=\emptyset$, entonces, necesariamente, $D=\set{x}$ y, ciertamente, $D$ tiene mínimo, el cual es $x$. Por lo tanto, cualquier subconjunto no vacío de $B$ tiene elemento mínimo con respecto a la relación $R’$. Lo que muestra que $R’$ es un buen orden para $B$.

Luego, $(B,R’)\in\mathcal{B}$. Dado que $A\subseteq B$, $R\subseteq R’$ y para cualquier $a\in A$ y $b\in B\setminus A=\set{x}$ se tiene que $(a,b)\in R’$, se sigue que $(A,R)\leq(B,R’)$ y, sin embargo, $(A,R)\not=(B,R’)$, lo cual contradice la maximalidad de $(A,R)$ en $\mathcal{B}$.

Concluimos entonces que $A=X$ y, por tanto, $R$ es un buen orden para $X$. Por lo tanto, $X$ puede ser bien ordenado.

$\square$

Para culminar esta entrada, mostraremos que el teorema del buen orden implica el axioma de elección. La idea intuitiva es sencilla. Para un conjunto $X$, ¿cuál elemento elegimos de cada subconjunto no vacío de $X$? Pues damos un buen orden a $X$ y para cada subconjunto no vacío elegimos el mínimo.

Teorema. El teorema del buen orden implica el axioma de elección.

Demostración.

Sea $X$ un conjunto no vacío. Luego, por el teorema del buen orden, existe una relación $R$ en $X$ que es un buen orden en $X$. Definamos $e:\mathcal{P}(X)\setminus\set{\emptyset}\to X$ por medio de $e(B)=\min_R(B)$, donde $\min_R(B)$ denota al elemento mínimo del subconjunto no vacío $B$ de $A$ con respecto a la relación $R$. Dado que, por definición, el mínimo de un conjunto pertenece a dicho conjunto, concluimos que $e(B)\in B$ para todo $B\in\mathcal{P}(X)\setminus\set{\emptyset}$. Esto demuestra que $X$ tiene una función de elección.

$\square$

Resumen de últimas equivalencias

Podemos resumir la serie de resultados probados en esta entrada y la anterior mediante el siguiente teorema.

Teorema. Son equivalentes los siguientes resultados

  1. El axioma de elección.
  2. El lema de Tukey-Teichmüller.
  3. Principio maximal de Hausdorff.
  4. El lema de Kuratowski-Zorn.
  5. El teorema del buen orden.

Con esto damos por termnado esl estudio de algunas de las equivalencias más importantes del axioma de elección.

Tarea moral

  1. Sea $(X,\leq)$ un conjunto parcialmente ordenado en el que cualquier cadena tiene una cota superior. Muestra que para cada $a\in X$ existe un elemento $\leq-$maximal $x\in X$ tal que $a\leq x$.
  2. Sea $(L,\leq)$ un conjunto linealmente ordenado. Prueba que existe un conjunto $W\subseteq L$ tal que $\leq$ es un buen orden para $W$ y tal que para cada $x\in L$ existe $y\in W$ tal que $x\leq y$.
  3. Sea $X$ cualquier conjunto infinito. Prueba que $X$ puede ser bien ordenado de tal forma que $X$ no tenga máximo. Prueba también que $X$ puede ser bien ordenado de tal forma que tenga un máximo.

Más adelante…

En la siguiente y última entrada veremos una aplicación del axioma de elección relevante en álgebra lineal.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Cálculo Diferencial e Integral III: Teorema de la función implícita y demostración

Por Alejandro Antonio Estrada Franco

Introducción

En esta parte del curso estamos abordando los resultados principales de campos vectoriales y su diferenciabilidad. Hemos hablado de cómo la derivada de una composición se calcula con regla de la cadena. También, enunciamos el teorema de la función inversa, lo demostramos, y vimos un ejemplo de cómo se usa. Ahora pasaremos a otro de los resultados fundamentales en el tema: el teorema de la función implícita. Vamos a motivarlo a partir del problema de resolver sistemas de ecuaciones no lineales. Luego, lo enunciaremos formalmente y lo demostraremos. La discusión y los ejemplos los dejaremos para la siguiente entrada.

Una motivación: resolver sistemas de ecuaciones no lineales

Con lo que repasamos sobre sistemas de ecuaciones lineales, y con lo que se ve en un curso de Álgebra Lineal I, se puede entender completamente cómo resolver sistemas de eccuaciones lineales. Recordemos un poco de esto. Tomemos el siguiente sistema de ecuaciones lineales en las variables $x_1,\ldots,x_n$:

\begin{align*}
\left\{ \begin{matrix}
a_{11}x_1+a_{12}x_2+\ldots+a_{1n}x_n = b_1\\
a_{21}x_1+a_{22}x_2+\ldots+a_{2n}x_n = b_2\\
\vdots\\
a_{m1}x_1+a_{m2}x_2+\ldots+a_{mn}x_n = b_m.\\
\end{matrix} \right.
\end{align*}

Para resolverlo, se podría utilizar el proceso de reducción gaussiana. Tras hacer esto, podíamos clasificar a las variables en libres (que podían valer lo que sea) y pivote (que dependían afinmente de las libres). Esto daba todas las soluciones. Si, por decir algo, las variables pivote son $x_1,x_2,\ldots,x_m$ y las libre son $x_{m+1},\ldots,x_n$, entonces podemos reescribir lo anterior de la siguiente manera: «podemos despejar a las primeras en función de las segundas», algo así como

\begin{align*}
x_1 &= T_1(x_{m+1},\ldots,x_n)\\
x_2 &= T_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=T_m(x_{m+1},\ldots,x_n).
\end{align*}

Elegimos a $x_{m+1},\ldots,x_n$ como queramos. De ahí $x_1,\ldots,x_m$ quedan definidos afinmente con las $T_1,\ldots,T_m$. Y esto da todas las soluciones. Pero, ¿qué sucedería si tenemos un sistema de ecuaciones mucho más general?

Para plantear esto, imaginemos que ahora tenemos cualesquiera funciones $f_1,\ldots,f_m:\mathbb{R}^n\to \mathbb{R}$ y que queremos encontrar todas las soluciones $x_1,\ldots,x_n$ al siguiente sistema de ecuaciones:

\begin{equation}
\label{eq:sistemadificil}
\left\{ \begin{matrix}
f_{1}(x_{1},\dots ,x_{n})=0 \\
\vdots \\
f_{m}(x_{1},\dots ,x_{n})=0.
\end{matrix}\right.
\end{equation}

Esto es tan general como pudiéramos esperar. A la izquierda hay ceros, pero es porque si hubiera otras cosas, podríamos pasarlas a la izquierda para dejar ceros a la derecha.

Este sistema \eqref{eq:sistemadificil} parece imposible de resolver: no tenemos idea de quiénes son las funciones $f_1,\ldots, f_n$, no hay reducción gaussiana, no hay variables libres, etc. Pero imaginemos que el campo vectorial $(f_1,\ldots,f_m)$ es de clase $C^1$ alrededor de algún punto $\bar{v}_0=(x_{1}^{0},\dots,x_{n}^{0})$ en donde queremos despejar. Esto nos diría que cerca de $\bar{v}_0$ cada expresión $f_i(\bar{v})$ con $\bar{v}=(x_{1},\dots,x_{n})$ se parece muchísimo a su mejor aproximación lineal:

\[f_i(\bar{v}_0)+\triangledown f_i(\bar{v}_0)\bullet (\bar{v}-\bar{v}_0)\]

donde, tenemos:
\begin{align*}
f_i(\bar{v}_0)+\triangledown f_i(\bar{v}_0)\bullet (\bar{v}-\bar{v}_0)
&=f_i(\bar{v}_0)+\left(\frac{\partial f_i}{\partial x_1}(\bar{v}_0),\dots ,\frac{\partial f_i}{\partial x_n}(\bar{v}_0)\right)\bullet\left(x_1 -x_{1}^{0},\dots , x_n -x_{n}^{0}\right)\\ &=f_i(\bar{v}_0)+\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)(x_j -x_{j}^{0})\\ &=f_i(\bar{v}_0)+\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_j -\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_{j}^{0}\\ &=\triangledown f_i(\bar{v}_0)\bullet (\bar{v})+f_i(\bar{v}_0) -\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}} (\bar{v}_0)x_{j}^{0}\\ &=\triangledown f_i(\bar{v}_0)\bullet (\bar{v}) + \bar{b}_i,
\end{align*}

donde $\bar{b}_i=f_i(\bar{v}_0)-\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_{j}^0$. Pero entonces el sistema es prácticamente el mismo sistema que

\begin{equation}\label{eq:sistemafacil}\left \{\begin{matrix}\frac{\partial f_{1}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{1}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{1}\hspace{0.1cm}=\hspace{0.1cm}0 \\
\frac{\partial f_{2}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{2}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{2}\hspace{0.1cm}=\hspace{0.1cm}0 \\ \vdots & \vdots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{m}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{m}\hspace{0.1cm}=\hspace{0.1cm}0 \end{matrix}\right.\end{equation}

Esto se ve un poco complicado, pero cada $\frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_{0})x_{j}$ es simplemente un número real. ¡Cerquita de $\bar{v}_0$ el sistema de ecuaciones \eqref{eq:sistemadificil} es prácticamente un sistema lineal! Sería entonces de esperarse que las soluciones el sistema \eqref{eq:sistemadificil} original sean muy cercanas a las del sistema lineal \eqref{eq:sistemafacil} que sale y de nuevo recuperamos los trucos usuales: reducción gaussiana, variables libres, variables pivote, etc.

Pensando en que en el sistema \eqref{eq:sistemafacil} las variables pivote son $x_1,\ldots, x_m$ y las libres son $x_{m+1},\ldots,x_n$, entonces podemos encontrar transformaciones afines $T_1,\ldots,T_m:\mathbb{R}^n\to \mathbb{R}$ tales que las soluiones de \eqref{eq:sistemafacil} consisten en elegir $x_{m+1},\ldots,x_n$ arbitrariamente, y tomar

\begin{align*}
x_1 &= T_1(x_{m+1},\ldots,x_n)\\
x_2 &= T_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=T_m(x_{m+1},\ldots,x_n).
\end{align*}

Muy probablemente $(x_1,\ldots,x_n)$ no será una solución de \eqref{eq:sistemadificil}, pues son sistemas diferentes entre sí. Pero suena a que son tan tan cercanos, que con tantita maniobra podremos encontrar funciones $S_1,\ldots, S_m: \mathbb{R}^n\to \mathbb{R}$ tales que cualquier solución a \eqref{eq:sistemadificil} similarmente está dada por elegir $x_{m+1},\ldots, x_n$ arbitrariamente y tomar

\begin{align*}
x_1 &= S_1(x_{m+1},\ldots,x_n)\\
x_2 &= S_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=S_m(x_{m+1},\ldots,x_n).
\end{align*}

Gracias a que pudimos poner a todos los $x_1,\ldots x_m$ en función de los $x_{m+1},\ldots,x_n$, hemos logrado encontrar todas las soluciones a \eqref{eq:sistemadificil} cerca de $\bar{v}_0$. El teorema de la función inversa nos ayuda a volver precisas muchas de las cosas discutidas en esta sección.

Enunciado del teorema de la función implícita

Pensemos que tenemos algunas restricciones dadas por ecuaciones como las del sistema \eqref{eq:sistemadificil}. Lo que el teorema de la función implícita nos dirá es que bajo suficiente regularidad y algunas condiciones de invertibilidad, en una vecindad de un punto $\bar{v}_{0}$ las incógnitas $x_{1},\dots ,x_{m}$ se pueden poner en función de las incógnitas $x_{m+1},\dots ,x_{n}$, es decir, que se puede despejar como lo mencionamos al final de la sección anterior. El enunciado es el siguiente.

Teorema (de la función implícita). Sea $f:S\subseteq\mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^m$ un campo vectorial de clase $C^1$ en $S$ con funciones componentes $f_i: S\subseteq\mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}$, para $i=1,\ldots,m$.

Pensemos en el conjunto $A$ de soluciones $(y_1,\ldots,y_m,x_1,\ldots,x_l)$ del siguiente sistema de ecuaciones:

\begin{equation}
\label{eq:sistemaimplicita}
\left\{ \begin{matrix}
f_{1}(y_{1},\dots ,y_m,x_1,\ldots,x_l)=0 \\
\vdots \\
f_{m}(y_{1},\dots ,y_m,x_1,\ldots,x_l)=0.
\end{matrix}\right.
\end{equation}

Supongamos además que para el punto $$(\bar{y}_0,\bar{x}_0)=\left(y_{1}^{0},\dots ,y_{m}^{0},x_{1}^{0},\dots ,x_{l}^{0}\right)\in S\cup A$$ la matriz

\[ \begin{pmatrix} \frac{\partial f_{1}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{i}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) \end{pmatrix} \]

es invertible. Entonces existen abiertos $V\subset \mathbb{R}^{m}$ y $U\subset \mathbb{R}^l$ con $\bar{y}_0\in V$, $\bar{x}_0\in U$, para los cuales hay una única función $h:U\to V$ de clase $C^{1}$ en $V$, tal que $f(\bar{y},\bar{x})=\bar{0}$ si y sólo si $\bar{y}=h(\bar{x})$.

Sólo para aclarar algunas diferencias con lo discutido anteriormente, aquí ya estamos separando en lo que esperaremos que serán las variables libres $x_1,\ldots,x_m$ y las variables pivote $y_1,\ldots,y_l$. Estamos además estudiando el caso en el que tenemos tantas variables libres como ecuaciones, pues este caso es fácil de enunciar en términos de la invertibilidad de una matriz. El caso más general se trata con reducción gaussiana como platicamos en la sección anterior. La igualdad $\bar{y}=h(\bar{x})$ es lo que entendemos como «despejar» a los $y_i$’s en función de los $x_j$’s.

Demostración del teorema de la función implícita

Veamos la demostración del teorema.

Demostración. Definamos $F:S\subset \mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ como $F(\bar{y},\bar{x})=(f(\bar{y},\bar{x}),\bar{x})$. Dado que $f$ es de clase $C^1$, se tendrá que $F$ también (explica esto como tarea moral).

Notemos que

\begin{align*}
F(\bar{y}_{0},\bar{x}_{0})&=(f(\bar{y}_{0},\bar{x}_{0}),\bar{x}_{0})=(\bar{0},\bar{x}_0).\end{align*}

Por otro lado, notemos que la matriz jacobiana de $F$ en $(\bar{y}_0,\bar{x}_0)$ es

$$\begin{bmatrix} \frac{\partial f_{1}}{\partial \bar{y}_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{1}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) & \frac{\partial f_{1}}{\partial x_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{1}}{\partial x_{l}}(\bar{y}_{0},\bar{x}_{0}) \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) & \frac{\partial f_{m}}{\partial x_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{l}}(\bar{y}_{0},\bar{x}_{0}) \\ 0 & \dots & 0 & 1 & \dots & 0 \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ 0 & \dots & 0 & 0 & \dots & 1 \end{bmatrix}$$

esta matriz además es invertible (también tendrás que explicar ambas cosas de tarea moral).

La idea clave es que entonces podemos usar el teorema de la función inversa en $F$. Aplícandolo en este contexto, obtenemos que existe $\delta >0$ tal que $F$ es inyectiva en una bola $B_{\delta}(\bar{y}_{0},\bar{x}_{0})\subset S$. Nos dice también que $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$ es un conjunto abierto, y que $F ^{-1}:F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))\subset \mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ es de clase $C^{1}$ en $F(B_{\delta}(\bar{y}_{0},\bar{x}_{0}))$. También dice algo de quién es la derivada explícitamente, pero eso no lo necesitaremos por ahora (de tarea moral tendrás que pensar qué nos dice esto).

Como $F$ manda $(\bar{y}_0,\bar{x}_0)$ a $(\bar{0},\bar{x}_0)$ y $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$ es un abierto, entonces hay una bola abierta $W$ alrededor de $(\bar{0},\bar{x}_0)$ contenida en $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$. El conjunto $U$ que propondremos será el abierto que se obtiene al intersectar $W$ con el espacio en donde la coordenada correspondiente a $f(\bar{y},\bar{x})$ es cero. En otras palabras, $U$ es un abierto y consiste de $\bar{x}$ para los cuales existe un $\bar{y}$ tal que $F(\bar{y},\bar{x})=(\bar{0},\bar{x})$ (es decir, $f(\bar{y},\bar{x})=\bar{0}$).

Tomemos ahora un $\bar{x}\in U$. Afirmamos que hay sólo un $\bar{y}$ tal que $(\bar{y},\bar{x})\in B_{\delta}(\bar{y}_{0},\bar{x}_{0})$ y $f(\bar{y},\bar{x})=\bar{0}$. Si hubiera $\bar{y}$ y $\bar{y}’$ que satisfacen eso, tendríamos

$$F(\bar{y},\bar{x})=(f(\bar{y},\bar{x}),\bar{x})=(\bar{0},\bar{x})=(f(\bar{y}’,\bar{x}),\bar{x})=F(\bar{y}’,\bar{x}),$$

que por la inyectividad de $F$ implica $\bar{y}=\bar{y}’$. De hecho, dicho único $\bar{y}$ está en función de $F^{-1}$, que es de clase $C^1$ de modo que el conjunto de los $\bar{y}$ asignados a los $\bar{x}$ en $U$ es un abierto $V$.

Así, podemos definir $h:U\to V$ de la siguiente manera: $h(\bar{x})=\bar{y}$, donde $\bar{y}$ es el único elemento para el cual $f(\bar{y},\bar{x})=\bar{0}$ y $(\bar{y},\bar{x})\in B_{\delta}(\bar{y}_{0},\bar{x}_{0})$. De la discusión desarrollada, $h$ está bien definida y cumple con las propiedades buscadas.

Por último probemos que $h$ es de clase $C^{1}$ en $U$. Como $F^{-1}$ esta definida y, además es de clase $C^{1}$ sobre el conjunto $F(B_{\delta}(\bar{x}_{0},\bar{y}_{0}))$, si escribimos que $F^{-1}=\left( (F^{-1})_{1},\dots ,(F^{-1})_{m} \right)$, bastaría con demostrar:

\[ h(\bar{x})=\left( (F^{-1})_{1}(\bar{0},\bar{x}),\dots , (F^{-1})_{m}(\bar{0},\bar{x})\right) \]

para cada $\bar{x}\in V$. Esto se hace como sigue:

\begin{align*} (h(\bar{x}),\bar{x})&=F^{-1}(F(h(\bar{x}),\bar{x}))\\ &=F^{-1}(\bar{0},\bar{x}) \\ &=\left( (F^{-1})_{1}(\bar{0},\bar{x}),\dots ,(F^{-1})_{m}(\bar{0},\bar{x}),(F^{-1})_{m+1}(\bar{0},\bar{x}),\dots ,(F^{-1})_{m+l}(\bar{0},\bar{x}) \right). \end{align*}

Así queda terminada de la demostración de este importante teorema.

$\square$

Algunas reflexiones finales

Si quisiéramos usar de manera práctica la demostración para encontrar la función implícita $h$, necesitaríamos calcular la inversa $F^{-1}$. Sin embargo, las técnicas que tenemos hasta ahora no nos permiten hacer eso tan fácilmente. La versión del teorema de la función inversa que tenemos nos dice que hay una inversa, pero no nos dice quién es. La mayoría de las veces dar esta inversa es muy difícil, por no decir imposible.

Aunque esto parezca algo negativo, de cualquier forma tenemos un resultado muy importante. En algunos casos, sí podremos dar la función inversa con relativa facilidad. Y en otros contextos, aunque no podamos dar la inversa explícitamente, sí tendremos una base teórica robusta para demostrar otros resultados. El teorema de la función implícita es una palanca importante para otros resultados que brindan mucha luz acerca del comportamiento de los campos vectoriales.

Mas adelante

La demostración y el desarrollo teórico tanto del teorema de la función inversa, como el de la función implícita, son muy técnicos. Dejaremos los aspectos técnicos hasta aquí y en la siguiente entrada procesaremos mejor lo que quiere decir este teorema hablando de varios ejemplos, y también de sus consecuencias.

Tarea moral

  1. Considérese la función $T:\mathbb{R}^{3}\rightarrow \mathbb{R}^{2}$ dada por $T(x,y,z)=(x+z,y+x)$ aplica el teorema de la función implícita para obtener una función $h:\mathbb{R}\rightarrow \mathbb{R}^{2}$ tal que $(h(\bar{a}),\bar{a})$ es solución de la ecuación $T(x,y,z)=(0,0)$.
  2. Explica con detalle por qué la función $F$ de la demostración del teorema de la función implícita es de clase $C^1$.
  3. Verifica que en efecto $DF(\bar{y}_0,\bar{x}_0)$ es la expresión dada en la demostración del teorema. Además, justifica por qué es invertible.
  4. Justifica con detalle por qué los conjuntos $U$ y $V$ de la demostración en efecto son conjuntos abiertos.
  5. El teorema de la función inversa también nos dice quién es la derivada de la inversa. ¿Eso qué quiere decir en el contexto del teorema de la función implícita?

Entradas relacionadas

Notas del curso de Álgebra Superior 1

Por Julio César Soria Ramírez

Introducción

Las siguientes notas de la Dr. Diana Avella Alaminos son las correspondientes al curso de Álgebra Superior 1, que se imparte en el primer semestre de la carrera de matemáticas de la Facultad de Ciencias de la UNAM.

Están divididas en 4 unidades, la primera correspondiente a conjuntos y funciones, la segunda está dedicada a la construcción y propiedades de los números naturales, la tercera es una introducción al estudio del espacio vectorial $\mathbb R^n$ , la cuarta y última unidad al estudio de matrices y determinantes.

A continuación se deja el el enlace a cada una de las notas según el orden y la unidad.

Unidad 1. Conjuntos y funciones.

Nota 1. Noción de Conjunto.

Nota 2. Subconjuntos.

Nota 3. El complemento de un conjunto.

Nota 4. Unión e intersección de Conjuntos.

Nota 5. Leyes de De Morgan y la diferencia simétrica.

Nota 6. Conjunto potencia y el producto cartesiano.

Nota 7. Relaciones y funciones.

Nota 8. Imagen directa e inversa de una función.

Nota 9. Composición de funciones.

Nota 10. Función inversa.

Nota 11. Funciones inyectivas, suprayectivas y biyectivas.

Nota 12. Teoremas de la composición de funciones inyectivas, suprayectivas y biyectivas.

Nota 13. Relación de equivalencia.

Nota 14. Familia de Conjuntos y particiones.

Nota 15. Relaciones de equivalencia y particiones.

Unidad 2. Los números naturales.

Nota 16. Los números naturales.

Nota 17. El orden en los números naturales.

Nota 18. El principio de inducción matemática.

Nota 19. Conjuntos equipotentes y cardinalidad.

Nota 20. Principio del producto, funciones entre conjuntos finitos.

Nota 21. Conteo, ordenaciones con repetición.

Nota 22. Conteo. Ordenaciones.

Nota 23. Combinaciones.

Nota 24. El triángulo de Pascal y el binomio de Newton.

Unidad 3. Espacios vectoriales.

Nota 25. Espacios vectoriales.

Nota 26. Propiedades de $\mathbb R^n$.

Nota 27. Subespacios vectoriales.

Nota 28. Combinaciones lineales.

Nota 29. Subespacio generado.

Nota 30. Dependencia e independencia lineal.

Nota 31. Bases de $\mathbb R^n$

Nota 32. Dimensión de un $\mathbb R-$ espacio vectorial

Unidad 4. Matrices y determinantes.

Nota 33. Matrices.

Nota 34. Multiplicación de matrices, identidad, inversas y transpuesta.

Nota 35. Operaciones elementales, matrices equivalentes y matrices elementales.

Nota 36. Matriz escalonada reducida por renglones.

Nota 37. El rango de una matriz.

Nota 38. Sistemas de ecuaciones.

Nota 39. Ejemplos de sistemas de ecuaciones

Nota 40. Determinantes.

Nota 41. Propiedades de los determinantes.

Nota 42. Formula para obtener el determinante.

Nota 43. Propiedad multiplicativa del determinante y teorema de invertibilidad de matrices.

Cálculo Diferencial e Integral III: Derivadas parciales de orden superior

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior hablamos de derivadas parciales de segundo orden y dimos una condición sencilla de verificar para garantizar que ciertas derivadas mixtas sean iguales. Lo que haremos ahora es dar un siguiente paso y hablar de derivadas parciales de orden superior. Enunciaremos un resultado análogo al de la entrada anterior, para garantizar que cualesquiera dos derivadas conmuten. Un poco más adelante, usaremos las derivadas de orden superior para enunciar un teorema de Taylor para funciones de varias variables.

Definiciones de derivadas parciales de orden superior

En la entrada anterior tomamos un campo escalar $f:S\subset \mathbb{R}^{n}\to\mathbb{R}$ con dominio cierto abierto $S$ con derivadas parciales $$\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \ldots, \frac{\partial f}{\partial x_n}$$

en un cierto abierto $R\subset S$. Hicimos notar que cada una de estas funciones es nuevamente un campo escalar en el abierto $R$ y que por lo tanto podríamos hacernos nuevamente la pregunta, para cada una de ellas, si resulta tener derivadas parciales o no. En caso de que sí, esto nos permitía crear derivadas parciales de segundo orden, del estilo $$\frac{\partial^2 f}{\partial x_i \partial x_j}.$$

Al variar $i$ y $j$ de $1$ a $n$, obtenemos otras $n^2$ posibles funciones, que nuevamente son campos escalares, de las cuales nuevamente podemos preguntarnos si tienen o no derivadas parciales. Esta idea podemos iterarla tantas veces como queramos. Para formalizarla, planteamos la siguiente definición. La definición es para funciones con dominio $\mathbb{R}^n$ y un punto dado $\bar{a}$, pero se pueden hacer las adecuaciones necesarias para hablar de la diferenciabilidad de una función cunado su dominio es cierto abierto, o cuando se quiere hablar de diferenciabilidad en todo un abierto.

Definición. Sea $f:\mathbb{R}^n\to \mathbb{R}$ una función y $\bar{a}\in \mathbb{R}^n$ un vector. Definimos recursivamente sobre $k$ el símbolo

$$\frac{\partial^k f}{\partial x_{i_k}\cdots \partial x_{i_1}}(\bar{a})$$

para $i_1,\ldots,i_k\in \{1,2,\ldots,n\}$ como sigue:

  1. Si $k=0$, el símbolo simplemente representa a $f(\bar{a})$.
  2. En otro caso, $$\frac{\partial^k f}{\partial x_{i_k}\cdots \partial x_{i_1}}(\bar{a}):=\frac{\partial}{\partial x_{i_k}} \left(\frac{\partial^{k-1} f}{\partial x_{i_{k-1}}\cdots \partial x_{i_1}}\right)(\bar{a}),$$
    siempre y cuando se pueda derivar
    $$\frac{\partial^{k-1} f}{\partial x_{i_{k-1}}\cdots \partial x_{i_1}}$$ con respecto a la variable $x_{i_k}$ en el punto $\bar{a}$.

A ese símbolo le llamamos la derivada parcial de $f$ de $k$-ésimo orden con respecto a las variables $x_{i_k},\ldots,x_{i_1}$.

En otras palabras, siempre y cuando sea posible, tomamos $f$ y la vamos derivando primero con respecto a $x_{i_1}$, luego con respecto a $x_{i_2}$ y así sucesivamente hasta que la última derivación es con respecto a $x_{i_k}$.

Como en el caso de dos variables, nos permitiremos «agrupar variables en potencias» para simplificar algunas notaciones en caso de que la derivación sea consecutivamente con respecto a una misma variable. Por ejemplo, a la siguiente derivada parcial de orden $3$:

$$\frac{\partial^3 f}{\partial x \partial x \partial y}$$

usualmente la escribiremos en forma simplificada

$$\frac{\partial^3 f}{\partial x^2 \partial y}.$$

Ejemplos de derivadas parciales de orden $3$

Ejemplo. Tomemos el campo escalar $f:\mathbb{R}^3 \to \mathbb{R}$ dado por

$$f(x,y,z)=\sin(xyz).$$

Encontremos las siguientes derivadas parciales:

$$\frac{\partial^3 f}{\partial x \partial y^2}, \frac{\partial^3 f}{\partial x \partial y \partial z}, \frac{\partial^3 f}{\partial y^3}.$$

Comenzamos con $$\frac{\partial^3 f}{\partial x \partial y^2}$$

\begin{align*} \frac{\partial f}{\partial y}(x,y,z)&=xz\cos(xyz),\\ \frac{\partial^2 f}{\partial y^2}(x,y,z)&=-x^2z^2\sin(xyz),\\ \frac{\partial^3 f}{\partial z \partial y^2}(x,y,z)&=-2zx^2\sin(xyz)-z^2x^3y\cos(xyz). \end{align*}

Luego calculemos $$\frac{\partial^3 f}{\partial x \partial y \partial z}$$

\begin{align*} \frac{\partial f}{\partial z}(x,y,z)&=xy\cos(xyz),\\ \frac{\partial^2 f}{\partial y \partial z}(x,y,z)&=x\cos(xyz)-x^2yz\sin(xyz),\\ \frac{\partial^3 f}{\partial x \partial y \partial z}(x,y,z)&=-3xyz\sin(xyz)+(1-x^2y^2z^2)\cos(xyz). \end{align*}

Por último calcularemos $$\frac{\partial^3 f}{\partial y^3}$$

\begin{align*} \frac{\partial f}{\partial y}(x,y,z)&=xz\cos(xyz),\\ \frac{\partial^2 f}{\partial y^2}(x,y,z)&=-x^2z^2\sin(xyz),\\ \frac{\partial^3 f}{\partial y^3}(x,y,z)&=-x^3z^3\cos(xyz). \end{align*}

$\triangle$

Sería algo laborioso encontrar todas todas las derivadas parciales de orden $3$ en el ejemplo anterior. ¡Son 27! Aunque, bueno, muchas de ellas serán iguales gracias a un teorema que enunciaremos en la siguiente sección.

Veamos un ejemplo de $\mathbb{R}^2$ en el que sí encontraremos todas las $8$ derivadas parciales de orden $3$.

Ejemplo. Veamos cuáles son todas las derivadas parciales de orden $3$ para el siguiente campo escalar $g:\mathbb{R}^2\to \mathbb{R}$:

$$g(x,y)=3x^2y^3.$$

Primero encontremos ambas derivadas parciales de primer orden

\begin{align*}
\frac{\partial g}{\partial x}(x,y)=6xy^3, \quad \frac{\partial g}{\partial y}(x,y)=9x^2y^2.
\end{align*}

Con ellas podemos encontrar las de segundo orden:

\begin{align*}
\frac{\partial^2 g}{\partial x^2}(x,y)=6y^3&, \quad \frac{\partial^2 g}{\partial x \partial y}(x,y)=18xy^2,\\
\frac{\partial^2 g}{\partial y\partial x}(x,y)=18xy^2&, \quad \frac{\partial^2 g}{\partial y^2}(x,y)=18x^2y.
\end{align*}

Finalmente, usamos estas últimas para encontrar las derivadas parciales de tercer orden. Primero, aquellas en donde derivamos las anteriores con respecto a $x$:

\begin{align*}
\frac{\partial^3 g}{\partial x^3}(x,y)=0&, \quad \frac{\partial^3 g}{\partial x^2 \partial y}(x,y)=18y^2,\\
\frac{\partial^3 g}{\partial x\partial y\partial x}(x,y)=18y^2&, \quad \frac{\partial^3 g}{\partial x\partial y^2}(x,y)=36xy,
\end{align*}

y sólo faltan en donde derivamos las de segundo orden con respecto a $y$:

\begin{align*}
\frac{\partial^3 g}{\partial y\partial x^2}(x,y)=18y^2&, \quad \frac{\partial^3 g}{\partial y \partial x \partial y}(x,y)=36xy,\\
\frac{\partial^3 g}{\partial y^2\partial x}(x,y)=36xy&, \quad \frac{\partial^3 g}{\partial y^3}(x,y)=18x^2.
\end{align*}

$\triangle$

Hay varias de estas derivadas parciales del ejemplo anterior que son iguales. ¿Cuáles? ¿Cuál parece ser que sea el criterio para que dos derivadas parciales de orden superior sean iguales?

Conmutatividad de derivadas parciales de orden superior

En los ejemplos anteriores hay algunas derivadas de orden superior que coinciden entre sí. El siguiente teorema nos da una condición para garantizar la conmutatividad en el orden en que derivamos para una gran cantidad de situaciones. Una vez más, nos limitamos a enunciar el resultado para un punto dentro de un abierto

Teorema. Sea $f:\mathbb{R}^n\to \mathbb{R}$ una función y $k\geq 2$ un entero. Sean $i_1,\ldots, i_k, j_1,\ldots,j_k$ enteros con valores en $\{1,\ldots, n\}$. Supongamos que:

  • Hay un abierto $S\subset \mathbb{R}^n$ en el que las siguiente derivadas de orden $k$ existen:
    $$\frac{\partial^k f}{\partial x_{i_k}\cdots \partial x_{i_1}} \quad \text{y} \quad \frac{\partial^k f}{\partial x_{j_k}\cdots \partial x_{j_1}}.$$
  • Dichas derivadas son continuas en un punto $\bar{a}\in S$.
  • Cada entero de $1$ a $n$ aparece la misma cantidad de veces en $i_1,\ldots, i_k$ que en $j_1,\ldots,j_k$.

Entonces, ambas derivadas coinciden en $\bar{a}$.

La última condición es muy natural: tuvimos que haber derivado la misma cantidad de veces con respecto a cada variable. Así pues, por ejemplo, si tenemos $f:\mathbb{R}^3\to \mathbb{R}$ con las condiciones adecuadas de continuidad y diferenciabilidad, podríamos por ejemplo garantizar que:

$$\frac{\partial^7 f}{\partial x^2 \partial y \partial z \partial y^2 \partial x} = \frac{\partial^7 f}{\partial z \partial x^3 \partial y^3}.$$

No daremos la demostración del teorema, pero quedará como tarea moral. Para que puedas realizarla, estudia con mucho detalle la demostración del teorema de la entrada anterior. Ya que la manejes bien, la demostración de este teorema requerirá de que plantees adecuadamente una inducción para aprovechar al máximo la definición recursiva para derivadas parciales de orden $k$.

Más adelante…

Ya que hemos definido y entendido las derivadas parciales para cualquier orden $k$, podemos enunciar otro de los teoremas clásicos de cálculo de una variable, pero en su versión para campos escalares: el teorema de Taylor. Haremos esto en la siguiente entrada.

Tarea moral

  1. Encuentra todas las derivadas parciales de orden $3$ (con respecto a todas las formas de elegir variables) para las siguientes funciones, enunciando apropiadamente el dominio en el que estás trabajando y en el que funionan tus cálculos.
    • $f(x,y)=e^{x+y}$
    • $f(x,y)=x^2+x+y^2+y+1$
    • $f(x,y)=\sin(x)\cos(x)+\tan(xy)$
    • $f(x,y)=\frac{1}{1+\sin^2(x)}+\frac{1}{1+\cos^2(x)}$
    • $f(x,y,z)=x+y+z$
    • $f(x,y,z)=e^{x+y+z}$
  2. Demuestra que el campo escalar $f:\mathbb{R}^n\to \mathbb{R}$ dado por $$f(x_1,\ldots,x_n)=e^{-(x_1+\ldots+x_n)}$$ tiene todas sus derivadas parciales con respecto a cualesquiera variables para todos los órdenes $k$.
  3. Cuando una función $f:\mathbb{R}\to\mathbb{R}$ tiene todas sus derivadas de todos sus órdenes $f^{\prime}, f^{\prime \prime}, f^{(3)},\ldots$, decimos que es infinitamente diferencible o $C$-infinito (en símbolos «$f$ es $C^{\infty}$»). Haz una propuesta de qué querría decir que un campo escalar sea $C$-infinito. Verifica que si un campo escalar es $C$-infinito en todo $\mathbb{R}^n$, entonces se dan todas las conmutatividades de derivadas parciales.
  4. Para convencerte de que el teorema de conmutatividad de derivadas parciales funciona, encuentra explícitamente las derivadas $$\frac{\partial^7 f}{\partial x^2 \partial y \partial z \partial y^2 \partial x} = \frac{\partial^7 f}{\partial z \partial x^3 \partial y^3}$$ para el campo escalar $f:\mathbb{R}^3\to \mathbb{R}$ dado por $f(x,y,z)=x^4y^4z$.
  5. Demuestra el teorema de conmutatividad para derivadas parciales.

Entradas relacionadas

Cálculo Diferencial e Integral III: Derivadas parciales de segundo orden

Por Alejandro Antonio Estrada Franco

Introducción

En las entradas anteriores definimos qué quiere decir que un campo escalar sea diferenciable. Así mismo, definimos las derivadas parciales y el gradiente. Ya usamos estas herramientas para hablar de dirección de cambio máximo y de puntos críticos. Además demostramos una versión del teorema del valor medio para este caso, lo que nos permitió poner un poco de orden a nuestra teoría: una función es diferenciable en un punto cuando existen sus parciales en ese punto y son continuas. Es momento de hablar de derivadas parciales de segundo orden. Cualquiera de las derivadas parciales es por sí misma un campo escalar, así que podemos preguntarnos si tiene o no sus propias derivadas parciales. Exploraremos esta idea.

Derivadas parciales de segundo orden

Las derivadas parciales de un campo escalar $f$ nos originan nuevos campos escalares. Supongamos que $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ es un campo escalar para el cual existe la $k$-ésima derivada parcial en un conjunto abierto $S’\subseteq S$. Entonces, obtenemos un nuevo campo escalar $\frac{\partial f}{\partial x_{k}}:S’\rightarrow \mathbb{R}$.

Este campo escalar puede o no tener $j$-ésima derivada parcial. Suponiendo que la tiene en algún $U\subseteq S’$ podríamos escribirla como

$$\frac{\partial\left(\frac{\partial f}{\partial x_k}\right)}{\partial x_j}.$$

Sin embargo, esta notación es engorrosa, y por ello optamos o bien por escribir la expresión como sigue

\[ \frac{\partial}{\partial x_{j}}\left( \frac{\partial f}{\partial x_{k}}\right)\]

o todavía más compacto, como

\[ \frac{\partial ^{2}f}{\partial x_{j}\partial x_{k}}.\]

A esto le llamamos una derivada parcial de segundo orden. Si $j=k$, introducimos la notación

\[ \frac{\partial ^{2}f }{\partial x_{k}^{2}}.\]

Las derivadas parciales de segundo orden vuelven a ser, una vez más, cada una de ellas un campo escalar. Esto permite seguir iterando la idea: podríamos hablar de derivadas parciales de segundo, tercero, cuarto, … , $k$-ésimo, … orden. Daremos una definición un poco más formal en una siguente entrada, pero por ahora trabajemos en entender a las derivadas parciales de segundo orden.

Un ejemplo de derivadas parciales de segundo orden

Ejemplo. Consideremos el campo escalar $f(x,y,z)=x^{2}yz$. Para este campo escalar tenemos que sus derivadas parciales con respecto a $x$, $y$ y $z$ son:

\begin{align*}
\frac{\partial f}{\partial x}(x,y,z)&=2xyz,\\
\frac{\partial f}{\partial y}(x,y,z)&=x^{2}z\\
\frac{\partial f}{\partial z}(x,y,z)&=x^{2}y.
\end{align*}

Cada una de estas expresiones es a su vez un campo escalar. Cada una de ellas es derivable con respecto a $x$ en todo $\mathbb{R}^3$. Al derivarlas con respecto a $x$ obtenemos:

\begin{align*}
\frac{\partial ^{2}f}{\partial x^{2}}(x,y,z)&=2yz,\\
\frac{\partial ^{2}f}{\partial x\partial y}(x,y,z)&=2xz,\\
\frac{\partial ^{2}f}{\partial x\partial z}(x,y,z)&=2xy.
\end{align*}

Por otro lado, las derivadas parciales de primer orden también podríamos haberlas derivado con respecto a $y$. En este caso, hubieramos obtenido.

\begin{align*}
\frac{\partial ^{2}f}{\partial y \partial x}(x,y,z)&=2xz,\\
\frac{\partial ^{2}f}{\partial y ^2}(x,y,z)&=0,\\
\frac{\partial ^{2}f}{\partial y\partial z}(x,y,z)&=x^2.
\end{align*}

También podríamos derivar a las derivadas parciales de primer orden con respecto a $z$ para obtener las tres derivadas de orden dos faltantes. En total tenemos tres derivadas parciales de primer orden y nueve derivadas parciales de segundo orden.

$\triangle$

Igualdad de las derivadas parciales de segundo orden mixtas

En numerosos campos escalares de interés tenemos una propiedad muy peculiar: que los operadores «obtener la derivada parcial con respecto a $x$» y «obtener la derivada parcial con respecto a $y$» conmutan. Es decir, varias veces podemos intercambiar el orden de derivación de las parciales y obtener el mismo resultado. En el ejemplo anterior quizás hayas notado que

\[ \frac{\partial ^{2}f}{\partial y\partial x}=2xz=\frac{\partial ^{2}f}{\partial x\partial y}.\]

Esto no siempre pasa, pero hay criterios de suficiencia sencillos de verificar. Por ejemplo, basta que las parciales mixtas existan y sean continuas para que sean iguales. El siguiente teorema formaliza el resultado.

Teorema. Sea $f:S\subseteq \mathbb{R}^{2}\rightarrow \mathbb{R}$ un campo escalar tal que las derivadas parciales $\frac{\partial f}{\partial x}$, $\frac{\partial f}{\partial y}$, $\frac{\partial^{2} f}{\partial y\partial x}$, $\frac{\partial ^{2}f}{\partial x\partial y}$ existen en un conjunto abierto $U$. Si $(a,b)\in U$ es tal que $\frac{\partial^{2} f}{\partial y\partial x}$, $\frac{\partial ^{2}f}{\partial x\partial y}$ son continuas en $(a,b)$, entonces dichas derivadas mixtas de segundo orden son iguales en $(a,b)$.

Demostración. Sean $h,k\neq 0$ suficientemente chicos para que los puntos en el plano $(a,b)$, $(a,b+k)$, $(a+h,b)$, y $(a+h,b+k)$ estén en $U$.

Definamos la función $\Gamma (x)=f(x,b+k)-f(x,b)$ para $x\in [a,a+h]$ y definamos

\begin{equation} \Delta (h,k)=\Gamma (a+h)-\Gamma (a).\end{equation}

Notemos que $\Gamma$ es una función de $\mathbb{R}$ en $\mathbb{R}$ cuya derivada es $$\Gamma'(x)=\frac{\partial f}{\partial x}(x,b+k)-\frac{\partial f}{\partial x}(x,b).$$ Así, se le puede aplicar el teorema del valor medio con extremos en $a$ y $a+h$ para concluir que existe $\xi _{1}\in [a,a+h]$ que nos permite escribir $\Delta(h,k)$ de la siguiente manera:

\begin{align*}
\Delta(h,k)&=\Gamma (a+h)-\Gamma (a)\\
&= h\Gamma'(\xi _{1})\\
&=h\left[ \frac{\partial f}{\partial x}(\xi _{1},b+k)-\frac{\partial f}{\partial x}(\xi _{1},b) \right]
\end{align*}

Ahora podemos aplicar el teorema del valor medio en la función $y\mapsto \frac{\partial f}{\partial x} (\xi _{1},y)$ con extremos $b$ y $b+k$. Esto nos permite continuar la cadena de igualdades anterior mediante un $\eta _{1}\in [b,b+k]$ que cumple

\begin{equation}\label{eq:primerdelta} \Delta (h,k)=hk\frac{\partial ^{2}f}{\partial y\partial x}(\xi _{1},\eta _{1}).\end{equation}

Como $(\xi _{1},\eta _{1})\in [a,a+h]\times[b,b+k]$, se tiene que $(\xi _{1},\eta _{1})\to (a,b)$ conforme $(h,k)\to \bar{0}$.

Ahora consideremos análogamente a la función $\varLambda (y)=f(a+h,y)-f(a,y)$. Mediante un procedimiento similar al que acabamos de hacer, pero aplicado a $\varLambda$ en vez de a $\Gamma$, se tiene otra forma de expresar a $\Delta(h,k)$:

\begin{equation}\label{eq:segundodelta}\Delta(h,k)=hk\frac{\partial ^{2} f}{\partial x\partial y}(\xi _{2},\eta _{2}),\end{equation} donde $(\xi _{2},\eta _{2})\in [a,a+h]\times[b,b+k]$. Nuevamente, $(\xi _{2},\eta _{2})\to (a,b)$ conforme $(h,k)\to (0,0)$.

Igualando las expresiones en \eqref{eq:primerdelta} y \eqref{eq:segundodelta}, tenemos lo siguiente:

\[ \frac{\partial f}{\partial y\partial x}(\xi _{1},\eta _{1})=\frac{\partial f}{\partial x\partial y}(\xi _{2},\eta _{2}).\]

El resultado se sigue de hacer tender $(h,k)\to (0,0)$, ya que dado que las derivadas parciales les estamos pidiendo que sean continuas, tenemos que:

\begin{align*}
\frac{\partial ^{2} f}{\partial y\partial x}(a,b)&=\lim\limits_{(h,k)\to (0,0)}\frac{\partial ^{2} f}{\partial y\partial x}(\xi _{1},\eta _{1})\\
&=\lim\limits_{(h,k)\to (0,0)}\frac{\partial ^{2}f}{\partial x\partial y}(\xi _{2},\eta _{2})\\
&=\frac{\partial ^{2}f}{\partial x\partial y}(a,b).
\end{align*}

Así concluimos nuestro resultado.

$\square$

Más adelante…

En esta entrada hablamos de las derivadas parciales de segundo orden y vimos que bajo condiciones razonables podemos elegir las variables de derivación en el orden que queramos. Estas ideas son más generales, y a continuación nos llevarán a definir las derivadas parciales de cualquier orden $k$. Después, usaremos estas derivadas parciales para generalizar otro de los teoremas de cálculo unidimensional: el teorema de Taylor.

Tarea moral

  1. Para las siguientes funciones calcula $\frac{\partial ^{2}f}{\partial x^{2}}$:
    • $f(x,y)=x^{2}+y^{2}cos(xy)$
    • $f(x,y)=e^{x}cos(y)$
    • $f(x,y,z)=\textup{log}(x^{2}+2y^{2}-3z^{2})$
  2. En el teorema que afirma que las derivadas parciales mixtas son iguales usamos cuatro veces el teorema del valor medio (¿cuáles 4 son?). Asegúrate de que en verdad lo podamos usar.
  3. Calcula $\frac{\partial ^{2}f}{\partial y^{2}}$, y $\frac{\partial ^{2}f}{\partial x\partial y}$ para las funciones del punto 1. Explica por qué no es necesario calcular de manera separada $\frac{\partial ^{2}f}{\partial y\partial x}$
  4. Investiga de un ejemplo en el que las derivadas parciales $\frac{\partial ^{2}f}{\partial x\partial y}$ y $\frac{\partial ^{2}f}{\partial y\partial x}$ no sean iguales. Realiza las cuentas para verificar que en efecto tienen valores distintos en algún punto.
  5. El teorema que enunciamos está muy limitado. Sólo nos habla de campos escalares de $\mathbb{R}^2$ en $\mathbb{R}$. Sin embargo, debería también funcionar si $f:\mathbb{R}^n\to \mathbb{R}$. Enuncia y demuestra un resultado similar que te permita garantizar que $$\frac{\partial^{2} f}{\partial x_i\partial x_j}=\frac{\partial ^{2}f}{\partial x_j\partial x_i}.$$

Entradas relacionadas