Archivo de la etiqueta: teorema fundamental

Álgebra Superior II: Irreducibilidad y factorización en polinomios reales

Por Leonardo Ignacio Martínez Sandoval

Introducción

Los números enteros tiene un teorema de factorización en primos: el teorema fundamental de la aritmética. Los polinomios en $\mathbb{R}[x]$ también. En esta entrada hablaremos de la irreducibilidad y factorización en polinomios reales. Lo primero lo haremos para decir «quiénes son los primos» en $\mathbb{R}[x]$. Para lo segundo usaremos el teorema del factor, que demostramos con anterioridad.

Resulta que el teorema de factorización en polinomios reales depende de un resultado importante de polinomios en $\mathbb{C}[x]$, es decir, los de coeficientes complejos. Esto es algo que sucede con frecuencia: a veces para resolver un problema en los números reales, hay que dar un paso hacia los complejos y luego regresar. Por esa razón, para esta entrada es importante que tengas en mente varias propiedades en los complejos, sobre todo cómo se realizan las operaciones y cuales son las propiedades de la conjugación compleja. Esto nos dará la oportunidad de enunciar (sin demostración) el teorema fundamental del álgebra.

Como recordatorio, un polinomio es irreducible en $\mathbb{R}[x]$ si no es un polinomio constante y no se puede escribir como producto de dos polinomios no constantes en $\mathbb{R}[x]$. Además, el teorema del factor nos dice que si $a$ es raíz de un polinomio $p(x)$, entonces $x-a$ divide a $p(x)$. Diremos que un polinomio es lineal si es de grado $1$ y cuadrático si es de grado $2$.

El teorema fundamental del álgebra

Así como construimos a $\mathbb{R}[x]$, se puede hacer algo análogo para construir a $\mathbb{C}[x]$, los polinomios de coeficientes complejos. Puedes practicar todo lo que hemos visto haciendo la construcción formal. Por el momento, para fines prácticos, puedes pensarlos como expresiones de la forma $$a_0+a_1 x + \ldots + a_n x^n$$ con $a_i$ complejos, digamos, $$(1+i)+2i x -3x^3+(5+2i)x^4.$$

Los polinomios en $\mathbb{C}[x]$ cumplen todo lo que hemos dicho de $\mathbb{R}[x]$: se vale el lema de Bézout, el algoritmo de Euclides, el teorema del factor, el teorema del residuo, etc. Una copia de $\mathbb{R}[x]$, con su estructura algebraica, «vive» dentro de $\mathbb{C}[x]$, es decir, todo polinomio con coeficientes reales se puede pensar como uno con coeficientes complejos.

Sin embargo, los polinomios en $\mathbb{R}[x]$ y en $\mathbb{C}[x]$ son muy diferentes en términos de raíces. Esto se nota, pir ejemplo, en el hecho de que el polinomio $x^2+1$ no tiene raíces en $\mathbb{R}$, pero sí en $\mathbb{C}$, donde la raíz es $i$. Resulta que esta $i$ hace toda la diferencia. Al agregarla no solamente hacemos que $x^2+1$ tenga una raíz, sino que ya todo polinomio tiene raíz. Esto está enunciado formalmente por el teorema fundamental del álgebra.

Teorema (teorema fundamental del álgebra). Todo polinomio no constante en $\mathbb{C}[x]$ tiene al menos una raíz en $\mathbb{C}$.

No vamos a demostrar este teorema durante el curso. Hay desde demostraciones elementales (como la que aparece en el bello libro Proofs from the book), hasta algunas muy cortas, pero que usan teoría un poco más avanzada (como las que se hacen en cursos de análisis complejo). Sin embargo, lo usaremos aquí para obtener algunas de sus consecuencias y, al final de esta entrada, demostrar los teoremas de irreducibilidad y factorización en polinomios reales.

Teorema de factorización en $\mathbb{C}[x]$

En la entrada anterior ya demostramos que los polinomios lineales son irreducibles. Veremos ahora que en $\mathbb{C}[x]$ no hay ningún otro polinomio irreducible.

Proposición. Los únicos polinomios irreducibles en $\mathbb{C}[x]$ son los de grado $1$.

Demostración. Tomemos cualquier polinomio $p(x)$ en $\mathbb{C}[x]$ de grado al menos $2$. Por el teorema fundamental del álgebra, $p(x)$ tiene al menos una raíz $z$ en $\mathbb{C}$. Por el teorema del factor, $$x-z \mid p(x),$$ así que podemos escribir $p(x)=(x-z)q(x)$ con $q(x)$ en $\mathbb{C}[x]$ de grado $\deg(p(x))-1\geq 1$.

De esta forma, pudimos factorizar al polinomio $p(x)$ en dos factores no constantes, y por lo tanto no es irreducible.

$\square$

Con esto podemos mostrar que en $\mathbb{C}[x]$ todo polinomio es factorizable como producto de términos lineales.

Teorema (de factorización única en $\mathbb{C}[x]$). Todo polinomio $p(x)$ en $\mathbb{C}[x]$ distinto del polinomio cero se puede factorizar de manera única como $$p(x)=a(x-z_1)(x-z_2)\cdots(x-z_n)$$ en donde $a$ es un complejo no cero, $n$ es el grado de $p(x)$ y $z_1,\ldots,z_n$ son complejos que son raíces de $p(x)$.

Demostración. Mostraremos la existencia de la factorización. La parte de la unicidad es sencilla, y su demostración queda como tarea moral. Procedemos por inducción en el grado de $p(x)$. Si $p(x)$ es de grado cero, entonces es de la forma $p(x)=a$ con $a$ un complejo, y ya está en la forma que queremos.

Tomemos ahora un entero $n\geq 1$. Supongamos que el resultado es cierto para los polinomios de grado $n-1$ y consideremos un polinomio $p(x)$ de grado $n$. Por el teorema fundamental del álgebra, $p(x)$ tiene al menos una raíz, digamos $z_n$. Usando el teorema del factor, existe un polinomio $q(x)$, que debe de ser de grado $n-1$, tal que $$p(x)=q(x)(x-z_n).$$ Aplicando la hipótesis inductiva a $q(x)$, podemos factorizarlo de la forma $$q(x)=a(x-z_1)(x-z_2)\cdots(x-z_{n-1}),$$ con $z_1,\ldots,z_{n-1}$ raíces de $q(x)$ (y por lo tanto también raíces de $p(x)$). De esta forma, $$p(x)=(x-z_1)(x-z_2)\cdots(x-z_{n-1})(x-z_n)$$ es una factorización que cumple lo que queremos. Esto termina la hipótesis inductiva, y por lo tanto la parte de existencia de la demostración.

$\square$

Ejemplo. Consideremos al polinomio $$p(x)=x^4+5x^2+4$$ en $\mathbb{R}[x]$. Este polinomio no tiene raíces reales, pues sus evaluaciones siempre son positivas. Sin embargo, lo podemos pensar como un polinomio en $\mathbb{C}[x]$. Por el teorema fundamental del álgebra, este polinomio debe tener una raíz en $\mathbb{C}$.

Afortunadamente, podemos encontrarla por inspección. Una de estas raíces es $i$, pues $$i^4+5i^2+4=1-5+4=0.$$ Por el teorema del factor, $x-i$ divide a $p(x)$. Al realizar la división, obtenemos $$p(x)=(x-i)(x^3+ix^2+4x+4i).$$ De aquí, por inspección, obtenemos que $-i$ es una raíz de $x^3+ix^2+4x+4i$, y realizando la división entre $x+i$, tenemos que $$p(x)=(x-i)(x+i)(x^2+4).$$

El polinomio $x^2+4$ claramente tiene como raíces a $2i$ y $-2i$. A partir de todo esto concluimos que $$p(x)=(x-i)(x+i)(x-2i)(x+2i)$$ es la factorización de $p(x)$ en polinomios lineales en $\mathbb{C}[x]$.

$\square$

En el ejemplo anterior podemos agrupar los factores $(x-i)$ y $(x+i)$ para obtener el polinomio $x^2+1$. De aquí obtenemos la factorización alternativa $$p(x)=(x^2+1)(x^2+2).$$ Esta factorización tiene puros coeficientes reales. Aquí hay que hacer una observación importante: esta no es una factorización en irreducibles en $\mathbb{C}[x]$, pero sí es una factorización en irreducibles en $\mathbb{R}[x]$. Retomaremos varias de estas ideas más en general en las siguientes secciones.

Raíces complejas de polinomios en $\mathbb{R}[x]$

En el ejemplo de la sección anterior sucedió que $i$ era una raíz de $p(x)$, y que $-i$ también. Cuando tenemos un polinomio de coeficientes reales y $z$ es un complejo que es raíz, entonces su conjugado también.

Proposición. Tomemos $p(x)$ un polinomio en $\mathbb{R}[x]$ y $z$ un número en $\mathbb{C}$. Si $p(z)=0$, entonces $p(\overline{z})=0$.

Demostración. Si $p(x)$ es el polinomio cero, la afirmación es cierta. En otro caso, sea $n$ el grado de $p(x)$ y escribamos a $p(x)$ como $$p(x)=a_0+a_1x+\ldots+a_nx^n,$$ donde $a_i$ son números en $\mathbb{R}$ para $i=0,\ldots,n$. Por lo que sabemos de la conjugación compleja, $\overline{a_i}=a_i$, y además abre sumas y productos. Así,
\begin{align*}
\overline{p(z)}&=\overline{a_0+a_1z+\ldots+a_nz^n}\\
&=\overline{a_0}+\overline{a_1z}+\ldots +\overline{a_nz^n}\\
&=\overline{a_0} + \overline{a_1}\, \overline{z} + \ldots +\overline{a_n}\, \overline{z}^n\\
&=a_0 + a_1 \overline{z} + \ldots + a_n \overline{z}^n\\
&=p(\overline{z}).
\end{align*}

Como $p(z)=0$, concluimos que $$p(\overline{z})=\overline{p(z)}=\overline{0}=0.$$

$\square$

El resultado anterior no es cierto en general para polinomios con coeficientes en $\mathbb{C}[x]$. Esto debe ser muy claro pues, por ejemplo, $i$ es raíz de $x-i$, pero $-i$ no.

Proposición. Tomemos $p(x)$ un polinomio en $\mathbb{R}[x]$ y una raíz $z$ de $p(x)$ en $\mathbb{C}\setminus \mathbb{R}$. Entonces el polinomio $$q(x)=x^2-(z+\overline{z})x+z\overline{z}$$ es un polinomio en $\mathbb{R}[x]$ que divide a $p(x)$ en $\mathbb{R}[x]$.

Demostración. Observa que $q(x)=(x-z)(x-\overline{z})$. Recordemos que
\begin{align*}
z+\overline{z}&=2\Rea{(z)} \\
z\overline{z}&=\norm{z}^2 .
\end{align*}

Esto muestra que los coeficientes de $q(x)$ son reales. Usemos el algoritmo de la división en $\mathbb{R}[x]$ para escribir $$p(x)=q(x)h(x)+r(x),$$ con $r(x)$ el polinomio cero, o de grado a lo más $1$.

Evaluando en $z$ y en $\overline{z}$, se obtiene que $r(z)=r(\overline{z})=0$. Como $z$ no es real, entonces $z$ y $\overline{z}$ son distintos. De este modo, $r(x)$ es el polinomio cero. Así, $p(x)=q(x)h(x)$ es una factorización de $p(x)$ en $\mathbb{R}[x]$ que usa a $q(x)$.

$\square$

Nuevamente, hay que tener cuidado con las hipótesis del resultado anterior. Es muy importante que usemos que $z$ es una raíz compleja y no real de un polinomio con coeficientes reales. En la tarea moral puedes encontrar un contraejemplo si no se satisfacen las hipótesis.

Ejemplo. Consideremos el polinomio $$p(x)=2x^3-16x^2+44x-40.$$ Una de sus raíces complejas es $3+i$, como puedes verificar. Como es un polinomio con coeficientes reales, el conjugado $3-i$ también es una raíz. Tal como lo menciona la proposición anterior, el polinomio
\begin{align*}
q(x):&=(x-(3+i))(x-(3-i))\\
&=x^2-(3+i+3-i)x+(3+i)(3-i)\\
&=x^2-6x+10
\end{align*}

es un polinomio de coeficientes reales. Además, divide a $p(x)$ en $\mathbb{R}[x]$ pues haciendo la división polinomial, tenemos que $$2x^3-16x^2+44x-40=(2x-4)(x^2-6x+10).$$

$\square$

Irreducibilidad y factorización en polinomios reales

Con todo lo que hemos hecho hasta ahora, estamos listos para probar los resultados que queremos en $\mathbb{R}[x]$. Observa que los enunciados de las secciones anteriores involucran a $\mathbb{C}$, pero los de esta sección ya no. Sin embargo, para hacer las demostraciones tenemos que dar un «brinco momentáneo a los complejos».

Recuerda que para un polinomio cuadrático $q(x)=ax^2+bx+c$ su discriminante es $b^2-4ac$.

Teorema (irreducibilidad en polinomios reales). Los únicos polinomios irreducibles en $\mathbb{R}[x]$ son los lineales y los cuadráticos de discriminante negativo.

Demostración. Ya mostramos antes que los polinomios lineales son irreducibles. Si $q(x)=ax^2+bx+c$ es un polinomio cuadrático y $r$ es una raíz real, tenemos que
\begin{align*}
ar^2+br+c&=0\\
r^2+\frac{b}{a}r+\frac{c}{a}&=0\\
r^2+\frac{b}{a}r+\frac{b^2}{4a^2}-\frac{b^2}{4a^2}+\frac{c}{a}&=0\\
\left(r+\frac{b}{2a}\right)^2&=\frac{b^2-4ac}{4a^2}.
\end{align*}

De esta igualdad, obtenemos que $\frac{b^2-4ac}{4a^2}\geq 0$ y por lo tanto que $b^2-4ac \geq 0$. Dicho de otra forma, si $b^2-4ac<0$, entonces $q(x)$ no tiene raíces reales. De esta misma equivalencia de igualdades se puede ver que si $b^2-4ac\geq 0$, entonces $q(x)$ sí tiene por lo menos una raíz real.

Supongamos que $q(x)$ es un polinomio cuadrático con discriminante negativo. Si existiera una factorización en $\mathbb{R}[x]$ de la forma $q(x)=a(x)b(x)$, con ninguno de ellos constante, entonces ambos deben tener grado $1$. Podemos suponer que $a$ es mónico. Pero entonces $a(x)=x-r$ para $r$ un real, y por el teorema del factor tendríamos que $r$ sería raíz de $q(x)$, una contradicción a la discusión anterior. Esto muestra que $q(x)$ es irreducible.

Falta ver que no hay ningún otro polinomio irreducible en $\mathbb{R}[x]$. Cuando $p(x)$ es cuadrático de discriminante no negativo, entonces por la fórmula cuadrática tiene al menos una raíz real $r$ y por lo tanto $x-r$ divide a $p(x)$, mostrando que no es irreducible.

Si $p(x)$ es de grado mayor o igual a $3$ y tiene una raíz real $r$, sucede lo mismo. En otro caso, es de grado mayor o igual a $3$ y no tiene raíces reales. Pero de cualquier forma tiene al menos una raíz compleja $z$. Usando la proposición de la sección anterior, tenemos que $x^2-(z+\overline{z})x+z\overline{z}$ es un polinomio de coeficientes reales que divide a $p(x)$ en $\mathbb{R}[x]$, lo cual muestra que no es irreducible.

Concluimos entonces que los únicos polinomios irreducibles en $\mathbb{R}[x]$ son los lineales y los cuadráticos de discriminante negativo.

$\square$

Ahora sí podemos enunciar el resultado estelar de esta entrada.

Teorema (factorización en polinomios reales). Todo polinomio $p(x)$ en $\mathbb{R}[x]$ distinto del polinomio cero se puede factorizar de manera única como $$a(x-r_1)\cdots(x-r_m)(x^2-b_1x+c_1)\cdots (x^2-b_{n}x+c_{n}),$$ en donde:

  • $a$ es un real distinto de cero,
  • $m$ y $n$ son enteros tales que $m+2n$ es igual al grado de $p(x)$,
  • para cada $i$ en $\{1,\ldots,m\}$ se tiene que $r_i$ es raíz real de $p(x)$ y
  • para cada $j$ en $ \{1,\ldots,n\}$ se tiene que $b_j,c_j$ son reales tales que $b_j^2-4c_j<0$.

Demostración. Mostraremos la existencia de la factorización. La parte de la unicidad es sencilla, y su demostración queda como tarea moral. Si $p(x)$ es irreducible, entonces al factorizar su coeficiente principal $a$ obtenemos la factorización deseada. Si $p(x)$ no es irreducible, procedemos por inducción fuerte sobre el grado $d$ de $p(x)$. El menor grado que debe tener es $2$ para no ser irreducible.

Si $d=2$ y es no irreducible, el resultado es cierto pues se puede factorizar como dos factores lineales y luego factorizar al término $a$ los coeficientes principales de cada factor para que queden mónicos.

Sea $d\geq 3$ y supongamos el resultado cierto para todo polinomio de grado menor a $d$. Tomemos un polinomio $p(x)$ de grado $d$. Por el teorema de irreducibilidad de polinomios reales, $p(x)$ no es irreducible, así que se puede factorizar como $p(x)=r(x)s(x)$ con $r(x)$ y $s(x)$ no constantes, y por lo tanto de grado menor al de $p(x)$. Por hipótesis inductiva, tienen una factorización como la del teorema. La factorización de $p(x)$ se obtiene multiplicando ambas. Esto termina la inducción.

$\square$

Veamos cómo podemos usar todas estas ideas en un problema en concreto de factorización en polinomios reales.

Problema. Factoriza al polinomio $x^{12}-1$ en polinomios irreducibles en $\mathbb{R}[x]$.

Solución. Usando identidades de factorización, podemos avanzar bastante:
\begin{align*}
x^{12}-1&=(x^6-1)(x^6+1)\\
&=(x^3-1)(x^3+1)(x^6+1)\\
&=(x-1)(x^2+x+1)(x+1)(x^2-x+1)(x^2+1)(x^4-x^2+1).
\end{align*}

Hasta aquí, $x+1$ y $x-1$ son factores lineales. Además, $x^2+x+1$, $x^2-x+1$ y $x^2+1$ son factores cuadráticos irreducibles pues sus discriminantes son, respectivamente, $-3,-3,-4$.

Aún queda un factor $x^4-x^2+1$ que por ser de grado $4$ no es irreducible. Sumando y restando $2x^2$, y luego factorizando la diferencia de cuadrados, tenemos:
\begin{align*}
x^4-x^2+1 &= x^4+2x^2+1-3x^2\\
&=(x^2+1)^2-3x^2\\
&=(x^2+1-\sqrt{3}x)(x^2+1+\sqrt{3}x).
\end{align*}

Cada uno de estos factores cuadráticos tiene discriminante $-1$, y por lo tanto es irreducible. Concluimos entonces que la factorización en irreducibles de $x^{12}-1$ en $\mathbb{R}[x]$ es
\begin{align*}
(x-1)(x&+1)(x^2+1)(x^2+x+1)\\
&(x^2-x+1)(x^2+\sqrt{3}x+1)(x^2-\sqrt{3}x+1).
\end{align*}

$\square$

Más adelante…

El teorema fundamental del álgebra y sus consecuencias en $\mathbb{R}$ son los resultados algebraicos más importantes que obtendremos en el estudio de polinomios, ya que nos permite caracterizar, al menos en teoría a todos los polinomios a partir de sus raíces.

En las siguientes entradas ocuparemos las herramientas que hemos desarrollado hasta ahora, sin embargo cambiaremos el enfoque de estudio, usaremos también herramientas de los cursos de cálculo para poder dar un análisis más detallado del comportamiento de los polinomios, y que nos servirán para que en muchos casos podamos encontrar las raíces de un polinomio, o cuando menos tener una idea de cómo son.

Tarea moral

  • Haz la construcción formal de $\mathbb{C}[x]$ a partir de sucesiones de complejos. Muestra que se pueden expresar en la notación de $x$ y sus potencias. Prueba los teoremas que hemos visto hasta ahora. Todo debe ser análogo al caso real, por lo que te servirá mucho para repasar los conceptos vistos hasta ahora.
  • Muestra la unicidad de la factorización en $\mathbb{C}[x]$ y en $\mathbb{R}[x]$.
  • Sea $z$ un complejo no real. Muestra que que $x-z$ y $x-\overline{z}$ son polinomios primos relativos en $\mathbb{C}[x]$.
  • Hay que tener cuidado en las hipótesis de los teoremas de esta entrada. Muestra que $3$ es una raíz del polinomio $x^3-6x^2+11x-6$, pero que $x^2-6x+9$ no divide a este polinomio.
  • Argumenta por qué en el teorema de factorización en polinomios reales sucede que $m+2n$ es el grado de $p(x)$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Seminario de Resolución de Problemas: Problemas de cálculo variados

Por Leonardo Ignacio Martínez Sandoval

Introducción

En las entradas anteriores ya tratamos varios temas de cálculo y cómo se combinan con heurísticas para resolver problemas de cálculo. Veremos ahora otros problemas para repasar las técnicas que hemos aprendido hasta ahora y explorar algunas nuevas ideas.

Los primeros dos ejemplos son del libro Problem Solving through Problems de Loren Larson. Los últimos dos son de un concurso universitario: la Competencia Iberoamericana Interuniversitaria de Matemáticas.

El método del factor de integración

Para resolver problemas de cálculo, también es útil tener algunas ideas de ecuaciones diferenciales. Un método muy útil en la resolución de problemas es el método de factor de integración, que ayuda a resolver ecuaciones diferenciales de la forma $$y’+a(x)y=b(x).$$

La idea para resolver esta ecuación diferencial en $y$ (es decir, despejar a $y$ en términos de $a$ y $b$) es multiplicar ambos lados de la ecuación por $I(x)=e^{\int a(x)\, dx$ y observar que por regla de la cadena, la regla del producto y el teorema fundamental del cálculo, tenemos la ecuación diferencial equivalente $$(yI(x))’ =I(x)b(x).$$

De aquí, podemos integrar de ambos lados en un intervalo $[c,x]$. Por el teorema fundamental del cálculo, existe una constante $C$ tal que $$yI(x)=\int_{c}^x I(t) b(t)\, dt + C,$$ y ya de aquí podemos despejar $$y=I(x)^{-1}\left( \int_{c}^x I(t) b(t)\, dt + C\right).$$

A $I(x)$ se le conoce como el factor de integración.

Problema. Sea $f:(0,\infty)\to \mathbb{R}$ una función diferenciable y supongamos que $$\lim_{x\to \infty} f(x)+f'(x) = 0.$$ Muestra que $$\lim_{x\to 0} f(x) = 0.$$

Sugerencia pre-solución. Define $g(x)=f(x)+f'(x)$ y usando el método de integración «despeja» a $f$ en términos de $g$.

Solución. Definamos $g(x)=f(x)+f'(x)$. La hipótesis dice que $\lim_{x\to 0} g(x) = 0$, así que para obtener información de $f$ en términos de $g$, podemos usar el método de factor de integración. Por la discusión antes de este párrafo, tenemos que $$f(x)=e^{-x}\int_a^x e^t g(t) \,dt + Ce^{-x}.$$

Tomemos un $\epsilon>0$. Como $g(x)\to 0$ cuando $x\to \infty$, podemos tomar un $a$ tal que $|g(x)|<\epsilon$ para todo $x>a$. Usando desigualdad del triángulo en sumas e integrales, tenemos que para $x>a$
\begin{align*}
|f(x)|&\leq e^{-x}\left|\int_a^x e^t g(t)\right|+|Ce^{-x}|\\
&\leq e^{-x}\int_a^x e^t|g(t)|\, dt + |C|e^{-x}\\
&\leq \epsilon e^{-x}\int e^t\, dt + |C|e^{-x}\\
&=\epsilon e^{-x}(e^x-e^a)+|C|e^{-x}\\
&=\epsilon(1-e^{a-x})+|C|e^{-x}
\end{align*}

Tenemos que $\lim_{x\to \infty} e^{a-x} = 0$ y que $\lim_{x\to \infty} e^{-x}=0$, de modo que si $x$ es suficientemente grande, la expresión anterior nos dice $|f(x)|<2\epsilon$. En otras palabras, $f(x)\to 0$ cuando $x\to \infty$, como queríamos.

$\square$

Una integral con doble derivada

Problema. Sea $f:[0,1]\to \mathbb{R}$ una función dos veces diferenciable que cumple $f(0)=f(1)=0$ y tal que $f(x)>0$ para $x$ en $(0,1)$. Muestra que $$\int_0^1 \left| \frac{f»(x)}{f(x)} \, dx \right| > 4.$$

Sugerencia pre-solución. Tenemos ya varias técnicas para evaluar o estimar integrales. Si con un método llegas a una pared, intenta usar otro método. Necesitarás el teorema del valor extremo, el teorema del valor medio y el teorema fundamental del cálculo.

Solución. Por el teorema del valor extremo, existe un valor $c$ en $(0,1)$ tal que $y=f(c)$ es un máximo de $f$. Por el teorema del valor medio, existen puntos $a$ en $(0,c)$ y $b$ en $(c,1)$ tales que $$f'(a)=\frac{f(c)-f(0)}{c}=\frac{y}{c}$$ y $$f'(b)=\frac{f(1)-f(c)}{1-c}=\frac{-y}{1-c}.$$

Usando que $f$ alcanza su máximo $y$ en $c$

\begin{align*}
\int_0^1 \left| \frac{f»(x)}{f(x)} \, dx \right|&\geq \int_a^b \left| \frac{f»(x)}{f(x)} \, dx \right| \\
&\geq \frac{1}{y} \int_a^b \left| f»(x) \, dx \right|,
\end{align*}

de modo que aplicando el teorema fundamental del cálculo a la última integral, obtenemos que

\begin{align*}
\int_0^1 \left| \frac{f»(x)}{f(x)} \, dx \right| &\geq \frac{1}{y} \int_0^1 \frac{1}{y}|f'(b)-f'(a)|\\
&=\frac{1}{y} \left|\frac{-y}{1-c}-\frac{y}{c}\right|\\
&=\left|\frac{1}{c(1-c)}\right|.
\end{align*}

Para terminar, notamos que la función $h(x)=x(1-x)$ es diferenciable en $(0,1)$ y continua en $[0,1]$, de modo que alcanza su máximo en $0$, en $1$ o en donde la derivada $h'(x)=1-2x$ es $0$, es decir, en $1/2$. Tenemos que $h(1/2)=1/4$ y que $h(0)=h(1)=0$, de modo que el máximo es $1/4$. Con esto, concluimos que $$\left|\frac{1}{c(1-c)}\right| \geq 4,$$ de donde se completa la cadena de desigualdades que queremos.

$\square$

En el problema anterior usamos el teorema del valor medio como paso intermedio. Es recomendable que pienses qué hubiera pasado si nos hubiéramos saltado este paso y hubiéramos usado el mínimo directamente, sin limitarnos primero al intervalo $[a,b]$. En los problemas de cálculo a veces es muy importante el orden en el que se hacen las cosas.

Dos problemas de cálculo de competencias

Veamos ahora algunos problemas de cálculo que han aparecido en concursos a nivel universitario. El siguiente problema apareció en la Competencia Iberoamericana Interuniversitaria de Matemáticas, en 2015, como Problema 4.

Problema. Sea $f:\mathbb{R}\to \mathbb{R}$ una función continua y $\alpha$ un número real. Sabemos que $\lim_{x\to \infty} f(x) = \lim_{x\to -\infty} = \alpha$. Muestra que para cualquier real positivo $r$ existen reales $x$ y $y$ tales que $y-x=r$ y $f(x)=f(y)$.

Sugerencia pre-solución. Modifica el problema, construyendo una función que te ayude a resolverlo. Necesitarás el teorema del valor intermedio. También, una parte de la solución necesita que se use inducción.

Solución. Tomemos cualquier valor $r$ y consideremos la función $h(x)=f(x+r)-f(x)$. Como $f$ es continua, la función $h$ es continua. Si $h(x)>0$ para todo real, entonces podemos mostrar inductivamente que para cualesquiera enteros positivos $m$ y $n$ tenemos que $$f(x-mr)<f(x)<f(x+r)<f(x+nr).$$

Haciendo $n$ y $m$ ir a infinito, tendríamos que $$\alpha\leq f(x) < f(x+r) \leq \alpha,$$ lo cual es una contradicción.

Así, $h(x)$ toma valores menores o iguales a $0$. De modo similar, podemos mostrar que $h(x)$ toma valores mayores o iguales a $0$. Como $h$ es continua, por el teorema del valor intermedio debe tomar el valor $0$ para algún $c$, de modo que $f(c+r)-f(c)=h(c)=0$ y así, tomando $x=c$ y $y=c+r$ tenemos $y-x=r$ y $$f(y)=f(c+r)=f(c)=f(x).$$

$\square$

El siguiente problema apareció en la Competencia Iberoamericana Interuniversitaria de Matemáticas, en 2010, como Problema 4.

Problema. Sea $f:[0,1]\to [0,1]$ una función continua, creciente, diferenciable en $[0,1]$ y tal que $f'(x)<1$ en cada punto. La sucesión de conjuntos $A_1, A_2, \ldots$ se define recursivamente como $A_1=f([0,1])$ y para $n\geq 2$, $A_n=f(A_{n-1})$. Muestra que el diámetro de $A_n$ converge a $0$ conforme $n\to \infty$.

El diámetro de un conjunto $X$ es $\sup_{x,y \in X} |x-y|$.

Sugerencia pre-solución. Para una primer parte del problema que te ayudará a entender a los $A_i$, necesitarás el teorema del valor intermedio y el principio de inducción. Luego, necesitarás usar el teorema del valor medio y que las funciones continuas preservan límites de sucesiones convergentes.

Solución. Por conveniencia, nombramos $A_0=[0,1]$. Sea $d_n$ el diámetro de $A_n$. Tenemos $d_0=1$. Como $f$ es creciente, tenemos que $f(0)<f(1)$ y que no hay ningún valor fuera del intervalo $[f(0),f(1)]$ que se tome. Como $f$ es continua, se toman todos esos valores. Así, $A_1=[f(0),f(1)]$ y su diámetro es $d_1=f(1)-f(0)$. Inductivamente, podemos mostrar que $A_n= [f^n(0),f^n(1)]$ y que $d_n=f^{n}(1)-f^{n}(0)$.

Notemos que la sucesión $f^{n}(0)$ es creciente y acotada, de modo que converge a un real $a$. Como $f$ es contínua, tenemos que \begin{align*}f(a)&=f(\lim_{n\to \infty} f^{n}(0)) \\&= \lim_{n\to \infty} f^{n+1}(0) \\&= a.\end{align*} Análogamente, $f^n(1)$ converge a un real $b$ tal que $f(b)=b$. Como $f^n(0)\leq f^n(1)$, tenemos que $a\leq b$. Afirmamos que $a=b$. Si no, por el teorema del valor medio existiría un $c\in[a,b]$ tal que $$f'(c)=\frac{f(b)-f(a)}{b-a}=\frac{b-a}{b-a}=1,$$ contradiciendo la hipótesis de la cota de la derivada.

Esto muestra que $a=b$, y por lo tanto
\begin{align*}
\lim_{n\to \infty} d_n &= \lim_{n\to \infty} f^n(1)-f^n(0) \\
&=b-a\\
&= 0.
\end{align*}

$\square$

En este problema es muy importante primero mostrar que los extremos de los intervalos convergen a puntos fijos de $f$ y después usar el teorema del valor intermedio. Podría ser tentador usar el teorema del valor intermedio en cada intervalo $[f^n(0),f^n(1)]$, pero con ello no se llega al resultado deseado.

Más problemas

En todas estas entradas hemos platicado acerca de problemas de temas de cálculo. Se pueden encontrar muchos más problemas de este tema en el Capítulo 6 del libro Problem Solving through Problems de Loren Larson.

Además, puedes encontrar otros problemas resueltos en la sección de Material para practicar de este blog, que ayuda a prepararse para competencias internacionales de matemáticas a nivel universitario.

Teorema de la función inversa: motivación y ejemplo

Por Leonardo Ignacio Martínez Sandoval

Introducción

Imagina, por un momento, que en un futuro trabajas en la Agencia Espacial Mexicana (AEM). De repente, llega la directora y trae una función en las manos. «Para una misión crítica necesito que me conviertas esta función en una función invertible, cuanto antes posible». Te da la función. Le respondes «Ok, directora y, ¿cómo la quiere o qué?». Pero es demasiado tarde. Ya salió y hay que ponerse a trabajar. Entonces tomas la función, la pones en el gis y comienzas a estudiarla en el pizarrón.

Resulta que es una función de varias variables. Específicamente, es la función que pasa de coordenadas polares a coordenadas cartesianas. Es decir, es la función $F:\mathbb{R}^2 \to \mathbb{R}^2$ dada por:

$$F(r,\theta)=(r\cos\theta, r \sin\theta).$$

La función sí es suprayectiva, así que ya va parte del trabajo hecho. Pero el problema es que no es inyectiva. Por ejemplo,

$$F\left(1,\frac{\pi}{2}\right)=\left(\cos\frac{\pi}{2},\sin\frac{\pi}{2}\right)=(0,1)=F\left(1,\frac{5\pi}{2}\right).$$

Peor aún, para todo $\theta \in \mathbb{R}$ se tiene que $F(0,\theta)=(0,0)$.

Pero la situación no es tan terrible. Una forma de solucionarla es restringir el dominio de la función. Si en vez de pensarla en una función $F:\mathbb{R}^2\to \mathbb{R}^2$ la pensamos como una restricción $F:U\to V$ para algunos conjuntos $U$ y $V$, entonces muy posiblemente la podamos «convertir» en una función biyectiva.

No podemos ser demasiado arbitrarios. Por ejemplo, si tomamos $U=\{(0,0)\}$ y $V=\{(0,0)\}$, entonces claramente la restricción es una biyección, pero está muy chafa: sólo nos quedamos con un punto. Por esta razón, vamos a poner una meta un poco más ambiciosa y a la vez más concreta: lograr que $U$ y $V$ sean conjuntos abiertos alrededor de los puntos $x$ y $y:=F(x)$ para algún $x\in \mathbb{R}^2$. Si lo logramos, habremos encontrado una biyección «cerquita de $x$» en conjuntos «más gorditos». Para algunos puntos $x$ lo podemos hacer, y para algunos otros puntos $x$ es imposible. Veamos ejemplos de ambas situaciones.

Si $x=\left(\sqrt{2},\frac{\pi}{4}\right)$, entonces $y=\left(\sqrt{2}\cos \frac{\pi}{4}, \sqrt{2}\sin\frac{\pi}{4}\right)=(1,1)$. En este caso, podemos elegir una vecindad pequeña $U$ alrededor de $x$ y tomar $V:=F(U)$, pues los otros puntos $w$ con $F(x)=F(w)$ están lejos (están a brincos verticales de tamaño $2\pi$ de $x$). Para resolver el problema de la AEM, basta restringir $F$ a $U$.

Sin embargo, si $x=\left(0, \frac{\pi}{4}\right)$, entonces $y=(0,0)$. Sin importar qué tan pequeña tomemos la vecindad abierta $U$ alrededor de $x$, vamos a seguir tomando puntos $w$ sobre la recta $r=0$, para los cuales sucede $F(x)=0=F(w)$. Si la directora de la AEM insiste en que haya un punto con $r=0$, entonces no hay invertibilidad en todo un abierto alrededor de este punto. Esperemos que la misión no dependa de eso.

Aplicando el teorema de la función inversa

El teorema de la función inversa es una herramienta que da condiciones suficientes para que una función $F:\mathbb{R}^n\to \mathbb{R}^n$ pueda invertirse localmente «cerca» de un punto de su dominio. Podemos utilizar este resultado cuando la función que estudiamos es «bien portada», donde esto quiere decir que sea continuamente diferenciable. Si bien hay ligeras variantes en la literatura, el enunciado que presento aquí es el siguiente:

Teorema de la función inversa

Sea $F:\mathbb{R}^n\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$ con matriz Jacobiana $DF$. Supongamos que $F(a)=b$ y que $DF(a)$ es invertible. Entonces existen vecindades abiertas $U$ y $V$ de $a$ y $b$ respectivamente para las cuales:

a) $F:U\to V$ es una biyección,
b) su inversa $F^{-1}:V\to U$ es de clase $\mathcal{C}^1$ y
c) $DF^{-1}(b)=DF(a)^{-1}$.

En otra entrada hablo de la intuición de este teorema, así como de su demostración. Por el momento sólo me enfocaré en dar un ejemplo de cómo podemos usarlo.

Regresemos al ejemplo de la Agencia Espacial Mexicana. La función que tenemos es $F:\mathbb{R}^2\to \mathbb{R}^2$ que está dada por

$$F(r,\theta)=(F_1(r,\theta),F_2(r,\theta))=(r\cos\theta, r \sin\theta).$$

Para usar el teorema de la función inversa, tenemos que estudiar la invertibilidad de $DF$, su matriz Jacobiana. Esta está construida a partir de las derivadas parciales de las funciones coordenadas como sigue:

$$DF(r,\theta)= \begin{pmatrix}
\frac{\partial F_1}{\partial r}(r,\theta) & \frac{\partial F_1}{\partial \theta}(r,\theta)\\
\frac{\partial F_2}{\partial r}(r,\theta) & \frac{\partial F_2}{\partial \theta}(r,\theta)
\end{pmatrix}= \begin{pmatrix}
\cos \theta & -r\sin \theta\\
\sin \theta & r \cos \theta.
\end{pmatrix} $$

Para estudiar su invertibilidad, notamos que su determinante es

\begin{align*}
\det(DF(r,\theta))&=\cos \theta \cdot r\cos \theta – \sin \theta \cdot (-r\sin \theta) \\
&= r\cos^2\theta+r\sin^2\theta \\
&= r,
\end{align*}

y que es distinto de $0$ si y sólo si $r\neq 0$. Esto coincide con las observaciones que hicimos «a mano»: la función es invertible localmente en $(r,\theta)$ si $r\neq 0$. Cuando $r=0$, la invertibilidad no está garantizada.

El teorema de la función inversa tiene más implicaciones. Nos dice además que la inversa $F^{-1}$ también es continuamente diferenciable y que su derivada es la inversa de $F$. Como ejemplo, consideremos el punto $\left(\sqrt{2},\frac{\pi}{4}\right)$. Tenemos que

$$F\left(\sqrt{2},\frac{\pi}{4}\right) = (1,1),$$

que

$$DF\left(\sqrt{2},\frac{\pi}{4}\right) = \begin{pmatrix}
\frac{1}{\sqrt{2}}& -1\\
\frac{1}{\sqrt{2}} & 1
\end{pmatrix},$$

y que $\det\left(DF\left(\sqrt{2},\frac{\pi}{4}\right)\right)=\sqrt{2}$.

Así, $F$ es invertible localmente alrededor de $
\left(\sqrt{2},\frac{\pi}{4}\right)$, su inversa es continuamente diferenciable y además

$$D(F^{-1})(1,1)=DF\left(\sqrt{2},\frac{\pi}{4}\right)^{-1} =\frac{1}{\sqrt{2}}
\begin{pmatrix}
1 & 1\\
-\frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}}
\end{pmatrix}.$$

Esto termina la motivación y el ejemplo del teorema de la función inversa. Si quieres entender un poco mejor la intuición detrás del teorema, así como su demostración, puedes darte una vuelta por esta otra entrada.

¿Ahora qué?

Si te gustó esta entrada, puedes compartirla o revisar otras relacionadas con matemáticas a nivel universitario:

Una prueba del teorema de la función inversa

Por Leonardo Ignacio Martínez Sandoval

Introducción

Uno de los teoremas clave de los cursos de cálculo de varias variables es el teorema de la función inversa (TFI). En la Facultad de Ciencias de la UNAM se estudia en la materia Cálculo III. En esta entrada me gustaría presentar de la manera más auto-contenida posible este resultado.

Platicaré un poco de las definiciones de los términos que aparecen en el enunciado, así como de la intuición de por qué el teorema es cierto. Después presentaré los ingredientes principales para una prueba. Finalmente, presentaré la prueba intentando motivarla y dividiéndola en secciones pequeñas.

El enunciado con el que trabajaremos es el siguiente:

Teorema de la función inversa. Sea $F:\mathbb{R}^n\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$ con matriz Jacobiana $DF$. Supongamos que $F(a)=b$ y que $DF(a)$ es invertible. Entonces existen vecindades abiertas $U$ y $V$ de $a$ y $b$ respectivamente para las cuales:

a) $F:U\to V$ es una biyección,
b) su inversa $F^{-1}:V\to U$ es de clase $\mathcal{C}^1$ y
c) $DF^{-1}(b)=DF(a)^{-1}$.

Lo que nos espera es aproximadamente lo que está en el siguiente diagrama, donde las flechas indican a grandes rasgos qué resultado se usa para probar qué otro.

Definiciones e intuición

La función con la que comenzamos es una función de $\mathbb{R}^n$ a $\mathbb{R}^n$, así que la podemos descomponer en sus funciones coordenadas de la siguiente manera: $$F(x)=(F_1(x), F_2(x),\ldots, F_n(x)).$$

Que la función sea de clase $\mathcal{C}^1$ quiere decir que las derivadas parciales con respecto a cada una de las variables existen, que estas son continuas y que localmente $F$ «se comporta» como la transformación lineal correspondiente a la matriz Jacobiana siguiente:

$$DF(x)=\begin{pmatrix}
\frac{\partial F_1}{\partial x_1}(x) & \cdots & \frac{\partial F_1}{\partial x_n}(x)\\
\vdots & \ddots & \vdots \\
\frac{\partial F_n}{\partial x_1}(x) & \cdots & \frac{\partial F_n}{\partial x_n}(x)
\end{pmatrix}.$$

Entonces, a grandes rasgos lo que nos dice el teorema de la función inversa es lo siguiente. Si $F$ se comporta como una transformación lineal $T$ invertible «cerquita» del punto $a$, entonces en realidad es invertible «cerquita» del punto $a$ y más aún, la inversa se comporta como la transformación lineal $T^{-1}$ «cerquita» del punto $b=f(a)$.

Suena bastante razonable, pero hay algunos aspectos que son sorprendentes. Uno es que se garantiza la invertibilidad en todo un abierto $U$. Si no se requiriera que fuera abierto, sería chafa porque podríamos tomar $U=\{a\}$ y $V=\{b\}$ y la restricción sería trivialmente invertible. Lo otro es que el teorema también garantiza que la inversa es diferenciable, lo cual de entrada no es evidente.

Para la prueba necesitamos hablar de dos normas. Cuando tengamos un vector $x=(x_1,\ldots,x_n)$ en $\mathbb{R}^n$, $\norm{x}$ denotará la norma euclideana $$\norm{x}=\sqrt{\sum_{i=1}^nx_i^2}.$$

Necesitaremos también la norma de Frobenius. Como recordatorio, para una matriz $A=(a_{ij})$ de $n\times n$, su norma de Frobenius está dada por $$\norm{A}=\sqrt{\sum_{i=1}^n\sum_{j=1}^n a_{ij}^2},$$

o equivalentemente, si $A_i$ es el $i$-ésimo renglón de $A$, tenemos que

$$\norm{A}=\sqrt{\sum_{i=1}^n\norm{A_{i}}^2},$$

pues ambas expresiones suman todas las entradas de la matriz al cuadrado.

Ingredientes para la prueba

Pasemos ahora a algunos resultados auxiliares que es más cómodo probar desde antes. Algunos de ellos son más generales que lo que enuncio (e incluso con la misma prueba), pero con el fin de que la demostración sea auto-contenida, he decidido enunciar sólo lo que necesitamos.

Teorema del punto fijo de Banach (para $\mathbb{R}^n$). Sea $X$ un compacto de $\mathbb{R}^n$ y $\varphi:X\to X$ una función continua. Supongamos que $\varphi$ es una contracción, es decir, que existe un real $0<\lambda<1$ para el cual $\norm{\varphi(x)-\varphi(y)}\leq\lambda \norm{x-y}$ para todos $x,y \in X$.

Entonces $\varphi$ tiene un único punto fijo, es decir existe uno y sólo un punto $x_0\in X$ para el cual $\varphi(x_0)=x_0$.

Para probar el teorema del punto fijo de Banach basta tomar cualquier punto inicial $x_1$ y considerar la sucesión $\{x_m\}$ construida recursivamente con la regla $x_m=\varphi(x_{m-1})$ para $m\geq 2$. Usando que $\varphi$ es contracción y la fórmula para series geométricas se puede mostrar inductivamente que para $m>m’$ se tiene

$$\norm{x_m-x_m’}\leq\lambda ^{m’-1} \norm{x_2-x_1} \left(\frac{1}{1-\lambda}\right).$$

Como $\lambda<1$, el lado derecho se hace arbitrariamente pequeño conforme $m’$ se hace grande, así que ésta es una sucesión de Cauchy. Por la compacidad de $X$ y completud de $\mathbb{R}^n$, tenemos que la sucesión converge a un punto $x_0$. Por continuidad, este punto satisface:

$$x_0=\lim_{m\to \infty} x_{m+1} = \lim_{m\to \infty} \varphi(x_m)=\varphi\left(\lim_{m\to \infty} x_m\right) = \varphi(x_0).$$

La unicidad no necesita la compacidad de $X$, sino únicamente que $\varphi$ sea contracción. En efecto, si hay otro punto fijo $x$ entonces

$$\norm{x-x_0}=\norm{\varphi(x)-\varphi(x_0)}\leq \lambda \norm{x-x_0},$$

de donde $\norm{x-x_0}=0$, pues si no se tendría una contradicción. Así, $x=x_0$.

Desigualdades para la norma de Frobenius. Para $x\in \mathbb{R}^n$ y $A,B$ matrices reales de $n\times n$ tenemos que
a) $\norm{Ax}\leq \norm{A} \norm{x}$ y
b) $\norm{AB}\leq \norm{A} \norm{B}$.

La desigualdad (a) se prueba usando la desigualdad de Cauchy-Schwarz. En efecto, si $A_1,\ldots, A_n$ son los renglones de la matriz $A$, tenemos que $$Ax=(A_1\cdot x, A_2\cdot x, \ldots, A_n\cdot x),$$

entrada a entrada tenemos por Cauchy-Schwarz que

$$(A_i\cdot x)^2\leq \norm{A_i}^2\norm{x}^2,$$

de modo que sumando para $i=1,\ldots, n$ tenemos que

$$\norm{Ax}^2\leq \left(\sum_{i=1}^n \norm{A_i}^2\right)\norm{x}^2=\norm{A}^2\norm{x}^2,$$

lo cual prueba la desigualdad (a). La desigualdad (b) se prueba de manera similar, tomando fila por fila a la matriz $A$ y columna por columna a la matriz $B$.

Desigualdad del valor medio. Sea $U\subset \mathbb{R}^n$ un abierto convexo y $F:U\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$. Sean $x,y$ puntos en $U$ para los cuales la cual la norma de Frobenius del Jacobiano $\norm{DF}$ está acotada sobre el segmento $xy$ por una constante $C$. Entonces:

$$\norm{F(x)-F(y)}\leq C \norm{x-y}.$$

La desigualdad del valor medio requiere de algunos pasos intermedios. Definamos $h=y-x$. La clave es probar las siguientes tres afirmaciones:

\begin{align*}
F(x)-F(y)&=\int_0^1 DF(x+th) h \,dt\\
\norm{\int_0^1 DF(x+th) h \, dt } &\leq \int_0^1 \norm{DF(x+th)}\norm{h}\, dt\\
\int_0^1 \norm{DF(x+th)}\norm{h}\, dt &\leq C \norm{h}.
\end{align*}

La primera es una «generalización» del teorema del valor medio de una variable. Se prueba coordenada a coordenada usando el Teorema Fundamental del Cálculo, la regla de la cadena y un intercambio de integral con suma (usando la continuidad de las derivadas parciales).

La segunda se prueba usando desigualdad del triángulo para integrales y la desigualdad (a) que probamos arriba para la norma de Frobenius.

La tercera se sigue de manera inmediata de la cota hipótesis para la matriz Jacobiana, pues $x+th=x+t(y-x)$ recorre el segmento $xy$ conforme $t$ recorre el intervalo $[0,1]$.

Combinando las tres afirmaciones concluimos

$$\norm{F(x)-F(y)}\leq C\norm{h}=C\norm{y-x},$$

que es justo lo que queríamos probar.

Con esto terminamos los pre-requisitos para probar el TFI. Aquí ya se ve algo interesante sucediendo. En el TFI queremos mostrar que cierta restricción es biyectiva, osea que cierto sistema de ecuaciones tiene una y sólo una solución. Esto se asemeja al teorema del punto fijo de Banach, donde, bajo ciertas condiciones de contracción, hay uno y sólo un punto fijo. El teorema de la desigualdad media puede ayudar a mostrar que una función contrae. Todo esto no es casualidad. A continuación veremos cómo combinar estos ingredientes.

Demostración del TFI

Estamos listos para dar la demostración del teorema de la función inversa. Por comodidad, aquí lo enunciamos de nuevo:

Teorema de la función inversa. Sea $F:\mathbb{R}^n\to \mathbb{R}^n$ una función de clase $\mathcal{C}^1$ con matriz Jacobiana $DF$. Supongamos que $F(a)=b$ y que $DF(a)$ es invertible. Entonces existen vecindades abiertas $U$ y $V$ de $a$ y $b$ respectivamente para las cuales:

a) $F:U\to V$ es una biyección,
b) su inversa $F^{-1}:V\to U$ es de clase $\mathcal{C}^1$ y
c) $DF^{-1}(b)=DF(a)^{-1}$.

Para el teorema necesitamos definir quién es el abierto $U$. Lo tomaremos como $U:=B(a,\epsilon)$, una bola abierta y centrada en $a$ de radio $\epsilon$. La idea es tomar $\epsilon$ tan pequeño como para que para $x\in U$ tengamos que $DF(x)$ sea invertible y

$$\norm{DF(a)-DF(x)}\leq \frac{1}{2\norm{DF(a)^{-1}}}.$$

Ambas cosas las podemos hacer pues la asignación $x \mapsto DF(x)$ es continua ya que $F$ es de clase $\mathcal{C}^1$. En el transcurso de la prueba discutiremos la motivación de esta elección. A $V$ lo tomaremos como $F(U)$.

Lo primero que haremos es reformular parte (a) en términos de puntos fijos. Queremos que la restricción $F:U\to V$ que estamos buscando sea biyectiva. En otras palabras, para $y\in V$ queremos que la ecuación $y=F(x)$ tenga una y sólo una solución $x$ en $U$. Como por hipótesis la matriz $DF(a)$ es invertible, esto sucede si y sólo si

$$x+DF(a)^{-1}(y-F(x))=x,$$

es decir, si y sólo si $x$ es un punto fijo de la función $\varphi_y(x)=x+DF(a)^{-1}(y-F(x))$. Parece un poco artificial haber introducido a $DF(a)^{-1}$, pero como veremos a continuación tiene sentido pues nos ayudará para que $\varphi_y$ sea contracción.

Teniendo en mente que queremos usar la desigualdad del valor medio, calculamos y acotamos la norma de la derivada de $\varphi_y$ como sigue

\begin{align*}
\norm{D\varphi_y (x)} &= \norm{I – DF(a)^{-1} DF(x)} \\
&= \norm{DF(a)^{-1}(DF(a) – DF(x))}\\
&\leq \norm{DF(a)^{-1}}\norm{DF(a)-DF(x)}
\end{align*}

Aquí es donde usamos (y se motiva parte de) nuestra elección de $U$: nos permite acotar $\norm{DF(a)-DF(x)}$ superiormente con $\frac{1}{2\norm{DF(a)^{-1}}} $ y por lo tanto podemos concluir la desigualdad anterior como

\begin{align}\norm{D\varphi_y (x)} \leq \frac{1}{2}.\end{align}

Por la desigualdad del valor medio, concluimos la siguiente observación clave.

Observacion. Para $y$ en $V$ tenemos que $\varphi_y$ es contracción en $U$ con factor $\lambda=\frac{1}{2}$. En otras palabras, para $x,w$ en $U$, tenemos $$\norm{\varphi_y(x)-\varphi_y(w)}\leq \frac{\norm{x-x’}}{2}.$$

La prueba a partir de ahora se divide en los siguientes pasos:

  1. Mostrar que $F:U\to V$ es biyectiva.
  2. Mostrar que $V$ es abierto
  3. Mostrar que $F^{-1}:V\to U$ es diferenciable y y $DF^{-1}(b)=DF(a)^{-1}$
  4. Mostrar que las derivadas parciales son continuas

$F:U\to V$ es biyectiva.

La suprayectividad la tenemos gratis, pues por definición $V=F(U)$.

Para la inyectividad, tomamos $y\in V$ y supongamos que existen $x$ y $w$ en $U$ tales que $F(x)=y=F(w)$. Esto quiere decir que $x$ y $w$ son puntos fijos de la contracción $\varphi_y$. Como vimos en la prueba del teorema del punto fijo de Banach, esto implica que $x=w$. Así, $x=w$, de modo que $F:U\to V$ es inyectiva y por lo tanto es biyectiva.

Nota: Aquí no estamos usamos el teorema del punto fijo de Banach pues $U$ no es compacto. Sólo estamos usando que las contracciones son inyectivas.

$V$ es abierto

Tomemos $y’$ en $V$, es decir, para la cual existe $x’$ en $U$ con $F(x’)=y’$. Queremos ver que si «$y$ está muy cerquita de $y’$» , entonces hay una solución para $F(x)=y$ con $x$ en $U$.

Como $U$ es abierto, existe $r$ tal que la bola $B(x’,2r)$ abierta de centro $x’$ y radio $2r$ se queda contenida en $U$. Tomemos $y$ en la bola $B\left(y’,\frac{r}{2\norm{DF(a)^{-1}}}\right)$. Vamos a ver que $F(x)=y$ tiene solución en $U$. Consideremos la función $\varphi_y$, pero restringida a la bola cerrada $X:=\overline{B}(x’,r)\subset U$. Mostraremos que la imagen de $\varphi_y$ se queda contenida en $\overline{B}(x’,r)$. En efecto:

\begin{align*}
\norm{\varphi_y(x)-x’}&=\norm{\varphi_y(x)-\varphi_y(x’)+DF(a)^{-1}(y-y’)}\\
&\leq \norm{\varphi_y(x)-\varphi_y(x’)}+\norm{DF(a)^{-1}}\norm{y-y’}\\
&\leq \frac{\norm{x-x’}}{2}+\frac{r}{2}\leq r.
\end{align*}

De este modo, $\varphi_y$ es una contracción del compacto $X$ a sí mismo. Por lo tanto, tiene un punto fijo en $X$, de modo que $F(x)=y$ para $x\in X\subset U$. Esto muestra que $V=F(U)$ es abierto.

$F^{-1}:V\to U$ es diferenciable y $DF^{-1}(b)=DF(a)^{-1}$

Vamos a demostrar que $F^{-1}:V\to U$ es diferenciable a partir de la definición de diferenciabilidad. Más aún, veremos que si $y=F(x)$ para $x$ en $U$, entonces $DF^{-1}(y)=DF(x)^{-1}$. Aquí es donde se termina de motivar nuestra elección en $U$, pues nos garantiza que a la derecha en efecto tenemos una matriz invertible.

Tomemos entonces $y=F(x)$. Nos interesa el límite cuando $\norm{h}\to 0$ de la siguiente expresión

$$\frac{\norm{F^{-1}(y+h)-F^{-1}(y)-DF(x)^{-1}h}}{\norm{h}},$$

Como $U$ es abierto, si $\norm{h}$ es pequeña entonces $y+h$ está en $U$. De este modo, existe $k$ tal que $x+k \in U$ y $F(x+k)=y+h$. Así, la expresión anterior la podemos reescribir como

\begin{align}\frac{\norm{DF(x)^{-1}(F(x+k)-F(x)-DF(x)k)}}{\norm{k}}\frac{\norm{k}}{\norm{h}}\end{align}

Antes de continuar, probemos una desigualdad auxiliar. Notemos que

\begin{align*}
\norm{k}-\norm{DF^{-1}(a)h} &\leq \norm{k-DF^{-1}(a)h}\\
&=\norm{\varphi_y(x+k)-\varphi_y(x)}\\
&\leq\frac{\norm{k}}{2},
\end{align*}

así,

\begin{align}\norm{k}\leq 2\norm{DF^{-1}(a)h} \leq 2\norm{DF^{-1}(a)}\norm{h}.\end{align}

Substituyendo el valor de $\norm{k}$ en (2), concluimos que la expresión es menor o igual a

\begin{align}2\norm{DF(x)^{-1}}\frac{\norm{F(x+k)-F(x)-DF(x)k}}{\norm{k}}\norm{DF^{-1}(a)}\end{align}

Estamos listos para terminar. La desigualdad (3) también garantiza que $\norm{k}\to 0$ cuando $\norm{h}\to 0$. Así, como $F$ es diferenciable, tenemos que la expresión (4) tiende a $0$. Esto muestra que $F^{-1}$ es diferenciable en $y$ con $DF^{-1}(y)=DF(x)^{-1}$, tal como queríamos.

Las derivadas parciales son continuas

Esta parte es sencilla a partir de la parte anterior. Tenemos que:

$$DF^{-1}(b)=DF(F^{-1}(b))^{-1}$$

Por la regla de Cramer la inversa de una matriz depende continuamente de las entradas de la matriz original. Además, la asignación $b \mapsto F^{-1}(b)$ es continua. Así, las entradas de $DF^{-1}(b)$ (las derivadas parciales de $F^{-1}$) dependen continuamente de las derivadas parciales de $F$, que dependen continuamente de $b$ por hipótesis.

Con esto termina la prueba.

¿Ahora qué?

Si te gustó esta entrada, puedes compartirla o revisar otras relacionadas con matemáticas a nivel universitario:

1TFC

Los TFC (Teoremas Fundamentales de los Cuadraditos)

Por Leonardo Ignacio Martínez Sandoval

Esta entrada está motivada por una pregunta en el grupo de Matemáticos de Facebook. Palabras más, palabras menos, alguien preguntaba por qué «derivar es el inverso de integrar», si uno tiene que ver con sacar un área y el otro tiene que ver con sacar una pendiente.

La idea formal que está detrás de esto de que sean «inversas» son los teoremas fundamentales del cálculo (TFC). Pero en esta entrada no me quiero meter con definiciones de límite ni cosas por el estilo. A fin de cuentas es un blog y estamos navegando tranquilos. Así que déjenme trabajar «al ahí se va», osea, informalmente. La idea es entender por qué derivar e integrar son operaciones inversas «con dibujitos» y en un caso más sencillo: el caso discreto. Veremos los teoremas fundamentales de los cuadraditos (TFC). ¡Oh no! ¡Se confunden las siglas! Bueno, ni modo.

Los cuadraditos

Todo empieza con algunos cuadraditos ordenados en columnas. De izquierda a derecha, tenemos 1, 2, 5, 3, 2, 4 y 2 cuadraditos en cada columna. Le voy a llamar $C_j$ a la cantidad de cuadraditos en la columna $j$. Por ejemplo, $C_3=5$.

Funcion

Seguir leyendo…