Archivo de la etiqueta: cálculo

Cálculo Diferencial e Integral II: Funciones integrables con finitas discontinuidades

Por Moisés Morales Déciga

Introducción

Hasta ahora, hemos hablado de funciones integrables en un intervalo cerrado, en términos de ciertas sumas superiores e inferiores. Vimos en la entrada de Propiedades de la integral que si una función es monótona o continua, entonces su integral siempre está definida. Ahora veremos qué sucede con las funciones que tienen discontinuidades. En esta entrada trataremos a las funciones que finitas discontinuidades. En la siguiente hablaremos de funciones con una infinidad de discontinuidades.

Breve repaso de integrabilidad

Recordemos que para determinar si una función acotada $f:\mathbb{R}\to \mathbb{R}$ es integrable en cierto intervalo $[a,b]$, debemos calcular ciertas sumas superiores e inferiores con respecto a una partición. Esto es tomar algunos puntos $x_0<\ldots<x_n$ en $[a,b]$, con $x_0=a$ y $x_n=b$. Escribimos $$P=\{ x_0, x_1, … , x_n \},$$

y decimos que $P$ genera los siguientes intervalos a los que llamamos celdas

$$[x_0,x_1],[x_1,x_2],…,[x_{n-1},x_n].$$

A $[x_{k-1},x_{k}]$ le llamamos la $k$-ésima celda de $P$, cuya longitud es $\Delta x_{k}=x_k-x_{k-1}$. Si $m_k$ es el ínfimo de los valores de $f$ en la $k$-ésima celda y $M_k$ es su supremo, entonces podemos definir respectivamente la suma inferior y superior como $$\underline{S}(f,P)=\sum_{k=1}^n m_k\Delta x_k \quad \text{y} \quad \overline{S}(f,P)=\sum_{k=1}^n M_k\Delta x_k.$$

La función $f$ es integrable cuando el ínfimo de las sumas superiores (tomado sobre todas las particiones) coindice con el supremos de las sumas inferiores. Vimos que esto es equivalente a pedir que para todo $\epsilon$ haya una partición en la que la suma superior y la inferior difieran menos que $\epsilon$ (a lo que llamamos el criterio de Riemann). Probamos varias otras propiedades de esta definición, pero una que será muy importante para esta entrada es la siguiente.

Proposición. Sea $f:\mathbb{R}\to \mathbb{R}$ una función acotada. Sea $c$ cualquier valor entre $[a,b]$. Si la integral

$$\int \limits_{a}^{b} f(x) \ dx$$

existe, entonces las dos integrales

$$\int \limits_{a}^{c} f(x) \ dx, \int \limits_{c}^{b} f(x) \ dx$$

también existen. Y viceversa, si estas dos integrales existen, entonces la primera también.

Cuando las tres integrales existen, se cumple además la siguiente igualdad:

$$\int \limits_{a}^{b} f(x) \ dx = \int \limits_{a}^{c} f(x) \ dx \ + \int \limits_{c}^{b} f(x) \ dx .$$

Usaremos esta proposición en las siguientes secciones, pero necesitamos una versión un poco más versátil.

Proposición. Sea $f:\mathbb{R}\to \mathbb{R}$ una función acotada y $n$ un entero positivo. Sea $P=\{x_0,\ldots,x_n\}$ una partición de $[a,b]$. Si la integral $$\int \limits_{a}^{b} f(x) \ dx$$ existe, entonces todas las integrales $$\int_{x_{k-1}}^{x_k} f(x)\, dx$$ para $k=1,\ldots,n$ existen. Y viceversa, si estas $n$ integrales existen, entonces la primera también. Cuando todas estas integrales existen, entonces $$\int \limits_{a}^{b} f(x) \ dx = \sum_{k=1} ^n \int_{x_{k-1}}^{x_k} f(x)\, dx.$$

La demostración de esta proposición no es difícil, pues se sigue de la proposición anterior y de una prueba inductiva. Por ello, la encontrarás como parte de los ejercicios.

Funciones escalonadas

Hablaremos de la integrabilidad de funciones escalonadas, para lo cual necesitaremos la siguiente definición.

Definición. Una función $f:\mathbb{R}\to \mathbb{R}$ es escalonada en el intervalo $[a,b]$, si existe una partición $P=\{ x_0, x_1, … , x_n\}$ del intervalo $[a,b]$, tal que $f$ es constante en cada subintervalo abierto de $P$. Es decir, para cada $k=1, 2, …, n$ existe un número real $s_k$ tal que:

$$f(x)=s_k, \quad \text{si} \quad x_{k-1} < x < x_k.$$

A las funciones escalonadas también se les conoce como funciones constantes a trozos.

Ejemplo. En algunos sistemas postales se deben poner estampillas en una carta para poderse enviar. La cantidad de estampillas que hay que poner está determinada por el peso de la carta. Supongamos que una estampilla cuesta $5$ pesos y que hay que poner una estampilla por cada $20g$ (o fracción) que pese la carta, hasta un máximo de $100g$.

Si el peso de la carta en gramos está en el intervalo $[0,20]$, entonces tienes que pagar $5$ pesos. Si está en el intervalo $(20,40]$, pagarás 10 pesos y así sucesivamente hasta que llegue a 100 gramos. Gráficamente, el costo de envío tendría el siguiente comportamiento (puedes dar clic en la imagen para verla a mayor escala).

Observa que en efecto parece ser que hay «escalones». Esta función es escalonada pues al dar la partición $P=\{0,20,40,60,80,100\}$, tenemos que la función es constante en cada intervalo abierto definido por la partición.

Si quisiéramos calcular la integral de esta función, ¿qué podríamos hacer? Podemos utilizar la proposición de separar la integral en intervalos que enunciamos arriba, usando la misma partición $P$. Como la función es constante en cada intervalo dado, entonces su integral existe. Así, la integral en todo el intervalo $[0,100]$ existirá y será la suma de las integrales en cada intervalo. Tendrás que encontrar el valor exacto como uno de los ejercicios.

$\triangle$

Integral para funciones escalonadas

Las funciones escalonadas en un cierto intervalo siempre son integrables, como lo afirma el siguiente resultado.

Teorema. Sea $f:\mathbb{R} \to \mathbb{R}$ una función. Si $f$ es escalonada en un intervalo $[a,b]$, entonces es integrable en $[a,b]$. Además, si la partición que muestra que es escalonada es $P=\{x_0,\ldots,x_n\}$, y para $x$ en el intervalo $[x_{k-1},x_k]$ (para $k=1,\ldots,n$) se cumple que $f(x)=s_k$, entonces se tiene que $$\int_a^b f(x)\, dx = \sum_{k=1}^n s_k (x_k-x_{k-1}).$$

El teorema nos dice entonces que el valor de la integral es la suma de los productos del valor $s_k$ (constante), por la longitud del $k$-ésimo intervalo. Esto tiene mucho sentido geométrico: cada uno de estos productos es el área de un rectángulo correspondiente a un «escalón». El teorema nos dice que el área buscada es la suma de las áreas de estos escalones.

Demostración. La demostración es consecuencia de la proposición para partir integrales en intervalos. Notemos que como $f$ es constante en cada intervalo $[x_{k-1},x_k]$ (para $k=1,\ldots,n$), entonces es integrable en dicho intervalo. En efecto, fijemos una $k\in \{1,\ldots,n\}$ y tomemos $Q=\{y_0,\ldots,y_m\}$ una partición de $[x_{k-1},x_k]$. En en este intervalo cualquier suma superior (o inferior) se hace tomando como supremo (o ínfimo) al valor constante $s_k$, de modo que:

\begin{align*}
\overline{S}(f,Q)&=\sum_{i=1}^m M_i \Delta y_i\\
&=\sum_{i=1}^m s_k \Delta y_i\\
&=s_k\sum_{i=1}^m \Delta y_i\\
&=s_k(x_k-x_{k-1}),\\
\underline{S}(f,Q)&= \sum_{i=1}^m m_i \Delta y_i \\
&=\sum_{i=1}^m s_k \Delta y_i\\
&=s_k\sum_{i=1}^m \Delta y_i\\
&=s_k (x_k – x_{k-1}).
\end{align*}

Así, el ínfimo de las particiones superiores y el supremo de las inferiores es $c_k(x_k-x_{k-1})$, por lo que la integral existe en cada intervalo $[x_{k-1},x_k]$ y es igual a $c_k (x_k – x_{k-1})$. Usando la proposición que enunciamos en la sección de recordatorio sobre partir la integral por intervalos, obtenemos

$$\int_a^b f(x)\, dx = \sum_{k=1}^n \int_{x_{k-1}}^{x_k} f(x)\, dx =\sum_{k=1}^n s_k (x_k-x_{k-1}),$$

como queríamos.

$\square$

Funciones continuas a trozos

Las funciones escalonadas son muy sencillas, pero las ideas que hemos discutido respaldan una cierta intuición de que para la integrabilidad «si la función se comporta bien en cada uno de una cantidad finita de intervalos, entonces se comporta bien en todo el intervalo». Esa idea se repite a continuación.

Definición. Sea $f:\mathbb{R}\to \mathbb{R}$. Diremos que $f$ es continua a trozos en el intervalo $[a,b]$ si existe una partición $P=\{x_0,\ldots,x_n\}$ de $[a,b]$ tal que $f$ es continua en cada intervalo $(x_{k-1},x_k)$ para $k=1,\ldots,n$.

Pareciera que estamos pidiendo continuidad en todo el intervalo $[a,b]$. Sin embargo, hay algunas excepciones. Por la manera en la que está escrita la definición, la función $f$ no necesariamente es continua en los puntos $x_1,x_2,\ldots,x_{n-1}$.

Proposición. Sea $f:\mathbb{R}\to \mathbb{R}$ una función acotada. Si $f$ es continua a trozos en el intervalo $[a,b]$, entonces $f$ es integrable en $[a,b]$.

Demostración. Nos gustaría usar la proposición de separación de la integral por intervalos. Para ello, tomemos la partición $P=\{x_0,\ldots,x_n\}$ de $[a,b]$ tal que $f$ es continua en cada intervalo $(x_{k-1},x_k)$ para $k=1,\ldots,n$. Si $f$ fuera continua en cada intervalo cerrado $[x_{k-1},x_k]$, podríamos usar un resultado anterior para ver que es integrable en cada uno de estos intervalos, pero aquí tenemos una hipótesis un poco más débil, pues la continuidad es sólo en el abierto.

De cualquier manera, se puede ver que $f$ es integrable en cada intervalo cerrado $[x_{k-1},x_k]$. Para ello, fijemos $k$ y tomemos $\epsilon>0$. Como $f$ es acotada, tiene supremo $M$ e ínfimo $m$ en $[a,b]$. Si $M=m$, entonces $f$ es constante y no hay nada que hacer. Así, supongamos $M\neq m$ y tomemos una $\delta>0$ tal que $2\delta(M-m)< \frac{\epsilon}{2}$, y tal que $\delta<\frac{x_k-x_{k-1}}{2}$. La segunda condición nos dice que $[x_{k-1}+\delta,x_k-\delta]$ es no vacío. Como $f$ es continua en este intervalo cerrado, es integrable ahí. Por el criterio de Riemann, hay una partición $Q=\{y_1,\ldots,y_{l-1}\}$ de dicho intervalo tal que $$\overline{S}(f,Q)-\underline{S}(f,Q)<\frac{\epsilon}{2}.$$

Si a esta partición agregamos los puntos $y_0=x_{k-1}$ y $y_l=x_k$, entonces obtenemos una partición $Q’=\{y_0,\ldots,y_l\}$ la cual su primera y última celda tienen longitud $\delta$ y cumple

\begin{align*}
\overline{S}(f,Q’)-\underline{S}(f,Q’)&=(\overline{S}(f,Q)-\underline{S}(f,Q))+(M_1-m_1)\Delta y_1 + (M_l-m_l)\Delta y_l\\
&<\frac{\epsilon}{2}+ (M-m)\delta + (M-m)\delta\\
&=\frac{\epsilon}{2}+ 2(M-m)\delta\\
&<\frac{\epsilon}{2}+\frac{\epsilon}{2}\\
&=\epsilon.
\end{align*}

Así, hemos encontrado una partición $Q’$ de $[x_{k-1},x_k]$ donde las sumas superior e inferior difieren en menos de $\epsilon$. Por el criterio de Riemann, $f$ es integrable en ese intervalo, para cada $k=1,\ldots,n$. Concluimos la demostración usando nuevamente la proposición de separación de la integral en intervalos.

$\square$

Ejemplo. La siguiente función $$ f(x)= \left\{ \begin{array}{lcc} x^2 & si & 0 \leq x \leq 2 \\ \\ x & si & 2 < x < 3 \\ \\ -\frac{x^3}{36} +3 & si & 3 \leq x \leq 4.5 \end{array} \right. $$

es integrable en el intervalo $[0,4.5]$. Tendrás que calcular su integral en los ejercicios.

$\triangle$

Funciones monótonas a trozos

Para esta discusión de funciones monótonas, vale la pena que tengas presente las definiciones de funciones crecientes y decrecientes, que puedes consultar en la entrada correspondiente del curso de Cálculo Diferencial e Integral I.

Definición. Una función $f:\mathbb{R}\to \mathbb{R}$ es monótona a trozos en el intervalo $[a,b]$ si existe una partición $P=\{x_0,\ldots,x_n\}$ de $[a,b]$ tal que $f$ es monótona en cada intervalo $(x_{k-1},x_k)$ para $k=1,\ldots,n$.

Podemos pensar cómo sería la gráfica de una función así. Tendría que estar formada por un número finito de trozos monótonos. Un ejemplo de ello son las funciones escalonadas (son por ejemplo, no crecientes a trozos). Un ejemplo un poco más interesante sería el de la siguiente figura.

Como te imaginarás, las funciones monótonas a trozos también son integrables.

Proposición. Sea $f:\mathbb{R}\to \mathbb{R}$ una función acotada. Si $f$ es monótona a trozos en el intervalo $[a,b]$, entonces $f$ es integrable en $[a,b]$.

Una vez más, la demostración usa la proposición de separación de la integral por intervalos. Pero nuevamente nos enfrentamos con una dificultad. Lo que hemos demostrado anteriormente es que si una función es monónona en un intervalo $[x_{k-1},x_k]$, entonces es integrable en dicho intervalo. ¿Pero si sólo tenemos monotonía en $(x_{k-1},x_k)$? Para atender esta dificultad, se tiene que hacer una adaptación similar a lo que hicimos en la demostración para funciones continuas a trozos. Los detalles quedan como parte de la tarea moral.

Más adelante…

En esta entrada analizamos funciones con una cantidad finita de discontinuidades. También hablamos de las funciones monótonas a trozos, que podrían tener una infinidad de discontinuidades, pero también ser integrables. En la siguiente entrada veremos qué hacer con la integrabilidad cuando tenemos una cantidad infinita de discontinuidades.

Tarea moral

Calcula el valor de la integral de la función escalonada del servicio postal, con la partición dada.
Integra la siguiente función: $$ f(x)= \left\{ \begin{array}{lcc} x^2 & si & 0 \leq x \leq 2 \\ \\ x & si & 2 < x < 3 \\ \\ -\frac{x^3}{36} +3 & si & 3 \leq x \leq 4.5 \end{array} \right. $$

Integra la siguiente función. Puedes usar fórmulas de integración que conozcas de cursos preuniversitarios, sin embargo, toma en cuenta que tu respuesta será un poco informal hasta que mostremos de dónde salen dichas fórmulas. $$ f(x)= \left\{ \begin{array}{lcc} \sqrt x & si & 0 \leq x \leq 2 \\ \\ ln(x) & si & 2 < x < 3 \\ \\ -\frac{x^2}{16} -x +5 & si & 3 \leq x \leq 4 \end{array} \right. $$

Demuestra por inducción la proposición de separación de la integral en intervalos que quedó pendiente en la sección de «Breve repaso de integrabilidad». Asegúrate de demostrar la ida y la vuelta.
Sean $f:\mathbb{R}\to \mathbb{R}$ y $g:\mathbb{R}\to \mathbb{R}$ funciones acotadas.
- Muestra que si $f$ y $g$ son funciones escalonadas en un intervalo $[a,b]$, entonces $f+g$ y $fg$ también son funciones escalonadas en $[a,b]$. Sugerencia. Usa como partición un refinamiento común a las particiones $P$ y $Q$ que muestran que $f$ y $g$ son escalonadas, respectivamente.
- Muestra que si $f$ y $g$ son funciones continuas por trozos en un intervalo $[a,b]$, entonces $f+g$ y $fg$ también son funciones continuas por trozos en $[a,b]$.
- Si $f$ y $g$ son funciones monótonas por trozos en un intervalo $[a,b]$, ¿será que $f+g$ y $fg$ también lo son? ¿Bajo qué condiciones de la monotonía sí sucede esto?
Da un ejemplo de una función que sea monótona por trozos, pero que no sea continua por trozos.
Demuestra la proposición de que las funciones monónotas a trozos son integrables.

Entradas relacionadas

Página del curso: Cálculo Diferencial e Integral II
Entrada anterior: Teorema del valor medio para la integral
Entrada siguiente: Funciones integrables con infinitas discontinuidades

Cálculo Diferencial e Integral II: Propiedades de la integral indefinida

Por Moisés Morales Déciga

1 respuesta

Introducción

En la entrada anterior se dio el paso de generalizar la integral. Ya no solo considerarla como un valor, si no como una función.

Al momento de precisar esta generalización, pudimos encontrar el paralelismo que existe con la integral definida, lo podemos ver de la siguiente forma.

$$\text{Integral Definida} \Rightarrow \int \limits_a^b f(u) \ du.$$

$$\text{Integral Indefinida} \Rightarrow \int \limits_a^x f(u) \ du.$$

Como lo mencionamos anteriormente, la diferencia reside en el intervalo de integración, como se observa arriba sería el límite superior.

Pero, sin perdida de generalidad, se puede considerar el límite inferior o ambos, ya que el hecho de que sea indefinida es que no tiene un inicio o fin especifico, si no que estos dependen de una variable.

Entonces, el resultado de la integral no es un número real, ahora es una función que depende de la variable $x$, en este caso.

Y, dado que esta es nuestra única diferencia, se puede hacer analogía con las propiedades propuestas con la integral definida.

I. Aditividad

Considere un intervalo de integración $[a,x]$, y un punto $c$ dentro de este intervalo. $a<c<x.$

Entonces, la integral se puede separar de la siguiente forma.

$$ \int \limits_a^x f(u) \ du = \int \limits_a^c f(u) \ du + \int \limits_c^x f(u) \ du.$$

En este caso, se genera una integral definida y una integral indefinida.

Ejemplo:

Sea $f(u)$ la siguiente función.

$$f(u) =\left\lbrace\begin{array}{c} u^2 \ \ [0, 3] \\ sin(u) \ \ (3,10] \end{array}\right.$$

Se pueden tener diferentes casos al momento de pedir la integral de la función, ya que se puede partir el intervalo dependiendo del valor de $x$.

a) Si $ 0 \leq x \leq 3.$

Entonces, la integral de $f(u)$ se plantea como sigue.

$$\int \limits_0^x u^2 \ du.$$

Ya que es la parte donde la función tiene el dominio que se quiere integrar.

b) Si $ 3 < x \leq 10.$

Entonces la integral se ve de la siguiente manera.

$$\int \limits_3^x sin(u) \ du.$$

Y tenemos el mismo argumento que en el caso anterior.

c) Si $x \in [0,10] \ y \ x > 3.$

En este caso la $x$ corre en todo el intervalo y está condicionado que $x$ tiene que ser mayor que 3, entonces la integral se ve de la siguiente manera.

$$\int \limits_0^x f(u) \ du = \int \limits_0^3 u^2 \ du + \int \limits_3^x sin(u) \ du.$$

Y este caso, como se mencionó en la propiedad de la Aditividad, genera una integral definida y una integral indefinida.

d) Si $x \in [0,10] .$

Este caso solo condiciona a que el valor de $x$ tiene que estar dentro del dominio de la función, por lo que la integral queda de la siguiente manera.

$$ \int \limits_a^x f(u) \ du .$$

Y que se podrá dar solución en el momento en que se defina el valor de $x$.

II. Suma

Sea $h(u)$ una función tal que:

$$h(u) = f(u) + g(u).$$

Donde $f(u)$ y $g(u)$ también son funciones. Entonces, para calcular la integral de $h(x)$, tenemos la siguiente propiedad.

$$\int \limits_a^x h(u) \ du = \int \limits_a^x [f(u) \ + \ g(u)] \ du = \int \limits_a^x f(u) \ du + \int \limits_a^x g(u) \ du. $$

Entonces, la integral de una suma, es la suma de las integrales.

III. Producto por una constante

Sea $h(u)$ una función tal que $h(u)= c \cdot f(u)$, donde $c$ es cualquier real y $f(u)$ una función. Entonces,

$$\int \limits_a^x h(u) \ du = \int \limits_a^x c \cdot f(u) \ du = c \int \limits_a^x f(u) \ du.$$

Las constantes que se encuentran multiplicando a una función pueden entrar y salir de la integral.

IV. Linealidad

Sean $f(x)$ y $h(x)$ dos funciones y sean $\alpha$ y $\beta$ dos números reales. Entonces:

$$\int \limits_a^x [\alpha \ f(u) + \beta \ g(u)] \ du = \alpha \int \limits_a^x f(u) \ du + \beta \int \limits_a^x g(u) \ du.$$

Esta propiedad contiene a las dos anteriores (suma y producto), lo que la hace sumamente útil y provoca que se mencione en múltiples ocasiones.

Más adelante…

Ya que tenemos estás propiedades, podemos simplificar el proceso para desarrollar la integral y poder descomponerla en integrales más simples ó, en caso contrario, podemos aplicarlas para poder simplificarlas (reducirlas) o encontrar una sustitución adecuada para que se pueda integrar con mayor facilidad.

En la siguiente sección, tendremos un recordatorio de derivadas. Esto es necesario ya que existe una relación importante entre la derivada y la integral. Es posible que para este momento de tu formación, haz escuchado que la integral es el proceso contrario a o la inversa de la derivación.

Entonces, para poder explicar esta relación entre ambos procesos, es necesario recordar como funciona la derivada, que significa y como se calcula.

Tarea moral

Utiliza la propiedad de linealidad.
$$\int \limits_a^x \alpha \ \left[ f(u) \ – \ g(u) + 1 \right] \cdot \beta \ h(u) \ du.$$
Aplique las reglas correspondientes para expandir la forma de la integral, para los diferentes casos.
$$f(x) = \left\lbrace\begin{array}{c} 3x^2 \ – \ x + 13 \ \ [0, 5] \\ \frac{7}{x} \ \ (5,10] \end{array}\right.$$
i) Integral indefinida para cualquier $x$ entre 5 y 9.
ii) Integral indefinida para cualquier $x$ entre 0 y 5.
ii) Integral indefinida para cualquier $x$ entre 3 y 8, pasando por el 5.
Aplique las reglas correspondientes para dejar en una sola integral la siguiente integral.
$$1/7 \int \limits_a^x u^6 \ du \ – \ 7 \int \limits_a^x cos(u) \ du \ + \ 8 \int \limits_a^x \frac{1}{u+1} \ du.$$

Entradas relacionadas

Página del curso: Cálculo Diferencial e Integral II
Entrada anterior: La integral como función del límite superior – Integral Indefinida
Entrada siguiente: Recordatorio de derivadas

Cálculo Diferencial e Integral II: La integral como función del límite superior, integral indefinida.

Por Moisés Morales Déciga

Deja un comentario

Introducción:

En la primera unidad del curso, hemos definido la integral mediante las sumas de Riemann considerando los distintos comportamiento que estas pueden tener.

Vimos que hacer en los casos sencillos donde se tienen funciones bien portadas como las continuas, acotadas, monótonas, etc. Pero también se vieron casos más interesantes, por ejemplo, como cuando son continuas en subintervalos, y estos podían ser finitos o infinitos, como las funciones escalonadas o la función de Dirichlet.

En estos ejemplos se mostraba la integrabilidad o la no integrabilidad de la función. Pero a pesar de que los ejemplos podían ser contrastantes entre sí, todos compartían una característica y era que se encontraban definidos dentro de un intervalo cerrado.

Esto era, que la función se encontraba dentro de un segmento del eje de las abscisas el cual tenía un inicio y un fin bien determinado.

En esta nueva unidad se tendrá una generalización de este proceso. Ya no se considerarán intervalos con un inicio y fin, ahora trabajaremos la integral en un intervalo que el inicio o el fin (o ambos) dependerán de una variable, por lo que será un intervalo no definido.

A este nuevo fenómeno de generar la integral en un intervalo no definido se le conocerá como integral indefinida.

Integral Indefinida

En la unidad anterior se determinó que el valor de la integral depende del intervalo de integración o de los límites de integración donde teníamos la siguiente representación $[a,b]$.

Y se decía que el límite inferior era el punto $a$ y el límite superior era el punto $b$ y entre esos dos puntos se tenía la curva de la función y la integral era el área contenida bajo esa curva.

Ahora, consideremos el límite inferior como un número fijo $\alpha$, que no es un número particular, es decir, que puede ser cualquiera. Y el límite superior será una variable denotada con $x$. Teniendo la siguiente notación.

$$ \phi (x) =\int \limits_{\alpha}^{x} f(u) \ du.$$

Así que la función $\phi(x)$ se denomina como la integral indefinida de la función $f(x)$.

De forma que la función $\phi(x)$, es una función que depende de $x$.

Esto cambia la percepción de la integral ya que, anteriormente, solo se concebía la integral como un número (que era el área bajo la curva). Pero ahora la integral ya no solo es un escalar, a partir de este momento, podemos mostrar que la integral también es una función que puede depender de una variable independiente.

De manera análoga, se puede hacer que el límite inferior sea variable y, por lo tanto, que ambos límites puedan variables o dependan de otra función.

De una forma geométrica, se puede ver de la siguiente manera.

Así que la integral indefinida $ \phi (x) $ está dada por el área sombreada en rojo, que se encuentra delimitada por la curva en azul $y=f(u)$ dentro del intervalo $[\alpha , x]$.

Entonces, hasta que no se determine un valor para $x$, el valor de la integral irá cambiando.

Se debe recordar que el signo del área se determina por el cuadrante en el que se encuentra, como se vio en la Unidad 1.

Observación: Cualquier integral definida es un caso particular de una integral indefinida $\phi(x)$.

En el momento en que se define el valor de $\alpha$ y de $x$, recuperamos un intervalo definido y tenemos una integral definida.

Las reglas básicas para la integral que se vieron, tienen su generalización con integrales indefinidas, por ejemplo, la suma:

\begin{align*}
\int \limits_a^b f(u) \ du & = \int \limits_a^\alpha f(u) \ du + \int \limits_\alpha^b f(u) \ du \\ &= – \int \limits_\alpha^a f(u) \ du + \int \limits_\alpha^b f(u) \ du \\ & = \phi(b) \ – \ \phi(a) .
\end{align*}

De esta forma queda una integral definida en términos de integrales indefinidas.

Así, se puede expresar cualquier integral indefinida con límite inferior $\alpha’$ en términos de $\phi(x)$:

$$ \int \limits_{\alpha’}^x f(u) \ du = \phi(x) \ – \ \phi({\alpha’}) . $$

En donde $\phi({\alpha’}) $ es una constante, así que, sin pérdida de generalidad, se puede concluir que cualquier integral definida difiere de la integral indefinida $\phi(x)$ por una constante.

$$ \int \limits^x f(u) \ du = \phi(x) + C.$$

Donde a $C$ se le conoce como la constante de integración.

Continuidad de la integral indefinida

En la unidad anterior, al momento de trabajar con funciones continuas nos era sencillo generar las sumas de Riemann ya que se encontraba la función dentro del intervalo bien definida en todo momento. No presentaba saltos extraños o, como era continua, no presentaba discontinuidades en ningún tramo del intervalo o de cualquier partición de este.

En este caso, hemos dicho que la integral indefinida también es una función. Entonces, es importante conocer cuales son las características de esta nueva función.

En este caso, vamos a mostrar que la integral de una función continua, también es continua, entonces:

Sea $f(x)$ función continua en el intervalo $[a,b]$ y sea $\alpha$ un punto dentro del intervalo, i.e. $\alpha \in [a,b]$. Se define la integral indefinida como:

$$\phi(x) = \int \limits_\alpha^x f(u) \ du.$$

Teorema: La integral indefinida $\phi(x)$ de una función $f(x)$ continua, es asimismo, continua.

Demostración:

Sea $x, y$ dos valores dentro del intervalo donde la función es continua.

Por el teorema del valor medio se tiene que:

\begin{align*}
\phi(y) \ – \ \phi(x) & = \int \limits_x^y f(u) \ du \\ &
= f(\xi) (y \ – \ x).
\end{align*}

Donde $\xi$ es algún valor en el intervalo con puntos extremos $x$ y $y$.

Ahora, por la continuidad de $f$, obtenemos lo siguiente:

\begin{align*}
\lim_{y \rightarrow x} \phi(y) & = \lim_{y \rightarrow x} [\phi(x) + f(\xi) (y \ – \ x) ] \\&
= \ \lim_{y \rightarrow x} \phi(x) + \lim_{y \rightarrow x} f(\xi) (y \ – \ x) \\ &
= \ \phi(x) \ + \ f(\xi) \ \lim_{y \rightarrow x} (y \ – \ x) \\ &
= \ \phi(x) + f(\xi) \cdot 0
\end{align*}

$$\therefore \lim_{y \rightarrow x} \phi(y) = \phi(x).$$

Lo que muestra que $\phi$ es continua.

Adicionalmente, si lo vemos dentro de cualquier intervalo cerrado, obtenemos lo siguiente:

$$|\phi(y) \ – \ \phi(x)| \leq M \ |y \ – \ x|.$$

donde $M$ es el máximo de $|f|$ en el intervalo, de modo que $\phi$ es aún Lipschitz-continua.

Si quieres recordar continuidad, sigue este link.

$\square$

Durante la demostración se recordó el teorema del valor medio, mostrando la siguiente ecuación:

\begin{align*}
\phi(y) \ – \ \phi(x) & = \int \limits_x^y f(u) \ du \\ &
= f(\xi) (y \ – \ x).
\end{align*}

Observación: Si $f(x)$ es una función positiva en todo el intervalo $[x,y]$, se obtiene que $\phi(x)$ es una función creciente.

$$\phi(y) = f(\xi) (y \ – \ x) > \phi(x).$$

Más adelante…

Teniendo definidas las integrales indefinidas, podremos revisar las propiedades que estas integrales tienen y teoremas que son de alta importancia, tanto en cálculo como en las demás asignaturas.

Este paso de trabajar con integrales indefinidas nos da una mayor libertad al momento de trabajar con funciones. Anteriormente, al trabajar con integrales definidas, teníamos plena conciencia de que punto a que punto se necesitaba integrar, lo que, al momento de evaluar o de integral solo encontramos un número; pero ahora que trabajamos con integrales indefinidas.

Y como estamos ampliando la definición de la integral, es necesario mostrar las propiedades que esta extensión genera ya que, si consideramos estas propiedades se nos podrá facilitar el manejo de de esta transformación de funciones.

Estas propiedades las veremos en la siguiente entrada.

Tarea moral

Escribe las siguientes integrales definidas como integrales indefinidas.
- $ \int \limits_3^{12} x^3 \ dx $
- $ \int \limits_1^5 ln(t) \ dt $
- $ \int \limits_{-\pi}^{\pi} sin(\theta) \ d \theta $
Sea $f(x)$ una función continua y se cumple que $f(x) = \int \limits_0^x f(t) \ dt$.
Demuestra que $f(x)$ es idénticamente 0.

Entradas relacionadas

Página del curso: Cálculo Diferencial e Integral II
Entrada anterior: Funciones que no son Riemann integrables
Entrada siguiente: Propiedades de la integral indefinida

Álgebra Superior I: Cálculo de determinantes

Por Eduardo García Caballero

Deja un comentario

Introducción

En la entrada anterior introdujimos el concepto de determinante de matrices cuadradas. Dimos la definición para matrices de $2\times 2$. Aunque no dimos la definición en general (pues corresponde a un curso de Álgebra Lineal I), dijimos cómo se pueden calcular los determinantes de manera recursiva. Pero, ¿hay otras herramientas para hacer el cálculo de determinantes más sencillo?

En esta entrada hablaremos de más propiedades de los determinantes. Comenzaremos viendo que si en una matriz tenemos dos filas o columnas iguales, el determinante se hace igual a cero. Luego, veremos que los determinantes son lineales (por renglón o columna), que están muy contectados con las operaciones elementales y platicaremos de algunos determinantes especiales.

Linealidad por filas o columnas

El determinante «abre sumas y saca escalares», pero hay que ser muy cuidadosos, pues no lo hace para toda una matriz, sino sólo renglón a renglón, o columna a columna. Enunciemos esto en las siguientes proposiciones.

Proposición. El determinante saca escalares renglón por renglón o columna por columna. Por ejemplo, pensemos en sacar escalares por renglón. Si $k$ es un número real y tenemos una matriz de la forma
\[
\begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
\vdots & \vdots & & \vdots \\
ka_{i1} & ka_{i2} & \cdots & ka_{in} \\
\vdots & \vdots & & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{pmatrix},
\]
entonces
\[
\operatorname{det}
\begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
\vdots & \vdots & & \vdots \\
ka_{i1} & ka_{i2} & \cdots & ka_{in} \\
\vdots & \vdots & & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{pmatrix}
=
k\operatorname{det}
\begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
\vdots & \vdots & & \vdots \\
a_{i1} & a_{i2} & \cdots & a_{in} \\
\vdots & \vdots & & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{pmatrix}.
\]

No podemos dar la demostración muy formalmente, pues necesitamos de más herramientas. Pero puedes convencerte de que esta proposición es cierta pensando en lo que sucede cuando se calcula el determinante recursivamente en la fila $i$. En la matriz de la izquierda, usamos los coeficientes $ka_{i1},\ldots,ka_{in}$ para acompañar a los determinantes de las matrices de $(n-1)\times (n-1)$ que van saliendo. Pero entonces en cada término aparece $k$ y se puede factorizar. Lo que queda es $k$ veces el desarrollo recursivo de la matriz sin las $k$’s en el renglón $i$.

Ejemplo. Calculemos el determinante de la matriz $A=\begin{pmatrix} 2 & 2 & -1 \\ 0 & 2 & 3 \\ -3 & 2 & 1\end{pmatrix}$. En la primera columna hay un $0$, así que nos conviene usar esta columna para encontrar el determinante. Aplicando la regla recursiva, obtenemos que:

\begin{align*}
\det(A)=\begin{vmatrix} 2 & 2 & -1 \\ 0 & 2 & 3 \\ -3 & 2 & 1\end{vmatrix} &= (2) \begin{vmatrix} 2 & 3 \\ 2 & 1 \end{vmatrix} – (0) \begin{vmatrix} 2 & -1 \\ 2 & 1 \end{vmatrix} + (-3) \begin{vmatrix} 2 & -1 \\ 2 & 3 \end{vmatrix}\\
&=2(2\cdot 1 – 3 \cdot 2) – 0 (2 \cdot 1 – (-1)\cdot 2) – 3 (2\cdot 3 – (-1)\cdot 2)\\
&=2(-4)-0(4)-3(8)\\
&=-32.
\end{align*}

¿Qué sucedería si quisiéramos ahora el determinante de la matriz $B=\begin{pmatrix} 2 & 1 & -1 \\ 0 & 1 & 3 \\ -3 & 1 & 1\end{pmatrix}$? Podríamos hacer algo similar para desarrollar en la primera fila. Pero esta matriz está muy relacionada con la primera. La segunda columna de $B$ es $1/2$ veces la segunda columna de $A$. Por la propiedad que dijimos arriba, tendríamos entonces que $$\det(B)=\frac{1}{2}\det(A)=\frac{-32}{2}=-16.$$

$\triangle$

Ejemplo. Hay que tener mucho cuidado, pues el determinante no saca escalares con el producto escalar de matrices. Observa que si $A=\begin{pmatrix} 2 & 1 \\ 1 & 1 \end{pmatrix}$, entonces $\begin{vmatrix} 2 & 1 \\ 1 & 1 \end{vmatrix} = 2\cdot 1 – 1\cdot 1 = 1$. Sin embargo, $$\det(2A)=\begin{vmatrix} 4 & 2 \\ 2 & 2 \end{vmatrix}=4\cdot 2 – 2 \cdot 2 = 4\neq 2\det(A).$$

En vez de salir dos veces el determinante, salió cuatro veces el determinante. Esto tiene sentido de acuerdo a la propiedad anterior: sale un factor $2$ pues la primera fila es el doble, y sale otro factor $2$ porque la segunda fila también es el doble.

$\square$

Proposición. El determinante abre sumas renglón por renglón, o columa por columna. Por ejemplo, veamos el caso para columnas. Si tenemos una matriz de la forma
\[
\begin{pmatrix}
a_{11} & \cdots & a_{1i} + b_{1i} & \cdots & a_{1n} \\
a_{21} & \cdots & a_{2i} + b_{2i} & \cdots & a_{2n} \\
\vdots & & \vdots & & \vdots \\
a_{n1} & \cdots & a_{ni} + b_{ni} & \cdots & a_{nn}
\end{pmatrix},
\]
entonces este determinante es igual a
\begin{align*}
\operatorname{det}
\begin{pmatrix}
a_{11} & \cdots & a_{1i} & \cdots & a_{1n} \\
a_{21} & \cdots & a_{2i} & \cdots & a_{2n} \\
\vdots & & \vdots & & \vdots \\
a_{n1} & \cdots & a_{ni} & \cdots & a_{nn}
\end{pmatrix}
+
\operatorname{det}
\begin{pmatrix}
a_{11} & \cdots & b_{1i} & \cdots & a_{1n} \\
a_{21} & \cdots & b_{2i} & \cdots & a_{2n} \\
\vdots & & \vdots & & \vdots \\
a_{n1} & \cdots & b_{ni} & \cdots & a_{nn}
\end{pmatrix}.
\end{align*}

Una vez más, no podemos dar una demostración muy formal a estas alturas. Pero como en el caso de sacar escalares, también podemos argumentar un poco informalmente qué sucede. Si realizamos el cálculo de determinantes en la columna $i$, entonces cada término de la forma $a_{ji}+b_{ji}$ acompaña a un determinante $D_{ji}$ de una matriz de $(n-1)\times (n-1)$ que ya no incluye a esa columna. Por ley distributiva, cada sumando es entonces $(a_{ji}+b_{ji})D_{ji}=a_{ji}D_{ji}+b_{ji}D_{ji}$ (acompañado por un $+$ o un $-$). Agrupando en un lado los sumandos con $a_{ji}$’s y por otro los sumandos con $b_{ji}$’s obtenemos la identidad deseada.

Ejemplo. Las matrices $\begin{pmatrix} 5 & 2 \\ 2 & 1 \end{pmatrix}$ y $\begin{pmatrix} 2 & 5 \\ 2 & 1 \end{pmatrix}$ tienen determinantes $1$ y $-8$ respectivamente (verifícalo). De acuerdo a la propiedad anterior, el determinante de la matriz $$\begin{pmatrix} 5 + 2 & 2 + 5 \\ 2 & 1 \end{pmatrix} = \begin{pmatrix} 7 & 7 \\ 2 & 1 \end{pmatrix}$$

debería ser $1 + (-8) = -7$. Y sí, en efecto $7\cdot 1 – 2 \times 7 = -7$.

$\triangle$

Hay que tener mucho cuidado, pues en esta propiedad de la suma las dos matrices tienen que ser iguales en casi todas las filas (o columnas), excepto en una. En esa fila (o columna) es donde se da la suma. En general, no sucede que $\det(A+B)=\det(A)+\det(B)$.

Ejemplo. Puedes verificar que las matrices $A=\begin{pmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1\end{pmatrix}$ y $B=\begin{pmatrix} -1 & 0 & 0 & 0 \\ 0 & -1 & 0 & 0 \\ 0 & 0 & -1 & 0 \\ 0 & 0 & 0 & -1\end{pmatrix}$ tienen ambas determinante $1$. Sin embargo, su suma es la matriz de puros ceros, que tiene determinante $0$. Así, $$\det(A)+\det(B)=2\neq 0 = \det(A+B).$$

$\triangle$

El determinante y operaciones elementales

El siguiente resultado nos dice qué sucede al determinante de una matriz cuando le aplicamos operaciones elementales.

Teorema. Sea $A$ una matriz cuadrada.

Si $B$ es una matriz que se obtiene de $A$ al reescalar un renglón con el escalar $\alpha$, entonces $\det(B)=\alpha\det(A)$.
Si $B$ es una matriz que se obtiene de $A$ al intercambiar dos renglones, entonces $\det(B)=-\det(A)$.
Si $B$ es una matriz que se obtiene de $A$ al hacer una transvección, entonces $\det(B)=\det(A)$.

No nos enfocaremos mucho en demostrar estas propiedades, pues se demuestran con más generalidad en el curso de Álgebra Lineal I. Sin embargo, a partir de ellas podemos encontrar un método de cálculo de determinantes haciendo reducción gaussiana.

Teorema. Sea $A$ una matriz cuadrada. Supongamos que para llevar $A$ a su forma escalonada reducida $A_{red}$ se aplicaron algunas transvecciones, $m$ intercambios de renglones y $k$ reescalamientos por escalares no cero $\alpha_1,\ldots,\alpha_k$ (en el orden apropiado). Entonces $$\det(A)=\frac{(-1)^m\det(A_{red})}{\alpha_1\alpha_2\cdots\alpha_k}.$$ En particular:

Si $A_{red}$ no es la identidad, entonces $\det(A_{red})=0$ y entonces $\det(A)=0$.
Si $A_{red}$ es la identidad, entonces $\det(A_{red})=1$ y entonces $$\det(A)=\frac{(-1)^m}{\alpha_1\alpha_2\cdots\alpha_k}.$$

Veamos un ejemplo.

Ejemplo. Calculemos el determinante de la matriz $A=\begin{pmatrix} 2 & 2 & -2 \\ 0 & 2 & 3 \\ -3 & 2 & 1\end{pmatrix}$ usando reducción gaussiana. Multiplicamos la primera fila por $\alpha_1=1/2$ y la sumamos tres veces a la última (transvección no cambia el determinante):

$$\begin{pmatrix} 1 & 1 & -1 \\ 0 & 2 & 3 \\ 0 & 5 & -2\end{pmatrix}$$

Multiplicamos por $\alpha_2=1/5$ la segunda fila y la intercambiamos con la tercera (va $m=1$).

$$\begin{pmatrix} 1 & 1 & -1 \\ 0 & 1 & -\frac{2}{5} \\ 0 & 2 & 3\end{pmatrix}.$$

Restamos dos veces la segunda fila a la tercera (transvección no cambia el determinante)

$$\begin{pmatrix} 1 & 1 & -1 \\ 0 & 1 & -\frac{2}{5} \\ 0 & 0 & \frac{19}{5}\end{pmatrix},$$

y multiplicamos la tercera fila por $\alpha_3=5/19$:

$$\begin{pmatrix} 1 & 1 & -1 \\ 0 & 1 & -\frac{2}{5}\\ 0 & 0 & 1\end{pmatrix}.$$

Hacemos transvecciones para hacer cero las entradas arriba de la diagonal principal (transvecciones no cambian el determinante): $$\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1\end{pmatrix}.$$

Ya llegamos a la identidad. Los reescalamientos fueron por $1/2$, $1/5$ y $5/19$ y usamos en total $1$ intercambio. Así, $$\det(A)=\frac{(-1)^1}{(1/2)(1/5)(5/19)}=-38.$$

$\triangle$

Es recomendable que calcules el determinante del ejemplo anterior con la regla recursiva de expansión por menores para que verifiques que da lo mismo.

Algunos determinantes especiales

A continuación enunciamos otras propiedades que cumplen los determinantes. Todas estas puedes demostrarlas suponiendo propiedades que ya hemos enunciado.

Proposición. Para cualquier entero positivo $n$ se cumple que la matriz identidad $\mathcal{I}_n$ tiene como determinante $\operatorname{det}(\mathcal{I}_n) = 1$.

Este resultado es un caso particular de una proposición más general.

Proposición. El determinante de una matriz diagonal es igual al producto de los elementos de su diagonal; es decir,
\[
\operatorname{det}
\begin{pmatrix}
a_{11} & 0 & \cdots & 0 \\
0 & a_{22} & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & a_{nn}
\end{pmatrix}
=
a_{11} a_{12} \cdots a_{nn}.
\]

Para probar esta proposición, puedes usar la regla recursiva para hacer la expansión por la última fila (o columna) y usar inducción.

Proposición. $\operatorname{det}(A^T) = \operatorname{det}(A)$.

Este resultado también sale inductivamente. Como los determinantes se pueden expandir por renglones o columnas, entonces puedes hacer una expansión en alguna fila de $A$ y será equivalente a hacer la expansión por columnas en $A^T$.

Proposición. Si $A$ es una matriz invertible, entonces $\operatorname{det}(A^{-1}) = \dfrac{1}{\operatorname{det}(A)}$.

Para demostrar este resultado, se puede usar la proposición del determinante de la identidad, y lo que vimos la entrada pasada sobre que $\det(AB)=\det(A)\det(B)$.

Los argumentos que hemos dado son un poco informales, pero quedará en los ejercicios de esta entrada que pienses en cómo justificarlos con más formalidad.

Ejemplos interesantes de cálculo de determinantes

Las propiedades anteriores nos permiten hacer el cálculo de determinantes de varias maneras (no sólo expansión por menores). A continuación presentamos dos ejemplos que usan varias de las técnicas discutidas arriba.

Ejemplo. Calculemos el siguiente determinante:

$$\begin{vmatrix} 1 & 5 & 3 \\ 2 & 9 & 1 \\ 5 & 4 & 3 \end{vmatrix}.$$

Como aplicar transvecciones no cambia el determinante, podemos restar la primera fila a la segunda, y luego cinco veces la primera fila a la tercera y el determinante no cambia. Así, este determinante es el mismo que

$$\begin{vmatrix} 1 & 5 & 3 \\ 0 & -1 & -5 \\ 0 & -21 & -12 \end{vmatrix}.$$

Multiplicar la segunda fila por $-1$ cambia el determinante en $-1$. Y luego multiplicar la tercera por $-1$ lo vuelve a cambiar en $-1$. Entonces haciendo ambas operaciones el determinante no cambia y obtenemos que el determinante es igual a

$$\begin{vmatrix} 1 & 5 & 3 \\ 0 & 1 & 5 \\ 0 & 21 & 12 \end{vmatrix}.$$

En esta matriz podemos expandir por la primera columna en donde hay dos ceros. Por ello, el determinante es

$$\begin{vmatrix} 1 & 5 \\ 21 & 12 \end{vmatrix}= (1\cdot 12) – (5 \cdot 21) = -93.$$

$\triangle$

Ejemplo. Calculemos el siguiente determinante:

$$\begin{vmatrix} 1 & 2 & 3 & 4 \\ 2 & 3 & 4 & 1 \\ 3 & 4 & 1 & 2 \\ 4 & 1 & 2 & 3 \end{vmatrix}.$$

Hacer transvecciones no cambia el determinante, entonces podemos sumar todas las filas a la última sin alterar el determinante. Como $1+2+3+4=10$, obtenemos:

$$\begin{vmatrix} 1 & 2 & 3 & 4 \\ 2 & 3 & 4 & 1 \\ 3 & 4 & 1 & 2 \\ 10 & 10 & 10 & 10 \end{vmatrix}.$$

Ahora, la última fila tiene un factor $10$ que podemos factorizar:

$$10\cdot \begin{vmatrix} 1 & 2 & 3 & 4 \\ 2 & 3 & 4 & 1 \\ 3 & 4 & 1 & 2 \\ 1 & 1 & 1 & 1 \end{vmatrix}.$$

Ahora, podemos restar la primera columna a todas las demás, sin cambiar el determinante:

$$10\cdot \begin{vmatrix} 1 & 1 & 2 & 3 \\ 2 & 1 & 2 & -1 \\ 3 & 1 & -2 & 1 \\ 1 & 0 & 0 & 0 \end{vmatrix}.$$

Luego, podemos sumar la segunda fila a la tercera sin cambiar el determinante:

$$10\cdot \begin{vmatrix} 1 & 1 & 2 & 3 \\ 2 & 1 & 2 & -1 \\ 5 & 2 & 0 & 0 \\ 1 & 0 & 0 & 0 \end{vmatrix}.$$

Expandiendo por la última fila:

$$-10\cdot \begin{vmatrix} 1 & 2 & 3 \\ 1 & 2 & -1 \\ 2 & 0 & 0 \end{vmatrix}.$$

Expandiendo nuevamente por la última fila:

$$-10 \cdot 2 \cdot \begin{vmatrix} 2 & 3 \\ 2 & -1 \end{vmatrix}.$$

El determinante de $2\times 2$ que queda ya sale directo de la fórmula como $2\cdot (-1)-3\cdot 2 = -8$. Así, el determinante buscado es $(-10)\cdot 2 \cdot (-8)=160$.

$\triangle$

Más adelante…

Los determinantes son una propiedad fundamental de las matrices. En estas entradas apenas comenzamos a platicar un poco de ellos. Por un lado, son muy importantes algebraicamente pues ayudan a decidir cuándo una matriz es invertible. Se pueden utilizar para resolver sistemas de $n$ ecuaciones lineales en $n$ incógnitas con algo conocido como la regla de Cramer. Por otro lado, los determinantes también tienen una interpretación geométrica que es sumamente importante en geometría analítica y en cálculo integral de varias variables. En cursos posteriores en tu formación matemática te los seguirás encontrando.

Tarea moral

Calcula el siguiente determinante: $$\begin{vmatrix} 1 & 1 & 1 & 1 \\ 2 & 0 & 2 & 2 \\ 0 & 3 & 3 & 0 \\ 0 & 0 & 4 & 0 \end{vmatrix}.$$ Intenta hacerlo de varias formas, aprovechando todas las herramientas que hemos discutido en esta entrada.
También se pueden obtener determinantes en matrices en donde hay variables en vez de escalares. Encuentra el determinante de la matriz $$\begin{pmatrix} a & b & c \\ b & c & a \\ c & a & b \end{pmatrix}.$$
Encuentra todas las matrices $A$ de $2\times 2$ que existen tales que $$\det(A+I_2)=\det(A)+1.$$
Demuestra todas las propiedades de la sección de «Algunos determinantes especiales». Ahí mismo hay sugerencias de cómo puedes proceder.
Revisa las entradas Álgebra Lineal I: Técnicas básicas de cálculo de determinantes y Seminario de Resolución de Problemas: Cálculo de determinantes para conocer todavía más estrategias y ejemplos de cálculo de determinantes.

Entradas relacionadas

Ir a Álgebra Superior I
Entrada anterior del curso: Determinante de matrices y propiedades
Entrada siguiente del curso: Los espacios vectoriales $\mathbb{R}^2$ y $\mathbb{R}^3$

Cálculo Diferencial e Integral III: Puntos críticos de campos escalares

Por Alejandro Antonio Estrada Franco

Deja un comentario

Introducción

En las unidades anteriores hemos desarrollado varias herramientas de la teoría de diferenciabilidad que nos permiten estudiar tanto a los campos escalares, como a los campos vectoriales. Hemos platicado un poco de las aplicaciones que esta teoría puede tener. En esta última unidad, profundizamos un poco más en cómo dichas herramientas nos permitirán hacer un análisis geométrico y cuantitativo de las funciones. Es decir, a partir de ciertas propiedades analíticas, hallaremos algunas cualidades de su comportamiento geométrico. En esta entrada estudiaremos una pregunta muy natural: ¿cuándo una función diferenciable alcanza su máximo o su mínimo? Para ello, necesitaremos definir qué quiere decir que algo sea un punto crítico de una función. Esto incluirá a los puntos más altos, los más bajos, local y globalmente y ciertos «puntos de quiebre» que llamamos puntos silla.

Introducción al estudio de los puntos críticos

Si tenemos un campo escalar $f:\mathbb{R}^n\to \mathbb{R}$, en muchas aplicaciones nos interesa poder decir cuándo alcanza sus valores máximos o mínimos. Y a veces eso sólo nos importa en una vecindad pequeña. La siguiente definición hace ciertas precisiones.

Definición. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}$ un campo escalar, y $\bar{a}\in S$.

Decimos que $f$ tiene un máximo absoluto (o máximo global) en $\bar{a}$ si $f(\bar{x})\leq f(\bar{a})$ para todo $\bar{x}\in S$. A $f(\bar{a})$ le llamamos el máximo absoluto (o máximo global) de $f$ en $S$.
Decimos que $f$ tiene un máximo relativo (o máximo local) en $\bar{a}$ si existe una bola abierta $B_{r}(\bar{a})$ tal que para todo $\bar{x}\in B_{r}(\bar{a})$ $f(\bar{x})\leq f(\bar{a})$.
Decimos que $f$ tiene un mínimo absoluto (o mínimo global) en $\bar{a}$ si $f(\bar{x})\geq f(\bar{a})$ para todo $\bar{x}\in S$. A $f(\bar{a})$ le llamamos el mínimo absoluto (o mínimo global) de $f$ en $S$.
Decimos que $f$ tiene un mínimo relativo (o mínimo local) en $\bar{a}$ si existe una bola abierta $B_{r}(\bar{a})$ tal que para todo $\bar{x}\in B_{r}(\bar{a})$ $f(\bar{x})\geq f(\bar{a})$.

En cualquiera de las situaciones anteriores, decimos que $f$ tiene un valor extremo (ya sea relativo o absoluto) en $\bar{a}$. Notemos que todo extremo absoluto en $S$ será extremo relativo al tomar una bola $B_{r}(\bar{a})$ que se quede contenida en $S$. Y de manera similar, todo extremo relativo se vuelve un extremo absoluto para la función restringida a la bola $B_{r}(\bar{a})$ que da la definición.

Usualmente, cuando no sabemos nada de una función $f$, puede ser muy difícil, si no imposible estudiar sus valores extremos. Sin embargo, la intuición que tenemos a partir de las funciones de una variable real es que deberíamos poder decir algo cuando la función que tenemos tiene cierta regularidad, por ejemplo, cuando es diferenciable. Por ejemplo, para funciones diferenciables $f:S\subseteq \mathbb{R}\to\mathbb{R}$ quizás recuerdes que si $f$ tiene un valor extremo en $\bar{a}\in S$, entonces $f'(\bar{a})=0$.

El siguiente teorema es el análogo en altas dimensiones de este resultado.

Teorema. Sea $f:S\subseteq \mathbb{R}^n\to \mathbb{R}$ un campo escalar. Supongamos que $f$ tiene un valor extremo en un punto interior $\bar{a}$ de $S$, y que $f$ es diferenciable en $\bar{a}$. Entonces el gradiente de $f$ se anula en $\bar{a}$, es decir, $$\triangledown f(\bar{a})=0.$$

Demostración. Demostraremos el resultado para cuando hay un máximo relativo en $\bar{a}$. El resto de los casos quedan como tarea moral. De la suposición, obtenemos que existe un $r>0$ tal que $f(\bar{x})\leq f(\bar{a})$ para todo $\bar{x}\in B_r(\bar{a})$. Escribamos $\bar{a}=(a_{1},\dots ,a_{n})$.

Para cada $i=1,\dots ,n$ tenemos:

\[ \frac{\partial f}{\partial x_{i}}(\bar{a})=\lim\limits_{\xi \to a_{i}}\frac{f(\xi \hat{e}_{i})-f(\bar{a})}{\xi -a_{i}}. \]

Además, ya que $f$ es diferenciable en $\bar{a}$ también se cumple

\[\lim\limits_{\xi \to a_{i}-}\frac{f(\xi e_{i})-f(a)}{\xi -a_{i}}=\lim\limits_{\xi \to a_{i}+}\frac{f(\xi e_i)-f(a)}{\xi -a_{i}}. \]

Dado que $f$ alcanza máximo en $\bar{a}$ tenemos que $f(\xi \hat{e}_{i})-f(\bar{a})\leq 0$. Para el límite por la izquierda tenemos $\xi-a_{i}\leq 0$, por lo tanto, en este caso

\[ \lim\limits_{\xi \to a_{i}-}\frac{f(\xi e_{i})-f(\bar{a})}{\xi -a_{i}}\geq 0.\]

Para el límite por la derecha tenemos $\xi-a_{i}\geq 0$, por lo cual

\[ \lim\limits_{\xi \to a_{i}+}\frac{f(\xi \hat{e}_{i})-f(\bar{a})}{\xi -a_{i}}\leq 0.\]

Pero la igualdad entre ambos límites dos dice entonces que

\[\frac{\partial f}{\partial x_{i}}(\bar{a}) =\lim\limits_{\xi \to a_{i}-}\frac{f(\xi \hat{e}_{i})-f(\bar{a})}{\xi -a_{i}}=0. \]

Por lo cual cada derivada parcial del campo vectorial es cero, y así el gradiente también lo es.

$\square$

Parece ser que es muy importante saber si para un campo vectorial su gradiente se anula, o no, en un punto. Por ello, introducimos dos nuevas definiciones.

Definición. Sea $f:S\subseteq \mathbb{R}^n \to \mathbb{R}$ un campo escalar diferenciable en un punto $\bar{a}$ en $S$. Diremos que $f$ tiene un punto estacionario en $\bar{a}$ si $\triangledown f(\bar{a})=0$.

Definición. Sea $f:S\subseteq \mathbb{R}^n \to \mathbb{R}$ un campo escalar y tomemos $\bar{a}$ en $S$. Diremos que $f$ tiene un punto crítico en $\bar{a}$ si o bien $f$ no es diferenciable en $\bar{a}$, o bien $f$ tiene un punto estacionario en $\bar{a}$.

Si $f$ tiene un valor extremo en $\bar{a}$ y no es diferenciable en $\bar{a}$, entonces tiene un punto crítico en $\bar{a}$. Si sí es diferenciable en $\bar{a}$ y $\bar{a}$ es un punto interior del dominio, por el teorema de arriba su gradiente se anula, así que tiene un punto estacionario y por lo tanto también un punto crítico en $\bar{a}$. La otra opción es que sea diferenciable en $\bar{a}$, pero que $\bar{a}$ no sea un punto interior del dominio.

Observación. Los valores extremos de $f$ se dan en los puntos críticos de $f$, o en puntos del dominio que no sean puntos interiores.

Esto nos da una receta para buscar valores extremos para un campo escalar. Los puntos candidatos a dar valores extremos son:

Todos los puntos del dominio que no sean interiores.
Aquellos puntos donde la función no sea diferenciable.
Los puntos la función es diferenciable y el gradiente se anule.

Ya teniendo a estos candidatos, hay que tener cuidado, pues desafortunadamente no todos ellos serán puntos extremos. En la teoría que desarrollaremos a continuación, profundizaremos en el entendimiento de los puntos estacionarios y de los distintos comportamientos que las funciones de varias variables pueden tener.

Intuición geométrica

Para entender mejor qué quiere decir que el gradiente de un campo escalar se anuele, pensemos qué pasa en términos geomértricos en un caso particular, que podamos dibujar. Tomemos un campo escalar $f:\mathbb{R}^2\to \mathbb{R}$. La gráfica de la función $f$ es la superficie en $\mathbb{R}^{3}$ que se obtiene al variar los valores de $x,y$ en la expresión $(x,y,f(x,y))$.

Otra manera de pensar a esta gráfica es como un conjunto de nivel. Si definimos $F(x,y,z)=z-f(x,y)$, entonces la gráfica es precisamente el conjunto de nivel para $F$ en el valor $0$, pues precisamente $F(x,y,z)=0$ si y sólo si $z=f(x,y)$.

Si $f$ alcanza un extremo en $(a,b)$, entonces $\triangledown f(a,b)=0$ por lo cual $\triangledown F (a,b,f(a,b))=(0,0,1)$. Así, el gradiente es paralelo al eje $z$ y por lo tanto es un vector normal a la superficie $F(x,y,z)=0$. Esto lo podemos reinterpretar como que el plano tangente a la superficie citada en el punto $(a,b,f(a,b))$ es horizontal.

Puntos silla

Cuando la función es diferenciable y el gradiente se anula, en realida tenemos pocas situaciones que pueden ocurrir. Sin embargo, falta hablar de una de ellas. Vamos a introducirla mediante un ejemplo.

Ejemplo. Consideremos $f(x,y)=xy$. En este caso

$$\frac{\partial f}{\partial x}=y\hspace{0.5cm}\textup{y}\hspace{0.5cm}\frac{\partial f}{\partial y}=x.$$

Si $(x,y)=(0,0)$, entonces las parciales se anulan, así que el gradiente también. Por ello, $(0,0)$ es un punto estacionario (y por lo tanto también crítico). Pero veremos a continuación que $f(0,0)=0$ no es máximo relativo ni mínimo relativo.

Tomemos $r>0$ abitrario y $\varepsilon= r/\sqrt{8}$. El punto $(\varepsilon ,\varepsilon)\in B_{r}(0)$ pues $\sqrt{\varepsilon ^{2}+\varepsilon ^{2}}$ es igual a $\sqrt{r^{2}/8\hspace{0.1cm}+\hspace{0.1cm}r^{2}/8}=r/2<r$. Análogamente, tenemos que el punto $(\varepsilon,-\varepsilon)\in B_{r}(0)$. Sin embargo $f(\varepsilon,-\varepsilon)=-r^{2}/8<0$, por lo que $0$ no es un mínimo local, también $f(\varepsilon,\varepsilon)=r^{2}/8>0$, por lo que $0$ tampoco es máximo local. En la Figura 1 tenemos un bosquejo de esta gráfica.

$\triangle$

Los puntos como los de este ejemplo tienen un nombre especial que definimos a continuación.

Definición. Sea $f:S\subseteq \mathbb{R}^n\to\mathbb{R}$ un campo escalar y $\bar{a}$ un punto estacionario de $f$. Diremos que $\bar{a}$ es un punto silla si para todo $r>0$ existen $\bar{u},\bar{v}\in B_{r}(\bar{a})$ tales que $f(\bar{u})<f(\bar{a})$ y $f(\bar{v})>f(\bar{a})$.

Determinar la naturaleza de un punto estacionario

Cuando tenemos un punto estacionario $\bar{a}$ de una función $f:\mathbb{R}^n\to \mathbb{R}$, tenemos diferenciabilidad de $f$ en $\bar{a}$. Si tenemos que la función es de clase $C^2$ en ese punto, entonces tenemos todavía más. La intuición nos dice que probablemente podamos decir mucho mejor cómo se comporta $f$ cerca de $\bar{a}$ y con un poco de suerte entender si tiene algún valor extremo o punto silla ahí, y bajo qué circunstancias.

En efecto, podemos enunciar resultados de este estilo. Por la fórmula de Taylor tenemos que

$$f(\bar{a}+\bar{y})=f(\bar{a})+\triangledown f (\bar{a}) \cdot y + \frac{1}{2}[\bar{y}]^tH(\bar{a})[\bar{y}]+||\bar{y}||^{2}E_{2}(\bar{a},\bar{y}),$$

en donde el error $||\bar{y}||^{2}E_{2}(\bar{a},\bar{y})$ se va a cero conforme $||\bar{y}||\to 0$. Recuerda que aquí $H(\bar{a})$ es la matriz hessiana de $f$ en $\bar{a}$. Como $f:\mathbb{R}^n\to \mathbb{R}$, se tiene que $H(\bar{a})\in M_n(\mathbb{R})$.

Para un punto estacionario $\bar{a}$ se cumple que $\triangledown f(\bar{a})=0$, así que de lo anterior tenemos

\[ f(\bar{a}+\bar{y})-f(\bar{a})=\frac{1}{2}[\bar{y}]^tH(\bar{a})[\bar{y}]+||\bar{y}||^{2}E_{2}(\bar{a},\bar{y}).\]

De manera heurística, dado que $\lim\limits_{||\bar{y}||\to 0}||\bar{y}||^{2}E_{2}(\bar{a},\bar{y})=0$, estamos invitados a pensar que el signo de $f(\bar{a}+\bar{y})-f(\bar{a})$ es el mismo que el la expresión $[\bar{y}]^tH(\bar{a})[\bar{y}]$. Pero como hemos platicado anteriormente, esto es una forma cuadrática en la variable $\bar{y}$, y podemos saber si es siempre positiva, siempre negativa o una mezcla de ambas, estudiando a la matriz hessiana $H(\bar{a})$.

Esta matriz es simétrica y de entradas reales, así que por el teorema espectral es diagonalizable mediante una matriz ortogonal $P$. Tenemos entonces que $P^tAP$ es una matriz diagonal $D$. Sabemos también que las entradas de la diagonal de $D$ son los eigenvalores $\lambda_1,\ldots,\lambda_n$ de $A$ contados con la multiplicidad que aparecen en el polinomio característico.

Teorema. Sea $X$ una matriz simétrica en $M_n(\mathbb{R})$. Consideremos la forma bilineal $\mathfrak{B}(\bar{v})=[\bar{v}]^tX[\bar{v}]$. Se cumple:

$\mathfrak{B}(\bar{v})>0$ para todo $\bar{v}\neq \bar{0}$ si y sólo si todos los eigenvalores de $X$ son positivos.
$\mathfrak{B}(\bar{v})<0$ para todo $\bar{v}\neq \bar{0}$ si y sólo si todos los eigenvalores de $X$ son negativos.

Demostración. Veamos la demostración del inciso 1.

$\Rightarrow )$ Por la discusión anterior, existe una matriz ortogonal $P$ tal que $P^tXP$ es diagonal, con entradas $\lambda_1,\ldots,\lambda_n$ que son los eigenvalores de $X$. Así, en alguna base ortonormal $\beta$ tenemos $$\mathfrak{B}(\bar{v})=\sum_{i=1}^{n}\lambda _{i}a_{i}^{2}$$ donde $\bar{a}=(a_{1},\dots ,a_{n})$ es el vector $\bar{v}$ en la base $\beta$. Si todos los eigenvalores son positivos, claramente $\mathfrak{B}(\bar{v})>0$, para todo $\bar{v}\neq \bar{0}$.

$\Leftarrow )$ Si $\mathfrak{B}(\bar{v})>0$ para todo $\bar{v}\neq \bar{0}$ podemos elegir $\bar{v}$ como el vector $e_k$ de la base $\beta$. Para esta elección de $\bar{v}$ tenemos $\mathfrak{B}(\hat{e_{k}})=\lambda _{k}$, de modo que para toda $k$, $\lambda _{k}>0$.

El inciso $2$ es análogo y deja como tarea moral su demostración.

$\square$

A las formas cuadráticas que cumplen el primer inciso ya las habíamos llamado positivas definidas. A las que cumplen el segundo inciso las llamaremos negativas definidas.

Combinando las ideas anteriores, podemos formalmente enunciar el teorema que nos habla de cómo son los puntos estacionarios en términos de los eigenvalores de la matriz hessiana.

Teorema. Consideremos un campo escalar $f:S\subseteq \mathbb{R}^n\to \mathbb{R}$ de clase $C^2$ en un cierto punto interior $\bar{a}\in S$. Supongamos que $\bar{a}$ es un punto estacionario.

Si todos los eigenvalores de $H(\bar{a})$ son positivos, $f$ tiene un mínimo relativo en $\bar{a}$.
Si todos los eigenvalores de $H(\bar{a})$ son negativos, $f$ tiene un máximo relativo en $\bar{a}$.
Si $H(\bar{a})$ tiene por lo menos un eigenvalor positivo, y por lo menos un eigenvalor negativo, $f$ tiene punto silla en $\bar{a}$.

Antes de continuar, verifica que los tres puntos anteriores no cubren todos los casos posibles para los eigenvalores. ¿Qué casos nos faltan?

Demostración: Definamos la forma bilineal $\mathfrak{B}(\bar{v})=[\bar{v}]^tH(\bar{a})[\bar{v}]$ y usemos el teorema de Taylor para escribir

\[ \begin{equation}\label{eq:taylor}f(\bar{a}+\bar{v})-f(\bar{a})=\frac{1}{2}\mathfrak{B}(\bar{v})+||\bar{v}||^{2}E(\bar{a},\bar{v}) \end{equation} \]

con

\[ \begin{equation}\label{eq:error}\lim\limits_{\bar{v}\to \bar{0}}E(\bar{a},\bar{v})=0. \end{equation} \]

En primer lugar haremos el caso para los eigenvalores positivos. Sean $\lambda _{1},\dots ,\lambda_{n}$ los eigenvalores de $H(\bar{a})$. Sea $\lambda _{*}=\min\{ \lambda _{1},\dots ,\lambda _{n}\}$. Si $\varepsilon <\lambda_{*}$, para cada $i=1,\dots , n$ tenemos $\lambda _{i}-\varepsilon>0$. Además, los números $\lambda _{i}-\varepsilon$ son los eigenvalores de la matriz $H(\bar{a})-\varepsilon I$, la cual es simétrica porque $H(\bar{a})$ lo es. De acuerdo con nuestro teorema anterior la forma cuadrática $[\bar{v}]^t(H(\bar{a})-\varepsilon I)[\bar{v}]$ es definida positiva, y por lo tanto

$$[\bar{v}]^tH(\bar{a})[\bar{v}]>[\bar{v}]^t\varepsilon I [\bar{v}] = \varepsilon ||\bar{v}||^2.$$

Esto funciona para todo $\varepsilon <\lambda _{*}$. Tomando $\varepsilon =\frac{1}{2}\lambda _{*}$ obtenemos $\mathfrak{B}(\bar{v})>\frac{1}{2}||\bar{v}||^2$ para todo $\bar{v}\neq \bar{0}$. Por el límite de \eqref{eq:error} tenemos que existe $r>0$ tal que $|E(\bar{a},\bar{v})|<\frac{1}{4}\lambda _{*}$ para $0<||\bar{v}||<r$. En este caso se cumple

\begin{align*}0&\leq ||\bar{v}||^{2}|E(\bar{a},\bar{v})|\\ &<\frac{1}{4}\lambda _{*}||\bar{v}||^{2}\\ &<\frac{1}{2}\mathfrak{B}(\bar{v}),\end{align*}

Luego por la ecuación \eqref{eq:taylor} tenemos
\begin{align*}
f(\bar{a}+\bar{v})-f(\bar{a})&=\frac{1}{2}\mathfrak{B}(\bar{v})+||\bar{v}||^{2}E(\bar{a},\bar{v})\\
&\geq \frac{1}{2}\mathfrak{B}(\bar{v})-||\bar{v}||^{2}|E(\bar{a},\bar{v})|\\
&>0.
\end{align*}

Esto muestra que $f$ tiene un mínimo relativo en $\bar{a}$ para la vecindad $B_{r}(\bar{a})$.

Para probar la parte $2$ se usa exactamente el mismo proceder sólo que hay que considerar la función $-f$, lo cual quedará hacer como tarea moral.

Revisemos pues la parte del punto silla, la parte $3$. Consideremos $\lambda _{1}$ y $\lambda _{2}$ dos eigenvalores de $H(\bar{a})$ tales que $\lambda _1 <0$ y $\lambda _2 >0$. Pongamos $\lambda _{*}=\min\{ |\lambda _{1}|,|\lambda _{2}|\}$. Notemos que para todo $\varepsilon \in (-\lambda _{*},\lambda _{*})$ se tiene que $\lambda _{1}-\varepsilon$ y $\lambda _{2}-\varepsilon$ son números de signos opuestos y además eigenvalores de la matriz $H(\bar{a})-\varepsilon I$. Tomando vectores en dirección de los eigenvectores $\bar{v}_1$ y $\bar{v}_2$ correspondientes a $\lambda_1$ y $\lambda_2$ notamos que $[\bar{v}](H(\bar{a})-\varepsilon I)[\bar{v}]^{t}$ toma valores positivos y negativos en toda vecindad de $\bar{0}$. Finalmente escojamos $r>0$ de tal manera que $|E(\bar{a},\bar{v})|<\frac{1}{4}\varepsilon$ cuando $0<||\bar{v}||<r$. Usando las mismas desigualdades del la parte $1$, vemos que para $\bar{v}$ en la dirección de $\bar{v}_1$ la diferencia $f(\bar{a}+\bar{v})-f(\bar{a})$ es negativa y para $\bar{v}$ en la dirección de $\bar{v}_2$ es positiva. Así, $f$ tiene un punto silla en $\bar{a}$.

$\square$

Hay algunas situaciones en las que el teorema anterior no puede ser usado. Por ejemplo, cuando los eigenvalores de $H(\bar{a})$ son todos iguales a cero. En dicho caso, el teorema no funciona y no nos dice nada de si tenemos máximo, mínimo o punto silla, y de hecho cualquiera de esas cosas puede pasar.

Ejemplos de análisis de puntos críticos

Ejemplo. Tomemos el campo escalar $f(x,y)=x^{2}+(y-1)^{2}$ y veamos cómo identificar y clasificar sus puntos estacionarios. Lo primero por hacer es encontrar el gradiente, que está dado por $$\triangledown f(x,y)=(2x,2(y-1)).$$ El gradiente se anula cuando $2x=0$ y $2(y-1)=0$, lo cual pasa si y sólo si $x=0$ y $y=1$. Esto dice que sólo hay un punto estacionario. Para determinar su naturaleza, encontraremos la matriz hessiana en este punto, así como los eigenvalores que tiene. La matriz hessiana es

\[ H(\bar{v})=\begin{pmatrix} \frac{\partial ^{2}f}{\partial x^{2}}(\bar{v}) & \frac{\partial ^{2}f}{\partial y \partial x}(\bar{v}) \\ \frac{\partial ^{2}f}{\partial x \partial y}(\bar{v}) & \frac{\partial ^{2}f}{\partial y^{2}}(\bar{v}) \end{pmatrix}=\begin{pmatrix} 2 & 0 \\ 0 & 2 \end{pmatrix}.\]

Notemos que la matriz hessiana ya está diagonalizada y es la misma para todo $\bar{v}$. En particular, en $(0,1)$ sus valores propios son $2$ y $2$, que son positivos. Así, la matriz hessiana es positiva definida y por lo tanto tenemos un mínimo local en el punto $(0,1)$. Esto lo confirma visualmente la gráfica de la Figura 2.

$\triangle$

Ejemplo. Veamos cómo identificar y clasificar los puntos estacionarios del campo escalar $f(x,y)=x^{3}+y^{3}-3xy.$ Localicemos primero los puntos estacionarios. Para ello calculemos el gradiente $\triangledown f(x,y)=(3x^{2}-3y,3y^{2}-3x)$. Esto nos dice que los puntos estacionarios cumplen el sistema de ecuaciones

\[\left\{ \begin{matrix} 3x^2-3y=0\\ 3y^2-3x=0.\end{matrix} \right.\]

Puedes verificar que las únicas soluciones están dadas son los puntos $(0,0)$ y $(1,1)$ (Sugerencia. Multiplica la segunda ecuación por $x$ y suma ambas). La matriz hessiana es la siguiente:

\[ H(x,y)=\begin{pmatrix} 6x & -3 \\ -3 & 6y \end{pmatrix}.\]

En $(x,y)=(0,0)$ la matriz hessiana es $\begin{pmatrix} 0 & -3 \\ -3 & 0 \end{pmatrix}$. Para encontar sus eigenvalores calculamos el polinomio característico

\begin{align*} \det(H(0,0)-\lambda I)&=\begin{vmatrix} -\lambda & -3 \\ -3 & -\lambda \end{vmatrix} \\ &= \lambda ^{2}-9.\end{align*}

Las raíces del polinomio característico (y por lo tanto los eigenvalores) son $\lambda _{1}=3$ y $\lambda _{2}=-3$. Ya que tenemos valores propios de signos distintos tenemos un punto silla en $(0,0)$.

Para $(x,y)=(1,1)$ la cuenta correspondiente de polinomio característico es

\begin{align*} \det(H(1,1)-\lambda I)&=\begin{vmatrix} 6-\lambda & -3 \\ -3 & 6-\lambda\end{vmatrix}\\ &=(6-\lambda )^{2}-9.\end{align*}

Tras manipulaciones algebraicas, las raíces son $\lambda _{1}=9$, $\lambda _{2}=3$. Como ambas son positivas, en $(1,1)$ tenemos un mínimo.

Puedes confirmar visualmente todo lo que encontramos en la gráfica de esta función, la cual está en la Figura 3.

$\triangle$

A continuación se muestra otro problema que se puede resolver con lo que hemos platicado. Imaginemos que queremos aproximar a la función $x^2$ mediante una función lineal $ax+b$. ¿Cuál es la mejor forma de elegir $a,b$ para que las funciones queden «cerquita» en el intervalo $[0,1]$? Esa cercanía se puede medir de muchas formas, pero una es pidiendo que una integral se haga chiquita.

Ejemplo. Determinemos qué valores de las constantes $a,b\in \mathbb{R}$ minimizan la siguiente integral

\[ \int_{0}^{1}[ax+b-x^2]^2 dx.\]

Trabajemos sobre la integral.

\begin{align*} \int_{0}^{1}[ax+b-x^{2}]^{2}dx&=\int_{0}^{1}(2abx+(a^{2}-2b)x^{2}-2ax^{3}+x^{4}+b^{2})dx\\ &=\int_{0}^{1}2abx\hspace{0.1cm}dx+\int_{0}^{1}(a^{2}-2b)x^{2}dx-\int_{0}^{1}2ax^{3}dx+\int_{0}^{1}x^{4}dx+\int_{0}^{1}b^{2}dx\\ &=b^{2}+\frac{1}{3}a^{2}+ab-\frac{2}{3}b-\frac{1}{2}a+\frac{1}{5}. \end{align*}

Es decir, tenemos

\[ \int_{0}^{1}[ax+b-x^{2}]^{2}dx=b^{2}+\frac{1}{3}a^{2}+ab-\frac{2}{3}b-\frac{1}{2}a+\frac{1}{5}.\]

Ahora definamos $f(a,b)=b^{2}+\frac{1}{3}a^{2}+ab-\frac{2}{3}b-\frac{1}{2}a+\frac{1}{5}$; basándonos en la forma general de la ecuación cuadrática de dos variables podemos comprobar rápidamente que $f$ nos dibuja una elipse en cada una de sus curvas de nivel. Continuando con nuestra misión, tenemos que $\triangledown f(a,b)=(\frac{2}{3}a+b-\frac{1}{2},2b+a-\frac{2}{3})$. Al resolver el sistema
\[\left\{\begin{matrix}\frac{2}{3}a+b-\frac{1}{2}=0\\2b+a-\frac{2}{3}=0,\end{matrix}\right.\]

hay una única solución $a=1$ y $b=-\frac{1}{6}$. Puedes verificar que la matriz hessiana es la siguiente en todo punto.

\[ H(\bar{v})=\begin{pmatrix} \frac{2}{3} & 1 \\ 1 & 2 \end{pmatrix}.\]

Para determinar si tenemos un mínimo, calculamos el polinomio característico como sigue

\begin{align*} \det(H(\bar{v})-\lambda I)&=\begin{vmatrix} \frac{2}{3}-\lambda & 1 \\ 1 & 2-\lambda \end{vmatrix}\\ &=\left( \frac{2}{3}-\lambda \right)\left( 2-\lambda\right)-1\\ &=\lambda ^{2}-\frac{8}{3}\lambda + \frac{1}{3}.\end{align*}

Esta expresión se anula para $\lambda _{1}=\frac{4+\sqrt{13}}{3}$ y $\lambda_{2}=\frac{4-\sqrt{13}}{3}$. Ambos son números positivos, por lo que en el único punto estacionario de $f$ tenemos un mínimo. Así el punto en el cual la integral se minimiza es $(a,b)=(1,-\frac{1}{6})$. Concluimos que la mejor función lineal $ax+b$ que aproxima a la función $x^2$ en el intervalo $[0,1]$ con la distancia inducida por la integral dada es la función $x-\frac{1}{6}$.

En la Figura 3 puedes ver un fragmento de la gráfica de la función $f(a,b)$ que nos interesa.

Figura 3. Gráfica de la función $f(a,b)$.

$\triangle$

Mas adelante…

La siguiente será nuestra última entrada del curso y nos permitirá resolver problemas de optimización en los que las variables que nos dan tengan ciertas restricciones. Esto debe recordarnos al teorema de la función implícita. En efecto, para demostrar los resultados de la siguiente entrada se necesitará este importante teorema, así que es recomendable que lo repases y recuerdes cómo se usa.

Tarea moral

Identifica y clasifica los puntos estacionarios de los siguientes campos escalares:
- $f(x,y)=(x-y+1)^{2}$
- $f(x,y)=(x^{2}+y^{2})e^{-(x^{2}+y^{2})}$
- $f(x,y)=\sin(x)\cos(x)$.
Determina si hay constantes $a,b\in \mathbb{R}$ tales que el valor de la integral \[\int_{0}^{1}[ax+b-f(x)]^{2}dx \] sea mínima para $f(x)=(x^{2}+1)^{-1}$. Esto en cierto sentido nos dice «cuál es la mejor aproximación lineal para $\frac{1}{x^2+1}$».
Este problema habla de lo que se conoce como el método de los mínimos cuadrados. Consideremos $n$ puntos $(x_{i},y_{i})$ en $\mathbb{R}^2$, todos distintos. En general es imposible hallar una recta que pase por todos y cada uno de estos puntos; es decir, hallar una función $f(x)=ax+b$ tal que $f(x_{i})=y_{i}$ para cada $i$. Sin embargo, sí es posible encontrar una función lineal $f(x)=ax+b$ que minimice el error cuadrático total que está dado por \[ E(a,b)=\sum_{i=1}^{n}[f(x_{i})-y_{i}]^{2}.\] Determina los valores de $a$ y $b$ para que esto ocurra. Sugerencia. Trabaja con el campo escalar $E(a,b)$ recuerda que los puntos $(x_{i},y_{i})$ son constantes.
Completa la demostración de que si una matriz $X$ tiene puros eigenvalores negativos, entonces es negativa definida.
En el teorema de clasificación de puntos estacionarios, muestra que en efecto si la matriz hessiana es negativa definida, entonces el punto estacionario es un punto en donde la función tiene máximo local.

Entradas relacionadas

Ir a Cálculo Diferencial e Integral III
Entrada anterior del curso: Divergencia, laplaciano y rotacional
Entrada siguiente del curso: Multiplicadores de Lagrange