Cálculo Diferencial e Integral II: Propiedades de la integral definida

Por Moisés Morales Déciga

Introducción

En las entradas anteriores se dio la motivación de la construcción de la integral y la definición de la integral de Riemann. Para que cierta integral exista, necesitamos que el ínfimo de ciertas sumas superiores coincida con el supremo de ciertas sumas inferiores. Vimos algunas condiciones que garantizan que esto suceda, por ejemplo, que exista el límite de las sumas superiores e inferiores para las particiones homogéneas, y que dicho límite sea el mismo en ambos casos. Lo que haremos ahora es estudiar más propiedades de la integral.

Las propiedades que veremos nos permitirán concluir la existencia de ciertas integrales de manera sencilla y, a la vez, nos permitirán manipular algebraicamente a las integrales. En caso de necesitar un recordatorio de la definición de integral, te recomendamos consultar la entrada anterior.

Integrabilidad de familias de funciones especiales

Hay algunas propiedades de funciones que se estudian desde Cálculo I que implican la integrabilidad. A continuación presentamos un par de ejemplos.

Proposición. Si $f:\mathbb{R}\to \mathbb{R}$ es acotada y monótona en $[a,b]$, entonces es Riemann integrable en $[a,b]$.

Demostración. Supondremos que $f$ es estrictamente creciente. Otras variantes de monotonía (no decreciente, no creciente, estrictamente decreciente) tienen una demostración similar, que puedes hacer por tu cuenta.

Tomemos la partición homogénea $P_n$ del intervalo $[a,b]$. Definiendo $$x_j=a+j\frac{b-a}{n}$$ para $j=0,\ldots,n$, se tiene que las celdas son $$[x_0,x_1],[x_1,x_2],\ldots,[x_{n-1},x_n].$$

Las celdas tienen todas longitud $\frac{b-a}{n}$ y como la función es estrictamente creciente, el mínimo se alcanza al inicio de cada celda. De esta manera, la suma inferior para esta partición es:

\begin{align*}
\underline{S}(f,P_n)=\frac{b-a}{n}\left(f(x_0)+\ldots+f(x_{n-1})\right).
\end{align*}

Similarmente, el máximo se alcanza al final de cada celda. Por ello, la suma superior para esta partición es

\begin{align*}
\overline{S}(f,P_n)=\frac{b-a}{n}\left(f(x_1)+\ldots+f(x_n)\right).
\end{align*}

Restando la suma inferior a la superior, obtenemos

\begin{align*}
\overline{S}(f,P_n)-\underline{S}(f,P_n)&=\left(\frac{b-a}{n}\left(f(x_1)+\ldots+f(x_n)\right)\right)-\left(\frac{b-a}{n}\left(f(x_0)+\ldots+f(x_{n-1})\right)\right)\\
&=\frac{b-a}{n}(f(x_n)-f(x_0))\\
&=\frac{(b-a)(f(b)-f(a))}{n}.
\end{align*}

De acuerdo a la condición de Riemann (enunciada en la entrada anterior), la función será integrable si logramos que esta diferencia sea tan pequeña como queramos. Tomemos entonces cualquier $\epsilon>0$ y $n$ un entero tan grande como para que $n>\frac{1}{\epsilon}(b-a)(f(b)-f(a))$. Para este $n$, se cumple que

\begin{align*}
\overline{S}(f,P_n)-\underline{S}(f,P_n)&=\frac{(b-a)(f(b)-f(a))}{n}<\epsilon,
\end{align*}

y por ello la función es integrable.

$\square$

Proposición. Si $f:\mathbb{R}\to \mathbb{R}$ es continua en $[a,b]$, entonces es Riemann integrable en $[a,b]$.

Demostración. Como primera observación, como $f$ es continua en el intervalo cerrado y acotado $[a,b]$, entonces es acotada, de modo que sí podemos hablar de sus sumas superiores e inferiores.

La estrategia que usaremos para ver que es integrable será verificar nuevamente la condición de Riemann, es decir, que para cualquier $\epsilon > 0$, existe una suma superior y una inferior cuya diferencia es menor que $\epsilon$. La intuición es que con una partición suficientemente fina, el máximo y mínimo de $f$ son muy cercanos porque los puntos que los alcanzan están en una celda muy chiquita (y entonces son muy cercanos). Para poder hacer esto «globalmente» en todas las celdas, necesitaremos una propiedad un poco más fuerte que continuidad: continuidad uniforme (puedes seguir el enlace para recordar este contenido aquí en el blog). Pero ésta se tiene pues las funciones continuas en intervalos cerrados y acotados son uniformemente continuas.

Tomemos entonces $\epsilon >0$. Como mencionamos, $f$ es uniformemente continua y el intervalo $[a,b]$ es cerrado y acotado, entonces $f$ es uniformememente continua. Así, existe una $\delta>0$ tal que si $|x-y|<\delta$, entonces $|f(x)-f(y)|<\frac{\epsilon}{b-a}$. Tomemos $n$ tan grande como para que $\frac{b-a}{n}<\delta$. Tras hacer esto, en cada celda $i$ de la partición homogénea $P_n$ los valores $m_i$ y $M_i$ donde $f$ alcanza el mínimo y máximo respectivamente cumplen que $|M_i-m_i|\leq \frac{b-a}{n}<\delta$ y por lo tanto para cada $i$ se tiene $f(M_i)-f(m_i)=|f(M_i)-f(m_i)|<\frac{\epsilon}{b-a}$.

Ya tenemos los ingredientes para realizar la cuenta de sumas superiores e inferiores.

Por un lado,

$$\overline{S}(f,P_n)=\frac{b-a}{n}\left(f(M_1)+\ldots+f(M_n)\right).$$

Por otro,

$$\underline{S}(f,P_n)=\frac{b-a}{n}\left(f(m_1)+\ldots+f(m_n)\right),$$

así que

\begin{align*}
\overline{S}(f,P_n)-\underline{S}(f,P_n)&=\frac{b-a}{n}\sum_{i=1}^n \left(f(M_i)-f(m_i)\right)\\
&<\frac{b-a}{n}\sum_{i=1}^n \frac{\epsilon}{b-a}\\
&=\frac{b-a}{n}\left(n\frac{\epsilon}{b-a}\right)\\
&=\epsilon.
\end{align*}

Esto muestra que podemos acercar una partición superior tanto como queramos a una inferior. Por el criterio de la entrada anterior, la función $f$ es integrable en $[a,b]$.

$\square$

Separación de la integral en intervalos

Enunciemos una propiedad importante de la integral: puede partirse en intervalos.

Proposición. Sea $f:\mathbb{R}\to \mathbb{R}$ una función acotada. Sea $c$ cualquier valor entre $[a,b]$. Si la integral

$$\int \limits_{a}^{b} f(x) \ dx$$

existe, entonces las dos integrales

$$\int \limits_{a}^{c} f(x) \ dx, \int \limits_{c}^{b} f(x) \ dx$$

también existen. Y viceversa, si estas dos integrales existen, entonces la primera también.

Cuando las tres integrales existen, se cumple además la siguiente igualdad:

$$\int \limits_{a}^{b} f(x) \ dx = \int \limits_{a}^{c} f(x) \ dx \ + \int \limits_{c}^{b} f(x) \ dx .$$

Demostración. Veamos primero que si la integral en todo $[a,b]$ existe, entonces las otras dos también. Trabajaremos usando la condición de Riemann. Sea $\epsilon>0$. Como $f$ es integrable en $[a,b]$, entonces existe una partición $P$ de $[a,b]$ tal que

$$\overline{S}(f,P)-\underline{S}(f,P)<\epsilon.$$

Podemos suponer que uno de los puntos de $P$ es el punto $c$, pues de no serlo, refinamos a $P$ incluyendo a $c$. Esto no aumenta la suma superior, ni disminuye la inferior, así que sigue cumpliendo la desigualdad anterior. Si $P=\{x_0,\ldots,x_n\}$, podemos entonces pensar que para alguna $k$ en $\{0\ldots,n\}$ se cumple que $x_k=c$, y entonces de esta partición de $[a,b]$ salen las particiones:

$P_1 = \{a=x_0, x_1, … , x_k=c\}$ de $[a,c]$ y
$P_2 = \{c={x_k}, x_{k+1}, … , x_n=b\}$ de $[c,b]$.

Como las celdas de $P$ son celdas de $P_1$ ó $P_2$, entonces las sumas superiores e inferiores cumplen:

\begin{align*}
\overline{S} (f,P_1) + \overline{S} (f,P_2) &= \overline{S} (f,P), \\
\underline{S} (f,P_1) + \underline{S} (f,P_2) &= \underline{S} (f,P) .\\
\end{align*}

Si se restan ambas sumas, se obtiene lo siguiente:

\begin{align*}
\left(\overline{S} (f,P_1) \ – \ \underline{S} (f,P_1)\right) + \left(\overline{S} (f,P_2) \ – \ \underline{S} (f,P_2)\right) = \overline{S} (f,P) \ – \ \underline{S} (f,P) < \epsilon.\\
\end{align*}

Ambos términos de la izquierda son positivos y su suma es menor que $\epsilon$, así que concluimos:

\begin{align*}
\overline{S} (f,P_1) \ – \ \underline{S} (f,P_1) &< \epsilon,\\
\overline{S} (f,P_2) \ – \ \underline{S} (f,P_2) &< \epsilon.\\
\end{align*}

De este modo, por el criterio de Riemann se tiene que $f$ es integrable en $[a,c]$ y en $[c,b]$.

Si la integrales en $[a,c]$ y $[c,b]$ existen, entonces puede hacerse una prueba similar: para cualquier $\epsilon$ habrá una partición $P$ de $[a,c]$ con diferencia de suma superior e inferior menor a $\epsilon/2$, y lo mismo para una partición $P’$ de $[c,b]$. Un argumento similar al de arriba ayudará a ver que $P\cup P’$ es una partición de $[a,b]$ que hace que la diferencia de la suma superior e inferior sea menor a $\epsilon$. Los detalles quedan para que los verifiques por tu cuenta.

Veamos ahora que cuando las integrales existen, entonces se cumple la igualdad

$$\int \limits_{a}^{b} f(x) \ dx = \int \limits_{a}^{c} f(x) \ dx \ + \int \limits_{c}^{b} f(x) \ dx .$$

Tomemos cualquier partición $P’$ de $[a,b]$. Tomemos el refinamiento $P=P’\cup \{c\}$ y escribamos $P=P_1\cup P_2$ como arriba. Usando que las integrales son ínfimos de sumas superiores (y por lo tanto son cotas inferiores), tenemos que:

\begin{align*}
\overline{S}(f,P’) & \geq \overline{S}(f,P)\\
&=\overline{S}(f,P_1) + \overline{S}(f,P_2)\\
&\geq \int_a^c f(x)\, dx + \int_c^b f(x) \,dx.
\end{align*}

Por definición, $\int \limits_{a}^{b} f(x) \ dx$ es el ínfimo de las sumas superiores sobre todas las particiones $P’$ de $[a,b]$ y entonces es la mayor de las cotas inferiores. Como arriba tenemos que $\int_a^c f(x)\, dx + \int_c^b f(x) \,dx$ es cota inferior para todas estas sumas superiores, entonces:

$$\int_a^b f(x)\, dx \geq \int_a^c f(x)\, dx + \int_c^b f(x) \,dx.$$

Así mismo, para cualesquiera particiones $P_1$ y $P_2$ de $[a,c]$ y $[c,b]$ respectivamente, tenemos que $P_1\cup P_2$ es partición de $[a,b]$ y entonces

$$\overline{S}(f,P_1) + \overline{S}(f,P_2) = \overline{S}(f,P_1\cup P_2) \geq \int_a^b f(x)\,dx,$$

de donde

$$\overline{S}(f,P_1) \geq \int_a^b f(x)\,dx \ – \ \overline{S}(f,P_2).$$

Así, para cualquier partición $P_2$ fija, hemos encontrado que $\int_a^b f(x)\,dx – \overline{S}(f,P_2)$ es cota inferior para todas las sumas superiores de particiones $P_1$ de $[a,c]$. De este modo, por ser la integral en $[a,c]$ la mayor de estas cotas inferiores, se tiene

$$\int_a^c f(x)\, dx \geq \int_a^b f(x)\,dx \ – \ \overline{S}(f,P_2)$$

para cualquier partición $P_2$ de $[c,b]$. Pero entonces

$$\overline{S}(f,P_2) \geq \int_a^b f(x)\,dx \ – \ \int_a^c f(x)\, dx, $$

se cumple para toda partición $P_2$ de $[b,c]$, de donde concluimos

$$\int_b^c f(x)\, dx \geq \int_a^b f(x)\,dx \ – \ \int_a^c f(x)\, dx.$$

Despejando, obtenemos la desigualdad

$$\int_a^b f(x)\, dx + \int_b^c f(x)\, dx \geq \int_a^b f(x).$$

Junto con la desigualdad que mostramos arriba, se obtiene la desigualdad deseada.

$\square$

Límites reales arbitrarios

Hasta ahora siempre hemos hablado de la existencia de la integral de una función en un intervalo $[a,b]$ con $a\leq b$. Cuando $a=b$, la integral que buscamos es en el intervalo $[a,a]$ y se puede mostrar que en este caso la integral siempre existe y es igual a cero, es decir, que $$\int_a^a f(x)\, dx = 0.$$

La siguiente definición nos dice qué hacer cuando en los límites de integración vamos de un número mayor a uno menor.

Definición. Sea $f:\mathbb{R}\to \mathbb{R}$ una función acotada. Sean $a<b$ reales. Si la integral de $f$ en el intervalo $[a,b]$ existe, entonces definimos la integral de $f$ de $b$ a $a$ como sigue: $$\int_b^a f(x)\,dx= – \int_a^b f(x)\, dx.$$

Esta definición es compatible con todo lo que hemos platicado, y nos permite extender la identidad $$\int \limits_{a}^{c} f(x) \ dx, \int \limits_{c}^{b} f(x) \ dx$$ de la proposición de la sección anterior a valores arbitrarios de $a,b,c$, sin importar en qué orden estén en la recta real (siempre y cuando las integrales existan, por supuesto). Por ejemplo, si $a>b>c$, entonces podemos proceder como sigue mediante lo que ya hemos demostrado y definido:

\begin{align*}
\int_a^b f(x)\, dx &= – \int_b^a f(x)\, dx \quad \text{Def. int. para $a>b$.}\\
&= – \left(\int_c^a f(x)\, dx \ – \ \int_c^b f(x)\, dx\right) \quad \text{Por prop. anterior pues $c<b<a$.}\\
&= – \int_c^a f(x)\, dx + \int_c^b f(x)\, dx \quad \text{Distribuir el $-$}\\
&= \int_a^c f(x)\, dx + \int_c^b f(x)\, dx \quad \text{Def. int. para $a>c$}.
\end{align*}

Aquí se ve como con un orden específico de $a,b,c$ se sigue cumpliendo la identidad buscada, aunque $c$ no quede entre $a$ y $b$ y no se cumpla que $a\leq b$. Siempre es posible hacer esto y te recomendamos pensar en cómo argumentar todos los casos posibles de $a,b,c$.

La intuición en áreas de que la integral $\int_b^a f(x)\, dx$ cambia de signo con respecto a $\int_a^b f(x)\, dx$ es que en una recorremos el área de izquierda a derecha y en la otra de derecha a izquierda. Entonces, «recorremos el área al revés» porque «graficamos hacia atrás». Por ejemplo, se tiene el intervalo $[5,1]$, la forma en que se recorrerá al momento de graficar sería del $5$ al $1$ y, si la función es positiva, la integral será negativa.

Linealidad de la integral

Tomemos dos funciones acotadas $f:\mathbb{R}\to \mathbb{R}$ y $g:\mathbb{R}\to \mathbb{R}$ y supongamos que son integrables en el intervalo $[a,b]$. Tomemos cualquier real arbitrario $\alpha$. A partir de esto, podemos construir la función $f+\alpha g$, que recordemos que su definición es que es una función de $[a,b]$ a $\mathbb{R}$ con regla de asignación $$(f+\alpha g)(x) = f(x) + \alpha g(x).$$

Si tomamos una partición $P$ de $[a,b]$, se puede verificar fácilmente que

\begin{align*}
\overline{S}(f+\alpha g, P)&=\overline{S}(f,P)+\alpha \overline{S}(g,P),\\
\underline{S}(f+\alpha g, P)&=\underline{S}(f,P)+\alpha \underline{S}(g,P).
\end{align*}

Restando ambas expresiones,

$$\overline{S}(f+\alpha g, P) \ – \ \underline {S}(f+\alpha g, P) = \left(\overline{S}(f,P) \ – \ \underline{S}(f,P)\right) + \alpha \left(\overline{S}(g,P) \ – \ \underline{S}(g,P)\right).$$

Intuitivamente (respaldados por el criterio de Riemann), el lado derecho puede ser tan pequeño como queramos pues $f$ y $g$ son integrables. Así que el lado izquierdo también. Esto muestra que $f+\alpha g$ también es integrable en $[a,b]$. Te recomendamos hacer una demostración formal.

Además, si $P_n$ es una sucesión de particiones en donde los tamaños de celda convergen a cero (y por lo tanto para las cuales las sumas superiores convergen a la integral para cada función de arriba), entonces:

\begin{align*}
\int_a^b (f+\alpha g)(x)\, dx &= \lim_{n\to \infty} \overline{S} (f+\alpha g, P_n)\\
&=\lim_{n\to \infty} \left(\overline{S}(f,P_n)+ \alpha\overline{S}(g,P_n)\right)\\
&=\lim_{n\to \infty} \overline{S}(f,P_n) + \alpha \lim_{n\to \infty} \overline{S}(g,P_n)\\
&=\int_a^b f(x)\, dx + \alpha \int_a^b g(x)\, dx.
\end{align*}

En resumen, hemos demostrado lo siguiente:

Teorema. La integral es lineal. Es decir, si $f:\mathbb{R}\to \mathbb{R}$ y $g:\mathbb{R}\to \mathbb{R}$ son funciones acotadas e integrables en $[a,b]$, entonces para cualquier real $\alpha$ también $f+\alpha g$ es integrable en $[a,b]$ y además se cumple $$\int_a^b (f+\alpha g)(x)\, dx = \int_a^b f(x)\, dx + \alpha \int_a^b g(x)\, dx.$$

Dos casos particulares de interés son los siguientes:

Si en el teorema anterior tomamos $\alpha=1$, entonces obtenemos que $\int_a^b (f+g)(x)=\int_a^b f(x)\, dx + \int_a^b g(x)\, dx$, es decir, la integral abre sumas.
Si en el teorema anterior tomamos $f$ como la función constante cero, entonces obtenemos que $\int_a^b \alpha g(x)\, dx = \alpha \int_a^b g(x)\, dx$, es decir la integral saca escalares.

La integral respeta desigualdades

Veamos que la integral, en cierto sentido, respeta desigualdades. Un primer paso que es muy sencillo de verificar es lo que sucede con la integral de funciones no negativas.

Proposición. Si $f:\mathbb{R}\to \mathbb{R}$ es una función integrable en el intervalo $[a,b]$ y se cumple $f(x)\geq 0$ para todo $x\in [a,b]$, entonces $$\int_a^b f(x)\, dx \geq 0.$$

Demostración. Como $f(x)\geq 0$, entonces claramente para cualquier partición $P$ se cumple que $\overline{S}(f,P)\geq 0$, pues aparecen puros términos positivos en la suma superior. Así, $0$ es una cota inferior para las sumas superiores. Como la integral es la máxima de dichas cotas superiores, entonces $$\int_a^b f(x)\, dx \geq 0,$$ como queríamos.

$\square$

De este resultado y las propiedades que hemos mostrado, podemos deducir algo mucho más general.

Teorema. Sean $f:\mathbb{R}\to \mathbb{R}$ y $g:\mathbb{R}\to \mathbb{R}$ funciones integrables en un intervalo $[a,b]$, dentro del cual también se cumple que $f(x)\leq g(x)$. Entonces, $$\int_a^b f(x)\, dx \leq \int_a^b g(x)\, dx.$$

Demostración. Como $f$ y $g$ son integrables en $[a,b]$, entonces la combinación lineal $g-f$ también lo es, y además $(g-f)(x)=g(x)-f(x)\geq 0$. Por la proposición anterior y la linealidad de la integral, tenemos entonces que: $$\int_a^b g(x)\, dx \ – \ \int_a^b f(x)\, dx = \int_a^b (g-f)(x)\, dx \geq 0.$$

De aquí, $$\int_a^b f(x)\, dx \leq \int_a^b g(x)\, dx,$$ como queríamos.

$\square$

Más adelante…

Todas las propiedades que hemos enunciado se utilizarán de aquí en adelante. Es importante que las tengas presentes. Son propiedades que nos permiten factorizar funciones para que al momento de integrar o que nos permiten partir una integral complicada en otras más sencillas con integración inmediata o ya conocida.

En la siguiente entrada enunciaremos y demostraremos el teorema del valor medio para la integral. Es un teorema muy relevante, pues será uno de los ingredientes en la demostración de otros teoremas importantes para el cálculo integral.

Tarea moral

Utilizando las propiedades anteriores, resuelve las siguientes integrales.
- $\int \limits_0^1 7(4+3x^2) ~dx.$
- $\int \limits_2^0 \frac{1}{4}(32x-3x^2+6) ~dx.$
Termina con detalle todas las demostraciones de la entrada que hayan quedado pendientes.
Usndo las propiedades de esta entrada, demuestra que la integral $\int_{-10}^{10} x^7-x^5+3x^3+27x\, dx$ existe y determina su valor. Sugerencia. Muestra que la función dentro de la integral es continua y cumple $f(x)=-f(x)$. Usa varias de las propiedades de esta entrada.
Demuestra la siguiente igualdad:
$$ \int \limits_{a}^{b} \alpha \ f(x) \ dx \ + \int \limits_{a}^{b} \beta\ g(x) \ dx \ = \ \int \limits_{a}^{b} \alpha f(x) \ + \beta g(x) \ dx .$$
Sean $a\leq b\leq c\leq d$ números reales. Sea $f:\mathbb{R}\to \mathbb{R}$ una función integrable en $[a,d]$. Demuestra que todas las integrales $$\int_a^c f(x)\, dx, \int_b^d f(x)\, dx, \int_a^d f(x)\,dx, \int_b^c f(x)\,dx$$
existen y muestra que satisfacen la siguiente identidad:
$$\int_a^c f(x)\, dx + \int_b^d f(x)\, dx = \int_a^d f(x)\,dx + \int_b^c f(x)\,dx.$$
Sean $a<b$ reales. Demuestra que si la función $f:\mathbb{R}\to \mathbb{R}$ es continua en $[a,b]$, se cumple que $f(x)\geq 0$ para $x\in [a,b]$ y además existe por lo menos un punto $c$ tal que $f(c)>0$, entonces $\int_a^b f(x)\, dx >0$. Como sugerencia, demuestra que existe todo un intervalo (aunque sea muy chiquito) donde la función es positiva, y usa otras propiedades que hemos mostrado. Luego, encuentra un contraejemplo para esta afirmación en donde $f$ no sea continua.

Entradas relacionadas

Página del curso: Cálculo Diferencial e Integral II
Entrada anterior: Definición de la integral definida
Entrada siguiente: Teorema del valor medio para la integral

Geometría Moderna I: División armónica

Por Rubén Alexander Ocampo Arellano

Deja un comentario

Introducción

En entradas anteriores definimos la razón en la que un punto divide a un segmento e hicimos uso de este concepto, obviando el cambio de signo, nos podemos preguntar que es lo que pasa cuando dos puntos distintos dividen en la misma razón a un segmento, esto es lo que se conoce como división armónica.

Definición 1. Definimos la razón cruzada de dos pares de puntos colineales $(A, B)$ y $(C, D)$ como
$(A, B; C, D) = \dfrac{AC}{CB} \div \dfrac{AD}{DB}$.

Si $C$ está en el segmento $AB$, $D$ en su extensión y la razón en la que $C$ y $D$ dividen al segmento $AB$ es la misma en valor absoluto, entonces $(A, B; C, D) = – 1$.

En este caso, decimos que $C$ y $D$ dividen al segmento $AB$ armónicamente, o que $C$ y $D$ son conjugados armónicos respecto de $A$ y $B$.

Observación. Notemos que el conjugado armónico de un punto respecto de otros dos puntos dados es único, pues ya probamos que para todo número real $r$, existe un único punto que divide a un segmento dado en $r$.

Hilera armónica

Teorema 1. Si dos puntos $C$ y $D$ dividen armónicamente al segmento $AB$ en la razón $|\dfrac{p}{q}|$ entonces los puntos $A$ y $B$ dividen armónicamente a $CD$ en la razón $|\dfrac{p – q}{p + q}|$.

Demostración. Supongamos que $\dfrac{AC}{CB} = \dfrac{p}{q}$ y $\dfrac{AD}{DB} = \dfrac{– p}{q}$, entonces usando segmentos dirigidos,

$\dfrac{AC}{CB} + \dfrac{CB}{CB} = \dfrac{p}{q} + \dfrac{q}{q} \Rightarrow$

$\begin{equation} \dfrac{AB}{CB} = \dfrac{p + q}{q}. \end{equation}$

$\dfrac{AD}{DB} + \dfrac{DB}{DB} = \dfrac{– p}{q} + \dfrac{q}{q} \Rightarrow$
$\begin{equation} \dfrac{AB}{DB} = \dfrac{q – p}{q}. \end{equation}$

De manera análoga podemos encontrar
$\begin{equation} \dfrac{AB}{AC} = \dfrac{CB + AC}{AC} = \dfrac{q + p}{p}, \end{equation}$
$\begin{equation} \dfrac{AB}{AD} = \dfrac{DB + AD}{AD} = \dfrac{p – q}{p}. \end{equation}$

Haciendo el cociente de $(2)$ entre $(1)$ obtenemos
$\dfrac{CB}{BD} = \dfrac{p – q}{p + q}$.

Análogamente de $(4)$ y $(3)$ obtenemos
$\dfrac{CA}{AD} = \dfrac{q – p}{p + q}$.

$\blacksquare$

Definición 2. Debido a esta propiedad reciproca en la que si $(A, B; C, D) = – 1$ entonces $(C, D; A, B) = – 1$, decimos que $ACBD$ es una hilera armónica de puntos o simplemente una hilera armónica.

Corolario 1. Si $(A, B; C, D) = – 1$, entonces $\dfrac{AB}{CD} = \dfrac{p^2 – q^2}{2pq}$.

Demostración. $CD = AD – AC $
$= ABp(\dfrac{1}{p – q} – \dfrac{1}{p + q}) = ABp(\dfrac{p + q – (p – q)}{p^2 – q^2})$.

Donde la segunda igualdad se debe a $(3)$ y $(4)$.

Por lo tanto, $\dfrac{AB}{CD} = \dfrac{p^2 – q^2}{2pq}$.

$\blacksquare$

Construcción del conjugado armónico

Teorema 2. Sea $\triangle ABC$, considera $X \in BC$, $Y \in CA$, $Z \in AB$, cada uno en el interior del lado respectivo y sea $X’ = ZY \cap BC$, entonces $X$ y $X’$ son conjugados armónicos respecto a $BC$ si y solo si $AX$, $BY$, $CZ$ son concurrentes.

Demostración. Aplicando el teorema de Menelao a $\triangle ABC$ y la transversal $X’YZ$ tenemos
$\dfrac{AZ}{ZB} \dfrac{BX’}{X’C} \dfrac{CY}{YA} = – 1$.

Por el teorema de Ceva $AX$, $BY$, $CZ$ son concurrentes si y solo si,
$\dfrac{AZ}{ZB} \dfrac{BX}{XC} \dfrac{CY}{YA} = 1$.

Dividiendo ambas expresiones obtenemos
$(B, C; X, X’) = \dfrac{BX}{XC} \div \dfrac{BX’}{X’C} = – 1$.

$\blacksquare$

Proposición 1. Las proyecciones de los puntos de una hilera armónica en cualquier recta, forman otra hilera armónica.

Demostración. Sean $ACBD$ una hilera armónica y $l$ cualquier otra recta, consideremos $A’$, $B’$, $C’$, $D’$, las proyecciones de $A$, $B$, $C$, $D$ respectivamente en $l$.

Sea $P = ACBD \cap l$, como $AA’ \parallel BB’ \parallel DD’$, tenemos las siguientes semejanzas, $\triangle PB’B \sim \triangle PD’D \sim \triangle PA’A$ (figura 3), es decir:

$\dfrac{PA’}{PD’} = \dfrac{PA}{PD} \Leftrightarrow \dfrac{– A’P – PD’}{PD’} = \dfrac{– AP – PD}{PD}$
$\Leftrightarrow \dfrac{A’D’}{AD} = \dfrac{P’D’}{PD}$.

Igualmente podemos ver que $\dfrac{D’B’}{DB} = \dfrac{P’D’}{PD}$.

Por lo tanto $\dfrac{A’D’}{D’B’} = \dfrac{AD}{BD}$.

De manera análoga podemos encontrar $\dfrac{A’C’}{C’B’} = \dfrac{AC}{CB}$.

Como $(A, B; C, D) = – 1$, entonces,
$\dfrac{A’D’}{D’B’} = \dfrac{AD}{BD} = – \dfrac{AC}{CB} = – \dfrac{A’C’}{C’B’}$.

$\blacksquare$

División armónica y bisectrices

Teorema 3. Sean $A$, $C$, $B$, $D$, cuatro puntos colineales, en ese orden, sea $P$ un punto fuera de la recta $ACBD$, entonces, si dos de las siguientes tres propiedades son ciertas, la tercera también es cierta:
$i)$ $(A, B; C, D) = – 1$,
$ii)$ $PC$ es la bisectriz interna de $\angle APB$,
$iii)$ $PC \perp PD$.

Demostración.
$i)$ y $ii)$ se cumplen, como $PC$ es la bisectriz interna de $\angle APB$, por el teorema de la bisectriz, la bisectriz externa de $\angle APB$ interseca a $AB$ en el conjugado armónico de $C$, el cual es único por la observación hecha en la introducción.

Por lo tanto, $PD$ es la bisectriz externa de $\angle APB$ y así $PC \perp PD$.

$ii)$ y $iii)$ se cumplen, ya que $PC$ es la bisectriz interna de $\angle APB$ y $PC \perp PD$, entonces $PD$ es la bisectriz externa de $\angle APB$.

Por el teorema de la bisectriz, $C$ y $D$ son conjugados armónicos.

$i)$ y $iii)$ se cumplen, si $C$ y $D$ son conjugados armónicos respecto de $AB$ entonces se encuentran en la circunferencia de Apolonio determinada por la razón $\dfrac{AC}{CB} =|\dfrac{AD}{DB}|$.

Recordemos que $CD$ es diámetro de esta circunferencia, como $PC \perp PD$, entonces $P$ pertenece a este lugar geométrico.

Por lo tanto, $\dfrac{AP}{PB} = \dfrac{AC}{CB} =|\dfrac{AD}{DB}|$, por el reciproco del teorema de la bisectriz, $PC$ y $PD$ son las bisectrices interna y externa de $\angle APB$ respectivamente.

$\blacksquare$

Corolario 2. Considera un triángulo $\triangle ABC$, $I$ el incentro, $I_c$ el excentro relativo al vértice $C$ y $C_1 = CI \cap AB$, entonces $(C, C_1; I, I_c) = -1$.

Demostración. En $\triangle AC_1C$, $AI$ y $AI_c$ son las bisectrices interna y externa respectivamente de $\angle C_1AC$.

Como se cumplen los puntos $ii)$ y $iii)$ del teorema anterior entonces $(C, C_1; I, I_c) = -1$.

$\blacksquare$

Punto medio de conjugados armónicos

Teorema 4. Si $A$, $C$, $B$, $D$, son cuatro puntos colineales, en ese orden, y $O$ el punto medio del segmento $AB$ entonces $(A, B; C, D) = – 1$ si y solo si $OC \times OD = OA^2$.

Demostración. Empleando segmentos dirigidos tenemos lo siguiente:
$AC – CB = (AO + OC) – (CO + OB) = 2OC$,
$AD – DB = (AO + OD) – (DO + OB) = 2OD$,
$AC + CB = AB = AD + DB = 2AO$.

Por lo tanto, $OC \times OD = OA^2$
$\Leftrightarrow 2OC \times 2OD = (2AO)^2$
$\Leftrightarrow (AC – CB)( AD – DB) = (AC + CB)(AD + DB)$
$ \Leftrightarrow (AC \times AD) – (AC \times DB) – (AD \times CB) + (CB \times DB)$
$= (AC \times AD) + (AC \times DB) + (AD \times CB) + (CB \times DB)$
$\Leftrightarrow – 2AC \times DB = 2AD \times CB$
$\Leftrightarrow (A, B; C, D) = – 1$.

$\blacksquare$

Proposición 2.Sean $A$, $C$, $B$, $D$, cuatro puntos colineales, entonces $(A, B; C, D) = – 1$, si y solo si al medir todos los segmentos de un punto de la hilera armónica, $B$ por ejemplo, tenemos $\dfrac{2}{BA} = \dfrac{1}{BC} + \dfrac{1}{BD}$.

Demostración. $\dfrac{AC}{CB} = – \dfrac{AD}{DB}$
$ \Leftrightarrow \dfrac{AB + BC}{CB} = – \dfrac{AB + BD}{DB}$
$\Leftrightarrow \dfrac{BA}{BC} – 1 = \dfrac{BA}{DB} + 1$
$\Leftrightarrow \dfrac{1}{BC} + \dfrac{1}{BD} = \dfrac{2}{BA}$.

$\blacksquare$

Teorema de Feuerbach

Teorema 5, de Feuerbach. La circunferencia de los nueve puntos y el incírculo de un triángulo son tangentes.

Demostración. Paso 1. Sean $\triangle ABC$, $\triangle A’B’C’$ su triangulo medial, $\Gamma(N)$ la circunferencia de los nueve puntos (el circuncírculo de $\triangle A’B’C’$) y considera la tangente $C’T$ a $\Gamma(N)$ en $C’$.

Notemos que $\angle TC’A$ y $\angle C’B’A’$ son ángulos semiinscrito e inscrito respectivamente de $\Gamma(N)$ y abarcan el mismo arco, por lo tanto, son iguales.

Recordemos que los lados de $\triangle A’B’C’$ son paralelos a los de $\triangle ABC$ y por lo tanto, $\triangle ABC$ y $\triangle A’B’C’$ son semejantes.

En consecuencia,
$\angle BC’T = \angle BC’A’ – \angle TC’A $
$= \angle BAC – \angle C’B’A’ = \angle A – \angle B$.

Paso 2. Sean $\Gamma(I)$ el incírculo de $\triangle ABC$, $C_1 = CI \cap AB$ y $C_1P$ tangente a $\Gamma(I)$ en $P$.

Como $C_1A$ y $C_1P$ son tangentes a $\Gamma(I)$ desde $C_1$ entonces $\angle PC_1I = \angle IC_1A$.

Por lo tanto,
$\angle BC_1P = \pi – \angle PC_1A $
$= \pi – (2\angle IC_1A) = \pi – 2(\pi – \angle A – \dfrac{\angle C}{2})$
$= \angle A + (\angle A + \angle C – \pi) = \angle A – \angle B$.

Así, $C’T \parallel C_1P$.

Paso 3. Sean $\Gamma(I_c)$ el excírculo opuesto al vértice $C$, $Z_c$ el punto de tangencia entre $\Gamma(I_c)$ y $AB$, $Z$ el punto de tangencia entre $\Gamma(I)$ y $AB$, $H_c$ el pie de la altura por $C$ en $\triangle ABC$.

Por el corolario 2, $(C, C_1; I, I_c) = -1$ y por la proposición 1, $(H_c, C_1; Z, Z_c) = -1$.

Recordemos que el punto medio de $Z$ y $Z_c$ coincide con el punto medio $C’$, de $AB$.

Por el teorema 4, $C’C_1 \times C’H_c = C’Z^2$.

Sea $F = C’P \cap \Gamma(I)$, $F \neq P$, por la potencia de $C’$ respecto de $\Gamma(I)$ tenemos
$C’P \times C’F = C’Z^2 = C’C_1 \times C’H_c$.

Por la ecuación anterior, el teorema de las cuerdas nos dice que $\square H_cC_1PF$ es cíclico.

Por lo tanto, $\angle H_cFP$ y $\angle PC_1H_c$ son suplementarios.

En consecuencia, $\angle H_cFC’ = \angle BC_1P = \angle BC’T$.

Por otra parte, notemos que $C’H_c$ es una cuerda de la circunferencia de los nueve puntos $\Gamma(N)$, sea $F’$ en el arco $\overset{\LARGE{\frown}}{C’H_c}$ (recorrido en ese sentido).

Entonces, $\angle BC’T + \angle TC’F’ + \angle F’C’H_c = \pi = \angle H_cF’C’ + \angle C’H_cF’ + \angle F’C’H_c$, además $\angle TC’F’ = \angle C’H_cF’$, pues abarcan el mismo arco.

Por lo tanto, los puntos $F’$ en el arco $\overset{\LARGE{\frown}}{C’H_c}$, cumplen que $\angle H_cF’C’ = \angle BC’T$, además son los únicos, siempre y cuando estén del mismo lado que $C$ respecto de $C’H_c$.

Como $F$ cumple estas características, entonces $F \in \Gamma(N)$.

Paso 4. Sean $U$ la intersección de la tangente a $\Gamma(N)$ en $F$ con $C’T$ y $V$ la intersección de la tangente a $\Gamma(I)$ en $F$ con $C_1P$.

Como $UC’ = UF$, por ser tangentes a $\Gamma(N)$ desde $U$, entonces $\angle UC’F = \angle C’FU$, igualmente vemos que $\angle VPF = \angle PFV$.

Pero $\angle UC’F = \angle VPF$ pues $C’U \parallel PV$ y $C’PF$ es transversal a ambas.

Por lo tanto, $\angle C’FU = \angle PFV = \angle C’FV$, es decir $UF$ y $VF$ son la misma recta.

Como resultado tenemos que $\Gamma(N)$ y $\Gamma(I)$ son tangentes en $F$.

$\blacksquare$

Definición 3. Al punto de tangencia entre el incírculo y la circunferencia de los nueve puntos $F$, se le conoce como punto de Feuerbach.

Más adelante…

Continuando con el tema de división armónica, en la siguiente entrada estudiaremos haces armónicos.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

$i)$ Divide un segmento dado en una razón dada $\dfrac{p}{q}$,
$ii)$ Muestra que $HNGO$ es una hilera armónica, donde $H$ es el ortocentro, $N$ el centro de los nueve puntos, $G$ el centroide y $O$ el circuncentro de un triángulo.
Si los puntos $C$ y $D$ dividen internamente y externamente de manera armónica en la razón $\dfrac{p}{q}$ al segmento $AB$, muestra que el punto medio de $CD$ divide al segmento $AB$ en la razón $\dfrac{p^2}{q^2}$.
Prueba que la suma de los cuadrados de dos segmentos armónicos es igual a cuatro veces el cuadrado de la distancia entre los puntos medios de estos segmentos.
Considera el segmento determinado por el vértice de un triángulo y la intersección de la bisectriz interna o externa con el lado opuesto, muestra que los pies de las perpendiculares a dicha recta desde los otros dos vértices del triángulo dividen al segmento de manera armónica.
Si los puntos $C$ y $D$ dividen armónicamente al segmento $AB$ y $O$ es el punto medio de $AB$, muestra que $OC^2 + OD^2 = CD^2 + 2OA^2$.
Si $(A, B; C, D) = – 1$ y $A’$, $B’$ son los conjugados armónicos de $D$ respecto a los pares de puntos $(A, C)$ y $(B, C)$ respectivamente, muestra que $(A’, B’; C, D) = – 1$.
Sean $\triangle ABC$, $D$, $E$, $F$, los puntos de tangencia del incírculo de $\triangle ABC$ con $BC$, $CA$ y $AB$ respectivamente, sea $X$ en el interior de $\triangle ABC$ tal que el incírculo de $\triangle XBC$ es tangente a $BC$, $CX$, $XB$ en $D$, $Y$, $Z$, respectivamente, demuestra que $\square EFZY$ es cíclico.
Demuestra que la circunferencia de los nueve puntos de un triángulo es tangente a cada uno de sus excírculos.

Entradas relacionadas

Ir a Geometría Moderna I.
Entrada anterior del curso: Punto de Nagel.
Siguiente entrada del curso: Haz armónico.
Otros cursos.

Fuentes

Altshiller, N., College Geometry. New York: Dover, 2007, pp 53-56, 166-171.
Andreescu, T., Korsky, S. y Pohoata, C., Lemmas in Olympiad Geometry. USA: XYZ Press, 2016, pp 149-161.
Lozanovski, S., A Beautiful Journey Through Olympiad Geometry. Version 1.4. 2020, pp 156-158.
Johnson, R., Advanced Euclidean Geometry. New York: Dover, 2007, pp 200-203.

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Cálculo Diferencial e Integral II: Introducción y método exhaustivo

Por Moisés Morales Déciga

Deja un comentario

Introducción

Este curso es la continuación de la materia Cálculo Diferencial e Integral I. En el primer curso de cálculo hablamos del cálculo diferencial. Nuestro principal objeto matemático fue la derivada y cómo se puede interpretar como la razón de cambio del objeto de análisis: la tangente de una curva, la velocidad y aceleración de una partícula, la variación de un objeto en su trayectoria, etc.

En este siguiente curso hablaremos de temas relacionados con el cálculo integral. Hablaremos un poco de sus orígenes, de los principales objetos matemáticos que estudia, de varios aspectos fundamentales de su teoría y de sus aplicaciones. El objetivo principal de esta rama matemática es el estudio de las integrales y las anti-derivadas. Una motivación importante es que ellas son una herramienta para la solución de problemas de cálculo de áreas y de volúmenes.

Así, el objeto matemático estelar del curso será la integral y la motivaremos mediante su gran utilidad para el cálculo de áreas. Sin embargo, esto no será lo único que haremos. La definiremos formalmente, probaremos las muchas propiedades matemáticas que tiene y veremos numerosas aplicaciones no sólo al cálculo de integrales, sino también a la construcción de otros objetos matemáticos fundamentales como la función exponencial.

Es muy probable que ya cuentes con una buena noción de área. En cursos de primaria, secundaria y bachillerato se explica un poco de esto y se dan fórmulas para calcular áreas. Sin embargo, estas fórmulas no salen de la nada. Pueden ser construidas a partir de nociones más básicas y por distintos métodos. Uno de ellos es la integración. Hasta que hagamos más precisiones formales, puedes aprovechar la intuición que ya tienes sobre las áreas y pensar en ellas intuitivamente como una magnitud que «mide» qué tan grande es una región contenida dentro de ciertos límites y cuyas unidades están «al cuadrado». Esto te ayudará a tener en qué cimentar tu intuición para cuando demos una definición más formal.

Algunas notas históricas

Históricamente, se han encontrado casos de utilización de de herramientas de cálculo diferencial en trabajos antiguos, por ejemplo, los trabajos de Arquímedes. Pero fue hasta los siglos XVI y XVII donde se tuvo un desarrollo sistemático, atribuido a Isaac Newton y Gottfried Leibniz, quienes son considerados como los dos grandes pioneros y más grandes representantes del Cálculo. Sin embargo, no fueron los únicos aportadores a éste.

Otra persona importante, Isaac Barrow, quién sería el profesor de Newton, tenía una comprensión sobre la reciprocidad entre la derivación e integración. Este concepto es el punto de partida del cálculo desarrollado por Newton y Leibnitz. Es primordial pues da pie a la introducción y demostración de los dos teoremas fundamentales del cálculo.

Método exhaustivo

A modo de introducción, platicaremos en esta entrada sobre el método exhaustivo. Es un método matemático que utiliza la geometría para aproximar algún resultado o aproximar a la solución un problema que tengamos. La característica que tiene el método es que, a la vez que aumenta el cálculo o las repeticiones, aumenta el grado de precisión de nuestra aproximación con respecto al resultado que queremos.

Arquímides desarrolló una de las aplicaciones de este método para el cálculo de áreas planas. Eudoxo también trabajó con este método, sólo que su objetivo era calcular el volumen de las pirámides de Egipto. En cierto sentido, también ya usamos este método cuando hablamos de la derivada de una función. Para pensar en la tangente en un punto $P$ a la gráfica de una función, la intuición (y de hecho, en cierto sentido la definición formal) consistió en tomar rectas secantes que pasaran por $P$ y otro punto $Q$ en la gráfica. Conforme $Q$ se acercaba a $P$ nos aproximábamos más y más a la tangente y, si cierto límite existía, justo esa era la definición de tangente.

Para ejemplificar nuevamente el método exhaustivo, veremos cómo encontrar de manera un poco informal el el área de un círculo. Sea $C$ un círculo y sea $M\geq 3$ un número natural. Tomemos $P_M$ un polígono regular de $M$ lados inscrito al círculo $C$ y $Q_M$ un polígono de $M$ lados circunscrito al círculo $C$. Para que dichos polígonos queden bien definidos, podemos pedir además que su lado inferior sea horizontal. Por ejemplo, en la figura a continuación se muestra el caso $M = 5$.

Notemos que los polígonos que definimos tienen dos áreas: una que incluye al área del círculo y otra que está incluida en el círculo.

Para cada valor de $M$ tenemos dos polígonos. De este modo, estamos generando dos sucesiones de polígonos: la de polígonos inscritos $\{P_M\}_{M\geq 3}$ y la de polígonos circunscritos $\{Q_M\}_{M\geq 3}$. Notemos que el área cada uno de los polígonos inscritos $P_M$ queda acotada superiormente por el área de cada uno de los polígonos $Q_M$; a su vez, el área de cada uno de los polígonos circunscritos $Q_M$ queda acotada inferiormente por el área de cada uno de los polígonos $P_M$. Además, no es muy difícil convencerse de que el área de los polígonos inscritos crece conforme $M$ aumenta y, en contraparte, el área de los circunscritos decrece conforme $M$ aumenta. Recordando del primer curso de cálculo lo que sabemos sobre supremos, ínfimos y sobre sucesiones monótonas y acotadas, tendríamos entonces que los siguientes dos límites existen:

\begin{align*}
p&=\lim_{M\to \infty} \text{área}(P_M)=\sup_{M\geq 3} \text{área}(P_M)\\
q&=\lim_{M\to \infty} \text{área}(Q_M)=\inf_{M\geq 3} \text{área}(Q_M).
\end{align*}

Además, $p\leq q$. De hecho, si el área del círculo $C$ que nos interesa es $c$, entonces por lo que mencionamos arriba tendríamos que $p \leq c \leq q$. Nuestra intuición nos dice que cuando la $M$ aumenta, generamos un polígono con más lados que van acercándose a la circunferencia, y que en el límite debemos obtener el área de la circunferencia. Por lo tanto, esperaríamos que $p=c=q$.

¿Qué sería suficiente para respaldar esta intuición? ¿Bastaría que calculáramos explícitamente $\lim_{M\to \infty} \text{área}(P_M)$ y $\lim_{M\to \infty} \text{área}(Q_M)$ (por ejemplo, dividiendo los polígonos en triángulos para encontrar una fórmula explícita) y que viéramos que son iguales? Esto seguro aumentaría mucho la confianza en nuestro procedimiento. Pero, ¿qué tal que aproximamos al círculo con otros polígonos que no son regulares? ¿nos dará lo mismo? Nuestra definición formal de área ayudará a resolver estas dudas.

En resumen, el método iterativo nos permite aproximar el área del círculo, encerrándolo entre 2 polígonos, de los cuales sabemos calcular el área mediante triángulos. Intuitivamente, mientras más fraccionemos los polígonos, la aproximación del área del círculo será mejor. Esta idea de «encerrar» el área que nos interesa entre dos áreas que sepamos (o acordemos) cómo calcular será clave cuando definamos la integral definida.

Más adelante…

En esta entrada hablamos brevemente sobre la conexión de este curso de cálculo con el anterior. Dimos unas pocas notas históricas e introducimos la idea del método exhaustivo. En la siguiente entrada comenzaremos a formalizar estas ideas para el cálculo de áreas entre la gráfica de una función y el eje $x$.

Tarea moral

Con las herramientas de geometría que has adquirido en la educación básica, intenta completar el ejemplo que comenzamos sobre el método exhaustivo. No te preocupes mucho por la formalización de límites, funciones trigonométricas, fórmulas de áreas de triángulos, etc. Es parte de lo que haremos en este curso. Entre otras cosas, tendrás que:
- Calcular explícitamente la distancia del centro de un círculo $C$ de radio $r$ a un vértice (y a un lado) del polígono inscrito (y circunscrito) en $C$ que es regular y de $n$ lados.
- Encontrar el área de $P_n$ y $Q_n$.
- Encontrar los límites de estas áreas conforme $n$ tiende a infinito.
Investiga más sobre los orígenes del cálculo integral.
Averigua sobre el método exhaustivo y otros usos históricos que se le ha dado.
El método exhaustivo puede ser algo peligroso si se usa apresuradamente. Por ejemplo, toma un cuadrado de lado $1$ y divídelo en cuadrados pequeños para formar un tablero de $n\times n$. Mediante un camino $C_n$ que sube y va a la derecha alternadamente, se puede comenzar en el vértice inferior izquierdo y llegar al vértice superior derecho. Intuitivamente, cuando $n$ tiende a infinito, este camino pareciera converger a la diagonal del cuadrado, la cual tiene longitud $\sqrt{2}$. Sin embargo, la longitud de cada camino $C_n$ siempre es $2$ pues en total avanza una unidad a la derecha y una hacia arriba. ¿Por qué la longitud de $C_n$ no tiende a $\sqrt{2}$ si aparentemente $C_n$ tiende a la diagonal del cuadrado?
Realiza un repaso de los teoremas principales de Cálculo Diferencial e Integral I. ¡Te serán sumamente útiles para este curso! En particular, sería bueno que revises los siguientes temas:
- Definición y propiedades de límites.
- Definición y propiedades de funciones contínuas.
- Definición y propiedades de derivadas.
- Reglas de derivación.
- El teorema del valor intermedio.
- El teorema del valor medio.

Entradas relacionadas

Ir a Cálculo Diferencial e Integral II
Siguiente entrada del curso: Motivación de la integral y sumas de Riemann

Ecuaciones Diferenciales I: Sistemas lineales homogéneos con coeficientes constantes – Valores propios complejos

Por Omar González Franco

Deja un comentario

Un matemático que no es también algo de poeta
nunca será un matemático completo.
– Karl Weierstrass

Introducción

Ya vimos cómo obtener la solución general de sistemas lineales homogéneos con coeficientes constantes en el caso en el que los valores propios son todos reales y distintos. En esta entrada desarrollaremos el caso en el que los valores propios son complejos.

Valores propios complejos

Vimos que para un sistema lineal

$$\mathbf{Y}^{\prime} = \mathbf{AY} \label{1} \tag{1}$$

con $\mathbf{A}$ una matriz de $n \times n$ con componentes reales

$$\mathbf{A} = \begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & & & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{pmatrix} \label{2} \tag{2}$$

siempre se puede encontrar una solución de la forma

$$\mathbf{Y}(t) = \begin{pmatrix}
k_{1} \\ k_{2} \\ \vdots \\ k_{n}
\end{pmatrix}e^{\lambda t} = \mathbf{K}e^{\lambda t} \label{3} \tag{3}$$

Ahora sabemos que $\lambda$ y $\mathbf{K}$ corresponden a un valor y vector propio respectivamente. Como los valores propios se obtienen de encontrar las raíces del polinomio característico, entonces es posible que los valores propios sean números complejos, digamos de la forma

$$\lambda = \alpha + i \beta \label{4} \tag{4}$$

Con $\alpha$ y $\beta$ reales. Veremos más adelante que este tipo de valores propios generarán también vectores propios con componentes complejos que podremos escribir como

$$\mathbf{K} = \mathbf{U} + i \mathbf{V} \label{5} \tag{5}$$

Con estos resultados la solución (\ref{3}) se puede escribir como

$$\mathbf{Y}(t) = \begin{pmatrix}
u_{1} + i v_{1} \\ u_{2} + i v_{2} \\ \vdots \\ u_{n} + i v_{n}
\end{pmatrix}e^{(\alpha + i \beta)t} = (\mathbf{U} + i \mathbf{V}) e^{(\alpha + i \beta)t} \label{6} \tag{6}$$

Un resultado interesante es que los valores y vectores propios conjugados de (\ref{4}) y (\ref{5}) también son valores y vectores propios de la misma matriz $\mathbf{A}$. Demostremos este hecho.

Recordemos que estamos denotando con $M_{n \times n}$ al conjunto de todas las matrices cuadradas de $n \times n$ con componentes reales y constantes.

Teorema: Sea $\mathbf{A} \in M_{n \times n}$ y $\lambda$ un valor propio de $\mathbf{A}$, entonces $\overline{\lambda}$ también es un valor propio de $\mathbf{A}$. Así mismo, si $\mathbf{K}$ es un vector propio asociado a $\lambda$, entonces $\mathbf{\overline{K}}$ es un vector propio asociado a $\overline{\lambda}$.

Demostración: Por hipótesis $\lambda$ es un valor propio de $\mathbf{A}$, lo que significa que se cumple la relación

$$\mathbf{AK} = \lambda \mathbf{K} \label{7} \tag{7}$$

Con $\mathbf{K}$ el vector propio asociado a $\lambda$. Si tomamos el conjugado de la ecuación anterior, tenemos

$$\overline{\mathbf{AK}} = \overline{\lambda \mathbf{K}}$$

o bien,

$$\mathbf{\bar{A}} \mathbf{\bar{K}} = \bar{\lambda} \mathbf{\bar{K}} \label{8} \tag{8}$$

Pero como $\mathbf{A} \in M_{n \times n}$, es decir, $\mathbf{A}$ es una matriz con componentes reales constantes, entonces $\mathbf{\overline{A}} = \mathbf{A}$. La ecuación (\ref{8}) queda como

$$\mathbf{A} \mathbf{\overline{K}} = \bar{\lambda} \mathbf{\overline{K}} \label{9} \tag{9}$$

Lo que muestra que $\overline{\lambda}$ es también un valor propio de $\mathbf{A}$ y el vector propio asociado es $\mathbf{\overline{K}}$.

$\square$

Como $\lambda$ y $\overline{\lambda}$ son valores propios, con vectores propios asociados $\mathbf{{K}}$ y $\mathbf{\overline{K}}$ respectivamente, de la misma matriz $\mathbf{A}$, por el último teorema de la entrada correspondiente podemos deducir que la solución conjugada de (\ref{6})

$$\mathbf{\overline{Y}}(t) = \begin{pmatrix}
u_{1} -i v_{1} \\ u_{2} -i v_{2} \\ \vdots \\ u_{n} -i v_{n}
\end{pmatrix}e^{(\alpha -i \beta)t} = (\mathbf{U} -i \mathbf{V}) e^{(\alpha -i \beta)t} \label{10} \tag{10}$$

es también una solución del sistema lineal (\ref{1}) y además las soluciones (\ref{6}) y (\ref{10}) son linealmente independientes por el mismo teorema.

A continuación enunciamos un teorema que establece que una solución como (\ref{6}) da lugar a dos soluciones con valores reales.

Teorema: Sea $\mathbf{A} \in M_{n \times n}$ y sea $\mathbf{Y}^{\prime} = \mathbf{AY}$ un sistema lineal homogéneo. Si $\mathbf{Y}$ es una solución del sistema, con valores complejos, entonces sus partes real e imaginaria son soluciones del mismo sistema lineal.

Demostración: Supongamos que la solución del sistema lineal $\mathbf{Y}^{\prime} = \mathbf{AY}$ es de la forma

$$\mathbf{Y} = \mathbf{W}_{1} + i \mathbf{W}_{2} \label{11} \tag{11}$$

Donde $\mathbf{W}_{1}$ y $\mathbf{W}_{2}$ son vectores con componentes reales.

Queremos probar que

$$\mathbf{W}_{1} = Re \{ \mathbf{Y} \} \hspace{1cm} y \hspace{1cm} \mathbf{W}_{2} = Im \{ \mathbf{Y} \}$$

también son soluciones del sistema lineal.

Por una lado, como $\mathbf{Y}$ es solución, entonces

$$\mathbf{Y}^{\prime} = \mathbf{AY} = \mathbf{A} (\mathbf{W}_{1} + i \mathbf{W}_{2}) = \mathbf{AW}_{1} + i \mathbf{AW}_{2} \label{12} \tag{12}$$

Por otro lado, notemos que

$$\mathbf{Y}^{\prime} = (\mathbf{W}_{1} + i \mathbf{W}_{2})^{\prime} = \mathbf{W}_{1}^{\prime} + i \mathbf{W}_{2}^{\prime} \label{13} \tag{13}$$

De (\ref{12}) y (\ref{13}), se tiene que

$$\mathbf{W}_{1}^{\prime} + i \mathbf{W}_{2}^{\prime} = \mathbf{AW}_{1} + i \mathbf{AW}_{2} \label{14} \tag{14}$$

Igualando las partes reales e imaginarias de (\ref{14}), se obtiene

$$\mathbf{W}_{1}^{\prime} = \mathbf{AW}_{1} \hspace{1cm} y \hspace{1cm} \mathbf{W}_{2}^{\prime} = \mathbf{AW}_{2}$$

Lo que muestra que las funciones $\mathbf{W}_{1}$ y $\mathbf{W}_{2}$ son soluciones con valores reales del sistema lineal (\ref{1}).

$\square$

Ahora que conocemos este resultado veamos que forma tienen las funciones $\mathbf{W}_{1}$ y $\mathbf{W}_{2}$.

Teorema: Sea $\lambda = \alpha + i \beta$ un valor propio complejo de la matriz de coeficientes $\mathbf{A}$ (\ref{2}) del sistema lineal homogéneo (\ref{1}) y sean $\mathbf{U}$ y $\mathbf{V}$ los vectores que definen al vector propio complejo $\mathbf{K}$ asociado a $\lambda$ (\ref{5}), entonces
$$\mathbf{W}_{1}(t) = e^{\alpha t} [\mathbf{U} \cos(\beta t) -\mathbf{V} \sin(\beta t)] \label{15} \tag{15}$$ y
$$\mathbf{W}_{2}(t) = e^{\alpha t} [\mathbf{U} \sin(\beta t) + \mathbf{V} \cos(\beta t)] \label{16} \tag{16}$$ son soluciones linealmente independientes de (\ref{1}) en $(-\infty ,\infty)$.

Demostración: Sabemos que una solución del sistema lineal (\ref{1}), en el caso en el que el valor y el vector propio son complejos, es

$$\mathbf{Y}(t) = e^{(\alpha + i \beta)t} (\mathbf{U} + i \mathbf{V})$$

Esta función la podemos escribir como

$$\mathbf{Y}(t) = e^{\alpha t} e^{i \beta t} \mathbf{U} + i e^{\alpha t} e^{i \beta t} \mathbf{V} \label{17} \tag{17}$$

Usando la identidad de Euler

$$e^{i \beta t} = \cos(\beta t) + i \sin(\beta t) \label{18} \tag{18}$$

podemos escribir la función (\ref{17}) como

\begin{align*}
\mathbf{Y} &= e^{\alpha t} [\cos(\beta t) + i \sin(\beta t)] \mathbf{U} + i e^{\alpha t}[\cos(\beta t) + i \sin(\beta t)] \mathbf{V} \\
&= e^{\alpha t} [\mathbf{U} \cos(\beta t) + i \mathbf{U} \sin(\beta t)] + i e^{\alpha t}[\mathbf{V} \cos(\beta t) + i \mathbf{V} \sin(\beta t)]
\end{align*}

Si reescribimos este resultado en una parte real y una imaginaria se tiene lo siguiente.

$$\mathbf{Y} = e^{\alpha t} [\mathbf{U} \cos(\beta t) -\mathbf{V} \sin(\beta t)] + i e^{\alpha t} [\mathbf{U} \sin(\beta t) + \mathbf{V} \cos(\beta t)] \label{19} \tag{19}$$

En esta forma podemos definir

$$\mathbf{W}_{1} = Re \{ \mathbf{Y} \} \hspace{1cm} y \hspace{1cm} \mathbf{W}_{2} = Im \{ \mathbf{Y} \}$$

entonces,

$$\mathbf{W}_{1}(t) = e^{\alpha t} [\mathbf{U} \cos(\beta t) -\mathbf{V} \sin(\beta t)]$$

$$\mathbf{W}_{2}(t) = e^{\alpha t} [\mathbf{U} \sin(\beta t) + \mathbf{V} \cos(\beta t)]$$

Por el teorema anterior concluimos que ambas son soluciones del sistema lineal (\ref{1}). Para mostrar que son soluciones linealmente independientes probemos que se cumple

$$c_{1} \mathbf{W}_{1}(t) + c_{2} \mathbf{W}_{2}(t) = 0 \label{20} \tag{20}$$

sólo si $c_{1} = c_{2} = 0$. Para ello consideremos la solución

$$\mathbf{Y} = \mathbf{W}_{1} + i \mathbf{W}_{2}$$

Por el primer teorema visto sabemos que el conjugado de la función anterior es también una solución del sistema.

$$\mathbf{\overline{Y}} = \mathbf{W}_{1} -i \mathbf{W}_{2} \label{21} \tag{21}$$

Y además ambas soluciones son linealmente independientes, lo que significa que si se satisface la ecuación

$$C_{1} \mathbf{Y} + C_{2} \mathbf{\overline{Y}} = 0 \label{22} \tag{22}$$

es porque $C_{1} = C_{2} = 0$.

Sustituyamos $\mathbf{Y}$ y $\mathbf{\overline{Y}}$ en (\ref{22}).

$$C_{1} [\mathbf{W}_{1} + i \mathbf{W}_{2}] + C_{2} [\mathbf{W}_{1} -i \mathbf{W}_{2}] = 0$$

Factorizando $\mathbf{W}_{1}$ y $\mathbf{W}_{2}$, se tiene

$$(C_{1} + C_{2}) \mathbf{W}_{1} + i(C_{1} -C_{2}) \mathbf{W}_{2} = 0 \label{23} \tag{23}$$

Si definimos

$$c_{1} = C_{1} + C_{2} \hspace{1cm} y \hspace{1cm} c_{2} = i(C_{1} -C_{2})$$

podemos escribir

$$c_{1} \mathbf{W}_{1}(t) + c_{2} \mathbf{W}_{2}(t) = 0$$

Pero como $C_{1} = C_{2} = 0$, entonces

$$C_{1} + C_{2} = 0 \hspace{1cm} y \hspace{1cm} C_{1} -C_{2} = 0$$

es decir, $c_{1} = c_{2} = 0$, lo que muestra que las soluciones $\mathbf{W}_{1}$ y $\mathbf{W}_{2}$ son linealmente independientes.

$\square$

Solución general de un sistema lineal con valores propios complejos

Nosotros ya sabemos que todos los vectores propios de una matriz $\mathbf{A}$, reales o complejos, son linealmente independientes, entonces un conjunto fundamental de soluciones de (\ref{1}) consiste de soluciones de la forma (\ref{15}) y (\ref{16}) en el caso en el que se obtienen valores propios complejos y soluciones de la forma (\ref{3}) cuando los valores propios son reales.

Por ejemplo, supongamos que $\lambda_{1} = \alpha + i \beta$, $\lambda_{2} = \alpha -i \beta$ son valores propios complejos de un sistema lineal y que $\lambda_{3}, \lambda_{4}, \cdots, \lambda_{n}$ son valores propios reales distintos del mismo sistema lineal. Los correspondientes vectores propios serían $\mathbf{K}_{1} = \mathbf{U} + i \mathbf{V}$, $\mathbf{K}_{2} = \mathbf{U} -i \mathbf{V}$, $\mathbf{K}_{3}, \mathbf{K}_{4}, \cdots, \mathbf{K}_{n}$. Entonces la solución general del sistema lineal será

$$\mathbf{Y}(t) = c_{1} \mathbf{W}_{1}(t) + c_{2} \mathbf{W}_{2}(t) + c_{3} e^{\lambda_{3} t} \mathbf{K}_{3} + c_{4} e^{\lambda_{4} t} \mathbf{K}_{4} + \cdots + c_{n} e^{\lambda_{n} t} \mathbf{K}_{n} \label{24} \tag{24}$$

Donde $\mathbf{W}_{1}(t)$ y $\mathbf{W}_{2}(t)$ son los vectores dados en (\ref{15}) y (\ref{16}), respectivamente.

Es importante mencionar que esta teoría se aplica sólo para el caso en que la matriz (\ref{2}) es una matriz con componentes reales.

Para concluir con esta entrada realicemos un ejemplo.

Ejemplo: Resolver el siguiente problema con valores iniciales.

$$\mathbf{Y}^{\prime} = \begin{pmatrix}
1 & 0 & 0 \\ 0 & 1 & -1 \\ 0 & 1 & 1
\end{pmatrix} \mathbf{Y}, \hspace{1cm} \mathbf{Y}(0) = \begin{pmatrix}
1 \\ 1 \\ 1
\end{pmatrix}$$

Solución: En este caso la matriz $\mathbf{A}$ es

$$\mathbf{A} = \begin{pmatrix}
1 & 0 & 0 \\ 0 & 1 & -1 \\ 0 & 1 & 1
\end{pmatrix}$$

La ecuación característica la obtenemos de calcular el determinante

$$\begin{vmatrix}
1 -\lambda & 0 & 0 \\ 0 & 1- \lambda & -1 \\ 0 & 1 & 1 -\lambda
\end{vmatrix} = 0$$

De donde se obtiene que

$$(1 -\lambda)^{3} + (1 -\lambda) = (1 -\lambda)(\lambda^{2} -2 \lambda + 2) = 0$$

Al resolver para $\lambda$ se obtienen las siguientes tres raíces.

$$\lambda_{1} = 1, \hspace{1cm} \lambda_{2} = 1 + i \hspace{1cm} y \hspace{1cm} \lambda_{3} = 1 -i$$

Estos valores corresponden a los valores propios de la matriz del sistema. Determinemos los vectores correspondientes.

Caso 1: $\lambda_{1} = 1$.

Buscamos un vector $\mathbf{K}_{1} \neq \mathbf{0}$, tal que

$$(\mathbf{A} -1 \mathbf{I}) \mathbf{K}_{1} = \mathbf{0}$$

$$\begin{pmatrix}
1 -1 & 0 & 0 \\ 0 & 1 -1 & -1 \\ 0 & 1 & 1 -1
\end{pmatrix} \begin{pmatrix}
k_{1} \\ k_{2} \\ k_{3}
\end{pmatrix} = \begin{pmatrix}
0 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & 1 & 0
\end{pmatrix} \begin{pmatrix}
k_{1} \\ k_{2} \\ k_{3}
\end{pmatrix} = \begin{pmatrix}
0 \\ 0 \\ 0
\end{pmatrix}$$

Es claro que $k_{2} = k_{3} = 0$ y $k_{1}$ al ser libre lo elegimos como $k_{1} = 1$, entonces el primer vector propio es

$$\mathbf{K}_{1} = \begin{pmatrix}
1 \\ 0 \\ 0
\end{pmatrix}$$

Caso 2: $\lambda_{2} = 1 + i$.

Buscamos un vector $\mathbf{K}_{2}$ no nulo, tal que

$$(\mathbf{A} -(1 + i) \mathbf{I}) \mathbf{K}_{2} = \mathbf{0}$$

$$\begin{pmatrix}
1 -(1 + i) & 0 & 0 \\ 0 & 1 -(1 + i) & -1 \\ 0 & 1 & 1 -(1 + i)
\end{pmatrix} \begin{pmatrix}
k_{1} \\ k_{2} \\ k_{3}
\end{pmatrix} = \begin{pmatrix}
-i & 0 & 0 \\ 0 & -i & -1 \\ 0 & 1 & -i
\end{pmatrix} \begin{pmatrix}
k_{1} \\ k_{2} \\ k_{3}
\end{pmatrix} = \begin{pmatrix}
0 \\ 0 \\ 0
\end{pmatrix}$$

El sistema de ecuaciones que se obtiene es

\begin{align*}
-i k_{1} &= 0 \\
-i k_{2} -k_{3} &= 0 \\
k_{2} -i k_{3} &= 0
\end{align*}

De la primera ecuación se obtiene que $k_{1} = 0$, y de la segunda o tercera se obtiene que $k_{2} = i k_{3}$. Elegimos $k_{3} = 1$, así $k_{2} = i$, entonces el segundo vector propio es

$$\mathbf{K}_{2} = \begin{pmatrix}
0 \\ i \\ 1
\end{pmatrix}$$

Este vector al ser complejo lo podemos escribir como

$$\mathbf{K}_{2} = \mathbf{U} + i \mathbf{V} = \begin{pmatrix}
0 \\ 0 \\ 1
\end{pmatrix} + i \begin{pmatrix}
0 \\ 1 \\ 0
\end{pmatrix} \label{25} \tag{25}$$

Caso 3: $\lambda_{3} = 1 -i$.

Este caso, como ya vimos en la teoría, corresponde al conjugado del caso anterior, así que el vector propio para este caso es

$$\mathbf{K}_{3} = \begin{pmatrix}
0 \\ -i \\ 1
\end{pmatrix}$$

que también se puede escribir como

$$\mathbf{K}_{3} = \mathbf{U} -i \mathbf{V} = \begin{pmatrix}
0 \\ 0 \\ 1
\end{pmatrix} -i \begin{pmatrix}
0 \\ 1 \\ 0
\end{pmatrix} \label{26} \tag{26}$$

Por lo tanto, una forma de la solución general del sistema es

$$\mathbf{Y}(t) = c_{1} e^{t} \begin{pmatrix}
1 \\ 0 \\ 0
\end{pmatrix} + c_{2} e^{(1 + i)t} \begin{pmatrix}
0 \\ i \\ 1
\end{pmatrix} + c_{3} e^{(1 -i)t} \begin{pmatrix}
0 \\ -i \\ 1
\end{pmatrix} \label{27} \tag{27}$$

Sin embargo, es conveniente tener la solución real dada en (\ref{24}). De los resultados (\ref{25}) y (\ref{26}) sabemos que

$$\mathbf{U} = \begin{pmatrix}
0 \\ 0 \\ 1
\end{pmatrix} \hspace{1cm} y \hspace{1cm} \mathbf{V} = \begin{pmatrix}
0 \\ 1 \\ 0
\end{pmatrix}$$

Si sustituimos en (\ref{15}) y (\ref{16}) con $\alpha = \beta = 1$, obtenemos lo siguiente.

$$\mathbf{W}_{1}(t) = e^{t} \begin{pmatrix}
0 \\ -\sin(t) \\ \cos(t)
\end{pmatrix} \hspace{1cm} y \hspace{1cm} \mathbf{W}_{2}(t) = e^{t} \begin{pmatrix}
0 \\ \cos(t) \\ \sin(t)
\end{pmatrix} \label{28} \tag{28}$$

Por su puesto, lo ideal es no memorizar las ecuaciones (\ref{15}) y (\ref{16}). Lo que se debe de hacer es tomar el caso en el que el vector propio es complejo, en este caso $\lambda_{2} = 1 + i$ y el vector propio correspondiente $\mathbf{K}_{2} = \begin{pmatrix} 0 \\ i \\ 1 \end{pmatrix}$, tal que una solución del sistema es

$$\mathbf{Y}_{2}(t) = e^{(1 + i)t} \begin{pmatrix}
0 \\ i \\ 1
\end{pmatrix}$$

y usamos la identidad de Euler (\ref{18}).

\begin{align*}
e^{(1 + i)t} \begin{pmatrix}
0 \\ i \\ 1
\end{pmatrix} &= e^{t} [\cos(t) + i \sin(t)] \left[ \begin{pmatrix}
0 \\ 0 \\ 1
\end{pmatrix} + i \begin{pmatrix}
0 \\ 1 \\ 0
\end{pmatrix} \right] \\
&= e^{t} \left[ \cos(t) \begin{pmatrix}
0 \\ 0 \\ 1
\end{pmatrix} -\sin(t) \begin{pmatrix}
0 \\ 1 \\ 0
\end{pmatrix} + i \sin(t) \begin{pmatrix}
0 \\ 0 \\ 1
\end{pmatrix} + i \cos(t) \begin{pmatrix}
0 \\ 1 \\ 0
\end{pmatrix} \right] \\
&= e^{t} \begin{pmatrix}
0 \\ -\sin(t) \\ \cos(t)
\end{pmatrix} + i e^{t} \begin{pmatrix}
0 \\ \cos(t) \\ \sin(t)
\end{pmatrix}
\end{align*}

De donde podemos definir las funciones anteriores (\ref{28}).

$$\mathbf{W}_{1}(t) = e^{t} \begin{pmatrix}
0 \\ -\sin(t) \\ \cos(t)
\end{pmatrix} \hspace{1cm} y \hspace{1cm} \mathbf{W}_{2}(t) = e^{t} \begin{pmatrix}
0 \\ \cos(t) \\ \sin(t)
\end{pmatrix}$$

Por lo tanto, de acuerdo a (\ref{24}), la solución general $\mathbf{Y}(t)$ del sistema lineal homogéneo dado debe tener la forma

$$\mathbf{Y}(t) = c_{1} e^{t} \begin{pmatrix}
1 \\ 0 \\ 0
\end{pmatrix} + c_{2} e^{t} \begin{pmatrix}
0 \\ -\sin(t) \\ \cos(t)
\end{pmatrix} + c_{3} e^{t} \begin{pmatrix}
0 \\ \cos(t) \\ \sin(t)
\end{pmatrix} \label{29} \tag{29}$$

Apliquemos los valores iniciales. Tomando $t = 0$, se ve que

$$\mathbf{Y}(0) = \begin{pmatrix}
1 \\ 1 \\ 1
\end{pmatrix} = c_{1} \begin{pmatrix}
1 \\ 0 \\ 0
\end{pmatrix} + c_{2} \begin{pmatrix}
0 \\ 0 \\ 1
\end{pmatrix} + c_{3} \begin{pmatrix}
0 \\ 1 \\ 0
\end{pmatrix} = \begin{pmatrix}
c_{1} \\ c_{3} \\ c_{2}
\end{pmatrix}$$

De modo que, $c_{1} = c_{2} = c_{3} = 1$. Por lo tanto, la solución particular del problema de valores iniciales es

$$\mathbf{Y}(t) = e^{t} \begin{pmatrix}
1 \\ 0 \\ 0
\end{pmatrix} + e^{t} \begin{pmatrix}
0 \\ -\sin(t) \\ \cos(t)
\end{pmatrix} + e^{t} \begin{pmatrix}
0 \\ \cos(t) \\ \sin(t)
\end{pmatrix} = e^{t} \begin{pmatrix}
1 \\ \cos(t) -\sin(t) \\ \cos(t) + \sin(t)
\end{pmatrix} \label{30} \tag{30}$$

$\square$

Hemos concluido esta entrada. En la siguiente revisaremos el último caso que corresponde a la situación en la que tenemos valores propios que se repiten, es decir, que tienen multiplicidad $r > 1$.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

Resolver los siguientes sistemas lineales homogéneos.

$\mathbf{Y}^{\prime} = \begin{pmatrix}
-3 & 2 \\ -1 & -1
\end{pmatrix}\mathbf{Y}$

$\mathbf{Y}^{\prime} = \begin{pmatrix}
1 & 0 & 1 \\ 0 & 1 & -1 \\ -2 & 0 & -1
\end{pmatrix} \mathbf{Y}$

$\mathbf{Y}^{\prime} = \begin{pmatrix}
-7 & 6 & -6 \\ -9 & 5 & -9 \\ 0 & -1 & -1
\end{pmatrix} \mathbf{Y}$

Resolver los siguientes problemas con valores iniciales.

$\mathbf{Y}^{\prime} = \begin{pmatrix}
-3 & 0 & 2 \\ 1 & -1 & 0 \\ -2 & -1 & 0
\end{pmatrix} \mathbf{Y}, \hspace{1cm} \mathbf{Y}(0) = \begin{pmatrix}
0 \\ -1 \\ -2
\end{pmatrix}$

$\mathbf{Y}^{\prime} = \begin{pmatrix}
0 & 2 & 0 & 0 \\ -2 & 0 & 0 & 0 \\ 0 & 0 & 0 & -3 \\ 0 & 0 & 3 & 0
\end{pmatrix} \mathbf{Y}, \hspace{1cm} \mathbf{Y}(0) = \begin{pmatrix}
1 \\ 1 \\ 1 \\ 0
\end{pmatrix}$

Más adelante…

Ya conocemos la forma de las soluciones generales de sistemas lineales homogéneos en los que los valores propios de la matriz del sistema son reales y distintos y en los que son números complejos. El caso en el que son repetidos se presentará en la siguiente entrada.

Cuando los valores propios son repetidos el método se puede complicar un poco, sin embargo existe una alternativa bastante ingeniosa que nos permite obtener $n$ soluciones linealmente independientes de un sistema lineal de $n$ ecuaciones. ¡Dicha alternativa involucra la utilidad de la exponencial de una matriz $e^{\mathbf{A} t}$!.

Entradas relacionadas

Página principal del curso: Ecuaciones Diferenciales I
Entrada anterior del curso: Sistemas lineales homogéneos con coeficientes constantes – Valores propios distintos
Siguiente entrada del curso: Sistemas lineales homogéneos con coeficientes constantes – Valores propios repetidos

Video relacionado al tema: Método de valores y vectores propios para sistemas lineales homogéneos con coeficientes constantes. Raíces complejas del polinomio característico

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Álgebra Moderna I: Misma Estructura Cíclica, Permutación Conjugada y Polinomio de Vandermonde

Por Cecilia del Carmen Villatoro Ramos

Deja un comentario

(Trabajo de titulación asesorado por la Dra. Diana Avella Alaminos)

Introducción

Anteriormente en nuestro curso, definimos una caracterización única para las permutaciones, aprendimos que la factorización completa es única salvo por el orden de los factores. Ahora, podemos analizar a los ciclos que aparecen en dicha factorización completa.

La unicidad de la factorización completa nos asegura que la cantidad de ciclos que la conforman y la longitud de éstos no van a cambiar sin importar la factorización que escojamos. Estudiar estas propiedades de la factorización completa motiva la definición de estructura cíclica y de permutación conjugada, dos definiciones centrales de esta entrada.

Además de la factorización completa, existen otras maneras de descomponer a las permutaciones. Intuitivamente, podemos pensar a las permutaciones como reacomodos, entonces es posible llegar a cualquier acomodo intercambiando elementos de dos en dos, es decir podemos reacomodar los números de $1$ a $n$ como queramos mediante intercambios dos a dos.

Se verá que toda permutación se descompone siempre como un producto de una cantidad par de intercambios, o siempre con una cantidad impar de intercambios. Para ello seguiremos el enfoque presentado en el libro de Herstein, al igual que en el libro de Avella, Mendoza, Sáenz y Souto, y en el libro de Dummit mencionados en la bibliografía, en los que se introduce un polinomio en varias indeterminadas llamado el polinomio de Vandermonde.

Misma Estructura Cíclica

Recordemos que toda permutación se puede factorizar en una factorización completa y que toda factorización completa es única salvo por el orden de sus productos. Entonces la cantidad de ciclos y su longitud no va a cambiar, independientemente de la factorizacoón completa que escojamos. Esto motiva la siguiente definición.

Definición. Sean $\alpha, \beta \in S_n$. Decimos que $\alpha$ y $\beta$ tienen la misma estructura cíclica si su factorización completa tiene el mismo número de $r-$ciclos para toda $r \in \z^+$.

Ejemplo.

En $S_9$, tomemos $\alpha$ y $\beta$ como sigue

\begin{align*}
\alpha &= (2 \; 4 \; 7 \; 9)(1 \; 3)(5 \; 6)(8)\\
\beta &= (2 \; 4)(1 \; 5 \; 8 \; 9)(3 \; 7)(6).
\end{align*}

Claramente, $\alpha$ y $\beta$ tienen la misma estructura cíclica, ya que ambas están formadas por un $4-$ciclo, dos transposiciones y un uno ciclo.

Permutación Conjugada

Definición. Sean $\alpha, \beta \in S_n$. Decimos que $\beta$ es conjugada de $\alpha$ si existe $\gamma \in S_n$ tal que $\beta = \gamma \alpha \gamma^{-1}$.

Ejemplo.

Tomemos $\gamma = (1 \; 2 \; 3)$, entonces $\gamma = (1\;2\;4)$ y $\alpha = (3 \; 5 \; 6 \; 8)$. Entonces podemos calcular a $\beta$ como sigue,

\begin{align*}
\gamma\alpha\gamma^{-1} &= (1 \; 2 \; 3)(3 \; 5 \; 6 \; 8)(1 \; 3 \; 2) \\
& = (1 \; 5 \; 6 \; 8) = \beta.
\end{align*}

Así, $\beta = (1 \; 5 \; 6 \; 8)$ es conjugada de $(1 \; 5 \; 6 \; 8) = \alpha$.

Podemos observar que si consideramos la relación en $S_n$ dada por $\alpha \sim \beta$ si y sólo si $\alpha$ es conjugada de $\beta$, es una relación de equivalencia. Aquí no lo demostraremos, pero queda como tarea moral. Aunque no es evidente en primera instancia, el hecho de que dos permutaciones sean conjugadas puede analizarse a partir de la estructura cíclica que tienen. En la tarea moral hay ejercicios relacionados con ello.

¿A qué nos referimos con reacomodos?

Vimos que toda permutación se puede descomponer en ciclos disjuntos y, bajo condiciones específicas, esta descomposición es única salvo por orden de factores. Sin embargo, hay otras maneras de descomponer a una permutación, las podemos pensar a las permutaciones como reacomodos. Es claro que podemos llegar a cualquier reacomodo intercambiando los elementos de 2 en 2.

A continuación, ilustramos esto con un ejemplo.

Tomemos $\sigma = (1 \; 2 \; 3 \; 4 \; 5)$, en esta permutación los números $1,2,3,4$ y $5$ cambian ya que el $1$ va a dar a $2$, el $2$ al $3$, etc., así que si reacomodamos los números $1,2,3,4,5$ de acuerdo a lo que nos indica $\sigma,$ en vez la lista $1\;2\;3\;4\;5$ tendremos ahora la lista $2\;3\;4,5\;1.$ Entonces nos preguntamos, ¿cómo podemos llegar de la lista $1\;2\;3\;4\;5$ a la lista $2\;3\;4\;5\;1$ sólo mediante intercambios dos a dos?

Primero, observemos que lo único que tenemos que hacer es pasar el 1 hasta el final. Luego, tomemos en cuenta que nuestra propuesta es intercambiar los elementos de dos en dos. Así, el proceso es el siguiente:

Intercambiamos 1 y 2, así nuestra lista quedaría $2 \; 1 \; 3 \; 4 \; 5.$ Observemos que el 2 ya queda en la posición deseada.
Sobre el resultado anterior, intercambiamos 1 y 3. Hasta el momento tenemos el reacomodo $2 \; 3 \; 1 \; 4 \; 5$.
Ahora, nos toca intercambiar 1 y 4. Así obtenemos $2 \; 3 \; 4 \; 1 \;5$
Por último, nos queda acomodar el último número, así que intercambiamos 1 y 5.

Al final, llegamos al reacomodo buscado. Esto nos indica que para permutar los números $1,2,3,4$ y $5$ de acuerdo a $\sigma$ basta con intercambiar el uno con el dos, luego el uno con el tres, después el uno con el cuatro y finalmente el uno con el cinco. En otras palabras, la permutación sigma se obtiene de aplicar sucesivamente las transposiciones $(1 \; 2)$, $(1 \; 3)$, $(1 \; 4)$ y $(1 \; 5)$. Debido a que escribimos la composición de permutaciones de derecha a izquierda, nuestra sigma quedaría de la siguiente manera:

$\sigma = (1 \; 2 \; 3 \; 4 \; 5) = (1 \; 5) (1 \; 4) (1 \; 3) (1 \; 2).$

Este ejemplo nos ilustra cómo podemos descomponer un ciclo como producto de transposiciones. Probaremos esto en el caso general, y dado que toda permutación es un producto de ciclos y cada ciclo se puede descomponer en producto de transposiciones, entonces podremos concluir que toda permutación es un producto de transposiciones.

Teorema. La siguiente igualdad de conjuntos se cumple,

$S_n = \left< \{\tau \in S_n | \tau \text{ es una transposición} \} \right>$.

Demostración.

Como toda permutación es un producto de ciclos, basta ver que todo ciclo es un producto de transposiciones. Así,

\begin{align*}
(i_1 \; \cdots \; i_r) = (i_1 \; i_r) \cdots (i_1\; i_3)(i_1 \; i_2).
\end{align*}

Por lo tanto $S_n = \left< \{ \tau \in S_n | \tau \text{ es una transposición} \}\right>$.

$\square$

El polinomio de Vandermonde

Hemos probado que toda permutación se puede expresar como un producto de transposiciones, esto es importante porque las transposiciones son permutaciones muy sencillas, sin embargo estas descomposiciones no son únicas, pueden cambiar los factores que aparecen, su orden e incluso en el número de factores que presentan. A pesar de ello siempre tienen un número par o siempre un número impar de transposiciones. Con el fin probar este resultado introduciremos un polinomio con distintas indeterminadas que permutaremos usando permutaciones, para lo cual consideraremos polinomios en varias indeterminadas, que serán permutadas por los elementos del grupo simétrico.

Definición. Sea $P(x_1, \dots, x_n)$ un polinomio en las indeterminadas $x_1, \dots, x_n$ con coeficientes enteros y $\alpha \in S_n$. El polinomio $\alpha P$ se define como

\begin{align*}
\alpha P(x_1,\dots,x_n) = P(x_{\alpha(1)},\dots,x_{\alpha(n)}).
\end{align*}

Ejemplo.

Consideremos el polinomio $P(x_1,x_2,x_3,x_4,x_5) =-3x_1x_2+x_3x_5^2+x_1x_2x_3x_4x_5$ y $\alpha =(1\, 2\, 3)(4\, 5)$. Entonces

\begin{align*}
\alpha P(x_1,x_2,x_3,x_4) = &(1\, 2\, 3)(4\, 5) P(x_1,x_2,x_3,x_4) \\
=&-3x_{\alpha(1)}x_{\alpha(2)}+x_{\alpha(3)}x_{\alpha(5)}^2+x_{\alpha(1)}x_{\alpha(2)}x_{\alpha(3)}x_{\alpha(4)}x_{\alpha(5)}\\=&-3x_2x_3+x_1x_4^2+x_2x_3x_1x_5x_4.\end{align*}

Definición. El polinomio de Vandermonde en los indeterminadas $x_1, \dots, x_n$ con coeficientes enteros es

\begin{align*}
V(x_1,\dots,x_n) = \prod_{1 \leq i < j \leq n}(x_i – x_j).
\end{align*}

Dado $\alpha \in S_n$, el $\alpha-$polinomio de Vandermonde es $\alpha P$, es decir:

\begin{align*}
\alpha \; V(x_1, \dots, x_n) = \prod_{1 \leq i < j \leq n}(x_{\alpha(i)} – x_{\alpha(j)}).
\end{align*}

Ejemplo.

\begin{align*}
V(x_1,x_2,x_3,x_4) = & (x_1 – x_2)(x_1 – x_3)(x_1 – x_4) \\
& (x_2 – x_3) (x_2 – x_4)(x_3-x_4).
\end{align*}

Calculemos ahora $(2 \; 4) \, V(x_1,x_2,x_3,x_4)$. Observemos que los únicos factores de $V$ que cambian son aquellos donde aparece el subíndice $2$ o el $4$, y éstos se intercambian, por ejemplo el factor $ (x_1 – x_2)$ cambiará al factor $ (x_1 – x_4)$. Así

\begin{align*}
(2 \; 4) \, V(x_1,x_2,x_3,x_4) = &(x_1 – x_4)(x_1 – x_3)(x_1-x_2)\\
&(x_4-x_3)(x_4 – x_2)(x_3-x_2) \\
= & \,- V(x_1,x_2,x_3,x_4).
\end{align*}

Observación 1. Dado que cada factor del polinomio de Vandermonde se queda igual o cambia de signo, sólo pueden suceder dos cosas, $\alpha V = V$ ó $\alpha V = – V$ para todo $\alpha \in S_n$, de acuerdo a si hay un número impar de cambios de signo o si hay un número par de cambio de signo.

Observación 2. Sea $\alpha\in S_n$. Tenemos que $ \alpha (- V) =-\alpha V$.

Observación 3. Sean $\alpha, \beta \in S_n$. Tenemos que $ \alpha (\beta V) =(\alpha\beta)V$.

Demostración.

Sea $\alpha \in S_n$. Tenemos que:

\begin{align*}\alpha (\beta V(x_1, \dots, x_n))=&\alpha V(x_{\beta(1)}, \dots, x_{\beta(n)})= V(x_{\alpha(\beta(1))}, \dots, x_{\alpha(\beta(n))})\\=&V(x_{(\alpha\beta)(1)}, \dots, x_{(\alpha\beta)(n)})=(\alpha\beta)V(x_1, \dots, x_n).\end{align*}

$\square$

Vandermonde y las Transposiciones

Veamos cuál es el efecto que tienen dos permutaciones sobre un polinomio. Primero analizaremos qué efecto tienen las transposiciones en el polinomio de Vandermonde. Seguiremos para ello la idea del libro de Dummit que se menciona en la bibliografía, veremos primero qué efecto tiene la transposición $(1\; 2)$, y con ello entenderemos qué efecto tienen el resto de las transposiciones.

Lema. Sea $\tau \in S_n$ una transposición. Entonces $\tau V = -V$.

Demostración.

Caso 1 $\tau=(1\; 2)$

Al aplicar $\tau$ a $V$ los factores $x_i-x_j$ con $i,j\notin \{1,2\}$ se preservan, mientras que el factor $x_1-x_2$ cambia a $x_2-x_1$ provocando un cambio de signo. Por otro lado los factores $x_1-x_j$ con $j\in\{3,\dots ,n\}$ y los factores $x_2-x_j$ con $j\in\{3,\dots ,n\}$ no producen cambios de signo. Concluimos entonces que sólo un factor produce un cambio de signo y así $(1\; 2) V=-V.$

Caso 2 $\tau\neq(1\; 2)$, es decir $\tau =(1\; l)$ con $l\in\{3,\dots ,n\}$, o $\tau =(2\; l)$ con $j\in\{3,\dots ,n\}$, o bien $\tau =(k\; l)$ con $k,j\notin\{1,2\}.$

Notemos que \begin{align*}(2\; l)(1\; 2)(2\; l)&=(1\, l)\text{ , para } l\in\{3,\dots ,n\},\\ (1\; l)(1\; 2)(1\; l)&=(2\, l)\text{ , para } l\in\{3,\dots ,n\},\\(1\; k)(2\; l)(1\; 2)(1\;k)(2\; l)&=(k\, l)\text{ , para } k,j\notin\{1,2\}.\end{align*} Así, siempre existe $\alpha \in S_n$ tal que $\alpha (1\; 2) \alpha =\tau$.

Si $\alpha V=V$, tenemos que $\tau V=(\alpha(1\; 2)\alpha)V=(\alpha ((1\; 2)(\alpha V)))=(\alpha ((1\; 2) V))=\alpha (-V)=-\alpha V=-V.$

Si $\alpha V=-V$, tenemos que $\tau V=(\alpha(1\; 2)\alpha)V=(\alpha ((1\; 2)(\alpha V)))=(\alpha ((1\; 2) (-V))=\alpha V=-V.$

$\square$

Teoremas importantes

Teorema. Sea $\alpha = \tau_1 \cdots \tau_r \in S_n$, $\tau_1, \dots, \tau_r$ transposiciones. Entonces

$\alpha V = (-1)^r \,V$.

Demostración. Por inducción sobre $r$.

Base de inducción: Supongamos que $r = 1$.
Entonces, desarrollando $\alpha V$ y usando el lema 1 obtenemos

\begin{align*}
\alpha V &= \tau_1 V\\
&= -V = (-1)^1 V & \text{Lema}
\end{align*}

Así, se cumple la proposición para al caso base.

Ahora, sea $r > 1$.
Hipótesis de Inducción: Supongamos que el resultado se cumple para el producto de $r-1$ transposiciones.

P.D. $\alpha V = (-1)^r V$.

Desarrollando $\alpha V$ y usando el Lema 2, obtenemos:

\begin{align*}
\alpha V &= (\tau_1 \, \tau_2 \cdots \tau_r) V\\
&= ((\tau_1 \, \tau_2 \cdots \tau_{r-1})\tau_r) V & \text{Agrupamos}\\
&= (\tau_1 \cdots \tau_{r-1})(\tau_r V) &\text{Observación 3.}\\
&= (\tau_1 \cdots \tau_{r-1})(- V) &\text{Lema}\\&= -(\tau_1 \cdots \tau_{r-1}) V. &\end{align*}

Ahora, como $\tau_2 \cdots \tau_r$ tiene $r-1$ transposiciones, podemos aplicar la hipótesis de inducción y continuar con las igualdades.

\begin{align*}
-(\tau_2 \cdots \tau_r) V = -(-1)^{r-1} V = (-1)^r \,V.
\end{align*}

Así, demostramos lo deseado.

$\square$

Teorema. Sea $\alpha = \tau_1 \cdots \tau_r = \rho_1 \cdots \rho_t \in S_n$, con $\tau_1, \cdots, \tau_r$, $\rho_1, \cdots, \rho_t$ transposiciones. Entonces $r$ y $t$ tienen la misma paridad.

Demostración.
Por el teorema anterior, obtenemos:

\begin{align*}
\alpha V = (\rho_1 \cdots \rho_t) V = (-1)^t \,V.
\end{align*}

Por otro lado, por el teorema anterior también obtenemos:

\begin{align*}
\alpha V = (\tau_1 \cdots \tau_r) V = (-1)^r \,V.
\end{align*}

Entonces $(-1)^t V = (-1)^r V$. Por lo tanto $t$ y $r$ tienen la misma paridad.

$\square$

Tarea moral

Prueba que la relación en $S_n$ dada por $\alpha \sim \beta$ si y sólo si $\beta$ es conjugada de $\alpha$, es una relación de equivalencia.
Encuentra $\sigma\alpha\sigma^{-1}$ en cada inciso:
1. $\alpha = ( 2 \; 3 \; 5), \; \sigma = (1\; 3 \; 5 \; 6)$.
2. $\alpha = (5 \; 4 \; 3 \; 1), \; \sigma = (2 \; 4 \; 5 \; 7 \; 8)$.
3. $\alpha = (1 \; 7 \; 5 \; 4 \; 2 \; 3), \; \sigma = (1 \; 2 \; 4 \; 6 \; 7)$.
Sean $\alpha,\sigma \in S_n$ con $\sigma = (i_1\; i_2 \; \cdots \; i_r) \in S_n$ un $r-$ciclo.
Considera $\alpha = (1 \; 9 \; 4)(10 \; 2 \; 8 \; 5 \; 3)(3 \; 5 \; 6 \; 8)(7 \; 2) \in S_{10}$.
1. Escribe a $\alpha$ como un producto de transposiciones de al menos tres formas distintas y compara la cantidad de transposiciones que se usan en cada caso.
2. Con lo anterior, determina quién es $\alpha V$.
¿Qué forma cíclica tiene $\alpha\sigma\alpha^{-1}$?
¿Cómo podemos describir a la permutación $\alpha\sigma\alpha^{-1}$ a partir de cómo son $\alpha$ y $\sigma$ sin necesidad de hacer paso a paso la composición? ¿puedes encontrar una fórmula que lo describa?

Más adelante…

Todavía nos quedan propiedades del polinomio de Vandermonde que estudiar. En la siguiente entrada profundizaremos en ellas. Por ejemplo, ¿existe una manera de determinar el signo que tendrá el $\alpha-$polinomio de Vandermonde? ¿Cómo se relaciona con la descomposición de la permutación $\alpha$? ¿Hay manera de relacionar las permutaciones que dan lugar a polinomios con el mismo signo? Éstas y otras preguntas las responderemos a continuación.

Entradas relacionadas

Ir a Álgebra Moderna I.
Entrada anterior del curso: Factorización Completa.
Siguiente entrada del curso: Paridad de una permutación.
Resto de cursos: Cursos.