Cálculo Diferencial e Integral I: Límite de una función a través de sucesiones

Por Juan Manuel Naranjo Jurado

Introducción

Alternativamente a la definición épsilon-delta revisada en la entrada anterior, se puede estudiar el límite de una función a través de límites de sucesiones; este enfoque tiene varias bondades en el sentido de que podremos hacer un amplio uso de las propiedades demostradas anteriormente para el límite de una sucesión. En esta entrada nos enfocaremos en probar un teorema que nos indica la equivalencia entre ambas formas de concebir el límite de una función.

Negación de la definición del límite de una función

Veamos primero qué significa que el límite de una función no exista, es decir, revisaremos la negación del concepto dado en la entrada anterior, para ello retomemos la definición de límite de una función:

Definición. Decimos que $f$ tiende hacia el límite $L$ en $x_0$ si para todo $\varepsilon > 0$ existe algún $\delta > 0$ tal que, para todo $x$, si $0<|x-x_0|< \delta$, entonces $|f(x)-L|< \varepsilon.$

De esta forma, si no se cumple la definición anterior, entonces tenemos lo siguiente: $f$ no tiende hacia el límite $L$ en $x_0$ si existe algún $\varepsilon > 0$, tal que para todo $\delta > 0$, hay algún $x$ que satisface $0 < |x-x_0| < \delta$, pero $|f(x)-L| \geq \varepsilon.$

Criterio de sucesiones para límites

Es momento de revisar un teorema que será particularmente útil para demostrar las propiedades del límite de una función. Este teorema nos indica que una función $f$ tiende al límite $L$ en $x_0$ si y solo si para toda sucesión $\{ a_n \}$ en el dominio de $f$ que converja a $x_0$ se tiene que la sucesión generada por $\{f(a_n) \}$ converge a $L.$

Teorema. Sean $A \subset \mathbb{R}$, $f:A \rightarrow \mathbb{R}$ y $x_0$ un punto de acumulación de $A$. Los siguientes enunciados son equivalentes.

  1. $$\lim_{x \to x_0} f(x) = L.$$
  2. Para toda sucesión $\{ a_n \}$ en $A$ que converge a $x_0$ tal que $a_n \neq x_0$ para todo $n\in \mathbb{N}$, la sucesión $\{f(a_n)\}$ converge a $L.$

Demostración.

$1) \Rightarrow 2)]$ Sea $\varepsilon >0$. Supongamos que $$\lim_{x \to x_0} f(x) = L.$$
Y sea $\{ a_n \}$ una sucesión en $A$ que converge a $x_0$ tal que $a_n \neq x_0$ para todo $n\in \mathbb{N}$.

Por hipótesis $f$ converge a $L$ en $x_0$, entonces existe $\delta > 0$ tal que si
$0<|x-x_0|<\delta$, entonces $|f(x)-L| < \varepsilon.$

Además, como la sucesión $\{a_n\}$ converge a $x_0$, para el valor $\delta > 0$ dado, existe $n_0 \in \mathbb{N}$ tal que si $n \geq n_0$ entonces $0<|a_n- x_0| < \delta$ y por hipótesis de la convergencia de $f$ a $L$ en $x_0$, podemos concluir que $|f(a_n)-L| < \varepsilon$. Así la sucesión $\{f(a_n)\}$ converge a $L$, es decir,
$$\lim_{n \to \infty} f(a_n) = L.$$


$1) \Leftarrow 2)]$ Procederemos a hacer esta implicación por contrapositiva, es decir, demostraremos que si no sucede $1)$, entonces tampoco sucede $2).$

Supongamos que $1)$ no se cumple, es decir, existe algún $\varepsilon_0 > 0$, tal que para todo $\delta > 0$, hay al menos un real $x$ que cumple $0<|x-x_0| < \delta$, pero $|f(x)-L| \geq \varepsilon_0$. Así, consideremos justo ese valor de $\varepsilon_0.$ Notemos que para todo natural $n \in \mathbb{N}$, si consideramos $\delta=\frac{1}{n}$, entonces existe al menos un término $a_n$ en $A$ tal que $0<|a_n-x_0| < \frac{1}{n}$, pero $|f(a_n)-L| \geq \varepsilon_0.$

Tomemos la sucesión generada por $\{a_n\}$, se tiene que la sucesión $\{ a_n \}$ converge a $x_0$ y $a_n \neq x_0$ para todo $n \in \mathbb{N}$, pero la sucesión $\{f(a_n)\}$ no converge a $L$. Así, si no se cumple $1)$, entonces tampoco $2)$. Por lo anterior, podemos concluir que $2) \Rightarrow 1).$

$\square$

Límite de una función a través de sucesiones

Ahora nos enfocaremos en hacer uso del teorema anterior. En el momento de hacer las demostraciones correspondientes, debemos tener presente que una vez que expresamos el límite de una función en términos del límite de una sucesión, podemos hacer uso de las propiedades del mismo.

Ejemplo 1. Sea $A =\mathbb{R} \backslash \{ 1 \}$. Consideremos la función $f: A \to \mathbb{R}$ con $f(x) = \frac{x^3-x^2+x-1}{x-1}$. Prueba que $$\lim_{x \to 1} f(x) = 2.$$

Demostración.

Primero notemos que
\begin{align*}
f(x) & = \frac{x^3-x^2+x-1}{x-1} \\ \\
& = \frac{(x-1)(x^2+1)}{x-1} \\ \\
& = x^2+1.
\end{align*}

$$\therefore f(x) = x^2+1.$$

Sea $\{a_n\}$ una sucesión en $\mathbb{R}$ tal que

  • $\lim\limits_{n \to \infty} a_n = 1.$
  • Para todo $n \in \mathbb{N}$, $a_n \neq 1.$
  • Para todo $n \in \mathbb{N}$, $a_n \in A.$

Entonces tenemos que

\begin{align*}
\lim_{x \to 1} f(x) & = \lim_{n \to \infty} f(a_n) \\ \\
& = \lim_{n \to \infty} (a_n^2+1) \\ \\
& = \lim_{n \to \infty} a_n^2 + \lim_{n \to \infty} 1 \tag{1} \\ \\
& = 1+1 \\ \\
& = 2.
\end{align*}

$$\therefore \lim_{x \to 1} \frac{x^3-x^2+x-1}{x-1} = 2.$$

$\square$

Es importante resaltar que aún no hemos probado ninguna propiedad del límite de una función, por lo que el criterio de sucesiones para límites es lo que nos permite emplear las propiedades que conocemos respecto a sus operaciones aritméticas y así realizar el paso $(1)$ en el ejemplo anterior.

Ejemplo 2. Sea $A = [0, \infty)$. Consideremos la función $f: A \to \mathbb{R}$ con $f (x) = \sqrt{x}$. Demuestra que $$\lim_{x \to 2} f(x) = \sqrt{2}.$$

Sea $\{a_n\}$ una sucesión en $\mathbb{R}$ tal que

  • $\lim\limits_{n \to \infty} a_n = 2.$
  • Para todo $n \in \mathbb{N}$, $a_n \neq 2.$
  • Para todo $n \in \mathbb{N}$, $a_n \in A.$

Sabemos que si $\{a_n\}$ converge a $2$, entonces $\{ \sqrt{a_n} \}$ converge a $\sqrt{2}$. Así, tenemos que

\begin{align*}
\lim_{x \to 2} f(x) & = \lim_{n \to \infty} f(a_n) \\
& = \lim_{n \to \infty} \sqrt{a_n} \\
& = \sqrt{2}.
\end{align*}

$$\therefore \lim_{x \to 2} \sqrt{x} = \sqrt{2}.$$

$\square$

Ejemplo 3. Sea $A =\mathbb{R} \backslash \{ 0 \}$. Consideremos la función $f: A \to \mathbb{R}$ con $f (x)= \frac{(3+x)^2-9}{x}$. Prueba que $$\lim_{x \to 0} f(x) = 6.$$

Demostración.

Primero notemos que

\begin{align*}
f (x) & = \frac{(3+x)^2-9}{x} \\ \\
& = \frac{9+6 x+x^2-9}{x} \\ \\
& = \frac{6x+x^2}{x} \\ \\
& = 6+x.
\end{align*}

$$\therefore f(x) = 6+x.$$

Sea $\{a_n\}$ una sucesión en $\mathbb{R}$ tal que

  • $\lim\limits_{n \to \infty} a_n = 0.$
  • Para todo $n \in \mathbb{N}$, $a_n \neq 0.$
  • Para todo $n \in \mathbb{N}$, $a_n \in A.$

\begin{align*}
\lim_{x \to 0} f(x) & = \lim_{n \to \infty} f(a_n) \\ \\
& = \lim_{n \to \infty} (6+a_n) \\ \\ 
& = 6.
\end{align*}

$$\therefore \lim_{x \to 0} \frac{(3+x)^2-9}{x} = 6.$$

$\square$

Hasta este momento, solo hemos hecho uso del criterio de sucesiones para límites para probar la existencia de los mismos. Sin embargo, es posible usarlo también para el caso en el que tal límite no existe. Derivado directamente del teorema anterior se tiene que:

  • Si existen dos sucesiones $\{ a_n \}$, $\{b_n\}$ en el dominio de $f$, ambas convergentes a $x_0$, tal que $a_n$, $b_n \neq x_0$ para todo $n \in \mathbb{N}$, pero $\lim\limits_{n \to \infty} f(a_n) \neq \lim\limits_{n \to \infty} f(b_n)$ entonces no existe el límite de $f$ en $x_0.$

Veremos ahora un ejemplo donde el límite no existe.

Ejemplo 4. Sea $A =\mathbb{R} \backslash \{ 1 \}$. Consideremos la función $f: A \to \mathbb{R}$ con $f(x) = \frac{|x-1|}{x-1}$. Prueba que el límite

$$\lim_{x \to 1} f(x)$$

no existe.

Demostración.

Veamos primero la gráfica de la función:

Podemos observar que es conveniente tomar una sucesión que se aproxime a $x_0 = 1$ por la derecha y otra que se aproxime por la izquierda. Sean $\{a_n\}$, $\{b_n\}$ dos sucesiones en el dominio de $f$ definidas de la siguiente forma:

$$a_n = 1 + \frac{1}{n} \quad \text{y} \quad b_n = 1 – \frac{1}{n}.$$

Se sigue que

$$ \lim_{n \to \infty} a_n = 1 \quad \text{y} \quad \lim_{n \to \infty} b_n = 1.$$

Además, $a_n \neq 1$, $b_n \neq 1$ para todo $n \in \mathbb{N}$.

Se tiene que

\begin{align*}
\lim_{n \to \infty} f(a_n) & = \lim_{n \to \infty} \frac{|a_n-1|}{a_n-1} \\ \\
& = \lim_{n \to \infty} \frac{ |1 + \frac{1}{n} – 1|}{1 + \frac{1}{n} -1} \\ \\
& = \lim_{n \to \infty} \frac{ |\frac{1}{n}|}{ \frac{1}{n} } \\ \\
& = \lim_{n \to \infty} \frac{ \frac{1}{n} }{ \frac{1}{n} } \\ \\
& = 1.
\end{align*}

$$\therefore \lim_{n \to \infty} f(a_n) = 1 \tag{1}.$$

Por otro lado,

\begin{align*}
\lim_{n \to \infty} f(b_n) & = \lim_{n \to \infty} \frac{|b_n-1|}{b_n-1} \\ \\
& = \lim_{n \to \infty} \frac{ |1 – \frac{1}{n} – 1|}{1 – \frac{1}{n} -1} \\ \\
& = \lim_{n \to \infty} \frac{ |- \frac{1}{n}|}{- \frac{1}{n} } \\ \\
& = \lim_{n \to \infty} \frac{ \frac{1}{n} }{ – \frac{1}{n} } \\ \\
& = – 1.
\end{align*}

$$\therefore \lim_{n \to \infty} f(b_n) = -1. \tag{2}$$

De $(1)$ y $(2)$, se tiene que

\begin{gather*}
\lim_{n \to \infty} f(a_n) \neq \lim_{n \to \infty} f(b_n). \\ \\
\therefore \lim_{x \to 1} \frac{|x-1|}{x-1} \text{ no existe.}
\end{gather*}

$\square$

Más adelante…

En las siguientes entradas veremos propiedades específicas que nos ayudarán a calcular el límite de una función; y, como podrás imaginar, varias de estas propiedades son un símil a las revisadas para las sucesiones convergentes.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

A través del criterio de sucesiones para límite, prueba si existen o no los siguientes límites:

  • $$\lim_{x \to 0} \frac{x}{x+1}.$$
  • $$\lim_{x \to 0} x \cdot |x|.$$
  • $$\lim_{x \to 7} \frac{x^2-5x+10}{2-x}.$$
  • $$\lim_{x \to 0} \frac{x}{|x|}.$$

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Cálculo Diferencial e Integral I: Cota superior e inferior de un conjunto

Por Karen González Cárdenas

Introducción

Ahora comenzaremos a ver un tema un tanto diferente a los vistos en la entrada anterior. Primero veremos los conceptos de máximo y mínimo de un conjunto, después las definiciones formales para cota superior e inferior, y terminaremos revisando algunos ejemplos donde las aplicaremos.

Máximo y mínimo de un conjunto

Definición: Sean $A\subseteq \r$ no vacíos. Decimos que:

  • $A$ tiene elemento máximo $\Leftrightarrow \exists a_{0} \in A$ tal que $\forall a \in A$ se cumple que: $a \leq a_{0}$
  • $A$ tiene elemento mínimo $\Leftrightarrow \exists b_{0} \in A$ tal que $\forall b \in A$ se cumple que: $b_{0} \leq b$

Para darnos una idea más clara de estas definiciones veamos los siguientes ejemplos:

$$C=(0,1]$$

  1. No tiene mínimo.
  2. Tiene máximo y es 1.

Para probar estas afirmaciones haremos uso de las definiciones anteriores:
Demostración 1 (por contradicción): Supondremos que existe un elemento $c_{0} \in C$ tal que $\forall c \in A$ cumple que $c_{0} \leq c$. Por lo que se sigue que: $0<c_{0}<1$.
Observemos que $\frac{c_{0}}{2} \in C$ ya que $0<\frac{c_{0}}{2}<c_{0}$
$$\Rightarrow c_{0}\leq \frac{c_{0}}{2}<c_{0} \contradiccion$$
Lo cual es una contradicción.

Demostración 2: Veamos que por la definición del conjunto C tenemos:
$$C=\left\{ c\in \r\quad|\quad 0<c \leq 1 \right \}$$
Por lo que $1\in C$ y se cumple que $\forall c\in C, c\leq 1$.

$\square$

Observación:

  • El elemento máximo de un conjunto es único.
  • El elemento mínimo de un conjunto es único.

La demostración de estas afirmaciones se quedará como ejercicios de la Tarea moral.

Cota superior e inferior de un conjunto

Definición: Sea $A \subseteq \r$. Decimos que un número $M \in \r$ es:

  • Cota superior $\Leftrightarrow \forall a \in A$ se cumple que: $a\leq M$.
  • Cota inferior $\Leftrightarrow \forall a \in A$ se cumple que: $a\geq M$.

Observación: Si hay una cota superior $M \Rightarrow \forall a \in A$ ocurre que: $$ a \leq M < M+1<M+2<M+3 \ldots$$ Es decir, hay una infinidad de cotas superiores de $A$.

Antes de continuar con el ejemplo de esta sección, aclaremos la diferencia entre máximos y cotas superiores de un conjunto, así como la diferencia entre mínimos y cotas inferiores. La distinción principal radica en que el máximo es un elemento específico del conjunto, mientras que una cota superior es simplemente un número que es mayor o igual que todos los elementos del conjunto, pero no necesariamente pertenece al mismo. De manera análoga, la diferencia clave es que el mínimo es un elemento específico dentro del conjunto, mientras que una cota inferior es simplemente un número que es menor o igual que todos los elementos del conjunto, pero no necesariamente pertenece a él.


Ejemplo

Consideremos el conjunto:
$$E=(0,2]$$
Vemos que para todo $x\in E$ ocurre que $-2<0<x$
$$\therefore \quad-2 \leq x$$
Por lo que podemos concluir que $-2$ es cota inferior de $E$.

Y además tenemos que $\forall x \in E$ se cumple $ x \leq 2.$
$\therefore \quad 2$ es cota superior de $E$.

Conjuntos acotados

Definición: Consideremos $A \subseteq \r$. Decimos que:

  1. $A$ es acotado superiormente si existe $M$ en $\r$ que es cota superior de $A$. Es decir, si $\exists M\in \r$ tal que $\forall a \in A$, $a \leq M$.
  2. $A$ es acotado inferiormente si existe $m$ en $\r$ que es cota inferior de $A$. Es decir, si $ \exists m\in \r$ tal que $\forall a \in A$, $m \leq a$.
  3. $A$ es acotado si existe $m$ y $M$ en $\r$ donde $m$ es cota inferior de $A$ y $M$ es cota superior de $A$. Es decir, si $\exists m,M \in \r$ tal que $\forall a \in A$: $m \leq a \leq M$.

    Otra manera de definir qué $A$ es acotado es la siguiente:
  4. $A$ es acotado si existe $M$ en $\r$ mayor o igual que el valor absoluto de cualquier elemento $a$ en $A$. Es decir, si $\exists M \in \r$ tal que $\forall a \in A$: $|a| \leq M$.

Lema: Vamos a demostrar que las definiciones 3 y 4 son equivalentes.

Demostración:
$\Rightarrow)$ Sean $m_0, M_0 \in \r$ tal que $m_0 \leq a \leq M_0$. Queremos demostrar que existe $M \in \r$ que cumple con:
$$-M \leq a \quad \quad \text{y}\quad \quad a \leq M$$
Proponemos a $M=\max\{|m_0|,|M_0|\}.

Por definición de $m_0$ y $M_0$ vemos que se cumple:
\begin{align*}
a&\geq m_0 \geq -|m_0|\geq -M\\
a&\leq M_0 \leq |M_0| \leq M.
\end{align*}
Por transitividad obtenemos
\begin{align*}
a&\geq -M\\
a&\leq M.
\end{align*}

Concluimos entonces que:
$$-M \leq a \leq M$$
$$\therefore |a|\leq M.$$

$\Leftarrow)$ Como $|a| \leq M$ se sigue que $-M \leq a \leq M$. Como $-M \leq a$ tenemos que $A$ es acotado inferiormente por definición si tomamos $m := -M$:
$$m \leq a$$
Análogamente de $a \leq M$ tenemos que $A$ es acotado superiormente por definición concluimos:
$$\therefore m \leq a \leq M$$

$\square$

Lema: Para cualesquiera $A,B \subseteq \r$. Si $A\subseteq B$ y $B$ es acotado entonces $A$ es acotado.

Demostración: Como tenemos que $B$ es acotado existe $M>0$ tal que para todo $b\in B$:
$$|b|\leq M$$
CASO 1 $A\neq\emptyset$: Como $A \subseteq B$ entonces para todo $a \in A$ existe $b \in B$ tal que $a=b$.
$\therefore a \in A, a=b \Rightarrow |a|=|b|\leq M$
CASO 2 $A= \emptyset$: Sabemos que $A =\emptyset\subseteq B$ por lo que se sigue $A$ es acotado por vacuidad.

$\square$

Ejemplo

Si tenemos: $$A= \left\{\frac{1}{n}: n\in \mathbb{N}\setminus\left\{0\right\} \right\}$$

Observamos que:

  • $A$ es acotado superiormente ya que para todo $n\in \mathbb{N}\setminus\left\{0\right\}$:
    $$1\leq n \Leftrightarrow \frac{1}{n} \leq 1$$
    $\therefore 1$ es cota superior de $A$.
  • $A$ tiene elemento máximo. Tenemos que $\forall n\in \mathbb{N}\setminus\left\{0\right\}: \frac{1}{n} \leq 1$
    Así para $n=1$ ocurre que $\frac{1}{1} \leq 1$.
    $\therefore 1$ es máximo de $A$.
  • El conjunto de cotas superiores de $A$ está dado por:
    $$[1, \infty),$$
    que tiene elemento mínimo y es 1. Esto nos indica que existe una mínima cota superior.
  • $A$ es acotado inferiormente. Vemos que para todo $n\in \mathbb{N}, \frac{1}{n} > 0$ por lo que $0 \notin A$. Concluimos así que $\forall a\in A, 0 < \frac{1}{n}$.
    $\therefore 0$ es cota inferior de $A$
  • El conjunto de cotas inferiores de $A$ esta dado por:
    $$(- \infty, 0],$$
    que tiene elemento máximo y es 0. Esto nos indica que existe una máxima cota inferior.
  • $A$ no tiene elemento mínimo. Si suponemos que existe un elemento $a_{0} \in A$ tal que $\forall n\in \mathbb{N}, a_{0} \leq \frac{1}{n}$. Tenemos que $a_{0}$ sería de la forma
    $a_{0} = \frac{1}{n_{0}} > 0$
    $\Rightarrow 0< \frac{1}{2n_{0}}<\frac{1}{n_{0}}$ con $\frac{1}{2n_{0}} \in A$.
    De lo anterior vemos que $a_{0}$ no es mínimo $\Rightarrow \frac{1}{n_{0}}\leq\frac{1}{2n_{0}} \contradiccion$, lo cual nos lleva a una contradicción.

$\square$

Más adelante

Ahora que ya hemos revisado los conceptos de máximo, mínimo y cotas superiores e inferiores de un conjunto en $\r$ tenemos los antecedentes necesarios para comenzar a hablar de supremos e ínfimos.

Tarea moral

  • Demuestra que:
    • El elemento máximo de un conjunto es único.
    • El elemento mínimo de un conjunto es único.
  • Para el conjunto $D=(-\infty, 1)$ demuestra que se cumplen las siguientes afirmaciones:
    • D no tiene elemento mínimo
    • D no tiene elemento máximo
    • D es acotado superiormente
    • D no tiene cotas inferiores

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Geometría Moderna I: Teoremas de Varignon y Van Aubel

Por Rubén Alexander Ocampo Arellano

Introducción

Con esta entrada damos inicio a la cuarta unidad que tratará sobre cuadriláteros. Comenzaremos hablando sobre el paralelogramo de Varignon y el teorema de Van Aubel.

Área del cuadrilátero

A partir de la ubicación de las diagonales de un cuadrilátero podemos establecer una clasificación de estos.

Un cuadrilátero es convexo si sus dos diagonales se encuentran dentro de él, es cóncavo si tiene una diagonal dentro y otra fuera de él, y es cruzado si las dos diagonales se ubican fuera del cuadrilátero.

El teorema de Varignon nos habla sobre el área de un cuadrilátero en general y ya que no es tan intuitivo definir el área de un cuadrilátero cruzado es necesario introducir el concepto de área orientada.

Consideraremos el área de un triángulo como positiva si recorremos sus vértices en el sentido opuesto a las manecillas del reloj y como negativa en caso contrario.

De esta manera tenemos que para un triángulo $\triangle ABC$,
$(\triangle ABC) = (\triangle BCA) = (\triangle CAB) $
$= – (\triangle CBA) = – (\triangle ACB) = – (\triangle BAC)$.

Figura 1

Definición 1. Definimos el área de un cuadrilátero $\square ABCD$ como la suma de las áreas de los triángulos que se forman al considerar una de sus diagonales, esto es,
$(\square ABCD) = (\triangle ABC) + (\triangle CDA)$.

Notemos que como resultado de esta definición el área del cuadrilátero cruzado resulta ser la diferencia de las áreas de los triángulos que se forman al considerar la intersección cruzada de los lados.

Paralelogramo de Varignon

Teorema 1, de Varignon.
$i)$ Los puntos medios de los lados de un cuadrilátero convexo son los vértices de un paralelogramo, conocido como paralelogramo de Varignon, cuyo perímetro es la suma de las diagonales del cuadrilátero,
$ii)$ el área del paralelogramo de Varignon es la mitad del área del cuadrilátero.

Demostración. Sean $\square ABCD$ un cuadrilátero convexo y $M_{ab}$, $M_{bc}$, $M_{cd}$ y $M_{da}$ los puntos medios de $AB$, $BC$, $CD$ y $DA$ respetivamente.

Figura 2

Notemos que $M_{ab}M_{bc}$ y $M_{cd}M_{da}$ son segmentos medios de $\triangle ABC$ y $\triangle DAC$ por lo que $M_{ab}M_{bc} \parallel CA \parallel M_{cd}M_{da}$ y $2M_{ab}M_{bc} = CA = 2M_{cd}M_{da}$.

De manera análoga podemos ver que $M_{ab}M_{da} \parallel DB \parallel M_{bc}M_{cd}$ y $2M_{ab}M_{da} = BD = 2M_{bc}M_{cd}$.

Por lo tanto los lados opuestos de $\square M_{ab}M_{bc}M_{cd}M_{da}$ son paralelos y $M_{ab}M_{bc} + M_{bc}M_{cd} + M_{cd}M_{da} + M_{da}M_{ab} = \dfrac{CA + BD + CA +BD}{2} = CA + BD$.

Para calcular el área de  $\square M_{ab}M_{bc}M_{cd}M_{da}$ primero notemos que $\triangle AM_{ab}M_{da}$ y $\triangle ABD$ son semejantes pues $M_{ab}M_{da} \parallel BD$.

También sabemos que $M_{ab}M_{da} = \dfrac{BD}{2}$, por lo que las alturas desde $A$, $h$ y $h’$ de $\triangle AM_{ab}M_{da}$ y $\triangle ABD$ respectivamente, también cumplirán que $h = \dfrac{h’}{2}$.

Por lo tanto,
$(\triangle AM_{ab}M_{da}) = \dfrac{M_{ab}M_{da} \times h}{2}$
$= \dfrac{\frac{1}{2}DBD \times \frac{1}{2}h’}{2} = \dfrac{1}{4} \dfrac{BD \times h’}{2} $
$= \dfrac{1}{4} (\triangle ABD)$.

De manera similar podemos encontrar las áreas de $\triangle BM_{bc}M_{ab}$, $\triangle CM_{cd}M_{bc}$ y $\triangle DM_{da}M_{cd}$.

En consecuencia,
$(\square M_{ab}M_{bc}M_{cd}M_{da}) = (\square ABCD) – (\triangle AM_{ab}M_{da}) – (\triangle BM_{bc}M_{ab}) – (\triangle CM_{cd}M_{bc}) – (\triangle DM_{da}M_{cd})$
$= (\square ABCD) – \dfrac{1}{4} ((\triangle ABD) + (\triangle BCD) + (\triangle CDB) + (\triangle DAC))$
$= (\square ABCD) – \dfrac{2}{4}(\square ABCD) $
$ = \dfrac{(\square ABCD)}{2}$.

$\blacksquare$

Corolario. Sea $\square ABCD$ un cuadrilátero convexo, entonces su cuadrilátero de Varignon
$i)$ es un rombo si y solo si $AC = BD$,
$ii)$ es un rectángulo si y solo si $AC \perp BD$,
$iii)$ es un cuadrado si y solo si $AC = BD$ y $AC \perp BD$.

Demostración. Sean $E$, $F$, $G$, $H$, los puntos medios de $BC$, $CD$, $DA$, $AB$, respectivamente como $EF$ y $FG$ son segmentos medios de $\triangle DBC$ y $\triangle ADC$, entonces, $2EF = BD$, $EF \parallel BD$ y $2FG = AC$, $FG \parallel AC$.

Figura 3

$i)$ $\square EFGH$ es un rombo, entonces por definición $EF = FG \Leftrightarrow AC = BD$.

$ii)$ $\square EFGH$ es un rectángulo, entonces por definición $EF \perp FG \Leftrightarrow AC \perp BD$.

$iii)$ Es consecuencia de $i)$ y $ii)$.

$\blacksquare$

Centroide de un cuadrilátero

Definición 2. Los segmentos que unen los puntos medios de los lados opuestos de un cuadrilátero se llaman bimedianas.

Al segmento que une los puntos medios de las diagonales de un cuadrilátero se le conoce como recta de Newton.

Teorema 2. Las bimedianas de un cuadrilátero convexo y su recta de Newton son concurrentes y se bisecan entre sí, el punto de concurrencia es el centroide del cuadrilátero.

Demostración. Sea $\square ABCD$ un cuadrilátero convexo y $M_{ab}$, $M_{bc}$, $M_{cd}$, $M_{da}$, $M$, $N$, los puntos medios de $AB$, $BC$, $CD$, $DA$, $AC$, $BD$, respectivamente.

$M_{ab}M_{cd}$ y $M_{bc}M_{da}$ son las diagonales del paralelogramo de Varignon, por lo tanto, se intersecan en $J$ su punto medio.

Figura 4

Por otra parte, $M_{ab}M$ es un segmento medio de $\triangle ABC$, por lo que $M_{ab}M \parallel BC$; $NM_{cd}$ es un segmento medio de $\triangle DBC$, por lo tanto, $NM_{cd} \parallel BC$, y así $NM_{cd} \parallel M_{ab}M$.

Igualmente vemos que $M_{ab}N \parallel MM{cd}$.

Por lo tanto, $\square M_{ab}NM_{cd}M$ es un paralelogramo, en consecuencia las diagonales $M_{ab}M_{cd}$ y $NM$ se intersecan en $J$ su punto medio.

En conclusión, $J$ es el punto medio de $M_{ab}M_{cd}$, $M_{bc}M_{da}$ y $NM$.

$\blacksquare$

Construcción de un cuadrilátero

Problema. Construye un cuadrilátero $\square ABCD$ conociendo $AB$, $BC$, $CD$, $DA$ y $M_{ab}M_{cd}$ donde $M_{ab}$ y $M_{cd}$ son los puntos medios de $AB$ y $CD$ respectivamente.

Solución. Primero construimos el paralelogramo $\square M_{ab}NM_{cd}M$, donde $M$ y $N$ son los puntos medios de las diagonales $AC$ y $BD$, de la siguiente manera.

De la demostración del teorema 2 sabemos que $M_{ab}M = NM_{cd} = \dfrac{BC}{2}$ y $M_{ab}N = MM_{cd} = \dfrac{AD}{2}$ (figura 4).

También sabemos que la diagonal de un paralelogramo lo divide en dos triángulos congruentes, por lo que basta construir un triángulo de lados $M_{ab}M_{cd}$, $\dfrac{BC}{2}$  y $\dfrac{AD}{2}$ y luego trazar paralelas por $M_{ab}$ y $M_{cd}$ a los lados del triángulo construido completando así el paralelogramo.

De manera similar construimos el paralelogramo $\square M_{ab}M_{bc}M_{cd}M_{da}$ donde $M_{bc}$ y $M_{da}$ serían los puntos medios de $BC$ y $AD$ respectivamente.

Sabemos también que $M_{bc}M \parallel AB$ por lo que trazamos la paralela $AB$ a $M_{bc}M$ por $M_{ab}$ tal que $AM_{ab} = M_{bc}B = \dfrac{AB}{2}$.

Con $A$ y $B$ construidos, por $M_{bc}$ trazamos $ABC$ tal que $BM_{bc} = M_{bc}C = \dfrac{BC}{2}$, similarmente construimos $D$.

$\blacksquare$

Teorema de Van Aubel

Teorema 3, de Van Aubel. Los segmentos que unen los centros de cuadrados construidos externamente sobre lados opuestos de un cuadrilátero convexo son perpendiculares y tienen la misma longitud.

Demostración. Sean $\square ABCD$ un cuadrilátero convexo y $\square EFBA$, $\square BGHC$, $\square DCIJ$, $\square LADK$, cuadrados construidos externamente sobre los lados de $\square ABCD$ y $O_1$, $O_2$, $O_3$, $O_4$, sus respectivos centros.

Figura 5

Sea $M = LB \cap ED$, como $AL = AD$ y $AB = AE$ y $\angle LAB = \angle DAE$, por criterio de congruencia LAL, $\triangle LAB \cong \triangle DAE$,
$\Rightarrow LB = DE$ y $\angle AEM = \angle ABM$.

Por lo tanto, $\square MEBA$ es cíclico, así, $\angle EMB = \angle EAB$, es decir $LB \perp DE$.

Considera $N$ el punto medio de $BD$, $NO_4$ y $NO_3$ son segmentos medios de $\triangle BDE$ y $\triangle DBL$ respectivamente.

Esto implica que $2NO_4 = DE$ y $NO_4 \parallel DE$ y $2NO_3 = LB$ y $NO_4 \parallel LB$.

Por lo tanto, $NO_4 = NO_3$ y $NO_4 \perp NO_3$.

Igualmente vemos que $NO_1 = NO_2$ y $NO_1 \perp NO_2$.

Sea $V = O_1O_3 \cap O_2O_4$, por criterio de congruencia LAL, $NO_1O_3 \cong NO_2O_4$,
$\Rightarrow O_1O_3 = O_2O_4$ y $\angle VO_1N = \angle VO_2N$.

Por lo tanto, $\square VNO_1O_2$ es cíclico, y así $O_1O_3 \perp O_2O_4$.

$\blacksquare$

Definición 3. Nos referiremos al cuadrilátero $\square O_1O_1O_3O_4$ como cuadrilátero externo de Van Aubel y a la intersección de sus diagonales como punto externo de Van Aubel.

Centroide del cuadrilátero de Van Aubel

Teorema 4. Un cuadrilátero y su cuadrilátero externo de Van Aubel tienen el mismo centroide.

Demostración. Sean $\square ABCD$ y $\square O_1O_2O_3O_4$ su cuadrilátero externo de Van Aubel, $M$ y $N$ los puntos medios de $AC$ y $BD$, y $V$ el punto externo de Van Aubel.

Figura 6

En el teorema anterior vimos que $NV$ es una cuerda común a las circunferencias cuyos diámetros son $O_1O_2$ y $O_3O_4$, por lo tanto la línea que une sus centros $M_{1,2}M_{3,4}$ biseca a $NV$ y $M_{1,2}M_{3,4} \perp NV$.

De manera análoga podemos ver que $MV$ es una cuerda común a las circunferencias cuyos diámetros son $O_2O_3$ y $O_4O_1$ y por lo tanto la línea que une sus centros $M_{2,3}M_{4,1}$ biseca a $MV$ y $M_{2,3}M_{4,1} \perp MV$.

Por otra parte, por el teorema de Van Aubel las diagonales del cuadrilátero de Van Aubel son perpendiculares y tienen la misma longitud. Entonces por el corolario, su paralelogramo de Varignon $\square M_{1,2}M_{2,3}M_{3,4}M_{4,1}$ es un cuadrado, en particular, $M_{1,2}M_{3,4} \perp M_{2,3}M_{4,1}$.

En consecuencia, en $\triangle MNV$, $M_{1,2}M_{2,3} \parallel MV$ y $M_{1,2}M_{2,3}$ pasa por el punto medio de $NV$, por lo tanto $M_{1,2}M_{2,3}$ biseca a $MN$.

Igualmente podemos ver que $M_{2,3}M_{4,1}$ biseca a $MN$.

Por el teorema 2 sabemos que el punto medio $J$ de $MN$ es el centroide de $\square ABCD$ y que la intersección de las bimedianas $M_{1,2}M_{3,4}$ y $M_{2,3}M_{4,1}$ es el centroide de $\square O_1O_2O_3O_4$.

$\blacksquare$

Más adelante…

En la siguiente entrada continuaremos el estudio de los cuadriláteros cíclicos que comenzamos en la entada teorema de Ptolomeo.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Muestra que un cuadrilátero es dividido por una de sus diagonales en dos triángulos de igual área si y solo si la diagonal biseca a la otra diagonal.
  2.  Verifica que el teorema de Varignon se cumple para los cuadriláteros cóncavo y cruzado.
  3. Sean $\square ABCD$ un cuadrilátero $U$ y $V$ los puntos medios de $\overline{AC}$ y $\overline{BD}$ respectivamente y $T$ la intersección de $\overline{AB}$ con $\overline{CD}$. Prueba que $(\triangle TUV) = \dfrac{(\square ABCD)}{4}$.
    Sugerencia. Considera $H$ y $F$ los puntos medios de $\overline{AD}$ y $\overline{BC}$ y los cuadriláteros $\square ACBD$, $\square CUFT$ y $\square BVFT$ para calcular el área de los triángulos $\triangle UVF$, $\triangle UFT$ y $\triangle VFT$.
Figura 7
  1. Construye un cuadrilátero dados dos ángulos opuestos, la longitud de las diagonales y el ángulo entre las diagonales.
  2. Verifica que el teorema de Van Aubel se cumple cuando los cuadrados son construidos internamente, y también para los para los cuadriláteros cóncavo y cruzado.
  3. Muestra que en un cuadrilátero convexo los puntos medios de sus diagonales y los puntos medios de las diagonales de su cuadrilátero externo de Van Aubel, forman un cuadrado, y que el punto externo de Van Aubel pertenece al circuncírculo de este cuadrado.

Entradas relacionadas

Fuentes

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Álgebra Lineal II: Dualidad y representación de Riesz en espacios euclideanos

Por Diego Ligani Rodríguez Trejo

Introducción

En Álgebra Lineal I introdujimos el concepto de espacio dual, a grandes rasgos, era el espacio vectorial donde estaban todas las formas lineales de un espacio hacia su campo. Por otro lado, en entradas recientes hicimos un recordatorio de qué era un producto interior. Lo que haremos ahora es relacionar ambos conceptos. Esta relación no debería ser tan inesperada, pues un producto interior es una forma bilineal, y al fijar una entrada de este obtenemos una forma lineal.

Lo primero que haremos es ver cómo conectar la matriz que representa a una forma bilineal con una matriz que envía vectores a formas lineales. Después, veremos una versión particular de un resultado profundo: el teorema de representación de Riesz. Veremos que, en espacios euclideanos, toda forma lineal se puede pensar «como hacer producto interior con algún vector».

Nos enfocaremos únicamente a los resultados en el caso real. Los casos en el caso complejo son muy parecidos, y se exploran en los ejercicios.

La matriz de una transformación que «crea» formas lineales

Sea $V$ un espacio vectorial real con una forma bilineal $b$. A partir de $b$ podemos construir muchas formas lineales, a través de la función $\varphi_b:V\to V^\ast$ que asigna a cada vector $y$ de $V$ a la forma lineal $\varphi_b(y):=b(\cdot,y)$.

Podemos pensar a $\varphi_b$ como «una maquinita que genera formas lineales» que depende del vector $b$. Claramente $\varphi_b(y)$ es lineal, pues $b$ es lineal en su primera entrada. Y también claramente $\varphi_b$ es lineal, pues $b$ es lineal en su segunda entrada. En cierto sentido, la matriz correspondiente a la forma bilineal $b$ coincide con la matriz correspondiente a $\varphi_b$.

Proposición. Sea $\beta$ una base de un espacio vectorial $V$ de dimensión finita sobre los reales. Sea $\beta^\ast$ su base dual. Tomemos $b$ una forma bilineal en $V$. La matriz de $\varphi_b$ con respecto a las bases $\beta$ y $\beta’$ es igual a la matriz de $b$ con respecto a la base $\beta$.

Demostración. Llamemos a los elementos de la base $\beta$ como $u_1,\ldots,u_n$ y a los de la base $\beta^ \ast$ como $l_1,\ldots,l_n$. Para encontrar la $j$-ésima columna de la matriz de $\varphi_b$ con respecto a $\beta$ y $\beta^\ast$, debemos expresar a cada $\varphi_b(u_j)$ como combinación lineal de los elementos $l_1,\ldots,l_n$. Para hacer esto, es más sencillo ver cómo es $\varphi_b(u_j)(x)$ para cada $x\in V$ y usar que los $l_i$ «leen» las coordenadas en la base $\beta$.

Para ello, tomemos $x=\sum_{i=1}^nu_ix_i$. Tenemos lo siguiente:

\begin{align*}
\varphi_b(u_j)(x)&=b(\sum_{i=1}^nu_ix_i,u_j)\\
&= \sum_{i=1}^nx_ib(u_i,u_j)\\
&= \sum_{i=1}^n l_i(x) b(u_i,u_j).
\end{align*}

Como esto sucede para cada vector $x$, tenemos entonces que $$\varphi_b(u_j)=\sum_{i=1}^n b(u_i,u_j) l_i.$$

Pero esto es justo lo que queremos. Las entradas de la $j$-ésima columna de la matriz que representa a $\varphi_b$ son entonces los coeficientes $b(u_1,u_j),b(u_2,u_j),\ldots,b(u_n,u_j)$. Pero esas son justo las entradas de la $j$-ésima columna de la matriz que representa a $b$ en la base $\beta$.

$\square$

Teorema de representación de Riesz

La sección anterior explica cómo de una forma bilineal $b$ podemos obtener una «máquinita» que genera formas lineales $\varphi_b$. Si $b$ es mucho más especial (un producto interior), entonces esta maquinita es «más potente», en el sentido de que puede generar cualquier forma lineal del espacio. A este resultado se le conoce como el teorema de representación de Riesz. Aunque sus versiones más generales incluyen ciertos espacios de dimensión infinita, y el enunciado dice algo más general, en este curso nos limitaremos a enunciar y demostrar la versión en espacios vectoriales de dimensión finita.

Teorema (teorema de representación de Riesz). Sea $V$ un espacio euclidiano con producto interno $\langle \cdot, \cdot \rangle$. La función $\varphi_{\langle \cdot, \cdot \rangle}: V \rightarrow V^\ast$ es un isomorfismo.

Demostración. Debemos probar que $\varphi_{\langle \cdot, \cdot \rangle}$ es una transformación lineal biyectiva hacia $V^\ast$. Como mencionamos en la sección anterior, cada $\varphi_{\langle \cdot, \cdot \rangle}(y)$ es una forma lineal pues el producto interior es lineal en su primera entrada. Además, $\varphi_{\langle \cdot, \cdot \rangle}$ es una transformación lineal pues el producto interior es lineal en su segunda entrada.

Por los resultados que se vieron en el curso de Álgebra Lineal I, se tiene que $\dim V = \dim V^\ast$. De esta manera, basta ver que $\varphi_{\langle\cdot,\cdot \rangle}$ es inyectiva. Y para ello, basta ver que el único vector $y$ tal que $\varphi_{\langle \cdot, \cdot \rangle}(y)$ es la forma lineal cero es $y=0$.

Supongamos entonces que $\varphi_{\langle \cdot, \cdot \rangle}(y)$ es la forma lineal cero. Si este es el caso, entonces para cualquier $x$ en $V$ tendríamos que $\langle x, y \rangle = 0$. En particular, esto sería cierto para $x=y$, de modo que $\langle y, y \rangle =0$. Pero como el producto interior es positivo definido, esto implica que $y=0$.

Esto muestra que $\varphi_{\langle \cdot, \cdot \rangle}$ es inyectiva. Como es transformación lineal entre espacios de la misma dimensión, entonces es biyectiva.

$\square$

Ejemplo de representación de Riesz

Las operaciones que se hacen para calcular una forma lineal no siempre son sencillas. Lo que nos dice el teorema de representación de Riesz es que podemos tomar un «vector representante» de una forma lineal para que evaluarla corresponda «simplemente» a hacer un producto interior. Si es fácil hacer ese producto interior, entonces podemos simplificar la evaluación de la forma lineal.

Ejemplo. Tomemos $V$ el espacio vectorial de polinomios con coeficientes reales y grado a lo más $2$. Hemos visto con anterioridad que $\langle \cdot, \cdot \rangle: V\times V \to \mathbb{R}$ dado por: $$\langle p, q \rangle = p(0)q(0)+p(1)q(1)+p(2)q(2) $$ es un producto interior.

Hemos visto también que $I:V\to \mathbb{R}$ dada por $I(p)=\int_0^1 p(x)\, dx$ es una forma lineal. El teorema de representación de Riesz nos garantiza que $I$, que es una integral definida, debería poder «representarse» como el producto interior con un polinomio especial $q$. Esto parecen ser buenas noticias: para $I(p)$ necesitamos hacer una integral. Para hacer el producto interior, sólo son unas multiplicaciones y sumas.

El polinomio «mágico» que funciona en este caso es el polinomio $q(x)=-\frac{x^2}{2}+\frac{3}{4}x+\frac{5}{12}$. Puedes verificar que:

\begin{align*}
q(0)&=\frac{5}{12}\\
q(1)&=\frac{2}{3}\\
q(2)&=-\frac{1}{12}.
\end{align*}

De esta manera, si hacemos el producto interior con cualquier otro polinomio $p(x)=ax^2+bx+c$ obtenemos:

\begin{align*}
\langle p, q \rangle &= p(0)q(0) + p(1)q(1)+p(2)q(2)\\
&= c\cdot \frac{5}{12} + (a+b+c)\cdot \frac{2}{3} + (4a+2b+c) \cdot \left(-\frac{1}{12}\right)\\
&=\frac{a}{3}+\frac{b}{2}+c.
\end{align*}

Si por otro lado hacemos la integral, obtenemos:

\begin{align*}
\int_0^1 ax^2 + bx + c \, dx &= \left. \left(\frac{ax^3}{3}+\frac{bx^2}{2}+cx \right)\right|_0^1\\
&=\frac{a}{3}+\frac{b}{2}+c.
\end{align*}

En ambos casos se obtiene lo mismo.

$\triangle$

Se podría tener una discusión más profunda para explicar cómo se obtuvo el polinomio $q$ del ejemplo anterior. Sin embargo, dejaremos la experimentación de esto para los ejercicios. Por ahora, la mayor ventaja que le encontraremos al teorema de representación de Riesz es la garantía teórica de que dicho vector que representa a una forma lineal dado un producto interior siempre existe en los espacios euclideanos.

Más adelante…

Hemos enunciado y demostrado una versión del teorema de Riesz para espacios euclieanos. Este teorema tiene versiones más generales en el contexto de espacios de Hilbert. Así mismo, una versión más extensa del teorema de Riesz nos dice cómo es la norma del vector que representa a un producto interior. Estos resultados son muy interesantes, pero quedan fuera del alcance de este curso. Es posible que los estudies si llevas un curso de análisis funcional.

Un poco más adelante, en la Unidad 3, usaremos el teorema de representación de Riesz para definir a las transformaciones adjuntas, a las simétricas y a las ortogonales. Por ahora, nos enfocaremos en estudiar más definiciones y propiedades en espacios euclideanos. La siguiente definición que repasaremos es la de ortogonalidad para vectores y para espacios vectoriales. Es un concepto que se estudia por encima en Álgebra Lineal I, pero ahora tenemos herramientas para poder decir más.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. ¿Podemos definir a $\varphi_b: V \rightarrow V^*$ en la otra entrada? Es decir, como la función tal que $\varphi_b(x)=b(x,\cdot)$? Si hacemos esto, ¿cambian en algo los resultados que vimos?
  2. Considera el espacio vectorial de matrices en $M_n(\mathbb{R})$. Anteriormente vimos que $b(A,B)=\text{tr}(\text{ }^t A B)$ es un producto interior y que sacar traza es una forma lineal. De acuerdo al teorema de representación de Riesz, debe haber una matriz $T$ que representa a la traza, es decir, tal que $\text{tr}(A)=b(A,T)$. ¿Quién es esta matriz $T$? Ahora, si tomamos la transformación que manda una matriz $A$ a la suma de las entradas en su antidiagonal, esto también es una forma lineal. ¿Quién es la matriz que representa a esta forma lineal con el producto interior dado?
  3. Enuncia y demuestra un teorema de igualdad de formas matriciales para el caso de formas sesquilineales. ¿Necesitas alguna hipótesis adicional?
  4. Enuncia y demuestra un teorema de representación de Riesz para espacios hermitianos. Deberás tener cuidado, pues el vector que representa a una forma lineal tendrá que estar en la coordenada que conjuga escalares. ¿Por qué?
  5. ¿Será cierto el teorema de representación de Riesz si la forma bilineal no es un producto interior? Identifica dónde falla la prueba que dimos. Luego, construye un contraejemplo para ver que la hipótesis de que $b$ sea positiva definida es fundamental. Es decir, encuentra un espacio vectorial $V$ real con una forma bilineal simétrica y positiva $b$, en donde exista una forma lineal $l$ tal que sea imposible encontrar un vector $y$ tal que para todo $x$ en $V$ se tenga que $l(x)=b(x,y)$. Sugerencia. Parace que hay muchos cuantificadores. Intenta dar un contraejemplo lo más sencillo posible, por ejemplo, en $\mathbb{R}^2$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: El teorema de descomposición polar real

Por Ayax Calderón

Introducción

En la entrada anterior enunciamos y demostramos el teorema espectral para matrices simétricas reales. Una de las consecuencias de este teorema es el teorema de descomposición polar. Se puede pensar en el teorema de descomposición polar como al análogo a un resultado muy conocido de números complejos: cualquier número complejo se puede pensar de la forma $z=e^{i\theta}r$ con $r\geq 0$ real. Geométricamente, el complejo se obtiene «rotando tanto como el argumento y luego alargando de acuerdo a la norma».

Así mismo, veremos que toda matriz $A$ tendrá una expresión de la forma $A=US$ donde $U$ es una matriz ortogonal (que juega el papel de «la rotación») y $S$ es una matriz simétrica positiva (que por el teorema espectral recordemos que es básicamente «alargar en varias direcciones»). Este resultado es increíble: ¡nos dice cómo son todas, todas las matrices reales en términos de matrices muy sencillas: las ortogonales (que conocemos muy bien) y las simétricas (que por el teorema espectral también conocemos muy bien)!

Caso invertible del teorema de descomposición polar

Recordemos un resultado de la entrada anterior, que era una de las partes de nuestro teorema de clasificación de matrices positivas. Nos dice que las matrices simétricas positivas «tienen raíz cuadrada».

Proposición. Sea $A$ una matriz simétrica positiva. Entonces existe una matriz simétrica $B$ tal que $B^2=A$.

Como recordatorio, para obtener a $B$ lo que hicimos fue diagonalizar a $A$ de la forma $A=P^{-1}DP$ con $D$ matriz diagonal cuyas entradas eran $\lambda_1,\ldots,\lambda_n$ los eigenvalores de $A$. Como $A$ era positiva, sus eigenvalores eran no negativos, así que podíamos construir $D’$ con entradas $\sqrt{\lambda_1},\ldots,\sqrt{\lambda_n}$. Después, vimos que $B=P^{-1}D’P$ servía para que $B^2=A$. Observa que además $B$ es positiva pues sus eigenvalores son no negativos.

Como observación adicional, si $A$ fuera positiva definida entonces sus eigenvalores serían positivos, y entonces $B$ también tendría eigenvalores positivos. Así, $B$ sería positiva definida también. De hecho, se puede demostrar que en este caso la matriz $B$ es única (bajo la condición de ser simétrica positiva definida y raíz de $A$). Probar esto queda como parte de los ejercicios de la entrada.

Estamos listos para enunciar y demostrar el teorema de descomposición polar en el caso de matrices invertibles.

Teorema (De descomposición polar, caso invertible). Sea $A\in M_n(\mathbb{R})$ una matriz invertible. Entonces existe una única pareja $(U,S)$ con $U$ una matriz ortogonal y $S$ una matriz simétrica positiva definida para la que se cumple que $A=US$.

Demostración. Tomemos $A\in M_n(\mathbb{R})$ una matriz invertible. La matriz $^tAA$ es simétrica y positiva definida. Por la discusión anterior, existe una única matriz simétrica positiva definida $S$ tal que $^tAA=S^2$. Como $A$ es invertible, $S$ también lo es, así que definamos $$U=AS^{-1}.$$

Afirmamos que $(U,S)$ cumplen con lo requerido. Ya justificamos que $S$ es simétrica positiva definida. Además, de $U=AS^{-1}$ se obtiene inmediatamente $US=A$. Sólo falta verificar que $U$ es ortogonal. Para ello, al multiplicarla con su transpuesta obtenemos lo siguiente:
\begin{align*}
^tUU&=\hspace{.5mm}^tS^{-1}\hspace{.5mm}^tAAS^{-1}\\
&=S^{-1}S^2S^{-1}\\
&=I_n.
\end{align*}

Veamos ahora la unicidad. Supongamos que $A=U’S’$ con $U’$ ortogonal y $S’$ simétrica positiva definida, Entonces
$$^tAA=S’\hspace{.5mm}^tU’U’S’={S’}^2.$$

De esta manera, $S’$ es precisamente la raíz cuadrada de $^tAA$, que por la discusión anterior es única. Deducimos entonces que $S’=S$ y por lo tanto $U’=A{S’}^{-1}=AS^{-1}=U$.

$\square$

Caso general del teorema de descomposición polar

Es natural preguntarse qué sucede cuando la matriz $A$ no es invertible. Resulta que en ese caso aún podemos encontrar una descomposición, aunque perdemos un poco de las propiedades de las matrices y la unicidad. Por ejemplo, si $A=O_n$, entonces $A=UO_n$ para cualquier matriz ortogonal $U$ y entonces tenemos muchas posibles descomposiciones.

Teorema (De descomposición polar, caso general). Cualquier matriz $A\in M_n(\mathbb{R})$ se puede escribir de la forma $A=US$ con $U$ una matriz ortogonal y $S$ una matriz simétrica positiva.

¿Por qué falla nuestra demostración? Todavía tenemos que $^tAA$ es positiva, así que podríamos tomar una raíz cuadrada $S$. El problema es que como $A$ no es invertible, entonces $S$ tampoco lo es. Por ello, no podemos definir $U=AS^{-1}$ como lo hicimos con anterioridad. Sin embargo, podemos ser astutos y «cambiar tantito» a $A$ para que sí se vuelva invertible. De hecho, podemos tomar muchas matrices que se acercan a $A$ y sí son invertibles. Con ello podemos usar un «argumento al límite». Formalicemos estas ideas.

Demostración. Consideremos las matrices $A_k=A+\frac{1}{k}I_n$. Recordemos que $\det(A+\lambda I_n)$ es un polinomio de grado $n$ así que tiene a lo más $n$ raíces. Por ello, existe un $k_0$ tal que para toda $k>k_0$ la matriz $A_k$ es invertible. Al aplicar el teorema de descomposición polar a cada una de dichas $A_k$, obtenemos una matriz ortogonal $U_k$ y una simétrica positiva definida $S_k$ tales que

$$A_k=U_kS_k.$$

Las entradas de cada $U_k$ cumplen que están en el intervalo $[-1,1]$ (pues la suma de las entradas de cada fila es igual a $1$). Así, $U_k$ es una sucesión de matrices en el compacto de matrices con entradas $[-1,1]$. En un compacto toda sucesión tiene una subsucesión convergente, así que podemos elegir una subsucesión de estas matrices, digamos $U_{k_1}, U_{k_2},\ldots$ que converge a una matriz $U$.

Se puede ver que el producto de matrices es continúo y obtener inversas de matrices también es continuo (por ejemplo, por las fórmulas de inversa por matriz de adjuntos). De este modo, aplicando límite $j\to \infty$ a la igualdad $^tU_{k_j}U_{k_j}=I_n$ obtenemos que $^tU=I_n$, de modo que $U$ es ortogonal.

Del mismo modo, como trasponer es continuo, $S_{k_1}, S_{k_2},\ldots$ converge a una matriz simétrica $S$. Finalmente, usando nuevamente la continuidad del producto de matrices obtenemos

\begin{align*}
A&=\lim_{j\to \infty} A_{k_j}\\
&=\lim_{j\to \infty} U_{k_j} S_{k_j}\\
&=US.
\end{align*}

Sólo nos falta demostrar que $S$ es positiva, pero si tomamos $X\in\mathbb{R}^n$, entonces pasando al límite $j\to \infty$ en la desigualdad $^tXS_{k_j}X > 0$ obtenemos $^tXSX\geq 0$. Aquí es donde se podría perder que $S$ es positiva definida, pero seguimos teniendo que $S$ es positiva.

$\square$

Más adelante…

Tanto el teorema espectral como el teorema de descomposición polar son resultados de caracterización fundamentales en álgebra lineal y finalmente nos dan una respuesta a la pregunta de, geométricamente, cómo son todas las posibles transformaciones lineales. En las siguientes secciones se esbozarán los resultados análogos para el caso complejo.

Después de ello, en la cuarta unidad del curso cubriremos otro teorema que nos permitirá decir «cómo son todas las matrices». Quizás no todas las matrices sean directamente similares a una matriz diagonal. Pero enunciaremos y demostraremos el teorema de Jordan que dirá que cualquier matriz es similar a una «casi diagonal», a la que llamaremos diagonal por bloques.

Tarea moral

  1. Sean que $A$ y $B$ son matrices simétricas. Demuestra que $A$ y $B$ conmutan si y sólo si existe una misma matriz $P$ tal que $PAP^{-1}$ y $PBP^{-1}$ son diagonales (a esto se le conoce como que $A$ y $B$ sean «simultáneamente diagonalizables»)
  2. Usando el ejercicio anterior, demuestra que si $A$ es simétrica positiva definida, y se cumple $B^2=A=C^2$ con $B$ y $C$ matrices simétricas positivas definidas, entonces $B=C$.
  3. Sean $A,B\in M_n(\mathbb{R})$ matrices tales que $^tAA=^tBB$. Demuestra que existe una matriz ortogonal $U\in M_n(\mathbb{R})$ tal que $B=UA$.
  4. Encuentra la descomposición polar de $$\begin{pmatrix}
    11 & -5\\
    -2 & 10 \end{pmatrix}.$$
  5. Sea $A$ una matriz cuadrada con descomposición polar $A=WP$. Demuestra que $A$ es normal si y sólo si $WP^2=P^2W$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»