Archivo de la etiqueta: transformaciones lineales

Variable Compleja I: Transformaciones lineales y transformaciones de Möbius

Por Pedro Rivera Herrera

Introducción

En la entrada anterior definimos el concepto de transformación compleja, como una función $T$ del plano complejo en sí mismo y probamos algunos resultados básicos sobre estas transformaciones al considerar a $\mathbb{C}$ como un $\mathbb{R}$-espacio vectorial. Además, definimos algunas de las transformaciones del plano más elementales como la traslación, la homotecia, la reflexión y la rotación.

Nuestro objetivo en ésta entrada es trabajar con un tipo de transformación compleja muy particular, que nos permitirá entender mejor la geometría de las funciones complejas en la siguiente entrada.

Definición 25.1. (Transformaciones afines lineales.)
Sean $a,b\in\mathbb{C}$ con $a\neq 0$. A las transformaciones de la forma:
\begin{equation*}
T(z) = az + b, \tag{25.1}
\end{equation*} se les llama transformaciones afines lineales o simplemente transformaciones lineales, las cuales son transformaciones dadas por una homotecia, una rotación y una traslación.

Observación 25.1.
En nuestros cursos de Geometría a las transformaciones de la forma (25.1), comúnmente se les llama transformaciones afines, sin embargo, en la mayoría de textos referentes a transformaciones del plano complejo $\mathbb{C}$ se les suele llamar transformaciones lineales puesto que geométricamente a una expresión de la forma (25.1) se le puede asociar una recta en el plano. Tener esto en cuenta es de suma importancia para no confundir las definiciones 24.2 y 24.3 con la definición 25.1, puesto que las primeras dos definiciones, vistas en nuestros cursos de Álgebra Lineal, corresponden a una propiedad entre $\mathbb{R}$-espacios vectoriales, mientras que la última definición está dada por una interpretación geométrica.

De hecho, es fácil verificar que no toda transformación lineal, definición 25.1, es $\mathbb{C}$-lineal, ya que $T(0) = b$ y $b\in\mathbb{C}$ no necesariamente es la constante cero.

Ejemplo 25.1.
Las transformaciones elementales del plano complejo son una transformación lineal particular.
a) Si $a=1$ y $b\in\mathbb{C}$, entonces tenemos la traslación por $b$, $T_b(z) = z+b$.
b) Si $a=e^{i\theta} \in \mathbb{C}$, con $\theta\in\mathbb{R}$ y $b=0$, entonces tenemos una rotación, $R_\theta(z) = e^{i\theta} z$.
c) Si $b=0$ y $a=k\in\mathbb{R}$, entonces tenemos una homotecia, $T(z)=kz$.
d) Si $a=e^{i\theta} \in \mathbb{C}$, con $\theta\in\mathbb{R}$ y $b\in\mathbb{C}$, entonces tenemos una reflexión respecto a una recta $L$, $r_\mathcal{L}(z) = e^{i\theta}\overline{z}+b$.

Procedemos ahora a establecer algunas propiedades sobre las transformaciones lineales.

Lema 25.1.
Sean $z_1, z_2, z_3\in\mathbb{C}$ tres puntos no colineales. El ángulo $\alpha$, figura 95, formado entre los vectores $z_2 – z_1$ y $z_3 – z_1$ está dado por:
\begin{equation*}
\alpha = \operatorname{arg}\left(\frac{z_3 – z_1}{z_2 – z_1}\right).
\end{equation*}

Demostración. Se deja como ejercicio al lector.

$\blacksquare$

Figura 95: Ángulo $\alpha$ formado entre los vectores $z_2 – z_1$ y $z_3 – z_1$.

Proposición 25.1.
Sea $T:\mathbb{C}\to\mathbb{C}$ una transformación lineal, entonces:

$T$ envía rectas en rectas.
$T$ envía circunferencias en circunferencias.

Demostración. Sea $T(z) = az + b$, con $a,b\in\mathbb{C}$ y $a\neq 0$.

Sea $\mathcal{L}$ una recta en $\mathbb{C}$ con ecuación: \begin{equation*} c\overline{z} + \overline{c}z + d =0, \tag{25.2} \end{equation*} para algún $c\in\mathbb{C}$, $c\neq 0$, y $d\in\mathbb{R}$.

Veamos que $T\left(\mathcal{L}\right)$ es también una recta. Notemos que cualquier $z\in\mathcal{L}$, bajo $T$ es de la forma $w = az+b$. Dado que $a\neq 0$, entonces: \begin{equation*} z = \frac{1}{a}\left(w-b\right), \end{equation*} por lo que, al ser $z$ un punto de $\mathcal{L}$ satisface (25.2), es decir: \begin{align*} 0 & = c\overline{\left(\frac{1}{a}\left(w-b\right)\right)} + \overline{c} \left(\frac{1}{a}\left(w-b\right)\right) + d\\ & = c \, \overline{\left(\frac{w}{a}\right)} + \overline{c} \left(\frac{w}{a}\right) + d – \left( c \overline{\left(\frac{b}{a}\right)} + \overline{c} \left(\frac{b}{a}\right)\right). \end{align*} Dado que: \begin{equation*} c \, \overline{\left(\frac{b}{a}\right)} + \overline{c} \left(\frac{b}{a}\right) = c \overline{\left(\frac{b}{a}\right)} + \overline{c \, \overline{\left(\frac{b}{a}\right)}} = 2 \operatorname{Re}\left(c \, \overline{\left(\frac{b}{a}\right)}\right), \end{equation*} entonces: \begin{equation*} d – \left( c \overline{\left(\frac{b}{a}\right)} + \overline{c} \left(\frac{b}{a}\right)\right) \in \mathbb{R}, \end{equation*} por lo que todos los puntos $w\in T\left(\mathcal{L}\right)$ satisfacen la ecuación de una recta, es decir, $T\left(\mathcal{L}\right)$ es una recta.
Se deja como ejercicio al lector.

$\blacksquare$

Proposición 25.2.
Toda transformación lineal preserva ángulos.

Demostración. Sea $T$ una transformación lineal, es decir, $T(z) = az + b$, con $a,b\in\mathbb{C}$ y $a\neq 0$.

Dado que $T$ envía rectas en rectas, basta probar que el ángulo formado entre dos rectas que se cortan en un punto es igual al de sus imágenes bajo $T$.

Sean $\mathcal{L}_1$ y $\mathcal{L}_2$ dos rectas que se cortan en un punto $z_0\in\mathbb{C}$. Sean $z_1 \in\mathcal{L}_1$ y $z_2 \in\mathcal{L}_2$. Veamos que:
\begin{equation*}
\angle\left(\mathcal{L}_1, \mathcal{L}_2\right) = \angle\left(T(\mathcal{L}_1), T(\mathcal{L}_2)\right).
\end{equation*}

Por el lema 24.1 tenemos que:
\begin{align*}
\angle\left(T(\mathcal{L}_1), T(\mathcal{L}_2)\right) & = \operatorname{arg}\left(\frac{T(z_2) – T(z_0)}{T(z_1) – T(z_0)}\right)\\
& = \operatorname{arg}\left(\frac{az_2 + b – az_0-b}{az_1 + b – az_0-b}\right)\\
& = \operatorname{arg}\left(\frac{z_2 – z_0}{z_1-z_0}\right)\\
& = \angle\left(\mathcal{L}_1, \mathcal{L}_2\right).
\end{align*}

$\blacksquare$

Observación 25.2.
En general, es posible definir a una transformación compleja para la cual las transformaciones lineales son un caso particular. Dichas transformaciones resultan de gran interés en el estudio de las funciones complejas pues nos dicen mucho sobre su comportamiento geométrico.

Definición 25.2. (Transformaciones fraccionarias lineales.)
Sean $a,b,c,d\in\mathbb{C}$, con al menos $c$ ó $d$ distinto de cero. Una transformación de la forma:
\begin{equation*}
T(z) = \frac{az + b}{cz+d}, \tag{25.3}
\end{equation*} recibe el nombre de transformación fraccionaria lineal.

Observación 25.3.
Debe ser claro que una función $T$ dada por (25.3) está bien definida para todo $z\in\mathbb{C}$ tal que $cz+d\neq 0$. De hecho $T$ es una función analítica en $\mathbb{C}\setminus A$, donde:
\begin{equation*}
A = \{z\in\mathbb{C} : cz + d = 0\}.
\end{equation*}

Más aún, bajo la condición $c\neq0$, la función $T$ se restringe de $\mathbb{C}\setminus\left\{-\frac{d}{c}\right\}$ en $\mathbb{C}\setminus\left\{\frac{a}{c}\right\}$.

Definición 25.3. (Transformaciones de Möbius.)
Sean $a,b,c,d\in\mathbb{C}$. Una transformación de la forma (25.3) tal que $ad – bc\neq 0$ recibe el nombre de transformación de Möbius.

Observación 25.4.
La condición $ad – bc\neq 0$, impuesta sobre las constantes $a,b,c,d\in\mathbb{C}$, nos permite garantizar lo siguiente:
1) Las expresiones $az + b$ y $cz + d$ no se anulan para los mismos valores de $z$.
2) La transformación $T$ no puede ser constante, ya que $a$ y $c$ no pueden ser ambas cero, al igual que $b$ y $d$ no pueden ser ambas cero.
3) En general, el denominador no puede ser un múltiplo constante del numerador, es decir que $az + b$ y $cz + d$ no tienen un factor común.

Además, no es difícil verificar que $T$ es biyectiva si y solo si $ad – bc\neq 0$, por lo que se deja como ejercicio al lector.

Observación 25.5.
Notemos que toda transformación de la forma:
\begin{equation*}
w = T(z) = \frac{az + b}{cz+d}, \,\,\,\text{con} \,\,ad – bc\neq 0,
\end{equation*} es equivalente a una expresión de la forma:
\begin{equation*}
Azw + Bz + Cw + D = 0, \,\,\,\text{con} \,\,AD – BC\neq 0,
\end{equation*} donde $A = c$, $B=-a$, $C =d$ y $D=-b$.

Dado que ésta última expresión es lineal en $z$ y es lineal en $w$, entonces es bilineal en $z$ y $w$, por lo que una transformación de Möbius también suele llamarse una transformación bilineal.

Ejemplo 25.2.
Notemos que algunas de las transformaciones definidas antes, son un una transformación de Möbius particular.
a) Si $a=1=d$ y $b=0=c$, entonces tenemos la transformación identidad, $T(z) = z$.
b) Si $c=0$ y $d=1$, entonces tenemos una transformación lineal, $T(z) = az + b$.
c) Si $a = d = 0$ y $b=c$, entonces tenemos la transformación inversión, $T(z)=\dfrac{1}{z}$, dada en el ejemplo 24.1.

Es común trabajar con las transformaciones de Möbius como funciones sobre el plano complejo extendido, por lo que, considerando la observación 15.5 y el ejercicio 4 de la entrada 12, podemos definir a una transformación de Möbius como una función continua en $\mathbb{C}_\infty$, como sigue:

Definición 25.4. (Transformaciones de Möbius en $\mathbb{C}_\infty$.)
Sean $a,b,c,d\in\mathbb{C}$. Si $ad – bc\neq 0$, entonces diremos que una función racional $T:\mathbb{C}_\infty \to \mathbb{C}_\infty$ dada como:
\begin{equation*}
T(z)= \left\{ \begin{array}{lcc}
\dfrac{az+b}{cz+d}, & \text{si} & z \neq -\frac{d}{c}, \,\, z\neq \infty, \\
\\ \infty, & \text{si} & z = -\frac{d}{c}, \\
\\ \dfrac{a}{c}, & \text{si} & z = \infty,
\end{array}
\right.
\end{equation*} es una transformación de Möbius en el plano complejo extendido.

Observación 25.6.
Como hemos mencionado anteriormente, la condición $ad – bc\neq 0$ se impone para evitar que trabajemos con una transformación constante. Sin embargo, podemos utilizar dicha condición para plantear de una forma equivalente a la definición 25.4 considerando los siguientes casos:
1) Si $c=0$, entonces la condición $ad – bc\neq 0$ se reduce a $ad \neq 0$, en dicho caso tenemos que $T(\infty) = \infty$ y:
\begin{equation*}
T(z) = \frac{az+b}{d} = \frac{a}{d} \, z + \frac{b}{d}.
\end{equation*} 2) Si $c\neq 0$, tenemos $ad – bc\neq 0$, entonces $T(\infty) = a/c$, $T\left(-d/c\right) = \infty$ y:
\begin{equation*}
T(z) = \frac{az+b}{cz+d} = \frac{a}{c} + \frac{bc-ad}{c}\frac{1}{cz+d}.
\end{equation*}

Ejemplo 25.3.
La transformación:
\begin{equation*}
f(z) = \frac{z-1}{iz+i},
\end{equation*} es una transformación de Möbius desde que $a=1$, $b=-1$, $c=i=d$ y $ad – bc = i – (-i) = 2i \neq 0$.

Dado que $c=i\neq 0$, entonces la transformación de Möbius $f$ es una función restringida, es decir:
\begin{equation*}
f:\mathbb{C}\setminus\{-1\} \to \mathbb{C}\setminus\{-i\}.
\end{equation*}

Podemos extender dicha transformación de Möbius al plano complejo extendido como sigue:
\begin{equation*}
f(z) = \frac{z-1}{iz+i}, \quad \text{si} \quad z\neq -1 \quad \text{y} \quad z\neq \infty,
\end{equation*}

mientras que:
\begin{equation*}
f(-1) = \infty \quad \text{y} \quad f(\infty) = -i.
\end{equation*}

Proposición 25.3.
Sean $T_1$ y $T_2$ dos transformaciones de Möbius dadas por:
\begin{equation*}
T_1(z) = \frac{a_1 z + b_1}{c_1 z + d_1} \quad \text{y} \quad T_2(z) = \frac{a_2 z + b_2}{c_2 z + d_2}
\end{equation*}
con $a_1d_1 – b_1c_1 \neq 0$ y $a_2d_2 – b_2c_2 \neq 0$. Entonces su composición es también una transformación de Möbius.

Demostración. Se deja como ejercicio al lector.

$\blacksquare$

Proposición 25.4.
Toda transformación de Möbius es una biyección de $\mathbb{C}_\infty$ en $\mathbb{C}_\infty$. En particular la inversa de una transformación de Möbius es también una transformación de Möbius.

De acuerdo con la observación 25.6 tenemos que si $c = 0$, entonces $T(\infty) = \infty$ y si $c\neq 0$, entonces $T(\infty) = a/c$ y $T\left(-d/c\right) = \infty$.

Primeramente verifiquemos que $T$ es inyectiva. Supongamos que $T(z_1) = T(z_2)$. Notemos que si $c \neq 0$, entonces tenemos la condición $ad – bc\neq 0$, por lo que:
\begin{align*}
\frac{az_1 + b}{cz_1+d} &= \frac{az_2 + b}{cz_2+d}\\ & \Longleftrightarrow \quad adz_1 + bcz_2 = adz_2 + bcz_1\\
& \Longleftrightarrow \quad (ad-bc)(z_1 – z_2) = 0\\
& \Longleftrightarrow \quad z_1 = z_2.
\end{align*}

Por otra parte, notemos que si $c=0$, entonces tenemos la condición $ad\neq 0$, por lo que:
\begin{align*}
\frac{az_1 + b}{d} &= \frac{az_2 + b}{d}\\ & \Longleftrightarrow \quad az_1 + b= az_2 + b\\
& \Longleftrightarrow \quad z_1 = z_2.
\end{align*}

Verifiquemos ahora que $T$ es suprayectiva. Sea $w\in\mathbb{C}_\infty$. Veamos que existe $z\in\mathbb{C}_\infty$ tal que $T(z) = w$. Notemos que si $w = \infty$, entonces $z = -d/c$ corresponde con dicho valor si $c = 0$. Sin pérdida de generalidad supongamos que $w\neq \infty$, entonces tenemos que $c\neq 0$ y por tanto se cumple la condición $ad – bc\neq 0$, por lo que planteamos la ecuación:
\begin{equation*}
w = \frac{az+b}{cz+d}.
\end{equation*}

Resolviendo para $z$ tenemos que:
\begin{equation*}
z = T^{-1}(w) = \frac{-dw+b}{cw-a},
\end{equation*} por lo que $T$ es suprayectiva.

Dado que $T$ es biyectiva entonces existe $T^{-1}$ tal que $T \circ T^{-1} = T^{-1} \circ T = \mathbb{I}_\mathbb{C}$ para todo $z\in\mathbb{C}_\infty$, la cual está dada por:
\begin{equation*}
T^{-1}(z) = \frac{-dz+b}{cz-a},\,\,\,\text{con} \,\,ad – bc \neq 0,
\end{equation*} tal que si $c = 0$, entonces $T^{-1}(\infty) = \infty$ y si $c\neq 0$, entonces $T^{-1}(a/c) = \infty$ y $T^{-1}\left(\infty\right) = -d/c$. Es claro que $T^{-1}$ es también una transformación de Möbius.

$\blacksquare$

Observación 25.7.
De acuerdo con las proposiciones 25.3 y 25.4 no es díficil verificar que el conjunto de todas las transformaciones de Möbius dotado con la operación de composición de funciones forma un grupo.

Proposición 25.5.
Toda transformación de Möbius $T:\mathbb{C}_\infty \to \mathbb{C}_\infty$ se puede expresar como la composición de transformaciones lineales (homotecias, rotaciones y traslaciones) y la inversión.

Demostración. Sea $T:\mathbb{C}_\infty \to \mathbb{C}_\infty$ una transformación de Möbius dada por:
\begin{equation*}
T(z) = \frac{az + b}{cz+d}, \,\,\,\text{con} \,\,ad – bc \neq 0,
\end{equation*} tal que si $c = 0$, entonces $T(\infty) = \infty$ y si $c\neq 0$, entonces $T(\infty) = a/c$ y $T\left(-d/c\right) = \infty$.\\

Por la observación 25.6(1) tenemos que, para $c=0$ la transformación $T$ se puede ver como la composición $T_2 \circ T_1$, donde:
\begin{equation*}
T_1(z) = \frac{a}{d}\,z, \quad \quad T_2(z) = z + \frac{b}{d},
\end{equation*} con $ad\neq 0$, por lo que en dicho caso se cumple el resultado.

Por otra parte, por la observación 25.6(2), para $c\neq 0$ tenemos que la transformación $T$ se puede ver como la composición $T_3 \circ T_2 \circ T_1$, donde:
\begin{equation*}
T_1(z) = cz + d, \quad \quad T_2(z) = \frac{1}{z}, \quad \quad T_3(z) = \frac{a}{c} + \frac{bc-ad}{c} z,
\end{equation*} con $ad – bc\neq 0$, por lo que en dicho caso también se cumple el resultado.

$\blacksquare$

Procedemos a analizar algunas propiedades geométricas importantes de las transformaciones de Möbius. Para ello nos apoyaremos de algunos resultados para la transformación inversión.

Tenemos que la transformación:
\begin{equation*}
w = T(z) = \frac{1}{z}, \tag{25.4}
\end{equation*} establece una biyección entre los puntos distintos de cero de los planos $z$ y $w$. Dado que $z \, \overline{z} = |\,z\,|^2$, entonces podemos reescribir a (25.4) mediante la composición de las siguientes transformaciones:
\begin{equation*}
T_1(z) = \frac{1}{\overline{z}} = \frac{z}{|\,z\,|^2}, \quad \quad T_2(z) = \overline{z}, \tag{25.5}
\end{equation*} entonces es claro que $T(z) = (T_2 \circ T_1)(z)$.

Notemos que la primer transformación en (25.5) nos describe una inversión con respecto a la circunferencia unitaria $C(0,1)$, es decir, la imagen de un punto $z\neq 0$ es el punto $w_1 = T_1(z)$ con las siguientes propiedades:
\begin{equation*}
|\,w_1\,| = \frac{1}{|\,z\,|}, \quad \quad \operatorname{arg} w_1 = \operatorname{arg} z.
\end{equation*}

Por lo que los puntos fuera de la circunferencia unitaria $|\,z\,|=1$ serán mapeados, mediante $T_1$, en los puntos $w_1\neq 0$ dentro de dicha circunferencia y viceversa. Mientras que los puntos que caigan sobre la circunferencia unitaria $|\,z\,|=1$, bajo $T_1$, serán mapeados en ellos mismos. Por otra parte, la segunda transformación dada en (16.2) es simplemente una reflexión a través del eje real de cada $w_1 = T_1(z) \neq 0$, es decir $w = \overline{w_1}$, figura 96.

Figura 96: Gráfica de la transformación inversión vista como la composición de las transformaciones $T_1$ y $T_2$ dadas en (25.5).

Podemos visualizar lo anterior en el siguiente applet de GeoGebra: https://www.geogebra.org/m/z3cf2kyt.

Desde que:
\begin{equation*}
\lim_{z\to 0} \frac{1}{z} = \infty, \quad \lim_{z\to \infty} \frac{1}{z} = 0,
\end{equation*} entonces podemos definir una biyección entre los planos $z$ y $w$ extendidos, es decir entre $\mathbb{C}_\infty$ y $\mathbb{C}_\infty$, mediante:
\begin{equation*}
T(z) = \left\{ \begin{array}{lcc}
\dfrac{1}{z}, & \text{si} & z\neq 0, z\neq \infty,\\
\\0, & \text{si} & z = \infty, \\
\\ \infty, & \text{si} & z=0.
\end{array}
\right.
\end{equation*}

Es claro que la transformación $T$, definida previamente, es una función continua en $\mathbb{C}_\infty$.

Considerando lo anterior, estamos listos para probar la siguiente:

Proposición 25.6.
La transformación inversión mapea el conjunto de circunferencias y rectas en el conjunto de circunferencias y rectas.

Demostración. Sea $T(z) = 1/z$ la transformación inversión. De nuestros cursos de geometría analítica sabemos que para $A,D,E,F$ números reales tales que $D^2+E^2 > 4AF$, la ecuación:
\begin{equation*}
A(x^2 + y^2) + Dx + Ey + F = 0, \tag{25.6}
\end{equation*} representa una circunferencia o una recta, si $A\neq 0$ ó $A = 0$, respectivamente.

Dado que $z\, \overline{z} = |\,z\,|^2$, tenemos que si $w = u + iv$ es la imagen de $z=x+iy\neq 0$ bajo la transformación inversión, es decir:
\begin{equation*}
w=T(z) = \frac{1}{z} = \frac{\overline{z}}{|\,z\,|^2},
\end{equation*}entonces:
\begin{equation*}
u=\frac{x}{x^2+y^2}, \quad v = -\frac{y}{x^2+y^2}. \tag{25.7}
\end{equation*}

Considerando que la transformación inversión establece una biyección entre los planos $z$ y $w$, entonces podemos plantear:
\begin{equation*}
z= T^{-1}(w) = \frac{1}{w} = \frac{\overline{w}}{|\,w\,|^2},
\end{equation*} de donde:
\begin{equation*}
x=\frac{u}{u^2+v^2}, \quad y = -\frac{v}{u^2+v^2}.\\ \tag{25.8}
\end{equation*}

Supongamos que $z=x+iy\neq 0$ satisface (25.6), veamos que $w=u+iv = T(z) \neq 0$ también satisface una ecuación similar. Sustituyendo las ecuaciones dadas en (25.8) tenemos que:
\begin{align*}
0 & = A\left[\frac{u^2+v^2}{(u^2+v^2)^2}\right] + D\left(\frac{u}{u^2+v^2}\right) + E\left(-\frac{v}{u^2+v^2}\right) + F\\
& = A\left(\frac{1}{u^2+v^2}\right) + Du\left(\frac{1}{u^2+v^2}\right) -Ev\left(\frac{1}{u^2+v^2}\right) + F,
\end{align*} de donde se sigue que $w=u+iv$ satisface la ecuación:
\begin{equation*}
F(u^2 + v^2) + Du – Ev + A = 0, \tag{25.9}
\end{equation*}la cual corresponde con la ecuación de una circunferencia o una recta, si $F\neq 0$ ó $F = 0$, respectivamente.

De manera análoga se puede mostrar que si $w=u+iv$ satisface (25.9), entonces, utilizando (25.7), $z=x+iy$ satisface (25.6).

$\blacksquare$

Observación 25.8.
Si consideramos a $T$ la transformación inversión, entonces de las ecuaciones (25.6) y (25.9) tenemos que:
1) Si $A\neq0$ y $F\neq 0$, en el plano $z$ se tiene una circunferencia que no pasa a través del origen, la cual, bajo $T$, será mapeada en una circunferencia que tampoco pasa por el origen en el plano $w$.
2) Si $A\neq0$ y $F=0$, en el plano $z$ se tiene una circunferencia que pasa a través del origen, la cual, bajo $T$, será mapeada en una recta que no pasa por el origen en el plano $w$.
3) Si $A=0$ y $F\neq 0$, en el plano $z$ se tiene una recta que no pasa a través del origen, la cual, bajo $T$, será mapeada en una circunferencia que pasa por el origen en el plano $w$.
4) Si $A=0$ y $F= 0$, en el plano $z$ se tiene una recta que pasa a través del origen, la cual será mapeada, bajo $T$, en una recta que pasa por el origen en el plano $w$.

Podemos visualizar lo anterior en el siguiente applet de GeoGebra: https://www.geogebra.org/m/eqh4nbab.

De acuerdo con las proposiciones 25.1, 25.5 y 25.6 se tiene el siguiente:

Corolario 25.1.
Toda transformación de Möbius mapea el conjunto de rectas y circunferencias en el conjunto de rectas y circunferencias.

Demostración. Se deja como ejercicio al lector.

$\blacksquare$

Ejemplo 25.4.
Muestra que la recta $\mathcal{L} : 3y=x$, en el plano $z$, es enviada en una circunferencia, en el plano $w$, bajo la transformación de Möbius:
\begin{equation*}
w = T(z) = \frac{i z+ 2}{4z+i}. \tag{25.10}
\end{equation*}

Solución. Sean $z=x+iy$ y $w=u+iv$. Para determinar la imagen de la recta $3y=x$ bajo $T$, debemos encontrar los valores de $x$ y de $y$ en términos de $u$ y de $v$.

Resolvemos (25.10) para $z$:
\begin{align*}
w = \frac{i z+ 2}{4z+i} \quad &\Longrightarrow \quad 4zw + iw = iz +2\\
&\Longrightarrow \quad z(4w-i) = 2-iw\\
&\Longrightarrow \quad z = \frac{2-iw}{4w-i}.
\end{align*}

Entonces:
\begin{align*}
x+iy & = \frac{v+2-iu}{4u+i(4v-1)} \frac{4u-i(4v-1)}{4u-i(4v-1)}\\
& = \frac{(v+2-iu)[4u+i(4v-1)]}{16u^2+(4v-1)^2}\\
& = \frac{9u – i(4u^2+4v^2+7v-2)}{16u^2+(4v-1)^2},
\end{align*} de donde:
\begin{equation*}
x = \frac{9u}{16u^2+(4v-1)^2}, \quad \quad y = -\frac{4u^2+4v^2+7v-2}{16u^2+(4v-1)^2}.
\end{equation*}

Sustituyendo en la ecuación de la recta tenemos que:
\begin{equation*}
\frac{9u}{16u^2+(4v-1)^2} = \frac{-3(4u^2+4v^2+7v-2)}{16u^2+(4v-1)^2},
\end{equation*} es decir:
\begin{equation*}
u^2 + v^2 + \frac{3}{4}u+\frac{7}{4}v-\frac{1}{2} = 0,
\end{equation*} la cual corresponde con la ecuación de una circunferencia, en el plano $w$, con centro en $\left(-3/8, -7/8\right)$ y radio $r = (3/8) \sqrt{10}$.

Figura 97: Imagen de la recta $3y=x$ bajo la transformación de Möbius (25.10).

Podemos generalizar la definición 24.10, de punto fijo de una transformación, para las funciones complejas definidas sobre el plano complejo extendido.

Definición 25.5.(Punto fijo.)
Sea $S\subset\mathbb{C}_\infty$ y sea $f: S \to \mathbb{C}_\infty$ una función. Diremos que un punto $z_0 \in S$ es un punto fijo de $f$ si y solo si $f(z_0) = z_0$.

Ejemplo 25.5.
a) La función $f(z) = z^2$ fija a los puntos $0, 1$ e $\infty$.
b) La función $f(z) = \dfrac{1}{z}$ fija a los puntos $1$ y $-1$.
c) La función $f(z) = z+i$ fija al $\infty$.

Una pregunta interesante que podemos hacernos es ¿cuáles son los puntos fijos de una transformación de Möbius?

Para responder a esta pregunta consideremos los siguientes resultados.

Proposición 25.7.
Toda transformación de Möbius $T:\mathbb{C}_\infty \to \mathbb{C}_\infty$ deja fijo 1, 2 o todos los puntos de $\mathbb{C}_\infty$.

Para encontrar los puntos fijos de $T$ planteamos la siguiente ecuación:
\begin{equation*}
T(z) = \frac{az + b}{cz+d} = z,
\end{equation*} resolviendo para $z$ obtenemos la ecuación cuadrática:
\begin{equation*}
cz^2 + (d-a)z – b = 0.\tag{25.11}
\end{equation*}

Caso 1. Si $c\neq 0$, por la observación 25.6 tenemos que $T(\infty) = a/c$ y $T\left(-d/c\right) = \infty$, es decir, $T$ no fija al punto $z=\infty$. Por otra parte, es claro que la ecuación (25.11) tiene exactamente 1 ó 2 soluciones, por lo que en dicho caso tenemos que $T$ fija 1 ó 2 puntos de $\mathbb{C}_\infty$.

Caso 2. Si $c=0$, por la observación 25.6 tenemos que $T(\infty) = \infty$, es decir, $T$ fija al punto $z=\infty$. Por otra parte, para $c=0$ tenemos la condición $ad\neq 0$, por lo que $a \neq 0$ y $d \neq 0$, entonces procedemos a analizar los siguientes casos:

Si $a\neq d$, entonces la transformación $T$ es de la forma: \begin{equation*} T(z) = \frac{az + b}{d}. \end{equation*} De (25.11) tenemos la solución: \begin{equation*} z = \frac{b}{d-a} \neq \infty, \end{equation*} la cual es otro punto fijo de $T$, por lo que tenemos exactamente 2 puntos fijos, es decir, $T$ deja fijos a 2 puntos de $\mathbb{C}_\infty$.
Si $a = d$, entonces la ecuación (25.11) se reduce a $b=0$, por lo que la transformación $T$ es de la forma: \begin{equation*} T(z) = \frac{az + 0}{0z + a} = z, \end{equation*} la cual es la transformación identidad, por lo que claramente $T$ fija a todo punto de $\mathbb{C}_\infty$.

$\blacksquare$

Corolario 25.2.
Si $T$ es una transformación de Möbius que fija tres puntos distintos de $\mathbb{C}_\infty$, entonces $T$ es la identidad.

Demostración. Es inmediata del resultado anterior.

$\blacksquare$

Corolario 25.3.
Si $T_1$ y $T_2$ son dos transformaciones de Möbius que fijan a tres puntos distintos de $\mathbb{C}_\infty$, entonces $T_1=T_2$.

Demostración. Se sigue de las proposiciones 25.3, 25.4 y del corolario 25.3, por lo que los detalles se dejan como ejercicio al lector.

$\blacksquare$

Observación 25.9.
El último resultado es de suma importancia pues nos dice que el comportamiento de una transformación de Möbius está completamente descrito por su acción sobre tres puntos distintos de $\mathbb{C}_\infty$.

Observación 25.10.
Notemos que si $T$ es una transformación de Möbius, digamos:
\begin{equation*}
T(z) = \frac{az + b}{cz+d}, \,\,\,\text{con} \,\,ad – bc\neq 0,
\end{equation*} entonces para $\lambda\in\mathbb{C}$, tal que $\lambda\neq 0$, se cumple que:
\begin{equation*}
S(z) = \frac{\lambda a z +\lambda b}{\lambda c z + \lambda d}
\end{equation*} también es una transformación de Möbius desde que $\lambda^2(ad – bc) \neq 0$. Más aún, es claro que $T = S$.

Ejemplo 25.6.
Determina la transformación de Möbius que envía los puntos del plano $z$, en los puntos del plano $w$, respectivamente.
a) $-1\mapsto -i$, $0 \mapsto 1$ y $1 \mapsto i$.
b) $1\mapsto 0$, $i \mapsto 1$ y $-1 \mapsto \infty$.
c) $1\mapsto i$, $0 \mapsto \infty$ y $-1 \mapsto 1$.

Solución. Sea $T$ una transformación de Möbius, es decir:
\begin{equation*}
w = T(z) = \frac{az + b}{cz+d}, \,\,\,\text{con} \,\,ad – bc\neq 0.
\end{equation*}

a) Dado que $T(0)=1$, tenemos que:
\begin{equation*}
1 = \frac{b}{d} \quad \Longrightarrow \quad b = d,
\end{equation*} por lo que $b(a-c) \neq 0$, es decir $b\neq 0$ y $a\neq c$, entonces:
\begin{equation*}
T(z) = \frac{az + b}{cz+b}, \,\,\,\text{con} \,\,b(a-c) \neq 0.
\end{equation*} Como $T(-1) = -i$ y $T(1) = i$, tenemos el siguiente sistema de ecuaciones:
\begin{equation*}
\left\{ \begin{array}{c}
\dfrac{-a+b}{-c+b} = -i,\\
\\ \dfrac{a+b}{c+b} = i.
\end{array}
\right. \quad \Longrightarrow \quad \left\{ \begin{array}{c}
-a+b = ic-ib,\\
\\ a+b = ic+ib.
\end{array}
\right.
\end{equation*}Resolviendo tenemos $a = ib$ y $c = -ib$.

Como $b\neq 0$, entonces:
\begin{equation*}
T(z) = \frac{b(iz+1)}{b(-iz+1)} = \frac{iz+1}{-iz+1} = \frac{i-z}{i+z}.
\end{equation*}

b) Puesto que $T(-1)=\infty$, de la observación 25.6 tenemos que $c\neq 0$ y $-d/c = -1$, es decir, $c=d$.

Como $T(1) = 0$, entonces $a+b = 0$, es decir $a = -b$, entonces:
\begin{equation*}
T(z) = \frac{-b(z-1)}{d(z+1)}, \quad -2bd \neq 0.
\end{equation*}Por último, como $T(i)=1$, entonces:
\begin{equation*}
\frac{-b(i-1)}{d(i+1)} = 1 \quad \Longrightarrow \quad b = d \left(\frac{1+i}{1-i}\right) = id.
\end{equation*}Por lo tanto, como $d\neq 0$, tenemos que:
\begin{equation*}
T(z) = \frac{-id(z-1)}{d(z+1)}= -i\left(\dfrac{z-1}{z+1}\right).
\end{equation*}

c) Dado que $T(0)=\infty$, de la observación 25.6 tenemos que $c\neq 0$ y $d=0$, por lo que:
\begin{equation*}
T(z) = \frac{az + b}{cz}, \,\,\,\text{con} \,\,bc \neq 0.
\end{equation*}Como $T(1) = i$ y $T(-1) = 1$, tenemos el siguiente sistema de ecuaciones:
\begin{equation*}
\left\{ \begin{array}{c}
\dfrac{a+b}{c} = i,\\
\\ \dfrac{-a+b}{-c} = 1.
\end{array}
\right. \quad \Longrightarrow \quad \left\{ \begin{array}{c}
a+b = ic,\\
\\ -a+b = -c.
\end{array}
\right.
\end{equation*} Resolviendo tenemos $2a = c(1+i)$ y $2b = c(i-1)$.

De acuerdo con la observación 25.10 y considerando que $c\neq 0$, entonces tenemos que:
\begin{align*}
T(z) = \frac{az+b}{cz} & = \frac{2az+2b}{2cz}\\
&= \frac{c[(1+i)z+(i-1)]}{2cz}\\
&= \frac{(1+i)z+(i-1)}{2z}.
\end{align*}

Proposición 25.8.
Sean $z_1, z_2, z_3 \in\mathbb{C}_\infty$ tres puntos distintos. Entonces existe una única transformación de Möbius tal que:
\begin{equation*}
T(z_1) = 0, \quad T(z_2) = 1 \quad \text{y} \quad T(z_3) = \infty. \tag{25.12}
\end{equation*}

Demostración. Sean $z_1, z_2, z_3 \in\mathbb{C}_\infty$ tres puntos distintos. La unicidad se sigue del corolario 25.3.

Supongamos primeramente que los tres puntos son finitos, entonces para la existencia definimos a la transformación:
\begin{equation*}
T(z) = \frac{(z-z_1)(z_2 – z_3)}{(z-z_3)(z_2 – z_1)}, \quad \forall z\in\mathbb{C}. \tag{25.13}
\end{equation*} Primero veamos que $T$ es una transformación de Möbius. Notemos que:
\begin{align*}
T(z) &= \frac{(z-z_1)(z_2 – z_3)}{(z-z_3)(z_2 – z_1)}\\
& = \frac{(z_2 – z_3) z + z_1(z_3-z_2)}{(z_2 – z_1)z + z_3 (z_1 – z_2)}\\
& =: \frac{az+b}{cz+d},
\end{align*}de donde:
\begin{align*}
ad – bc & = z_3(z_2 – z_3)(z_1 – z_2) + z_1(z_3 – z_2)(z_1 – z_2)\\
& = (z_2 – z_3)(z_1 – z_2)(z_3 – z_1).
\end{align*}Dado que $z_1, z_2, z_3$ son distintos, entonces $z_2 – z_3 \neq 0$, $z_1 – z_2 \neq 0$ y $z_3 – z_1 \neq 0$, es decir, $ad – bc \neq 0$, por lo que $T$ es una transformación de Möbius.

Veamos ahora que $T$ cumple (25.12). Es claro que:
\begin{align*}
T(z_1) &= \frac{(z_1-z_1)(z_2 – z_3)}{(z_1-z_3)(z_2 – z_1)} = 0,\\
T(z_2) &= \frac{(z_2-z_1)(z_2 – z_3)}{(z_2-z_3)(z_2 – z_1)} = 1,\\
T(z_3) &= \frac{(z_3-z_1)(z_2 – z_3)}{(z_3-z_3)(z_2 – z_1)} = \infty.
\end{align*}

Por otra parte, si alguno de los $z_k$’s es $\infty$, definimos a $T(z)$ de modo que $z_k$ tienda a $\infty$ en (25.13). Sin pérdida de generalidad, supongamos que $z_1 = \infty$, entonces reescribimos el lado derecho de la igualdad en (25.13) como sigue:
\begin{equation*}
\dfrac{\dfrac{z}{z_1} – 1}{z-z_3} \dfrac{z_2-z_3}{\dfrac{z_2}{z_1} – 1},
\end{equation*}entonces:
\begin{equation*}
T(z) := \lim_{z_1 \to \infty} \dfrac{\dfrac{z}{z_1} – 1}{z-z_3} \dfrac{z_2-z_3}{\dfrac{z_2}{z_1} – 1} = \frac{z_2 – z_3}{z – z_3}.
\end{equation*}Claramente $T$ es una transformación de Möbius pues $z_3 – z_2 \neq 0$. Notemos que:
\begin{equation*}
T(\infty) = 0, \quad T(z_2) = 1 \quad \text{y} \quad T(z_3) = \infty.
\end{equation*}Análogamente, si $z_2 = \infty$ podemos definir:
\begin{equation*}
T(z) = \frac{z – z_1}{z – z_3},
\end{equation*}mientras que si $z_3 = \infty$ definimos:
\begin{equation*}
T(z) = \frac{z – z_1}{z_2 – z_1}.
\end{equation*}En ambos casos $T$ es una transformación de Möbius y se cumple (25.12).

$\blacksquare$

El resultado anterior nos motiva a dar la siguiente:

Definición 25.6. (Razón cruzada.)
Sean $z_1, z_2, z_3 \in\mathbb{C}_\infty$ tres puntos distintos y sea $z\in\mathbb{C}_\infty$. La {\bf razón cruzada} de $z, z_1, z_2$ y $z_3$, denotada como $(z; z_1, z_2, z_3)$, es el valor $T(z) \in\mathbb{C}_\infty$, donde $T$ es la única transformación de Möbius tal que $T(z_1)=0$, $T(z_2)=1$ y $T(z_3)=\infty$.

Observación 25.11.
De acuerdo con la proposición 25.8 es claro que:
\begin{equation*}
(z; z_1, z_2, z_3) = T(z)= \left\{ \begin{array}{lcc}
\dfrac{(z-z_1)(z_2 – z_3)}{(z-z_3)(z_2 – z_1)} & \text{si} & z_1, z_2, z_3 \in\mathbb{C}, \\
\\ \dfrac{z_2-z_3}{z-z_3} & \text{si} & z_1 = \infty, \\
\\ \dfrac{z-z_1}{z-z_3} & \text{si} & z_2 = \infty, \\
\\ \dfrac{z-z_1}{z_2-z_1} & \text{si} & z_3 = \infty.
\end{array}
\right.
\end{equation*}

Ejemplo 25.7.
Determina el valor de las siguientes razones cruzadas.
a) $(z;0,1,\infty)$.
b) $(z;1,\infty, 0)$.
c) $(z_2;z_1,z_2,z_3)$.
d) $(2;\infty, i,-1)$.

Solución. Tenemos que:
a) \begin{equation*}
(z;0,1,\infty) = \frac{z-0}{1-0} = z.
\end{equation*}b)
\begin{equation*}
(z;1,\infty,0) = \frac{z-1}{z-0} = \frac{z-1}{z}.
\end{equation*}c)
\begin{equation*}
(z_2;z_1,z_2,z_3) = \dfrac{(z_2-z_1)(z_2 – z_3)}{(z_2-z_3)(z_2 – z_1)} = 1.
\end{equation*}d)
\begin{equation*}
(2;\infty, i,-1) = \frac{i-(-1)}{2-(-1)} = \frac{1+i}{3}.
\end{equation*}

Ejemplo 25.8.
De acuerdo con la definición 25.6, la transformación de Möbius del ejemplo 25.6(b) puede escribirse como $T(z) = (z;1,i,-1)$.

Corolario 25.4.
Sean $z_1, z_2, z_3 \in\mathbb{C}_\infty$ tres puntos distintos y $w_1, w_2, w_3 \in\mathbb{C}_\infty$ tres puntos distintos. Entonces, existe una única transformación de Möbius tal que:
\begin{equation*}
H(z_1) = w_1, \quad H(z_2) = w_2 \quad \text{y} \quad H(z_3) = w_3.
\end{equation*}

Demostración. Dadas las hipótesis, sean $T(z) = (z; z_1, z_2, z_3)$ y $S(w) = (w; w_1, w_2, w_3)$. Definimos $H=S^{-1}\circ T$, entonces es claro que:
\begin{align*}
H(z_1) & = (S^{-1}\circ T)(z_1) = S^{-1}\left(T(z_1)\right) = S^{-1}\left(0\right) = w_1,\\
H(z_2) &= (S^{-1}\circ T)(z_2) = S^{-1}\left(T(z_2)\right) = S^{-1}\left(1\right) = w_2,\\
H(z_3) &= (S^{-1}\circ T)(z_3) = S^{-1}\left(T(z_3)\right) = S^{-1}\left(\infty\right) = w_3.
\end{align*} La unicidad se sigue del corolario 25.3.

$\blacksquare$

Proposición 25.9.
Toda transformación de Möbius preserva la razón cruzada.

Demostración. Sea $T$ una transformación de Möbius y sean $z_1, z_2, z_3 \in\mathbb{C}_\infty$ tres puntos distintos. Veamos que:
\begin{equation*}
\left(z; z_1, z_2, z_3\right) = \left(T(z); T(z_1), T(z_2), T(z_3)\right).
\end{equation*}

Sea $S(z) = \left(z; z_1, z_2, z_3\right)$. Definimos $H=S\circ T^{-1}$, la cual claramente es una transformación de Möbius. Tenemos que:
\begin{align*}
H(T(z_1)) & = S(z_1) = 0,\\
H(T(z_2)) &= S(z_2) = 1,\\
H(T(z_3)) &= S(z_3) = \infty,
\end{align*} por lo que, por la unicidad de la razón cruzada:
\begin{equation*}
H(z) = \left(z; T(z_1), T(z_2), T(z_3)\right), \quad \forall z\in\mathbb{C}_\infty.
\end{equation*}Entonces:
\begin{equation*}
S(z) = H(T(z)) = \left(T(z); T(z_1), T(z_2), T(z_3)\right), \quad \forall z\in\mathbb{C}_\infty.
\end{equation*}

$\blacksquare$

Observación 25.12.
Podemos reescribir el resultado anterior como:
\begin{equation*}
\dfrac{(z-z_1)(z_2 – z_3)}{(z-z_3)(z_2 – z_1)} = \dfrac{(w-w_1)(w_2 – w_3)}{(w-w_3)(w_2 – w_1)},
\end{equation*}donde $w = T(z)$ y $T$ es una transformación de Möbius. En caso de que algún $z_k$ ó algún $w_k$, con $k=1,2,3$, sea igual a $\infty$, entonces consideramos la definición de la observación 25.11.

Obtener una transformación de Möbius resulta sencillo mediante la razón cruzada.

Ejemplo 25.9.
Consideremos los incisos a) y c) del ejemplo 25.6.

Para el inciso a) queremos una transformación de Möbius tal que:
\begin{equation*}
-1\mapsto -i, \quad 0 \mapsto 1 \quad \text{y} \quad 1 \mapsto i.
\end{equation*}Considerando la observación 25.12 tenemos que:
\begin{equation*}
\dfrac{(z-(-1))(0 – 1)}{(z-1)(0 – (-1))} = \dfrac{(w-(-i))(1 – i)}{(w-i)(1 – (-i))},
\end{equation*}es decir:
\begin{equation*}
\dfrac{-(z+1)}{z-1} = \dfrac{(w+i)(1 – i)}{(w-i)(1 +i)},
\end{equation*}de donde:
\begin{equation*}
-2(z +i) = 2w(z+i) \quad \Longrightarrow \quad w = T(z) = \frac{i-z}{i+z}.
\end{equation*}

Por otra parte, para el inciso c) queremos una transformación de Möbius tal que:
\begin{equation*}
1\mapsto i, \quad 0 \mapsto \infty \quad \text{y} \quad -1 \mapsto 1.
\end{equation*}Considerando la observación 25.12 tenemos que:
\begin{equation*}
\dfrac{(z-1)(0 – (-1))}{(z-(-1))(0 – 1)} = \dfrac{w-i}{w-1},
\end{equation*}es decir:
\begin{equation*}
\dfrac{z-1}{-(z+1)} = \dfrac{w-i}{w-1},
\end{equation*}de donde:
\begin{equation*}
z(1 +i) + i – 1 = 2zw \quad \Longrightarrow \quad w = T(z) = \frac{(1+i)z +(i-1)}{2z}.
\end{equation*}

Ejemplo 25.10.
Determina la transformación de Möbius tal que:
\begin{equation*}
0\mapsto i, \quad 1 \mapsto 2 \quad \text{y} \quad -1 \mapsto 4.
\end{equation*}

Solución. Tenemos que:
\begin{equation*}
(z; 0, 1, -1) = \dfrac{(z-0)(1 – (-1)}{(z-(-1))(1 – 0)} = \frac{2z}{z+1},
\end{equation*}mientras que:
\begin{equation*}
(w; i, 2, 4) = \dfrac{(w-i)(2 – 4)}{(w-4)(2 – i)} = \dfrac{-2(w-i)}{(w-4)(2 – i)},
\end{equation*}por lo que:
\begin{equation*}
\frac{2z}{z+1} = \dfrac{-2(w-i)}{(w-4)(2 – i)},
\end{equation*}de donde, al resolver para $w$ tenemos:
\begin{equation*}
w\left[(6-2i)z+2\right] = \left[(16-6i)z+2i\right] \quad \Longrightarrow \quad w = T(z) = \frac{(16-6i)z+2i}{(6-2i)z+2}.
\end{equation*}

Corolario 25.5.
Sea $C \subset\mathbb{C}_\infty$ una circunferencia (o una recta), sean $z_1, z_2, z_3 \in C$ tres puntos distintos y $z\in\mathbb{C}_\infty$. Entonces $(z;z_1,z_2,z_3) \in \mathbb{R}$ si y solo si $z\in C$.

Demostración. Dadas las hipótesis, consideremos a $T(z) = (z;z_1,z_2,z_3)$. Dado que $T$ es una transformación de Möbius, del corolario 25.1 se sigue que $T$ mapea a $C$ en una circunferencia (o en una recta) en $\mathbb{C}_\infty$ que pasa por $0, 1$ e $\infty$, entonces $T(C) = \mathbb{R}\cup\{\infty\}$.

Por lo que:
\begin{align*}
T(z) = (z;z_1,z_2,z_3) \in \mathbb{R} \quad & \Longleftrightarrow \quad T(z) \in \mathbb{R} \cup\{\infty\} = T(C)\\
& \Longleftrightarrow \quad z \in C.
\end{align*}

$\blacksquare$

Tarea moral

Completa la demostración de la proposición 25.1.
Realiza la demostración de la proposición 25.3.
Prueba la observación 25.7.
Demuestra los corolarios 25.1 y 25.3.
a) Muestra que la ecuación (25.6) se puede escribir de la forma: \begin{equation*} 2Az\,\overline{z} + (D-Ei)z + (D+Ei)\overline{z} + 2F = 0, \end{equation*} donde $z=x+iy$. b) Muestra que bajo la transformación inversión, $f(z)=1/z$, la ecuación del inciso anterior se convierte en: \begin{equation*} 2Fw\,\overline{w} + (D+Ei)w + (D-Ei)\overline{w} + 2A = 0. \end{equation*} Después prueba que si $w=u+iv$, entonces la ecuación anterior es la misma que la ecuación (25.9).
Hint: Utiliza coordenadas complejas conjugadas.
Determina de forma explícita la transformación de Möbius determinada por las siguientes correspondencias de puntos. Verifica tu resultado utilizando la razón cruzada.
a) $1+i \mapsto 0$, $2 \mapsto \infty$, $0 \mapsto i-1$.
b) $0 \mapsto 1$, $1 \mapsto 1+i$, $\infty \mapsto 2$.
c) $\infty \mapsto 0$, $1+i \mapsto 1$, $2 \mapsto \infty$.
d) $-2 \mapsto 1-2i$, $i \mapsto 0$, $2 \mapsto 1+2i$.
e) $1 \mapsto 1$, $i \mapsto 0$, $-1 \mapsto -1$.
Obtén los puntos fijos de las siguientes transformaciones.
a) $T(z) = \dfrac{iz+2}{z+1}$.
b) $T(z) = i\left(\dfrac{z-i}{z+i}\right)$.
c) $T(z) = \dfrac{z}{z+1}$.
d) $T(z) = \dfrac{1+i}{z+1}$.
a) Determina la transformación de Möbius tal que: \begin{equation*} 1 \mapsto 0, \quad i \mapsto -1 \quad \text{y} \quad 0 \mapsto -i. \end{equation*}
b) Considera la transformación $T$ del inciso anterior. ¿Cuál es la imagen de la circunferencia, en el plano $z$, que pasa por los puntos $z_1 = 1, z_2 = i$ y $z_3 = 0$, bajo $T$? ¿Cuál es la imagen del interior de dicha circunferencia bajo $T$?
Prueba que si el origen es un punto fijo de una transformación de Möbius $T$, entonces dicha transformación es de la forma: \begin{equation*} w=T(z)=\frac{z}{cz+d}, \quad d\neq 0. \end{equation*}
Muestra que la transformación: \begin{equation*} w = T(z) = \frac{iz+2}{4z+i}, \end{equation*} envía el eje real, en el plano $z$, en una circunferencia en el plano $w$. Determina el centro y el radio de dicha circunferencia. ¿Cuál es el punto en el plano $z$ que es enviado en el centro de la circunferencia?
Determina la transformación de Möbius tal que envía el punto $i$ en el punto $-i$ y que fija el punto $1+2i$.

Más adelante…

En esta entrada hemos definido el concepto de transformación de Möbius o bilineal y establecimos algunos resultados elementales, en el estudio de estas transformaciones del plano complejo (extendido), las cuales resultan de suma importancia para entender de manera clara la geometría de algunas de las funciones complejas más elementales, como veremos en la siguiente entrada.

En general, las transformaciones de Möbius tienen muchas aplicaciones en el análisis complejo. Dejando de lado la aparente simplicidad en su definición, éstas transformaciones son el corazón de algunas áreas matemáticas modernas de investigación, por su conexión con las geometrías no Euclidianas como la geometría hiperbólica. De hecho, éstas transformaciones están estrechamente ligadas con la teoría de la relatividad de Einstein.

La siguiente entrada es la última de ésta segunda unidad y en ella abordaremos una alternativa básica para poder estudiar el comportamiento geométrico de las funciones complejas más elementales.

Entradas relacionadas

Ir a Variable Compleja I.
Entrada anterior del curso: Transformaciones del plano complejo $\mathbb{C}$.
Siguiente entrada del curso: Funciones complejas como transformaciones. Técnicas de graficación.

Cálculo Diferencial e Integral III: Representaciones matriciales, eigenvalores y eigenvectores

Por Alejandro Antonio Estrada Franco

3 respuestas

Introducción

Como se ha mencionado anteriormente el objetivo de introducir ideas de álgebra lineal en cálculo diferencial es poder establecer una transformación lineal que sea la mejor aproximación lineal en un punto a una función dada. Esto nos ayudará a entender a la función dada en el punto en términos de otra función «más simple». Pero así mismo, las transformaciones lineales pueden ellas mismas pensarse en términos de transformaciones más sencillas. En esta entrada revisaremos esta idea y la conectaremos con la noción de eigenvectores.

Por un lado, recordaremos cómo es que una transformación lineal puede ser representada mediante una matriz una vez que se ha elegido una base del espacio vectorial. Luego, hablaremos de cómo elegir, de entre todas las bases, aquella que nos de una representación matricial lo más sencilla posible.

Representación matricial de las transformaciones lineales

Comencemos esta entrada repasando la importante relación entre transformaciones lineales y matrices. Denotaremos como $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ al espacio vectorial de transformaciones lineales de $\mathbb{R}^n$ a $\mathbb{R}^m$.

Si tomamos cualquier transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, entonces los valores de $T$ en cualquier vector de $\mathbb{R}^n$ quedan totalmente determinados por los valores de $T$ en los elementos de alguna base $\beta$ para $\mathbb{R}^n$. Tomemos $\gamma=\{\bar{w}_{1},\dots ,\bar{w}_{m}\}$ una base ordenada para $\mathbb{R}^m$, y $\beta=\{\bar{e}_{1},\dots ,\bar{e}_{n}\}$ una base ordenada para $\mathbb{R}^n$. Para cada $\bar{e}_{k}$ tenemos:

$$\begin{equation} T(\bar{e}_{k})=\sum_{i=1}^{m}t_{ik}\bar{w}_{i} \end{equation},$$

para algunos escalares $t_{1k},\dots ,t_{mk}$ que justo son las componentes de $T(\bar{e}_{k})$ en la base $\gamma$. Con estos escalares, podemos considerar la matriz: \[ \text{Mat}_{\gamma,\beta}(T)= \begin{pmatrix} t_{11} & \dots & t_{1n} \\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \]

Esta es llamada la representación matricial de la transformación $T$ con respecto a las bases $\beta$ y $\gamma$. Esta matriz ayuda a calcular $T$ en cualquier vector de $\mathbb{R}^n$ como explicamos a continuación.

Para cada $\bar{v}\in \mathbb{R}^n$, podemos expresarlo como combinación lineal de elementos de la base $\beta$ digamos que $\bar{v}=\sum_{i=1}^{n} v_{i}\bar{e}_{i}$. Mediante estos coeficientes, podemos entonces asociar a $\bar{v}$ al siguiente vector columna de $\mathbb{R}^n$ \[ [\bar{v}]_{\beta}=\begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}, \]

al que llamamos el vector de coordenadas de $\bar{v}$ con respecto a la base $\beta$.

Realicemos por un lado el siguiente cálculo:

\[ \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}=\begin{pmatrix} t_{11} & \dots & t_{1n}\\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}=\begin{pmatrix} \displaystyle\sum_{k=1}^{n}t_{1k}v_{k} \\ \vdots \\ \displaystyle\sum_{k=1}^{n}t_{mk}v_{k}.\end{pmatrix} \]

Por otro lado tenemos lo siguiente:

\begin{align*}
T(\bar{v})&=T \left( \sum_{k=1}^{n}v_{k}\bar{e}_{k} \right)\\&=\sum_{k=1}^{n}v_{k}T(\bar{e}_{k})\\&=\sum_{k=1}^{n}v_{k}T\left( \sum_{i=1}^{m}t_{ik}\bar{w}_{i} \right)\\&=\sum_{i=1}^{m}\left( \sum_{k=1}^{n}v_{k}t_{ik} \right)\bar{w}_{i}.
\end{align*}

Juntando ambos cálculos: \[ [T(\bar{v})]_{\gamma}=\begin{pmatrix} \sum_{k=1}^{n}v_{k}t_{1k} \\ \vdots \\ \sum_{k=1}^{n}v_{k}t_{mk} \end{pmatrix} = \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}.\]

En otras palabras, aplicar $T$ a un vector $\bar{v}$ equivale a multiplicar $\text{Mat}_{\gamma,\beta}$ por el vector columna asociado a $\bar{v}$ en la base $\beta$, en el sentido de que tras hacer este producto recuperamos el vector de coordenadas para $T(\bar{v})$ en la base $\gamma$.

Isomorfismo entre transformaciones lineales y matrices

Con las operaciones de suma y multiplicación por escalar que vimos en la entrada de Matrices, se tiene que $M_{m,n}\left( \mathbb{R} \right)$ es un espacio vectorial sobre $\mathbb{R}$. De igual manera $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ es un espacio vectorial sobre $\mathbb{R}$ con las siguientes operaciones:

Si $T$ y $U$ son dos transformaciones, la transformación $T+U$ es aquella que envía a todo vector $\bar{v}\in \mathbb{R}^n$ al vector $T(\bar{v})+U(\bar{v})$.
Si $r\in \mathbb{R}$ la transformación $rT$ es la que a todo $\bar{v}\in \mathbb{R}^n$ lo envía al vector $rT(\bar{v})$.

Queda como ejercicio que verifiques que esto dota efectivamente a $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ de la estructura de espacio vectorial.

A continuación veremos que estos dos espacios vectoriales son, prácticamente, el mismo. Lo que haremos es construir una función $$\Phi :M_{m,n}\left( \mathbb{R} \right) \to\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$$ que sea biyectiva y que preserve las operaciones de suma y de producto escalar.

Para ello, tomemos una base $\beta=\{\bar{e}_1,\ldots,\bar{e}_n\}$ de $\mathbb{R}^{n}$ y una base $\gamma=\{\bar{u}_1,\ldots,\bar{u}_m\}$ de $\mathbb{R}^m$. Tomemos una matriz $A\in M_{m,n}(\mathbb{R})$. Explicaremos a continuación cómo construir la transformación $\Phi(A)$, para lo cual diremos qué hace con cada elemento de la base $\beta$. Tomaremos aquella transformación lineal $T_A\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ tal que

$$T_A(\bar{e}_j)=\sum_{i=1}^n a_{ij} \bar{u}_i.$$

Tomamos entonces $\Phi(A)=T_A$. Veamos que $\Phi$ tiene todas las propiedades que queremos.

$\Phi$ es suprayectiva. Si tenemos una transformación $T:\mathbb{R}^n\to \mathbb{R}^m$, entonces por la construcción anterior se tiene que su forma matricial $A:=\text{Mat}_{\gamma,\beta}(T)$ justo cumple $T_A=T$, de modo que $\Phi(A)=T$.
$\Phi$ es inyectiva. Si $A$ y $B$ son matrices distintas, entonces difieren en alguna entrada, digamos $(i,j)$. Pero entonces $T_A$ y $T_B$ difieren ya que $T_A(\bar{e}_j)\neq T_B(\bar{e}_j)$ ya que en las combinaciones lineales creadas hay un coeficiente distinto. Así, $\Phi(A)\neq \Phi(B)$.
$\Phi $ es lineal. Para $r\in \mathbb{R}$, $A$ y $B$ matrices con entradas $a_{ij}$ y $b_{ij}$, respectivamente, se cumple que $\Phi \left( rA+B \right)=T_{(rA+B)}$ y entonces se satisface para cada $j=1,\dots ,n$ lo siguiente:
\begin{align*}
(rA+B)[\bar{e}_{j}]_{\beta}&=rA[\bar{e}_{j}]_{\beta}+B[\bar{e}_{j}]_{\beta}\\&=r[T_A(\bar{e}_{i})]_{\gamma}+[T_{B}(\bar{e}_{i})]_{\gamma}.
\end{align*}
Por tanto para cada $\bar{e}_{i}$ tenemos que $$T_{(rA+B)}(\bar{e}_{i})=rT_{A}(\bar{e}_{i})+T_{B}(\bar{e}_{i})$$ y en consecuencia $$T_{(rA+B)}=rT_{A}+T_{B}.$$ Así $$\Phi (rA+B)=r\Phi (A)+\Phi(B).$$

Todo lo anterior implica que $M_{m,n}\left( \mathbb{R} \right)\simeq \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, es decir, que ambos espacios vectoriales son isomorfos.

En búsqueda de una matriz sencilla

Por lo que hemos platicado hasta ahora, a cada transformación lineal le corresponde una matriz, y viceversa. De hecho, esta asociación respeta operaciones como la suma y el producto por escalar. Esta equivalencia está dada a partir de la función $\Phi$ encontrada en la sección anterior.

Si $\Phi $ es biyectiva, ¿por qué hablamos entonces de encontrar una representación matricial simple para una transformación lineal $T$? Esto parecería no tener sentido, pues a cada transformación le corresponde una y sólo una matriz. Sin embargo, esto es cierto únicamente tras haber fijado las bases $\beta$ y $\gamma$ para $\mathbb{R}^n$ y $\mathbb{R}^m$, respectivamente. Así, dependiendo de la elección de las bases las representaciones matriciales cambian y si tenemos una transformación lineal $T$, es posible que querramos encontrar bases $\beta$ y $\gamma$ en donde la representación matricial sea sencilla.

Nos enfocaremos únicamente en transformaciones lineales que van de un espacio vectorial a sí mismo. Tomemos entonces $T:\mathbb{R}^n\to \mathbb{R}^n$ y una base $\beta$ de $\mathbb{R}^n$. Por simplicidad, escribiremos $\text{Mat}_{\beta, \beta}(T)$ simplemente como $\text{Mat}_{\beta}(T)$. Hay propiedades de $T$ que podemos leer en su matriz $\text{Mat}_{\beta}(T)$ y que no dependen de la base $\beta$ que hayamos elegido. Si con una base $\beta$ especial resulta que $\text{Mat}_{\beta}(T)$ es muy sencilla, entonces podremos leer estas propiedades de $T$ muy fácilmente. Un ejemplo es la siguiente proposición, la cual queda como tarea moral.

Proposición. La transformación lineal $T:\mathbb{R}^n\to\mathbb{R}^n$ es invertible si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.

Si $A=\text{Mat}_{\beta}(T)$ fuera muy muy sencilla, por ejemplo, si fuera una matriz diagonal, entonces podríamos saber la invertibilidad de $T$ sabiendo la invertibilidad de $A$, y la de $A$ sería muy fácil de ver pues por ser matriz diagonal bastaría hacer el producto de las entradas de su diagonal para obtener su determinante y estudiar si es distinto de cero.

Motivados por el ejemplo anterior, estudiemos la siguiente pregunta: ¿toda transformación lineal se puede representar con una matriz diagonal? Si una transformación lineal se puede representar de esta manera, diremos que es diagonalizable.

Eigenvalores, eigenvectores y eigenespacios

En lo que sigue repasaremos el aparato conceptual que nos permitirá dar una respuesta parcial de cuándo una matriz es diagonalizable. Un tratamiento mucho más detallado se puede encontrar aquí en el blog, en el curso de Álgebra Lineal II, comenzando con la entrada Eigenvectores y eigenvalores.

Para nuestro repaso, debemos introducir algunos conceptos y estudiarlos.

Definición. Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal. Diremos que un escalar $r \in \mathbb{R}$ es un eigenvalor de $T$ si existe $\bar{v}\in \mathbb{R}^n\setminus\{ \bar{0} \}$ tal que $T(\bar{v})=r\bar{v}$. A dicho vector $\bar{v}$ le llamaremos un eigenvector de $T$ con eigenvalor asociado $r$.

Dado un eigenvector $\bar{v}\in \mathbb{R}^n$, sólo hay un eigenvalor correspondiente a éste. Si $T(\bar{v})=r\bar{v}$ y $T(\bar{v})=t\bar{v}$, entonces $r\bar{v}=t\bar{v}$ de donde $(r-t)\bar{v}=\bar{0}$. Como $\bar{v}\neq \bar{0}$, se sigue que $r=t$.

Por otro lado, para un eigenvalor $r$ puede haber más de un eigenvector con eigenvalor asociado $r$. Consideremos para un eigenvalor $r$ el conjunto $E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$. Notemos que $\bar{0}\in E(r)$ y también todos los eigenvectores de $r$ están en $E(r)$. Además, $E(r)$ es un subespacio de $\mathbb{R}^n$, pues si $\bar{u},\bar{v} \in E(r)$, y $a\in \mathbb{R}$, tenemos

\begin{align*}
T(a\bar{u}+\bar{v})&=aT(\bar{u})+T(\bar{v})\\
&=a(r\bar{u})+(r\bar{v})\\
&=r(a\bar{u}+\bar{v}),
\end{align*}

lo cual implica que $a\bar{u}+\bar{v} \in E(r)$.

Definición. Para una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ y un eigenvalor $r$ de $T$ llamaremos a

$$E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$$

el eigenespacio de $T$ correspondiente a $r$.

Cuando tenemos eigenvectores correspondientes a eigenvalores distintos, cumplen algo especial.

Proposición. Si $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son eigenvectores de una transformación lineal $T:\mathbb{R}^n \rightarrow \mathbb{R}^n$ con eigenvalores correspondientes $r_{1}, \dots ,r_{l}$ distintos entonces $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

Demostración. La ruta para establecer la demostración de este teorema será por inducción sobre $l$. Para un conjunto con sólo un eigenvector el resultado es evidente (¿por qué?). Supongamos cierto para cualquier subconjunto de $l-1$ eigenvectores que pertenecen a eigenespacios distintos. Sean $\bar{v}_{1}, \dots ,\bar{v}_{l}$ eigenvectores en distintos eigenespacios y consideremos $\alpha _{1}, \dots ,\alpha_{l}$ escalares tales que:

\begin{equation}
\label{eq:comb-cero}
\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}=\bar{0}.
\end{equation}

Aplicamos $T$ a la igualdad anterior. Usando que cada $\bar{v}_{k}$ es eigenvector correspondiente al eigenvalor $r_{k}$ obtenemos:

\begin{align*}
\bar{0}=T(\bar{0})&=T\left(\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k} \right)\\&=\sum_{k=1}^{l}\alpha _{k}T(\bar{v}_{k})\\&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}.
\end{align*}

Es decir,

\begin{equation}
\label{eq:aplicarT}
\textbf{0}=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}
\end{equation}

Multipliquemos \eqref{eq:comb-cero} por $r_{l}$ y restemos el resultado de \eqref{eq:aplicarT} para obtener que

\begin{align*}
\bar{0}=\bar{0}-\bar{0}&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}-r_{l}\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}\\&=\sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}.
\end{align*}

Tenemos entonces:

\[ \sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}=\bar{0}.\]

Ya que por hipótesis de inducción $\bar{v}_{1}, \dots ,\bar{v}_{l-1}$ son linealmente independientes entonces $\alpha _{k}(r_{k}-r_{l})=0$ para todo $k$, pero los eigenvalores son todos distintos entre sí por lo tanto para todo $k$ de $1$ a $l-1$ se tiene $r_{k}-r_{l}\neq 0$ y así $\alpha _{k}=0$. Finalmente, usando \eqref{eq:comb-cero} obtenemos $\alpha_l=0$. Por lo tanto $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

$\square$

Eigenvectores y transformaciones diagonalizables

Recuerda que dijimos que una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ es diagonalizable si existe una base $\beta$ de $\mathbb{R}^n$ tal que $\text{Mat}_{\beta}(T)$ es una matriz diagonal. El siguiente resultado conecta las dos ideas que hemos estado explorando: los eigenvectores y la representabilidad sencilla de $T$.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ transformación lineal. Una matriz $T$ es diagonalizable si y sólo si existe una base de $\mathbb{R}^n$ conformada por eigenvectores de $T$.

En realidad la demostración consiste únicamente en entender correctamente cómo se construyen las matrices para una base dada.

Demostración. $\Rightarrow )$ Supongamos que $T$ tiene una representación matricial que es una matriz diagonal $A:=\text{Mat}_{\beta}(T)=\text{diag}(r_{1}, \dots ,r_{n})$ con respecto a la base $\beta=\{\bar{v}_{1}, \dots ,\bar{v}_{n}\}$. Afirmamos que para cada $j=1,\ldots,n$ se tiene $\bar{v}_j$ es eigevector de eigenvalor $r_j$. En efecto, la forma en la que se construyó la matriz $A$ nos dice que

\begin{align*}
T(\bar{e}_j)&=\sum_{i=1}^n a_{ij} \bar{e}_i \\&= a_{jj} \bar{e}_j \\&= r_j \bar{e}_j,
\end{align*}

en donde estamos usando que las entradas $a_{ij}$ de la matriz son cero si $i\neq j$ (por ser diagonal), y son $r_j$ si $i=j$. Por supuesto, como $\bar{e}_j$ forma parte de una base, tampoco es el vector cero. Así, $\bar{e}_j$ es eigenvector de eigenvalor $\bar{e}_j$.

$\Leftarrow )$ Supongamos ahora que $\bar{v}_{1},\dots ,\bar{v}_{n}$ son una base $\beta$ de $\mathbb{R}^n$ conformada por eigenvectores de $T$ con eigenvalores asociados, digamos, $r_{1},\dots ,r_{n}$. Aquí se puede mostrar que $\text{Mat}_\beta(T)$ es diagonal. Queda como tarea moral hacer las cuentas.

$\square$

Hay una situación particular en la que podemos aprovechar el teorema anterior de manera inmediata: cuando la transformación tiene $n$ eigenvalores distintos. Esta consecuencia queda establecida en el siguiente resultado.

Corolario. Toda transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ tiene a lo más $n$ eigenvalores distintos. Si $T$ tiene exactamente $n$ eigenvalores distintos, entonces los eigenvectores correspondientes forman una base para $\mathbb{R}^n$ y la matriz de $T$ relativa a esa base es una matriz diagonal con los eigenvalores como elementos diagonales.

Demostración. Queda como tarea moral. Como sugerencia, recuerda que mostramos arriba que los eigenvectores de eigenvalores distintos son linealmente independientes.

$\square$

Al parecer los eigenvalores, eigenvectores y eigenespacios de una transformación lineal son cruciales para poder expresarla de manera sencilla. ¿Cómo los encontramos? Esto lo veremos en la siguiente entrada.

Antes de concluir, mencionamos que hay otro teorema crucial sobre diagonalización de matrices. Diremos que una matriz $P\in M_n(\mathbb{R})$ es ortogonal si $P^tP=I$.

Teorema (el teorema espectral). Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces, existe una matriz ortogonal $P$ tal que $PAP^t$ es una matriz diagonal.

El teorema anterior nos dice no únicamente que la matriz $A$ es diagonalizable, sino que además es diagonalizable mediante un tipo muy especial de matrices. Un estudio y demostración de este teorema queda fuera de los alcances de nuestro curso, pero puedes revisar, por ejemplo la entrada teorema espectral del curso de Álgebra Lineal I que tenemos en el blog.

Más adelante…

Lo que haremos en la siguiente entrada es desarrollar un método para conocer los eigenvalores de una matriz. A partir de ellos podremos encontrar sus eigenvectores. Y en ciertos casos especiales, esto nos permitirá mostrar que la transformación es diagonalizable y, de hecho, nos dará la base para la cual la matriz asociada es diagonal.

Tarea moral

Considera la transformación lineal de $\mathbb{R}^{3}$ en $\mathbb{R}^{2}$, dada como $T(x,y,z)=(x+y,z+y)$. Encuentra su representación matricial con las bases canónicas de $\mathbb{R}^3$ y $\mathbb{R}^2$. Luego, encuentra su representación matricial con las bases $\{(1,2,3),(1,0,1),(0,-1,0)\}$ de $\mathbb{R}^3$ y $\{(1,1),(1,-1)\}$ de $\mathbb{R}^2$.
Considera la siguiente matriz: \[ \begin{pmatrix} 1 & 0 & 2 & 3 \\ 0 & -1 & 0 & 2 \\ \end{pmatrix}\] Da una transformación lineal $T:\mathbb{R}^4\to \mathbb{R}^2$ y ciertas bases $\beta$ de $\mathbb{R}^4$ y $\gamma$ de $\mathbb{R}^2$ para las cuales esta matriz sea la representación matricial de $T$ en las bases $\beta$ y $\gamma$.
Fija bases $\beta$, $\gamma$ y $\delta$ para $\mathbb{R}^n$, $\mathbb{R}^m$ y $\mathbb{R}^l$. Considera dos transformaciones lineales $T:\mathbb{R}^n\to \mathbb{R}^m$ y $S:\mathbb{R}^m\to \mathbb{R}^l$. Demuestra que:
$$\text{Mat}_{\delta, \beta} (S \circ T) = \text{Mat}_{\delta,\gamma}(S) \text{Mat}_{\gamma, \beta} (T).$$
En otras palabras que la «composición de transformaciones corresponde al producto de sus matrices».
Sea $T:\mathbb{R}^n\to\mathbb{R}^n$ una transformación lineal y $\beta$ una base de $\mathbb{R}^n$. Demuestra que $T$ es biyectiva si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.
Verifica que los vectores $\bar{v}_1,\ldots,\bar{v}_n$ dados en el último teorema en efecto ayudan a dar una representación matricial diagonal para $T$.
La demostración del último corolario es un conjunto de sencillas consecuencias de las definiciones y teoremas desarrollados en esta entrada con respecto a los eigenvalores y eigenvectores. Realiza esta demostración.

Entradas relacionadas

Ir a Cálculo Diferencial e Integral III
Entrada anterior del curso: Sistemas de ecuaciones lineales
Entrada siguiente del curso: Polinomio característico

Álgebra Lineal II: Matrices y transformaciones nilpotentes

Por Elizabeth Chalnique Ríos Alvarado

2 respuestas

Introducción

Hemos estudiado varias clases importantes de matrices y transformaciones lineales: diagonales, triangulares superiores, simétricas, ortogonales, normales, etc. Es momento de aprender sobre otro tipo fundamental de matrices y transformaciones lineales: las transformaciones nilpotentes. Nos hemos encontrado con estas matrices ocasionalmente a lo largo del primer curso de álgebra lineal y de éste. Ahora las trataremos de manera más sistemática.

Matrices y transformaciones nilpotentes

En la última unidad estuvimos trabajando únicamente en $\mathbb{R}$ o en $\mathbb{C}$. Los resultados que presentaremos a continuación son válidos para espacios vectoriales sobre cualquier campo $F$.

Definición. Sea $A$ una matriz en $M_n(F)$. Diremos que $A$ es nilpotente si $A^m = O_n$ para algún entero positivo $m$. Al menor entero positivo $m$ para el cual suceda esto le llamamos el índice de $A$.

Ejemplo 1. La matriz $A=\begin{pmatrix} 3 & -9\\ 1 & -3\end{pmatrix}$ es nilpotente. En efecto, tenemos que $A^2=\begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}$. Como $A^1\neq 0$, entonces el índice de $A$ es igual a dos.

$\triangle$

Tenemos una definición correspondiente para transformaciones lineales.

Definición. Sea $V$ un espacio vectorial sobre un campo $F$ y sea $T: V \to V$ una transformación lineal. Diremos que que $T$ es nilpotente si $T^m$ es la transformación lineal cero para algún entero positivo $m$. Al menor entero positivo $m$ para el cual suceda esto le llamamos el índice de $T$.

Recuerda que por definición $T^m$ es la transformación $T$ compuesta consigo misma $m$ veces.

Ejemplo 2. Si estamos trabajando en el espacio $V=\mathbb{R}_n[x]$ de polinomios reales de grado a lo más $n$, entonces la transformación derivada $D:V\to V$ para la cual $D(p)=p’$ es una transformación lineal nilpotente. En efecto, tras aplicarla $n+1$ veces a cualquier polinomio de grado a lo más $n$ obtenemos al polinomio $0$. Su índice es exactamente $n+1$ pues derivar $n$ veces no anula al polinomio $x^n$ de $V$.

Si estuviéramos trabajando en el espacio vectorial $\mathbb{R}[x]$ de todos los polinomios reales, entonces la transformación derivada ya no sería nilpotente. En efecto, para cualquier $m$ siempre existe un polinomio tal que al derivarlo $m$ veces no se anula.

$\triangle$

Bloques de Jordan de eigenvalor cero

Hay una familia importante de matrices nilpotentes.

Definición. Sea $F$ un campo. El bloque de Jordan de eigenvalor $0$ y tamaño $k$ es la matriz $J_{0,k}$ en $M_k(F)$ cuyas entradas son todas cero, a excepción de las que están inmediatamente arriba de la diagonal superior, las cuales son unos. En símbolos, $J_{0,k}=[a_{ij}]$ con $$a_{ij}=\begin{cases} 1 & \text{si $j=i+1$}\\ 0 & \text{en otro caso.} \end{cases}$$

También podemos expresarlo de la siguiente manera:

$$J_{0,k}=\begin{pmatrix} 0 & 1 & 0 & \cdots & 0 & 0 \\ 0 & 0 & 1 & \cdots & 0 & 0 \\ 0 & 0 & 0 & \cdots & 0 & 0 \\ & \vdots & & \ddots & & \vdots \\ 0 & 0 & 0 & \cdots & 0 & 1 \\ 0 & 0 & 0 & \cdots & 0 & 0 \end{pmatrix},$$ en donde estamos pensando que la matriz es de $k\times k$.

Ejemplo 3. A continuación tenemos la matriz $J_{0,4}$:

\begin{align*}
J_{0,4}=\begin{pmatrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0\end{pmatrix}
\end{align*}

Esta es una matriz nilpotente. En efecto, haciendo las cuentas de matrices correspondientes tenemos que:

\begin{align*}
J_{0,4}^2&= \begin{pmatrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0\end{pmatrix} \begin{pmatrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0\end{pmatrix}\\
&=\begin{pmatrix} 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0\end{pmatrix}
\end{align*}

Luego que

\begin{align*}
J_{0,4} ^3&= J_{0,4} J_{0,4}^2\\
&=\begin{pmatrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0\end{pmatrix} \begin{pmatrix} 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0\end{pmatrix} \\
&=\begin{pmatrix} 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0\end{pmatrix}
\end{align*}

Y finalmente que

\begin{align*}
J_{0,4}^4&= J_{0,4} J_{0,4}^3\\
&=\begin{pmatrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0\end{pmatrix} \begin{pmatrix} 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0\end{pmatrix} \\
&=\begin{pmatrix} 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0\end{pmatrix}
\end{align*}

De esta manera, hay una potencia de $ J_{0,4}$ que se hace igual a cero. Como la mínima potencia es $4$, entonces $ J_{0,4} $ es nilpotente de índice $4$. Observa cómo la diagonal de unos «se va recorriendo hacia arriba a la derecha».

$\triangle$

Todos los bloques de Jordan son nilpotentes

El siguiente resultado generaliza el ejemplo anterior y nos da una mejor demostración, interpretando a la matriz como transformación lineal.

Teorema. La matriz $J_{0,k}$ es nilpotente de índice $k$.

Demostración. Veamos qué hace la matriz $J_{0,k}$ cuando la multiplicamos por un vector: $$J_{0,k}\begin{pmatrix} x_1 \\ x_2 \\ x_3 \\ \vdots \\ x_{k-1} \\ x_k \end{pmatrix}= \begin{pmatrix} 0 & 1 & 0 & \cdots & 0 & 0 \\ 0 & 0 & 1 & \cdots & 0 & 0 \\ 0 & 0 & 0 & \cdots & 0 & 0 \\ & \vdots & & \ddots & & \vdots \\ 0 & 0 & 0 & \cdots & 0 & 1 \\ 0 & 0 & 0 & \cdots & 0 & 0 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \\ \vdots \\ x_{k-1} \\ x_k \end{pmatrix} = \begin{pmatrix} x_2 \\ x_3 \\ x_4 \\ \vdots \\ x_k \\ 0 \end{pmatrix}.$$

En otras palabras, la matriz $J_{0,k}$ «recorre» las entradas del vector hacia arriba «empujando» con ceros desde abajo. Al hacer esto $k$ veces, claramente llegamos al vector $0$, así, $J_{0,k}^k$ está asociada a la transformación lineal cero y por lo tanto es la matriz $O_k$. Y $J_{0,k}^{k-1}$ no es la matriz cero pues al aplicarla en $e_k$, el $k$-ésimo vector de la base canónica de $F^k$ tenemos por las mismas ideas de arriba que $J_{0,k}^{k-1}e_n=e_1$.

$\square$

Una caracterización de matrices y transformaciones nilpotentes

El siguiente resultado nos da algunas equivalencias para que una transformación sea nilpotente.

Proposición. Sea $A\in M_n(F)$ una matriz. Todo lo siguiente es equivalente:

$A$ es nilpotente.
El polinomio mínimo de $A$ es de la forma $\mu_A(X)=X^k$.
El polinomio característico de $A$ es $\chi_A(X)=X^n$.

Demostración. $1)\Rightarrow 2).$ Si $A$ es nilpotente, entonces hay un entero $m$ tal que $A^m=O_n$. Entonces, el polinomio $p(X)=X^m$ anula a la matriz $A$. Pero el polinomio mínimo divide a cualquier polinomio que anule a $A$, entonces $\mu_A(X)|X^m$, de donde $\mu_A(X)$ debe ser también de la forma $X^k$. De hecho, no puede suceder que $k<m$ pues en dicho caso como el polinomio mínimo anula a la matriz, tendríamos que $A^k=O_n$, pero esto es imposible pues $m$ es el menor entero tal que $A^m=O_n$. Así, en este caso $k$ es justo el índice de $A$.

$2) \Rightarrow 3).$ Supongamos que el polinomio mínimo de $A$ es de la forma $\mu_A(X)=X^k$. Como el polinomio mínimo anula a la matriz tenemos que $A^k=O_n$. Tomemos un escalar $\lambda$ en $F$ fijo. Tenemos que:

\begin{align*}
\lambda^k I_n &= \lambda^k I_n – A^{k}\\&= (\lambda I_n – A)(\lambda^{k-1}I_n+\lambda^{k-2}A + \ldots + \lambda A^{k-2} + A^{k-1})
\end{align*}

Al tomar determinante de ambos lados y usando en la derecha la multiplicatividad del determinante, tenemos:

$$\det(\lambda^k I_n) = \det(\lambda I_n – A)\det(\lambda^{k-1}I_n+\lambda^{k-2}A + \ldots + \lambda A^{k-2} + A^{k-1}).$$

Del lado izquierdo tenemos $\det(\lambda^k I_n)=\lambda^{nk}$. Del lado derecho tenemos $\chi_A(\lambda)$ multiplicado por otra expresión polinomial en $\lambda$, digamos $P(\lambda)$. Como esto se vale para todo escalar $\lambda$, se vale polinomialmente que $X^{nk}=\chi_A(X)P(X)$. Así, $\chi_A(X)|X^{nk}$ y como el polinomio característico es de grado exactamente $n$, obtenemos que $\chi_A(X)=X^n$.

$3) \Rightarrow 1).$ Si el polinomio característico de $A$ es $\chi_A(X)=X^n$, entonces por el teorema de Cayley-Hamilton tenemos que $A^n=O_n$, de donde $A$ es nilpotente.

$\square$

Como consecuencia del teorema anterior, obtenemos los siguientes resultados.

Corolario. Si $A$ es una matriz nilpotente en $M_n(F)$, entonces $A^n=O_n$ y por lo tanto el índice de $A$ es menor o igual a $n$. Análogamente, si $T:V\to V$ es nilpotente y $\dim(V)=n$, entonces el índice de $T$ es menor o igual a $n$.

Corolario. Si $A$ es una matriz nilpotente en $M_n(F)$, entonces su traza, su determinante y cualquier eigenvalor son todos iguales a cero.

Más adelante…

En esta entrada definimos a las matrices y transformaciones nilpotentes. También enunciamos algunas de sus propiedades. En la siguiente entrada enunciaremos nuestra primer versión del teorema de Jordan, en donde nos enfocaremos únicamente en lo que nos dice para las matrices nilpotentes. Esto servirá más adelante como uno de los peldaños que usaremos para demostrar el teorema de Jordan en general.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

Encuentra una matriz nilpotente de índice $2$ en $M_7(\mathbb{R})$. En general, para cualquier entero positivo $n$ y cualquier entero $k$ con $1\leq k \leq n$, da una forma de construir una matriz nilpotente de índice $n$ en $M_n(\mathbb{R})$.
Encuentra una matriz con determinante cero y que no sea una matriz nilpotente. Encuentra una matriz con traza cero y que no sea una matriz nilpotente.
Sea $V$ un espacio vectorial de dimensión finita $n$. Demuestra que las siguientes afirmaciones son equivalentes:
1. Una transformación $T:V\to V$ es nilpotente de índice $k$.
2. Alguna forma matricial de $T$ es nilpotente de índice $k$.
3. Todas las formas matriciales de $T$ son nilpotentes de índice $k$.
4. $T^n$ es la transformación lineal $0$.
Demuestra los dos corolarios al final de la entrada. Como sugerencia para el segundo, recuerda que la traza, determinante y los eigenvalores de una matriz están muy relacionados con su polinomio característico.
Prueba que la única matriz nilpotente diagonalizable en $M_n(F)$ es $O_n$.

Entradas relacionadas

Ir a Álgebra Lineal II
Entrada anterior del curso: Introducción a forma canónica de Jordan
Siguiente entrada del curso: Existencia de forma de Jordan para nilpotentes

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Unicidad de la forma de Jordan para nilpotentes

Por Leonardo Ignacio Martínez Sandoval

Deja un comentario

Introducción

En la entrada anterior enunciamos el teorema de la forma canónica de Jordan para matrices nilpotentes. Demostramos una parte: la existencia de la forma canónica de Jordan. Para ello, nos enfocamos en el teorema en su versión en términos de transformaciones lineales. En esta entrada nos enfocaremos en demostrar la unicidad de la forma canónica de Jordan. Curiosamente, en este caso será un poco más cómodo trabajar con la forma matricial del teorema. Para recordar lo que queremos probar, volvemos a poner el enunciado del teorema a continuación. Lo que buscamos es ver que los enteros $k_1,\ldots, k_d$ que menciona el teorema son únicos.

Teorema. Sea $A$ una matriz nilpotente en $M_n(F)$. Entonces existen únicos enteros $k_1,\ldots,k_d$ tales que \begin{align*} &k_1+k_2+\ldots+k_d = n,\\ &k_1\leq k_2 \leq \ldots \leq k_d,\end{align*} y para los cuales $A$ es similar a la siguiente matriz de bloques: $$\begin{pmatrix} J_{0,k_1} & 0 & \cdots & 0 \\ 0 & J_{0,k_2} & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & J_{0,k_d}\end{pmatrix}.$$

Nuestra estrategia para mostrar la unicidad será el estudio del rango de las potencias de $A$. Si $A$ es similar una matriz en forma canónica $J$, entonces existe $P$ invertible tal que $A=P^{-1}JP$, de donde se puede mostrar indutivamente que $A^k=P^{-1}J^kP$, mostrando que $A^k$ y $J^k$ son similares. Además, sabemos por teoría anterior que matrices similares tienen el mismo rango. De modo que si $A$ es similar a $J$ entonces todas las potencias de $A$ tienen el mismo rango que todas las potencias de $J$. Con esta idea en mente estudiaremos cómo es el rango de matrices de bloques de Jordan de eigenvalor cero.

Rango de potencias de bloques de Jordan

Claramente el rango del bloque de Jordan $J_{0,n}$ es $n-1$, pues ya está en forma escalonada reducida y tiene $n-1$ vectores distintos de cero. El siguiente resultado generaliza esta observación.

Proposición. Sea $n$ un entero positivo, $F$ un campo y $J_{0,n}$ el bloque de Jordan de eigenvalor $0$ y tamaño $n$ en $M_n(F)$. Para $k=1,\ldots,n$ se tiene que el rango de $J_{0,n}^k$ es igual a $n-k$. Para valores de $k$ más grandes, el rango es igual a cero.

Demostración. Si $e_1,\ldots,e_n$ es la base canónica de $F^n$, tenemos que $J_{0,n}e_i=e_{i-1}$ para $i=2,\ldots,n$ y $J_{0,n}e_1=0$. De manera intuitiva, la multiplicación matricial por $J_{0,n}$ va «desplazando los elementos de la base $e_1,\ldots,e_n$ a la izquierda, hasta sacarlos». De este modo, $J_{0,n}^k$ para $k=1,\ldots,n$ hace lo siguiente:

$$J_{0,n}^k e_i=\begin{cases} 0 & \text{para $k\geq i$}\\ e_{i-k} & \text{para $k\leq i-1$.}\end{cases}$$

Así, $J_{0,n}^k$ manda a la base $e_1,\ldots,e_n$ a los vectores $e_1,\ldots,e_{n-k}$ y a $k$ copias del vector cero. Como los primeros son $n-k$ vectores linealmente independientes, obtenemos que el rango de $J_{0,n}^k$ es $n-k$.

Para valores de $k$ más grandes la potencia se hace la matriz cero, así que su rango es cero.

$\square$

Rango de potencias de matrices de bloques de Jordan

¿Qué sucede si ahora estudiamos el rango de las potencias de una matriz de bloques de Jordan? Consideremos, por ejemplo, la siguiente matriz, en donde $k_1,\ldots,k_d$ son enteros positivos de suma $n$ y con $k_1\leq \ldots \leq k_d$:

$$J=\begin{pmatrix} J_{0,k_1} & 0 & \cdots & 0 \\ 0 & J_{0,k_2} & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & J_{0,k_d}\end{pmatrix}.$$

Por un lado, es sencillo elevar esta matriz a potencias, pues simplemente los bloques se elevan a las potencias correspondientes. En símbolos:

$$J^r=\begin{pmatrix} J_{0,k_1}^r& 0 & \cdots & 0 \\ 0 & J_{0,k_2}^r& \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & J_{0,k_d}^r\end{pmatrix}.$$

¿Cuál es el rango de esta potencia? Nos conviene cambiar un poco de notación. En vez de considerar a los $k_i$ por separado, los agruparemos de acuerdo a su valor, que puede ir de $1$ a $n$. Así, para cada $j=1,\ldots,n$ definimos $m_j$ como la cantidad de valores $k_i$ iguales a $j$. Bajo esta notación, la igualdad $k_1+\ldots+k_d=n$ se puede reescribir como $$m_1+2m_2+3m_3+\ldots+nm_n=n.$$

Una primera observación es que el rango de $J$ es simplemente la suma de los rangos de cada una de las $J_{0,k_i}$. Cada una de éstas contribuye con rango $k_i-1$. Así, en términos de las $m_j$ tenemos lo siguiente:

\begin{align*}
\text{rango}(J)&=\sum_{i=1}^d (k_i-1)\\
&=\sum_{j=1}^n (j-1) m_j \\
&=0\cdot m_1 + 1\cdot m_2 + 2 \cdot m_3 + \ldots + (n-1) \cdot m_n.
\end{align*}

De manera similar,

\begin{align*}
\text{rango}(J^r)&=\sum_{i=1}^d \text{rango}(J_{0,k_i}^r)\\
&=\sum_{j=1}^n m_j \text{rango}(J_{0,j}^r).
\end{align*}

El término $\text{rango}(J_{0,j}^r)$ lo podemos calcular con la proposición de la sección anterior, cuidando la restricción entre el tamaño y las potencias que queremos. De aquí y de la restricción original para la las $m_j$ salen todas las siguientes igualdades:

\begin{align*}
n&= 1\cdot m_1 + 2\cdot m_2 + 3 \cdot m_3 + \ldots + n \cdot m_n\\
\text{rango}(J)&=0\cdot m_1 + 1\cdot m_2 + 2 \cdot m_3 + \ldots + (n-1) \cdot m_n\\
\text{rango}(J^2)&= 0 \cdot m_1 + 0 \cdot m_2 + 1 \cdot m_3 + \ldots + (n-2)\cdot m_n\\
\text{rango}(J^3)&= 0 \cdot m_1 + 0 \cdot m_2 + 0 \cdot m_3 + \ldots + (n-3)\cdot m_n\\
&\vdots\\
\text{rango}(J^{n-1})&= 0\cdot m_1 + 0 \cdot m_2 + 0 \cdot m_3 + \ldots + 1 \cdot m_n.
\end{align*}

A partir de aquí el rango de $J^n$ es $0$. Esto nos da una manera de entender con mucha precisión el rango de cualquier potencia de una matriz diagonal por bloques hecha con bloques de Jordan.

Unicidad de la forma canónica de Jordan

Estamos listos para justificar la unicidad de la forma canónica de Jordan. Una matriz diagonal por bloques hecha por bloques de Jordan queda totalmente determinada por los valores de $m_j$ de la sección anterior. Supongamos que $A$ tiene como forma canónica de Jordan tanto a una matriz $J$ con valores $m_j$, como a otra matriz $J’$ con valores $m_j’$.

Como dos matrices similares cumplen que sus potencias son todas del mismo rango, entonces para cualquier $r$ de $1$ a $n-1$ se cumple que $$\text{rango}(J^r)=\text{rango}(A^r)=\text{rango}(J’^r).$$ Así, tanto $(m_1,\ldots,m_n)$ como $({m_1}’,\ldots,{m_n}’)$ son soluciones al siguiente sistema de ecuaciones en variables $x_1,\ldots,x_n$.

\begin{align*}
n&= 1\cdot x_1 + 2\cdot x_2 + 3 \cdot x_3 + \ldots + n \cdot x_n\\
\text{rango}(A)&=0\cdot x_1 + 1\cdot x_2 + 2 \cdot x_3 + \ldots + (n-1) \cdot x_n\\
\text{rango}(A^2)&= 0 \cdot x_1 + 0 \cdot x_2 + 1 \cdot x_3 + \ldots + (n-2)\cdot x_n\\
\text{rango}(A^3)&= 0 \cdot x_1 + 0 \cdot x_2 + 0 \cdot x_3 + \ldots + (n-3)\cdot x_n\\
&\vdots\\
\text{rango}(A^{n-1})&= 0\cdot x_1 + 0 \cdot x_2 + 0 \cdot x_3 + \ldots + 1 \cdot x_n.
\end{align*}

Pero este es un sistema de $n$ ecuaciones en $n$ variables y con matriz asociada de determinante $1$, así que su solución es única. Esto muestra que $(m_1,\ldots,m_n)=({m_1}’,\ldots,{m_n}’)$. Entonces, en $J$ y $J’$ aparecen la misma cantidad de bloques de cada tamaño. Como además los bloques van de tamaño menor a mayor tanto en $J$ como en $J’$, concluimos que $J=J’$.

Como consecuencia de toda esta discusión, obtenemos de hecho lo siguiente.

Corolario. Dos matrices nilpotentes son semejantes si y sólo si tienen la misma forma canónica de Jordan. Distintas formas canónicas de Jordan dan distintas clases de semejanza.

Una receta para encontrar la forma canónica de Jordan de nilpotentes

La demostración anterior no sólo demuestra la unicidad de la forma canónica de Jordan. Además, nos dice exactamente cómo obtenerla. Para ello:

Calculamos todas las potencias de $A$ hasta $n-1$.
Usando reducción gaussiana (o de otro modo), calculamos el rango de cada una de estas potencias.
Resolvemos el sistema de ecuaciones en variables $x_j$ de la sección anterior.
La forma canónica de Jordan de $A$ tiene $x_j$ bloques de tamaño $j$, que debemos colocar en orden creciente de tamaño.

Ejemplo. Consideremos la siguiente matriz en $M_7(\mathbb{R})$: $$C=\begin{pmatrix}-27 & 266 & 1 & -37 & 135 & -125 & 53\\217 & -1563 & 118 & 33 & -1251 & 1020 & 361\\236 & -1784 & 188 & 16 & -1512 & 1234 & 585\\11 & -10 & -25 & 12 & 28 & -29 & -80\\-159 & 1133 & -114 & -98 & 878 & -690 & -232\\197 & -1409 & 88 & -19 & -1151 & 952 & 348\\-230 & 1605 & -179 & -100 & 1316 & -1031 & -440\end{pmatrix}$$

Sus números son muy complicados, sin embargo, nos podemos auxiliar de herramientas computacionales para encontrar sus potencias. Soprendentemente esta es una matriz nilpotente de índice $3$ pues:

$$C^2=\begin{pmatrix}0 & -10209 & -3403 & -6806 & -6806 & 10209 & 0\\0 & 14691 & 4897 & 9794 & 9794 & -14691 & 0\\0 & 2739 & 913 & 1826 & 1826 & -2739 & 0\\0 & 7221 & 2407 & 4814 & 4814 & -7221 & 0\\0 & -14193 & -4731 & -9462 & -9462 & 14193 & 0\\0 & 10956 & 3652 & 7304 & 7304 & -10956 & 0\\0 & -11952 & -3984 & -7968 & -7968 & 11952 & 0\end{pmatrix}$$

$$C^3=\begin{pmatrix}0 & 0 & 0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 0 & 0 & 0\end{pmatrix}.$$

Usando reducción gaussiana, o herramientas computacionales, obtenemos que el rango de $C$ es $4$ y que el rango de $C^2$ es $2$. A partir de $k\geq 3$ obtenemos que $\text{rango}(C^k)=\text{rango}(O_7)=0$. Si queremos encontrar la forma canónica de Jordan de $C$, necesitamos entonces resolver el siguiente sistema de ecuaciones, que nos dirá cuántos bloques $x_j$ de tamaño $j$ hay:

\begin{align*}
7&= x_1+2x_2+3x_3+4x_4+5x_5+6x_6+7x_7\\
4&=x_2 + 2x_3 + 3x_4+4x_5+5x_6+6x_7\\
2&= x_3 + 2x_4+3x_5+4x_6+5x_7 \\
0&= x_4+2x_5+3x_6+4x_7\\
0 &= x_5+2x_6+3x_7\\
0&= x_6+2x_7\\
0&= x_7
\end{align*}

Para resolverlo lo mejor es proceder «de abajo hacia arriba». Las últimas cuatro ecuaciones nos dicen que $x_7=x_6=x_5=x_4=0$. Así, el sistema queda un poco más simple, como:

\begin{align*}
7&= x_1+2x_2+3x_3\\
4&=x_2 + 2x_3\\
2&= x_3.
\end{align*}

De la última igualdad, tenemos $x_3=2$, lo que nos dice que la forma canónica de Jordan tendría dos bloques de tamaño $3$. Sustituyendo en la penúltima igualdad obtenemos que $4=x_2+4$, de donde $x_2=0$. Así, no tendremos ningún bloque de tamaño $2$. Finalmente, sustituyendo ambos valores en la primera igualdad obtenemos que $7=x_1+0+6$. De aquí obtenemos $x_1=1$, así que la forma canónica de Jordan tendrá un bloque de tamaño $1$. En resumen, la forma canónica de Jordan es la matriz $$\begin{pmatrix} J_{0,1} & 0 & 0 \\ 0 & J_{0,3} & 0 \\ 0 & 0 & J_{0,3}\end{pmatrix}.$$ Explícitamente, ésta es la siguiente matriz:

$$\begin{pmatrix} 0& 0 & 0 & 0 & 0 & 0 & 0 \\ 0& 0 & 1 & 0 & 0 & 0 & 0 \\ 0& 0 & 0 & 1 & 0 & 0 & 0 \\ 0& 0 & 0 & 0 & 0 & 0 & 0 \\ 0& 0 & 0 & 0 & 0 & 1 & 0 \\ 0& 0 & 0 & 0 & 0 & 0 & 1 \\ 0& 0 & 0 & 0 & 0 & 0 & 0 \end{pmatrix}.$$

Para verla un poco más «como de bloques» la podemos reescribir de la siguiente manera:

$$\left(\begin{array}{c|ccc|ccc} 0& 0 & 0 & 0 & 0 & 0 & 0 \\ \hline 0& 0 & 1 & 0 & 0 & 0 & 0 \\ 0& 0 & 0 & 1 & 0 & 0 & 0 \\ 0& 0 & 0 & 0 & 0 & 0 & 0 \\ \hline 0& 0 & 0 & 0 & 0 & 1 & 0 \\ 0& 0 & 0 & 0 & 0 & 0 & 1 \\ 0& 0 & 0 & 0 & 0 & 0 & 0 \end{array}\right).$$

$\triangle$

Más adelante…

Hemos demostrado la existencia y unicidad de la forma canónica de Jordan para matrices nilpotentes. Este es un resultado interesante por sí mismo. Sin embargo, también es un paso intermedio para un resultado más general. En las siguientes entradas hablaremos de una versión más general del teorema de Jordan, para matrices tales que su polinomio característico se descomponga totalmente en el campo en el que estemos trabajando.

Tarea moral

Considera la siguiente matriz: $$M=\begin{pmatrix}11 & 11 & -11 & -11\\-1 & -1 & 1 & 1\\3 & 3 & -3 & -3\\7 & 7 & -7 & -7\end{pmatrix}.$$
1. Muestra que $M$ es una matriz nilpotente y determina su índice.
2. ¿Cuál es la forma canónica de Jordan de $M$?
Describe las posibles formas canónicas de Jordan para una matriz nilpotente $A \in M_{5}(F)$ de índice $2$.
Describe las posibles formas canónicas de Jordan para una matriz nilpotente $A \in M_{7}(F)$ de rango $5$.
Encuentra de manera explícita la inversa de la siguiente matriz en $M_n(\mathbb{R})$ y usa esto para dar de manera explícita la solución al sistema de ecuación en las variables $x_i$ que aparece en la entrada: $$\begin{pmatrix} 1 & 2 & 3 & \cdots & n-1 & n \\ 0 & 1 & 2 & \cdots & n-2 & n-1 \\ 0 & 0 & 1 & \cdots & n-3 & n-2 \\ & \vdots & & \ddots & & \vdots\\ 0 & 0 & 0 & \cdots & 1 & 2 \\ 0 & 0 & 0 & \cdots & 0 & 1\end{pmatrix}.$$
Sea $A$ una matriz nilpotente en $M_n(\mathbb{R})$. Muestra que las matrices $A$ y $5A$ son similares entre sí.

Entradas relacionadas

Ir a Álgebra Lineal II
Entrada anterior del curso: Existencia de la forma canónica de Jordan para nilpotentes
Siguiente entrada del curso: Existencia de la forma canónica de Jordan

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Aplicaciones del teorema de Cayley-Hamilton

Por Leonardo Ignacio Martínez Sandoval

2 respuestas

Introducción

En entradas anteriores ya enunciamos y demostramos el teorema de Cayley-Hamilton. Veremos ahora algunas aplicaciones de este resultado.

Encontrar inversas de matrices

El teorema de Cayley-Hamilton nos puede ayudar a encontrar la inversa de una matriz haciendo únicamente combinaciones lineales de potencias de la matriz. Procedemos como sigue. Supongamos que una matriz $A$ en $M_n(F)$ tiene polinomio característico $$\chi_A(x)=x^n+a_{n-1}x^{n-1}+\ldots+a_1x+a_0.$$ Como $a_0=\det(A)$, si $a_0=0$ entonces la matriz no es invertible. Supongamos entonces que $a_0\neq 0$. Por el teorema de Cayley-Hamilton tenemos que $$A^n+a_{n-1}A^{n-1}+\ldots+a_1A+a_0I_n=O_n.$$ De aquí podemos despejar la matriz identidad como sigue:

\begin{align*}
I_n&=-\frac{1}{a_0}\left( A^n+a_{n-1}A^{n-1}+\ldots+a_1A \right)\\
&=-\frac{1}{a_0}\left(A^{n-1}+a_{n-1}A^{n-2}+\ldots+a_1 I\right) A.
\end{align*}

Estos cálculos muestran que la inversa de $A$ es la matriz $$ -\frac{1}{a_0}\left(A^{n-1}+a_{n-1}A^{n-2}+\ldots+a_1 I\right).$$

Ejemplo. Supongamos que queremos encontrar la inversa de la siguiente matriz $$A=\begin{pmatrix} 2 & 2 & 0 \\ 0 & -1 & 0 \\ 1 & 1 & 1 \end{pmatrix}.$$ Su polinomio característico es $\lambda^3-2\lambda^2 – \lambda +2$. Usando la fórmula de arriba, tenemos que

$$A^{-1}=-\frac{1}{2}(A^2-2A-I).$$

Necesitamos entonces $A^2$, que es:

$$A^2=\begin{pmatrix} 4 & 2 & 0 \\ 0 & 1 & 0 \\ 3 & 2 & 1 \end{pmatrix}.$$

De aquí, tras hacer las cuentas correspondientes, obtenemos que:

$$A^{-1}=\begin{pmatrix} \frac{1}{2} & 1 & 0 \\ 0 & -1 & 0 \\ -\frac{1}{2} & 0 & 1\end{pmatrix}.$$

Puedes verificar que en efecto esta es la inversa de $A$ realizando la multiplicación correspondiente.

$\triangle$

El método anterior tiene ciertas ventajas y desventajas. Es práctico cuando es sencillo calcular el polinomio característico, pero puede llevar a varias cuentas. En términos de cálculos, en general reducción gaussiana funciona mejor para matrices grandes. Como ventaja, el resultado anterior tiene corolarios teóricos interesantes. Un ejemplo es el siguiente resultado.

Corolario. Si $A$ es una matriz con entradas en los enteros y determinante $1$ ó $-1$, entonces $A^{-1}$ tiene entradas enteras.

Encontrar el polinomio mínimo de una matriz

Otra de las consecuencias teóricas del teorema de Cayley-Hamilton con aplicaciones prácticas ya la discutimos en la entrada anterior.

Proposición. El polinomio mínimo de una matriz (o transformación lineal) divide a su polinomio característico.

Esto nos ayuda a encontrar el polinomio mínimo de una matriz: calculamos el polinomio característico y de ahí intentamos varios de sus divisores polinomiales para ver cuál de ellos es el de grado menor y que anule a la matriz. Algunas consideraciones prácticas son las siguientes:

Si el polinomio característico se factoriza totalmente sobre el campo y conocemos los eigenvalores, entonces conocemos todos los factores lineales. Basta hacer las combinaciones posibles de factores lineales para encontrar el polinomio característico (considerando posibles multiplicidades).
Además, para cada eigenvalor $\lambda$ ya vimos que $\lambda$ debe ser raíz no sólo del polinomio característico, sino también del polinomio mínimo. Así, debe aparecer un factor $x-\lambda$ en el polinomio mínimo para cada eigenvalor $\lambda$.

Ejemplo 1. Encontramos el polinomio mínimo de la siguiente matriz:

$$B=\begin{pmatrix} 2 & 0 & 4 \\ 3 & -1 & -1 \\0 & 0 & 2 \end{pmatrix}.$$

Una cuenta estándar muestra que el polinomio característico es $(x-2)^2(x+1)$. El polinomio mínimo debe ser mónico, dividir al polinomio característico y debe contener forzosamente a un factor $(x-2)$ y un factor $(x+1)$. Sólo hay dos polinomios con esas condiciones: $(x-2)(x+1)$ y $(x-2)^2(x+1)$. Si $(x-2)(x+1)$ anula a $B$, entonces es el polinomio mínimo. Si no, es el otro. Haciendo las cuentas:

\begin{align*}
(B-2I_3)(B+I_3)&=\begin{pmatrix}0 & 0 & 4 \\ 3 & -3 & -1 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} 3 & 0 & 4 \\ 3 & 0 & -1 \\ 0 & 0 & 3 \end{pmatrix}\\
&=\begin{pmatrix} 0 & 0 & 12 \\ 0 & 0 & 12 \\ 0 & 0 & 0 \end{pmatrix}.
\end{align*}

Así, $(x-2)(x+1)$ no anula a la matriz y por lo tanto el polinomio mínimo es justo el polinomio característico $(x-2)^2(x+1)$.

$\triangle$

Ejemplo 2. Consideremos la matriz $C=\begin{pmatrix} 3 & 0 & 0 \\ 0 & 3 & 0 \\ 0 & 0 & 3 \end{pmatrix}$. Su polinomio característico es $(x-3)^3$. Así, su polinomio mínimo es $x-3$, $(x-3)^2$ ó $(x-3)^3$. Nos damos cuenta rápidamente que $x-3$ sí anula a la matriz pues $A-3I_3=O_3$. De este modo, el polinomio mínimo es $x-3$.

$\triangle$

Clasificación de matrices con alguna condición algebraica

Si sabemos que una matriz cumple una cierta condición algebraica, entonces el teorema de Cayley-Hamilton puede ayudarnos a entender cómo debe ser esa matriz, es decir, a caracterizar a todas las matrices que cumplan la condición.

Por ejemplo, ¿quienes son todas las matrices en $M_n(\mathbb{R})$ que son su propia inversa? La condición algebraica es $A^2=I_2$. Si el polinomio característico de $A$ es $x^2+bx+c$, entonces por el teorema de Cayley-Hamilton y la hipótesis tenemos que $O_2=A^2+bA+cI_2=bA+(c+1)I_2$. De aquí tenemos un par de casos:

Si $b\neq 0$, podemos despejar a $A$ como $A=-\frac{c+1}{b}I_2$, es decir $A$ debe ser un múltiplo de la identidad. Simplificando la notación, $A=xI_2$. Así, la condición $A^2=I_2$ se convierte en $x^2I_2=I_2$, de donde $x^2=1$ y por lo tanto $x=\pm 1$. Esto nos da las soluciones $A=I_2$ y $A=-I_2$.
Si $b=0$, entonces $O_2=(c+1)I_2$, de donde $c=-1$. De este modo, el polinomio característico es $x^2-1=(x+1)(x-1)$. Se puede demostrar que aquí las soluciones son las matices semejantes a la matriz $\begin{pmatrix}1 & 0 \\ 0 & -1 \end{pmatrix}$, y sólo esas.

Más adelante…

El teorema de Cayley-Hamilton es un resultado fundamental en álgebra lineal. Vimos dos demostraciones, pero existen varias más. Discutimos brevemente algunas de sus aplicaciones, pero tiene otras tantas. De hecho, más adelante en el curso lo retomaremos para aplicarlo nuevamente.

Por ahora cambiaremos ligeramente de tema. De manera muy general, veremos cómo llevar matrices a otras matrices que sean más simples. En las siguientes entradas haremos esto mediante similaridades de matrices. Más adelante haremos esto mediante congruencias de matrices. Hacia la tercer unidad del curso encontraremos un resultado aún más restrictivo, en el que veremos que cualquier matriz simétrica real puede ser llevada a una matriz diagonal mediante una matriz que simultáneamente da una similaridad y una congruencia.

Tarea moral

Encuentra el polinomio mínimo de la matriz $\begin{pmatrix}-3 & 1 & 0 & 0 \\ 0 & -3 & 0 & 0 \\ 0 & 0 & 2 & 1 \\ 0 & 0 & 0 & 2\end{pmatrix}$.
Encuentra la inversa de la siguiente matriz usando las técnica usada en esta entrada: $$\begin{pmatrix} 0 & 1 & 1 \\ 1 & -1 & 2\\ 2 & 2 & 1 \end{pmatrix}.$$
Demuestra el corolario de matrices con entradas enteras. De hecho, muestra que es un si y sólo si: una matriz invertibles con entradas enteras cumple que su inversa tiene únicamente entradas enteras si y sólo si su determinante es $1$ ó $-1$.
¿Cómo son todas las matrices en $M_2(\mathbb{R})$ tales que $A^2=A$?
¿Cómo son todas las matrices en $M_3(\mathbb{R})$ de determinante $0$ tales que $A^3=O_3$?

Entradas relacionadas

Ir a Álgebra Lineal II
Entrada anterior del curso: Demostración de Cayley-Hamilton
Siguiente entrada del curso: Triangularizar y descomposición de Schur

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»