Archivo de la etiqueta: descomposición

Álgebra Lineal II: Existencia de la forma canónica de Jordan

Por Leonardo Ignacio Martínez Sandoval

Introducción

En las entradas anteriores demostramos que para cualquier matriz nilpotente existe (y es única) una matriz similar muy sencilla, hecha por lo que llamamos bloques de Jordan de eigenvalor cero. Lo que haremos ahora es mostrar una versión análoga de este resultado para una familia mucho más grande de matrices. De hecho, en cierto sentido tendremos un resultado análogo para todas las matrices.

Pensando en ello, lo que haremos en esta entrada es lo siguiente. Primero, generalizaremos nuestra noción de bloques de Jordan para contemplar cualquier eigenvalor. Estudiaremos un poco de los bloques de Jordan. Luego, enunciaremos el teorema que esperamos probar. Finalmente, daremos el primer paso hacia su demostración. En la siguiente entrada terminaremos la demostración y hablaremos de aspectos prácticos para encontrar formas canónicas de Jordan.

Enunciado del teorema de la forma canónica de Jordan

A continuación definimos a los bloques de Jordan para cualquier eigenvalor y tamaño.

Definición. Sea $F$ un campo. El bloque de Jordan de eigenvalor $\lambda$ y tamaño $k$ es la matriz $J_{\lambda,k}$ en $M_k(F)$ cuyas entradas son todas $\lambda$, a excepción de las que están inmediatamente arriba de la diagonal superior, las cuales son unos. En símbolos, $J_{\lambda,k}=[a_{ij}]$ con $$a_{ij}=\begin{cases} 1 & \text{si $j=i+1$}\\ \lambda & \text{si $i=j$} \\ 0 & \text{en otro caso.} \end{cases}$$

También podemos expresarlo de la siguiente manera:

$$J_{\lambda,k}=\begin{pmatrix} \lambda & 1 & 0 & \cdots & 0 & 0 \\ 0 & \lambda & 1 & \cdots & 0 & 0 \\ 0 & 0 & \lambda & \cdots & 0 & 0 \\ & \vdots & & \ddots & & \vdots \\ 0 & 0 & 0 & \cdots & \lambda & 1 \\ 0 & 0 & 0 & \cdots & 0 & \lambda \end{pmatrix},$$ en donde estamos pensando que la matriz es de $k\times k$.

Una última manera en la que nos convendrá pensar a $J_{\lambda,k}$ es en términos de los bloques de Jordan de eigenvalor cero: $J_{\lambda,k}=\lambda I_k + J_{0,k}$.

Definición. Una matriz de bloques de Jordan en $M_n(F)$ es una matriz diagonal por bloques en la que cada bloque en la diagonal es un bloque de Jordan.

Lo que nos gustaría demostrar es el siguiente resultado. En él, piensa en $\leq$ como algún orden total fijo de $F$ (para $\mathbb{R}$ es el orden usual, pero otros campos no necesariamente tienen un orden natural asociado).

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$ sobre el campo $F$ y $T:V\to V$ una transformación lineal tal que $\chi_T(X)$ se divide sobre $F$. Entonces, existen únicos valores $\lambda_1\leq \ldots \leq \lambda_n$ en $F$ y únicos enteros $k_1,\ldots,k_d$ tales que \begin{align*} &k_1+k_2+\ldots+k_d = n,\\ &k_1\leq k_2 \leq \ldots \leq k_d,\end{align*} para los cuales existe una base de $V$ en la cual $T$ tiene como forma matricial a la siguiente matriz de bloques de Jordan:

$$\begin{pmatrix} J_{\lambda_1,k_1} & 0 & \cdots & 0 \\ 0 & J_{\lambda_2,k_2} & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & J_{\lambda_d,k_d}\end{pmatrix}.$$

Por supuesto, este teorema también tiene una versión matricial, la cuál tendrás que pensar cómo escribir.

Un teorema de descomposición de kernels

Ya tenemos uno de los ingredientes que necesitamos para dar la demostración de la existencia de la forma canónica de Jordan: su existencia para las transformaciones nilpotentes. Otro de los ingredientes que usaremos es el teorema de Cayley-Hamilton. El tercer ingrediente es un resultado de descoposición de kernels de transformaciones evaluadas en polinomios.

Proposición. Sea $V$ un espacio vectorial sobre $F$. Sea $T:V\to V$ una transformación lineal. Y sean $P_1(X),\ldots,P_r(X)$ polinomios en $F[x]$ cuyo máximo común divisor de cualesquiera dos de ellos es el polinomio $1$. Entonces, $$\ker((P_1P_2\cdots P_r)(T))=\bigoplus_{i=1}^r \ker(P_i(T)).$$

Demostración. Para cada $i\in \{1,2,\ldots,r\}$ consideraremos a $Q_i(X)$ como el polinomio que se obtiene de multiplicar a todos los polinomios dados, excepto $P_i(X)$. Y por comodidad, escribiremos $P(X)=(P_1\cdots P_r)(X)$. Notemos que entonces $P(X)=(Q_iP_i)(X)$ para cualquier $i\in\{1,2,\ldots,r\}$.

Primero probaremos un resultado polinomial auxiliar. Veremos que $Q_1(X),\ldots,Q_r(X)$ tienen como máximo común divisor al polinomio $1$. En caso de no ser así, un polinomio $D(X)$ no constante dividiría a todos ellos. Sin pérdida de generalidad, $D$ es irreducible (tomando, por ejemplo $D(X)$ de grado mínimo con esta propiedad). Como $D(X)$ es irreducible y divide a $Q_r(X)$, entonces debe dividir a alguno de los factores de $Q_r(X)$, que sin pérdida de generalidad (por ejemplo, reetiquetando), es $P_1(X)$. Pero $D(X)$ también divide a $Q_1(X)$, así que debe dividir a alguno de sus factores $P_2(X),\ldots,P_r(X)$, sin pérdida de generalidad a $P_2(X)$. Pero entonces $D(X)$ divide a $P_1(X)$ y $P_2(X)$, lo cual contradice las hipótesis. Así, $Q_1(X),\ldots,Q_r(X)$ tienen como máximo común divisor al polinomio $1$. Por el lema de Bézout para polinomios (ver tarea moral), existen entonces polinomios $R_1(X),\ldots,R_r(X)$ tales que

\begin{equation}
\label{eq:bezout}(R_1Q_1 + R_2Q_2 + \ldots + R_rQ_r)(X)=1.
\end{equation}

Estamos listos para pasar a los argumentos de álgebra lineal. Veamos primero que cualquier elemento en la suma de la derecha está en el kernel de $P(T)$. Tomemos $v=v_1+\ldots+v_r$ con $v_i\in \ker(P_i(T))$. Al aplicar $P$ obtenemos

\begin{align*}
P(v)&=P(v_1)+\ldots+P(v_r)\\
&=Q_1(P_1(v_1))+\ldots+Q_r(P_r(v_r))\\
&=0+\ldots+0=0.
\end{align*}

Esto muestra que $v\in \ker(P(T))$, de donde se obtiene la primera contención que nos interesa.

Veamos ahora la segunda contención, que $\ker(P(T))=\bigoplus_{i=1}^r \ker(P_i(T))$. Tomemos $v\in \ker(P(T))$. Al aplicar \eqref{eq:bezout} en $T$ y evaluar en $v$ obtenemos que

\begin{align*}
v&=\text{Id}(v)=(1)(T)(v)\\
&=(R_1Q_1 + R_2Q_2 + \ldots + R_rQ_r)(T)(v)\\
&=(R_1Q_1)(T)(v)+\ldots+(R_rQ_r)(T)(v).
\end{align*}

Pero esto justo expresa a $v$ como elemento de $\ker(P_i(T))$ pues para cada $i$ tenemos

\begin{align*}
P_i(T)((R_iQ_i)(T)(v))&=(P_iR_i Q_i )(T)(v)\\
&=(R_i Q_i P_i)(T)(v)\\
&=R_i(T)P(T)(v)\\
&=R_i(0)=0,
\end{align*}

de modo que expresamos a $v$ como suma de vectores en $\ker(P_1(T)),\ldots,\ker(P_r(T))$.

Ya demostramos la igualdad de conjuntos, pero recordemos que en la igualdad de suma directa hay otra cosa que hay que probar: que el cero tiene una forma única de expresarse como suma de elementos de cada subespacio (aquella en donde cada elemento es cero). Supongamos entonces que $$0=v_1+\ldots+v_r$$ con $v_i\in \ker(P_i(T))$ para cada $i$. Si aplicamos $Q_i$ en esta igualdad, como tiene todos los factores $P_j$ con $j\neq i$ obtenemos $$0=Q_i(0)=Q_i(v_i).$$

Por otro lado, al aplicar nuevamente \eqref{eq:bezout} en $T$ y evaluar en $v_i$

\begin{align*}
v_i&=\text{Id}(v_i)=(1)(T)(v_i)\\
&=(R_1Q_1 + R_2Q_2 + \ldots + R_rQ_r)(T)(v_i)\\
&=(R_1Q_1)(T)(v_1)+\ldots+(R_rQ_r)(T)(v_i)\\
&=(R_iQ_i)(T)(v_i)\\
&=0.
\end{align*}

De esta forma, en efecto tenemos que los espacios están en posición de suma directa, que era lo último que nos faltaba verificar.

$\square$

Existencia de la forma canónica de Jordan

Estamos listos para demostrar la existencia de la forma canónica de Jordan. Supongamos que $V$ es un espacio vectorial de dimensión finita $n$ sobre $F$ y que $T:V\to V$ es una transformación lineal cuyo polinomio característico se divide en $F[x]$. Sabemos entonces que es de la siguiente forma:

$$\chi_T(X)=(X-\lambda_1)^{m_1}(X-\lambda_2)^{m_2}\cdots(X-\lambda_r)^{m_r},$$

donde $\lambda_1,\ldots,\lambda_r$ son eigenvalores distintos de $T$ y $m_1,\ldots,m_r$ son las multiplicidades algebraicas respectivas de estos eigenvalores como raíces de $\chi_T(X)$.

Por el teorema de Cayley-Hamilton, sabemos que $\chi_T(T)=0$, de modo que $\ker(\chi_T(T))=V$. Por la proposición de descomposición de la sección anterior aplicada a los polinomios $P_i(X)=(X-\lambda_i)^{m_i}$ (verifica que son primos relativos dos a dos) para $i\in\{1,\ldots,r\}$ tenemos entonces que $$V=\bigoplus_{i=1}^r \ker((T-\lambda_i \text{id})^{m_i}).$$

Pero, ¿cómo es la transformación $T-\lambda_i \text{id}$ restringida a cada $\ker((T-\lambda_i \text{id})^{m_i})$? ¡Es nilpotente! Precisamente por construcción, $(T-\lambda_i \text{id})^{m_i}$ se anula totalmente en este kernel. Así, por la existencia de la forma canónica de Jordan para matrices nilpotentes, hay una base $\beta_i$ para cada $\ker((T-\lambda_i \text{id})^{m_i})$ tal que $T-\lambda_i \text{id}$ restringida a ese kernel tiene como forma matricial una matriz $J_i$ de bloques de Jordan de eigenvalor cero. Pero entonces $T$ (restringida a dicho kernel) tiene como forma matricial a $J_i+\lambda_i I_{m_i}$, que es una matriz de bloques de Jordan de eigenvalor $\lambda$.

Con esto terminamos: como $V$ es la suma directa de todos esos kernel, la unión de bases $\beta_1,\ldots,\beta_r$ es una base para la cual $T$ tiene como forma matricial a una matriz de bloques de Jordan.

$\square$

Más adelante…

Hemos demostrado la existencia de la forma canónica de Jordan, pero aún nos falta demostrar su unicidad. Además de esto, también necesitaremos un mejor procedimiento para encontrarla. Haremos eso en la siguiente entrada.

Tarea moral

  1. Enuncia el teorema de la forma canónica de Jordan versión matrices.
  2. Investiga más sobre el lema de Bézout para polinomios y cómo se demuestra. Después de esto, expresa al polinomio $1$ como combinación lineal de los polinomios $x^2-1, x^3+1, x^2+5x+4$.
  3. Verifica que los polinomios $P_i(X)=(X-\lambda_i)^{k_i}$ de la demostración de la existencia de la forma canónica de Jordan cumplen las hipótesis de la proposición de descomposición de kernels.
  4. Sea $F$ un campo y $r,s$ elementos en $F$. Sea $n$ un entero. Demuestra que los bloques de Jordan $J_{r,n}$ y $J_{s,n}$ en $M_n(F)$ conmutan.
  5. Siguiendo las ideas de la demostración de existencia, encuentra la forma canónica de Jordan de la matriz $$\begin{pmatrix} 1 & 1 & 1 & 1 \\ 0 & 1 & 1 & 1 \\ 0 & 0 & 2 & 2 \\ 0 & 0 & 0 & 2 \end{pmatrix}.$$

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Ortogonalidad en espacios euclideanos

Por Leonardo Ignacio Martínez Sandoval

Introducción

Anteriormente, cuando hablamos del espacio dual de un espacio vectorial, definimos qué quería decir que una forma lineal y un vector fueran ortogonales. Esa noción de ortogonalidad nos ayudó a definir qué era un hiperplano de un espacio vectorial y a demuestra que cualquier subespacio de dimensión $k$ de un espacio de dimensión $n$ podía ponerse como intersección de $n-k$ hiperplanos.

Hay otra noción de ortogonalidad en álgebra lineal que también ya discutimos en el primer curso: la ortogonalidad de parejas de vectores con respecto a un producto interior. En el primer curso vimos esta noción muy brevemente. Lo que haremos ahora es profundizar en esta noción de ortogonalidad. De hecho, gracias a las herramientas que hemos desarrollado podemos conectar ambas nociones de ortogonalidad.

Esta teoría la veremos de manera explícita en el caso real en la entrada. El caso en $\mathbb{C}$ queda esbozado en los ejercicios.

Definición de ortogonalidad

Comenzamos con las siguientes definiciones.

Definición. Sea $V$ un espacio vectorial sobre $\mathbb{R}$ y $b$ una forma bilineal de $V$. Diremos que dos vectores $x,y$ en $V$ son ortogonales (con respecto a $b$) si $b(x,y)=0$.

Definición. Sea $V$ un espacio vectorial sobre $\mathbb{R}$ y $b$ una forma bilineal de $V$. Sea $S$ un subconjunto de vectores de $V$. El conjunto ortogonal de $S$ (con respecto a $b$) consiste de todos aquellos vectores en $V$ que sean ortogonales a todos los vectores de $S$. En símbolos:

$$S^{\bot}:=\{v \in V : \forall s \in S, b(s,v)=0\}.$$

Es un buen ejercicio verificar que $S^\bot$ siempre es un subespacio de $V$. Finalmente, definimos la ortogonalidad de conjuntos.

Definición. Sea $V$ un espacio vectorial sobre $\mathbb{R}$ y $b$ una forma bilineal de $V$. Diremos que dos subconjuntos $S$ y $T$ son ortogonales (con respecto a $b$) si $S \subseteq T^{\bot}$.

En otras palabras, estamos pidiendo que todo vector de $S$ sea ortogonal a todo vector de $T$.

Observación. Si tenemos un espacio vectorial con producto interior $\langle \cdot, \cdot \rangle$ de norma $\norm{\cdot}$, entonces tenemos la fórmula $$\norm{x+y}^2=\norm{x}^2+2\langle x,y\rangle +\norm{y}^2.$$

De esta forma, $x$ y $y$ son ortogonales si y sólo si $$\norm{x+y}^2= \norm{x}^2+\norm{y}^2.$$ Podemos pensar esto como una generalización del teorema de Pitágoras.

Descomposición en un subespacio y su ortogonal

Comenzamos esta sección con un resultado auxiliar.

Teorema. Sea $V$ un espacio euclideano y $W$ un subespacio de $V$. Entonces $$V=W\oplus W^\bot.$$

Demostración. Sea $\langle \cdot,\cdot \rangle$ el producto interior de $V$. Para demostrar la igualdad que queremos, debemos mostrar que $W$ y $W^\bot$ están en posición de suma directa y que $V=W+W^\bot$.

Para ver que $W$ y $W^\bot$ están en posición de suma directa, basta ver que el único elemento en la intersección es el $0$. Si $x$ está en dicha intersección, entonces $\langle x, x \rangle =0$, pues por estar en $W^\bot$ debe ser ortogonal a todos los de $W$, en particular a sí mismo. Pero como tenemos un producto interior, esto implica que $x=0$.

Tomemos ahora un vector $v\in V$ cualquiera. Definamos la forma lineal $f:W\to \mathbb{R}$ tal que $f(u)=\langle u, v \rangle$. Por el teorema de representación de Riesz aplicado al espacio vectorial $W$ y a su forma lineal $f$, tenemos que existe un (único) vector $x$ en $W$ tal que $f(u)=\langle u, x \rangle$ para cualquier $u$ en $W$.

Definamos $y=v-x$ y veamos que está en $W^\bot$. En efecto, para cualquier $u$ en $W$ tenemos:

\begin{align*}
\langle u, y\rangle &= \langle u, v-x \rangle\\
&=\langle u, v \rangle – \langle u , x \rangle\\
&=f(u)-f(u)\\
&=0.
\end{align*}

De esta manera, podemos escribir $v=x+y$ con $x\in W$ y $y\in W^\bot$.

$\square$

En particular, el teorema anterior nos dice que la unión disjunta de una base de $W$ y una base de $W^\bot$ es una base de $V$. Por ello, tenemos el siguiente corolario.

Corolario. Sea $V$ un espacio euclideano y $W$ un subespacio de $V$. Entonces $$\dim{W}+\dim{W^\bot}=\dim{V}.$$

Tenemos un corolario más.

Corolario. Sea $V$ un espacio euclideano y $W$ un subespacio de $V$. Entonces $$(W^\bot)^\bot=W.$$

Demostración. Tanto $W$ como $(W^\bot)^\bot$ son subespacios de $V$. Tenemos que $W\subseteq (W^\bot)^\bot$ pues cualquier elemento de $W$ es ortogonal a cualquier elemento de $W^\bot$. Además, por el corolario anterior tenemos:

\begin{align*}
\dim{W}+\dim{W^\bot}&=\dim{V}\\
\dim{W^\bot}+\dim{(W^\bot)^\bot}&=\dim{V}.
\end{align*}

De aquí se sigue que $\dim{W} = \dim{(W^\bot)^\bot}$. Así, la igualdad que queremos de subespacios se sigue si un subespacio está contenido en otro de la misma dimensión, entonces deben de ser iguales.

$\square$

Proyecciones ortogonales

Debido al teorema anterior, podemos dar la siguiente definición.

Definición. Sea $V$ un espacio euclideano y $W$ un subespacio de $V$. La proyección ortogonal hacia $W$ es la transformación lineal $p_W:V\to W$ tal que a cada $v$ en $V$ lo manda al único vector $p_W(v)$ tal que $x-p_W(v)$ está en $W^\bot$.

Dicho en otras palabras, para encontrar a la proyección de $v$ en $W$ debemos escribirlo de la forma $v=x+y$ con $x\in W$ y $y\in W^\bot$ y entonces $p_W(v)=x$.

Distancia a subespacios

Cuando definimos la distancia entre conjuntos que tienen más de un punto, una posible forma de hacerlo es considerando los puntos más cercanos en ambos conjuntos, o en caso de no existir, el ínfimo de las distancias entre ellos. Esto da buenas propiedades para la distancia. En particular, cuando queremos definir la distancia de un punto $x$ a un conjunto $S$ hacemos lo siguiente.

Definición. Sea $V$ un espacio vectorial real con producto interior $\langle \cdot, \cdot \rangle$ de norma $\norm{\cdot}$. Sea $S$ un subconjunto de $V$ y $v$ un vector de $V$. Definimos la distancia de $v$ a $S$ como la menor posible distancia de $v$ hacia algún punto de $S$. En símbolos:

$$d(v,S):=\inf_{s\in S} d(v,s).$$

En general, puede ser complicado encontrar el punto que minimiza la distancia de un punto a un conjunto. Sin embargo, esto es más sencillo de hacer si el conjunto es un subespacio de un espacio con producto interior: se hace a través de la proyección al subespacio. Esto queda reflejado en el siguiente resultado.

Proposición. Sea $V$ un espacio euclideano con producto interior $\langle \cdot, \cdot \rangle$ de norma $\norm{\cdot}$. Sea $W$ un subespacio de $V$ y sea $v$ un vector en $V$. Entonces $$d(v,W)=\norm{v-p_W(v)}.$$

Más aún, $p_W(v)$ es el único punto en $W$ para el cual se alcanza la distancia mínima.

Demostración. Por el teorema de descomposición en un subespacio y su ortogonal, sabemos que podemos escribir $v=x+y$ con $x$ en $W$ y con $y$ en $W^\bot$.

Tomemos cualquier elemento $w$ en $W$. Tenemos que $x-w$ está en $W$ y que $y$ está en $W^\bot$. Así, usando el teorema de Pitágoras tenemos que:

\begin{align*}
\norm{v-w}^2&=\norm{y+(x-w)}^2\\
&=\norm{y}^2+\norm{x-w}^2\\
&\geq \norm{y}^2\\
&=\norm{v-x}^2.
\end{align*}

Esto muestra que $\norm{v-w}\geq \norm{v-x}$. Como $x\in W$, esto muestra que la distancia de $v$ a $W$ en efecto se alcanza con $x=p_W(v)$, pues cualquier otra distancia es mayor o igual.

La igualdad en la cadena anterior de alcanza si y sólo si $\norm{x-w}^2=0$, lo cual sucede si y sólo si $x=w$, como queríamos.

$\square$

Más adelante…

En la siguiente entrada recordaremos varias de las ventajas que tiene contar con una base de un espacio vectorial en la que cualesquiera dos vectores sean ortogonales entre sí. Y en la entrada después de esa, recordaremos algunas hipótesis bajo las cuales podemos garantizar encontrar una de esas bases.

Tarea moral

  1. Resuelve los siguientes ejercicios:
    1. Sea $\mathbb{R}^3$ con el producto interno canónico y $W=\{(0,0,a_3) : a_3 \in \mathbb{R} \}$. Encuentra a $W^{\bot}$ y define la proyección ortogonal $p_W$ hacia $W$.
    2. Encuentra el vector en $\text{Span}((1,2,1), (-1,3,-4))$ que sea el más cercano (respecto a la norma euclidiana) al vector $(-1,1,1)$.
  2. Sea $V$ un espacio euclidiano y $T : V \to V $ una transformación lineal tal que $T^2=T$. Prueba que T es una proyección ortogonal si y solo si para cualesquiera $x$ y $y$ en $V$ se tiene que $$\langle T(x),y\rangle =\langle x,T(y)\rangle.$$
  3. Resuelve los siguientes ejercicios:
    1. Demuestra que una proyección ortogonal reduce la norma, es decir, que si $T$ es una proyección ortogonal, entonces $\norm{T(v)}\leq \norm{v}$.
    2. Prueba que una proyección ortogonal únicamente puede tener como eigenvalores a $0$ ó a $1$.
  4. Demuestra que la composición de dos proyecciones ortogonales no necesariamente es una proyección ortogonal.
  5. En el teorema de descomposición, ¿es necesaria la hipótesis de tener un producto interior? ¿Qué sucede si sólo tenemos una forma bilineal, simétrica y positiva?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal I: Rango de transformaciones lineales y matrices

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores hablamos de transformaciones lineales, cómo actúan en conjuntos especiales de vectores y de cómo se pueden representar con matrices. Hablamos también de cómo cambiar de una base a otra y cómo usar esto para entender transformaciones en varias bases. Estamos listos para introducir un concepto fundamental de álgebra lineal, el de rango de una transformación lineal y de una matriz.

Antes de entrar en las definiciones formales, vale la pena hablar un poco de rango de manera intuitiva. Supongamos que $V$ es un espacio vectorial de dimensión $n$ y que $W$ es un espacio vectorial sobre el mismo campo que $V$. Una transformación lineal $T:V\to W$ puede «guardar mucha independencia lineal» o «muy poquita». Si $T$ es inyectiva, ya vimos antes que $T$ manda linealmente independientes a linealmente independientes. Si $T$ es la transformación $0$, entonces se «pierde toda la independencia».

El rango mide algo intermedio entre estos dos extremos. Mientras mayor sea el rango, más independencia lineal se preserva y viceversa. Si mantienes esta intuición en mente, varias de las proposiciones te resultarán más naturales.

Otro buen ejemplo para tener en mente es tomar una transformación lineal $T:\mathbb{R}^3\to \mathbb{R}^3$. Si es la transformación identidad, la base canónica se preserva. Si es la proyección al plano $xy$, entonces «perdemos» al vector $(0,0,1)$, pues se va al $(0,0,0)$. Si es la proyección al eje $x$, «perdemos» al $(0,1,0)$ y al $(0,0,1)$ pues ambos se van a $(0,0,0)$. Y si es la transformación $0$, perdemos a todos. El rango precisamente va a medir esto, y para estos ejemplos tendremos rango $3$, $2$, $1$ y $0$ respectivamente.

Rango para transformaciones lineales

Como en otras ocasiones, cuando hablemos de transformaciones lineales entre espacios vectoriales, serán sobre un mismo campo $F$.

Definición. Sean $V$ y $W$ espacios de dimensión finita. El rango de una transformación lineal $T:V\to W$ es la dimensión de la imagen de $T$, es decir, $$\rank(T)=\dim\Ima T.$$

Si $B$ es una base de $V$, entonces genera a $V$. La transformación $T$ es suprayectiva de $V$ a $\Ima T$, de modo que $T(B)$ es generador de $\Ima T$. De esta forma, para encontrar el rango de una transformación lineal $T:V\to W$ basta:

  • Tomar una base $B$ de $V$.
  • Aplicar $T$ a cada elemento de $B$.
  • Determinar un conjunto linealmente independiente máximo en $T(B)$.

Para hacer este último paso, podemos poner a los vectores coordenada de $T(B)$ con respecto a una base de $W$ como los vectores fila de una matriz $A$ y usar reducción gaussiana. Las operaciones elementales no cambian el espacio generado por las filas, así que el rango de $T$ es el número de vectores fila no cero en la forma escalonada reducida $A_{\text{red}}$ de $A$.

Ejemplo. Encuentra el rango de la transformación lineal $T:\mathbb{R}^3\to M_{2}(\mathbb{R})$ que manda $(x,y,z)$ a $$\begin{pmatrix}x+y-z & 2x \\ 2y-2z & x+z-y\end{pmatrix}.$$

Solución. Tomemos $e_1,e_2,e_3$ la base canónica de $\mathbb{R}^3$. Tenemos que $T(e_1)=\begin{pmatrix}1 & 2\\ 0 & 1\end{pmatrix}$, $T(e_2)=\begin{pmatrix} 1 & 0 \\ 2 & -1\end{pmatrix}$ y $T(e_3)=\begin{pmatrix}-1 & 0\\ -2 & 1\end{pmatrix}$.

Tomando la base canónica $E_{11},E_{12},E_{21},E_{22}$ de $M_2(\mathbb{R})$, podemos entonces poner a las coordenadas de $T(e_1),T(e_2),T(e_2)$ como vectores fila de una matriz $$\begin{pmatrix}1 & 2 & 0 & 1\\ 1 & 0 & 2 & -1\\ -1& 0 & -2 & 1\end{pmatrix}.$$ Sumando la segunda fila a la tercera, y después restando la primera a la segunda,obtenemos la matriz $$\begin{pmatrix}1 & 2 & 0 & 1\\ 0 & -2 & 2 & -2\\ 0& 0 & 0 & 0\end{pmatrix}.$$ De aquí, sin necesidad de terminar la reducción gaussiana, podemos ver que habrá exactamente dos filas no cero. De este modo, el rango de la transformación es $2$.

$\triangle$

Propiedades del rango

Demostremos ahora algunas propiedades teóricas importantes acerca del rango de una transfromación lineal.

Proposición. Sean $U$, $V$ y $W$ espacios de dimensión finita. Sean $S:U\to V$, $T:V\to W$, $T’:V\to W$ transformaciones lineales. Entonces:

  1. $\rank(T)\leq \dim V$
  2. $\rank(T)\leq \dim W$
  3. $\rank(T\circ S)\leq \rank(T)$
  4. $\rank(T\circ S)\leq \rank(S)$
  5. $\rank(T+T’)\leq \rank(T) + \rank(T’)$

Demostración. (1) Pensemos a $T$ como una transformación $T:V\to \Ima(T)$. Haciendo esto, $T$ resulta ser suprayectiva, y por un resultado anterior tenemos que $\dim V\geq \dim \Ima T = \rank (T)$.

(2) Sabemos que $\Ima (T)$ es un subespacio de $W$, así que $\rank(T)=\dim \Ima T \leq \dim W$.

(3) La imagen de $T$ contiene a la imagen de $T\circ S$, pues cada vector de la forma $T(S(v))$ es de la forma $T(w)$ (para $w=S(v)$). Así, \begin{align*}\rank(T) &=\dim \Ima T \geq \dim \Ima T\circ S\\ &= \rank (T\circ S).\end{align*}

(4) La función $T\circ S$ coincide con la restricción $T_{\Ima S}$ de $T$ a $\Ima S$. Por el inciso (1), $\rank(T_{\Ima S})\leq \dim \Ima S = \rank(S)$, así que $\rank (T\circ S) \leq \rank(S)$.

(5) Tenemos que $\Ima (T+T’) \subseteq \Ima T + \Ima T’$. Además, por un corolario de la fórmula de Grassman, sabemos que
\begin{align*}
\dim (\Ima T + \Ima T’)&\leq \dim \Ima T + \dim \Ima T’\\
&= \rank(T) + \rank(T’).
\end{align*}

Así,
\begin{align*}
\rank(T+T’)&\leq \rank(\Ima T + \Ima T’)\\
&\leq \rank(T)+\rank(T’).
\end{align*}

$\square$

Proposición. Sean $R:U\to V$, $T:V\to W$ y $S:W\to Z$ transformaciones lineales con $R$ suprayectiva y $S$ inyectiva. Entonces $$\rank(S\circ T\circ R)=\rank (T).$$

Dicho de otra forma «composición por la izquierda con transformaciones inyectivas no cambia el rango» y «composición por la derecha con transformaciones suprayectivas no cambia el rango». Un corolario es «composición con transformaciones invertibles no cambia el rango».

Demostración. De la proposición anterior, tenemos que $\rank(S\circ T)\leq \rank (T)$. La restricción $S_{\Ima T}$ de $S$ a la imagen de $T$ es una transformación lineal de $\Ima T$ a $\Ima (S\circ T)$ que es inyectiva, de modo que $\dim \Ima T \leq \dim \Ima (S\circ T)$, que es justo $\rank(T)\leq \rank(S\circ T)$, de modo que tenemos la igualdad $\rank(S\circ T)=\rank (T)$.

Como $R$ es suprayectiva, $\Ima R= V$, de modo que $\Ima(S\circ T \circ R)=\Ima(S\circ T)$. Así, \begin{align*}\rank (S\circ T \circ R) &= \rank (S\circ T)\\&=\rank(T).\end{align*}

$\square$

Teorema de rango-nulidad

Una transformación lineal $T:V\to W$ determina automáticamente dos subespacios de manera natural: el kernel $\ker T$ y la imagen $\Ima T$. Resulta que las dimensiones de $\ker T$, de $\Ima T$ y de $V$ están fuertemente relacionadas entre sí.

Teorema. Sean $V$ y $W$ espacios de dimensión finita. Sea $T:V\to W$ una transformación lineal. Entonces $$\dim\ker T + \rank(T) = \dim V.$$

Demostración. Supongamos que $\dim V=n$ y $\dim \ker T = k$. Queremos mostrar que $\rank(T)=n-k$. Para ello, tomemos una base $B$ de $\ker T$ y tomemos $B’=\{v_1,\ldots,v_{n-k}\}$ tal que $B\cup B’$ sea base de $V$. Basta mostrar que $T(B’)=\{T(v_1),\ldots,T(v_{n-k})\}\subset \Ima T$ es base de $\Ima T$. Sea $U$ el generado por $B’$, de modo que $V=U \oplus \ker T$.

Veamos que $T(B’)$ es generador de $\Ima T$. Tomemos $T(v)$ en $\Ima T$. Podemos escribir $v=z+u$ con $z\in \ker T$ y $u\in U$. Así, $T(v)=T(z)+T(u)=T(u)$, y este último está en el generado por $T(B’)$.

Ahora veamos que $T(B’)$ es linealmente independiente. Si $$\alpha_1T(v_1)+\ldots+\alpha_{n-k}T(v_{n-k})=0,$$ entonces $T(\alpha_1v_1+\ldots+\alpha_{n-k}v_{n-k})=0$, de modo que $\alpha_1v_1+\ldots+\alpha_{n-k}v_{n-k}$ está en $U$ y en $\ker T$, pero la intersección de estos espacios es $\{0\}$. Como esta combinación lineal es $0$ y $B’$ es linealmente independiente, $\alpha_1=\ldots=\alpha_n=0$.

De esta forma, $T(B’)$ es linealmente independiente y genera a $\Ima T$, de modo que $\rank(T) =|B’|=n-k$.

$\square$

Ejemplo. Consideremos de nuevo la transformación lineal $T:\mathbb{R}^3\to M_{2}(\mathbb{R})$ que manda $(x,y,z)$ a $$\begin{pmatrix}x+y-z & 2x \\ 2y-2z & x+z-y\end{pmatrix}.$$ Muestra que $T$ no es inyectiva.

Solución. Ya determinamos previamente que esta transformación tiene rango $2$. Por el teorema de rango-nulidad, su kernel tiene dimensión $1$. Así, hay un vector $v\neq (0,0,0)$ en el kernel, para el cual $T(v)=0=T(0)$, de modo que $T$ no es inyectiva.

$\square$

Problema. Demuestra que para cualquier entero $n$ existe una terna $(a,b,c)\neq (0,0,0)$ con $a+b+c=0$ y tal que $$\int_0^1 at^{2n}+bt^n+c \,dt = 0.$$

Solución. Podríamos hacer la integral y plantear dos ecuaciones lineales. Sin embargo, daremos argumentos dimensionales para evitar la integral. Consideremos las transformaciones lineales $T:\mathbb{R}^3\to \mathbb{R}$ y $S:\mathbb{R}^3\to \mathbb{R}$ dadas por
\begin{align*}
T(x,y,z)&=\int_0^1 xt^{2n}+yt^n+z \,dt\\
S(x,y,z)&=x+y+z.
\end{align*}
Notemos que $T(0,0,1)=\int_0^1 1\, dt = 1=S(0,0,1)$, de modo que ni $T$ ni $S$ son la transformación $0$. Como su rango puede ser a lo más $\dim\mathbb{R}=1$, entonces su rango es $1$. Por el teorema de rango-nulidad, $\dim \ker S= \dim \ker T = 2$. Como ambos son subespacios de $\mathbb{R}^3$, es imposible que $\ker S \cap \ker T=\{0\}$, de modo que existe $(a,b,c)$ no cero tal que $T(a,b,c)=S(a,b,c)=0$. Esto es justo lo que buscábamos.

$\square$

Rango para matrices

Definición. El rango de una matriz $A$ en $M_{m,n}(F)$ es el rango de la transformación lineal asociada de $F^n$ a $F^m$ dada por $X\mapsto AX$. Lo denotamos por $\rank(A)$.

A partir de esta definición y de las propiedades de rango para transformaciones lineales obtenemos directamente las siguientes propiedades para rango de matrices.

Proposición. Sean $m$, $n$ y $p$ enteros. Sea $B$ una matriz en $M_{n,p}(F)$ y $A$, $A’$ matrices en $M_{m,n}(F)$. Sea $P$ una matriz en $M_{n,p}(F)$ cuya transformación lineal asociada es suprayectiva y $Q$ una matriz en $M_{r,m}(F)$ cuya transformación lineal asociada es inyectiva. Entonces:

  1. $\rank(A)\leq \min(m,n)$
  2. $\rank(AB)\leq \min(\rank(A),\rank(B))$
  3. $\rank(A+A’)\leq \rank(A) + \rank(A’)$
  4. $\rank(QAP) = \rank(A)$

Como discutimos anteriormente, el rango de una transformación se puede obtener aplicando la transformación a una base y viendo cuál es el máximo subconjunto de imágenes de elementos de la base que sea linealmente independiente. Si tomamos una matriz $A$ en $M_{m,n}(F)$, podemos aplicar esta idea con los vectores $e_1,\ldots,e_n$ de la base canónica de $F^{n}$. Como hemos visto con anterioridad, para cada $i=1,\ldots, n$ tenemos que el vector $Ae_i$ es exactamente la $i$-ésima columna de $A$. Esto nos permite determinar el rango de una matriz en términos de sus vectores columna.

Proposición. El rango de una matriz en $M_{m,n}(F)$ es igual a la dimensión del subespacio de $F^m$ generado por sus vectores columna.

Problema. Determina el rango de la matriz $$\begin{pmatrix} 3 & 1 & 0 & 5 & 0\\ 0 & 8 & 2 & -9 & 0\\ 0 & -1 & 0 & 4 & -2\end{pmatrix}.$$

Solución. Como es una matriz con $3$ filas, el rango es a lo más $3$. Notemos que entre las columnas están los vectores $(3,0,0)$, $(0,2,0)$ y $(0,0,-2)$, que son linealmente independientes. De esta forma, el rango de la matriz es $3$.

$\triangle$

A veces queremos ver que el rango de un producto de matrices es grande. Una herramienta que puede servir en estos casos es la desigualdad de Sylvester.

Problema (Desigualdad de Sylvester). Muestra que para todas las matrices $A$, $B$ en $M_n(F)$ se tiene que $$\rank(AB)\geq \rank(A)+\rank(B)-n.$$

Solución. Tomemos $T_1:F^n\to F^n$ y $T_2:F^n\to F^n$ tales que $T_1(X)=AX$ y $T_2(X)=BX$. Lo que tenemos que probar es que $$\rank(T_1\circ T_2) \geq \rank(T_1) + \rank(T_2) – n.$$

Consideremos $S_1$ como la restricción de $T_1$ a $\Ima T_2$. Tenemos que $\ker S_1 \subset \ker T_1$, así que $\dim \ker S_1 \leq \dim \ker T_1$. Por el teorema de rango-nulidad en $S_1$, tenemos que
\begin{align*}
rank(T_2) &= \dim \Ima T_2 \\
&= \dim \ker S_1 + \rank(S_1) \\
&= \dim \ker S_1 + \rank(T_1\circ T_2)\\
&\leq \dim \ker T_1 + \rank(T_1\circ T_2),
\end{align*} así que $$\rank(T_2)\leq \dim \ker T_1 + \rank(T_1\circ T_2).$$

Por el teorema de rango-nulidad en $T_1$ tenemos que $$\dim \ker T_1 + \rank(T_1)=n.$$

Sumando la desigualdad anterior con esta igualdad obtenemos el resultado.

$\square$

El teorema $PJQ$ (opcional)

El siguiente resultado no se encuentra en el temario usual de Álgebra Lineal I. Si bien no formará parte de la evaluación del curso, recomendamos fuertemente conocerlo y acostumbrarse a usarlo pues tiene amplias aplicaciones a través del álgebra lineal.

Teorema (Teorema PJQ). Sea $A$ una matriz en $M_{m,n}(F)$ y $r$ un entero en $\{0,\ldots,\min(m,n)\}$. El rango de $A$ es igual a $r$ si y sólo si existen matrices invertibles $P\in M_m(F)$ y $Q\in M_n(F)$ tales que $A=PJ_rQ$, en donde $J_r$ es la matriz en $M_{m,n}$ cuyas primeras $r$ entradas de su diagonal principal son $1$ y todas las demás entradas son cero, es decir, en términos de matrices de bloque, $$J_r=\begin{pmatrix}
I_r & 0 \\
0 & 0
\end{pmatrix}.$$

No damos la demostración aquí. Se puede encontrar en el libro de Titu Andreescu, Teorema 5.68. Veamos algunas aplicaciones de este teorema.

Problema 1. Muestra que una matriz tiene el mismo rango que su transpuesta.

Solución. Llamemos $r$ al rango de $A$. Escribimos $A=PJ_rQ$ usando el teorema $PJQ$, con $P$ y $Q$ matrices invertibles. Tenemos que $^tA=^tQ\, ^tJ_r \,^tP$, con $^tQ$ y $^tP$ matrices invertibles. Además, $^t J_r$ es de nuevo de la forma de $J_r$. Así, por el teorema $PJQ$, tenemos que $^t A$ es de rango $r$.

Combinando el problema anterior con el resultado del rango de una matriz en términos de sus vectores columna obtenemos lo siguiente.

Proposición. El rango de una matriz en $M_{m,n}(F)$ es igual a la dimensión del subespacio de $F^n$ generado por sus vectores renglón.

Terminamos esta entrada con una aplicación más del teorema $PJQ$.

Problema 2. Muestra que una matriz $A$ de rango $r$ se puede escribir como suma de $r$ matrices de rango $1$. Muestra que es imposible hacerlo con menos matrices.

Solución. Expresamos $A=PJ_rQ$ usando el teorema $PJQ$. Si definimos $A_i=PE_{ii}Q$ para $i=1,\ldots,r$, donde $E_{ii}$ es la matriz cuya entrada $(i,i)$ es uno y las demás cero, claramente tenemos que $J_r=E_{11}+E_{22}+\ldots+E_{rr}$, por lo que $$A=PJ_rQ=A_1+A_2+\ldots+A_r.$$ Además, como $E_{ii}$ es de rango $1$, por el teorema $PJQ$ cada matriz $A_i$ es de rango $1$.

Veamos que es imposible con menos. Si $B_1,\ldots,B_s$ son matrices de rango $1$, como el rango es subaditivo tenemos que $\rank (B_1+\ldots+B_s)\leq s$. Así, si sumamos menos de $r$ matrices, no podemos obtener a $A$.

$\square$

Más adelante…

Esta entrada es solamente una breve introducción al concepto de rango y a algunas propiedades que pueden ser de utilidad al momento de calcular el rango de una matriz o una transformación lineal. Más adelante, veremos que el rango de una matriz está también relacionado con las soluciones de su sistema lineal homogéneo asociado.

El teorema de rango-nulidad es fundamental para el álgebra lineal. Muchas veces necesitamos calcular el rango de la imagen de una transformación lineal, pero es mucho más fácil calcular la dimensión de su kernel. O viceversa. En estas situaciones es muy importante recordar la forma en la que dicho teorema las relaciona.

Con este tema termina la segunda unidad del curso. Ahora estudiaremos aspectos un poco más geométricos de espacios vectoriales. En la siguiente unidad, hablaremos de dualidad, ortogonalidad, formas bilineales y productos interiores.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Termina de hacer la reducción gaussiana del primer ejemplo.
  • Sea $T$ una transformación de un espacio vectorial $V$ de dimensión finita a si mismo. Usa el teorema de rango-nulidad para mostrar que si $T$ es inyectiva o suprayectiva, entonces es biyectiva.
  • Determina el rango de la matriz $$\begin{pmatrix} 0 & 0 & 0 & 8 & 3\\ 7 & 8 & -1 & -2 & 0\\ 3 & -1 & 4 & 4 & -9\end{pmatrix}.$$
  • Demuestra que aplicar operaciones elementales a una matriz no cambia su rango.
  • Demuestra que matrices similares tienen el mismo rango.
  • Demuestra por inducción que para matrices $A_1,\ldots, A_n$ del mismo tamaño tenemos que $$\rank (A_1+\ldots+A_n)\leq \sum_{i=1}^n \rank(A_i).$$
  • Escribe la demostración de la última proposición de la sección del teorema $PJQ$
  • Revisa la demostración del teorema de descomposición $PJQ$ en el libro de Titu Andreescu.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»