Archivo de la categoría: Matemáticas

Posts de matemáticas, la ciencia más cercana a las artes.

Cálculo Diferencial e Integral III: Formas lineales y formas bilineales

Por Alejandro Antonio Estrada Franco

Introducción

Hasta ahora hemos cubierto a modo de repaso varios temas de álgebra lineal relacionados con sistemas de ecuaciones lineales, transformaciones lineales, sus matrices asociadas y más. En esta y las entradas que siguen recordaremos más herramientas de álgebra lineal que serán de utilidad para nuestro contenido de diferenciabilidad. Hablaremos de las formas lineales de $\mathbb{R}^n$, de sus formas bilineales y de sus formas cuadráticas.

Como es usual, este contenido cubre sólo por encima lo que se vería en un curso completo de álgebra lineal, en donde se ahonda en varias demostraciones, se dan más ejemplos y se tratan espacios vectoriales más generales. Para estos temas en específico, las siguientes entradas pueden ser un buen punto de partida:

Formas lineales

Las formas lineales son transformaciones lineales, pero son unas muy específicas: las que caen en $\mathbb{R}$.

Definición. Una transformación lineal $\bar{\phi} :\mathbb{R}^n\to \mathbb{R}$ se le llama forma lineal o funcional lineal.

Definición. Llamaremos al espacio vectorial $\mathcal{L}(\mathbb{R}^n,\mathbb{R})$ el espacio dual de $\mathbb{R}^n$ y lo denotamos por ${\mathbb{R}^n}^\ast$.

Hay una relación directa entre las bases de $\mathbb{R}^n$ y las de ${\mathbb{R}^n}^\ast$. Como los elementos de ${\mathbb{R}^n}^\ast$ son transformaciones lineales, basta decir qué les hacen a los elementos de una base. De aquí se motiva la siguiente definición.

Definición. Tomemos una base $\beta=\{ \bar{e}_{1},\dots ,\bar{e}_{n} \}$ para $\mathbb{R}^n$. Sean $\bar{\phi} _{1},\dots ,\bar{\phi} _{n}\in {\mathbb{R}^n}^\ast$ definidas como sigue: \[ \bar{\phi} _{i}(\bar{e}_{j})=\left\lbrace\begin{array}{c} 1\hspace{1cm}si\hspace{1cm}i=j \\ 0\hspace{1cm}si\hspace{1cm}i\neq j. \end{array}\right. \]

A $\bar{\phi} _{1},\dots ,\bar{\phi} _{n}$ le llamamos la base dual a $\beta$ y la denotamos por $\beta^\ast$.

El nombre queda justificado por el siguiente resultado.

Teorema. Se tiene que $\beta^\ast=\{\bar{\phi} _{1},\dots ,\bar{\phi} _{n}\}$ es una base para ${\mathbb{R}^n}^\ast$.

Demostración. Debemos mostrar que $\beta^\ast$ es generador e independiente. Veremos que es generador, y la independencia lineal quedará de tarea moral. Tomemos $\bar{\alpha} \in {\mathbb{R}^n}^\ast$. Supongamos que para cada $j$ se tiene $\bar{\alpha} (\bar{e}_{j})=r_{j}$. Afirmamos que $\bar{\alpha} = r_{1}\bar{\phi} _{1} +\dots +r_{n}\bar{\phi} _{n}$.

Para mostrar la igualdad anterior, que es una igualdad de formas lineales, veremos la igualdad vector a vector. Sea $\bar{v}\in \mathbb{R}^n$. Calcularemos $\bar{\alpha} (\bar{v})$. Para ello, expresamos a $\bar{v}$ como combinación de elementos de $\beta$: $$\bar{v}=\sum _{i=1}^{n}x_{i}\bar{e}_{i}.$$

Al aplicar $\alpha$ obtenemos:

\begin{align*}
\bar{\alpha} (\bar{v})&=\bar{\alpha} \left( \sum _{i=1}^{n}x_{i}\bar{e}_{i} \right)\\
&=\sum_{i=1}^{n}x_{i}\bar{\alpha} (\bar{e}_{i})\\
&=\sum_{i=1}^{n}x_{i}r_{i}\\
&=\sum_{i=1}^{n}x_{i}r_{i}\bar{\phi} _{i}(\bar{e}_{i})\\
&= \sum_{i=1}^{n}r_{i}\bar{\phi }_{i}(x_{i}\bar{e}_{i})\\
&=\sum_{i=1}^{n}r_{i}\bar{\phi} _{i}\left( \sum_{k=1}^{n}x_{k}\bar{e}_{k} \right) \quad \text{(agregando varios $0$)}\\
&=\left( r_{1}\bar{\phi} _{1}+\dots +r_{n}\bar{\phi} _{n}\right)\left( \sum_{k=1}^{n}x_{k}\bar{e}_{k}\right)\\
&=\left( r_{1}\bar{\phi} _{1}+\dots +r_{n}\bar{\phi} _{n}\right)(\bar{v})\\
\end{align*}

Así se da la igualdad $\bar{\alpha} = r_{1}\bar{\phi} _{1} +\dots +r_{n}\bar{\phi} _{n}$, por lo tanto $\beta^\ast$ es un conjunto generador ${\mathbb{R}^n}^\ast$

$\square$

De la demostración podemos obtener algo más. Supongamos que tomamos $\bar{v}\in \mathbb{R}^n$ y una base $\beta=\{\bar{e}_1,\ldots,\bar{e}_n\}$. Supongamos que $\bar{v}=\sum_{i=1}^{n}x_{i}\bar{e}_{i}$. A partir de aquí, podemos construir una forma lineal $\psi(\bar{v})$ que cumple $\psi(\bar{v})=\sum_{i=1}^n x_i \bar{\phi}_i$. Se puede verificar que la asignación $\psi: \mathbb{R}^n\to {\mathbb{R}^n}^\ast$ es un isomorfismo. De aquí, obtenemos que $\mathbb{R}^n\cong {\mathbb{R}^n}^\ast$.

Hasta ahora, de cualquier base de $\mathbb{R}^n$ se puede obtener una base dual, que es base de ${\mathbb{R}^n}^\ast$. ¿Podemos hacer lo inverso? El siguiente resultado dice que sí, si tenemos una base para ${\mathbb{R}^n}^\ast$, podemos construir una para $\mathbb{R}^n$ muy conveniente.

Teorema. Dada $\beta^\ast =\{\bar{\phi} _{1},\dots ,\bar{\phi} _{n}\}$ base para ${\mathbb{R}^n}^\ast$, existe $\beta =\{\bar{w}_{1},\dots , \bar{w}_{n}\}$ base para $\mathbb{R}^n$; tal que $\bar{\phi} _{i}(\bar{w}_{j})=\delta _{ij}$ donde: \[ \delta_{ij}= \left\lbrace\begin{array}{c} 1\hspace{1cm}si\hspace{1cm}i=j \\ 0\hspace{1cm}si\hspace{1cm}i\neq j, \end{array} \right . \]

es decir, tal que $\beta^\ast$ es justo la base dual de $\beta$.

Demostración. Para construir la base deseada, hacemos los siguientes pasos. Cada paso está esbozado. Los detalles quedan como tarea moral.

  1. Primero notemos que para cada $i=1,\dots ,n$ se tiene, por el teorema de la dimensión, que:
    \begin{align*}
    n&=\dim\mathbb{R}^n\\
    &=\dim(\ker(\bar{\phi}_{i}))+\dim(\text{Im}(\bar{\phi} _{i}))\\
    &=\dim(\ker(\bar{\phi}_{i}))+1,
    \end{align*}
    en donde usamos que $\bar{\phi}_i$ es forma lineal no cero (por estar en una base), de donde su imagen tiene dimensión $1$. De aquí $\dim(\ker(\bar{\phi} _{i}))=n-1$. Si tomamos una base de $\ker(\bar{\phi}_i)$, tiene $n-1$ elementos y por lo tanto podemos completarla a una base de $\mathbb{R}^n$ agregando un cierto vector $\bar{v}_i$.
  2. Afirmamos que $\bar{v}_1,\bar{v}_2,\ldots,\bar{v}_n$ elegidos de la manera anterior son un conjunto linealmente independiente. En efecto, al tener una combinación lineal $$\alpha_1\bar{v}_1+\ldots + \alpha_n\bar{v}_n=\bar{0},$$ podemos para cada $i=1,\ldots,n$ aplicar $\bar{\phi}_i$ a ambos lados. Del lado izquierdo se eliminarán todos términos excepto $\alpha_i\bar{\phi}_i(\bar{v}_i)$. Como $\bar{\phi}_i(\bar{v}_i)\neq 0$, entonces $\alpha_i=0$ para todo $i=1,\ldots,n$. Como $\bar{v}_1,\ldots,\bar{v}_n$ son linealmente independientes, y son $n$, entonces son una base de $\mathbb{R}^n$.
  3. Ahora, pensemos que $\bar{\phi}_i(\bar{v}_i)=r_i\neq 0$. Podemos dividir entre $r_i$ para obtener $\bar{\phi}_i\left(\frac{\bar{v}_i}{r_i}\right)=1$.
  4. De todo lo anterior, $\{\bar{v}_{1}/r_{1},\dots ,\bar{v}_{n}/r_{n} \}$ es la base buscada.

$\square$

A la base conformada por los vectores $\bar{w}_1,\ldots,\bar{w}_n$ le llamamos la base primal de $\beta^\ast$.

En estos dos teoremas hemos desarrollado técnicas para construir bases para un espacio y su dual que se coordinan haciendo simples las evaluaciones de las funciones de la base dual sobre las de la base del espacio original. Entre estas dos bases para el espacio y su dual tenemos un par de ecuaciones que las correlacionan muy convenientemente.

Teorema. Sean $\{ \bar{v}_{1},\dots \bar{v}_{n}\}$ una base de $\mathbb{R}^n$ y $\{ \bar{\phi} _{1},\dots \bar{\phi} _{n} \}$ la base dual de ${\mathbb{R}^n}^\ast$. Para todo $\bar{u}\in \mathbb{R}^n$ tenemos $$\bar{u}=\sum_{i=1}^n\bar{\phi} _{i}(\bar{u})\bar{v}_{i}, $$ y para todo $\Phi \in {\mathbb{R}^n}^\ast$ tenemos $$\Phi =\sum_{i=1}^n\Phi (\bar{v}_{i})\bar{\phi} _{i}.$$

Demostración. Sea $\bar{u}\in \mathbb{R}^n$, supongamos $\bar{u}=\sum_{i}x_{i}\bar{v}_{i}$. Para cada $j$ entre $1$ y $n$, tenemos
\begin{align*}
\bar{\phi} _{j}(\bar{u})&=\sum_{i=1}^n x_{i}\bar{\phi} _{j}(\bar{v}_{i})\\
&=x_{j}\bar{\phi} _{j}(\bar{v}_{j})\\
&=x_{j}.
\end{align*}

De esta manera $x_{j}=\bar{\phi} _{j}(\bar{u})$, por tanto obtenemos $\bar{u}=\sum_{i=1}^n\bar{\phi} _{i}(\bar{u})\bar{v}_{i}$.

De manera similar, sea $\Phi \in {\mathbb{R}^n}^\ast$, supongamos $\Phi =\sum_{i}y_{i}\bar{\phi} _{i}$. Para cada $j$ entre $1$ y $n$, tenemos
\begin{align*}
\Phi (\bar{v}_{j})&=\sum_{i=1}^n y_{i}\bar{\phi} _{i}(\bar{v}_{j})\\
&=y_{j}\bar{\phi} _{j}(\bar{v}_{j})\\
&=y_{j}.
\end{align*}

Así hemos obtenido $\Phi (\bar{v}_{j})=y_{j}$, con lo que concluimos $\Phi = \sum_{i=1}^n \Phi (\bar{v}_{i})\bar{\phi} _{i}$.

$\square$

Formas bilineales

Este desarrollo teórico nos permite abordar las formas bilineales tal y como las usaremos mas adelante.

Definición. Sea $\mathbb{R}^n$ un espacio vectorial sobre $\mathbb{R}$. Una forma bilineal es una función $b:\mathbb{R}^n\times \mathbb{R}^n\to \mathbb{R}$ que satisface:

  1. $b(r\bar{u}_{1}+\bar{u}_{2},\bar{v})=rb(\bar{u}_{1},\bar{v})+b(\bar{u}_{2},\bar{v})$ para todo real $r$ y vectores $\bar{u}_1,\bar{u}_2,\bar{v}$ en $\mathbb{R}^n$, a lo que llamamos linealidad en la primera entrada.
  2. $b(\bar{u},r\bar{v}_{1}+\bar{v}_{2})=rb(\bar{u},\bar{v}_{1})+b(\bar{u},\bar{v}_{2})$ para todo real $r$ y vectores $\bar{v}_1,\bar{v}_2,\bar{u}$ en $\mathbb{R}^n$ a lo que llamamos linealidad en la segunda entrada.

Ejemplo. Sea $A\in M_n\left( \mathbb{R}\right)$. A partir de la matriz $A$ puede construirse una forma bilineal $b_{A}$ sobre $\mathbb{R}^{n}$. Para los vectores $\bar{x}=(x_{1},\dots ,x_{n})$ y $\bar{y}=(y_{1},\dots ,y_{n})$, queda definida como sigue

$$b_{A}(\bar{x},\bar{y})=\bar{x}^{T}A\bar{y}.$$

Realizando las cuentas matriciales, tenemos:

\begin{align*}
b_{A}(\bar{x},\bar{y})&=\begin{pmatrix}x_{1}\dots x_{n}\end{pmatrix} \begin{pmatrix} a_{11} & \dots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{n1} & \dots & a_{nn} \end{pmatrix}\begin{pmatrix}y_{1} \\ \vdots \\ y_{n} \end{pmatrix}\\
&=\sum_{i,j=1}^{n}x_{i}a_{ij}y_{j}.
\end{align*}

Queda como tarea moral verificar que $f_{A}$ en efecto es bilineal, lo que se recomienda verificar en la expresión $\bar{x}^{T}A\bar{y}$.

Un ejemplo todavía más concreto sería tomar la matriz $A=\begin{pmatrix} 2 & 5 \\ 3 & 4 \end{pmatrix}$. Al realizar las cuentas matriciales obtenemos:

$$\begin{pmatrix} x_1 & x_2 \end{pmatrix}\begin{pmatrix} 2 & 5 \\ -3 & 4 \end{pmatrix} \begin{pmatrix} y_1 \\ y_2 \end{pmatrix} = 2x_1y_1 + 5x_1y_2 – 3x_2y_1 + 4 x_2y_2.$$

$\triangle$

El espacio de formas bilineales

Denotaremos por $B(\mathbb{R}^n)$ al conjunto de las formas bilineales en $\mathbb{R}^n$. Le damos a $B(\mathbb{R}^n)$ estructura de espacio vectorial con las operaciones siguientes: $$(b_1+b_2)(\bar{u},\bar{v})=b_1(\bar{u},\bar{v})+b_2(\bar{u},\bar{v}),$$ y $$(rb)(\bar{u},\bar{v})=rb(\bar{u},\bar{v}),$$ para todos los $b_1,b_2,b\in B(\mathbb{R}^n)$ y $r\in \mathbb{R}$.

Con la teoría que tenemos hasta ahora, podemos construir fácilmente una base para el espacio $B(\mathbb{R}^n)$.

Teorema. Sea $\{\bar{\phi} _{1},\dots ,\bar{\phi} _{n}\}$ una base del espacio dual ${\mathbb{R}^n}^\ast$. Entonces $$\mathbb{B}=\{b_{ij}|i,j=1,\dots ,n \}$$ es una base para $B(\mathbb{R}^n)$, donde $$b_{ij}(\bar{u},\bar{v})=\bar{\phi} _{i}(\bar{u})\bar{\phi} _{j}(\bar{v}).$$ De este modo $\dim B(\mathbb{R}^n)=n^{2}$.

Demostración. Para $\{ \bar{\phi} _{1},\dots ,\bar{\phi} _{n}\}$ podemos construir su base primal $\{\bar{v}_{1},\dots ,\bar{v}_{n}\}$,es decir, base de $\mathbb{R}^n$ tal que $\bar{\phi} _{i}(\bar{v}_{j})=\delta _{ij}$, para todo $i,j$.

Veamos que las formas bilineales propuestas en efecto son un conjunto generador. Sea $b\in B(\mathbb{R}^n)$. Para $\bar{u},\bar{v}$ arbitrarios en $\mathbb{R}^n$, calculemos $b(\bar{u},\bar{v})$. Para ello recordemos que $$\bar{u}=\sum_{i=1}^n\bar{\phi}_{i}(\bar{u})\bar{v}_{i}$$ y $$\bar{v}=\sum_{j=1}^n\bar{\phi} _{j}(\bar{v})v_{ij}.$$ Usando esto:

\begin{align*}
b(\bar{u},\bar{v})&=b\left( \sum_{i=1}^n\phi _{i}(\bar{u})\bar{v}_{i}, \sum_{j=1}^n\bar{\phi} _{j}(\bar{v})\bar{v}_{j} \right)\\
&=\sum_{i=1}^n\bar{\phi} _{i}(\bar{u})b\left( \bar{v}_{i}, \sum_{j=1}^n\bar{\phi} _{j}(\bar{v})\bar{v}_{j} \right)\\
&=\sum_{i=1}^n\bar{\phi} _{i}(\bar{u})\sum_{j=1}^n\bar{\phi} _{j}(\bar{v})b(\bar{v}_{i}, \bar{v}_{j})\\
&=\sum_{i=1}^n\sum_{j=1}^n\bar{\phi} _{i}(\bar{u})\bar{\phi} _{j}(\bar{v})b(\bar{v}_{i}, \bar{v}_{j})\\
&=\sum_{i=1}^n\sum_{j=1}^n b_{ij}(\bar{u},\bar{v})b(\bar{v}_{i},\bar{u}_{j}).
\end{align*}

Así vemos que $b$ es combinación lineal del conjunto $\mathbb{B}$. Concluimos que $\mathbb{B}$ es un conjunto generador de $B(\mathbb{R}^n)$. Para calcular la dimensión de $B(\mathbb{R}^n)$, falta todavía ver que $\mathbb{B}$ es linealmente independiente, lo cual queda como tarea moral (en la lista de ejercicios hay una sugerencia). Tras probar que $\mathbb{B}$ es linealmente independiente, se tiene que $\dim B(\mathbb{R}^n)=n^{2}$.

$\square$

Forma matricial de formas bilineales

En el ejemplo anterior vimos cómo a partir de una matriz $A$ podemos construir una forma bilineal $(\bar{x},\bar{y})\to \bar{x}^T A \bar{y}$ de $\mathbb{R}^n$. En realidad así se pueden obtener todas las formas bilineales.

Definición. Consideremos una forma bilineal $b:\mathbb{R}^n\times \mathbb{R}^n \to \mathbb{R}$. Tomemos una base $\beta=\{\bar{u}_1,\ldots ,\bar{u}_n\}$. Tomemos la matriz $\text{Mat}_\beta(b)$ en $M_n(\mathbb{R})$ cuya entrada $(i,j)$ es $f(\bar{u}_{i},\bar{v}_{j})$. Llamaremos a esta matriz la representación matricial de $f$ relativa a la base $\beta$.

La matriz $A:=\text{Mat}_\beta(b)$ representa a $f$ en el siguiente sentido. Se tiene que, para cualesquiera $\bar{u},\bar{v}$ en $\mathbb{R}^n$ se cumple que si los vectores de coordenadas de $\bar{u}$ y $\bar{v}$ en la base $\beta$ son $X=(x_1,\ldots,x_n)$ y $Y=(y_1,\ldots,y_n)$, entonces:

\begin{align*}
b(\bar{u},\bar{v})&=\sum_{i=1}^n\sum_{j=1}^n x_{i}y_{j}b(\bar{u}_{i},\bar{u}_{j})\\
&=\begin{pmatrix} x_{1} & \dots & x_{n}\end{pmatrix}A\begin{pmatrix}y_{1} \\ \vdots \\ y_{n} \end{pmatrix}\\
&=X^{T}A Y.
\end{align*}

Ejemplo. Tomemos la forma bilineal $b$ de $\mathbb{R}^2$ dada por $$b((x_1,x_2),(y_1,y_2))=5x_1y_2+3x_2y_1$$ (verifica que es forma bilineal). Tomemos la base $(1,1)$ y $(1,-1)$ de $\mathbb{R}^2$. Para encontrar la representación matricial de $b$ en esta base, debemos hacer los siguientes cálculos:

\begin{align*}
b((1,1),(1,1))&=8\\
b((1,1),(1,-1))&=-2\\
b((1,-1),(1,1))&=2\\
b((1,-1)(1,-1))&=-8\\
\end{align*}

De esta manera, la representación matricial es $$\begin{pmatrix} 8 & -2 \\ 2 & -8 \end{pmatrix}.$$

$\triangle$

Matrices congruentes y rango

Recordemos dos definiciones más.

Definición. El rango de una matriz es el número máximo de columnas (tratadas como vectores columna) linealmente independientes. La notación para una matriz $A$ será $\rank(A)$.

Definición. Sean $A$ y $B$ matrices en $M_n(\mathbb{R})$. Se dice que $B$ es congruente a $A$ si existe una matriz invertible $P$ tal que $B=P^{t}AP$.

Es sencillo mostrar que esta relación «es congruente a» es una relación de equivalencia, lo cual queda como tarea moral revisar.

Por resultados de rango de matrices, se cumple que el rango de una matriz no cambia si la multiplicamos por una matriz invertible. Si $A$ y $B$ son congruentes mediante la matriz $P$, tenemos que $B=P^t A P$. Como $P$ es invertible, $P^t$ también. Así, $B$ tiene el mismo rango que $A$.

Al igual que con las transformaciones lineales, la representación matricial de las formas bilineales depende de la base del espacio dominio que se considere. Pero tenemos una relación importante entre distintas representaciones matriciales de formas bilineales.

Teorema. Cualesquiera dos representaciones matriciales de una misma forma bilineal son congruentes.

Demostración. Consideremos $b:\mathbb{R}^n\times \mathbb{R}^n\to \mathbb{R}$ una forma bilineal. Tomemos $\beta=\{\bar{v}_{1},\dots ,\bar{v}_{n}\}$ y $\beta’=\{\bar{u}_{1},\dots ,\bar{u}_{n}\}$ dos bases para $\mathbb{R}^n$. Supongamos que para cada $i$ tenemos $$\bar{v}_{i}=\sum_{k=1}^{n}c_{ik}\bar{u}_{k}.$$

Así:
\begin{align*}
b(\bar{v}_{i},\bar{v}_{j})&=b\left( \sum_{k=1}^{n}c_{ik}\bar{u}_{k},\sum_{t=1}^{n}c_{jt}\bar{u}_{t} \right)\\
&=\sum_{k=1}^n\sum_{t=1}^n c_{ik}c_{jt}b(\bar{u}_{k},\bar{u}_{t}).
\end{align*}

Definamos $a’_{kt}=b(\bar{u}_{k},\bar{u}_{t})$, y tomemos $A’$ como la matriz en $M_n(\mathbb{R})$ cuya entrada $(k,t)$ es $a’_{kt}$. Tenemos entonces:

\[b(\bar{v}_{i},\bar{v}_{j})=\begin{pmatrix}c_{i1} & \dots & c_{in} \end{pmatrix}A’\begin{pmatrix}c_{j1} \\ \vdots \\ c_{jn} \end{pmatrix}. \]

Definamos a la matriz $C$ en $M_n(\mathbb{R})$ a aquella con entradas $(k,t)$ iguales a $c_{kt}$. Al variar sobre los posibles valores de $(i,j)$, la igualdad anterior nos dice que la entrada $(i,j)$ de la forma matricial $A$ de $b$ en la base $\beta$ es igual a la entrada $(i,j)$ de la matriz $C^tA’C$, en donde notamos que $A’$ es la forma matricial de $b$ en la base $\beta’$. Esto nos dice que $A=C^{t}A’C$. Así $A$ y $A’$ son congruentes.

$\square$

Con esto, podemos establecer la siguiente definición sin ambigüedades.

Definición. El rango de una forma bilineal $b$ en $\mathbb{R}^n$, escrito $\rank(b)$ se define como el rango de cualquiera de sus representaciones matriciales. Además decimos que $b$ es degenerada o no degenerada según sea $\rank(b)<\dim\mathbb{R}^n$ o $\rank(b)=\dim\mathbb{R}^n$, respectivamente.

Más adelante…

Esta entrada repasa los conceptos de formas lineales y bilineales. La siguiente entrada será nuestra última entrada de repaso de álgebra lineal. Lo que haremos es recordar cómo a partir de las formas bilineales podemos definir a las formas cuadráticas. Las formas cuadráticas también nos ayudarán a establecer ciertas propiedades de funciones al combinarlas con la noción de diferenciabilidad.

En esta entrada hablamos del rango de una matriz. Más adelante retomaremos este concepto, y lo usaremos cuando enunciemos el teorema del rango, un resultado crucial en diferenciabilidad.

Tarea moral

  1. Realiza los siguientes dos problemas:
    • Encuentra la base dual de la base $\{(1,2,3),(3,2,1),(1,-1,0)\}$ de $\mathbb{R}^3$ explícitamente.
    • Encuentra una base de $\mathbb{R}^3$ cuya base dual sean las formas lineales $l_1(x,y,z)=x$, $l_2(x,y,z)=3x-2$, $l_3(x,y,z)=x+y-z$.
  2. Completa los detalles en cada paso del teorema que nos dice cómo obtener una base primar para una base dual.
  3. En el teorema de bases para el espacio de formas bilineales, verifica que el conjunto de formas lineales propuestas es linealmente independiente. Sugerencia. Toma una combinación lineal igual a cero; luego evalúa en los vectores de la base $\{\bar{v}_{1},\dots ,\bar{v}_{n}\}$. Recuerda la definición de $b_{ij}$ y el efecto de evaluar $\bar{\phi} _{j}$ en $\bar{v}_{i}$.
  4. Revisa este enlace correspondiente al curso de Álgebra Lineal I de este blog para profundizar en el tema del rango de una transformación lineal y cómo se relaciona con el rango de una matriz.
  5. Demuestra que la relación «es congruente a» es una relación de equivalencia en $M_n(\mathbb{R})$.

Entradas relacionadas

Álgebra Moderna I: Primer Teorema de Isomorfía y Diagrama de Retícula

Por Cecilia del Carmen Villatoro Ramos

(Trabajo de titulación asesorado por la Dra. Diana Avella Alaminos)

Introducción

La estrella de esta entrada es el primero de los cuatro Teoremas de Isomorfía que veremos. Como el nombre indica, estos teoremas relacionan dos conjuntos a través de una isomorfía, pero no sólo eso, además en los conjuntos que se relacionan aparece un cociente de grupos. El primer teorema de isomorfía nos permite entender cómo están relacionados el dominio, el núcleo y la imagen de un homomorfismo de grupos, de forma similar al teorema de la dimensión en Álgebra lineal, que establece la relación entre el dominio, el núcleo y la imagen de una transformación lineal.

El Primer Teorema de Isomorfía se usa en la prueba del resto de los teoremas de isomorfía, así que al final de esta unidad te quedará muy claro cómo se usa y para qué sirve. Normalmente se usa definiendo un homomorfismo clave para que al aplicarlo en el grupo obtengamos los cocientes necesarios.

Si quieres reforzar algunos temas que usaremos mucho a lo largo de estas entradas, puedes revisar los conceptos de Subgrupo Normal, Cociente de grupos, Isomorfísmos y Núcleo e Imagen de un Homomorfismo. Será de mucha ayuda que los tengas presentes.

Por último, junto con los Teoremas de Isomorfía usaremos una ayuda visual llamada Diagrama de Retícula, es importante para describir las relaciones entre los distintos grupos, subgrupos y subgrupos normales que estaremos manejando.

El Teorema que vamos a tratar

Teorema. (Primer Teorema de Isomorfía)
Sean $G,\bar{G}$ grupos, $\varphi: G\to \bar{G}$ un homomorfismo. Entonces
\begin{align*}
G/\text{Núc }\varphi \cong \text{Im }\varphi.
\end{align*}

Demostración.
Sea $G,\bar{G}$ grupos, $\varphi: G\to \bar{G}$ un homomorfismo, $N =\text{Núc }\varphi$.

En la entrada anterior probamos que $N \unlhd G$, de modo que $G/\text{Núc }\varphi$ tiene estructura de grupo.

Para probar que $G/\text{Núc }\varphi$ y $\text{Im }\varphi$ son isomorfos, tenemos que dar un isomorfismo entre ellos. Primero construiremos una función que vaya de $G/N$ a $\text{Im }\varphi$. Sea
\begin{align*}
\psi : G/N &\to \text{Im }\varphi \\
a N &\mapsto \varphi(a) \quad \forall a \in G.
\end{align*}

Definiremos nuestra función $\psi$ como aquella que manda una clase $aN$ de $G/N$ a $\varphi(a)$, pero no queda claro si al tomar otro representante de la clase, digamos $b$, sucederá que $\varphi(a) = \varphi(b)$. Esto tenemos que probarlo.

Tomemos $a,b\in G$ tales que $aN = bN$. Entonces,

\begin{align*}
aN = bN &\Leftrightarrow a^{-1}b\in N \\
&\Leftrightarrow \varphi(a^{-1}b) = e_{\bar{G}}\\
& \Leftrightarrow \varphi(a^{-1}) \varphi(b) = e_{\bar{G}}\\
& \Leftrightarrow (\varphi(a))^{-1}\varphi(b) = e_{\bar{G}} &\text{Propiedades de homomorfismos}\\
& \Leftrightarrow \varphi(b) = \varphi(a).
\end{align*}
En realidad todas las equivalencias anteriores son producto de las propuedades de homomorfismos que ya vimos. Las implicaciones de ida ($\Rightarrow$) nos dicen que $\psi$ está bien definida, como queríamos probar. Pero las implicaciones de regreso ($\Leftarrow$) nos dicen algo más: nuestra $\psi$ es inyectiva.

Por lo tanto $\psi$ está bien definida y es inyectiva.

Ahora nos falta ver que en efecto $\psi$ es un homomorfismo y es suprayectiva.

Para ver que es un homomorfismo consideremos $a,b\in G$, entonces:
\begin{align*}
\psi(aNbN) = \psi(abN) = \varphi(ab) = \varphi(a)\varphi(b) = \psi(aN)\psi(bN).
\end{align*}
Lo anterior sale de la definición de $\psi$ y de que $\varphi$ es un homomorfismo. Así, $\psi$ es un homomorfismo.

Finalmente, si $c \in \text{Im }\varphi$, $c = \varphi(a)$ con $a\in G$. Entonces, por definición:
\begin{align*}
c = \varphi(a) = \psi(aN) \in \text{Im }\psi.
\end{align*}

Así, $\psi$ es suprayectiva.

Por lo tanto tenemos que $\psi$ es un homomorfismo inyectivo y suprayectivo, es decir, $\psi$ es un isomorfismo. En consecuencia, $G/N \cong \text{Im }\varphi$.

$\blacksquare$

Diagrama de retícula

A partir de las siguientes entradas comenzaremos a usar algo llamado diagrama de retícula. Este diagrama es una manera de representar la relación de ser subgrupo. Se escriben todos o algunos subgrupos de un grupo $G$, y se unen dos subgrupos $H$ y $K$ con una arista si $H$ es subgrupo de $K$, de modo que $H$ quede más abajo que $K$. De esta manera, si se consideran todos los sugrupos de $G$ el grupo $G$ aparece hasta arriba y el subrgupo $\{e\}$ hasta abajo del diagrama.

Veamos un ejemplo: Sea $G$ un grupo y $H,K$ subgrupos de $G$. Si consideramos $HK$, sabemos que es subgrupo de $G$, pero además, sabemos que $H\leq HK$ y $K\leq HK$. Por último, consideremos $H\cap K$, que es a su vez un subgrupo de $H$ y $K$.

Todo esto se puede resumir en el siguiente diagrama de retícula:

Diagrama de Retícula.

¿Por qué no unimos $H$ con $G$? Pues porque este diagrama es transitivo, es decir como $H \leq HK \leq G$, está implícito que $H \leq G$. Tampoco unimos un grupo consigo mismo.

Además, si un subgrupo es un subgrupo normal, anotaremos el símbolo $\unlhd$.

Observemos que si $H\unlhd G$, entonces todo elemento en $H$, al ser conjugado con elementos de $G$, sigue siendo un elemento de $H$. En particular, si conjugamos a un elemento de $H$ con un elemento de $HK$ seguimos obteniendo un elemento de $H$. Esto nos dice que $H$ también es normal en $HK$. En el diagrama, la propiedad de ser normal se escribe de la siguiente manera:

Diagrama de Retícula donde se muestra una relación de Subgrupo Normal.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Sea $G$ un grupo cíclico con $G = \left<a\right>$. Considera el homomorfosmo $\varphi: \z \to G$ dado por $\varphi(m) = a^m$ para toda $m\in \z$.
    • Si $a$ es de orden finito con $o(a) = n$ ¿qué concluyes al aplicar el 1er Teorema de Isomorfía? ¿Qué relación existe entre dos grupos cíclicos finitos de orden $n$?
    • Si $a$ es de orden infinito ¿qué concluyes al aplicar en 1er Teorema de Isomorfía? ¿Qué relación existe entre dos grupos cíclicos infinitos?
  2. Puedes revisar los siguientes videos que hablan de homomorfismos:

Más adelante…

Uno de los principales usos del Primer Teorema de Isomorfía es definiendo una $\varphi$ ideal para que el núcleo y la imágen de $\varphi$ sean justo lo que queremos probar. Esto lo veremos en la siguiente entrada, donde lo usamos para probar el Segundo Teorema de Isomorfía.

El diagrama de retícula se volverá fundamental sobretodo cuando veamos el Cuarto Teorema de Isomorfía, porque veremos cómo relacionar muchos subgrupos con grupos cocientes correspondientes.

Entradas relacionadas

Investigación de Operaciones: Forma canónica y forma estándar de un problema lineal (9)

Por Aldo Romero

Introducción

En las entradas anteriores hemos dado ejemplos de varios problemas de aplicación que pueden ser planteados mediante un problema de programación lineal. Una vez que llegamos a un modelo, se pueden tener restricciones de los tipos $\leq$, $=$ y $\geq$. Además, puede haber restricciones de signo sobre las variables. Puede que se les pida ser no positivas, no negativas o irrestrictas (no restringidas) en signo. Lo que haremos ahora es ver cómo podemos llegar a un cierto formato (forma estándar o forma canónica).

Forma canónica de un problema lineal

A continuación introducimos el primer formato que nos facilitará el trabajo.

Definición. Se dice que un problema de programación lineal está en forma canónica si cumple simultáneamente las siguientes tres propiedades:

  1. El problema es de maximización.
  2. Las restricciones del problema son todas del tipo $\leq$ (menor o igual).
  3. Las variables de decisión son no negativas.

Así, tenemos entonces que un problema en forma canónica se ve como sigue:

\begin{align*}
Max \quad z &= c_1x_1+\ldots+c_nx_n\\
s.a.&\\
&\left\{\begin{matrix} a_{11}x_1 + a_{12}x_2 + \ldots + a_{1n}x_n \leq b_1\\
a_{21}x_1+a_{22}x_2+\ldots + a_{2n}x_n \leq b_2\\
\vdots \\
a_{m1}x_1+a_{m2}x_2+\ldots+a_{mn}x_n\leq b_n. \\
x_1\geq 0, x_2\geq 0, \ldots, x_n\geq 0.\end{matrix}\right.
\end{align*}

En términos matriciales, esto podemos reescribirlo de manera mucho más compacta como sigue:

\begin{align*}
Max \quad z &= c\cdot x\\
s.a.&\\
Ax &\leq b\\
x &\geq 0,\\
\end{align*}

en donde:

  • $c=(c_1,\ldots,c_n)\in \mathbb R^n$ es el vector de costos (vector renglón)
  • $x = (x_1,\ldots,x_n)\in \mathbb R^n$ es el vector de variables de decisión (vector columna),
  • $A=[a_{ij}]$ es la matriz de restricciones, que es una matriz de $m \times n$ y
  • $b=(b_1,\ldots,b_m) \in \mathbb R^m$ es el vector de constantes que acotan las combinaciones lineales de variables.

Todo problema de programación lineal puede ser expresado en forma canónica; es decir, puede definirse un problema en forma canónica equivalente a él. En efecto:

  • Si el problema es de minimización, puede considerarse en vez de $z$ la función $z’ = -z$ y en el problema equivalente se busca maximizar $z’$.
  • Si una restricción es del tipo $\geq$ puede ser mutiplicada por -1 para obtener una del tipo $\leq$.
  • Una ecuación puede ser substituida por una desigualdad del tipo $\leq$ y otra del tipo $\geq$. Luego, la del tipo $\geq$ puede ser substituida por una del tipo $\leq$ como en el punto anterior.
  • Para una variable $x_i\leq 0$ puede definirse $x_i’ = -x_i$, resultando $x_i’ \geq 0$. Claramente hay una biyección entre elegir el valor de $x_i$ y $x_i’$.
  • Para una $x_i$ no restringida pueden ser definidas dos variables no negativas $x_i’$ y $x_i^\ast$ tales que $x_i’-x_i^\ast = x_i$. Para cualquier $x_i$ dado podemos construir dichas variables, y viceversa, para $x_i’$ y $x_i^\ast$ se puede construir $x_i$.

Ejemplo de pasar un problema a forma canónica

Transformaremos el siguiente modelo a su forma canónica
\begin{align*}
Min \quad z &= x_1-3x_2+7x_3\\
&s.a.\\
3x_1+&x_2+3x_3 &\leq 40\\
x_1+&9x_2-7x_3 &\geq 50\\
5x_1+&3x_2 &= 20\\
&5x_2 + 8x_3 &\leq 80\\
x_1, x_2 &\geq 0, \quad x_3 \quad libre.\\
\end{align*}

Primeramente se definen las variables no negativas $x_3’$ y $x_3^{\ast}$, tales que $x’_3-x_3^{\ast} = x_3$, con objeto de satisfacer el punto (3) de la definición. Para satisfacer el punto (1) se considera la función:
\begin{align*}
z’ &= -z \\&= -x_1+3x_2-7x_3\\&=-x_1+3 x_2-7 x’_3+7x_3^{\ast}
\end{align*}

y se busca maximiza ésta (equivalente a minimizar $z$). Finalmente se realizan cambios en las restricciones para satisfacer el punto (2). La primera y cuarta desigualdad cumplen con la definición por lo que no se modifican (más allá de la sustitución de $x_3$ por $x’_3-x_3^{\ast}$); la segunda desigualdad se multiplica por $-1$ para obtener una del tipo $\leq$: $$ x_1 + 9x_2 – 7x_3 \geq 50 \quad \Leftrightarrow \quad -x_1 – 9x_2 + 7x_3 \leq -50.$$

Substituyendo las nuevas variables se obtiene: $$-x_1-9x_2+7x’_3-7x_3^{\ast}\leq -50.$$

Para la tercera desigualdad se tiene lo siguiente:

\begin{align*}
5x_1+3x_2 &= 20\\
&\Leftrightarrow\\
5x_1 + 3x_2 \leq 20 \quad& y \quad 5x_1 + 3x_2 \geq 20\\
&\Leftrightarrow\\
5x_1 + 3x_2 \leq 20 \quad& y \quad -5x_1 – 3x_2 \leq -20.\\
\end{align*}

Finalmente el problema queda expresado en forma canónica como:

\begin{align*}
Max \quad z’ &= -x_1+3x_2-7x’_3+7x_3^{\ast}\\
&s.a.\\
3x_1+&x_2+3x’_3-3x_3^{\ast} &\leq 40\\
-x_1-&9x_2+7x’_3-7x_3^{\ast} &\leq -50\\
5x_1+&3x_2 &\leq 20\\
-5x_1-&3x_2 &\leq -20\\
&5x_2+8x’_3-8x_3^{\ast} &\leq 80\\
x_1, x_2&, x’_3, x_3^{\ast} \geq 0.\\
\end{align*}

Forma estándar de un problema lineal

Definición. Se dice que un problema de programación lineal está en forma estándar si

  1. Todas las restricciones son ecuaciones.
  2. Todas las variables son no negativas.
  3. La función objetivo puede pedirse que se optimice maximizándola, o minimizándola.

De esta manera, un problema en forma estándar se ve como sigue:

\begin{align*}
Max\, (\text{o } Min) \quad z &= c_1x_1+\ldots+c_nx_n\\
s.a.&\\
&\left\{\begin{matrix} a_{11}x_1 + a_{12}x_2 + \ldots + a_{1n}x_n = b_1\\
a_{21}x_1+a_{22}x_2+\ldots + a_{2n}x_n = b_2\\
\vdots \\
a_{m1}x_1+a_{m2}x_2+\ldots+a_{mn}x_n= b_n\\
x_1\geq 0, x_2\geq 0, \ldots, x_n\geq 0.
\end{matrix}\right.\\
\end{align*}

En notación matricial, el problema en forma canónica queda expresado de la siguiente manera:

\begin{align*}
Max\, (\text{o } Min) \quad z &= cx\\
&s.a.\\
Ax &= b\\
x &\geq 0\\
\end{align*}

en donde $c, x, A$ y $b \geq 0$ son como se mencionó antes.

Así como cualquier problema de programación lineal puede ser expresado en forma canónica, también cualquier problema de programación lineal puede expresarse en forma estándar. Una restricción del tipo $\leq$ ($\geq$) puede ser transformada en una ecuación sumando (o restando) una variable no negativa que recibe el nombre de variable de holgura.

Ejemplo de pasar un problema a forma estándar

Retomemos el problema ejemplo anterior, antes de expresarlo en forma canónica.

\begin{align*}
Min \quad z &= x_1-3x_2+7x_3\\
&s.a.\\
3x_1+&x_2+3x_3 &\leq 40\\
x_1+&9x_2-7x_3 &\geq 50\\
5x_1+&3x_2 &= 20\\
&5x_2 + 8x_3 &\leq 80\\
x_1, x_2 &\geq 0, \quad x_3 \quad libre.\\
\end{align*}

Vamos a expresarlo ahora en forma estándar. Como lo hicimos anteriormente, hacemos la sustitución $x=x’_3-x_3^\ast$ para que la variable libre se convierta en dos con restricciones de ser no negativas.

Para satisfacer (1) se introducen las variables de holgura, $x_4$, $x_5$ y $x_6$ que pediremos que sean no negativas. A la primera desigualdad le sumamos $x_4$. A la quinta le sumamos $x_6$. Y finalment, a la segunda le restamos $x_5$. Esto transforma las desigualdades en igualdades. De esta manera, el problema queda expresado de la siguiente manera:

\begin{align*}
Min \quad z &= x_1 – 3x_2+7x’_3-7x_3^\ast\\
&s.a.\\
3x_1 + &x_2 + 3x’_3 – 3x_3^\ast + x_4 &= 40\\
x_1 + &9x_2 – 7x’_3 + 7x_3^\ast – x_5 &= 50\\
5x_1 + &3x_2 &= 20\\
&5x_2 + 8x’_3 – 8x_3^\ast + x_6 &= 80\\
x_1,&x_2,x’_3,x_3^\ast,x_4,x_5,x_6 \geq 0.\\
\end{align*}

Más adelante…

Las formas que estudiamos en esta entrada nos ayudarán posteriormente para plantear soluciones para problemas de programación lineal.

Mientras tanto, en la siguiente entrada hablaremos de algunos otros conceptos relativos a la teoría de problemas lineales y posibles propiedades que puede tener una asignación de variables. Diremos qué es una solución básica, una solución factible y un punto extremo para un problema lineal.

Tarea moral

  1. ¿Cuál sería la forma estándar del problema de maximizar $x+y$ sujeto a $x-y\leq 8$ y $y\leq 0$? ¿Y su forma canónica?
  2. Transforma el siguiente problema de programación lineal a su forma canónica y a su forma estándar:
    \begin{align*}
    Max \quad z &= -2x_1 + 3x_2 – 2x_3\\
    &s.a.\\
    4x_1 – &x_2 – 5x_3 &= 10\\
    2x_1 + &3x_2 + 2x_3 &\geq 12\\
    x_1 &\geq 0, \quad x_2, x_3 \quad irrestrictas\\
    \end{align*}
  3. Revisa nuevamente las entradas anteriores y encuentra las formas canónicas y formas estándar de los problemas que hemos planteado hasta ahora.
  4. La forma estándar (o bien la forma canónica) de un programa lineal «es equivalente» al problema original. Justifica esta afirmación formalmente. Es decir, explica por qué una solución $x_1,\ldots,x_n$ que optimiza el problema original está asociada a una solución de su forma estándar (o canónica) y viceversa.
  5. Imagina que tenemos un sistema de ecuaciones de la forma $Ax=B$ con $A$ matriz en $M_{m,n}(\mathbb{R})$ y $b$ vector en $\mathbb{R}^m$. Queremos encontrar de todas las posibles soluciones al sistema aquella que minimiza la suma de las entradas de $x$. Plantea esto como un problema lineal y transfórmalo a su forma canónica y a su forma estándar.

Entradas relacionadas

Cálculo Diferencial e Integral III: Polinomio característico

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior estudiamos las representaciones matriciales de una transformación lineal. Vimos cómo dadas ciertas bases del espacio dominio y codominio, existe un isomorfismo entre matrices y transformaciones lineales. Así mismo, planteamos la pregunta de cómo encontrar bases para que dicha forma matricial sea sencilla. Vimos que unos conceptos cruciales para entender esta pregunta son los de eigenvalor, eigenvector y eigenespacio. Lo que haremos ahora es introducir una nueva herramienta que nos permitirá encontrar los eigenvalores de una transformación: el polinomio característico.

A partir del polinomio característico daremos un método para encontrar también a los eigenvectores y, en algunos casos especiales, encontrar una representación de una transformación lineal como matriz diagonal. Todo lo que hacemos es una versión resumida de lo que se puede encontrar en un curso más completo de álgebra lineal. Dentro del blog, te recomendamos consultar las siguientes entradas:

Polinomio característico

Pensemos en el problema de hallar los eigenvalores de una transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$. Si $\lambda \in \mathbb{R}$ es uno de estos eigenvalores, queremos poder encontrar vectores $\bar{v}\neq \bar{0}$ tales que $T(\bar{v})=\lambda \bar{v}$. Esto sucede si y sólo si $\lambda \bar{v}-T(\bar{v})=\bar{0}$, lo cual sucede si y sólo si $(\lambda \text{Id}-T)(\bar{v})=\bar{0}$, en donde $\text{Id}:\mathbb{R}^n\to \mathbb{R}^n$ es la transformación identidad de $\mathbb{R}^n$ en $\mathbb{R}^n$. Tenemos de esta manera que $\bar{v}$ es un eigenvector si y sólo si $\bar{v}\in \ker(\lambda\text{Id}-T)$.

Si existe $\bar{v}\neq \bar{0}$ tal que $\bar{v}\in \ker(\lambda \text{Id}-T)$; entonces $\ker(\lambda \text{Id}-T)\neq \{ \bar{0}\}$ por lo cual la transformación $\lambda \text{Id}-T$ no es invertible, pues no es inyectiva. Así, en ninguna base $\text{Mat}_\beta(\lambda \text{Id}-T)$ es invertible, y por tanto su determinante es $0$. Estos pasos son reversibles. Concluimos entonces que $\lambda\in \mathbb{R}$ es un eigenvalor de $T$ si y sólo si en alguna base $\beta$ se cumple que $\det(\text{Mat}_\beta(\lambda \text{Id} – T))=0.$ Esto motiva la siguiente definición.

Definición. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal. Llamamos a $\det(\text{Mat}_\beta(\lambda \text{Id} – T))$ al polinomio característico de $T$ en la base $\beta$.

Por la discusión anterior, los escalares que cumplen $\det(\text{Mat}_\beta(\lambda \text{Id} – T))=0$ son los eigenvalores $T$. Para obtener los correspondientes eigenvectores, basta con resolver $\text{Mat}_\beta(T)X=\lambda X$, lo cual es un sistema de ecuaciones en el vector de variables $X$. Las soluciones $X$ nos darán las representaciones matriciales de vectores propios $\bar{v}\in \mathbb{R}^n$ en la base $\beta$.

Por el momento parece ser que tenemos mucha notación, pues debemos considerar la base en la que estamos trabajando. Un poco más adelante veremos que en realidad la base no importa mucho para determinar el polinomio característico. Pero por ahora, veamos un ejemplo concreto de las ideas platicadas hasta ahora.

Ejemplo: Consideremos $T:\mathbb{R}^{3}\rightarrow \mathbb{R}^{3}$ dada por $T(x,y,z)=(2x+z,y+x,-z)$. Calculemos su representación matricial con respecto a la base canónica $\beta$. Para ello, realizamos las siguientes evaluaciones:
\begin{align*}
T(1,0,0)&=(2,1,0)\\
T(0,1,0)&=(0,1,0)\\
T(0,0,1)&=(1,0,-1),
\end{align*}

de donde: $$\text{Mat}_\beta=\begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix}.$$

Calculando el polinomio característico obtenemos: \[ det\begin{pmatrix} \lambda-2 & 0 & -1 \\ -1 & \lambda-1 & 0 \\ 0 & 0 & \lambda+1 \end{pmatrix}= (\lambda-2)(\lambda-1)(\lambda+1). \]

Las raíces de $(\lambda-2)(\lambda-1)(\lambda+1)$ son $\lambda_{1}=2$, $\lambda_{2}=1$ y $\lambda_{3}=-1$. Pensemos ahora en quiénes son los eigenvectores asociados a cada eigenvalor. Tomemos como ejemplo el eigenvalor $\lambda=2$. Para que $(x,y,z)$ represente a un eigenvector en la base canónica, debe pasar que:

\[ \begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = 2\begin{pmatrix} x \\ y \\ z \end{pmatrix},\]

lo cual sucede si y sólo si:

\[\begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} – 2\begin{pmatrix} x \\ y \\ z \end{pmatrix}= \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix};\]

\[\left[ \begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} – 2\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}\right] \begin{pmatrix} x \\ y \\ z \end{pmatrix}= \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix};\]

\[\begin{pmatrix} 0 & 0 & 1 \\ 1 & -1& 0 \\ 0 & 0 & -3 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}.\]

De aquí, podemos llegar a la siguiente forma escalonada reducida del sistema de ecuaciones:

\[\begin{pmatrix} 1 & -1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}.\]

En esta forma es sencillo leer las soluciones. Tenemos que $z$ es variable pivote con $z=0$, que $y$ es variable libre, y que $x$ es variable pivote dada por $x=y$. Concluimos entonces que todos los posibles eigenvectores para el eigenvalor $2$ son de la forma $(y,y,0)$, es decir $E_2=\{(y,y,0): y \in \mathbb{R}\}$.

Queda como tarea moral que encuentres los eigenvectores correspondientes a los eigenvalores $1$ y $-1$.

$\triangle$

Matrices similares

En la sección anterior definimos el polinomio de una transformación lineal en términos de la base que elegimos para representarla. En realidad, la base elegida no es muy importante. Demostraremos un poco más abajo que dos representaciones matriciales cualesquiera de una misma transformación lineal tienen el mismo polinomio característico. Para ello, comencemos con la siguiente discusión.

Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal y sean $\beta_1=\{ \bar{e}_{1}, \dots , \bar{e}_{n}\}$, $\beta_2=\{ \bar{u}_{1}, \dots , \bar{u}_{n}\}$ dos bases (ordenadas) de $\mathbb{R}^n$. Supongamos que:

\begin{align*}
A&=\text{Mat}_{\beta_1}(T)=[a_{ij}]\\
B&=\text{Mat}_{\beta_2}(T)=[b_{ij}].
\end{align*}

Por cómo se construyen las matrices $A$ y $B$, tenemos que:

\begin{align*}
T(\bar{e}_j)&=\sum_{i=1}^n a_{ij} \bar{e}_i\quad\text{para $j=1,\ldots,n$}\\
T(\bar{u}_k)&=\sum_{j=1}^n b_{jk} \bar{u}_j\quad\text{para $k=1,\ldots,n$}.
\end{align*}

Como $\beta_{1}$ es base, podemos poner a cada un de los $\bar{u}_k$ de $\beta_{2}$ en términos de la base $\beta_{1}$ mediante combinaciones lineales, digamos:

\begin{equation}
\bar{u}_{k}=\sum_{j=1}^{n}c_{jk}\bar{e}_{j}
\label{eq:valor-u}
\end{equation}

en donde los $c_{jk}$ son escalares para $j=1,\ldots, n$ y $k=1,\ldots,n$. La matriz $C$ de $n\times n$, con entradas $c_{jk}$ representa a una transformación lineal invertible, ya que es una transformación que lleva uno a uno los vectores de una base a otra. Afirmamos que $CB=AC$. Para ello, tomaremos una $k$ en $[n]$ y expresaremos $T(\bar{u}_k)$ de dos formas distintas.

Por un lado, usando \eqref{eq:valor-u} y por como es cada $T(\bar{e}_k)$ en la base $\beta_{1}$ tenemos que:

\begin{align*}
T(\bar{u}_k)&=\sum_{j=1}^n c_{jk} T(\bar{e}_j)\\
&=\sum_{j=1}^n c_{jk} \sum_{i=1}^n a_{ij} \bar{e}_i\\
&=\sum_{j=1}^n \sum_{i=1}^n (c_{jk} a_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \sum_{j=1}^n (c_{jk} a_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \left(\sum_{j=1}^n a_{ij} c_{jk}\right) \bar{e}_i.
\end{align*}

Por otro lado, usando $\eqref{eq:valor-u}$ y por como es cada $T(\bar{u}_k)$ en la base $\beta_{2}$:

\begin{align*}
T(\bar{u}_k)&=\sum_{j=1}^nb_{jk} \bar{u}_j\\
&=\sum_{j=1}^n b_{jk} \sum_{i=1}^{n}c_{ji}\bar{e}_{j} \\
&=\sum_{j=1}^n \sum_{i=1}^n (b_{jk} c_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \sum_{j=1}^n (b_{jk} c_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \left(\sum_{j=1}^n c_{ij} b_{jk} \right) \bar{e}_i.
\end{align*}

Comparemos ambas expresiones para $T(\bar{u}_k)$. La primera es una combinación lineal de los $\bar{e}_i$ y la segunda también. Como $T(\bar{u}_k)$ tiene una única expresión como combinación lineal de los $\bar{e}_i$, entonces los coeficientes de la combinación lineal deben coincidir. Concluimos que para cada $i$ se cumple:

$$\sum_{j=1}^n a_{ij} c_{jk}=\sum_{j=1}^n c_{ij} b_{jk}.$$

Pero esto precisamente nos dice que la entrada $(i,k)$ de la matriz $AC$ es igual a la entrada $(i,k)$ de la matriz $CB$. Con esto concluimos que $AC=CB$, como queríamos.

En resumen, obtuvimos que para dos matrices $A$ y $B$ que representan a la misma transformación lineal, existe una matriz invertible $C$ tal que: $B=C^{-1}AC$. Además $C$ es la matriz con entradas dadas por \eqref{eq:valor-u}.

Introduciremos una definición que nos permitirá condensar en un enunciado corto el resultado que hemos obtenido.

Definición. Dos matrices $A$ y $B$ se llamarán similares (o semejantes), cuando existe otra matriz $C$ invertible tal que $B=C^{-1}AC$.

Sintetizamos nuestro resultado de la siguiente manera.

Proposición. Si dos matrices representan a la misma transformación lineal, entonces estas matrices son similares.

El recíproco de la proposición también se cumple, tal y como lo afirma el siguiente resultado.

Proposición. Sean $A$ y $B$ matrices similares. Entonces $A$ y $B$ representan a una misma transformación lineal $T$, quizás bajo distintas bases.

Demostración: Supongamos que las matrices $A$ y $B$ son similares con $B=C^{-1}AC$, donde las matrices $A$, $B$, $C$ están dadas por entradas $A=[a_{ij}]$ $B=[b_{ij}]$, $C=[c_{jk}]$. Tomemos una base ordenada $\beta=\{\bar{e}_{1}, \dots ,\bar{e}_{n}\}$ de $\mathbb{R}^n$. Consideremos la transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^n)$ dada por $$T(\bar{e}_j)=\sum_{i=1}^n a_{ij} \bar{e}_i.$$

De esta manera $T$ tiene forma matricial $A$ en la base $\beta$.

Construyamos ahora una nueva base ordenada de $\mathbb{R}^n$ dada por vectores $\bar{u}_k$ para $k=1,\ldots,n$ construidos como sigue:

$$\bar{u}_{k}=\sum_{j=1}^{n}c_{jk}\bar{e}_{j}.$$

Como $C$ es invertible, en efecto tenemos que $\beta’:=\{\bar{u}_1,\ldots,\bar{u}_n\}$ también es base de $\mathbb{R}^n$. Además, de acuerdo con las cuentas que hicimos anteriormente, tenemos que precisamente la forma matricial de $T$ en la base $\beta’$ será $B$.

Así, hemos exhibido una transformación $T$ que en una base tiene representación $A$ y en otra tiene representación $B$.

$\square$

Juntando ambos resultados en uno solo, llegamos a lo siguiente.

Teorema. Dos matrices $A$ y $B$ en $M_n(\mathbb{R})$ son similares si y sólo si representan a una misma transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$, quizás bajo distintas bases.

El polinomio característico no depende de la base

Si dos matrices son similares, entonces comparten varias propiedades relevantes para el álgebra lineal. Veamos un ejemplo de esto.

Teorema. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal en un espacio sobre $\mathbb{R}$ de dimensión finita. Sean $\beta$ y $\beta’$ bases de $\mathbb{R}^n$. Entonces se obtiene lo mismo calculando el polinomio característico de $T$ en la base $\beta$, que en la base $\beta’$.

Demostración. Tomemos $A=\text{Mat}_{\beta}(T)$ y $B=\text{Mat}_{\beta’}(T)$. Como $A$ y $B$ representan a la misma transformación lineal $T$, entonces son similares y por lo tanto existe $C$ invertible con $B=C^{-1}AC$.

Para encontrar el polinomio característico de $T$ en la base $\beta$, necesitamos $\Mat_{\beta}(\lambda\text{Id}-T)$, que justo es $\lambda I -A$. Así mismo, en la base $\beta’$ tenemos $\lambda I – B$. Debemos mostrar que el determinante de estas dos matrices es el mismo. Para ello, procedemos como sigue:

\begin{align*}
\det(\lambda I -B) &= \det (\lambda C^{-1}C – C^{-1} A C)\\
&=\det(C^{-1}(\lambda I – A) C)\\
&=\det(C^{-1})\det(\lambda I – A) \det(C)\\
&=\det(C^{-1})\det(C)\det(\lambda I-A)\\
&=\det(I)\det(\lambda I-A)\\
&=\det(\lambda I-A).
\end{align*}

Aquí estamos usando que el determinante es multiplicativo. Cuando reordenamos expresiones con $\det$, lo hicimos pues los determinantes son reales, cuyo producto es conmutativo.

$\square$

Este teorema nos permite hablar del polinomio característico de una transformación lineal.

Concluimos esta entrada con un resultado que relaciona al polinomio característico de una transformación lineal, con la posibilidad de que exista una base cuya representación matricial sea diagonal.

Teorema. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal. Supongamos que el polinomio característico de $T$ tiene raíces distintas $\lambda_{1}, \dots ,\lambda_{n}$. Entonces se cumple lo siguiente:

  1. Si tomamos un eigenvector $\bar{u}_i$ para cada eigenvalor $\lambda_i$, entonces $\bar{u}_{1},\dots ,\bar{u}_{n}$ forman una base $\beta$ para $\mathbb{R}^n$.
  2. Con dicha base $\beta$, se cumple que $\text{Mat}_\beta(T)$ es una matriz diagonal con entradas $\lambda_{1},\dots ,\lambda_{n}$ en su diagonal.
  3. Si $\beta’$ es otra base de $\mathbb{R}^n$ y $A=\text{Mat}_{\beta’}(T)$, entonces $\text{Mat}_\beta(T) = C^{-1}AC$ para una matriz invertible $C$ con entradas dadas por \eqref{eq:valor-u}.

La demostración de este resultado queda como tarea moral.

Más adelante…

En la entrada planteamos entonces un método para encontrar los eigenvectores de una transformación $T$: 1) la transformamos en una matriz $A$, 2) encontramos el polinomio característico mediante $\det(\lambda I – A)$, 3) encontramos las raíces de este polinomio, 4) cada raíz es un eigenvalor y las soluciones al sistema lineal de ecuaciones $(\lambda I – A) X=0$ dan los vectores coordenada de los eigenvectores.

Como platicamos en la entrada, una condición suficiente para que una transformación de $\mathbb{R}^n$ a sí mismo sea diagonalizable es que tenga $n$ eigenvalores distintos. Otro resultado muy bonito de álgebra lineal es que si la transformación tiene alguna forma matricial simétrica, entonces también es diagonalizable. A esto se le conoce como el teorema espectral para matrices simétricas reales. En otros cursos de álgebra lineal se estudia la diagonalizabilidad con mucho detalle. Aquí en el blog puedes consultar el curso de Álgebra Lineal II.

Otra herramienta de álgebra lineal que usaremos en el estudio de la diferenciabilidad y continuidad de las funciones de $\mathbb{R}^{n}$ a $\mathbb{R}^{m}$ son las formas bilineales y las formas cuadráticas. En la siguiente entrada comenzaremos con estos temas.

Tarea moral

  1. Encuentra los eigenvectores faltantes del ejemplo de la sección de polinomio característico.
  2. Considera la transformación lineal $T(x,y,z)=(2x+z,y+x,-z)$ de $\mathbb{R}^3$ en $\mathbb{R}^3$. Nota que es la misma que la del ejemplo de la entrada. Encuentra su representación matricial con respecto a la base $\{(1,1,1),(1,2,3),(0,1,1)\}$ de $\mathbb{R}^3$. Verifica explícitamente que, en efecto, al calcular el polinomio característico con esta base se obtiene lo mismo que con la dada en el ejemplo.
  3. Demuestra que si $A$ y $B$ son dos representaciones matriciales de una misma transformación lineal $T$, entonces $\det(A)=\det(B)$.
  4. Sea $T:\mathbb{R}^{3}\to \mathbb{R}^{3}$ dada por $T(x,y,z)=(x+y+z,x,y)$. Encuentra los eigenvalores correspondientes a la transformación, y responde si es posible representarla con una matriz diagonal. En caso de que sí, encuentra explícitamente la base $\beta$ en la cual $\text{Mat}_{\beta}(T)$ es diagonal.
  5. Demuestra el último teorema de la entrada. Necesitarás usar resultados de la entrada anterior.

Entradas relacionadas

Cálculo Diferencial e Integral III: Representaciones matriciales, eigenvalores y eigenvectores

Por Alejandro Antonio Estrada Franco

Introducción

Como se ha mencionado anteriormente el objetivo de introducir ideas de álgebra lineal en cálculo diferencial es poder establecer una transformación lineal que sea la mejor aproximación lineal en un punto a una función dada. Esto nos ayudará a entender a la función dada en el punto en términos de otra función «más simple». Pero así mismo, las transformaciones lineales pueden ellas mismas pensarse en términos de transformaciones más sencillas. En esta entrada revisaremos esta idea y la conectaremos con la noción de eigenvectores.

Por un lado, recordaremos cómo es que una transformación lineal puede ser representada mediante una matriz una vez que se ha elegido una base del espacio vectorial. Luego, hablaremos de cómo elegir, de entre todas las bases, aquella que nos de una representación matricial lo más sencilla posible.

Representación matricial de las transformaciones lineales

Comencemos esta entrada repasando la importante relación entre transformaciones lineales y matrices. Denotaremos como $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ al espacio vectorial de transformaciones lineales de $\mathbb{R}^n$ a $\mathbb{R}^m$.

Si tomamos cualquier transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, entonces los valores de $T$ en cualquier vector de $\mathbb{R}^n$ quedan totalmente determinados por los valores de $T$ en los elementos de alguna base $\beta$ para $\mathbb{R}^n$. Tomemos $\gamma=\{\bar{w}_{1},\dots ,\bar{w}_{m}\}$ una base ordenada para $\mathbb{R}^m$, y $\beta=\{\bar{e}_{1},\dots ,\bar{e}_{n}\}$ una base ordenada para $\mathbb{R}^n$. Para cada $\bar{e}_{k}$ tenemos:

$$\begin{equation} T(\bar{e}_{k})=\sum_{i=1}^{m}t_{ik}\bar{w}_{i} \end{equation},$$

para algunos escalares $t_{1k},\dots ,t_{mk}$ que justo son las componentes de $T(\bar{e}_{k})$ en la base $\gamma$. Con estos escalares, podemos considerar la matriz: \[ \text{Mat}_{\gamma,\beta}(T)= \begin{pmatrix} t_{11} & \dots & t_{1n} \\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \]

Esta es llamada la representación matricial de la transformación $T$ con respecto a las bases $\beta$ y $\gamma$. Esta matriz ayuda a calcular $T$ en cualquier vector de $\mathbb{R}^n$ como explicamos a continuación.

Para cada $\bar{v}\in \mathbb{R}^n$, podemos expresarlo como combinación lineal de elementos de la base $\beta$ digamos que $\bar{v}=\sum_{i=1}^{n} v_{i}\bar{e}_{i}$. Mediante estos coeficientes, podemos entonces asociar a $\bar{v}$ al siguiente vector columna de $\mathbb{R}^n$ \[ [\bar{v}]_{\beta}=\begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}, \]

al que llamamos el vector de coordenadas de $\bar{v}$ con respecto a la base $\beta$.

Realicemos por un lado el siguiente cálculo:

\[ \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}=\begin{pmatrix} t_{11} & \dots & t_{1n}\\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}=\begin{pmatrix} \displaystyle\sum_{k=1}^{n}t_{1k}v_{k} \\ \vdots \\ \displaystyle\sum_{k=1}^{n}t_{mk}v_{k}.\end{pmatrix} \]

Por otro lado tenemos lo siguiente:

\begin{align*}
T(\bar{v})&=T \left( \sum_{k=1}^{n}v_{k}\bar{e}_{k} \right)\\&=\sum_{k=1}^{n}v_{k}T(\bar{e}_{k})\\&=\sum_{k=1}^{n}v_{k}T\left( \sum_{i=1}^{m}t_{ik}\bar{w}_{i} \right)\\&=\sum_{i=1}^{m}\left( \sum_{k=1}^{n}v_{k}t_{ik} \right)\bar{w}_{i}.
\end{align*}

Juntando ambos cálculos: \[ [T(\bar{v})]_{\gamma}=\begin{pmatrix} \sum_{k=1}^{n}v_{k}t_{1k} \\ \vdots \\ \sum_{k=1}^{n}v_{k}t_{mk} \end{pmatrix} = \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}.\]

En otras palabras, aplicar $T$ a un vector $\bar{v}$ equivale a multiplicar $\text{Mat}_{\gamma,\beta}$ por el vector columna asociado a $\bar{v}$ en la base $\beta$, en el sentido de que tras hacer este producto recuperamos el vector de coordenadas para $T(\bar{v})$ en la base $\gamma$.

Isomorfismo entre transformaciones lineales y matrices

Con las operaciones de suma y multiplicación por escalar que vimos en la entrada de Matrices, se tiene que $M_{m,n}\left( \mathbb{R} \right)$ es un espacio vectorial sobre $\mathbb{R}$. De igual manera $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ es un espacio vectorial sobre $\mathbb{R}$ con las siguientes operaciones:

  • Si $T$ y $U$ son dos transformaciones, la transformación $T+U$ es aquella que envía a todo vector $\bar{v}\in \mathbb{R}^n$ al vector $T(\bar{v})+U(\bar{v})$.
  • Si $r\in \mathbb{R}$ la transformación $rT$ es la que a todo $\bar{v}\in \mathbb{R}^n$ lo envía al vector $rT(\bar{v})$.

Queda como ejercicio que verifiques que esto dota efectivamente a $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ de la estructura de espacio vectorial.

A continuación veremos que estos dos espacios vectoriales son, prácticamente, el mismo. Lo que haremos es construir una función $$\Phi :M_{m,n}\left( \mathbb{R} \right) \to\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$$ que sea biyectiva y que preserve las operaciones de suma y de producto escalar.

Para ello, tomemos una base $\beta=\{\bar{e}_1,\ldots,\bar{e}_n\}$ de $\mathbb{R}^{n}$ y una base $\gamma=\{\bar{u}_1,\ldots,\bar{u}_m\}$ de $\mathbb{R}^m$. Tomemos una matriz $A\in M_{m,n}(\mathbb{R})$. Explicaremos a continuación cómo construir la transformación $\Phi(A)$, para lo cual diremos qué hace con cada elemento de la base $\beta$. Tomaremos aquella transformación lineal $T_A\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ tal que

$$T_A(\bar{e}_j)=\sum_{i=1}^n a_{ij} \bar{u}_i.$$

Tomamos entonces $\Phi(A)=T_A$. Veamos que $\Phi$ tiene todas las propiedades que queremos.

  • $\Phi$ es suprayectiva. Si tenemos una transformación $T:\mathbb{R}^n\to \mathbb{R}^m$, entonces por la construcción anterior se tiene que su forma matricial $A:=\text{Mat}_{\gamma,\beta}(T)$ justo cumple $T_A=T$, de modo que $\Phi(A)=T$.
  • $\Phi$ es inyectiva. Si $A$ y $B$ son matrices distintas, entonces difieren en alguna entrada, digamos $(i,j)$. Pero entonces $T_A$ y $T_B$ difieren ya que $T_A(\bar{e}_j)\neq T_B(\bar{e}_j)$ ya que en las combinaciones lineales creadas hay un coeficiente distinto. Así, $\Phi(A)\neq \Phi(B)$.
  • $\Phi $ es lineal. Para $r\in \mathbb{R}$, $A$ y $B$ matrices con entradas $a_{ij}$ y $b_{ij}$, respectivamente, se cumple que $\Phi \left( rA+B \right)=T_{(rA+B)}$ y entonces se satisface para cada $j=1,\dots ,n$ lo siguiente:
    \begin{align*}
    (rA+B)[\bar{e}_{j}]_{\beta}&=rA[\bar{e}_{j}]_{\beta}+B[\bar{e}_{j}]_{\beta}\\&=r[T_A(\bar{e}_{i})]_{\gamma}+[T_{B}(\bar{e}_{i})]_{\gamma}.
    \end{align*}
    Por tanto para cada $\bar{e}_{i}$ tenemos que $$T_{(rA+B)}(\bar{e}_{i})=rT_{A}(\bar{e}_{i})+T_{B}(\bar{e}_{i})$$ y en consecuencia $$T_{(rA+B)}=rT_{A}+T_{B}.$$ Así $$\Phi (rA+B)=r\Phi (A)+\Phi(B).$$

Todo lo anterior implica que $M_{m,n}\left( \mathbb{R} \right)\simeq \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, es decir, que ambos espacios vectoriales son isomorfos.

En búsqueda de una matriz sencilla

Por lo que hemos platicado hasta ahora, a cada transformación lineal le corresponde una matriz, y viceversa. De hecho, esta asociación respeta operaciones como la suma y el producto por escalar. Esta equivalencia está dada a partir de la función $\Phi$ encontrada en la sección anterior.

Si $\Phi $ es biyectiva, ¿por qué hablamos entonces de encontrar una representación matricial simple para una transformación lineal $T$? Esto parecería no tener sentido, pues a cada transformación le corresponde una y sólo una matriz. Sin embargo, esto es cierto únicamente tras haber fijado las bases $\beta$ y $\gamma$ para $\mathbb{R}^n$ y $\mathbb{R}^m$, respectivamente. Así, dependiendo de la elección de las bases las representaciones matriciales cambian y si tenemos una transformación lineal $T$, es posible que querramos encontrar bases $\beta$ y $\gamma$ en donde la representación matricial sea sencilla.

Nos enfocaremos únicamente en transformaciones lineales que van de un espacio vectorial a sí mismo. Tomemos entonces $T:\mathbb{R}^n\to \mathbb{R}^n$ y una base $\beta$ de $\mathbb{R}^n$. Por simplicidad, escribiremos $\text{Mat}_{\beta, \beta}(T)$ simplemente como $\text{Mat}_{\beta}(T)$. Hay propiedades de $T$ que podemos leer en su matriz $\text{Mat}_{\beta}(T)$ y que no dependen de la base $\beta$ que hayamos elegido. Si con una base $\beta$ especial resulta que $\text{Mat}_{\beta}(T)$ es muy sencilla, entonces podremos leer estas propiedades de $T$ muy fácilmente. Un ejemplo es la siguiente proposición, la cual queda como tarea moral.

Proposición. La transformación lineal $T:\mathbb{R}^n\to\mathbb{R}^n$ es invertible si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.

Si $A=\text{Mat}_{\beta}(T)$ fuera muy muy sencilla, por ejemplo, si fuera una matriz diagonal, entonces podríamos saber la invertibilidad de $T$ sabiendo la invertibilidad de $A$, y la de $A$ sería muy fácil de ver pues por ser matriz diagonal bastaría hacer el producto de las entradas de su diagonal para obtener su determinante y estudiar si es distinto de cero.

Motivados por el ejemplo anterior, estudiemos la siguiente pregunta: ¿toda transformación lineal se puede representar con una matriz diagonal? Si una transformación lineal se puede representar de esta manera, diremos que es diagonalizable.

Eigenvalores, eigenvectores y eigenespacios

En lo que sigue repasaremos el aparato conceptual que nos permitirá dar una respuesta parcial de cuándo una matriz es diagonalizable. Un tratamiento mucho más detallado se puede encontrar aquí en el blog, en el curso de Álgebra Lineal II, comenzando con la entrada Eigenvectores y eigenvalores.

Para nuestro repaso, debemos introducir algunos conceptos y estudiarlos.

Definición. Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal. Diremos que un escalar $r \in \mathbb{R}$ es un eigenvalor de $T$ si existe $\bar{v}\in \mathbb{R}^n\setminus\{ \bar{0} \}$ tal que $T(\bar{v})=r\bar{v}$. A dicho vector $\bar{v}$ le llamaremos un eigenvector de $T$ con eigenvalor asociado $r$.

Dado un eigenvector $\bar{v}\in \mathbb{R}^n$, sólo hay un eigenvalor correspondiente a éste. Si $T(\bar{v})=r\bar{v}$ y $T(\bar{v})=t\bar{v}$, entonces $r\bar{v}=t\bar{v}$ de donde $(r-t)\bar{v}=\bar{0}$. Como $\bar{v}\neq \bar{0}$, se sigue que $r=t$.

Por otro lado, para un eigenvalor $r$ puede haber más de un eigenvector con eigenvalor asociado $r$. Consideremos para un eigenvalor $r$ el conjunto $E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$. Notemos que $\bar{0}\in E(r)$ y también todos los eigenvectores de $r$ están en $E(r)$. Además, $E(r)$ es un subespacio de $\mathbb{R}^n$, pues si $\bar{u},\bar{v} \in E(r)$, y $a\in \mathbb{R}$, tenemos

\begin{align*}
T(a\bar{u}+\bar{v})&=aT(\bar{u})+T(\bar{v})\\
&=a(r\bar{u})+(r\bar{v})\\
&=r(a\bar{u}+\bar{v}),
\end{align*}

lo cual implica que $a\bar{u}+\bar{v} \in E(r)$.

Definición. Para una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ y un eigenvalor $r$ de $T$ llamaremos a

$$E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$$

el eigenespacio de $T$ correspondiente a $r$.

Cuando tenemos eigenvectores correspondientes a eigenvalores distintos, cumplen algo especial.

Proposición. Si $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son eigenvectores de una transformación lineal $T:\mathbb{R}^n \rightarrow \mathbb{R}^n$ con eigenvalores correspondientes $r_{1}, \dots ,r_{l}$ distintos entonces $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

Demostración. La ruta para establecer la demostración de este teorema será por inducción sobre $l$. Para un conjunto con sólo un eigenvector el resultado es evidente (¿por qué?). Supongamos cierto para cualquier subconjunto de $l-1$ eigenvectores que pertenecen a eigenespacios distintos. Sean $\bar{v}_{1}, \dots ,\bar{v}_{l}$ eigenvectores en distintos eigenespacios y consideremos $\alpha _{1}, \dots ,\alpha_{l}$ escalares tales que:

\begin{equation}
\label{eq:comb-cero}
\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}=\bar{0}.
\end{equation}

Aplicamos $T$ a la igualdad anterior. Usando que cada $\bar{v}_{k}$ es eigenvector correspondiente al eigenvalor $r_{k}$ obtenemos:

\begin{align*}
\bar{0}=T(\bar{0})&=T\left(\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k} \right)\\&=\sum_{k=1}^{l}\alpha _{k}T(\bar{v}_{k})\\&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}.
\end{align*}

Es decir,

\begin{equation}
\label{eq:aplicarT}
\textbf{0}=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}
\end{equation}

Multipliquemos \eqref{eq:comb-cero} por $r_{l}$ y restemos el resultado de \eqref{eq:aplicarT} para obtener que

\begin{align*}
\bar{0}=\bar{0}-\bar{0}&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}-r_{l}\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}\\&=\sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}.
\end{align*}

Tenemos entonces:

\[ \sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}=\bar{0}.\]

Ya que por hipótesis de inducción $\bar{v}_{1}, \dots ,\bar{v}_{l-1}$ son linealmente independientes entonces $\alpha _{k}(r_{k}-r_{l})=0$ para todo $k$, pero los eigenvalores son todos distintos entre sí por lo tanto para todo $k$ de $1$ a $l-1$ se tiene $r_{k}-r_{l}\neq 0$ y así $\alpha _{k}=0$. Finalmente, usando \eqref{eq:comb-cero} obtenemos $\alpha_l=0$. Por lo tanto $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

$\square$

Eigenvectores y transformaciones diagonalizables

Recuerda que dijimos que una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ es diagonalizable si existe una base $\beta$ de $\mathbb{R}^n$ tal que $\text{Mat}_{\beta}(T)$ es una matriz diagonal. El siguiente resultado conecta las dos ideas que hemos estado explorando: los eigenvectores y la representabilidad sencilla de $T$.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ transformación lineal. Una matriz $T$ es diagonalizable si y sólo si existe una base de $\mathbb{R}^n$ conformada por eigenvectores de $T$.

En realidad la demostración consiste únicamente en entender correctamente cómo se construyen las matrices para una base dada.

Demostración. $\Rightarrow )$ Supongamos que $T$ tiene una representación matricial que es una matriz diagonal $A:=\text{Mat}_{\beta}(T)=\text{diag}(r_{1}, \dots ,r_{n})$ con respecto a la base $\beta=\{\bar{v}_{1}, \dots ,\bar{v}_{n}\}$. Afirmamos que para cada $j=1,\ldots,n$ se tiene $\bar{v}_j$ es eigevector de eigenvalor $r_j$. En efecto, la forma en la que se construyó la matriz $A$ nos dice que

\begin{align*}
T(\bar{e}_j)&=\sum_{i=1}^n a_{ij} \bar{e}_i \\&= a_{jj} \bar{e}_j \\&= r_j \bar{e}_j,
\end{align*}

en donde estamos usando que las entradas $a_{ij}$ de la matriz son cero si $i\neq j$ (por ser diagonal), y son $r_j$ si $i=j$. Por supuesto, como $\bar{e}_j$ forma parte de una base, tampoco es el vector cero. Así, $\bar{e}_j$ es eigenvector de eigenvalor $\bar{e}_j$.

$\Leftarrow )$ Supongamos ahora que $\bar{v}_{1},\dots ,\bar{v}_{n}$ son una base $\beta$ de $\mathbb{R}^n$ conformada por eigenvectores de $T$ con eigenvalores asociados, digamos, $r_{1},\dots ,r_{n}$. Aquí se puede mostrar que $\text{Mat}_\beta(T)$ es diagonal. Queda como tarea moral hacer las cuentas.

$\square$

Hay una situación particular en la que podemos aprovechar el teorema anterior de manera inmediata: cuando la transformación tiene $n$ eigenvalores distintos. Esta consecuencia queda establecida en el siguiente resultado.

Corolario. Toda transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ tiene a lo más $n$ eigenvalores distintos. Si $T$ tiene exactamente $n$ eigenvalores distintos, entonces los eigenvectores correspondientes forman una base para $\mathbb{R}^n$ y la matriz de $T$ relativa a esa base es una matriz diagonal con los eigenvalores como elementos diagonales.

Demostración. Queda como tarea moral. Como sugerencia, recuerda que mostramos arriba que los eigenvectores de eigenvalores distintos son linealmente independientes.

$\square$

Al parecer los eigenvalores, eigenvectores y eigenespacios de una transformación lineal son cruciales para poder expresarla de manera sencilla. ¿Cómo los encontramos? Esto lo veremos en la siguiente entrada.

Antes de concluir, mencionamos que hay otro teorema crucial sobre diagonalización de matrices. Diremos que una matriz $P\in M_n(\mathbb{R})$ es ortogonal si $P^tP=I$.

Teorema (el teorema espectral). Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces, existe una matriz ortogonal $P$ tal que $PAP^t$ es una matriz diagonal.

El teorema anterior nos dice no únicamente que la matriz $A$ es diagonalizable, sino que además es diagonalizable mediante un tipo muy especial de matrices. Un estudio y demostración de este teorema queda fuera de los alcances de nuestro curso, pero puedes revisar, por ejemplo la entrada teorema espectral del curso de Álgebra Lineal I que tenemos en el blog.

Más adelante

Lo que haremos en la siguiente entrada es desarrollar un método para conocer los eigenvalores de una matriz. A partir de ellos podremos encontrar sus eigenvectores. Y en ciertos casos especiales, esto nos permitirá mostrar que la transformación es diagonalizable y, de hecho, nos dará la base para la cual la matriz asociada es diagonal.

Tarea moral

  1. Considera la transformación lineal de $\mathbb{R}^{3}$ en $\mathbb{R}^{2}$, dada como $T(x,y,z)=(x+y,z+y)$. Encuentra su representación matricial con las bases canónicas de $\mathbb{R}^3$ y $\mathbb{R}^2$. Luego, encuentra su representación matricial con las bases $\{(1,2,3),(1,0,1),(0,-1,0)\}$ de $\mathbb{R}^3$ y $\{(1,1),(1,-1)\}$ de $\mathbb{R}^2$.
  2. Considera la siguiente matriz: \[ \begin{pmatrix} 1 & 0 & 2 & 3 \\ 0 & -1 & 0 & 2 \\ \end{pmatrix}\] Da una transformación lineal $T:\mathbb{R}^4\to \mathbb{R}^2$ y ciertas bases $\beta$ de $\mathbb{R}^4$ y $\gamma$ de $\mathbb{R}^2$ para las cuales esta matriz sea la representación matricial de $T$ en las bases $\beta$ y $\gamma$.
  3. Fija bases $\beta$, $\gamma$ y $\delta$ para $\mathbb{R}^n$, $\mathbb{R}^m$ y $\mathbb{R}^l$. Considera dos transformaciones lineales $T:\mathbb{R}^n\to \mathbb{R}^m$ y $S:\mathbb{R}^m\to \mathbb{R}^l$. Demuestra que:
    $$\text{Mat}_{\delta, \beta} (S \circ T) = \text{Mat}_{\delta,\gamma}(S) \text{Mat}_{\gamma, \beta} (T).$$
    En otras palabras que la «composición de transformaciones corresponde al producto de sus matrices».
  4. Sea $T:\mathbb{R}^n\to\mathbb{R}^n$ una transformación lineal y $\beta$ una base de $\mathbb{R}^n$. Demuestra que $T$ es biyectiva si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.
  5. Verifica que los vectores $\bar{v}_1,\ldots,\bar{v}_n$ dados en el último teorema en efecto ayudan a dar una representación matricial diagonal para $T$.
  6. La demostración del último corolario es un conjunto de sencillas consecuencias de las definiciones y teoremas desarrollados en esta entrada con respecto a los eigenvalores y eigenvectores. Realiza esta demostración.

Entradas relacionadas