Archivo del Autor: Alejandro Antonio Estrada Franco

Cálculo Diferencial e Integral III: Representaciones matriciales, eigenvalores y eigenvectores

Por Alejandro Antonio Estrada Franco

Introducción

Como se ha mencionado anteriormente el objetivo de introducir ideas de álgebra lineal en cálculo diferencial es poder establecer una transformación lineal que sea la mejor aproximación lineal en un punto a una función dada. Esto nos ayudará a entender a la función dada en el punto en términos de otra función «más simple». Pero así mismo, las transformaciones lineales pueden ellas mismas pensarse en términos de transformaciones más sencillas. En esta entrada revisaremos esta idea y la conectaremos con la noción de eigenvectores.

Por un lado, recordaremos cómo es que una transformación lineal puede ser representada mediante una matriz una vez que se ha elegido una base del espacio vectorial. Luego, hablaremos de cómo elegir, de entre todas las bases, aquella que nos de una representación matricial lo más sencilla posible.

Representación matricial de las transformaciones lineales

Comencemos esta entrada repasando la importante relación entre transformaciones lineales y matrices. Denotaremos como $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ al espacio vectorial de transformaciones lineales de $\mathbb{R}^n$ a $\mathbb{R}^m$.

Si tomamos cualquier transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, entonces los valores de $T$ en cualquier vector de $\mathbb{R}^n$ quedan totalmente determinados por los valores de $T$ en los elementos de alguna base $\beta$ para $\mathbb{R}^n$. Tomemos $\gamma=\{\bar{w}_{1},\dots ,\bar{w}_{m}\}$ una base ordenada para $\mathbb{R}^m$, y $\beta=\{\bar{e}_{1},\dots ,\bar{e}_{n}\}$ una base ordenada para $\mathbb{R}^n$. Para cada $\bar{e}_{k}$ tenemos:

$$\begin{equation} T(\bar{e}_{k})=\sum_{i=1}^{m}t_{ik}\bar{w}_{i} \end{equation},$$

para algunos escalares $t_{1k},\dots ,t_{mk}$ que justo son las componentes de $T(\bar{e}_{k})$ en la base $\gamma$. Con estos escalares, podemos considerar la matriz: \[ \text{Mat}_{\gamma,\beta}(T)= \begin{pmatrix} t_{11} & \dots & t_{1n} \\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \]

Esta es llamada la representación matricial de la transformación $T$ con respecto a las bases $\beta$ y $\gamma$. Esta matriz ayuda a calcular $T$ en cualquier vector de $\mathbb{R}^n$ como explicamos a continuación.

Para cada $\bar{v}\in \mathbb{R}^n$, podemos expresarlo como combinación lineal de elementos de la base $\beta$ digamos que $\bar{v}=\sum_{i=1}^{n} v_{i}\bar{e}_{i}$. Mediante estos coeficientes, podemos entonces asociar a $\bar{v}$ al siguiente vector columna de $\mathbb{R}^n$ \[ [\bar{v}]_{\beta}=\begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}, \]

al que llamamos el vector de coordenadas de $\bar{v}$ con respecto a la base $\beta$.

Realicemos por un lado el siguiente cálculo:

\[ \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}=\begin{pmatrix} t_{11} & \dots & t_{1n}\\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}=\begin{pmatrix} \displaystyle\sum_{k=1}^{n}t_{1k}v_{k} \\ \vdots \\ \displaystyle\sum_{k=1}^{n}t_{mk}v_{k}.\end{pmatrix} \]

Por otro lado tenemos lo siguiente:

\begin{align*}
T(\bar{v})&=T \left( \sum_{k=1}^{n}v_{k}\bar{e}_{k} \right)\\&=\sum_{k=1}^{n}v_{k}T(\bar{e}_{k})\\&=\sum_{k=1}^{n}v_{k}T\left( \sum_{i=1}^{m}t_{ik}\bar{w}_{i} \right)\\&=\sum_{i=1}^{m}\left( \sum_{k=1}^{n}v_{k}t_{ik} \right)\bar{w}_{i}.
\end{align*}

Juntando ambos cálculos: \[ [T(\bar{v})]_{\gamma}=\begin{pmatrix} \sum_{k=1}^{n}v_{k}t_{1k} \\ \vdots \\ \sum_{k=1}^{n}v_{k}t_{mk} \end{pmatrix} = \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}.\]

En otras palabras, aplicar $T$ a un vector $\bar{v}$ equivale a multiplicar $\text{Mat}_{\gamma,\beta}$ por el vector columna asociado a $\bar{v}$ en la base $\beta$, en el sentido de que tras hacer este producto recuperamos el vector de coordenadas para $T(\bar{v})$ en la base $\gamma$.

Isomorfismo entre transformaciones lineales y matrices

Con las operaciones de suma y multiplicación por escalar que vimos en la entrada de Matrices, se tiene que $M_{m,n}\left( \mathbb{R} \right)$ es un espacio vectorial sobre $\mathbb{R}$. De igual manera $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ es un espacio vectorial sobre $\mathbb{R}$ con las siguientes operaciones:

  • Si $T$ y $U$ son dos transformaciones, la transformación $T+U$ es aquella que envía a todo vector $\bar{v}\in \mathbb{R}^n$ al vector $T(\bar{v})+U(\bar{v})$.
  • Si $r\in \mathbb{R}$ la transformación $rT$ es la que a todo $\bar{v}\in \mathbb{R}^n$ lo envía al vector $rT(\bar{v})$.

Queda como ejercicio que verifiques que esto dota efectivamente a $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ de la estructura de espacio vectorial.

A continuación veremos que estos dos espacios vectoriales son, prácticamente, el mismo. Lo que haremos es construir una función $$\Phi :M_{m,n}\left( \mathbb{R} \right) \to\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$$ que sea biyectiva y que preserve las operaciones de suma y de producto escalar.

Para ello, tomemos una base $\beta=\{\bar{e}_1,\ldots,\bar{e}_n\}$ de $\mathbb{R}^{n}$ y una base $\gamma=\{\bar{u}_1,\ldots,\bar{u}_m\}$ de $\mathbb{R}^m$. Tomemos una matriz $A\in M_{m,n}(\mathbb{R})$. Explicaremos a continuación cómo construir la transformación $\Phi(A)$, para lo cual diremos qué hace con cada elemento de la base $\beta$. Tomaremos aquella transformación lineal $T_A\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ tal que

$$T_A(\bar{e}_j)=\sum_{i=1}^n a_{ij} \bar{u}_i.$$

Tomamos entonces $\Phi(A)=T_A$. Veamos que $\Phi$ tiene todas las propiedades que queremos.

  • $\Phi$ es suprayectiva. Si tenemos una transformación $T:\mathbb{R}^n\to \mathbb{R}^m$, entonces por la construcción anterior se tiene que su forma matricial $A:=\text{Mat}_{\gamma,\beta}(T)$ justo cumple $T_A=T$, de modo que $\Phi(A)=T$.
  • $\Phi$ es inyectiva. Si $A$ y $B$ son matrices distintas, entonces difieren en alguna entrada, digamos $(i,j)$. Pero entonces $T_A$ y $T_B$ difieren ya que $T_A(\bar{e}_j)\neq T_B(\bar{e}_j)$ ya que en las combinaciones lineales creadas hay un coeficiente distinto. Así, $\Phi(A)\neq \Phi(B)$.
  • $\Phi $ es lineal. Para $r\in \mathbb{R}$, $A$ y $B$ matrices con entradas $a_{ij}$ y $b_{ij}$, respectivamente, se cumple que $\Phi \left( rA+B \right)=T_{(rA+B)}$ y entonces se satisface para cada $j=1,\dots ,n$ lo siguiente:
    \begin{align*}
    (rA+B)[\bar{e}_{j}]_{\beta}&=rA[\bar{e}_{j}]_{\beta}+B[\bar{e}_{j}]_{\beta}\\&=r[T_A(\bar{e}_{i})]_{\gamma}+[T_{B}(\bar{e}_{i})]_{\gamma}.
    \end{align*}
    Por tanto para cada $\bar{e}_{i}$ tenemos que $$T_{(rA+B)}(\bar{e}_{i})=rT_{A}(\bar{e}_{i})+T_{B}(\bar{e}_{i})$$ y en consecuencia $$T_{(rA+B)}=rT_{A}+T_{B}.$$ Así $$\Phi (rA+B)=r\Phi (A)+\Phi(B).$$

Todo lo anterior implica que $M_{m,n}\left( \mathbb{R} \right)\simeq \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, es decir, que ambos espacios vectoriales son isomorfos.

En búsqueda de una matriz sencilla

Por lo que hemos platicado hasta ahora, a cada transformación lineal le corresponde una matriz, y viceversa. De hecho, esta asociación respeta operaciones como la suma y el producto por escalar. Esta equivalencia está dada a partir de la función $\Phi$ encontrada en la sección anterior.

Si $\Phi $ es biyectiva, ¿por qué hablamos entonces de encontrar una representación matricial simple para una transformación lineal $T$? Esto parecería no tener sentido, pues a cada transformación le corresponde una y sólo una matriz. Sin embargo, esto es cierto únicamente tras haber fijado las bases $\beta$ y $\gamma$ para $\mathbb{R}^n$ y $\mathbb{R}^m$, respectivamente. Así, dependiendo de la elección de las bases las representaciones matriciales cambian y si tenemos una transformación lineal $T$, es posible que querramos encontrar bases $\beta$ y $\gamma$ en donde la representación matricial sea sencilla.

Nos enfocaremos únicamente en transformaciones lineales que van de un espacio vectorial a sí mismo. Tomemos entonces $T:\mathbb{R}^n\to \mathbb{R}^n$ y una base $\beta$ de $\mathbb{R}^n$. Por simplicidad, escribiremos $\text{Mat}_{\beta, \beta}(T)$ simplemente como $\text{Mat}_{\beta}(T)$. Hay propiedades de $T$ que podemos leer en su matriz $\text{Mat}_{\beta}(T)$ y que no dependen de la base $\beta$ que hayamos elegido. Si con una base $\beta$ especial resulta que $\text{Mat}_{\beta}(T)$ es muy sencilla, entonces podremos leer estas propiedades de $T$ muy fácilmente. Un ejemplo es la siguiente proposición, la cual queda como tarea moral.

Proposición. La transformación lineal $T:\mathbb{R}^n\to\mathbb{R}^n$ es invertible si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.

Si $A=\text{Mat}_{\beta}(T)$ fuera muy muy sencilla, por ejemplo, si fuera una matriz diagonal, entonces podríamos saber la invertibilidad de $T$ sabiendo la invertibilidad de $A$, y la de $A$ sería muy fácil de ver pues por ser matriz diagonal bastaría hacer el producto de las entradas de su diagonal para obtener su determinante y estudiar si es distinto de cero.

Motivados por el ejemplo anterior, estudiemos la siguiente pregunta: ¿toda transformación lineal se puede representar con una matriz diagonal? Si una transformación lineal se puede representar de esta manera, diremos que es diagonalizable.

Eigenvalores, eigenvectores y eigenespacios

En lo que sigue repasaremos el aparato conceptual que nos permitirá dar una respuesta parcial de cuándo una matriz es diagonalizable. Un tratamiento mucho más detallado se puede encontrar aquí en el blog, en el curso de Álgebra Lineal II, comenzando con la entrada Eigenvectores y eigenvalores.

Para nuestro repaso, debemos introducir algunos conceptos y estudiarlos.

Definición. Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal. Diremos que un escalar $r \in \mathbb{R}$ es un eigenvalor de $T$ si existe $\bar{v}\in \mathbb{R}^n\setminus\{ \bar{0} \}$ tal que $T(\bar{v})=r\bar{v}$. A dicho vector $\bar{v}$ le llamaremos un eigenvector de $T$ con eigenvalor asociado $r$.

Dado un eigenvector $\bar{v}\in \mathbb{R}^n$, sólo hay un eigenvalor correspondiente a éste. Si $T(\bar{v})=r\bar{v}$ y $T(\bar{v})=t\bar{v}$, entonces $r\bar{v}=t\bar{v}$ de donde $(r-t)\bar{v}=\bar{0}$. Como $\bar{v}\neq \bar{0}$, se sigue que $r=t$.

Por otro lado, para un eigenvalor $r$ puede haber más de un eigenvector con eigenvalor asociado $r$. Consideremos para un eigenvalor $r$ el conjunto $E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$. Notemos que $\bar{0}\in E(r)$ y también todos los eigenvectores de $r$ están en $E(r)$. Además, $E(r)$ es un subespacio de $\mathbb{R}^n$, pues si $\bar{u},\bar{v} \in E(r)$, y $a\in \mathbb{R}$, tenemos

\begin{align*}
T(a\bar{u}+\bar{v})&=aT(\bar{u})+T(\bar{v})\\
&=a(r\bar{u})+(r\bar{v})\\
&=r(a\bar{u}+\bar{v}),
\end{align*}

lo cual implica que $a\bar{u}+\bar{v} \in E(r)$.

Definición. Para una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ y un eigenvalor $r$ de $T$ llamaremos a

$$E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$$

el eigenespacio de $T$ correspondiente a $r$.

Cuando tenemos eigenvectores correspondientes a eigenvalores distintos, cumplen algo especial.

Proposición. Si $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son eigenvectores de una transformación lineal $T:\mathbb{R}^n \rightarrow \mathbb{R}^n$ con eigenvalores correspondientes $r_{1}, \dots ,r_{l}$ distintos entonces $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

Demostración. La ruta para establecer la demostración de este teorema será por inducción sobre $l$. Para un conjunto con sólo un eigenvector el resultado es evidente (¿por qué?). Supongamos cierto para cualquier subconjunto de $l-1$ eigenvectores que pertenecen a eigenespacios distintos. Sean $\bar{v}_{1}, \dots ,\bar{v}_{l}$ eigenvectores en distintos eigenespacios y consideremos $\alpha _{1}, \dots ,\alpha_{l}$ escalares tales que:

\begin{equation}
\label{eq:comb-cero}
\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}=\bar{0}.
\end{equation}

Aplicamos $T$ a la igualdad anterior. Usando que cada $\bar{v}_{k}$ es eigenvector correspondiente al eigenvalor $r_{k}$ obtenemos:

\begin{align*}
\bar{0}=T(\bar{0})&=T\left(\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k} \right)\\&=\sum_{k=1}^{l}\alpha _{k}T(\bar{v}_{k})\\&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}.
\end{align*}

Es decir,

\begin{equation}
\label{eq:aplicarT}
\textbf{0}=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}
\end{equation}

Multipliquemos \eqref{eq:comb-cero} por $r_{l}$ y restemos el resultado de \eqref{eq:aplicarT} para obtener que

\begin{align*}
\bar{0}=\bar{0}-\bar{0}&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}-r_{l}\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}\\&=\sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}.
\end{align*}

Tenemos entonces:

\[ \sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}=\bar{0}.\]

Ya que por hipótesis de inducción $\bar{v}_{1}, \dots ,\bar{v}_{l-1}$ son linealmente independientes entonces $\alpha _{k}(r_{k}-r_{l})=0$ para todo $k$, pero los eigenvalores son todos distintos entre sí por lo tanto para todo $k$ de $1$ a $l-1$ se tiene $r_{k}-r_{l}\neq 0$ y así $\alpha _{k}=0$. Finalmente, usando \eqref{eq:comb-cero} obtenemos $\alpha_l=0$. Por lo tanto $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

$\square$

Eigenvectores y transformaciones diagonalizables

Recuerda que dijimos que una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ es diagonalizable si existe una base $\beta$ de $\mathbb{R}^n$ tal que $\text{Mat}_{\beta}(T)$ es una matriz diagonal. El siguiente resultado conecta las dos ideas que hemos estado explorando: los eigenvectores y la representabilidad sencilla de $T$.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ transformación lineal. Una matriz $T$ es diagonalizable si y sólo si existe una base de $\mathbb{R}^n$ conformada por eigenvectores de $T$.

En realidad la demostración consiste únicamente en entender correctamente cómo se construyen las matrices para una base dada.

Demostración. $\Rightarrow )$ Supongamos que $T$ tiene una representación matricial que es una matriz diagonal $A:=\text{Mat}_{\beta}(T)=\text{diag}(r_{1}, \dots ,r_{n})$ con respecto a la base $\beta=\{\bar{v}_{1}, \dots ,\bar{v}_{n}\}$. Afirmamos que para cada $j=1,\ldots,n$ se tiene $\bar{v}_j$ es eigevector de eigenvalor $r_j$. En efecto, la forma en la que se construyó la matriz $A$ nos dice que

\begin{align*}
T(\bar{e}_j)&=\sum_{i=1}^n a_{ij} \bar{e}_i \\&= a_{jj} \bar{e}_j \\&= r_j \bar{e}_j,
\end{align*}

en donde estamos usando que las entradas $a_{ij}$ de la matriz son cero si $i\neq j$ (por ser diagonal), y son $r_j$ si $i=j$. Por supuesto, como $\bar{e}_j$ forma parte de una base, tampoco es el vector cero. Así, $\bar{e}_j$ es eigenvector de eigenvalor $\bar{e}_j$.

$\Leftarrow )$ Supongamos ahora que $\bar{v}_{1},\dots ,\bar{v}_{n}$ son una base $\beta$ de $\mathbb{R}^n$ conformada por eigenvectores de $T$ con eigenvalores asociados, digamos, $r_{1},\dots ,r_{n}$. Aquí se puede mostrar que $\text{Mat}_\beta(T)$ es diagonal. Queda como tarea moral hacer las cuentas.

$\square$

Hay una situación particular en la que podemos aprovechar el teorema anterior de manera inmediata: cuando la transformación tiene $n$ eigenvalores distintos. Esta consecuencia queda establecida en el siguiente resultado.

Corolario. Toda transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ tiene a lo más $n$ eigenvalores distintos. Si $T$ tiene exactamente $n$ eigenvalores distintos, entonces los eigenvectores correspondientes forman una base para $\mathbb{R}^n$ y la matriz de $T$ relativa a esa base es una matriz diagonal con los eigenvalores como elementos diagonales.

Demostración. Queda como tarea moral. Como sugerencia, recuerda que mostramos arriba que los eigenvectores de eigenvalores distintos son linealmente independientes.

$\square$

Al parecer los eigenvalores, eigenvectores y eigenespacios de una transformación lineal son cruciales para poder expresarla de manera sencilla. ¿Cómo los encontramos? Esto lo veremos en la siguiente entrada.

Antes de concluir, mencionamos que hay otro teorema crucial sobre diagonalización de matrices. Diremos que una matriz $P\in M_n(\mathbb{R})$ es ortogonal si $P^tP=I$.

Teorema (el teorema espectral). Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces, existe una matriz ortogonal $P$ tal que $PAP^t$ es una matriz diagonal.

El teorema anterior nos dice no únicamente que la matriz $A$ es diagonalizable, sino que además es diagonalizable mediante un tipo muy especial de matrices. Un estudio y demostración de este teorema queda fuera de los alcances de nuestro curso, pero puedes revisar, por ejemplo la entrada teorema espectral del curso de Álgebra Lineal I que tenemos en el blog.

Más adelante

Lo que haremos en la siguiente entrada es desarrollar un método para conocer los eigenvalores de una matriz. A partir de ellos podremos encontrar sus eigenvectores. Y en ciertos casos especiales, esto nos permitirá mostrar que la transformación es diagonalizable y, de hecho, nos dará la base para la cual la matriz asociada es diagonal.

Tarea moral

  1. Considera la transformación lineal de $\mathbb{R}^{3}$ en $\mathbb{R}^{2}$, dada como $T(x,y,z)=(x+y,z+y)$. Encuentra su representación matricial con las bases canónicas de $\mathbb{R}^3$ y $\mathbb{R}^2$. Luego, encuentra su representación matricial con las bases $\{(1,2,3),(1,0,1),(0,-1,0)\}$ de $\mathbb{R}^3$ y $\{(1,1),(1,-1)\}$ de $\mathbb{R}^2$.
  2. Considera la siguiente matriz: \[ \begin{pmatrix} 1 & 0 & 2 & 3 \\ 0 & -1 & 0 & 2 \\ \end{pmatrix}\] Da una transformación lineal $T:\mathbb{R}^4\to \mathbb{R}^2$ y ciertas bases $\beta$ de $\mathbb{R}^4$ y $\gamma$ de $\mathbb{R}^2$ para las cuales esta matriz sea la representación matricial de $T$ en las bases $\beta$ y $\gamma$.
  3. Fija bases $\beta$, $\gamma$ y $\delta$ para $\mathbb{R}^n$, $\mathbb{R}^m$ y $\mathbb{R}^l$. Considera dos transformaciones lineales $T:\mathbb{R}^n\to \mathbb{R}^m$ y $S:\mathbb{R}^m\to \mathbb{R}^l$. Demuestra que:
    $$\text{Mat}_{\delta, \beta} (S \circ T) = \text{Mat}_{\delta,\gamma}(S) \text{Mat}_{\gamma, \beta} (T).$$
    En otras palabras que la «composición de transformaciones corresponde al producto de sus matrices».
  4. Sea $T:\mathbb{R}^n\to\mathbb{R}^n$ una transformación lineal y $\beta$ una base de $\mathbb{R}^n$. Demuestra que $T$ es biyectiva si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.
  5. Verifica que los vectores $\bar{v}_1,\ldots,\bar{v}_n$ dados en el último teorema en efecto ayudan a dar una representación matricial diagonal para $T$.
  6. La demostración del último corolario es un conjunto de sencillas consecuencias de las definiciones y teoremas desarrollados en esta entrada con respecto a los eigenvalores y eigenvectores. Realiza esta demostración.

Entradas relacionadas

Cálculo Diferencial e Integral III: Determinantes

Por Alejandro Antonio Estrada Franco

Introducción

El determinante de una matriz cuadrada es un número asociado a esta. Como veremos, los determinantes nos proporcionarán información de interés para varios problemas que se pueden poner en términos de matrices.

Recuerda que los temas de esta unidad son tratados a manera de repaso, por lo cual no nos detenemos en detallar las demostraciones, ni en extender las exposiciones de las definiciones. Para mayor detalle, te remitimos al curso de Álgebra Lineal I, específicamente comenzando con la entrada Transformaciones multilineales. Aún así, es recomendable que revises estas notas en el curso de Cálculo Diferencial e Integral III, pues sintetizamos los temas de tal manera que recuperamos los conceptos relevantes para el cálculo de varias variables. Así mismo, en ocasiones, abordamos las definiciones y resultados de manera un poco distinta, y es muy instructivo seguir los mismos conceptos abordados con un sabor ligeramente distinto.

Permutaciones

Recordemos que en la entrada anterior definimos para cada $n\in \mathbb{N}$ el conjunto $[n]=\{1, 2,\ldots, n\}$.

Definición. Una permutación del conjunto $[n]$ es una función biyectiva $\sigma :[n]\rightarrow [n]$. Una forma de escribir a $\sigma$ de manera más explícita es la siguiente:
\[ \sigma = \begin{pmatrix} 1 & 2 & \dots & n \\
\sigma(1) & \sigma(2) & \dots & \sigma(n) \end{pmatrix} \]

Podemos pensar también a una permutación como un reacomodo de los números $1, 2, …, n$. Pensado de esta manera, escribimos $\sigma =\sigma(1) \sigma(2)\dots \sigma(n)$.

El conjunto de todas las permutaciones del conjunto $[n]$ se denota como $S_n$. Una observación interesante es que $S_{n}$ tiene $n!$ elementos.

Definición. Para $\sigma \in S_{n}$, una inversión en $\sigma$ consiste en un par $(i,k)\in [n]\times [n]$ tal que $i>k$ pero $i$ precede a $k$ en $\sigma$ cuando se considera $\sigma$ como una lista. Diremos que $\sigma$ es permutación par o impar según tenga un número par o impar de inversiones.

Ejemplo. Consideremos $\sigma=12354$ permutación en $[5]$. Tenemos que $(5,4)$ es una inversión en $\sigma$ pues $5>4$ pero en la permutación $5$ precede a $4$. Al tener $\sigma$ una sola inversión, es una permutación impar.

$\triangle$

Definición. El signo de $\sigma$, denotado $\text{sign}(\sigma)$ se define como:
\[
\text{sign}(\sigma )= \begin{cases} 1 & \text{si $\sigma$ es par} \\
-1 & \text{si $\sigma$ es impar.}\end{cases}
\]

Sea $A\in M_{n}(\mathbb{R})$. Pensemos en un producto de $n$ entradas de $A$ tomadas de tal manera que se eligió una y sólo una de cada fila y columna. Podemos reordenar los números para poner en orden la fila de la que tomamos cada uno, y escribir el producto como
\begin{equation}
a_{1j_{1}} a_{2j_{2}}\dots a_{nj_{n}}.
\label{eq:producto}
\end{equation}

Así, $a_{kj_{k}}$ nos dice que en la fila $k$ tomamos la entrada de la columna $j$. Como se eligió una y sólo una entrada por columna, tenemos que $j_1,\ldots,j_n$ es una permutación de $[n]$. Y viceversa, cada permutación $\sigma =j_{1}\dots j_{n} \in S_{n}$ determina un producto como en \eqref{eq:producto}. Por ello la matriz $A$ nos entrega $n!$ productos con esta característica.

Determinantes en términos de permutaciones

A partir de las permutaciones podemos definir a los determinantes.

Definición. El determinante de la matriz $A$, denotado por $\det(A)$, se define como:
\[
\det(A)=\sum_{\sigma \in S_{n}} \left(\text{sign}(\sigma)\prod_{i=1}^{n} a_{i\sigma (i)}\right)
\]
donde
\[
\sigma = \begin{pmatrix} 1 & 2 & \dots & n \\
\sigma (1) & \sigma (2) & \dots & \sigma (n)
\end{pmatrix}
\]

Ejemplo. Para la matriz \[ A= \begin{pmatrix} 0 & 2 & 1 \\ 1 & 2 & 0 \\ 3 & 0 & 1 \end{pmatrix} \] tomemos en cuenta las permutaciones del conjunto $[3]$ las cuales son: \[ \begin{pmatrix} 1 & 2 & 3 \\ 1 & 2 & 3 \end{pmatrix}, \begin{pmatrix} 1 & 2 & 3 \\ 1 & 3 & 2 \end{pmatrix}, \begin{pmatrix} 1 & 2 & 3 \\ 2 & 1 & 3 \end{pmatrix}, \begin{pmatrix} 1 & 2 & 3 \\ 2 & 3 & 1 \end{pmatrix}, \begin{pmatrix} 1 & 2 & 3 \\ 3 & 1 & 2 \end{pmatrix}, \begin{pmatrix} 1 & 2 & 3 \\ 3 & 2 & 1 \end{pmatrix} \]

De acuerdo con la definición de determinante, tenemos:

\begin{align*}
\det(A)=&(1)a_{11}a_{22}a_{33}+(-1)a_{11}a_{23}a_{32}+(-1)a_{12}a_{21}a_{33}+\\
&(1)a_{12}a_{23}a_{31}+(1)a_{13}a_{22}a_{31}+(-1)a_{13}a_{21}a_{32}\\
=&0\cdot 2\cdot 1+(-1)0\cdot 0\cdot 0+(-1)2\cdot 1\cdot 1+\\
&(1)2\cdot 0\cdot 3+(1)1\cdot 2\cdot 3+(-1)1\cdot 1\cdot 0\\
=&4.
\end{align*}

$\triangle$

Propiedades de los determinantes

Veamos algunas de las propiedades que tienen los determinantes. Aprovecharemos para introducir algunas matrices especiales.

Definición. La matriz identidad $I\in M_{n}(\mathbb{R})$ es aquella que cumple que en las entradas de la forma $(i,i)$ son iguales a 1 y el resto de las entradas son iguales a 0.

Definición. Diremos que una matriz $A\in M_n(\mathbb{R})$ es una matriz triangular superior si cumple $a_{ij}=0$ para $i>j$. La llamaremos triangular inferior si cumple $a_{ij}=0$ para $i<j$. Finalmente, diremos que es diagonal si cumple $a_{ij}=0$ para $i\neq j$ (en otras palabras, si simultáneamente es triangular superior e inferior).

Definición. Sea $A\in M_{m,n}(\mathbb{R})$. La transpuesta de la matriz $A$, denotada por $A^t$, es la matriz en $M_{n,m}(\mathbb{R})$ cuyas entradas están definidas como $(a^{t})_{ij} =a_{ji}$.

El siguiente resultado enuncia algunas propiedades que cumplen los determinantes de la matriz identidad, de matrices transpuestas, y de matrices triangulares superiores, triangulares inferiores y diagonales.

Proposición. Sea $A\in M_{n}(\mathbb{R})$. Se cumple todo lo siguiente.

  1. $\det(A)=\det(A^{t})$.
  2. Si $A$ tiene dos filas iguales $\det(A)=0$.
  3. Si $A$ tiene dos columnas iguales $\det(A)=0$.
  4. Si $A$ es triangular superior, triangular inferior, o diagonal, $\det(A)=\prod_{i=1}^{n} a_{ii}$.
  5. $\det(I_n)=1$.

Demostración.

  1. Notemos que (tarea moral) $\text{sign}( \sigma )= \text{sign}( \sigma ^{-1})$, así tenemos que
    \begin{align*}
    \det(A^{t})&=\sum_{\sigma \in S_{n}} \text{sign}(\sigma)a_{\sigma (1) 1}\dots a_{\sigma (n) n}\\
    &=\sum_{\sigma \in S_{n}} \text{sign}(\sigma ^{-1})a_{1\sigma (1)}\dots a_{n\sigma (n)}\\
    &= \sum_{\sigma \in S_{n}} \text{sign}(\sigma)a_{1\sigma (1)}\dots a_{n\sigma (n)}\\&= \det(A).
    \end{align*}
  2. Si tenemos dos filas iguales, en cada producto $a_{1\sigma (1)}\cdots a_{n\sigma (n)}$ tenemos dos factores de la misma fila, por tanto para cada producto tenemos otro igual en la suma solo que con signo contrario (signo de la permutación correspondiente); al hacer la suma estos sumandos se anularán por pares resultando en cero.
  3. Mismo argumento que en el inciso anterior.
  4. Si tenemos una matriz triangular, ya sea superior, o inferior $\prod_{i=1}^{n} a_{i\sigma (i)}\neq 0$ sólo cuando $\sigma(i)=i$ ya que en otro caso este producto siempre tendrá algún factor cero.
  5. Es un corolario de la propiedad anterior, pues la matriz identidad es una matriz diagonal con unos en la diagonal.

$\square$

Otra propiedad muy importante del determinante es que es multiplicativo. A continuación enunciamos el resultado, y referimos al lector a la entrada Propiedades de determinantes para una demostración.

Teorema. Sean $A$ y $B$ matrices en $M_n(\mathbb{R})$. Se tiene que $$\det(AB)=\det(A)\det(B).$$

Mas adelante

En la siguiente entrada revisaremos la teoría de sistemas de ecuaciones lineales. Comenzaremos definiéndolos, y entendiéndolos a partir de las operaciones elementales que definimos en la entrada anterior. Hablaremos un poco de cómo saber cuántas soluciones tiene un sistema de ecuaciones. Así mismo veremos que en ciertos sistemas de ecuaciones lineales, podemos asociar una matriz cuyo determinante proporciona información relevante para su solución.

Un poco más adelante también hablaremos de diagonalizar matrices. A grandes rasgos, esto consiste en encontrar representaciones más sencillas para una matriz, pero que sigan compartiendo muchas propiedades con la matriz original. El determinante jugará de nuevo un papel muy importante en esta tarea.

Tarea moral

  1. Sea $\sigma \in S_{n}$. Muestra que su inversa, $\sigma ^{ -1}$ también es una permutación. Después, muestra que
    \[\text{sign}(\sigma)= \text{sign}(\sigma ^{-1}).\]
    Sugerencia: no es difícil hacerlo por inducción sobre el número de inversiones.
  2. Encuentra explícitamente cuántas inversiones tiene la permutación $\sigma$ en $S_n$ dada por $S(j)=n-j+1$.
  3. Escribe con más detalle la demostración de que una matriz y su transpuesta tienen el mismo determinante. Puedes pensarlo como sigue. Toma \[ \det(A)=\sum_{\sigma \in S_{n}} \text{sign}(\sigma)a_{1\sigma(1)}\cdot \dots \cdot a_{n\sigma (n)}.\] Supón que las filas $s$ y $t$ son iguales; para cada factor argumenta por qué \[ a_{1\sigma (1)}\cdots a_{s\sigma (s)} \cdots a_{t\sigma (t)}\cdots a_{n\sigma (n)} \] el factor \[ a_{1\sigma (1)}\cdots a_{t\sigma (t)}\cdots a_{s\sigma (s)} \cdots a_{n\sigma (n)} \] donde permutamos el $t$-ésimo factor con el $s$-ésimo también está en la suma, y por qué ambos son de signos contrarios.
  4. Demuestra que el producto de una matriz triangular superior con otra matriz triangular superior también es una matriz triangular superior. Enuncia y demuestra lo análogo para matrices triangulares inferiores, y para matrices diagonales.
  5. Argumenta con más detalle por qué el determinante de una matriz triangular superior es el produto de las entradas en su diagonal. Específicamente, detalla el argumento de las notas que dice que «en otro caso, este producto siempre tendrá algún factor cero».

Entradas relacionadas

Cálculo Diferencial e Integral III: Matrices

Por Alejandro Antonio Estrada Franco

Introducción

Así como en la segunda unidad del curso, en esta unidad cubriremos nuevamente algunos temas de álgebra lineal que son importantes para el cálculo de varias variables. Nuevamente, daremos una exposición un poco superficial, pues se espera que estos temas sean cubiertos a profundidad en un curso de Álgebra Lineal 1 que se lleve en paralelo. Una posibilidad es tomar de manera paralela el curso aquí en el blog, en el siguiente enlace: Álgebra Lineal I, en donde hay una exposición más holgada de los temas que revisaremos en las siguientes entradas.

Comenzaremos esta entrada mencionando la importancia de las matrices como herramienta matemática en el estudio de las funciones de $\mathbb{R}^n$ en $\mathbb{R}^m$. Revisaremos también las distintas operaciones que podemos ejecutar sobre ellas. Hablaremos de operaciones binarias y elementales. Cada una de ellas tiene sus propósitos particulares.

Importancia de las matrices en cálculo diferencial e integral

Recordemos algunos conceptos del curso de Cálculo Diferencial e Integral 1. Comencemos con una función $f:D\subset \mathbb{R} \to \mathbb{R}$ una función derivable en el punto $x_{0} \in D$. La derivada de la función $f$ en el punto $x_{0}$ es un número que representa la pendiente de la recta tangente a la gráfica de la función en el punto $(x_{0},f (x_{0})) $. La recta en cuestión tiene por ecuación $y(x) =f ( x_{0})+f'(x_{0})(x-x_{0}) $. Observa que la función $y$ citada es una función lineal. No necesariamente es una transformación lineal, pues puede desplazar al origen. Sin embargo la llamamos «la mejor aproximación lineal a $f$ en el punto $x_{0}$». A grandes rasgos, recibe este nombre pues la función $f$ cerca de un punto dado $x_{0}$ toma valores muy cercanos a los que tomaría $y(x)$ cerca de ese mismo punto.

En el estudio de las funciones reales, así como en sus aplicaciones, es mucho mas fácil auxiliarnos de aproximaciones lineales para investigar y conocer las propiedades locales o en ciertas vecindades del punto a tratar. Las aproximaciones lineales son ecuaciones de rectas, las cuales poseen propiedades muy nobles y bastante tratables. Esta técnica de trabajar problemas de funciones reales (derivables) con lineas rectas, usando la mejor aproximación lineal en el punto dado también es usada para las funciones de $\mathbb{R}^n$ en $\mathbb{R}^m$, usando transformaciones lineales con las cuales se trabajará en las siguientes secciones.

La técnica será casi igual a la usada para las funciones de una variable real: hallaremos una transformación lineal la cual podremos usar para tener la mejor aproximación lineal a la función en un punto dado de su dominio. De aquí es natural que introduzcamos a las matrices en $M_{m,n}(\mathbb{R})$, pues las transformaciones lineales de $\mathbb{R}^n$ en $\mathbb{R}^m$ pueden ser representadas por matrices una vez que hayamos elegido las bases para los espacios vectoriales $\mathbb{R}^n$ y $\mathbb{R}^m$. Además, hay propiedades de transformaciones lineales que se pueden entender fácilmente en términos de matrices. Por ejemplo, la composición y producto escalar de transformaciones lineales tienen sus correspondientes operaciones en matrices, repectivamente la multiplicación de matrices y producto por escalar.

En rojo la mejor aproximación lineal a la gráfica de una función, representada en azul

Definición de matriz

Recuerda que nuestra exposición está condensada pues los temas pueden consultarse a detalle en otras entradas de este blog. Específicamente, para el tema de matrices puedes considerar esta entrada para un tratamiento más detallado.

Definición. Sean $m$ y $n$ números naturales. Una matriz de $n$ filas y $m$ columnas con entradas en los números reales es un arreglo rectangular de la siguiente forma:

$$A=\begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn}\end{pmatrix}.$$

Al conjunto de todas las matrices de $n$ filas y $m$ columnas con entradas en los números reales lo denotaremos por $M_{m,n}(\mathbb{R})$. Si $m=n$, usaremos la notación simplificada $M_n(\mathbb{R})$.

Es posible formalizar todavía más a las matrices, pensando en los conjuntos $[m]=\{1,2,\ldots,m\}$ y $[n]=\{1,2,\ldots,n\}$, y tomando una matriz como una función $A:[n]\times[m]\to\mathbb{R}$. Sin embargo, usualmente no tomaremos esta definición, y nos apegaremos a las definiciones dadas arriba.

Operaciones binarias relacionadas con matrices

Hablaremos de tres operaciones binarias relacionadas con matrices, las cuales son útiles para nuestros propósitos en cálculo, pues hay algunas operaciones entre funciones que se corresponden con ellas. Las operaciones que discutiremos son el producto por escalar, la suma de matrices y el producto de matrices. Respectivamente, estas corresponderán, en cierto sentido, al producto por escalar, suma de funciones y composición de funciones. Puedes revisar esta entrada para conocer detalle como se dan algunas de estas correspondencias.

Definición. La suma de matrices es una operación binaria que toma dos matrices con la misma cantidad de filas, y con la misma cantidad de columnas. Si la matriz $A$ tiene entradas $a_{ij}$ y la matriz $B$ tiene entradas $b_{ij}$, su suma está definida como la matriz $A+B$ cuyas entradas son $a_{ij}+b_{ij}$, es decir, las matrices se suman entrada a entrada. Pensada de esta manera, la suma es una función $+:M_{m,n}(\mathbb{R})\times M_{m,n}(\mathbb{R}) \to M_{m,n}(\mathbb{R})$.

Podemos ver esta operación también en los arreglos correspondientes:

\begin{align*}
A+B&=\begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn}\end{pmatrix} + \begin{pmatrix} b_{11} & b_{12} & \cdots & b_{1n}\\ b_{21} & b_{22} & \cdots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{m1} & b_{m2} & \cdots & b_{mn}\end{pmatrix}\\
&:=\begin{pmatrix} a_{11}+b_{11} & a_{12}+b_{12} & \cdots & a_{1n}+b_{1n}\\ a_{21}+b_{21} & a_{22}+b_{22} & \cdots & a_{2n}+b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1}+b_{m1} & a_{m2}+b_{m2} & \cdots & a_{mn}+b_{mn}\end{pmatrix}
\end{align*}

Definición. El producto matriz por escalar es una operación binaria que toma un número real $r$ y una matriz $A$. A la pareja $(r,A)$ le asigna otra matriz que denotaremos por $rA$. Si las entradas de $A$ son $a_{ij}$, las de $rA$ son $ra_{ij}$. En otras palabras, cada una de las entradas de $A$ se multiplica por $r$, de modo que en el arreglo se ve de la siguiente manera:

$$rA=\begin{pmatrix} ra_{11} & ra_{12} & \cdots & ra_{1n}\\ ra_{21} & ra_{22} & \cdots & ra_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ ra_{m1} & ra_{m2} & \cdots & ra_{mn}\end{pmatrix}.$$

De esta manera, el producto matriz por escalar es una operación binaria

$$\cdot: \mathbb{R} \times M_{m,n}(\mathbb{R})\to M_{m,n}(\mathbb{R}).$$

Definición. Finalmente, tenemos el producto de matrices. Para multiplicar dos matrices $A$ y $B$, necesitamos que la cantidad de columnas de $A$ sea igual a la cantidad de filas de $B$. Así, $A$ es una matriz de, digamos $m\times n$ y $B$ es una matriz de, digamos $n\times p$. Su producto será una matriz de $m\times p$. Si $A$ tiene entradas $a_{ij}$ y $B$ tiene entradas $b_{jk}$, entonces la matriz producto $AB$ tendrá entradas dadas por la siguiente regla del producto:

\begin{align*}
c_{ik}&=\sum_{j=1}^n a_{ij}b_{jk}\\
&=a_{i1}b_{1k}+a_{i2}b_{2k}+\ldots+a_{in}b_{nk}.
\end{align*}

Esto nos dice que el producto de matrices es entonces una operación binaria

$$\cdot: M_{m,n}(\mathbb{R})\times M_{n,p}(\mathbb{R})\to M_{m,p}(\mathbb{R}).$$

Operaciones elementales de matrices

Las operaciones elementales involucran únicamente una matriz. Usualmente son usadas para resolver sistemas de ecuaciones lineales, una vez que estos se han pasado a su forma matricial. Así mismo, las operaciones elementales ayudan a hallar representaciones mas sencillas de ciertas transformaciones lineales.

Definición. Dada una matriz $A$, una transposición de renglones consiste en elegir dos de los renglones de $A$ e intercambiarlos.

Definición. Dada una matriz $A$, un reescalamiento consiste en elegir un renglón y un número real $r\neq 0$, y substituir al renglón por aquel que se obtiene al multiplicar cada entrada del renglón por $r$.

Definición. Dada una matriz $A$, una transvección consiste en elegir dos renglones $u$ y $v$ de la matriz y un escalar $r$, y sustituir al renglón $v$ por el renglón $v+ru$ (aquí pensamos a $u$ y $v$ como vectores para efectuar las operaciones).

Las operaciones elementales son fundamentales en la teoría de matrices pues a partir de ellas siempre podemos llevar cualquier matriz a una forma muy sencilla, que definimos a continuación.

Definición. Una matriz $A$ está en forma escalonada reducida si suceden las siguientes cosas:

  1. Aquellas filas de $A$ que consisten de puros ceros, están hasta abajo.
  2. En aquellas filas que no sean de puros ceros, la primera entrada (de izquierda a derecha) que no sea igual a cero (a la que llamaremos pivote) es igual a $1$.
  3. Si una fila está arriba de otra y ambas tienen pivote, entonces el pivote de la de arriba está más a la izquierda que el pivote de la de abajo.
  4. Si una entrada de la matriz es pivote (de alguna fila), entonces es la única entrada distinta de cero de la columna en la que está.

En este enlace puedes encontrar una exposición más detallada de este tipo de matrices

Ejemplo. Consideremos la siguiente matriz: $$\begin{pmatrix} 0 & 5 & 3 \\ 3 & 7 & 0 \\ 0 & 0 & 1 \end{pmatrix}.$$

El pivote del primer renglón es 5, del segundo 3, y del tercero 1. Esta matriz no está en forma escalonada reducida pues no todos sus pivotes son iguales a $1$. Tampoco esta en forma escalonada reducida pues el pivote de la tercera fila (la entrada $1$), no es la única entrada distinta de cero en su columna, pues en esa columna también hay un $3$.

$\triangle$

Ejemplo. Las siguientes matrices sí están en forma escalonada reducida:

\[ \begin{pmatrix} 1 & 5 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix}\hspace{2cm} \begin{pmatrix} 0 & 1 & -2 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 1 \end{pmatrix}\hspace{2cm} \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix} \]

$\triangle$

Quizás el teorema más fundamental de la teoría de matrices es el teorema de reducción gaussiana, que enunciamos a continuación.

Teorema. Cualquier matriz $A\in M_{m,n}(\mathbb{R})$ puede ser llevada a forma escalonada reducida mediante la aplicación de algunas operaciones elementales.

Mas adelante

Como ya lo hemos mencionado las matrices serán usadas para representar transformaciones lineales. Las transformaciones lineales nos ayudarán a introducir la noción de derivabilidad en varias variables. Y ello nos permitirá aproximar fácilmente cualquier función $f:\mathbb{R}^n\to \mathbb{R}^m$.

De esta manera, un conocimiento amplio de las matrices repercute en un conocimiento amplio de las transformaciones lineales, lo cual a su vez nos da más información en cuanto a las funciones de $\mathbb{R} ^n$ en $\mathbb{R} ^m$. Para seguir haciendo hincapié en las nociones de matrices que más nos interesan, en la siguiente entrada revisaremos un importante número asociado a cada matriz cuadrada: el determinante.

Tarea moral

  1. Consideremos las matrices $A,B$ de la siguiente manera: \[ A=\begin{pmatrix} 3 & 2 & 0 \\ 2 & 7 & 0 \\ 1 & 0 & 0 \end{pmatrix}\hspace{1cm} B=\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix} \] Encuentra una matriz $X$ que resuelva la siguiente ecuación: \[ 5X + A = B. \]
  2. Aplica operaciones elementales sucesivas para llevar la siguiente matriz a una matriz escalonada reducida: \[ \begin{pmatrix} 1 & 4 & 0 \\ 3 & 0 & -5 \\ 0 & 0 & -1 \\ 6 & 5 & 0 \end{pmatrix}.\]
  3. Considera a la matriz identidad $I_4\in M_{4}(\mathbb{R})$ donde $I_{ij}=0$ para $i\neq j$, y $I_{ij}=1$ en otro caso. Aplica las siguiente operaciones elementales y toma nota del resultado para el siguiente ejercicio:
    • Una transposición de los renglones $1$ y $3$.
    • Un reescalamiento por $-1$ al renglón $2$
    • Una transvección usando los renglones $2$ y $1$, y el escalar $4$.
  4. Aplica las mismas operaciones del punto anterior a la matriz del Ejercicio 2. Toma nota de los resultados.
  5. Finalmente multiplica cada una de matrices del Ejercicio 3 por la izquierda con la matriz del Ejercicio 2. Compara con los resultados obtenidos en el Ejercicio 4. ¿Qué observas?

Entradas relacionadas

Cálculo Diferencial e Integral III: Polinomio de Taylor para campos escalares

Por Alejandro Antonio Estrada Franco

Introducción

Una intuición que se obtiene de un primer curso de cálculo diferencial e integral es que las funciones que tienen muchas derivadas «se parecen mucho a polinomios», en el sentido de que podemos aproximarlas apropiadamente con este tipo de expresiones. Esta intuición nos las da el teorema del polinomio de Taylor. En muchas aplicaciones, es conveniente estudiar polinomios en vez de funciones en general, así que sería ideal tener una versión de este mismo resultado para cálculo de varias variables. En esta entrada recordaremos un poco del caso unidimensional y luego enunciaremos la teoría correspondiente para el polinomio de Taylor.

Recordatorio de polinomio de Taylor en $\mathbb{R}$

Recordemos qué es lo que dice el teorema del polinomio de Taylor para el caso unidimensional. Esto nos ayudará pues lo usaremos posteriormente para enunciar una versión para varias variables.

Teorema. Sea $f:S\subseteq \mathbb{R}\to \mathbb{R}$ una función y $a\in int(S)$ de tal manera que existen $f^{\prime}(a),\dots ,f^{(k)}(a)$. Sea $$a_{\ell}=\frac{f^{(\ell)}(a)}{\ell!}$$ con $0\leq \ell \leq k$ y definamos a partir de esto $$T_{k,a}(x)=a_{0}+a_{1}(x-a)+\dots +a_{k}(x-a)^k,$$

al que llamamos el polinomio de Taylor de $f$ de grado $k$ alrededor de $a$.

Entonces $$\lim_{x \to a}\frac{f(x)-T_{k,a}(x)}{(x-a)^k}=0.$$

La demostración de este teorema la puedes encontrar en la entrada El Polinomio de Taylor (Parte 1) del curso de Cálculo I. Es recomendable que consultes esta entrada para recordar todo lo referente a este tema en una variable real.

Pidiendo un poco más de regularidad, se puede estudiar el residuo $$R_{k,a}(x):=f(x)-T_{k,a}(x).$$

Por ejemplo, se puede demostrar el siguiente teorema.

Teorema. Sea $f:S\subseteq \mathbb{R}\to\mathbb{R}$. Supongamos que $f^{\prime},\dots ,f^{(k+1)}$ están definidas sobre $[a,x]$. Entonces, se puede expresar el residuo del teorema de Taylor como

\begin{equation}
\label{eq:residuo}
R_{k,a}(x)=\frac{f^{(k+1)}(\xi)}{(k+1)!}(x-a)^{k+1}.
\end{equation}

para algún $\xi\in[a,x]$.

Para la demostración de este teorema y otras expresiones del residuo (por ejemplo, una expresión en términos de integrales), puedes visitar el curso de Cálculo II, en particular la entrada Series de Taylor y de Maclaurin.

Pensemos de momento que $f$ tiene derivadas parciales de todos los órdenes (es decir, que es $C^\infty$). En este caso, $f$ tiene polinomios de Taylor de todos los grados. De entrada, no tendría por qué suceder que $\lim_{k\to \infty} T_{k,a}(x)=f(x)$, y de hecho hay contraejemplos para ello. Pero si además tenemos que se tiene $\lim_{k \to \infty}R_{k,a}(x)=0$, entonces la igualdad anterior sí se cumple. En este caso, verdaderamente $f$ se puede expresar como un polinomio infinito (una serie de potencias) alrededor de $a$ de la siguiente manera:

\begin{equation}\label{eq:taylor-inf}f(x)=\sum_{i=0}^{\infty}\frac{f^{(i)}(a)}{i!}(x-a)^{i}.\end{equation}

Ejemplo. Calculemos en $0$ el polinomio de Taylor de $f(x)=e^x$. Para cada entero positivo $k$ se tiene:

$$\frac{f^{(k)}(0)}{k!}x^{k}=\frac{e^0}{k!}x^{k}=\frac{x^{k}}{k!}.$$

De aquí, por la forma que toma el residuo, existe $\xi\in [0,x]$ para el cual

$$R_{k,0}(x)=\frac{e^\xi}{(k+1)!}x^{k+1}.$$

aquí $e^\xi$ está acotado y el cociente $\frac{x^{k+1}}{(k+1)!}$ se va a cero conforme $k\to \infty$. De este modo, tenemos la igualdad

$$e^x=1+\frac{x}{1}+\frac{x^2}{2!}+\frac{x^3}{3!}+\frac{x^4}{4!}+\frac{x^5}{5!}+\dots.$$

$\triangle$

Preliminares para polinomio de Taylor para campos escalares

La manera en la cual generalizaremos el teorema del polinomio de Taylor será a través de evaluar nuestro campo escalar sobre un segmento, muy parecido a como generalizamos el teorema del valor medio. Pongamos la situación en contexto.

Tomemos un abierto $S\subseteq \mathbb{R}^n$ y un campo escalar $f:S\to \mathbb{R}$. Tomemos vectores
\begin{align*}
\bar{a}=(a_1,\ldots,a_n)\\
\bar{v}=(v_1,\ldots,v_n),
\end{align*}

y $t$ en el intervalo $[0,1]$. Supondremos además que para todo dicho $t$ se cumple $\bar{a}+t\bar{v}\in S$.

Podemos recorrer el segmento de $\bar{a}$ a $\bar{a}+\bar{v}$ mediante la trayectoria $\gamma : [0,1] \to \mathbb{R}^{n}$ dada por $\gamma (t)=\bar{a}+t\bar{v}$. Si componemos a esta trayectoria con la función $f$, obtenemos una función $G: [0,1] \to \mathbb{R}$ dada por $$G(t)=(f\circ \gamma )(t)=f(\bar{a}+t\bar{v}).$$

Por la hipótesis de diferenciabilidad de $f$, es una función derivable de una variable real. Por la regla de la cadena su derivada está dada por la siguiente expresión:

\begin{align*}
G^{\prime}(t)&=v_{1}\frac{\partial f}{\partial x_{1}}(\bar{a}+t\bar{v})+\dots +v_n\frac{\partial f}{\partial x_n}(\bar{a}+t\bar{v})
\end{align*}

Vamos a introducir una notación muy usada y útil para el desarrollo que estamos haciendo. Definiremos un operador con la expresión anterior simplemente como

\[ G^{\prime}(t)=(\bar{v}\cdot \triangledown )f(\bar{a}+t\bar{v}).\]

Esta expresión no se sigue de manera tan formal de cosas que hemos hecho antes, pero observa que tiene sentido. En la expresión $\bar{v}\cdot \triangledown$ estamos haciendo algo así como un «producto punto de operadores». En el fondo, este operador manda a cada función diferenciable $f$ a su derivada direccional en la dirección de $\bar{v}$.

Para poder hablar de Taylor, necesitamos derivar iteradamente. Podemos entonces tomar ahora $G’$ y derivarla nuevamente, de donde obtendríamos

\begin{align*}
G^{\prime \prime} (t) &= (\bar{v}\cdot \triangledown) G'(\bar{a}+t\bar{v})\\
&=(\bar{v}\cdot \triangledown)\left((\bar{v}\cdot \triangledown)f(\bar{a}+t\bar{v})\right)\\
&=\left((\bar{v}\cdot \triangledown)(\bar{v}\cdot \triangledown)\right) f(\bar{a}+t\bar{v}).
\end{align*}

Es importante que medites en por qué se da la redistribución de paréntesis que hicimos en la última igualdad. Simplificaremos la expresión $(\bar{v}\cdot \triangledown)(\bar{v}\cdot \triangledown )$ como $(\bar{v}\cdot \triangledown)^2$, y de manera similar definimos $(\bar{v}\cdot \triangledown)^k$ como componer el operador $k$ veces. Continuando como arriba, bajo las hipótesis adecuadas de diferenciabilidad llegamos al siguiente resultado.

Proposición. Sea $k$ un entero positivo y $f:S\subseteq \mathbb{R}^{n}\to \mathbb{R}$ con $S$ abierto y derivadas parciales continuas de orden $1,2,\ldots,k$. Sea $\bar{a}\in S$, y $\bar{v}$ un vector tal que $\bar{a}+t\bar{v}\in S$ para todo $t\in [0,1]$. Entonces:

\begin{equation}\label{eq:iteradas}\left( \frac{d}{dt} \right)^{k}f(\bar{a}+t\bar{v})=(\bar{v}\cdot \triangledown )^{k}f(\bar{a}+t\bar{v}).\end{equation}

Demostración. Queda como tarea moral. Se sugiere hacerlo por inducción.

$\square$

Algo sorprendente y curioso que sucede con las expresiones del estilo $(\bar{v}\cdot \triangle)^k$ es que «se vale el binomio de Newton» para ellas, o en general, cualquier fórmula para elevar a la $k$-ésima potencia. Esto se ve muy claro en el caso de $f:S\subset \mathbb{R}^2\to \mathbb{R}$ y derivadas de orden $2$. Si tenemos $\bar{v}=(v_1,v_2)$, entonces $\bar{v}\cdot \triangledown=v_1\frac{\partial}{\partial x} + v_2\frac{\partial}{\partial y}$. Se puede demostrar, por ejemplo, que si las $k$-ésimas parciales son continuas entonces

\[ \left( v_1\frac{\partial}{\partial x}+v_2\frac{\partial}{\partial y}\right)^{k}=\sum_{i
=0}^{k}\binom{k}{i}v_1^iv_2^{k-i}\frac{\partial ^{i}}{\partial x^{i}}\frac{\partial^{k-i}}{\partial y^{k-i}}.\]

Un caso particular sería el de $n=2$ y $k=2$, en el que se obtiene que:

\begin{equation} \label{eq:binomio} \left( v_1\frac{\partial}{\partial x}+v_2\frac{\partial}{\partial y} \right)^{2}=v_1^{2}\frac{\partial ^{2}}{\partial x^{2}}+2{v_1}{v_2}\frac{\partial ^{2}}{\partial x\partial y}+v_2^{2}\frac{\partial ^{2}}{\partial y^{2}}.\end{equation}

En la práctica esto nos permitirá encontrar las expresiones que necesitamos para el polinomio de Taylor para campos escalares. Observa que estas expresiones son también las que nos confirman que la expresión que obtendremos será un polinomio en $v_1,v_2$ (en general, en las entradas de $\bar{v}$), pues tras aplicar el operador en $f$ y evaluar en un punto, finalmente \eqref{eq:binomio} quedará escrito para ciertas constantes $A,B,C$ como $$Av_1^2+2Bv_1v_2+Cv_2^2,$$ lo cual en efecto es un polinomio (en este caso de grado $2$ y dos variables).

Polinomio de Taylor para campos escalares

Con la notación que hemos introducido, ahora sí podemos enunciar apropiadamente el polinomio de Taylor. Pensemos en que $f$ es $k+1$ veces diferenciable y que todas esas derivadas son continuas. En la sección anterior vimos que $G=f\circ \gamma$ también sería $k+1$ veces diferenciable y dimos fórmulas para sus derivadas en términos de la notación $\bar{v}\cdot \triangledown$.

Aplicando el teorema de Taylor con la versión de residuo dada en la ecuación \eqref{eq:residuo}, para la función $G$, en los puntos $a=0$, $x=1$, tenemos que existe $\xi\in[0,1]$ tal que se satisface lo siguiente:

\[ G(1)=G(0)+G^{\prime}(0)+\frac{G^{(2)}(0)}{2!}+\dots +\frac{G^{(k)}(0)}{k!}+\frac{G^{(k+1)}(\xi)}{(k+1)!}.\]

Al usar las fórmulas dadas por la ecuación \eqref{eq:iteradas}, obtenemos que

\begin{align*}
G^{(s)}(0)&=(\bar{v}\cdot \triangledown )^{s}f(\bar{a}) & \text{para $s\leq k$}\\
G^{(k+1)}(\xi)&=(\bar{v}\cdot \triangledown )^{k+1}f(\bar{a}+\xi \bar{v}).
\end{align*}

Así, reescribiendo todo en términos de $f$ obtenemos que:

\begin{equation}\label{eq:prepoly}f(\bar{a}+\bar{v})=f(\bar{a})+\frac{(\bar{v}\cdot \triangledown )f(\bar{a})}{1!}+\dots +\frac{(\bar{v}\cdot \triangledown)^{k}f(\bar{a})}{k!}+\frac{(\bar{v}\cdot \triangledown )^{k+1}f(\bar{a}+\tau \bar{v})}{(k+1)!}.\end{equation}

Si de esta expresión quitamos el último término (el correspondiente al residuo) y hacemos la sustitución $\bar{w}=\bar{a}+\bar{v}$, obtenemos la siguiente expresión:

\begin{equation} \label{eq:poltaylor}T_{k,\bar{a}}(\bar{w}):=f(\bar{a})+\frac{((\bar{w}-\bar{a})\cdot \triangledown )f(\bar{a})}{1!}+\dots +\frac{((\bar{w}-\bar{a})\cdot \triangledown)^{k}f(\bar{a})}{k!}\end{equation}

le llamamos el polinomio de Taylor de $f$ de grado $k$ alrededor de $\bar{a}$ y converge a $f(\bar{a})$ conforme $\bar{w}\to \bar{a}$.

Ejemplo de polinomio de Taylor para campos escalares

Ejemplo. Determinemos el polinomio de Taylor de grado 3 de la expresión $f(x,y)=e^{5x+3y}$ alrededor del punto $(0,0)$. Para ello, usaremos la expresión de la fórmula \eqref{eq:prepoly} quitando el residuo y fórmulas tipo «binomio de Newton» como la de la ecuación \eqref{eq:binomio}.

Comencemos con el término de grado $1$. Está dado por el operador

$$\left(v_1\frac{\partial}{\partial x}+v_2\frac{\partial}{\partial y}\right)$$

que aplicado a nuestra función es

$$((v_1,v_2)\cdot \triangledown)f(x,y)=5v_1e^{5x+3y}+3v_2e^{5x+3y}.$$

Necesitaremos su evaluación en $(x,y)=(0,0)$, que es $5v_1+3v_2$.

Para pasar al término de segundo grado, necesitamos

\[\left( v_1\frac{\partial}{\partial x}+v_2\frac{\partial}{\partial y} \right)^{2}=v_1^{2}\frac{\partial ^{2}}{\partial x^{2}}+2{v_1}{v_2}\frac{\partial ^{2}}{\partial x\partial y}+v_2^{2}\frac{\partial ^{2}}{\partial y^{2}}.\]

Al aplicar este operador en nuestra $f$, se obtiene:

$$((v_1,v_2)\cdot \triangledown)^2f(x,y)=25v_1^2e^{5x+3y}+30{v_1}{v_2}e^{5x+3y}+9v_2^2 e^{5x+3y}$$

Lo necesitaremos evaluado en $(0,0)$, que es $25v_1^2+30v_1v_2+9v_2^2$.

Finalmente, también requeriremos del término de orden $3$, para el cual es necesario calcular el siguiente operador

\[ \left( v_1\frac{\partial}{\partial x}+v_2\frac{\partial}{\partial y} \right)^{3}=v_1^{3} \frac{\partial}{\partial x^3}+3v_1^{2}{v_2}\frac{\partial}{\partial x^{2}\partial y}+3v_1v_2^{2}\frac{\partial}{\partial x \partial y^2}+v_2^3\frac{\partial}{\partial y^3},\]

y aplicarlo a nuestra $f$ para obtener

$$((v_1,v_2)\cdot \triangledown)^3f(x,y)=125v_1^3e^{5x+3y}+225v_1^2v_2e^{5x+3y}+135v_1v_2^2 e^{5x+3y}+27v_2^3e^{5x+3y}.$$

Una vez más, requerimos la evaluación en $(0,0)$, la cual es $125v_1^3+225v_1^2v_2+135v_1v_2^2+27v_2^3$.

Juntando todo esto, obtenemos que

\begin{align*}
f(v_1,v_2)&=f(0,0)+\frac{((x,y)\cdot \triangledown )f(0,0)}{1!}+\frac{((x,y)\cdot \triangledown )^{2}f(0,0)}{2!}+\frac{((x,y)\cdot \triangledown)^{3}f((0,0))}{3!}\\
&=1+5v_1+3v_2+\frac{25v_1^2+30v_1v_2+9v_2^2}{2}+\frac{125v_1^3+225v_1^2v_2+135v_1v_2^2+27v_2^3}{6}.
\end{align*}

$\square$

Observa que, en efecto, obtenemos un polinomio en dos variables y de grado tres.

Los casos especiales para grado $1$ y grado $2$

Las presentaciones más clásicas del polinomio de Taylor para campos escalares de varias variables son las versiones de primero y segundo grado. Para el polinomio de primer grado, tenemos la siguiente expresión:

$$T_{1,\bar{a}}(\bar{a}+\bar{v})=f(\bar{a})+\sum_{i=1}^{n}(v_i)\frac{\partial f}{\partial x_{i}}(\bar{a}).$$

En el caso de la presentación clásica para la fórmula de segundo orden tenemos

$$\frac{(\bar{v}\cdot \triangledown)^{2}f}{2!}(\bar{a})=\sum_{i=1}^n\sum_{j=1}^nv_{i}v_{j}\frac{\partial ^{2}f}{\partial x_{j}\partial x_{i}}(\bar{a})$$

Donde

$$T_{2,\bar{a}}(\bar{a}+\bar{v})=f(\bar{a})+\sum_{i=1}^{n}v_{i}\frac{\partial f}{\partial x_{i}}(\bar{a})+\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^{n}v_{i}v_{j}\frac{\partial ^{2}f}{\partial x_{j}\partial x_{i}}(\bar{a}).$$

Esta suma tendrá utilidad especial hacia el final del curso, cuando hablemos de optimización. La expresión también puede ponerse en términos de otro objeto matemático que se llama la matriz Hessiana, la cual definiremos más adelante una vez que hayamos hecho un repaso de álgebra lineal, matrices y formas cuadráticas.

Mas adelante…

Con lo que hemos trabajado hasta ahora hemos desarrollado un muy buen entendimiento de las curvas y de los campos escalares, que respectivamente son funciones $f:\mathbb{R}\to \mathbb{R}^m$ y $f:\mathbb{R}^n\to \mathbb{R}$. Sin embargo, nos gustaría ahora poder hablar con mucha mayor generalidad y entender a las funciones del estilo $f:\mathbb{R}^n\to \mathbb{R}^m$. Ya entendimos un poco de cómo son en términos de continuidad, cuando hablamos de la topología de $\mathbb{R}^n$. Sin embargo, para poder hablar de su diferenciabilidad y de otros resultados teóricos será necesario hacer un repaso de algunos conceptos adicionales de álgebra lineal. Por esta razón, en la siguiente unidad hablaremos de temas como transformaciones lineales, matrices, sistemas de ecuaciones, formas lineales y bilineales.

Tarea moral

  1. Encuentra el polinomio de Taylor de primer grado para las siguientes funciones:
    • $f(x,y)=e^(x+y)$
    • $f(x,y)=e^{sen(x+y)}$
    • $f(x,y)=x^2y^2+x+y$
  2. Calcula el polinomio de Taylor de segundo grado para los siguientes campos escalares en el punto dado:
    • $f(x,y)=x^2+xy$ en el punto $(1,1)$.
    • $f(x,y,z)=xsen(yz)$ alrededor del punto $(\pi ,\pi ,\pi)$.
  3. Demuestra por inducción la fórmula \[\left( \frac{d}{dt} \right)^{k}f(\bar{a}+t\bar{v})=(\bar{v}\cdot \triangledown )^{k}f(\bar{a}+t\bar{v}).\]
  4. Demuestra por inducción \[ \left( x\frac{\partial}{\partial x}+y\frac{\partial}{\partial y}\right)^{k}=\sum_{i=1}^{k}\binom{k}{i}x^{i}y^{k-i}\frac{\partial ^{i}}{\partial x^{i}}\frac{\partial^{k-i}}{\partial y^{k-i}}.\]
  5. En esta entrada sólo discutimos con detalle lo que pasa con el polinomio de Taylor «hasta cierto grado $k$». Sin embargo, no dimos una versión que generalice el polinomio de Taylor para cuando usamos todos los términos posibles (como en la ecuación \eqref{eq:taylor-inf}). Observa que en el recordatorio de una variable real sí pusimos el resultado para la serie de Taylor. Enuncia y demuestra una versión para campos escalares.

Entradas relacionadas

Cálculo Diferencial e Integral III: Sistemas de ecuaciones lineales

Por Alejandro Antonio Estrada Franco

Introducción

En esta entrada daremos un repaso a la teoría de sistemas de ecuaciones lineales. En caso de que quieras leer una versión detallada, puedes comenzar con la entrada de Sistemas de ecuaciones lineales y sistemas homogéneos asociados que forma parte del curso Álgebra Lineal I aquí en el blog.

Nuestra motivación para este repaso comienza como sigue. Supongamos que $T:\mathbb{R}^n \rightarrow \mathbb{R}^m$ es una transformación lineal. Tomemos un vector $\bar{w}\in \mathbb{R}^m$. Es muy natural preguntarse qué vectores $\bar{v}$ hay en $\mathbb{R}^n$ tales que $T(\bar{v})=\bar{w}$, en otras palabras, preguntarse cuál es la preimagen de $\bar{w}$.

Sistemas de ecuaciones lineales

Continuando con la situación planteada en la introducción, si $A$ es la representación matricial de $T$ en una cierta base $\beta$, podemos contestar la pregunta planteada resolviendo la ecuación matricial $AX=B$ donde $X$, $B$ son las representaciones de los vectores $\bar{v}$, $\bar{w}$ en la base $\beta$, respectivamente. Una vez llegado a este punto, la ecuación $AX=B$ nos conduce a que se deban cumplir varias igualdades. Veamos cuáles son en términos de las entradas de $A$, $X$ y $Y$. Pensemos que $$A=\begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn}\end{pmatrix}.$$

Pensemos también que $X$ es el vector columna con entradas (incógnitas) $x_1,\ldots,x_n$, y que $B$ es el vector columna con entradas $b_1,\ldots,b_m$.

Al realizar las operaciones, la igualdad $AX=B$ se traduce en que se deban cumplir todas las siguientes ecuaciones simultáneamente:

\begin{equation}\left\{
\begin{matrix} a_{11}x_{1} + & \dots & + a_{1n}x_{n} & = b_{1} \\
\vdots & \ddots & \vdots & \vdots \\
a_{m1}x_{1} + & \dots & + a_{mn}x_{n} & = b_{m}
\end{matrix}\right.
\label{eq:sistema}
\end{equation}

Definición. Un sistema de $m$ ecuaciones lineales con $n$ incógnitas es un sistema de ecuaciones de la forma \eqref{eq:sistema}. Como discutimos arriba, al sistema también lo podemos escribir de la forma $AX=B$. A la matriz $A$ le llamamos la matriz de coeficientes. Al vector $X$ le llamamos el vector de incógnitas.

Resolver el sistema \eqref{eq:sistema} se refiere a determinar todos los posibles valores que pueden tomar las incógnitas $x_1,\ldots,x_n$ de manera que se cumplan todas las ecuaciones dadas.

Definición. Diremos que dos sistemas de ecuaciones son equivalentes si tienen las mismas soluciones.

Un resultado importante que relaciona a los sistemas de ecuaciones con las operaciones elementales que discutimos con anterioridad es el siguiente.

Proposición. Sea $A\in M_{m,n}(\mathbb{R})$ y $e$ una operación elemental cualquiera (intercambio de renglones, reescalamiento de renglón, o transvección). Entonces el sistema de ecuaciones $AX=B$ es equivalente al sistema de ecuaciones $e(A)X=e(B)$.

En otras palabras, si comenzamos con un sistema de ecuaciones $AX=B$ y aplicamos la misma operación elemental a $A$ y a $B$, entonces obtenemos un sistema equivalente. Veamos como ejemplo un esbozo de la demostración en el caso del reescalamiento de vectores. Los detalles y las demostraciones para las otras operaciones elementales quedan como ejercicio.

Demostración. Consideremos el rescalamiento $e$ de la $j$-ésima columna de una matriz por un factor $r$. Veremos que $e(A)X=e(B)$. Tomemos

\[ A=\begin{pmatrix} a_{11} & \dots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \dots & a_{mn} \end{pmatrix}, B= \begin{pmatrix} b_{1} \\ \vdots \\ b_{m} \end{pmatrix}, X=\begin{pmatrix} x_{1} \\ \vdots \\ x_{n} \end{pmatrix} \]

Entonces la ecuación matricial $AX=B$ nos produce el siguiente sistema de ecuaciones lineales:
\[ \left\{\begin{matrix} a_{11}x_{1}+ & \dots & +a_{1n}x_{n}=b_{1} \\ \vdots & \ddots & \vdots \\ a_{m1}x_{1}+ & \dots & +a_{mn}x_{n}=b_{m}. \end{matrix} \right.\]

Tomemos una solución del sistema: \[ X’= \begin{pmatrix} x_{1}’\\ \vdots \\ x_{n}’ \end{pmatrix} \]

La ecuación matricial $e(A)X=e(B)$ nos produce el siguiente sistema de ecuaciones: \[ \left\{\begin{matrix} a_{11}x_{1}+ & \dots & +a_{1n}x_{n}=b_{1} \\ \vdots & \ddots & \vdots \\ ra_{j1}x_{1}+ & \dots & +ra_{jn}x_{n}=rb_{j} \\ \vdots & \ddots \ & \vdots \\ a_{m1}x_{1}+ & \dots & +a_{mn}x_{n}=b_{m}. \end{matrix}\right. \]

Ahora, de cada una de las $n$ ecuaciones, excepto la $j$-ésima, sabemos que se solucionan al sustituir $x_{1}’, \dots ,x_{m}’$, resta revisar la $j$-ésima ecuación. Lo que sí sabemos de que $X’$ sea solución es que $$a_{j1}x_{1}’+ \dots +a_{jn}x_{n}’=b_{j}.$$ Así, al multiplicar por $r$ de ambos lados $ra_{j1}x_{1}’+ \dots + ra_{jn}x_{n}’=rb_{j}$. Así obtenemos que $X’$ satisface también a $e(A)X=e(B)$. Inversamente si una solución satisface al sistema $e(A)X=e(B)$ también lo hace para $AX=Y$. Te recomendamos revisar los detalles por tu cuenta.

$\square$

Soluciones a sistemas de ecuaciones lineales

La teoría de sistemas de ecuaciones lineales nos dice que tenemos tres posibles situaciones que se pueden presentar cuando estamos resolviendo un sistema de ecuaciones lineales en $\mathbb{R}$: no hay solución, hay una única solución, o tenemos infinidad de soluciones. Por ejemplo, se puede descartar que haya exactamente dos soluciones. En cuanto sucede esto, la cantidad de soluciones se dispara a una infinidad

Haremos una discusión de cuándo se presenta cada caso. De acuerdo con la sección anterior, cualquier operación elemental pasa un sistema de ecuaciones a uno equivalente. Además, de acuerdo con el teorema de reducción gaussiana, cualquier matriz puede ser llevada a la forma escalonada reducida. Así, al aplicar tanto a $A$ como a $B$ las operaciones elementales que llevan $A$ a su forma escalonada reducida $A_{red}$, llegamos a un sistema equivalente $A_{red}X=C$. El comportamiento del conjunto solución de $AX=B$ se puede leer en este otro sistema equivalente como sigue:

  1. Sin solución. El sistema $AX=B$ no tiene solución si en $A_{red}X=C$ hay una igualdad lineal del estilo $0x_{j1}+\dots +0x_{jn}=c_j$, con $c_j\neq 0$. En otras palabras, si en $A_{red}$ hay una fila $j$ de ceros y la entrada $c_j$ es distinta de cero.
  2. Infinidad de soluciones. El sistema $AX=B$ tiene una infinidad de soluciones si tiene solución, y además hay por lo menos una columna $k$ de $A_{red}$ en la que no haya pivote de ninguna fila. Esta columna $k$ corresponde a una variable libre $x_k$ que puede tomar cualquier valor, y el sistema tiene soluciones sin importar el valor que se le de a esta variable.
  3. Solución única. Un sistema de ecuaciones con solución, pero sin variables libres tiene una única solución. Esto se puede leer en la matriz $A_{red}$, pues se necesita que todas las columnas tengan un pivote de alguna fila.

Pensemos un poco a qué se deben los comportamientos anteriores. Pensemos en que ya llegamos a $A_{red}X=C$. Iremos determinando los posibles valores de las entradas de $X$ de abajo hacia arriba, es decir, en el orden $x_n, x_{n-1},\ldots, x_1$. Si $x_k$ es variable libre, pongamos el valor que sea. Si $x_k$ tiene el pivote de, digamos, la fila $j$, entonces la ecuación $j$ nos dice \[0+\dots + 0 + x_{k}+\dots +a_{jn}x_{n}=b_{j}.\] Esto nos diría que \[x_{k}=b_{j}-a_{j(k+1)}x_{k+1}-\dots -a_{jn}x_{n},\] así que hemos logrado expresar a $x_k$ en términos de las variables ya determinadas $x_{k+1},\dots x_{n}$.

Matrices equivalentes por filas

Definición. Consideremos $I\in M_{m}(\mathbb{R})$ la matriz identidad de tamaño $m$. Una matriz elemental será una matriz que se obtenga de la identidad tras aplicar una operación elemental.

Definición. Sean $A, B\in M_{m,n}(\mathbb{R})$. Diremos que $A$ es equivalente por filas a $B$ si $A$ se puede obtener al aplicar una sucesión finita de operaciones elementales a $B$.

Se puede demostrar que «ser equivalente por filas» es una relación de equivalencia en $M_{m,n}(\mathbb{R})$. Así mismo, se puede demostrar en general que si $e$ es una operación elemental, entonces $e(A)$ es exactamente la misma matriz que multiplicar la matriz elemental $e(I)$ por la izquierda por $A$, es decir, $e(A)=e(I)A$. Como tarea moral, convéncete de ambas afirmaciones.

Para realizar la demostración, quizás quieras auxiliarte de la siguiente observación. Tomemos una matriz $B\in M_{m,n}(\mathbb{R})$ y pensemos en cada columna de $B$ como un vector columna:

\[ B_{1} =\begin{pmatrix} B_{11} \\ \vdots \\ B_{m1} \end{pmatrix} \hspace{1cm} \cdots \hspace{1cm} B_{n} =\begin{pmatrix} B_{1n} \\ \vdots \\ B_{mn} \end{pmatrix}. \]

Tomemos ahora una matriz $A\in M_{p,m}$. Tras realizar las operaciones, se puede verificar que la matriz $AB$ tiene como columnas a los vectores columna $AB_1, AB_2,\ldots,AB_n$.

El siguiente teorema nos da una manera alternativa de saber si dos matrices son equivalentes por filas.

Teorema. Sean $A, B\in M_{m\times n}(\mathbb{R})$. Se tiene que $B$ es equivalente por filas a $A$ si y sólo si $B=PA$, donde $P$ es una matriz en $M_m(\mathbb{R})$ obtenida como producto de matrices elementales.

Demostración. Por la discusión anterior, si $B$ es equivalente por filas a $A$, $A$ resulta de la aplicación de una sucesión finita de operaciones elementales a $B$ o, lo que es lo mismo, resulta de una aplicación finita de productos de matrices elementales por la izquierda. Por otro lado, si $B=PA$, con $P=E_{k}\cdot … \cdot E_{1}$ producto de matrices elementales, tenemos que $E_{1}A$ es equivalente por filas a $A$, que $E_{2}(E_{1}A)$ es equivalente por filas a $E_{1}A$, que $E_{3}(E_2(E_1(A)))$ equivalente por filas a $E_2(E_1(A))$, y así sucesivamente. Usando que ser equivalente por filas es transitivo (por ser relación de equivalencia), concluimos que $B$ es equivalente por filas a $A$.

$\square$

¿Qué sucede con los determinantes y las operaciones elementales? La siguiente proposición lo resume.

Proposición. Sea $A$ una matriz en $M_n(\mathbb{R})$ con determinante $\det(A)$.

  • Si se intercambian dos filas, el determinante se vuelve $-\det(A)$.
  • Si se reescala una fila por un real $r\neq 0$, el determinante se vuelve $r\det(A)$.
  • Si se hace una transvección, el determinante no cambia.

Observa que, en particular, si $\det(A)\neq 0$, entonces sigue siendo distinto de cero al aplicar operaciones elementales.

Matrices invertibles y sistemas de ecuaciones lineales

En muchas ocasiones nos encontramos en cálculo de varias variables con funciones que van de $\mathbb{R}^n$ a sí mismo. Si la función que estamos estudiando es una transformación lineal, entonces corresponde a una matriz cuadrada en $M_n(\mathbb{R})$. En estos casos hay otro concepto fundamental que ayuda, entre otras cosas, para resolver sistemas de ecuaciones lineales: el de matriz invertible. Veremos a continuación que esto interrelaciona a las matrices, las matrices elementales, los sistemas de ecuaciones lineales y a los determinantes.

Definición. Una matriz $A$ cuadrada es invertible por la izquierda (resp. derecha) si existe una matriz $B$ tal que $BA=I$ (resp. $AB=I$). A $B$ le llamamos la inversa izquierda (resp. derecha) de $A$. A una matriz invertible por la derecha y por la izquierda, donde la inversa izquierda sea igual a la derecha, simplemente se le llama invertible.

Se puede demostrar que, cuando existe, la matriz izquierda (o derecha) es única. Esto es sencillo. Se puede demostrar también que si $B$ es inversa izquierda y $B’$ es inversa derecha, entonces $B=B’$, lo cual no es tan sencillo. Además, se cumplen las siguientes propiedades de matrices invertibles.

Proposición. Sean $A, B\in M_n(\mathbb{R})$

  1. Si $A$ es invertible, también lo es $A^{-1}$ y $(A^{-1})^{-1}=A$.
  2. Si $A$ y $B$ son invertibles, también lo es $AB$ y $(AB)^{-1}=B^{-1} A^{-1}$.

Demostración. El inciso 1 es claro; para el inciso 2 tenemos \[ (AB)(B^{-1} A^{-1})=A(BB^{-1})A^{-1}=A(I)A^{-1}=AA^{-1}=I\] \[=B^{-1}(I)B=B^{-1}(A^{-1}A)B=(B^{-1}A^{-1})(AB) \].

$\square$

Veamos ahora cómo se conecta la noción de invertibilidad con la de matrices elementales. Como parte de la tarea moral, cerciórate de que cualquiera de las tres operaciones elementales para matrices son invertibles. Es decir, para cada operación elemental, piensa en otra operación elemental que aplicada sucesivamente a la primera nos de la matriz original. Con más detalle; si denotamos con $e$ a una operación elemental (puede ser cualquiera) denotamos como $e^{-1}$ a la segunda a la cual llamaremos inversa de $e$; y estas cumplen $e(e^{-1})(A)=A=e^{-1}(e(A))$ para cualquier matriz $A$ a la que se le pueda aplicar $e$.

Proposición. Toda matriz elemental es invertible.

Demostración. Supongamos que $E$ una matriz elemental correspondiente a la operación unitaria $e$. Si $e^{-1}$ es la operación inversa de $e$ y $E_{1}=e^{-1}(I)$ tenemos: \[ EE_{1}=e(E_{1})=e(e^{-1}(I))=I,\] y así mismo tenemos \[E_{1}E=e_{1}(E)=e_{1}(e(I))=I.\] De esta manera $E$ es invertible y su inversa es $E_{1}$.

$\square$

El resultado anterior habla sólo de la invertibilidad de matrices elementales, pero podemos usar a estas para caracterizar a las matrices invertibles.

Teorema. Sea $A\in M_n(\mathbb{R})$, los siguientes enunciados son equivalentes:

  1. $A$ es invertible
  2. $A$ es equivalente por filas a la matriz identidad
  3. $A$ es producto de matrices elementales

Demostración. $1\Rightarrow 2)$. Supongamos que $A$ invertible, y usemos el teorema de reducción Gaussiana para encontrar la forma escalonada reducida $A_{red}$ de $A$ mediante una sucesión de operaciones elementales. Por el teorema de la sección de matrices equivalentes por filas, tenemos que $R=E_{k}\cdots E_{1}A$, donde $E_{k},\dots ,E_{1}$ son matrices elementales. Cada $E_{i}$ es invertible, y $A$ es invertible. Por la proposición anterior, tenemos entonces que $A_{red}$ es invertible. Se puede mostrar que entonces ninguna fila de $A_{red}$ puede consistir de puros ceros (verifícalo de tarea moral), de modo que toda fila de $A$ tiene pivote (que es igual a $1$). Como hay $n$ filas y $n$ columnas, entonces hay exactamente un $1$ en cada fila y en cada columna. A $A_{red}$ no le queda otra opción que ser la matriz identidad.

$2\Rightarrow 3)$. Si $A$ es equivalente por filas a $I$, entonces hay operaciones elementales que la llevan a $I$. Como ser equivalente por filas es relación de equivalencia, existen entonces operaciones elementales que llevan $I$ a $A$. Pero entonces justo $A$ se obtiene de $I$ tras aplicar un producto (por la izquierda) de matrices elementales. Por supuesto, en este producto podemos ignorar a $I$ (o pensarla como un reescalamiento por $1$).

$3\Rightarrow 1)$. Finalmente como cada matriz elemental es invertible y todo producto de matrices invertibles es invertible tenemos que 3 implica 1.

$\square$

Ya que entendemos mejor la invertibilidad, la podemos conectar también con la existencia y unicidad de soluciones en sistemas de ecuaciones lineales.

Teorema. Sea $A\in M_{n}(\mathbb{R})$; las siguientes afirmaciones son equivalentes:

  1. $A$ es invertible.
  2. Para todo $Y$, el sistema $AX=Y$ tiene exactamente una solución $X$.
  3. Para todo $Y$, el sistema $AX=Y$ tiene al menos una solución $X$.

Demostración. $1\Rightarrow 2)$. Supongamos $A$ invertible. Tenemos que $X=A^{-1}Y$ es solución pues $AX=A(A^{-1})Y=IY=Y$. Veamos que la solución es única. Si $X$ y $X’$ son soluciones, tendríamos $AX=Y=AX’$. Multiplicando por $A^{-1}$ por la izquierda en ambos lados de la igualdad obtenemos $X=X’$.

$2\Rightarrow 3)$. Es claro pues la única solución es, en particular, una solución.

$3\Rightarrow 1)$. Tomemos los vectores canónicos $\hat{e}_1,\hat{e}_2,\ldots,\hat{e}_n$ de $\mathbb{R}^n$. Por $(3)$ tenemos que todos los sistemas $AX=\hat{e}_1, \ldots, AX=\hat{e}_n$ tienen solución. Tomemos soluciones $B_1,\ldots,B_n$ para cada uno de ellos y tomemos $B$ como la matriz con columnas $B_1,\ldots, B_n$. Por el truco de hacer el producto de matrices por columnas, se tiene que las columnas de $AB$ son $AB_1=\hat{e}_1,\ldots, AB_n=\hat{e}_n$, es decir, $AB$ es la matriz identidad.

$\square$

En la demostración anterior falta un detalle importante. ¿Puedes encontrar cuál es? Está en la demostración $3\Rightarrow 1)$. Si quieres saber cuál es y cómo arreglarlo, puedes consultar la entrada Mariposa de 7 equivalencias de matrices invertibles.

Terminamos la teoría de esta entrada con un resultado que conecta invertibilidad y determinantes.

Proposición. Sea $A\in M_{n}(\mathbb{R})$. $A$ es invertible, si y sólo si, $det(A)\neq 0$.

Demostración. Si $A$ es invertible, entonces se cumple la ecuación $I=AA^{-1}$. Aplicando determinante de ambos lados y usando que es multiplicativo: $$1=det(I)=det(AA^{-1})=det(A)det(A^{-1}).$$ Como al lado izquierdo tenemos un $1$, entonces $\det(A)\neq 0$.

Si $det(A)\neq 0$, llevemos $A$ a su forma escalonada reducida $A_{red}$. Por la observación hecha al final de la sección de matrices elementales, se tiene que $\det(A_{red})\neq 0$. Así, en cada fila tenemos por lo menos un elemento no cero. Como argumentamos anteriormente, esto implica $A_{red}=I$. Como $A$ es equivalente por filas a $I$, entonces es invertible.

$\square$

Mas adelante…

Continuaremos estableciendo herramientas de Álgebra lineal que usaremos en el desarrollo de los temas subsiguientes. En la siguiente entrada hablaremos de eigenvalores y eigenvectores. Con ellos, expondremos un método que proporciona una representación matricial sencilla simple para cierto tipos de transformaciones lineales.

Tarea moral

  1. Demuestra que la relación «es equivalente por filas» es una relación de equivalencia en $M_{m,n}(\mathbb{R})$.
  2. Sea $A\in M_{m,n}\mathbb{R}$. Verifica que para cualquier operación elemental $e$ de cualquiera de los tres tipos se cumple que $e(A)X=e(B)$ es equivalente a $AX=B$. Deberás ver que cualquier solución de uno es solución del otro y viceversa.
  3. Demuestra que si $A$ es invertible, también lo es $A^{-1}$ y que $(A^{-1})^{-1}=A$. Verifica la invertibilidad izquierda y derecha.
  4. Demuestra que cualquiera de las tres operaciones elementales para matrices son invertibles. Es decir, para cada operación elemental, hay otra que al aplicarla sucesivamente nos regresa a la matriz original.
  5. Prueba que una matriz invertible tiene por lo menos un elemento distinto de cero en cada fila, y por lo menos un elemento distinto de cero en cada columna.

Entradas relacionadas