Archivo de la etiqueta: independencia lineal

Cálculo Diferencial e Integral III: Representaciones matriciales, eigenvalores y eigenvectores

Por Alejandro Antonio Estrada Franco

Introducción

Como se ha mencionado anteriormente el objetivo de introducir ideas de álgebra lineal en cálculo diferencial es poder establecer una transformación lineal que sea la mejor aproximación lineal en un punto a una función dada. Esto nos ayudará a entender a la función dada en el punto en términos de otra función «más simple». Pero así mismo, las transformaciones lineales pueden ellas mismas pensarse en términos de transformaciones más sencillas. En esta entrada revisaremos esta idea y la conectaremos con la noción de eigenvectores.

Por un lado, recordaremos cómo es que una transformación lineal puede ser representada mediante una matriz una vez que se ha elegido una base del espacio vectorial. Luego, hablaremos de cómo elegir, de entre todas las bases, aquella que nos de una representación matricial lo más sencilla posible.

Representación matricial de las transformaciones lineales

Comencemos esta entrada repasando la importante relación entre transformaciones lineales y matrices. Denotaremos como $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ al espacio vectorial de transformaciones lineales de $\mathbb{R}^n$ a $\mathbb{R}^m$.

Si tomamos cualquier transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, entonces los valores de $T$ en cualquier vector de $\mathbb{R}^n$ quedan totalmente determinados por los valores de $T$ en los elementos de alguna base $\beta$ para $\mathbb{R}^n$. Tomemos $\gamma=\{\bar{w}_{1},\dots ,\bar{w}_{m}\}$ una base ordenada para $\mathbb{R}^m$, y $\beta=\{\bar{e}_{1},\dots ,\bar{e}_{n}\}$ una base ordenada para $\mathbb{R}^n$. Para cada $\bar{e}_{k}$ tenemos:

$$\begin{equation} T(\bar{e}_{k})=\sum_{i=1}^{m}t_{ik}\bar{w}_{i} \end{equation},$$

para algunos escalares $t_{1k},\dots ,t_{mk}$ que justo son las componentes de $T(\bar{e}_{k})$ en la base $\gamma$. Con estos escalares, podemos considerar la matriz: \[ \text{Mat}_{\gamma,\beta}(T)= \begin{pmatrix} t_{11} & \dots & t_{1n} \\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \]

Esta es llamada la representación matricial de la transformación $T$ con respecto a las bases $\beta$ y $\gamma$. Esta matriz ayuda a calcular $T$ en cualquier vector de $\mathbb{R}^n$ como explicamos a continuación.

Para cada $\bar{v}\in \mathbb{R}^n$, podemos expresarlo como combinación lineal de elementos de la base $\beta$ digamos que $\bar{v}=\sum_{i=1}^{n} v_{i}\bar{e}_{i}$. Mediante estos coeficientes, podemos entonces asociar a $\bar{v}$ al siguiente vector columna de $\mathbb{R}^n$ \[ [\bar{v}]_{\beta}=\begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}, \]

al que llamamos el vector de coordenadas de $\bar{v}$ con respecto a la base $\beta$.

Realicemos por un lado el siguiente cálculo:

\[ \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}=\begin{pmatrix} t_{11} & \dots & t_{1n}\\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}=\begin{pmatrix} \displaystyle\sum_{k=1}^{n}t_{1k}v_{k} \\ \vdots \\ \displaystyle\sum_{k=1}^{n}t_{mk}v_{k}.\end{pmatrix} \]

Por otro lado tenemos lo siguiente:

\begin{align*}
T(\bar{v})&=T \left( \sum_{k=1}^{n}v_{k}\bar{e}_{k} \right)\\&=\sum_{k=1}^{n}v_{k}T(\bar{e}_{k})\\&=\sum_{k=1}^{n}v_{k}T\left( \sum_{i=1}^{m}t_{ik}\bar{w}_{i} \right)\\&=\sum_{i=1}^{m}\left( \sum_{k=1}^{n}v_{k}t_{ik} \right)\bar{w}_{i}.
\end{align*}

Juntando ambos cálculos: \[ [T(\bar{v})]_{\gamma}=\begin{pmatrix} \sum_{k=1}^{n}v_{k}t_{1k} \\ \vdots \\ \sum_{k=1}^{n}v_{k}t_{mk} \end{pmatrix} = \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}.\]

En otras palabras, aplicar $T$ a un vector $\bar{v}$ equivale a multiplicar $\text{Mat}_{\gamma,\beta}$ por el vector columna asociado a $\bar{v}$ en la base $\beta$, en el sentido de que tras hacer este producto recuperamos el vector de coordenadas para $T(\bar{v})$ en la base $\gamma$.

Isomorfismo entre transformaciones lineales y matrices

Con las operaciones de suma y multiplicación por escalar que vimos en la entrada de Matrices, se tiene que $M_{m,n}\left( \mathbb{R} \right)$ es un espacio vectorial sobre $\mathbb{R}$. De igual manera $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ es un espacio vectorial sobre $\mathbb{R}$ con las siguientes operaciones:

  • Si $T$ y $U$ son dos transformaciones, la transformación $T+U$ es aquella que envía a todo vector $\bar{v}\in \mathbb{R}^n$ al vector $T(\bar{v})+U(\bar{v})$.
  • Si $r\in \mathbb{R}$ la transformación $rT$ es la que a todo $\bar{v}\in \mathbb{R}^n$ lo envía al vector $rT(\bar{v})$.

Queda como ejercicio que verifiques que esto dota efectivamente a $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ de la estructura de espacio vectorial.

A continuación veremos que estos dos espacios vectoriales son, prácticamente, el mismo. Lo que haremos es construir una función $$\Phi :M_{m,n}\left( \mathbb{R} \right) \to\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$$ que sea biyectiva y que preserve las operaciones de suma y de producto escalar.

Para ello, tomemos una base $\beta=\{\bar{e}_1,\ldots,\bar{e}_n\}$ de $\mathbb{R}^{n}$ y una base $\gamma=\{\bar{u}_1,\ldots,\bar{u}_m\}$ de $\mathbb{R}^m$. Tomemos una matriz $A\in M_{m,n}(\mathbb{R})$. Explicaremos a continuación cómo construir la transformación $\Phi(A)$, para lo cual diremos qué hace con cada elemento de la base $\beta$. Tomaremos aquella transformación lineal $T_A\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ tal que

$$T_A(\bar{e}_j)=\sum_{i=1}^n a_{ij} \bar{u}_i.$$

Tomamos entonces $\Phi(A)=T_A$. Veamos que $\Phi$ tiene todas las propiedades que queremos.

  • $\Phi$ es suprayectiva. Si tenemos una transformación $T:\mathbb{R}^n\to \mathbb{R}^m$, entonces por la construcción anterior se tiene que su forma matricial $A:=\text{Mat}_{\gamma,\beta}(T)$ justo cumple $T_A=T$, de modo que $\Phi(A)=T$.
  • $\Phi$ es inyectiva. Si $A$ y $B$ son matrices distintas, entonces difieren en alguna entrada, digamos $(i,j)$. Pero entonces $T_A$ y $T_B$ difieren ya que $T_A(\bar{e}_j)\neq T_B(\bar{e}_j)$ ya que en las combinaciones lineales creadas hay un coeficiente distinto. Así, $\Phi(A)\neq \Phi(B)$.
  • $\Phi $ es lineal. Para $r\in \mathbb{R}$, $A$ y $B$ matrices con entradas $a_{ij}$ y $b_{ij}$, respectivamente, se cumple que $\Phi \left( rA+B \right)=T_{(rA+B)}$ y entonces se satisface para cada $j=1,\dots ,n$ lo siguiente:
    \begin{align*}
    (rA+B)[\bar{e}_{j}]_{\beta}&=rA[\bar{e}_{j}]_{\beta}+B[\bar{e}_{j}]_{\beta}\\&=r[T_A(\bar{e}_{i})]_{\gamma}+[T_{B}(\bar{e}_{i})]_{\gamma}.
    \end{align*}
    Por tanto para cada $\bar{e}_{i}$ tenemos que $$T_{(rA+B)}(\bar{e}_{i})=rT_{A}(\bar{e}_{i})+T_{B}(\bar{e}_{i})$$ y en consecuencia $$T_{(rA+B)}=rT_{A}+T_{B}.$$ Así $$\Phi (rA+B)=r\Phi (A)+\Phi(B).$$

Todo lo anterior implica que $M_{m,n}\left( \mathbb{R} \right)\simeq \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, es decir, que ambos espacios vectoriales son isomorfos.

En búsqueda de una matriz sencilla

Por lo que hemos platicado hasta ahora, a cada transformación lineal le corresponde una matriz, y viceversa. De hecho, esta asociación respeta operaciones como la suma y el producto por escalar. Esta equivalencia está dada a partir de la función $\Phi$ encontrada en la sección anterior.

Si $\Phi $ es biyectiva, ¿por qué hablamos entonces de encontrar una representación matricial simple para una transformación lineal $T$? Esto parecería no tener sentido, pues a cada transformación le corresponde una y sólo una matriz. Sin embargo, esto es cierto únicamente tras haber fijado las bases $\beta$ y $\gamma$ para $\mathbb{R}^n$ y $\mathbb{R}^m$, respectivamente. Así, dependiendo de la elección de las bases las representaciones matriciales cambian y si tenemos una transformación lineal $T$, es posible que querramos encontrar bases $\beta$ y $\gamma$ en donde la representación matricial sea sencilla.

Nos enfocaremos únicamente en transformaciones lineales que van de un espacio vectorial a sí mismo. Tomemos entonces $T:\mathbb{R}^n\to \mathbb{R}^n$ y una base $\beta$ de $\mathbb{R}^n$. Por simplicidad, escribiremos $\text{Mat}_{\beta, \beta}(T)$ simplemente como $\text{Mat}_{\beta}(T)$. Hay propiedades de $T$ que podemos leer en su matriz $\text{Mat}_{\beta}(T)$ y que no dependen de la base $\beta$ que hayamos elegido. Si con una base $\beta$ especial resulta que $\text{Mat}_{\beta}(T)$ es muy sencilla, entonces podremos leer estas propiedades de $T$ muy fácilmente. Un ejemplo es la siguiente proposición, la cual queda como tarea moral.

Proposición. La transformación lineal $T:\mathbb{R}^n\to\mathbb{R}^n$ es invertible si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.

Si $A=\text{Mat}_{\beta}(T)$ fuera muy muy sencilla, por ejemplo, si fuera una matriz diagonal, entonces podríamos saber la invertibilidad de $T$ sabiendo la invertibilidad de $A$, y la de $A$ sería muy fácil de ver pues por ser matriz diagonal bastaría hacer el producto de las entradas de su diagonal para obtener su determinante y estudiar si es distinto de cero.

Motivados por el ejemplo anterior, estudiemos la siguiente pregunta: ¿toda transformación lineal se puede representar con una matriz diagonal? Si una transformación lineal se puede representar de esta manera, diremos que es diagonalizable.

Eigenvalores, eigenvectores y eigenespacios

En lo que sigue repasaremos el aparato conceptual que nos permitirá dar una respuesta parcial de cuándo una matriz es diagonalizable. Un tratamiento mucho más detallado se puede encontrar aquí en el blog, en el curso de Álgebra Lineal II, comenzando con la entrada Eigenvectores y eigenvalores.

Para nuestro repaso, debemos introducir algunos conceptos y estudiarlos.

Definición. Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal. Diremos que un escalar $r \in \mathbb{R}$ es un eigenvalor de $T$ si existe $\bar{v}\in \mathbb{R}^n\setminus\{ \bar{0} \}$ tal que $T(\bar{v})=r\bar{v}$. A dicho vector $\bar{v}$ le llamaremos un eigenvector de $T$ con eigenvalor asociado $r$.

Dado un eigenvector $\bar{v}\in \mathbb{R}^n$, sólo hay un eigenvalor correspondiente a éste. Si $T(\bar{v})=r\bar{v}$ y $T(\bar{v})=t\bar{v}$, entonces $r\bar{v}=t\bar{v}$ de donde $(r-t)\bar{v}=\bar{0}$. Como $\bar{v}\neq \bar{0}$, se sigue que $r=t$.

Por otro lado, para un eigenvalor $r$ puede haber más de un eigenvector con eigenvalor asociado $r$. Consideremos para un eigenvalor $r$ el conjunto $E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$. Notemos que $\bar{0}\in E(r)$ y también todos los eigenvectores de $r$ están en $E(r)$. Además, $E(r)$ es un subespacio de $\mathbb{R}^n$, pues si $\bar{u},\bar{v} \in E(r)$, y $a\in \mathbb{R}$, tenemos

\begin{align*}
T(a\bar{u}+\bar{v})&=aT(\bar{u})+T(\bar{v})\\
&=a(r\bar{u})+(r\bar{v})\\
&=r(a\bar{u}+\bar{v}),
\end{align*}

lo cual implica que $a\bar{u}+\bar{v} \in E(r)$.

Definición. Para una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ y un eigenvalor $r$ de $T$ llamaremos a

$$E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$$

el eigenespacio de $T$ correspondiente a $r$.

Cuando tenemos eigenvectores correspondientes a eigenvalores distintos, cumplen algo especial.

Proposición. Si $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son eigenvectores de una transformación lineal $T:\mathbb{R}^n \rightarrow \mathbb{R}^n$ con eigenvalores correspondientes $r_{1}, \dots ,r_{l}$ distintos entonces $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

Demostración. La ruta para establecer la demostración de este teorema será por inducción sobre $l$. Para un conjunto con sólo un eigenvector el resultado es evidente (¿por qué?). Supongamos cierto para cualquier subconjunto de $l-1$ eigenvectores que pertenecen a eigenespacios distintos. Sean $\bar{v}_{1}, \dots ,\bar{v}_{l}$ eigenvectores en distintos eigenespacios y consideremos $\alpha _{1}, \dots ,\alpha_{l}$ escalares tales que:

\begin{equation}
\label{eq:comb-cero}
\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}=\bar{0}.
\end{equation}

Aplicamos $T$ a la igualdad anterior. Usando que cada $\bar{v}_{k}$ es eigenvector correspondiente al eigenvalor $r_{k}$ obtenemos:

\begin{align*}
\bar{0}=T(\bar{0})&=T\left(\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k} \right)\\&=\sum_{k=1}^{l}\alpha _{k}T(\bar{v}_{k})\\&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}.
\end{align*}

Es decir,

\begin{equation}
\label{eq:aplicarT}
\textbf{0}=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}
\end{equation}

Multipliquemos \eqref{eq:comb-cero} por $r_{l}$ y restemos el resultado de \eqref{eq:aplicarT} para obtener que

\begin{align*}
\bar{0}=\bar{0}-\bar{0}&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}-r_{l}\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}\\&=\sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}.
\end{align*}

Tenemos entonces:

\[ \sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}=\bar{0}.\]

Ya que por hipótesis de inducción $\bar{v}_{1}, \dots ,\bar{v}_{l-1}$ son linealmente independientes entonces $\alpha _{k}(r_{k}-r_{l})=0$ para todo $k$, pero los eigenvalores son todos distintos entre sí por lo tanto para todo $k$ de $1$ a $l-1$ se tiene $r_{k}-r_{l}\neq 0$ y así $\alpha _{k}=0$. Finalmente, usando \eqref{eq:comb-cero} obtenemos $\alpha_l=0$. Por lo tanto $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

$\square$

Eigenvectores y transformaciones diagonalizables

Recuerda que dijimos que una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ es diagonalizable si existe una base $\beta$ de $\mathbb{R}^n$ tal que $\text{Mat}_{\beta}(T)$ es una matriz diagonal. El siguiente resultado conecta las dos ideas que hemos estado explorando: los eigenvectores y la representabilidad sencilla de $T$.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ transformación lineal. Una matriz $T$ es diagonalizable si y sólo si existe una base de $\mathbb{R}^n$ conformada por eigenvectores de $T$.

En realidad la demostración consiste únicamente en entender correctamente cómo se construyen las matrices para una base dada.

Demostración. $\Rightarrow )$ Supongamos que $T$ tiene una representación matricial que es una matriz diagonal $A:=\text{Mat}_{\beta}(T)=\text{diag}(r_{1}, \dots ,r_{n})$ con respecto a la base $\beta=\{\bar{v}_{1}, \dots ,\bar{v}_{n}\}$. Afirmamos que para cada $j=1,\ldots,n$ se tiene $\bar{v}_j$ es eigevector de eigenvalor $r_j$. En efecto, la forma en la que se construyó la matriz $A$ nos dice que

\begin{align*}
T(\bar{e}_j)&=\sum_{i=1}^n a_{ij} \bar{e}_i \\&= a_{jj} \bar{e}_j \\&= r_j \bar{e}_j,
\end{align*}

en donde estamos usando que las entradas $a_{ij}$ de la matriz son cero si $i\neq j$ (por ser diagonal), y son $r_j$ si $i=j$. Por supuesto, como $\bar{e}_j$ forma parte de una base, tampoco es el vector cero. Así, $\bar{e}_j$ es eigenvector de eigenvalor $\bar{e}_j$.

$\Leftarrow )$ Supongamos ahora que $\bar{v}_{1},\dots ,\bar{v}_{n}$ son una base $\beta$ de $\mathbb{R}^n$ conformada por eigenvectores de $T$ con eigenvalores asociados, digamos, $r_{1},\dots ,r_{n}$. Aquí se puede mostrar que $\text{Mat}_\beta(T)$ es diagonal. Queda como tarea moral hacer las cuentas.

$\square$

Hay una situación particular en la que podemos aprovechar el teorema anterior de manera inmediata: cuando la transformación tiene $n$ eigenvalores distintos. Esta consecuencia queda establecida en el siguiente resultado.

Corolario. Toda transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ tiene a lo más $n$ eigenvalores distintos. Si $T$ tiene exactamente $n$ eigenvalores distintos, entonces los eigenvectores correspondientes forman una base para $\mathbb{R}^n$ y la matriz de $T$ relativa a esa base es una matriz diagonal con los eigenvalores como elementos diagonales.

Demostración. Queda como tarea moral. Como sugerencia, recuerda que mostramos arriba que los eigenvectores de eigenvalores distintos son linealmente independientes.

$\square$

Al parecer los eigenvalores, eigenvectores y eigenespacios de una transformación lineal son cruciales para poder expresarla de manera sencilla. ¿Cómo los encontramos? Esto lo veremos en la siguiente entrada.

Antes de concluir, mencionamos que hay otro teorema crucial sobre diagonalización de matrices. Diremos que una matriz $P\in M_n(\mathbb{R})$ es ortogonal si $P^tP=I$.

Teorema (el teorema espectral). Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces, existe una matriz ortogonal $P$ tal que $PAP^t$ es una matriz diagonal.

El teorema anterior nos dice no únicamente que la matriz $A$ es diagonalizable, sino que además es diagonalizable mediante un tipo muy especial de matrices. Un estudio y demostración de este teorema queda fuera de los alcances de nuestro curso, pero puedes revisar, por ejemplo la entrada teorema espectral del curso de Álgebra Lineal I que tenemos en el blog.

Más adelante

Lo que haremos en la siguiente entrada es desarrollar un método para conocer los eigenvalores de una matriz. A partir de ellos podremos encontrar sus eigenvectores. Y en ciertos casos especiales, esto nos permitirá mostrar que la transformación es diagonalizable y, de hecho, nos dará la base para la cual la matriz asociada es diagonal.

Tarea moral

  1. Considera la transformación lineal de $\mathbb{R}^{3}$ en $\mathbb{R}^{2}$, dada como $T(x,y,z)=(x+y,z+y)$. Encuentra su representación matricial con las bases canónicas de $\mathbb{R}^3$ y $\mathbb{R}^2$. Luego, encuentra su representación matricial con las bases $\{(1,2,3),(1,0,1),(0,-1,0)\}$ de $\mathbb{R}^3$ y $\{(1,1),(1,-1)\}$ de $\mathbb{R}^2$.
  2. Considera la siguiente matriz: \[ \begin{pmatrix} 1 & 0 & 2 & 3 \\ 0 & -1 & 0 & 2 \\ \end{pmatrix}\] Da una transformación lineal $T:\mathbb{R}^4\to \mathbb{R}^2$ y ciertas bases $\beta$ de $\mathbb{R}^4$ y $\gamma$ de $\mathbb{R}^2$ para las cuales esta matriz sea la representación matricial de $T$ en las bases $\beta$ y $\gamma$.
  3. Fija bases $\beta$, $\gamma$ y $\delta$ para $\mathbb{R}^n$, $\mathbb{R}^m$ y $\mathbb{R}^l$. Considera dos transformaciones lineales $T:\mathbb{R}^n\to \mathbb{R}^m$ y $S:\mathbb{R}^m\to \mathbb{R}^l$. Demuestra que:
    $$\text{Mat}_{\delta, \beta} (S \circ T) = \text{Mat}_{\delta,\gamma}(S) \text{Mat}_{\gamma, \beta} (T).$$
    En otras palabras que la «composición de transformaciones corresponde al producto de sus matrices».
  4. Sea $T:\mathbb{R}^n\to\mathbb{R}^n$ una transformación lineal y $\beta$ una base de $\mathbb{R}^n$. Demuestra que $T$ es biyectiva si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.
  5. Verifica que los vectores $\bar{v}_1,\ldots,\bar{v}_n$ dados en el último teorema en efecto ayudan a dar una representación matricial diagonal para $T$.
  6. La demostración del último corolario es un conjunto de sencillas consecuencias de las definiciones y teoremas desarrollados en esta entrada con respecto a los eigenvalores y eigenvectores. Realiza esta demostración.

Entradas relacionadas

Álgebra Lineal II: Problemas de formas bilineales, cuadráticas y teorema de Gauss

Por Leonardo Ignacio Martínez Sandoval

Introducción

En las entradas anteriores nos dedicamos a recordar las definiciones y algunas propiedades de formas bilineales y cuadráticas en $\mathbb{R}^n$ con el fin de enunciar y demostrar el teorema de Gauss. La prueba da un método para representar cualquier forma cuadrática de este modo, pero es mucho más claro cómo se hace este método mediante ejemplos. En esta entrada veremos un par de problemas para seguir repasando formas bilineales y cuadráticas y luego veremos al teorema de Gauss en acción.

Ver que una función es una forma bilineal

Problema. Tomemos $V= \mathbb{R}^n$ y vectores $x,y$ en $V$ de coordenadas $x=(x_1, . . . , x_n)$ y $y =(y_1, . . . , y_n)$. Tomemos reales $a_1,\ldots, a_n$. Definamos a $b:V\times V\to \mathbb{R}$ como sigue:
\begin {align*} b(x,y)=a_1x_1y_1+ . . . + a_nx_ny_n.\end{align*}

Probemos que así definida, $b$ es una forma bilineal.

Solución. Para probar que $b$ es bilineal, probaremos que la función $b(x, \cdot)$ es lineal para cada $x \in \mathbb{R}^n$ fijo.

Sean $p,q \in \mathbb{R}^n$ y $\lambda \in \mathbb{R}$. Tenemos que:
\begin{align*} b(x,\lambda p+q)=\sum_{i=1}^n a_ix_i (\lambda p_i+q_i).\end{align*}

Como todos los miembros de esta operación son números reales, utilicemos las propiedades distributiva y conmutativa. Obtenemos:

\begin{align*} b(x,\lambda p+q)=&\sum_{i=1}^n a_ix_i \lambda p_i + \sum_{i=1}^n a_ix_iq_i\\
&=\lambda \sum_{i=1}^n a_ix_ip_i+ \sum_{i=1}^n a_ix_iq_i\\&=\lambda b(x,p) + b(x,q). \end{align*}

La demostración de que la función $b(\cdot,y)$ también es lineal para cada $y\in \mathbb{R}^n$ fijo es análoga.

$\square$

En particular, si tenemos que $a_1, \ldots, a_n =1$, obtenemos que $b$ es el producto interno canónico de $\mathbb{R}^n$, es decir el producto punto.

Ver que una función no es una forma cuadrática

Problema. Sea $q: \mathbb{R}^2 \rightarrow \mathbb{R}$ dada como sigue

\begin{align*} q(x,y)=x^2+y^2-8x. \end{align*}

¿Es $q$ una forma cuadrática?

Solución. La respuesta es que no. Con el fin de encontrar una contradicción, supongamos que $q$ sí es una forma cuadrática. Entonces su forma polar $b$ debe cumplir:

\begin{align*} b((x,y),(x,y))=x^2+y^2-8x.\end{align*}

Aplicando lo anterior al par $(-x,-y)$ obtendríamos:

\begin{align*} b((-x,-y),(-x,-y))=x^2+y^2+8x.\end{align*}

Por otro lado, sacando escalares en ambas entradas:

\begin{align*} b((-x,-y),(-x,-y))&=(-1)(-1)b((x,y),(x,y))\\&=b((x,y),(x,y)).\end{align*}

Juntando las igualdades, concluimos que

\begin{align*} x^2+y^2-8x=x^2+y^2+8x \end{align*}

por lo que

\begin{align*} 16x=0. \end{align*}

Pero esto no es cierto en general pues falla, por ejemplo, para la pareja $(1,0)$. Este error nació de suponer que $q$ era una forma cuadrática. Por lo tanto $q$ no es forma cuadrática.

$\triangle$

El teorema de Gauss en acción

Para simplificar el lenguaje, si logramos escribir a una forma cuadrática $q$ como nos dice el teorema de Gauss, es decir, de la forma \begin{align*} q(x)= \sum_{i=1}^r \alpha _i (l_i(x))^2,\end{align*} entonces diremos que $q$ es combinación cuadrática de las $l_i$ con coeficientes $\alpha_i$.

Problema. Toma la forma cuadrática $q$ de $\mathbb{R}^3$ definida como sigue:

\begin{align*} q(x,y,z)= 4xy+yz+xz \end{align*}

Escribe a $q$ como combinación cuadrática de formas lineales linealmente independientes.

Solución. Revisando la demostración dada en la entrada anterior, tenemos tres casos:

  • Que la forma cuadrática sea la forma cuadrática cero.
  • Que tenga «términos puros».
  • Que no tenga «términos puros», es decir, que tenga sólo «términos cruzados».

Como en este caso la forma $q$ no es la forma cero, ni aparecen términos $x^2$, $y^2$ o $z^2$, estamos en el tercer caso. La estrategia era tomar dos de las variables y separar los términos que sí las tengan de los que no. Luego, hay que usar las identidades:

\begin{align} AXY+BX+CY=A\left(X+\frac{C}{A}\right) \left(Y+\frac{B}{A}\right)-\frac{BC}{A},\end{align}

\begin{align} DE= \frac{1}{4}(D+E)^2 – \frac{1}{4} (D-E)^2.\end{align}

Tomemos por ejemplo $x$ y $y$. En la forma cuadrática todos los términos tienen $x$ ó $y$, así que podemos usar la identidad $(1)$ para escribir (nota que reordenamos algunos términos para hacer más cómodas las cuentas con las identidades):

\begin{align*}
4xy+zx+zy&= 4 \left(x+\frac{z}{4}\right) \left(y+\frac{z}{4}\right)-\frac{z^2}{4}
\end{align*}

Luego, continuamos mediante la identidad $(2)$:

\begin{align*}
= \left(x+y+\frac{z}{2}\right)^2 – (x-y)^2- \frac{1}{4} z^2.
\end{align*}

Esta expresión ya tiene la forma buscada. Tenemos que $q$ es combinación cuadrática de las formas lineales $x+y+\frac{z}{2}$, $x-y$ y $z$. Verifica que en efecto estas formas lineales son linealmente independientes.

$\triangle$

Cambiando el orden de los pasos

Problema. ¿Qué pasaría si en el ejemplo anterior en vez de hacer el paso inductivo con $x$ y $y$ hacemos el paso inductivo con $y$ y $z$?

Solución. Las cuentas cambian y obtenemos una nueva forma de escribir a $q$. En efecto, aplicando las identidades $(1)$ y $(2)$ pero ahora a $y$ y $z$ obtendríamos:

\begin{align*}
yz+4xy+xz&= (y+x) (z+4x)-4x^2\\
&=\frac{1}{4}(y+z+5x)^2-\frac{1}{4}(y-z-3x)^2-4x^2.
\end{align*}

Esta es otra forma válida de expresar a $q$ como combinación cuadrática de formas lineales linealmente independientes. Lo que nos dice es que la expresión para $q$ no necesariamente es única.

Sin embargo, un poco más adelante veremos que aunque haya muchas formas de expresar a $q$, en todas ellas permanece constante cuántos sumandos positivos y cuántos negativos hay.

$\triangle$

Cuidado con la independencia lineal

Problema. Toma la forma cuadrática $q$ de $\mathbb{R}^3$ definida como sigue:

\begin{align*} q(x,y,z)= (x – y)^2+(y – z)^2+ (z – x)^2 \end{align*}

Escribe a $q$ como combinación cuadrática de formas lineales linealmente independientes.

Solución. Sería fácil asumir que $q$ ya está de la forma deseada, sin embargo, una revisión rápida nos deja ver qué $x – y$, $y-z$ y $z-x$ no son linealmente independientes en $(\mathbb{R}^3)^*$.

Primero desarrollemos todo

\begin{align*} q(x,y,z)= 2x^2+2y^2+2z^2 -2xy-2xz-2yz \end{align*}

Ahora sí hay «términos puros» pues en particular el coeficiente de $x^2$ no es cero.

En este caso hay que pensar a $q$ como polinomio de segundo grado en $x$ para completar un cuadrado:

\begin{align*} 2x^2+&2y^2+2z^2 -2xy-2xz-2yz\\
&= 2 \left( x- \frac{y+z}{2}\right)^2 – \frac{(y+z)^2}{2} + 2y^2 +2z^2-2yz \end{align*}

La demostración asegura que inductivamente los términos sin $x$ (en este caso $ – \frac{(y+z)^2}{2} + 2y^2 +2z^2-2yz$)se pueden escribir como una combinación cuadrática de formas lineales linealmente independientes. Es decir, a ese término ahora podemos aplicar nuevamente el procedimiento hasta llegar a un caso pequeño.

Sin embargo, para nuestra suerte, una pequeña manipulación muestra que
\begin{align*} – \frac{(y+z)^2}{2} + 2y^2 +2z^2-2yz = \frac{3}{2}(y – z)^2.\end{align*}

También, afortunadamente, $y-z$ es linealmente independiente con $x- \frac{y+z}{2}$. De este modo, una posible combinación cuadrática es la siguiente:

\begin{align*} q(x,y,z)= 2 \left( x- \frac{y+z}{2}\right)^2 + \frac{3}{2}(y – z)^2 \end{align*}

$\triangle$

El algoritmo

Con esto visto, podemos describir un algoritmo para encontrar una combinación cuadrática en 4 pasos.

  1. Desarrollar todos los términos $q$ si es necesario.
  2. Revisar qué forma tiene $q$ con respecto a los 3 casos que se vieron en la demostración.
  3. Reproducir el caso elegido de la demostración, dependiendo de la forma de $q$.
  4. Dentro de este paso, puede ser necesario repetir desde el paso 1.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Ecuaciones Diferenciales I: Valores y vectores propios para resolver sistemas lineales

Por Omar González Franco

En la vida real, te lo aseguro, no hay algo como el álgebra.
– Fran Lebowitz

Introducción

Ya hemos dado inicio con el desarrollo de métodos de resolución de sistemas lineales de primer orden. En la entrada anterior desarrollamos el método de eliminación de variables que, a pesar de ser muy limitado, es un método sencillo y práctico para resolver sistemas con dos ecuaciones diferenciales lineales de primer orden.

Debido a que un sistema lineal puede ser visto como una ecuación matricial los resultados de álgebra lineal sobre valores y vectores propios de matrices pueden ser aplicados aquí. En esta entrada daremos un breve repaso sobre estos conceptos y veremos cómo es que estos resultados nos pueden ayudar a determinar la solución general de algunos sistemas de ecuaciones diferenciales.

La teoría que desarrollaremos a continuación es aplicable a sistemas lineales homogéneos con coeficientes constantes.

Sistemas lineales homogéneos

Un sistema lineal homogéneo con coeficientes constantes es de la forma

\begin{align*}
y_{1}^{\prime}(t) &= a_{11}y_{1} + a_{12}y_{2} + \cdots + a_{1n}y_{n} \\
y_{2}^{\prime}(t) &= a_{21}y_{1} + a_{22}y_{2} + \cdots + a_{2n}y_{n} \\
&\vdots \\
y_{n}^{\prime}(t) &= a_{n1}y_{1} + a_{n2}y_{2} + \cdots + a_{nn}y_{n} \label{1} \tag{1}
\end{align*}

Si $\mathbf{A}$ es la matriz de $n \times n$ con componentes constantes

$$\mathbf{A} = \begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & & & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{pmatrix} \label{2} \tag{2}$$

entonces el sistema lineal a resolver es

$$\mathbf{Y}^{\prime} = \mathbf{AY} \label{3} \tag{3}$$

En la segunda entrada de esta unidad vimos que la solución general del sistema lineal homogéneo

$$\mathbf{Y}^{\prime} = \begin{pmatrix}
1 & 1 & 0 \\ 1 & 1 & 0 \\ 0 & 0 & 3
\end{pmatrix} \mathbf{Y}$$

es

$$\mathbf{Y}(t) = c_{1} \begin{pmatrix}
1 \\ -1 \\ 0
\end{pmatrix}e^{0t} + c_{2} \begin{pmatrix}
1 \\ 1 \\ 0
\end{pmatrix}e^{2t} + c_{3} \begin{pmatrix}
0 \\ 0 \\ 1
\end{pmatrix}e^{3t}$$

Y en la entrada anterior vimos que la solución del sistema lineal homogéneo

$$\mathbf{Y}^{\prime} = \begin{pmatrix}
4 & -1 \\ 2 & 1
\end{pmatrix} \mathbf{Y}$$

es

$$\mathbf{Y}(t) = c_{1} \begin{pmatrix}
1 \\ 2
\end{pmatrix} e^{2t} + c_{2} \begin{pmatrix}
1 \\ 1
\end{pmatrix}e^{3t}$$

Aunque para el primer caso aún no sabemos cómo obtener esa solución lo que sabemos es que efectivamente corresponde a la solución general del sistema homogéneo. Notemos que cada vector solución es de la forma

$$\mathbf{Y}_{i} = \begin{pmatrix}
k_{1} \\ k_{2} \\ k_{3}
\end{pmatrix}e^{\lambda_{i}t}, \hspace{1cm} i = 1, 2 ,3$$

donde $k_{i}$ y $\lambda_{i}$, $i = 1, 2, 3$, son constantes. Lo mismo para el segundo caso, con $k_{i}$, $\lambda_{i}$, $i = 1, 2$, constantes. Esta particularidad nos hace preguntarnos si siempre es posible hallar una solución de la forma

$$\mathbf{Y}(t) = \begin{pmatrix}
k_{1} \\ k_{2} \\ \vdots \\ k_{n}
\end{pmatrix}e^{\lambda t} = \mathbf{K}e^{\lambda t} \label{4} \tag{4}$$

como solución general del sistema lineal (\ref{3}).

La respuesta es que sí, pero antes de continuar con nuestro desarrollo nos parece pertinente repasar brevemente algunos conceptos de Álgebra Lineal, en particular el de valores y vectores propios.

Valores y vectores propios

Sea $T: V \rightarrow W$ una transformación lineal, en álgebra lineal muchas veces resulta útil encontrar un vector $v$ en el espacio vectorial $V$ tal que $T\mathbf{v}$ y $\mathbf{v}$ sean paralelos, es decir, se busca un vector $\mathbf{v}$ y un escalar $\lambda$, tal que

$$T\mathbf{v} = \lambda \mathbf{v} \label{5} \tag{5}$$

Recordemos que si $\mathbf{v} \neq \mathbf{0}$ y $\lambda$ satisfacen la ecuación (\ref{5}), entonces $\lambda$ se denomina un valor característico o valor propio de $T$ y $\mathbf{v}$ un vector característico o vector propio de $T$ correspondiente al valor propio $\lambda$.

También recordemos que si $V$ tiene dimensión finita, entonces la transformación $T$ se puede representar por una matriz $\mathbf{A}_{T}$, de manera que se pueden definir los valores y vectores propios de esta matriz.

Denotaremos con $M_{n \times n}$ al conjunto de todas las matrices cuadradas de $n \times n$ con componentes reales y constantes.

Como nota interesante, los valores y vectores propios también son conocidos como valores y vectores característicos o eigenvalores y eigenvectores, donde el término eigen es un término alemán que significa propio. En este curso los llamaremos valores y vectores propios.

Recordemos nuevamente el concepto de matriz inversa.

Para el caso especial $\mathbf{A} = \mathbf{I}$, con $\mathbf{I}$ la matriz identidad, se tiene que para cualquier vector $\mathbf{v} \in V$

$$\mathbf{Av} = \mathbf{Iv} = \mathbf{v} \label{8} \tag{8}$$

Así, el único valor propio de $\mathbf{A}$ es $1$ y todo $\mathbf{v} \neq \mathbf{0} \in V$ es un vector propio de $\mathbf{I}$.

Otra observación interesante es que cualquier múltiplo de un vector propio de $\mathbf{A}$ es también un vector propio de $\mathbf{A}$, con el mismo valor propio.

$$\mathbf{A}(c \mathbf{v}) = c \mathbf{Av} = c \lambda \mathbf{v} = \lambda (c \mathbf{v}) \label{9} \tag{9}$$

Ecuación característica

Supongamos que $\lambda $ es un valor propio de $A$, entonces existe un vector diferente de cero

$$\mathbf{v} = \begin{pmatrix}
v_{1} \\ v_{2} \\ \vdots \\ v_{n}
\end{pmatrix} \neq \mathbf{0}$$

tal que

$$\mathbf{Av} = \lambda \mathbf{v} = \lambda \mathbf{Iv} \label{10} \tag{10}$$

Reescribiendo esto, se tiene

$$(\mathbf{A} -\lambda \mathbf{I}) \mathbf{v} = \mathbf{0} \label{11} \tag{11}$$

Si $A$ es una matriz de $n \times n$, la ecuación anterior corresponde a un sistema homogéneo de $n$ ecuaciones con las incógnitas $v_{1}, v_{2}, \cdots, v_{n}$. Como se ha supuesto que $ \mathbf{v} \neq \mathbf{0}$, entonces el sistema no tiene solución trivial y por tanto el determinante de (\ref{11}) debe ser cero.

$$|\mathbf{A} -\lambda \mathbf{I}| = 0 \label{12} \tag{12}$$

De manera equivalente, si ocurre que $|\mathbf{A} -\lambda \mathbf{I}| \neq 0$, entonces la única solución a (\ref{11}) es la trivial $\mathbf{v} = \mathbf{0}$, lo que significa que $\lambda$ no es un valor propio de $A$.

Estos resultados quedan establecidos en el siguiente teorema.

La relación (\ref{13}) es muy importante, tanto que merece nombres particulares.

El polinomio $P(\lambda )$ es del mismo grado que el número de filas y columnas de la matriz $\mathbf{A}$. Si $\mathbf{A} \in M_{n \times n}$, entonces $P(\lambda)$ es un polinomio de grado $n$ en $\lambda$. Por ejemplo, si

$$\mathbf{A} = \begin{pmatrix}
a & b \\ c & d
\end{pmatrix} \label{14} \tag{14}$$

entonces,

$$\mathbf{A} -\lambda \mathbf{I} = \begin{pmatrix}
a & b \\ c & d
\end{pmatrix} -\begin{pmatrix}
\lambda & 0 \\ 0 & \lambda
\end{pmatrix} = \begin{pmatrix}
a -\lambda & b \\ c & d -\lambda
\end{pmatrix} \label{15} \tag{15}$$

y

\begin{align*}
P(\lambda ) &= |\mathbf{A} -\lambda \mathbf{I}| \\
&= (a -\lambda)(d -\lambda) -bc \\
&= \lambda^{2} -(a + d) \lambda + (ad -bc) \label{16} \tag{16}
\end{align*}

La matriz es de $2 \times 2$ y el polinomio característico es un polinomio de grado $2$.

El teorema fundamental del álgebra nos dice que cualquier polinomio de grado $n$ con coeficientes reales o complejos tiene exactamente $n$ raíces contando multiplicidades y dado que cualquier valor propio de $\mathbf{A}$ es una raíz de la ecuación característica de $\mathbf{A}$, se concluye que, contando multiplicidades, toda matriz $\mathbf{A} \in M_{n \times n}$ tiene exactamente $n$ valores propios.

Realicemos dos ejemplos sencillos en donde determinemos los valores y vectores propios de una matriz. Uno en donde los valores propios sean distintos (con multiplicidad $1$) y uno en donde los valores propios sean números complejos.

Ejemplo: Determinar los valores y vectores propios de la siguiente matriz.

$$\mathbf{A} = \begin{pmatrix}
-81 & 16 \\ -420 & 83
\end{pmatrix}$$

Solución: De acuerdo a (\ref{13}), determinemos la ecuación característica.

$$\begin{vmatrix}
-81 -\lambda & 16 \\ -420 & 83 -\lambda
\end{vmatrix} = (-81 -\lambda)(83 -\lambda) -16(-420) = 0$$

Reordenando obtenemos que la ecuación característica es

$$\lambda^{2} -2 \lambda -3 = 0$$

y el polinomio característico es

$$P(\lambda) = \lambda^{2} -2 \lambda -3$$

Resolviendo para $\lambda$ se obtienen las raíces $\lambda_{1} = -1$ y $\lambda_{2} = 3$. Para obtener los vectores propios buscamos un vector $\mathbf{v} \neq 0$, tal que se cumpla (\ref{11}) para cada valor propio $\lambda$. Comencemos con $\lambda_{1}$.

Caso 1: $\lambda_{1} = -1$.

$$\begin{pmatrix}
-81 -(-1) & 16 \\ -420 & 83 -(-1)
\end{pmatrix} \begin{pmatrix}
v_{1} \\ v_{2}
\end{pmatrix} = \begin{pmatrix}
-80 & 16 \\ -420 & 84
\end{pmatrix} \begin{pmatrix}
v_{1} \\ v_{2}
\end{pmatrix} = \begin{pmatrix}
0 \\ 0
\end{pmatrix}$$

Este resultado lo podemos escribir como las siguientes dos ecuaciones.

\begin{align*}
-80 v_{1} + 16 v_{2} &= 0 \\
-420 v_{1} + 84 v_{2} &= 0
\end{align*}

Que en realidad corresponden a una sola.

\begin{align*}
-5v_{1} + v_{2} &= 0 \\
v_{2} &= 5v_{1}
\end{align*}

Si elegimos $v_{1} = 1$, entonces $v_{2} = 5$, así el primer vector propio es

$$\mathbf{v}_{1} = \begin{pmatrix}
1 \\ 5
\end{pmatrix}$$

Caso 2: $\lambda_{2} = 3$.

$$\begin{pmatrix}
-81 -3 & 16 \\ -420 & 83-3
\end{pmatrix} \begin{pmatrix}
v_{1} \\ v_{2}
\end{pmatrix} = \begin{pmatrix}
-84 & 16 \\ -420 & 80
\end{pmatrix} \begin{pmatrix}
v_{1} \\ v_{2}
\end{pmatrix} = \begin{pmatrix}
0 \\ 0
\end{pmatrix}$$

La ecuación que se obtiene es

\begin{align*}
-21v_{1} + 4v_{2} &= 0 \\
v_{2} &= \dfrac{21}{4}v_{1}
\end{align*}

Por conveniencia elegimos $v_{1} = 4$, entonces $v_{2} = 21$, así

$$\mathbf{v}_{2} = \begin{pmatrix}
4 \\ 21
\end{pmatrix}$$

En conclusión, los valores y vectores propios de la matriz $\mathbf{A}$ son $\lambda_{1} = -1$, $\lambda_{2} = 3$, $\mathbf{v}_{1} = \begin{pmatrix} 1 \\ 5 \end{pmatrix}$ y $\mathbf{v}_{2} = \begin{pmatrix} 4 \\ 21 \end{pmatrix}$, respectivamente.

$\square$

Realicemos el segundo ejemplo.

Ejemplo: Determinar los valores y vectores propios de la siguiente matriz.

$$\mathbf{A} = \begin{pmatrix}
2 & -1 \\ 5 & -2
\end{pmatrix}$$

Solución: Determinemos la ecuación característica.

$$\begin{vmatrix}
2 -\lambda & -1 \\ 5 & -2 -\lambda
\end{vmatrix} = (2 -\lambda)(-2 -\lambda) + 5 = 0$$

La ecuación característica es

$$\lambda^{2} + 1 = 0$$

De donde $\lambda_{1} = i$ y $\lambda_{2} = -i$. Determinemos los vectores propios.

Caso 1: $\lambda_{1} = i$.

$$\begin{pmatrix}
2 -i & -1 \\ 5 & -2 -i
\end{pmatrix} \begin{pmatrix}
v_{1} \\ v_{2}
\end{pmatrix} = \begin{pmatrix}
0 \\ 0
\end{pmatrix}$$

Las ecuaciones que se obtienen son

\begin{align*}
(2 -i)v_{1} -v_{2} &= 0 \\
5v_{1} -(2 + i)v_{2} &= 0
\end{align*}

Resolviendo el sistema se obtiene que $v_{1} = 2 + i$ y $v_{2} = 5$, así

$$\mathbf{v}_{1} = \begin{pmatrix}
2 + i \\ 5
\end{pmatrix}$$

Caso 2: $\lambda_{2} = -i$

$$\begin{pmatrix}
2 + i & -1 \\ 5 & -2 + i
\end{pmatrix} \begin{pmatrix}
v_{1} \\ v_{2}
\end{pmatrix} = \begin{pmatrix}
0 \\ 0
\end{pmatrix}$$

Las ecuaciones que se obtienen son

\begin{align*}
(2 + i) v_{1} -v_{2} &= 0 \\
5v_{1} + (-2 + i)v_{2} &= 0
\end{align*}

Resolviendo el sistema se obtiene que $v_{1} = 2 -i$ y $v_{2} = 5$, así

$$\mathbf{v}_{2} = \begin{pmatrix}
2 -i \\ 5
\end{pmatrix}$$

$\square$

En caso de requerir conocer más a fondo sobre el algoritmo que llevamos a cabo para obtener los valores y vectores propios de una matriz se recomienda revisar directamente en el curso de Álgebra Lineal I. Recordemos que aquí sólo estamos haciendo un breve repaso.

Para concluir con nuestro repaso, enunciemos un teorema de suma importancia que nos será de utilidad mas adelante. Haremos la demostración por inducción.

Demostración: Como el caso $m = 1$ se trata de un solo vector es evidente que se satisface el teorema, hagamos el caso $m = 2$, para ello consideremos la combinación lineal

$$c_{1} \mathbf{v}_{1} + c_{2} \mathbf{v}_{2} = \mathbf{0} \label{17} \tag{17}$$

Multipliquemos ambos lados de la ecuación por la matriz $\mathbf{A}$.

$$c_{1} \mathbf{Av}_{1} + c_{2} \mathbf{Av}_{2} = \mathbf{0} \label{18} \tag{18}$$

Como $\mathbf{Av}_{i} = \lambda_{i}\mathbf{v}_{i}$, para $i = 1, 2$, entonces

$$c_{1} \lambda_{1} \mathbf{v}_{1} + c_{2} \lambda_{2} \mathbf{v}_{2} = \mathbf{0} \label{19} \tag{19}$$

A la ecuación (\ref{17}) la multiplicamos por $\lambda_{1}$ y la restamos de la ecuación (\ref{19}).

$$(c_{1} \lambda_{1} \mathbf{v}_{1} + c_{2} \lambda_{2} \mathbf{v}_{2}) -(c_{1} \lambda_{1} \mathbf{v}_{1} -c_{2} \lambda_{1} \mathbf{v}_{2}) = \mathbf{0}$$

que se reduce a

$$c_{2}(\lambda_{2} -\lambda_{1}) \mathbf{v}_{2} = \mathbf{0} \label{20} \tag{20}$$

Como $\mathbf{v}_{2} \neq \mathbf{0}$ por definición de vector característico y por hipótesis $\lambda_{1} \neq \lambda_{2}$, entonces se concluye que $c_{2} = 0$, sustituyendo en (\ref{17}) se ve que $c_{1} = 0$, por tanto se cumple el teorema para $m = 2$, es decir, $\mathbf{v}_{1}$ y $\mathbf{v}_{2}$ son linealmente independientes.

Ahora supongamos que el teorema es cierto para $m = n$, es decir, cualquier conjunto de $n$ vectores propios de $\mathbf{A}$ con valores propios diferentes es linealmente independiente. Hay que demostrar que cualquier conjunto de $n + 1$ vectores propios de $\mathbf{A}$ con valores propios diferentes es también linealmente independiente. La demostración sigue el mismo procedimiento que como lo hicimos para $m = 2$, consideremos la siguiente combinación lineal.

$$c_{1} \mathbf{v}_{1} + c_{2} \mathbf{v}_{2} + \cdots + c_{n + 1} \mathbf{v}_{n + 1} = \mathbf{0} \label{21} \tag{21}$$

Multipliquemos por $\mathbf{A}$ en ambos lados.

$$c_{1} \mathbf{Av}_{1} + c_{2} \mathbf{Av}_{2} + \cdots + c_{n + 1} \mathbf{Av}_{n + 1} = \mathbf{0} \label{22} \tag{22}$$

Aplicando $\mathbf{Av}_{i} = \lambda_{i} \mathbf{v}_{1}$ para $i = 1, 2, 3, \cdots, n + 1$, se tiene

$$c_{1} \lambda_{1} \mathbf{v}_{1} + c_{2} \lambda_{2} \mathbf{v}_{2} + \cdots + c_{n + 1} \lambda_{n + 1} \mathbf{v}_{n + 1} = \mathbf{0} \label{23} \tag{23}$$

Si se multiplica ambos lados de la ecuación (\ref{21}) por $\lambda_{1}$ y se resta de (\ref{23}), se obtiene

$$c_{2}(\lambda_{2} -\lambda_{1}) \mathbf{v}_{2} + c_{3}(\lambda_{3} -\lambda_{1}) \mathbf{v}_{3} + \cdots + c_{n + 1}(\lambda_{n + 1} -\lambda_{1})\mathbf{v}_{n + 1} = \mathbf{0} \label{24} \tag{24}$$

Pero $\mathbf{v}_{2}, \mathbf{v}_{3}, \cdots, \mathbf{v}_{n + 1}$ son vectores propios de $\mathbf{A}$ con valores propios distintos $\lambda_{2}, \lambda_{3}, \cdots, \lambda_{n + 1}$, respectivamente. Por hipótesis de inducción, los vectores son linealmente independientes, así que

$$c_{2}(\lambda_{2} -\lambda_{1}) = 0, \hspace{1cm} c_{3}(\lambda_{3} -\lambda_{1}) = 0, \hspace{1cm} \cdots, \hspace{1cm} c_{n + 1}(\lambda_{n + 1} -\lambda_{1}) = 0$$

Como los valores propios son distintos entre sí, entonces necesariamente

$$c_{2} = c_{3} = \cdots = c_{n + 1} = 0$$

Con este resultado la ecuación (\ref{21}) obliga a que $c_{1}$ sea cero. Por lo tanto, $\mathbf{v}_{1}, \mathbf{v}_{2}, \mathbf{v}_{3}, \cdots, \mathbf{v}_{n + 1}$ son linealmente independientes. De esta manera queda demostrado el teorema.

$\square$

En conclusión, vectores propios correspondientes a valores propios distintos son linealmente independientes.

Con este breve repaso en mente regresemos a los sistemas de ecuaciones diferenciales.

Valores y vectores propios en sistemas de ecuaciones diferenciales

Ahora que hemos recordado las definiciones de valores y vectores propios y algunas propiedades veamos cómo es que estos conceptos son útiles para resolver sistemas lineales de primer orden homogéneos.

Al inicio de la entrada decíamos que es posible encontrar soluciones de la forma (\ref{4}).

$$\mathbf{Y}(t) = \begin{pmatrix}
k_{1} \\ k_{2} \\ \vdots \\ k_{n}
\end{pmatrix}e^{\lambda t} = \mathbf{K}e^{\lambda t}$$

Si derivamos este vector, se obtiene

$$\mathbf{Y}^{\prime} = \mathbf{K} \lambda e^{\lambda t} \label{25} \tag{25}$$

Sustituyamos en el sistema homogéneo $\mathbf{Y}^{\prime} = \mathbf{AY}$.

$$\mathbf{K} \lambda e^{\lambda t} = \mathbf{AK}e^{\lambda t} \label{26} \tag{26}$$

Si dividimos entre $e^{\lambda t}$ y reordenamos, se tiene

$$\mathbf{AK} = \lambda \mathbf{K}$$

o bien,

$$\mathbf{AK} -\lambda \mathbf{K} = \mathbf{0}$$

Debido a que $\mathbf{K} = \mathbf{IK}$, con $\mathbf{I}$ la matriz identidad, la última expresión se puede escribir como

$$(\mathbf{A} -\lambda \mathbf{I}) \mathbf{K} = \mathbf{0}\label{27} \tag{27}$$

Si $\mathbf{A}$ es la matriz dada en (\ref{2}), entonces la ecuación matricial (\ref{27}) es equivalente a las $n$ ecuaciones algebraicas simultáneas

\begin{align*}
(a_{11} -\lambda)k_{1} + \hspace{1.2cm} a_{12}k_{2} + \cdots + \hspace{1.2cm} a_{1n}k_{n} &= 0 \\
a_{21}k_{1} + (a_{22} -\lambda)k_{2} + \cdots + \hspace{1.2cm} a_{2n}k_{n} &= 0 \\
\vdots \\
a_{n1}k_{1} + \hspace{1.2cm} a_{n2}k_{2} + \cdots + (a_{nn} -\lambda)k_{n} &= 0 \label{28} \tag{28}
\end{align*}

Si queremos encontrar soluciones $\mathbf{Y}(t)$ como (\ref{4}), necesitamos primero encontrar una solución no trivial del sistema (\ref{28}), de lo visto en nuestro repaso de valores y vectores propios, si la solución debe ser la no trivial, entonces se requiere que el determinante sea igual a cero, esto es

$$|\mathbf{A} -\lambda \mathbf{I}| = 0 \label{29} \tag{29}$$

Esta ecuación polinomial corresponde a la ecuación característica de la matriz $\mathbf{A}$. Sus soluciones son los valores propios de $\mathbf{A}$. Una solución $\mathbf{K} \neq 0$ de (\ref{27}) correspondiente a un valor propio $\lambda$ es el vector propio de $\mathbf{A}$.

La ecuación (\ref{29}) al tratarse de una ecuación polinomial existen tres casos posibles, cuando los valores propios son reales y distintos, cuando son repetidos y cuando son complejos. Para cada caso existe una forma particular de la solución de (\ref{3}).

Para concluir con esta entrada demostremos un resultado que establece la forma de la solución general del sistema lineal (\ref{3}).

Demostración: Definamos las funciones

$$\mathbf{Y}_{1}(t) = e^{\lambda_{1}t}\mathbf{K}_{1}, \hspace{1cm} \mathbf{Y}_{2}(t) = e^{\lambda_{2}t}\mathbf{K}_{2}, \hspace{1cm} \cdots, \hspace{1cm} \mathbf{Y}_{n}(t) = e^{\lambda_{n}t} \mathbf{K}_{n}$$

Notemos que para la $i$-ésima función $\mathbf{Y}_{i}(t) = e^{\lambda_{i}t} \mathbf{K}_{i}$ se cumple lo siguiente.

$$\mathbf{Y}^{\prime}_{i} = e^{\lambda_{i}t} (\lambda_{i} \mathbf{K}_{i}) = e^{\lambda_{i}t} (\mathbf{AK}_{i}) = \mathbf{AY}_{i} \label{32} \tag{32}$$

En donde se hecho uso de la relación (\ref{6}). Esto nos muestra que $\mathbf{Y}_{i}(t)$ es solución del sistema $\mathbf{Y}^{\prime} = \mathbf{AY}$ para cada $i = 1, 2, \cdots, n$. Basta mostrar que el Wronskiano es distinto de cero para probar que las funciones definidas forman un conjunto fundamental de soluciones. El Wronskiano está dado por

\begin{align*}
W(\mathbf{Y}_{1}, \mathbf{Y}_{2}, \cdots,\mathbf{Y}_{n}) &= \begin{vmatrix} e^{\lambda_{1}t} \mathbf{K}_{1} & e^{\lambda_{2}t} \mathbf{K}_{2} & \cdots & e^{\lambda_{n}t} \mathbf{K}_{n} \end{vmatrix} \\
&= e^{(\lambda_{1} + \lambda_{2} + \cdots + \lambda_{n})t} \begin{vmatrix} \mathbf{K}_{1} & \mathbf{K}_{2} & \cdots & \mathbf{K}_{n} \end{vmatrix} \label{33} \tag{33}
\end{align*}

Como la exponencial nunca se hace cero y por hipótesis los vectores $\mathbf{K}_{1}, \mathbf{K}_{2}, \cdots, \mathbf{K}_{n}$ son linealmente independientes, es decir, el determinante nunca es cero

$$\begin{vmatrix} \mathbf{K}_{1} & \mathbf{K}_{2} & \cdots & \mathbf{K}_{n} \end{vmatrix} \neq 0 \label{34} \tag{34}$$

entonces el Wronskiano es distinto de cero. Por el teorema de solución general de un sistema homogéneo concluimos que el conjunto

$$S = \{e^{\lambda_{1}t} \mathbf{K}_{1}, e^{\lambda_{2}t} \mathbf{K}_{2}, \cdots, e^{\lambda_{n}t} \mathbf{K}_{n}\}$$

es un conjunto fundamental de soluciones del sistema $\mathbf{Y}^{\prime} = \mathbf{AY}$ y la solución general es

$$\mathbf{Y}(t) = c_{1} e^{\lambda_{1}t} \mathbf{K}_{1} + c_{2} e^{\lambda_{2}t} \mathbf{K}_{2} + \cdots + c_{n} e^{\lambda_{n}t} \mathbf{K}_{n}$$

con $c_{1}, c_{2}, \cdots, c_{n}$ constantes arbitrarias.

$\square$

En la siguiente entrada aplicaremos todo esto en el desarrollo de un nuevo método de resolución de sistemas lineales.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  1. Obtener los valores y vectores propios de las siguientes matrices.
  • $\mathbf{A} = \begin{pmatrix}
    -62 & -20 \\ 192 & 62
    \end{pmatrix}$
  • $\mathbf{A} = \begin{pmatrix}
    -2 & 5 & 0 \\ 5 & -2 & 0 \\ 0 & 0 & 1
    \end{pmatrix}$
  1. Demostrar que para cualesquiera números reales $\alpha$ y $\beta$, la matriz $$\mathbf{A} = \begin{pmatrix} \alpha & \beta \\ -\beta & \alpha \end{pmatrix}$$ tiene valores propios $\alpha \pm i\beta$.
  1. Suponer que la matriz $\mathbf{A}$ tiene valores propios $\lambda_{1}, \lambda_{2}, \cdots, \lambda_{n}$. Demostrar lo siguiente:
  • Demostrar que $\mathbf{A}^{-1}$ (la matriz inversa de $\mathbf{A}$) existe si y sólo si $\lambda_{1}, \lambda_{2}, \cdots, \lambda_{n}$ son todos distintos de cero.
  • Si $\mathbf{A}^{-1}$ existe, demostrar que los valores propios de $\mathbf{A}^{-1}$ son $\dfrac{1}{\lambda_{1}}, \dfrac{1}{\lambda_{2}}, \cdots, \dfrac{1}{\lambda_{n}}$.
  1. Suponer que la matriz $\mathbf{A}$ tiene valores propios $\lambda_{1}, \lambda_{2}, \cdots, \lambda_{n}$. Demostrar que la matriz $\mathbf{A} -\alpha \mathbf{I}$ tiene valores propios $\lambda_{1} -\alpha, \lambda_{2} -\alpha, \cdots, \lambda_{n} -\alpha$.
  1. Suponer que la matriz $\mathbf{A}$ tiene valores propios $\lambda_{1}, \lambda_{2}, \cdots, \lambda_{n}$. Demostrar que los valores propios de $\mathbf{A}^{m}$ son $\lambda^{m}_{1}, \lambda^{m}_{2}, \cdots, \lambda^{m}_{n}$ para $m = 1, 2, 3, \cdots$.

    Recuerda que para calcular la potencia de una matriz, debemos multiplicar la matriz por ella misma tantas veces como indique el exponente, por ejemplo
    $$\mathbf{A}^{5} = \mathbf{A} \cdot \mathbf{A} \cdot \mathbf{A} \cdot \mathbf{A} \cdot \mathbf{A}$$

Más adelante…

Un nuevo método para resolver sistemas de ecuaciones diferenciales lineales de primer orden homogéneas con coeficientes constantes es el que estamos por desarrollar. Dicho método involucra obtener los valores y vectores propios de la matriz que conforma al sistema lineal, es por ello que hemos dedicado esta entrada en hacer un breve repaso sobre estos conceptos y hemos visto cómo es que se ven involucrados en la resolución de estos sistemas.

Como vimos, los valores propios se obtienen de encontrar las raíces del polinomio característico lo que significa que se pueden tener raíces reales y distintas, raíces con multiplicidad mayor a uno, es decir, que se repiten o raíces complejas, para cada caso existe una forma distinta de obtener la solución de los sistemas lineales homogéneos $\mathbf{Y}^{\prime} = \mathbf{AY}$.

En las próximas tres entradas estudiaremos cada caso. Comenzaremos con el caso en el que los valores propios del sistema son todos reales y distintos entre sí.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Álgebra Lineal II: Existencia de la forma canónica de Jordan para nilpotentes

Por Elizabeth Chalnique Ríos Alvarado

Introducción

En la entrada anterior estudiamos de manera un poco más sistemática las matrices y transformaciones lineales nilpotentes. Lo que haremos ahora es enunciar el teorema de la forma canónica de Jordan para matrices nilpotentes. Este es un teorema de existencia y unicidad. En esta entrada demostraremos la parte de la existencia. En la siguiente entrada hablaremos de la unicidad y de cómo encontrar la forma canónica de Jordan de matrices nilpotentes de manera práctica.

El teorema de Jordan para nilpotentes

El teorema que queremos demostrar tiene dos versiones: la de transformaciones y la matricial. La versión en transformaciones dice lo siguiente.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$ y $T:V\to V$ una transformación lineal nilpotente. Entonces existen únicos enteros $k_1,\ldots,k_d$ tales que \begin{align*} &k_1+k_2+\ldots+k_d = n,\\ &k_1\leq k_2 \leq \ldots \leq k_d,\end{align*} y para los cuales existe una base de $V$ en la cual $T$ tiene como forma matricial a la siguiente matriz de bloques:

$$\begin{pmatrix} J_{0,k_1} & 0 & \cdots & 0 \\ 0 & J_{0,k_2} & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & J_{0,k_d}\end{pmatrix}.$$

La versión en forma matricial dice lo siguiente.

Teorema. Sea $A$ una matriz nilpotente en $M_n(F)$. Entonces existen únicos enteros $k_1,\ldots,k_d$ tales que \begin{align*} &k_1+k_2+\ldots+k_d = n,\\ &k_1\leq k_2 \leq \ldots \leq k_d,\end{align*} y para los cuales $A$ es similar a la siguiente matriz de bloques: $$\begin{pmatrix} J_{0,k_1} & 0 & \cdots & 0 \\ 0 & J_{0,k_2} & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & J_{0,k_d}\end{pmatrix}.$$

A esta matriz de bloques (ya sea para una transformación, o para una matriz) le llamamos la forma canónica de Jordan de $A$.

En vista de que dos matrices son similares si y sólo si representan a la misma transformación lineal en distintas bases, entonces ambos teoremas son totalmente equivalentes. Así, basta enfocarnos en demostrar una de las versiones. Haremos esto con la versión para transformaciones lineales.

Trasnformaciones nilpotentes y unos vectores linealmente independientes

En esta sección enunciaremos un primer resultado auxiliar para demostrar la existencia de la forma canónica de Jordan. Veremos que a partir de una transformación lineal nilpotente podemos obtener algunos vectores linealmente independientes.

Proposición. Sea $V$ un espacio vectorial de dimensión finita y $T:V\to V$ una transformación lineal de índice $k$. Sea $v$ un vector tal que $T^{k-1}(v)\neq 0$, el cual existe ya que $T^{k-1}$ no es la transformación lineal cero. Entonces:

  1. Los vectores $v$, $T(v)$, $\ldots$, $T^{k-1}(v)$ son linealmente independientes.
  2. El subespacio $W$ que generan es de dimensión $k$ y es estable bajo $T$.
  3. La transformación $T$ restringida a $W$ en la base $T^{k-1}(v)$, $T^{k-2}(v)$, $\ldots$, $T(v)$, $v$ tiene como matriz al bloque de Jordan $J_{0,k}$. Ojo. Aquí los vectores los escribimos en orden contrario, empezando con la mayor potencia de $T$ aplicada.

Demostración. Probemos las afirmaciones una por una. Para empezar, supongamos que para ciertos escalares $\alpha_0,\ldots,\alpha_{k-1}$ tenemos que $$\alpha_0v+\alpha_1T(v)+\ldots+\alpha_{k-1}T^{k-1}(v)=0.$$

Vamos a probar inductivamente de $0$ a $k-1$ que $\alpha_k=0$. Para mostrar que $\alpha_0=0$, aplicamos $T^{k-1}$ a la combinación lineal anterior para obtener:

\begin{align*}
0&=\alpha_0T^{k-1}(v)+\alpha_1T^k(v)+\ldots+\alpha_{k-1}T^{2k-2}(v)\\
&=\alpha_0T^{k-1}(v).
\end{align*}

Aquí estamos usando en todos los sumandos, excepto el primero, que $T^k=0$. Como $T^{k-1}(v)\neq 0$, concluimos que $\alpha_0=0$. Suponiendo que ya hemos mostrado $\alpha_0=\ldots=\alpha_l=0$, la combinación lineal con la que empezamos queda como $$\alpha_{l+1}T^{l+1}(v)+\alpha_{l+2}T^{l+2}(v)+\ldots+\alpha_{k-1}T^{k-1}(v)=0.$$ Aplicando $T^{k-l-2}$ y usando un argumento similar al anterior se llega a que $\alpha_{l+1}=0$. Esto muestra que la única combinación lineal de los vectores que da cero es la combinación lineal trivial, así que son linealmente independientes.

De manera inmediata obtenemos entonces que esos $k$ vectores generan un subespacio $W$ de dimensión $k$. Para ver que $W$ es $T$ estable, tomemos un elemento $w$ en $W$, es decir $$w=\alpha_0v+\alpha_1T(v)+\ldots+\alpha_{k-1}T^{k-1}(v)$$ para algunos escalares $\alpha_0,\ldots,\alpha_{k-1}$. Debemos ver que $T(w)$ está nuevamente en $W$. Haciendo las cuentas y usando nuevamente que $T^k=0$ obtenemos:

\begin{align*}
T(w)&=T(\alpha_0v+\alpha_1T(v)+\ldots+\alpha_{k-1}T^{k-1}(v))\\
&= \alpha_0T(v)+\alpha_1T^2(v)+\ldots+\alpha_{k-2}T^{k-1}(v)+\alpha_{k-1}T(v)\\
&= \alpha_0T(v)+\alpha_1T^2(v)+\ldots+\alpha_{k-2}T^{k-1}(v)\\
\end{align*}

Este vector de nuevo es combinación lineal de los vectores que nos interesan, así que $T(w)$ está en $W$, como queríamos.

La afirmación de la forma matricial es inmediata pues precisamente

$$T(T^{j}(v))=0\cdot T^{n-1}(V)+\ldots+1\cdot T^{j+1}(v)+\ldots+0\cdot T(v) + 0\cdot v,$$ de donde se lee que las columnas de dicha forma matricial justo son las del bloque de Jordan $J_{0,k}$.

$\square$

El teorema anterior da otra demostración de algo que ya habíamos mostrado en la entada anterior: el índice de una matriz en $M_n(F)$ (o de una transformación nilpotente en un espacio vectorial de dimensión $n$) no puede exceder $n$.

Encontrar un subespacio complementario y estable

Ahora veremos otro resultado auxiliar que necesitaremos para demostrar la existencia de la forma canónica de Jordan. A partir de él podemos conseguirnos un «subespacio complementario y estable» que en la prueba de la existencia nos ayudará a proceder inductivamente. Este truco ya lo hemos visto antes en la clasificación de matrices ortogonales y el la demostración del teorema espectral.

Proposición. Sea $V$ un espacio vectorial de dimensión finita $n$ y $T:V\to V$ una transformación lineal nilpotente de índice $k$. Tomemos $v$ un vector tal que $T^{k-1}(v)\neq 0$. Sea $W$ el subespacio generado por $v,T(v),\ldots,T^{k-1}(v)$. Entonces, existe un subespacio $W’$ estable bajo $T$ y tal que $T=W\oplus W’$.

La principal dificultad para probar esta proposición es una cuestión creativa: debemos saber de dónde sacar el espacio $W’$. Para ello, haremos uso de la transformación transpuesta y de un espacio ortogonal por dualidad. Como recordatorio, si $T:V\to V$ es una transformación lineal, entonces su transformación transpuesta es una transformación lineal $^tT:V^\ast \to V^\ast$ para la cual $^tT(\ell)(u)=\ell(T(u))$ para cualquier forma lineal $\ell$ y cualquier vector $u$ en $V$.

Demostración. Primero, nos enfocamos en construir $W’$. Para ello procedemos como sigue. Como $T^{k-1}(v)\neq 0$, entonces existe una forma lineal $\ell$ tal que $\ell(T^{k-1}(v))\neq 0$. Se puede mostrar que $S:=\text{ }^t T$ también es nilpotente de índice $k$. Por la proposición de la sección anterior, tenemos entonces que $\ell, S(\ell),\ldots,S^{k-1}(\ell)$ son $k$ vectores linealmente independientes en $V^\ast$ y por lo tanto que generan un subespacio $Z$ de dimensión $k$. El espacio $W’$ que propondremos será $Z^\bot$.

Debemos mostrar que:

  1. En efecto $V=W\oplus W’$.
  2. En efecto $W’$ es $T$ estable.

Para la primer parte, usando teoría de espacios ortogonales tenemos que $$\dim(W’)=\dim(Z^\bot)=n-\dim(Z)=n-k,$$ así que los subespacios tienen la dimensión correcta para ser complementarios. Además, si $u\in W\cap W’$, entonces $u$ es combinación lineal de $v, T(v),\ldots, T^{k-1}(v),$ digamos $$u=\alpha_0v+\ldots+\alpha_{k-1}T^{k-1}(v)$$ y se anula por $\ell, S(\ell),\ldots,S^{k-1}(\ell)$, lo que quiere decir que se anula por $\ell, \ell\circ T, \ldots, \ell \circ T^{k-1}$. Esto permite probar iterativamente que $\alpha_0=\ldots=\alpha_{k-1}=0$, de modo que $u=0$. Con esto, $W$ y $W’$ son de intersección trivial y dimensiones complementarias, lo cual basta para que $V=W\oplus W’$.

Para terminar, debemos ver que $W’$ es $T$ estable. Tomemos un $u$ en $W’$, es decir, tal que se anula por $\ell, \ell\circ T, \ldots, \ell \circ T^{k-1}$. Al aplicar $T$, tenemos que $T(u)$ también se anula por todas estas transformaciones. Esto se debe a que para $\ell \circ T^j$ con $j\leq k-2$ se anula ya que $\ell\circ T^j(T(u))=\ell\circ T^{j+1}(u)=0$ por cómo tomamos $u$ y para $\ell \circ T^{k-1}$ se anula pues $T$ es nilpotente de índice $k$.

$\square$

Existencia de forma canónica de Jordan para nilpotentes

La idea para encontrar la forma canónica de Jordan debe ser clara a estas alturas: se procederá por inducción, el caso base será sencillo, asumiremos la hipótesis inductiva y para hacer el paso inductivo descomponeremos al espacio $V$ mediante la proposición de la sección anterior. Veamos los detalles.

Demostración (existencia de forma canónica de Jordan para nilpotentes). Estamos listos para probar la existencia de la forma canónica de Jordan para una transformación lineal nilpotente $T:V\to V$ con $V$ un espacio vectorial de dimensión finita $n$. Procederemos por inducción en la dimensión. Si $n=1$, entonces $V$ es generado por un vector $v$ y la transformación lineal $T$ debe mandarlo al vector $0$ para ser nilpotente. En esta base, $T(v)=0$ y la matriz que representa a $T$ es entonces $(0)=J_{0,1}$.

Supongamos que existe la forma canónica de Jordan para cuando $V$ es de cualquier dimensión menor a un entero positivo dado $n$. Tomemos $V$ un espacio vectorial de dimensión $n$ y $T:V\to V$ una transformación lineal nilpontente. Si $T$ es de índice $n$, entonces $T^{n-1}(v),\ldots,T(v),v$ son linealmente independientes y por lo tanto son una base de $V$. La forma matricial de $T$ en esta base es el bloque de Jordan $J_{0,n}$, en cuyo caso terminamos.

De otra forma, el índice es un número $k<n$. Entonces, $T^{k-1}(v),\ldots,T(v),v$ generan un subespacio estable $W$ de dimensión $k$. Por la proposición de la sección anterior, podemos encontrar un subespacio complementario $W’$ de dimensión $n-k<n$ y estable bajo $T$. Como la restricción de $T$ a $W’$ tiene codominio $W’$, es nilpotente y $\dim(W)<\dim(V)$, entonces por hipótesis inductiva $W’$ tiene una base $\beta$ bajo la cual la restricción de $T$ a $W’$ tiene como forma matricial una matriz diagonal por bloques con puros bloques de Jordan del estilo $J_{0,k_j}$. Al completar $\beta$ con $T^{k-1}(v),\ldots,T(v),v$ , obtenemos una base de $V$ en la cual $T$ tiene como forma matricial una matriz diagonal por bloques con puros bloques de Jordan del estilo $J_{0,k_j}$ (que vienen de la hipótesis inductiva) y un bloque de Jordan $J_{0,k}$. Salvo quizás un reordenamiento de la base para ordenar los $k_j$ y $k$, obtenemos exactamente lo buscado.

$\square$

Más adelante…

Ya demostramos una parte fundamental del teorema que nos interesa: la existencia de la forma canónica de Jordan para transformaciones (y matrices) nilpotentes. Nos falta otra parte muy importante: la de la unicidad. Las demostraciones de unicidad típicamente son sencillas, pero en este caso no es así. Para decir de manera explícita cuál es la forma canónica de Jordan de una transformación (o matriz) nilpotente, deberemos hacer un análisis cuidadoso del rango de las potencias de la transformación (o matriz). Veremos esto en las siguientes entradas.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Verifica que la siguiente matriz es nilpotente: $$\begin{pmatrix}13 & 6 & -14 & -5\\ 2 & 0 & -4 & -2 \\ 29 & 12 & -34 & -13 \\ -45 & -18 & 54 & 21\end{pmatrix}.$$
    Siguiendo las ideas de la demostración de existencia de esta entrada, ¿cómo podrías dar la forma canónica de Jordan de esta matriz? Intenta hacerlo.
  2. Sea $V$ un espacio vectorial de dimensión finita y $T:V\to V$ una transformación lineal nilpotente de índice $k$. Demuestra que $^tT$ también es una transformación lineal nilpotente de índice $k$. ¿Cuál sería el resultado análogo para matrices?
  3. Sea $V$ un espacio vectorial de dimensión finita y $T:V \to V$ una transformación lineal tal que para cualquier $v$ en $V$ existe algún entero $n$ tal que $T^n(v)=0$. Estos $n$ pueden ser distintos para distintos $v$. Muestra que $T$ es nilpotente.
  4. Considera el subespacio $V$ de polinomios reales con grado a lo más $4$ y $D:V\to V$ la transformación lineal derivar. Da, de manera explícita, espacios $W$ y $W’$ como en las proposición de encontrar el subespacio complementario estable.
  5. Hay varios detalles que quedaron pendientes en las demostraciones de esta entrada. Revisa la entrada para encontrarlos y da las demostraciones correspondientes.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Ecuaciones Diferenciales I: Ecuaciones diferenciales de orden superior

Por Omar González Franco

Las matemáticas expresan valores que reflejan el cosmos, incluyendo
el orden, equilibrio, armonía, lógica y belleza abstracta.
– Deepak Chopra

Introducción

¡Bienvenidos a la segunda unidad del curso de Ecuaciones Diferenciales I!.

En la primera unidad estudiamos las ecuaciones diferenciales lineales y no lineales de primer orden, en esta unidad estudiaremos las ecuaciones diferenciales de orden superior a uno, en particular las ecuaciones lineales de segundo orden.

Anteriormente vimos que las ecuaciones diferenciales se pueden clasificar por orden, el cual corresponde al orden de la derivada más alta presente en la ecuación diferencial. A las ecuaciones diferenciales de orden mayor a uno se le conocen como ecuaciones diferenciales de orden superior. Nuestro enfoque en esta unidad serán las ecuaciones diferenciales lineales de segundo orden, pero antes de desarrollar los distintos métodos de resolución es necesario establecer una serie de conceptos y teoremas que sustentarán a dichos métodos.

Si bien, la segunda unidad tratará sobre las ecuaciones diferenciales lineales de segundo orden, gran parte de esta teoría preliminar la desarrollaremos para el caso general en el que el orden de la ecuación es $n$, con $n$ un número entero mayor a uno, así sólo será suficiente fijar $n = 2$ para referirnos a las ecuaciones de segundo orden.

Ecuaciones Diferenciales lineales de orden superior

Recordemos que una ecuación diferencial de $n$-ésimo orden en su forma general es

$$F(x, y, y^{\prime}, \cdots, y^{(n)}) = 0 \label{1} \tag{1}$$

Donde $F$ es una función con valores reales de $n + 2$ variables. La ecuación (\ref{1}) se puede escribir en su forma normal como

$$\dfrac{d^{n}y}{dx^{n}} = f(x, y, y^{\prime}, \cdots, y^{(n -1)}) \label{2} \tag{2}$$

Con $f$ una función continua con valores reales. Para el caso en el que la ecuación es lineal, una ecuación diferencial de $n$-ésimo orden se puede escribir como

$$a_{n}(x) \dfrac{d^{n}y}{dx^{n}} + a_{n-1}(x) \dfrac{d^{n-1}y}{dx^{n-1}} + \cdots + a_{1}(x) \dfrac{dy}{dx} + a_{0}(x)y = g(x) \label{3} \tag{3}$$

Satisfaciendo las propiedades que ya conocemos. La ecuación (\ref{3}) es una ecuación no homogénea, en el caso en el que $g(x) = 0$, decimos que la ecuación es homogénea.

$$a_{n}(x) \dfrac{d^{n}y}{dx^{n}} + a_{n-1}(x) \dfrac{d^{n-1}y}{dx^{n-1}} + \cdots + a_{1}(x) \dfrac{dy}{dx} + a_{0}(x)y = 0 \label{4} \tag{4}$$

Las ecuaciones (\ref{3}) y (\ref{4}) serán, entonces, el tipo de ecuaciones sobre la cual desarrollaremos esta teoría preliminar.

Para comenzar estudiemos los problemas con valores iniciales y problemas con valores en la frontera en el caso de las ecuaciones diferenciales lineales de orden superior.

Problema con valores iniciales para ecuaciones lineales

En la unidad anterior definimos lo que es un problema con valores iniciales, esta definición fue general, definamos ahora lo que es un problema con valores iniciales para el caso en el que la ecuación es lineal.

Para el caso de segundo orden ya hemos mencionado que geométricamente un PVI involucra obtener una curva solución que pase por el punto $(x_{0}, y_{0})$ y la pendiente en dicho punto sea $m = y_{1}$.

Enunciaremos, sin demostrar, el teorema de existencia y unicidad que contiene las condiciones suficientes para la existencia y unicidad de una solución de un PVI de $n$-ésimo orden para el caso de las ecuaciones lineales.

Podemos enunciar el teorema de existencia y unicidad para el caso de las ecuaciones diferenciales lineales de segundo orden ($n = 2$) de la siguiente manera.

No demostraremos este teorema, pero es importante notar que dentro del enunciado hemos escrito la definición de PVI para el caso $n = 2$ (segundo orden). Veamos un ejemplo en donde apliquemos este último teorema.

Ejemplo: Probar que la función

$$y(x) = 3 e^{2x} + e^{-2x} -3x$$

es solución al PVI

$$\dfrac{d^{2}y}{dx^{2}} -4y = 12x; \hspace{1cm} y(0) = 4, \hspace{0.5cm} y^{\prime}(0) = 1$$

y además es única.

Solución: Primero probemos que es solución al PVI, para ello veamos que satisface la ecuación diferencial y además cumple con las condiciones iniciales.

La función dada es

$$y(x) = 3 e^{2x} + e^{-2x} -3x$$

La primera y segunda derivada de esta función son, respectivamente

$$\dfrac{dy}{dx} = y^{\prime}(x) = 6 e^{2x} -2 e^{-2x} -3 \hspace{1cm} y \hspace{1cm} \dfrac{d^{2}y}{dx^{2}} = y^{\prime \prime}(x) = 12 e^{2x} + 4e^{-2x}$$

Notemos que

\begin{align*}
\dfrac{d^{2}y}{dx^{2}} -4y &= (12 e^{2x} + 4e^{-2x}) -4(3 e^{2x} + e^{-2x} -3x) \\
&= 12 e^{2x} + 4e^{-2x} -12 e^{2x} -4e^{-2x} + 12x \\
&= 12x
\end{align*}

Esto es,

$$\dfrac{d^{2}y}{dx^{2}} -4y = 12x$$

La función satisface la ecuación diferencial. Verifiquemos que satisface las condiciones iniciales.

En la solución evaluemos $x = 0$.

$$y(0) = 3 e^{0} + e^{0} -0 = 3 + 1 = 4 \hspace{1cm} \Rightarrow \hspace{1cm} y(0) = 4$$

Se cumple la primera condición inicial. Ahora, en la derivada de la función evaluemos en $x = 0$.

$$y^{\prime}(0) = 6 e^{0} -2 e^{0} -3 = 6 -2 -3 = 1 \hspace{1cm} \Rightarrow \hspace{1cm} y^{\prime}(0) = 1$$

Se cumple la segunda condición inicial. Por lo tanto, la función dada es solución al PVI.

Es claro que el intervalo de solución es $\delta = (-\infty, \infty)$ y que $x_{0} = 0 \in \delta.$ Como $a_{2}(x) = 1 \neq 0, a_{0}(x) = -4$ y $g(x) = 12x$ son funciones continuas en $\delta$, por el teorema de existencia y unicidad para ecuaciones diferenciales lineales de segundo orden concluimos que la función $y(x) = 3 e^{2x} + e^{-2x} -3x$ es una solución única.

$\square$

Al haber aumentado el orden de las ecuaciones diferenciales aparece un nuevo problema que estudiaremos a continuación.

Problema con valores en la frontera

En el estudio de las ecuaciones diferenciales de orden superior existe otro problema similar al PVI conocido como problema con valores en la frontera (PVF) en el que se busca resolver una ecuación diferencial de orden dos o mayor, tal que la variable dependiente y/o sus derivadas se especifican en distintos puntos.

Para que quede claro este concepto definiremos un problema con valores en la frontera para el caso de una ecuación diferencial lineal de segundo orden y siguiendo esta misma idea es que se puede definir para una ecuación de orden superior a dos.

Así, resolver un PVF es hallar una función $y(x)$ que satisfaga la ecuación diferencial en algún intervalo $\delta$ que contiene a $a$ y $b$ y que cuya curva solución pase por los puntos $(a, y_{0})$ y $(b, y_{1})$.

La razón por la que definimos un PVF para el caso de una ecuación diferencial de segundo orden es porque es posible hacer notar que otros pares de condiciones en la frontera pueden ser

$$y^{\prime}(a) = y_{0} \hspace{1cm} y \hspace{1cm} y(b) = y_{1}$$

$$y(a) = y_{0} \hspace{1cm} y \hspace{1cm} y^{\prime}(b) = y_{1}$$

$$y^{\prime}(a) = y_{0} \hspace{1cm} y \hspace{1cm} y^{\prime}(b) = y_{1}$$

Sin embargo, las condiciones en la frontera presentadas son sólo casos particulares de las condiciones en la frontera generales

\begin{align*}
\alpha_{1} y(a) + \beta_{1} y^{\prime}(a) &= \gamma_{1} \\
\alpha_{2} y(b) + \beta_{2} y^{\prime}(b) &= \gamma_{2}
\end{align*}

Es así que aumentando el orden de la ecuación, las combinaciones de pares de condiciones en la frontera aumentan.

A diferencia de un PVI en el que si existe una solución, entonces ésta es única, en un PVF pueden existir varias soluciones distintas que satisfacen las mismas condiciones en la frontera, o bien, puede sólo existir una solución única o no tener ninguna solución. Veamos un ejemplo que muestre este hecho.

Ejemplo: Probar que la función general

$$y(x) = c_{1}x^{2} + c_{2}x^{4} + 3$$

es solución de la ecuación diferencial

$$x^{2} \dfrac{d^{2}y}{dx^{2}} -5x \dfrac{dy}{dx} + 8y = 24$$

y además, de acuerdo a las condiciones en la frontera dadas a continuación, se cumplen las siguientes propiedades:

  • $y(-1) = 0, \hspace{0.5cm} y(1) = 4 \hspace{0.5cm} \Rightarrow \hspace{0.5cm}$ No existe una solución.
  • $y(0) = 3, \hspace{0.8cm} y(1) = 0 \hspace{0.5cm} \Rightarrow \hspace{0.5cm}$ Existen infinitas soluciones.
  • $y(1) = 3, \hspace{0.8cm} y(2) = 15 \hspace{0.3cm} \Rightarrow \hspace{0.5cm}$ Existe una única solución.

Solución: De tarea moral verifica que la función dada es solución de la ecuación diferencial. Más adelante estudiaremos los métodos de resolución de este tipo de ecuaciones diferenciales, de manera que seremos capaces de obtener esta función y probar, de hecho, que es la solución general. Por ahora sólo verifica que es solución.

Una vez comprobado que $y(x)$ es solución apliquemos las condiciones de frontera de cada caso y veamos que ocurre con la solución.

  • Caso 1: $\hspace{0.5cm} y(-1) = 0, \hspace{0.5cm} y(1) = 4$

$$y(-1) = c_{1}(-1)^{2} + c_{2}(-1)^{4} + 3 = c_{1} + c_{2} + 3 = 0 \hspace{0.5cm} \Rightarrow \hspace{0.5cm} c_{1} + c_{2} = -3$$

$$y(1) = c_{1}(1)^{2} + c_{2}(1)^{4} + 3 = c_{1} + c_{2} + 3 = 4 \hspace{0.5cm} \Rightarrow \hspace{0.5cm} c_{1} + c_{2} = 1$$

De ambas condiciones de la frontera obtenemos que $c_{1} + c_{2} = -3$ y a la vez $c_{1} + c_{2} = 1$ lo cual es imposible, por lo tanto en este caso NO existe una solución al PVF.

  • Caso 2: $\hspace{0.5cm} y(0) = 3, \hspace{0.5cm} y(1) = 0$

$$y(0) = c_{1}(0)^{2} + c_{2}(0)^{4} + 3 = 3 \hspace{0.5cm} \Rightarrow \hspace{0.5cm} y(0) = 3$$

$$y(1) = c_{1}(1)^{2} + c_{2}(1)^{4} + 3 = c_{1} + c_{2} + 3 = 0 \hspace{0.5cm} \Rightarrow \hspace{0.5cm} c_{1} + c_{2} = -3$$

Vemos que la primer condición de frontera se cumple y aplicando la segunda obtenemos que $c_{1} + c_{2} = -3$ de donde $c_{2} = -(c_{1} +3)$, sustituyendo en la solución $y(x)$ obtenemos la función

$$y(x) = c_{1}x^{2} -(c_{1} +3) x^{4} + 3$$

Donde $c_{1}$ es un parámetro libre, lo que indica que en este caso existen infinitas soluciones, una por cada posible valor de $c_{1}$.

  • Caso 3: $\hspace{0.5cm} y(1) = 3, \hspace{0.5cm} y(2) = 15$

$$y(1) = c_{1}(1)^{2} + c_{2}(1)^{4} + 3 = c_{1} + c_{2} + 3 = 3 \hspace{0.5cm} \Rightarrow \hspace{0.5cm} c_{1} + c_{2} = 0$$

$$y(2) = c_{1}(2)^{2} + c_{2}(2)^{4} + 3 = 4c_{1} + 16c_{2} + 3 = 15 \hspace{0.5cm} \Rightarrow \hspace{0.5cm} c_{1} + 4c_{2} = 3$$

De ambas condiciones de frontera obtenemos el sistema de ecuaciones

\begin{align*}
c_{1} + c_{2} &= 0 \\
c_{1} + 4c_{2} &= 3
\end{align*}

De la primer ecuación obtenemos que $c_{1} = -c_{2}$, sustituyendo en la segunda ecuación obtenemos

$$-c_{2} + 4c_{2} = 3c_{2} = 3$$

de donde $c_{2} = 1$ y por tanto $c_{1} = -1$. Sustituyendo en la solución $y(x)$ obtenemos la función

$$y(x) = -x^{2} + x^{4} + 3$$

Por lo tanto, al ser una función sin parámetros, la solución es única.

$\square$

A continuación estudiaremos algunos operadores importantes que nos ayudarán en las posteriores demostraciones de algunos teoremas importantes, además de que nos serán de utilidad en cuestiones de notación.

Operadores Diferenciales

Comencemos por definir el operador de derivada.

Con ayuda del operador diferencial podemos escribir la derivada de una función $y(x)$ como

$$Dy = \dfrac{dy}{dx} = y^{\prime}(x) \label{7} \tag{7}$$

En el entendido que $D$ opera sobre la variable independiente de $y$, en este caso de $x$.

Por ejemplo, ahora podemos escribir

$$D \{ 2x \sin(x) \} = 2 \sin(x) + 2x \cos(x)$$

Usando el operador diferencial, las expresiones de las derivadas de orden superior se pueden escribir como

$$\dfrac{d}{dx} \left( \dfrac{dy}{dx} \right) = \dfrac{d^{2}y}{dx^{2}} = D(Dy) = D^{2}y \label{8} \tag{8}$$

Y de manera general

$$\dfrac{d^{n}y}{dx^{n}} = D^{n}y \label{9} \tag{9}$$

Sabemos que la derivada es lineal (en el contexto del álgebra lineal), por tanto el operador diferencial también satisface las propiedades de linealidad:

  • $D \{ f(x) + g(x) \} = D \{f(x) \} + D \{g(x) \}$
  • $D \{cf(x) \} = cD \{f(x) \}$

Por otro lado, una ecuación diferencial como

$$\dfrac{d^{2}y}{dx^{2}} -2\dfrac{dy}{dx} + 5y = 0$$

se puede escribir en términos del operador diferencial como

$$D^{2}y -2Dy +5y = (D^{2} -2D +5)y = 0$$

Observamos que el lado izquierdo de ésta última expresión corresponde a una expresión polinomial en la que interviene el operador $D$, estas expresiones polinomiales son también un operador diferencial y tiene un nombre particular.

Debido a que el operador polinomial esta definido con operadores diferenciales $D$, las propiedades de linealidad de $D$ le atribuyen a $\mathcal{L}$ linealidad. Más general, $\mathcal{L}$ operando sobre una combinación lineal de dos funciones derivables es lo mismo que la combinación lineal de $\mathcal{L}$ operando en cada una de las funciones, esto es

$$\mathcal{L} \{ \alpha f(x) + \beta g(x) \} = \alpha \mathcal{L} \{f(x) \} + \beta \mathcal{L} \{g(x) \} \label{11} \tag{11}$$

Una primera ventaja de usar el operador polinomial es que las ecuaciones (\ref{3}) y (\ref{4}) se pueden escribir como

$$\mathcal{L}(y) = g(x) \hspace{1cm} y \hspace{1cm} \mathcal{L}(y) = 0$$

respectivamente.

A continuación el operador polinomial nos será de mucha utilidad.

Principio de superposición

Es posible obtener varias soluciones de una ecuación diferencial lineal homogénea (\ref{4}) y si sumamos o superponemos todas estas soluciones veremos que dicha función es también solución de la ecuación diferencial. Este hecho se muestra en el siguiente resultado conocido como principio de superposición para ecuaciones homogéneas.

Demostración: Sea $\mathcal{L}$ el operador polinomial (\ref{10}) de $n$-ésimo orden y sean $y_{1}, y_{2}, \cdots, y_{k}$ soluciones de la ecuación homogénea (\ref{4}) en el intervalo $\delta$. Definamos la combinación lineal

$$y(x) = c_{1}y_{1}(x) + c_{2}y_{2}(x) + \cdots + c_{k}y_{k}(x)$$

con $c_{i}$, $i = 1,2, \cdots, k$ constantes arbitrarias. Notemos que

$$\mathcal{L}(y) = \mathcal{L} \{ c_{1}y_{1}(x) + c_{2}y_{2}(x) + \cdots + c_{k}y_{k}(x) \}$$

Por la linealidad de $\mathcal{L}(y)$ (\ref{11}), se tiene

$$\mathcal{L}(y) = c_{1} \mathcal{L} \{ y_{1}(x) \} + c_{2} \mathcal{L} \{ y_{2}(x) \} + \cdots + c_{k} \mathcal{L} \{ y_{k}(x) \}$$

Pero cada $y_{i}$, $i = 1, 2, \cdots, k$ es solución de (\ref{4}), entonces

$$\mathcal{L}(y_{i}) = 0$$

para todo $i = 1, 2, \cdots, k$, así la expresión anterior se reduce a lo siguiente.

$$\mathcal{L}(y) = c_{1} 0 + c_{2} 0 + \cdots + c_{k} 0 = 0$$

Por lo tanto

$$\mathcal{L}(y) = 0$$

es decir, la combinación lineal

$$y(x) = c_{1}y_{1}(x) + c_{2}y_{2}(x) + \cdots + c_{k}y_{k}(x)$$

es también solución de la ecuación diferencial homogénea (\ref{4}).

$\square$

Dos corolarios importantes del teorema anterior son los siguientes.

Demostración: Consideremos la función $y = c_{1}y_{1}(x)$, aplicando el operador polinomial $\mathcal{L}$, tenemos

$$\mathcal{L}(y) = \mathcal{L} \{ c_{1}y_{1}(x) \} = c_{1} \mathcal{L} \{ y_{1}(x) \} = 0$$

Ya que $y_{1}(x)$ es solución de la ecuación homogénea, es decir, $\mathcal{L} \{y_{1} \} = 0 $. Por lo tanto la función $y(x) =c_{1}y_{1}(x)$ es también solución de la ecuación diferencial homogénea.

$\square$

Usando el teorema anterior y la definición de $\mathcal{L}$ es clara la demostración, inténtalo.

Realicemos un ejemplo sobre el principio de superposición.

Ejemplo: Mostrar que las funciones

$$y_{1}(x) = x^{2} \hspace{1cm} y \hspace{1cm} y_{2}(x) = x^{2} \ln(x)$$

son soluciones de la ecuación diferencial lineal homogénea

$$x^{3} \dfrac{d^{3}y}{dx^{3}} -2x \dfrac{dy}{dx} + 4y = 0$$

en el intervalo $\delta = (0, \infty)$. Y mostrar que la combinación lineal

$$y(x) = c_{1} x^{2} + c_{2} x^{2} \ln(x)$$

es también solución de la ecuación diferencial en el mismo intervalo.

Solución: De tarea moral verifica que las funciones por separado

$$y_{1}(x) = x^{2} \hspace{1cm} y \hspace{1cm} y_{2}(x) = x^{2} \ln(x)$$

son soluciones de la ecuación diferencial en el intervalo $\delta = (0, \infty)$.

Una vez asegurado que ambas funciones son solución, de acuerdo al principio de superposición, la combinación lineal de ambas funciones

$$y(x) = c_{1} x^{2} + c_{2} x^{2} \ln(x)$$

debe ser también solución de la ecuación diferencial, veamos que es así. Para ello calculemos la primera, segunda y tercera derivada. Para la primer derivada tenemos

$$\dfrac{dy}{dx} = 2c_{1}x + 2c_{2}x \ln(x) + c_{2} x$$

La segunda derivada es

$$\dfrac{d^{2}y}{dx^{2}} = 2c_{1} + 2c_{2} \ln(x) + 3c_{2}$$

Finalmente, la tercer derivada es

$$\dfrac{d^{3}y}{dx^{3}} = \dfrac{2c_{2}}{x}$$

Sustituyendo los valores correspondientes en la ecuación diferencial, tenemos

\begin{align*}
x^{3} \dfrac{d^{3}y}{dx^{3}} -2x \dfrac{dy}{dx} + 4y &= x^{3} \left( \dfrac{2c_{2}}{x} \right) -2x \left( 2c_{1}x + 2c_{2}x \ln(x) + c_{2} x \right) + 4 \left( c_{1} x^{2} + c_{2} x^{2} \ln(x) \right) \\
&= 2c_{2}x^{2} -4c_{1}x^{2} -4c_{2}x^{2} \ln(x) -2c_{2} x^{2} + 4c_{1} x^{2} + 4c_{2} x^{2} \ln(x) \\
&= c_{1}(4x^{2} -4x^{2}) + c_{2} \left( 2x^{2} -2x^{2} + 4x^{2}\ln(x) -4x^{2}\ln(x) \right) \\
&= c_{1}(0) + c_{2}(0) \\
&= 0
\end{align*}

Hemos recuperado la ecuación diferencial

$$x^{3} \dfrac{d^{3}y}{dx^{3}} -2x \dfrac{dy}{dx} + 4y = 0$$

por lo tanto, la combinación lineal

$$y(x) = c_{1} x^{2} + c_{2} x^{2} \ln(x)$$

es también solución de la ecuación diferencial verificando así el principio de superposición.

Es claro que la función $\ln(x)$ restringe los valores de $x$, de manera que el intervalo $\delta = (0, \infty)$ es el intervalo en el que la función $y(x)$ es continua.

$\square$

Dependencia e independencia lineal

El principio de superposición trae consigo el concepto de combinación lineal y, de álgebra lineal, sabemos que si un elemento de un espacio vectorial se puede escribir como combinación lineal de otros elementos del mismo espacio vectorial, decimos que dicho elemento es linealmente dependiente y si no es dependiente, entonces decimos que es linealmente independiente. Ahora es necesario definir estos conceptos en el contexto de las ecuaciones diferenciales lineales.

Podemos decir que un conjunto de funciones es linealmente independiente en un intervalo $\delta$ si las únicas constantes para las que

$$c_{1}f_{1}(x) + c_{2}f_{2}(x) + \cdots +c_{n}f_{n}(x) = 0, \hspace{1cm} \forall x \in \delta$$

son $c_{1} = c_{2} = \cdots = c_{n} = 0$.

Realicemos algunas observaciones para el caso $n = 2$.

Dos funciones $f_{1}(x), f_{2}(x)$ son linealmente dependientes en el intervalo $\delta$, donde ambas están definidas, si en dicho intervalo son proporcionales, esto es, si

$$f_{1}(x) = c_{1}f_{2}(x) \hspace{1cm} o \hspace{1cm} f_{2}(x) = c_{2}f_{1}(x) \label{14} \tag{14}$$

donde $c_{1}$ y $c_{2}$ son constantes distintas de cero, de esta manera, si $f_{1}(x)$ y $f_{2}(x)$ no son proporcionales en el intervalo $\delta$, entonces ambas funciones son linealmente independientes en dicho intervalo.

De las relaciones de proporcionalidad (\ref{14}) notamos que

$$\dfrac{f_{1}(x)}{f_{2}(x)} = c_{1} \hspace{1cm} y \hspace{1cm} \dfrac{f_{2}(x)}{f_{1}(x)} = c_{2} \label{15} \tag{15}$$

Con estas relaciones podemos establecer que $f_{1}(x)$ y $f_{2}(x)$ son linealmente dependientes en el intervalo $\delta$ si cada cociente es una constante a lo largo de todo el intervalo $\delta$ y, por otro lado, si los cocientes dependen de $x$ en el intervalo $\delta$, entonces las funciones $f_{1}(x)$ y $f_{2}(x)$ son linealmente independientes.

En definitiva, las funciones $f_{1}(x), f_{2}(x), \cdots, f_{n}(x)$ son linealmente dependientes en el intervalo $\delta$ si al menos una de ellas puede expresarse como combinación lineal de las otras. En caso contrario, las funciones son linealmente independientes.

Por ejemplo, dado el conjunto de funciones

$$f_{1}(x) = 4x^{3}, \hspace{0.5cm} f_{2}(x) = 2x^{2}, \hspace{0.5cm} f_{3}(x) = 8x^{3} + 12x^{2}$$

es sencillo darse cuenta que

$$f_{3}(x) = 2f_{1}(x) + 6f_{2}(x)$$

Por lo tanto, el conjunto de funciones es linealmente dependiente.

Ejemplo: Determinar si las funciones

$$y_{1}(x) = c_{1} e^{-x} \hspace{1cm} y \hspace{1cm} y_{2}(x) = c_{2}x e^{-x}$$

son linealmente dependientes o linealmente independientes. Probar además que dichas funciones por separado son solución de la ecuación diferencial

$$\dfrac{d^{2}y}{dx^{2}} + 2 \dfrac{dy}{dx} + y = 0$$

y verificar que la combinación lineal

$$y(x) = c_{1} e^{-x} + c_{2}x e^{-x}$$

es también solución de la ecuación diferencial.

Solución: Como vimos, hay distintas formas de verificar si las funciones son linealmente dependientes o linealmente independientes, quizá la forma más práctica es observar si el cociente $\dfrac{y_{1}}{y_{2}}$ o $\dfrac{y_{2}}{y_{1}}$ es constante o dependiente de $x$ en el intervalo $\delta$ en el que ambas están definidas.

Observamos primero que ambas funciones

$$y_{1}(x) = c_{1} e^{-x} \hspace{1cm} y \hspace{1cm} y_{2}(x) = c_{2}x e^{-x}$$

están definidas en todo $\mathbb{R}$, por tanto

$$\delta = (-\infty, \infty)$$

Ahora bien, notamos que

$$\dfrac{y_{1}}{y_{2}} = \dfrac{c_{1}}{c_{2} x}$$

O bien,

$$\dfrac{y_{2}}{y_{1}} = \dfrac{c_{2} x}{c_{1}}$$

Como podemos ver, ambos cocientes son dependientes de la variable independiente $x$. Por lo tanto, las funciones son linealmente independientes.

Ahora verifiquemos que cada función $y_{1}(x)$ y $y_{2}(x)$ es solución de la ecuación diferencial dada.

Para la primer función tenemos

$$y_{1}(x) = c_{1} e^{-x} \hspace{0.8cm} \Rightarrow \hspace{0.8cm} \dfrac{dy_{1}}{dx} = -c_{1} e^{-x} \hspace{0.8cm} \Rightarrow \hspace{0.8cm} \dfrac{d^{2}y_{1}}{dx^{2}} = c_{1} e^{-x}$$

Sustituimos en la ecuación diferencial.

\begin{align*}
\dfrac{d^{2}y}{dx^{2}} + 2 \dfrac{dy}{dx} + y &= c_{1} e^{-x} + 2(-c_{1} e^{-x}) + c_{1} e^{-x} \\
&= 2c_{1} e^{-x} -2c_{1} e^{-x} \\
&= 0
\end{align*}

Esto es,

$$\dfrac{d^{2}y}{dx^{2}} + 2 \dfrac{dy}{dx} + y = 0$$

Por lo tanto, la función $y_{1}(x) = c_{1} e^{-x}$ satisface la ecuación diferencial.

Para la segunda función tenemos

$$y_{2}(x) = c_{2}x e^{-x} \hspace{0.5cm} \Rightarrow \hspace{0.5cm} \dfrac{dy_{2}}{dx} = c_{2} e^{-x} -c_{2}x e^{-x} \hspace{0.5cm} \Rightarrow \hspace{0.5cm} \dfrac{d^{2}y_{2}}{dx^{2}} = -2c_{2} e^{-x} + c_{2}x e^{-x}$$

Sustituimos en la ecuación diferencial.

\begin{align*}
\dfrac{d^{2}y}{dx^{2}} + 2 \dfrac{dy}{dx} + y &= (-2c_{2} e^{-x} + c_{2}x e^{-x}) + 2(c_{2} e^{-x} -c_{2}x e^{-x}) + c_{2}x e^{-x} \\
&= -2c_{2} e^{-x} + c_{2}x e^{-x} + 2c_{2} e^{-x} -2c_{2}x e^{-x} + c_{2}x e^{-x} \\
&= (2c_{2} e^{-x} -2c_{2} e^{-x}) + (2c_{2}x e^{-x} -2c_{2}x e^{-x}) \\
&= 0
\end{align*}

Nuevamente

$$\dfrac{d^{2}y}{dx^{2}} + 2 \dfrac{dy}{dx} + y = 0$$

Por lo tanto, la función $y_{2}(x) = c_{2}x e^{-x}$ es también solución de la ecuación diferencial.

Ahora que sabemos que ambas funciones son solución de la ecuación diferencial, podemos aplicar el principio de superposición y concluir que la combinación lineal

$$y(x) = c_{1} e^{-x} + c_{2}x e^{-x}$$

es también solución de la ecuación diferencial. De tarea moral verifica que en efecto es solución.

$\square$

Para finalizar esta entrada definiremos un concepto sumamente importante y el cual estudiaremos con mayor detalle en la siguiente entrada.

En el ejemplo anterior mostramos que las funciones

$$y_{1}(x) = c_{1} e^{-x} \hspace{1cm} y \hspace{1cm} y_{2}(x) = c_{2}x e^{-x}$$

son linealmente independientes y ambas por separado son solución de la ecuación diferencial homogénea

$$\dfrac{d^{2}y}{dx^{2}} + 2 \dfrac{dy}{dx} + y = 0$$

En general, al conjunto de $n$ soluciones linealmente independientes de una ecuación diferencial lineal homogénea de $n$-ésimo orden se le da el nombre de conjunto fundamental de soluciones.

Así, el conjunto $\{ y_{1}(x) = c_{1} e^{-x}, y_{2}(x) = c_{2}x e^{-x} \}$ es un conjunto fundamental de soluciones de la ecuación diferencial homogénea

$$\dfrac{d^{2}y}{dx^{2}} + 2 \dfrac{dy}{dx} + y = 0$$

en el intervalo $\delta = (-\infty, \infty)$.

En la siguiente entrada retomaremos este concepto.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  1. Problemas con valores iniciales.
  • La solución general de la ecuación diferencial $$\dfrac{d^{2}y}{dx^{2}} -y = 0$$ es $$y(x) = c_{1} e^{x} + c_{2} e^{-x}$$ definida en $\delta = (-\infty, \infty)$. Determinar la solución particular que es solución al PVI dadas las condiciones iniciales $$y(0) = 0, \hspace{1cm} y^{\prime}(0) = 1$$
  • Dado que $$x(t) = c_{1} \cos(\omega t) + c_{2} \sin(\omega t)$$ es la solución general de $$x^{\prime \prime} + \omega^{2} x = 0$$ en el intervalo $(-\infty, \infty)$, demostrar que la solución que satisface las condiciones iniciales $x(0) = x_{0}$ y $x^{\prime}(0) = x_{1}$ esta dada por $$x(t) = x_{0} \cos(\omega t) + \dfrac{x_{1}}{\omega} \sin(\omega t)$$
  1. Problema con condiciones en la frontera.
  • La función $$y(x) = c_{1} e^{x} \cos(x) + c_{2} e^{x} \sin(x)$$ es una solución de la ecuación diferencial $$\dfrac{d^{2}y}{dx^{2}} -2 \dfrac{dy}{dx} + 2y = 0$$ en el intervalo $(-\infty, \infty)$. Determinar si se puede encontrar una solución que satisfaga las siguientes condiciones en la frontera.

$$a) \hspace{0.1cm} y(0) = 1, \hspace{0.4cm} y^{\prime}(\pi) = 0; \hspace{1.5cm} b) \hspace{0.1cm} y(0) = 1, \hspace{0.4cm} y(\pi) = -1$$

$$c) \hspace{0.1cm} y(0) = 1, \hspace{0.4cm} y \left( \dfrac{\pi}{2} \right) = 1; \hspace{1.2cm} d) \hspace{0.1cm} y(0) = 0, \hspace{0.4cm} y(\pi) = 0$$

  1. Determinar si los siguientes conjuntos de funciones son linealmente independientes en el intervalo $(-\infty, \infty )$.
  • $f_{1}(x) = x, \hspace{0.5cm} f_{2}(x) = x^{2}, \hspace{0.5cm} f_{3}(x) = 4x -3x^{2}$
  • $f_{1}(x) = 1+ x, \hspace{0.5cm} f_{2}(x) = x, \hspace{0.5cm} f_{3}(x) = x^{2}$
  • $f_{1}(x) = e^{x}, \hspace{0.5cm} f_{2}(x) = e^{-x}, \hspace{0.5cm} f_{3}(x) = \sinh (x)$
  1. Comprobar que las funciones dadas forman un conjunto fundamental de soluciones de la ecuación diferencial en el intervalo que se indica y formar la solución general.
  • $\dfrac{d^{2}y}{dx^{2}} -\dfrac{dy}{dx} -12y = 0; \hspace{1cm} y_{1} = e^{-3x}, \hspace{0.4cm} y_{2} = e^{4x}; \hspace{1cm} (-\infty, \infty)$
  • $4 \dfrac{d^{2}y}{dx^{2}} -4 \dfrac{dy}{dx} + y = 0; \hspace{1cm} y_{1} = e^{x/2}, \hspace{0.4cm} y_{2} = x e^{x/2}; \hspace{1cm} (-\infty, \infty)$
  • $x^{2} \dfrac{d^{2}y}{dx^{2}} -6x \dfrac{dy}{dx} + 12y = 0; \hspace{1cm} y_{1} = x^{3}, \hspace{0.4cm} y_{2} = x^{4}; \hspace{1cm} (0, \infty)$

Más adelante…

Hemos comenzado nuestro estudio sobre las ecuaciones diferenciales de orden superior, vimos que, además del problema con valores iniciales, ahora nos enfrentamos a un nuevo problema conocido como problema con valores en la frontera. Definimos algunos operadores de interés y demostramos el principio de superposición. Finalmente, vimos que si las soluciones son funciones linealmente independientes, entonces forman un conjunto fundamental de soluciones de la ecuación diferencial.

En la siguiente entrada estudiaremos algunas propiedades de las soluciones retomando el concepto de conjunto fundamental de soluciones. Veremos cuál es la forma de la solución general, la importancia de que las soluciones sean linealmente independientes y definiremos el concepto de Wronskiano, el cual será una herramienta muy importante para determinar la dependencia o independencia lineal de las soluciones.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»