Archivo de la etiqueta: linealidad

Cálculo Diferencial e Integral III: Formas cuadráticas

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior hablamos de formas bilineales. A partir de esta noción podemos introducir otra más: la de formas cuadráticas. Las formas cuadráticas son cruciales, pues es a partir de ellas que podemos hacer geometría en espacios vectoriales.

Formas bilineales simétricas

Hay unas formas bilineales que son especiales pues al intercambiar los vectores argumento no cambian de valor.

Definición. Una forma bilineal $b\in B(\mathbb{R}^n)$ es simétrica si $b(u,v)=b(v,u)$ para todos los $u,v\in \mathbb{R}^n$.

Cuando una forma bilineal es simétrica, la matriz que la representa también. En efecto, si $A$ es una representación matricial de la forma bilineal $b$ en la base $\beta$, podemos escribir: \[b(u,v)=[u]^{t}A[v]=\left( [u]^{t}A[v] \right) ^{t}=[v]^{t}A^{t}[u].\]

En la igualdad de enmedio usamos que $[u]^{t}A[v] \in \mathbb{R}$ para obtener que este producto matricial es igual a su transpuesta (¿por que?). Así pues, si $b$ es simétrica: \[ [v]^{t}A^{t}[u]=b\left( u,v \right)=b\left( v,u\right)=[v]^{t}A[u],\]

para todo $u,v\in \mathbb{R}^n$. En particular, al evaluar $b(e_i,e_j)$ para $e_i,e_j$ una pareja de elementos de la base $\beta$ obtenemos que $A$ y $A^{t}$ coinciden en cualquier entrada $(i,j)$. Por lo tanto $A=A^{t}$, entonces $A$ es simétrica.

Formas cuadráticas y su forma polar

Una forma cuadrática se obtiene de evaluar una forma bilineal usando el mismo vector para ambas entradas. Formalmente, tenemos lo siguiente.

Definición. Una función $q:\mathbb{R}^n \to \mathbb{R}$ es una forma cuadrática si existe una forma bilineal $b:\mathbb{R}^n\times \mathbb{R}^n\to \mathbb{R}$ tal que $q(v)=b(v,v)$ para todo $v$ en $\mathbb{R}^n$. A $q$ le llamamos la forma cuadrática asociada a $b$.

Es posible que una misma forma cuadrática pueda ser creada por dos formas bilineales distintas.

Ejemplo. Tomemos la forma bilineal $b_1((x_1,x_2),(y_1,y_2))=0$ para todos $u,v\in \mathbb{R}^2$ y la forma bilineal $b_1((x_1,x_2),(y_1,y_2))=x_1y_2-x_2y_1$. Si $q_1$ es la forma cuadrática asociada a $b_1$ y $q_2$ es la forma cuadrática asociada a $b_2$, se tiene que $q_1((x_1,x_2))=0$ para todo $(x_1,x_2)$ en $\mathbb{R}^2$, y también se tiene que $q_2((x_1,x_2))=0$ para todo $(x_1,x_2)$ en $\mathbb{R}^2$ (verifícalo). Así, aunque $b_1\neq b_2$, se tiene que $q_1=q_2$.

$\triangle$

Si agregamos la hipótesis adicional que la forma bilineal que se usa sea simétrica, entonces sí tenemos unicidad. De hecho, podemos saber exactamente de qué forma bilineal simétrica $b$ viene una forma cuadrática dada $q$. Este es el contenido del siguiente teorema, que se llama el teorema de la identidad de polarización.

Teorema. Si $q$ es una forma cuadrática en $\mathbb{R}^n$, entonces existe una única forma bilineal $b$ simétrica tal que $q(v)=b(v,v)$ para todo $v\in \mathbb{R}^n$. Más aún, \[ \begin{equation} b(u,v)=\frac{1}{2}\left(q(u+v)-q(u)-q(v)\right). \end{equation}.\]

Demostración. Haremos sólo parte de la demostración: la de la unicidad. El resto puede consultarse, por ejemplo, en la entrada Formas cuadráticas, propiedades, polarización y teorema de Gauss. Supongamos que $q$ es forma cuadrática y que viene de la forma bilineal simétrica $B$. Desarrolando el lado derecho de la ecuación tenemos

\begin{align*}
\frac{1}{2}\left( q(u+v)-q(u)-q(v)\right) &= \frac{1}{2}\left( B(u+v,u+v)-B(u,u)-B(v,v)\right)\\&=\frac{1}{2}\left(B(u+v,u)+B(u+v,v)-B(u,u)-B(v,v)\right)\\
&=\frac{1}{2}\left(B(u,u)+B(v,u)+B(u,v)+B(v,v)-B(u,u)-B(v,v)\right)\\
&=\frac{1}{2}\left(2B(u,v)\right)=B(u,v).
\end{align*}

Esto muestra que la expresión del teorema es la única que podría servir para obtener la forma bilineal simétrica de la que viene $q$. El resto de la demostración consiste en ver que, en efecto, la expresión propuesta es bilineal y es simétrica.

$\square$

Por el teorema de la identidad de polarización, podemos siempre suponer que una forma cuadrática viene de una forma bilineal simétrica $b$, a la que le llamaremos su forma polar.

Forma matricial de una forma cuadrática

Definición. Sea $q$ una forma cuadrática de $\mathbb{R}^n$ y $\beta$ una base de $\mathbb{R}^n$. La forma matricial de $q$ en la base $\beta$ será la forma matricial de su forma polar en la base $\beta$.

Por lo visto anteriormente, si $b$ es simétrica, se representa por una matriz simétrica $A=a_{ij}$. Así, las formas matriciales de formas cuadráticas siempre son simétricas. Para evaluar $q$, podemos hacer lo siguiente:

\begin{align*}
q(v)&=b(v,v)\\
&=[v]^{t}A[v]\\
&=\begin{pmatrix}x_{1} & \dots & x_{n}\end{pmatrix} \begin{pmatrix} a_{11} & \dots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{n1} & \dots & a_{nn} \end{pmatrix} \begin{pmatrix} x_{1} \\ \vdots \\ x_{n} \end{pmatrix}
\end{align*}

Desarrollando el producto obtenemos $$q(v)=a_{11}x_{1}^{2}+a_{22}x_{2}^{2}+\dots +a_{nn}x_{n}^{2}+2\sum_{i<j}a_{ij}x_{i}x_{j}.$$

Esta última ecuación en las variables $x_{i}$ se denomina el polinomio cuadrático correspondiente a la matriz simétrica $A$.

Nota que si la matriz $A$ es diagonal, entonces $q$ tendrá el siguiente polinomio cuadratico: \[ \begin{equation} q(v)=[v]^{t}A[v]=a_{11}x_{1}^{2}+a_{22}x_{2}^{2}+\dots +a_{nn}x_{n}^{2}. \end{equation} \]

Este es un polinomio muy sencillo: no tendrá términos con «productos cruzados».

Teorema de Gauss para formas cuadráticas

Enseguida presentamos un teorema muy importante de formas cuadráticas. Su importancia radica en que siempre deseamos simplificar los objetos que tenemos.

Teorema. Sea $b$ una forma bilineal simétrica en $V$, un espacio vectorial de dimensión finita $n$ sobre $\mathbb{R}$. Entonces $V$ tiene una base $\{v_{1},\dots ,v_{n}\}$ en la que $b$ se representa por una matriz diagonal, es decir, $b(v_{i},v_{j})=0$ para $i\neq j$.

Demostración. Procederemos por inducción en $n=\dim V$. Si $\dim V=1$, se cumple claramente (¿Por que?). Por tanto, podemos suponer $\dim V>1$. Si $b=0$, también la afirmación es cierta inmediatamente, pues $b$ se representa por una matriz de puros ceros. Si $q(v)=b(v,v)=0$ para todo $v\in V$, al escribir $b$ en su forma polar se obtiene que $b=0$ . Por esta razón se puede suponer que existe un vector $v_{1}\in V$ tal que $b(v_{1},v_{1})\neq0$. Sean $U$ el subespacio generado por $v_{1}$ y $W$ el conjunto de aquellos vectores $v\in V$ para los que $b(v_{1},v)=0$. Afirmamos que $V=U\oplus W$.

  1. $U\cap W=\{0 \}$. Supongamos $u\in U\cap W$. Como $u\in U$, $u=kv_{1}$ para algún escalar $k\in \mathbb{R}$. Como $u\in W$, $0=b(v_{1},u)=b(v_{1},kv_{1})=kb(v_{1},v_{1})$. Pero $b(v_{1},v_{1})\neq 0$; luego $k=0$ y por consiguiente $u=0$. Así $U\cap W=\{ 0\}$.
  2. Veamos que $V=U+W$. Sea $v\in V$. Consideremos $w$ definido como: \[ w=v-\frac{b(v_{1},v)}{b(v_{1},v_{1})}v_{1}.\] Entonces \[ b(v_{1},w)=b(v_{1},v)-\frac{b(v_{1},v)}{b(v_{1},v_{1})}b(v_{1},v_{1})=0. \] Así $w\in W$. Por tanto $v$ es la suma de un elemento de $U$ y uno de $W$. Entonces se cumple $V=U+W$.
    Ahora $b$ restringida a $W$ es una forma bilineal simétrica en $W$. Pero $\dim W=n-1$, luego existe una base $\{ v_{2},\dots ,v_{n} \}$ de $W$ tal que $b(v_{i},v_{j})=0$ para $i\neq j$ y $2\leq i,j\leq n$. Por la propia definición de $W$, $b(v_{1},v_{j})=0$ para $j=2,\dots n$. Por tanto, la base $\{v_{1},\dots ,v_{n} \}$ de $V$ tiene la propiedad requerida de que $b(v_{i},v_{j})=0$ para $i\neq j$.

$\square$

Tenemos pues que para toda forma bilineal simétrica tenemos una representación matricial diagonal. Dicho en otras palabras, para cualquier matriz simétrica $A$ en $M_n(\mathbb{R})$, se tiene que es congruente a alguna matriz diagonal. También de aquí se tiene que para toda forma cuadrática tenemos una representación matricial diagonal.

Formas cuadráticas positivas y positivas definidas

Otra noción importante para formas cuadráticas es la siguiente.

Definición. Diremos que una forma cuadrática $q:\mathbb{R}^n\to \mathbb{R}$ es positiva si se cumple que $q(x)\geq 0$ para todo $x\in \mathbb{R}^n$. Diremos que es positiva definida si se cumple que $q(x)>0$ para todo $x\in \mathbb{R}^n \setminus \{0\}$.

Si $b$ es la forma bilineal simétrica que define a $q$ y $A$ es una matriz que represente a $b$ en alguna base $\beta$, se puede ver que $q$ es positiva si y sólo si $X^{t}AX\geq 0$ para todo $X\in \mathbb{R}^n$. Así mismo, es positiva definida si y sólo si $X^{t}AX>0$ para todo $X\neq 0$ en $\mathbb{R}^n$. Esto motiva la siguiente definición para matrices.

Definición. Sea $A\in \mathbb{R}^n$ una matriz simétrica. Diremos que es positiva si se cumple que $X^{t}AX\geq 0$ para todo $X\in \mathbb{R}^n$. Diremos que es, es positiva definida si y sólo si $X^{t}AX>0$ para todo $X\neq 0$ en $\mathbb{R}^n$.

Una propiedad importante que queda como tarea moral es que la propiedad de ser positiva (o positiva definida) es invariante bajo congruencia de matrices.

Hay otras maneras de saber si una matriz es positiva, o positiva definida. De hecho, en la entrada de Matrices positivas y congrunecia de matrices de nuestro curso de Álgebra Lineal II puedes encontrar la siguiente caracterización:

Teorema. Sea $A$ una matriz simétrica en $M_n(\mathbb{R})$. Las siguientes afirmaciones son equivalentes:

  1. $A$ es positiva.
  2. $A$ es congruente a una matriz diagonal con puras entradas mayores o iguales a cero.
  3. $A$ puede ser escrita de la forma $B^{t}B$ para alguna matriz $B\in M_n(\mathbb{R})$.

Hay otro resultado más que relaciona a las matrices positivas definidas con sus eigenvalores.

Teorema. Si $A$ es una matriz simétrica en $M_n(\mathbb{R})$ y es positiva definida, entonces todos sus eigenvalores son positivos.

Matriz Hessiana

Veamos cómo se aplican algunas de las ideas vistas en cálculo. Retomemos la discusión de la entrada Polinomio de Taylor para campos escalares. Hacia el final de la entrada enunciadmos el teorema de Taylor en el caso especial de grado $2$. Al tomar un campo escalar $f$ y un punto $a$, el polinomio de Taylor de grado $2$ estaba dado como sigue:

$$T_{2,a}(a+v)=f(a)+\frac{(v\cdot \triangledown )f(a)}{1!}+\frac{(v\cdot \triangledown)^{2}f(a)}{2!}.$$

Donde

$$\frac{(v\cdot \triangledown)^{2}f(a)}{2!}=\sum_{i=1}^{n}\sum_{j=1}^n v_{i}v_{j}\frac{\partial ^{2}f}{\partial x_{j}\partial x_{i}}(a).$$

Observa que este sumando se puede pensar como una forma cuadrática:

\[ q(v)=\begin{pmatrix}v_{1} & \dots & v_n\end{pmatrix}\begin{pmatrix} \frac{\partial ^{2}f}{\partial x_{1}^{2}}(a) & \dots & \frac{\partial ^{2}f}{\partial x_{1}\partial x_{_{n}}}(a)\\ \vdots & \ddots & \vdots \\ \frac{\partial ^{2}f}{\partial x_{_{n}}\partial x_{1}}(a) & \dots & \frac{\partial ^{2}f}{\partial x_{_{n}}^{2}}(a) \end{pmatrix}\begin{pmatrix} v_{1} \\ \vdots \\ v_n\end{pmatrix}\]

La matriz de esta forma cuadrática tiene una importancia especial en el cálculo de varias variables, y por ello tiene su propia definición.

Definición. Sea $f$ un campo escalar definido sobre algún subconjunto abierto de $\mathbb{R}^{n}$. Si $f$ tiene derivadas parciales de segundo orden en el punto $a$, a la siguiente matriz la llamamos la matriz hessiana de $f$ en $a$:

\[ H_f(a)=\begin{pmatrix} \frac{\partial ^{2}f}{\partial x_{1}^{2}}(a) & \dots & \frac{\partial ^{2}f}{\partial x_{1}\partial x_{_{n}}}(a) \\ \vdots & \ddots & \vdots \\ \frac{\partial ^{2}f}{\partial x_{_{n}}\partial x_{1}}(a) & \dots & \frac{\partial ^{2}f}{\partial x_{_{n}}^{2}}(a)\end{pmatrix}.\]

Cuando hablemos de optimización, esta matriz tomará un significado especial. Por ahora, enfoquémonos en entender cómo obtenerla.

Ejemplo. Encontraremos la matriz Hessiana del campo escalar $f(x,y)=\sin(xy)$ en el punto $\left( 1,\frac{\pi}{4} \right)$. Para ello, calculamos las siguientes derivadas parciales de orden $1$ y $2$:

\[ \frac{\partial f}{\partial x}=y\cos(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial x^{2}}=-y^{2}\sin(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial y\partial x}=\cos(xy)-xy\sin(xy) \]

\[ \frac{\partial f}{\partial y}=x\cos(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial y^{2}}=-x^{2}\sin(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial x\partial y}=\cos(xy)-xy\sin(xy).\]

Por lo tanto

\[ H(x,y)=\begin{pmatrix} -y^{2}\sin(xy) &\cos(xy)-xy\sin(xy) \\ \cos(xy)-xy\sin(xy) & -x^{2}\sin(xy) \end{pmatrix}.\]

Evaluando en el punto $\left(1,\frac{\pi}{4} \right),$

\[ H\left(1,\frac{\pi}{4} \right)=\begin{pmatrix} -\frac{\pi ^{2}}{16}\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2}\left( 1-\frac{\pi}{4}\right) \\ \frac{\sqrt{2}}{2}\left( 1-\frac{\pi}{4}\right) & -\frac{\sqrt{2}}{2} \end{pmatrix}.\]

$\triangle$

Mas adelante…

Con esto terminamos nuestro repaso de álgebra lineal, y con ello tenemos las herramientas necesarias para poder retomar nuestro estudio de las funciones en varias variables. En la siguiente entrada comenzaremos con el concepto de diferenciabilidad. A lo largo de las siguientes entradas, iremos viendo por qué las herramientas de álgebra lineal que desarrollamos son importantes.

Así mismo, cuando lleves un curso de Cálculo Diferencial e Integral IV también retomaras una parte importante de la teoría que hemos repasado.

Tarea moral

  1. Responder en la primer definición porque $[u]^{t}A[v]\in \mathbb{R}$.
  2. Demostrar que el espacio $W$ del último teorema es un subespacio vectorial de $V$.
  3. Explicar en la demostración del último teorema porque este se cumple cuando $b=0$ o $\dim V=1$.
  4. Explicar porque $\dim W=n-1$.
  5. Verifica que si una matriz $A$ es positiva definida, entonces cualquier matriz $B$ congruente a $A$ también es positiva definida.
  6. Demuestra el último teorema de esta entrada, es decir, que las matrices simétricas positivas definidas tienen eigenvalores positivos.

Entradas relacionadas

Cálculo Diferencial e Integral III: Polinomio característico

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior estudiamos las representaciones matriciales de una transformación lineal. Vimos cómo dadas ciertas bases del espacio dominio y codominio, existe un isomorfismo entre matrices y transformaciones lineales. Así mismo, planteamos la pregunta de cómo encontrar bases para que dicha forma matricial sea sencilla. Vimos que unos conceptos cruciales para entender esta pregunta son los de eigenvalor, eigenvector y eigenespacio. Lo que haremos ahora es introducir una nueva herramienta que nos permitirá encontrar los eigenvalores de una transformación: el polinomio característico.

A partir del polinomio característico daremos un método para encontrar también a los eigenvectores y, en algunos casos especiales, encontrar una representación de una transformación lineal como matriz diagonal. Todo lo que hacemos es una versión resumida de lo que se puede encontrar en un curso más completo de álgebra lineal. Dentro del blog, te recomendamos consultar las siguientes entradas:

Polinomio característico

Pensemos en el problema de hallar los eigenvalores de una transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$. Si $\lambda \in \mathbb{R}$ es uno de estos eigenvalores, queremos poder encontrar vectores $v\neq 0$ tales que $T(v)=\lambda v$. Esto sucede si y sólo si $\lambda v-T(v)=0$, lo cual sucede si y sólo si $(\lambda \text{Id}-T)(v)=0$, en donde $\text{Id}:\mathbb{R}^n\to \mathbb{R}^n$ es la transformación identidad de $\mathbb{R}^n$ en $\mathbb{R}^n$. Tenemos de esta manera que $v$ es un eigenvector si y sólo si $v\in \ker(\lambda\text{Id}-T)$.

Si existe $v\neq 0$ tal que $v\in \ker(\lambda \text{Id}-T)$; entonces $\ker(\lambda \text{Id}-T)\neq \{ 0\}$ por lo cual la transformación $\lambda \text{Id}-T$ no es invertible, pues no es inyectiva. Así, en ninguna base $\text{Mat}_\beta(\lambda \text{Id}-T)$ es invertible, y por tanto su determinante es $0$. Estos pasos son reversibles. Concluimos entonces que $\lambda\in \mathbb{R}$ es un eigenvalor de $T$ si y sólo si en alguna base $\beta$ se cumple que $\det(\text{Mat}_\beta(\lambda \text{Id} – T))=0.$ Esto motiva la siguiente definición.

Definición. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal. Llamamos a $\det(\text{Mat}_\beta(\lambda \text{Id} – T))$ el polinomio característico de $T$ en la base $\beta$.

Por la discusión anterior, los escalares que cumplen $\det(\text{Mat}_\beta(\lambda \text{Id} – T))=0$ son los eigenvalores $T$. Para obtener los correspondientes eigenvectores, basta con resolver $\text{Mat}_\beta(T)X=\lambda X$, lo cual es un sistema de ecuaciones en el vector de variables $X$. Las soluciones $X$ nos darán las representaciones matriciales de vectores propios $v\in \mathbb{R}^n$ en la base $\beta$.

Por el momento parece ser que cargamos mucha notación, pues debemos considerar la base en la que estamos trabajando. Un poco más adelante veremos que en realidad la base no importa mucho para determinar el polinomio característico. Pero por ahora, veamos un ejemplo concreto de las ideas platicadas hasta ahra.

Ejemplo: Consideremos $T:\mathbb{R}^{3}\rightarrow \mathbb{R}^{3}$ dada por $T(x,y,z)=(2x+z,y+x,-z)$. Calculemos su representación matricial con respecto a la base canónica $\beta$. Para ello, realizamos las siguientes evaluaciones:
\begin{align*}
T(1,0,0)&=(2,1,0)\\
T(0,1,0)&=(0,1,0)\\
T(0,0,1)&=(1,0,-1),
\end{align*}

de donde: $$\text{Mat}_\beta=\begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix}.$$

Calculando el polinomio característico obtenemos: \[ det\begin{pmatrix} \lambda-2 & 0 & -1 \\ -1 & \lambda-1 & 0 \\ 0 & 0 & \lambda+1 \end{pmatrix}= (\lambda-2)(\lambda-1)(\lambda+1). \]

Las raíces de $(\lambda-2)(\lambda-1)(\lambda+1)$ son $\lambda_{1}=2$, $\lambda_{2}=1$, y $\lambda_{3}=-1$. Pensemos ahora en quiénes son los eigenvectores asociados a cada eigenvalor. Tomemos como ejemplo el eigenvalor $\lambda=2$. Para que $(x,y,z)$ represente a un eigenvector en la base canónica, debe pasar que:

\[ \begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = 2\begin{pmatrix} x \\ y \\ z \end{pmatrix},\]

lo cual sucede si y sólo si:

\[\begin{pmatrix} 0 & 0 & 1 \\ 1 & -1& 0 \\ 0 & 0 & -3 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}.\]

De aquí, podemos llegar a la siguiente forma escalonada reducida del sistema de ecuaciones:

\[\begin{pmatrix} 1 & -1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}.\]

En esta forma es sencillo leer las soluciones. Tenemos que $z$ es variable pivote con $z=0$, que $y$ es variable libre, y que $x$ es variable pivote dada por $x=-y$. Concluimos entonces que todos los posibles eigenvectores para el eigenvalor $2$ son de la forma $(-y,y,0)$, es decir $E_2=\{(-y,y,0): y \in \mathbb{R}\}$.

Queda como tarea moral que encuentres los eigenvectores correspondientes a los eigenvalores $1$ y $-1$.

$\triangle$

Matrices similares

En la sección anterior definimos el polinomio de una transformación lineal en términos de la base que elegimos para representarla. En realidad, la base elegida no es muy importante. Demostraremos un poco más abajo que dos representaciones matriciales cualesquiera de una misma transformación lineal tienen el mismo polinomio característico. Para ello, comencemos con la siguiente discusión.

Comencemos con lo siguiente. Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal y sean $\beta_1=\{ e_{1}, \dots , e_{n}\}$, $\beta_2=\{ u_{1}, \dots , u_{n}\}$ dos bases (ordenadas) de $\mathbb{R}^n$. Supongamos que:

\begin{align*}
A&=\text{Mat}_{\beta_1}(T)=[a_{ij}]\\
B&=\text{Mat}_{\beta_2}(T)=[b_{ij}].
\end{align*}

Por cómo se construyen las matrices $A$ y $B$, tenemos que:

\begin{align*}
T(e_j)&=\sum_{i=1}^n a_{ij} e_i\quad\text{para $j=1,\ldots,n$}\\
T(u_k)&=\sum_{j=1}^n b_{jk} u_j\quad\text{para $k=1,\ldots,n$}.
\end{align*}

Como $\beta$ es base, podemos poner a cada un de los $u_k$ de $\beta’$ en términos de la base $\beta$ mediante combinaciones lineales, digamos:

\begin{equation}
u_{k}=\sum_{j=1}^{n}c_{jk}e_{j}
\label{eq:valor-u}
\end{equation}

en donde los $c_{jk}$ son escalares para $j=1,\ldots, n$ y $k=1,\ldots,n$. La matriz $C$ de $n\times n$, con entradas $c_{jk}$ representa a una transformación lineal invertible, ya que es una transformación que lleva uno a uno los vectores de una base a otra. Afirmamos que $CB=AC$. Para ello, tomaremos una $k$ en $[n]$ y expresaremos $T(u_k)$ de dos formas distintas.

Por un lado, usando \eqref{eq:valor-u} y cómo es cada $T(e_k)$ en la base $\beta$ tenemos que:

\begin{align*}
T(u_k)&=\sum_{j=1}^n c_{jk} T(e_j)\\
&=\sum_{j=1}^n c_{jk} \sum_{i=1}^n a_{ij} e_i\\
&=\sum_{j=1}^n \sum_{i=1}^n (c_{jk} a_{ij} e_i)\\
&=\sum_{i=1}^n \sum_{j=1}^n (c_{jk} a_{ij} e_i)\\
&=\sum_{i=1}^n \left(\sum_{j=1}^n a_{ij} c_{jk}\right) e_i.
\end{align*}

Por otro lado, usando $\eqref{eq:valor-u}$ y cómo es cada $T(u_k)$ en la base $\beta’$:

\begin{align*}
T(u_k)&=\sum_{j=1}^nb_{jk} u_j\\
&=\sum_{j=1}^n b_{jk} \sum_{i=1}^{n}c_{ji}e_{j} \\
&=\sum_{j=1}^n \sum_{i=1}^n (b_{jk} c_{ij} e_i)\\
&=\sum_{i=1}^n \sum_{j=1}^n (b_{jk} c_{ij} e_i)\\
&=\sum_{i=1}^n \left(\sum_{j=1}^n c_{ij} b_{jk} \right) e_i.
\end{align*}

Comparemos ambas expresiones para $T(u_k)$. La primera es una combinación lineal de los $e_i$ y la segunda también. Como $T(u_k)$ tiene una única expresión como combinación lineal de los $e_i$, entonces los coeficientes de la combinación lineal deben coincidir. Concluimos que para cada $i$ se cumple:

$$\sum_{j=1}^n a_{ij} c_{jk}=\sum_{j=1}^n c_{ij} b_{jk}.$$

Pero esto precisamente nos dice que la entrada $(i,k)$ de la matriz $AC$ es igual a la entrada $(i,k)$ de la matriz $CB$. Con esto concluimos que $AC=CB$, como queríamos.

En resumen, obtuvimos que para dos matrices $A$ y $B$ que representan a la misma transformación lineal, existe una matriz invertible $C$ tal que: $B=C^{-1}AC$. Además $C$ es la matriz con entradas dadas por \eqref{eq:valor-u}.

Introduciremos una definición que nos permitirá condensar en un enunciado corto el resultado que hemos obtenido.

Definición. Dos matrices $A$ y $B$ se llamarán similares (o semejantes), cuando existe otra matriz $C$ invertible tal que $B=C^{-1}AC$.

Sintetizamos nuestro resultado de la siguiente manera.

Proposición. Si dos matrices representan a la misma transformación lineal, entonces estas matrices son similares.

El converso de la proposición también se cumple, tal y como lo afirma el siguiente resultado.

Proposición. Sean $A$ y $B$ matrices similares. Entonces $A$ y $B$ representan a una misma transformación lineal $T$, quizás bajo distintas bases.

Demostración: Supongamos que las matrices $A$ y $B$ son similares con $B=C^{-1}AC$, donde las matrices $A$, $B$, $C$ están dadas por entradas $A=[a_{ij}]$ $B=[b_{ij}]$, $C=[c_{jk}]$. Tomemos una base ordenada $\beta=\{e_{1}, \dots ,e_{n}\}$ de $\mathbb{R}^n$. Consideremos la transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^n)$ dada por $$T(e_j)=\sum_{i=1}^n a_{ij} e_i.$$

De esta manera $T$ tiene forma matricial $A$ en la base $\beta$.

Construyamos ahora una nueva base ordenada de $\mathbb{R}^n$ dada por vectores $u_k$ para $k=1,\ldots,n$ construidos como sigue:

$$u_{k}=\sum_{j=1}^{n}c_{jk}e_{j}.$$

Como $C$ es invertible, en efecto tenemos que $\beta’:=\{u_1,\ldots,u_n\}$ también es base de $\mathbb{R}^n$. Además, de acuerdo a las cuentas que hicimos anteriormente, tenemos que precisamente la forma matricial de $T$ en la base $\beta’$ será $B$.

Así, hemos exhibido una transformación $T$ que en una base tiene representación $A$ y en otra tiene representación $B$.

$\square$

Juntando ambos resultados en uno solo, llegamos a lo siguiente.

Teorema. Dos matrices $A$ y $B$ en $M_n(\mathbb{R})$ son similares si y sólo si representan a una misma transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$, quizás bajo distintas bases.

El polinomio característico no depende de la base

Si dos matrices son similares, entonces comparten varias propiedades relevantes para el algebra lineal. Veamos un ejemplo de esto.

Teorema. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal en un espacio sobre $\mathbb{R}$ de dimensión finita. Sean $\beta$ y $\beta’$ bases de $\mathbb{R}^n$. Entonces se obtiene lo mismo calculando el polinomio característico de $T$ en la base $\beta$, que en la base $\beta’$.

Demostración. Tomemos $A=\text{Mat}_{\beta}(T)$ y $B=\text{Mat}_{\beta’}(T)$. Como $A$ y $B$ representan a la misma transformación lineal $T$, entonces son similares y por lo tanto existe $C$ invertible con $B=C^{-1}AC$.

Para encontrar el polinomio característico de $T$ en la base $\beta$, necesitamos $\Mat_{\beta}(\lambda\text{Id}-T)$, que justo es $\lambda I -A$. Así mismo, en la base $\beta’$ tenemos $\lambda I – B$. Debemos mostrar que el determinante de estas dos matrices es el mismo. Para ello, procedemos como sigue:

\begin{align*}
\det(\lambda I -B) &= \det (\lambda C^{-1}C – C^{-1} A C)\\
&=\det(C^{-1}(\lambda I – A) C)\\
&=\det(C^{-1})\det(\lambda I – A) \det(C)\\
&=\det(C^{-1})\det(C)\det(\lambda I-A)\\
&=\det(I)\det(\lambda I-A)\\
&=\det(\lambda I-A).
\end{align*}

Aquí estamos usando que el determinante es multiplicativo. Cuando reordenamos expresiones con $\det$, lo hicimos pues los determinantes son reales, cuyo producto es conmutativo.

$\square$

Este teorema nos permite hablar de el polinomio característico de una transformación lineal.

Concluimos esta entrada con un resultado que relaciona al polinomio característico de una transformación lineal, con la posibilidad de que exista una base cuya representación matricial sea diagonal.

Teorema. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal. Supongamos que el polinomio característico de $T$ tiene raíces distintas $\lambda_{1}, \dots ,\lambda_{n}$. Entonces se cumple lo siguiente:

  1. Si tomamos un eigenvector $u_i$ para cada eigenvalor $\lambda_i$, entonces $u_{1},\dots ,u_{n}$ forman una base $\beta$ para $\mathbb{R}^n$.
  2. Con dicha base $\beta$, se cumple que $\text{Mat}_\beta(T)$ es una matriz diagonal con entradas $\lambda_{1},\dots ,\lambda_{n}$ en su diagonal.
  3. Si $\beta’$ es otra base de $\mathbb{R}^n$ y $A=\text{Mat}_{\beta’}(T)$, entonces $\text{Mat}_\beta(T) = C^{-1}AC$ para una matriz invertible $C$ con entradas dadas por \eqref{eq:valor-u}.

La demostración de este resultado queda como tarea moral.

Más adelante…

En la entrada planteamos entonces un método para encontrar los eigenvectores de una transformación $T$: 1) la transformamos en una matriz $A$, 2) encontramos el polinomio característico mediante $\det(\lambda I – A)$, 3) encontramos las raíces de este polinomio, 4) cada raíz es un eigenvalor y las soluciones al sistema lineal de ecuaciones $(\lambda I – A) X=0$ dan los vectores coordenada de los eigenvectores.

Como platicamos en la entrada, una condición suficiente para que una transformación de $\mathbb{R}^n$ a sí mismo sea diagonalizable es que tenga $n$ eigenvalores distintos. Otro resultado muy bonito de álgebra lineal es que si la transformación tiene alguna forma matricial simétrica, entonces también es diagonalizable. A esto se le conoce como el teorema espectral para matrices simétricas reales. En otros cursos de álgebra lineal se estudia la diagonalizabilidad con mucho detalle. Aquí en el blog puedes consultar el curso de Álgebra Lineal II.

Otra herramienta de álgebra lineal que usaremos en el estudio de la diferenciabilidad y continuidad de las funciones de $\mathbb{R}^{n}$ a $\mathbb{R}^{m}$ son las formas bilineales y las formas cuadráticas. En la siguiente entrada comenzaremos con estos temas.

Tarea moral

  1. Encuentra los eigenvectores faltantes del ejemplo de la sección de polinomio característico.
  2. Considera la transformación lineal $T(x,y,z)=(2x+z,y+x,-z)$ de $\mathbb{R}^3$ en $\mathbb{R}^3$. Nota que es la misma que la del ejemplo de la entrada. Encuentra su representación matricial con respecto a la base $\{(1,1,1),(1,2,3),(0,1,1)\}$ de $\mathbb{R}^3$. Verifica explícitamente que, en efecto, al calcular el polinomio característico con esta base se obtiene lo mismo que con la dada en el ejemplo.
  3. Demuestra que si $A$ y $B$ son dos representaciones matriciales de una misma transformación lineal $T$, entonces $\det(A)=\det(B)$.
  4. Sea $T:\mathbb{R}^{3}\to \mathbb{R}^{3}$ dada por $T(x,y,z)=(x+y+z,x,y)$. Encuentra los eigenvalores correspondientes a la transformación, y responde si es posible representarla con una matriz diagonal. En caso de que sí, encuentra explícitamente la base $\beta$ en la cual $\text{Mat}_{\beta}(T)$ es diagonal.
  5. Demuestra el último teorema de la entrada. Necesitarás usar resultados de la entrada anterior.

Entradas relacionadas

Cálculo Diferencial e Integral III: Representaciones matriciales, eigenvalores y eigenvectores

Por Alejandro Antonio Estrada Franco

Introducción

Como se ha mencionado anteriormente el objetivo de introducir ideas de álgebra lineal en cálculo diferencial es poder establecer una transformación lineal que sea la mejor aproximación lineal en un punto a una función dada. Esto nos ayudará a entender a la función dada en el punto términos de otra funcion «más simple». Pero así mismo, las transformaciones lineales pueden ellas mismas pensarse en términos de transformaciones más sencillas. En esta entrada revisaremos esta idea y la conectaremos con la noción de eigenvectores.

Por un lado, recordaremos cómo es que una transformación lineal puede ser representada mediante una matriz una vez que se ha elegido una base del espacio vectorial. Luego, hablaremos de cómo elegir, de entre todas las bases, aquella que nos de una representación matricial lo más sencilla posible.

Representación matricial de las transformaciones lineales

Comencemos esta entrada repasando la importante relación entre transformaciones lineales y matrices. Denotaremos como $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ al espacio vectorial de transformaciones lineales de $\mathbb{R}^n$ a $\mathbb{R}^m$.

Si tomamos cualquier transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, entonces los valores de $T$ en cualquier vector de $\mathbb{R}^n$ quedan totalmente determinados por los valores de $T$ en los elementos de alguna base $\beta$ para $\mathbb{R}^n$. Tomemos $\gamma=\{w_{1},\dots ,w_{m}\}$ una base ordenada para $\mathbb{R}^m$, y $\beta=\{e_{1},\dots ,e_{n}\}$ una base ordenada para $\mathbb{R}^n$. Para cada $e_{k}$ tenemos:

$$\begin{equation} T(e_{k})=\sum_{i=1}^{m}t_{ik}w_{i} \end{equation},$$

para algunos escalares $t_{1k},\dots ,t_{mk}$ que justo son las componentes de $T(e_{k})$ en la base $\gamma$. Con estos escalares, podemos considerar la matriz: \[ \text{Mat}_{\gamma,\beta}(T)= \begin{pmatrix} t_{11} & \dots & t_{1n} \\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \]

Esta es llamada la representación matricial de la transformación $T$ con respecto a las bases $\beta$ y $\gamma$. Esta matriz ayuda a calcular $T$ en cualquier vector de $\mathbb{R}^n$ como explicamos a continuación.

Para cada $v\in \mathbb{R}^n$, podemos expresarlo como combinación lineal de elementos de la base $\beta$ digamos que $v=\sum_{i=1}^{n} v_{i}e_{i}$. Mediante estos coeficientes, podemos entonces asociar a $v$ al siguiente vector columna de $\mathbb{R}^n$ \[ [v]_{\beta}=\begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}, \]

al que llamamos el vector de coordenadas de $v$ con respecto a la base $\beta$.

Realicemos por un lado el siguiente cálculo:

\[ \text{Mat}_{\gamma,\beta}(T)[v]_{\beta}=\begin{pmatrix} t_{11} & \dots & t_{1n}\\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}=\begin{pmatrix} \displaystyle\sum_{k=1}^{n}t_{1k}v_{k} \\ \vdots \\ \displaystyle\sum_{k=1}^{n}t_{mk}v_{k}.\end{pmatrix} \]

Por otro lado tenemos lo siguiente:

\begin{align*}
T(v)&=T \left( \sum_{k=1}^{n}v_{k}e_{k} \right)\\&=\sum_{k=1}^{n}v_{k}T(e_{k})\\&=\sum_{k=1}^{n}v_{k}T\left( \sum_{i=1}^{m}t_{ik}w_{i} \right)\\&=\sum_{i=1}^{m}\left( \sum_{k=1}^{n}v_{k}t_{ik} \right)w_{i}.
\end{align*}

Juntando ambos cálculos: \[ [T(v)]_{\gamma}=\begin{pmatrix} \sum_{k=1}^{n}v_{k}t_{1k} \\ \vdots \\ \sum_{k=1}^{n}v_{k}t_{mk} \end{pmatrix} = \text{Mat}_{\gamma,\beta}(T)[v]_{\beta}.\]

En otras palabras, aplicar $T$ a un vector $v$ equivale a multiplicar $\text{Mat}_{\gamma,\beta}$ por el vector columna asociado a $v$ en la base $\beta$, en el sentido de que tras hacer este producto recuperamos el vector de coordenadas para $T(v)$ en la base $\gamma$.

Isomorfismo entre transformaciones lineales y matrices

Con las operaciones de suma y multiplicación por escalar que vimos en la entrada de Matrices, se tiene que $M_{m,n}\left( \mathbb{R} \right)$ es un espacio vectorial sobre $\mathbb{R}$. De igual manera $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ es un espacio vectorial sobre $\mathbb{R}$ con las siguientes operaciones:

  • Si $T$ y $U$ son dos transformaciones, la transformación $T+U$ es aquella que envía a todo vector $v\in \mathbb{R}^n$ al vector $T(v)+U(v)$.
  • Si $r\in \mathbb{R}$ la transformación $rT$ es la que a todo $v\in \mathbb{R}^n$ lo envía al vector $rT(v)$.

Queda como ejercicio que verifiques que esto dota efectivamente a $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ de estructura de espacio vectorial.

A continuación veremos que estos dos espacios vectoriales son, prácticamente, el mismo. Lo que haremos es construir una función $$\Phi :M_{m,n}\left( \mathbb{R} \right) \to\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$$ que sea biyectiva y que preserve las operaciones de suma y de producto escalar.

Para ello, tomemos una base $\beta=\{e_1,\ldots,e_n\}$ de $\mathbb{R}^{n}$ y una base $\gamma=\{u_1,\ldots,u_m\}$ de $\mathbb{R}^m$. Tomemos una matriz $A\in M_{m,n}(\mathbb{R})$. Explicaremos a continuación cómo construir la transformación $\Phi(A)$, para lo cual diremos qué hace en cada elemento de la base $\beta$. Tomaremos aquella transformación lineal $T_A\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ tal que

$$T_A(e_j)=\sum_{i=1}^n a_{ij} u_i.$$

Tomamos entonces $\varphi(A)=T_A$. Veamos que $\varphi$ tiene todas las propiedades que queremos.

  • $\Phi$ es suprayectiva. Si tenemos una transformación $T:\mathbb{R}^n\to \mathbb{R}^m$, entonces por la construcción anterior se tiene que su forma matricial $A:=\text{Mat}_{\gamma,\beta}(T)$ justo cumple $T_A=T$, de modo que $\Phi(A)=T$.
  • $\Phi$ es inyectiva. Si $A$ y $B$ son matrices distintas, entonces difieren en alguna entrada, digamos $(i,j)$. Pero entonces $T_A$ y $T_B$ difieren ya que $T_A(e_j)\neq T_B(e_j)$ ya que en las combinaciones lineadas creadas hay un coeficiente distinto. Así, $\Phi(A)\neq \Phi(B)$.
  • $\Phi $ es lineal. Para $r\in \mathbb{R}$, $A$ y $B$ matrices con entradas $a_{ij}$ y $b_{ij}$, respectivamente, se cumple que $\Phi \left( rA+B \right)=T_{(rA+B)}$ y entonces se satisface para cada $j=1,\dots ,n$ lo siguiente:
    \begin{align*}
    (rA+B)[e_{j}]_{\beta}&=rA[e_{j}]_{\beta}+B[e_{j}]_{\beta}\\&=r[T_A(e_{i})]_{\gamma}+[T_{B}(e_{i})]_{\gamma}.
    \end{align*}
    Por tanto para cada $e_{i}$ tenemos que $$T_{(rA+B)}(e_{i})=rT_{A}(e_{i})+T_{B}(e_{i})$$ y en consecuencia $$T_{(rA+B)}=rT_{A}+T_{B}.$$ Así $$\Phi (rA+B)=r\Phi (A)+\Phi(B).$$

Todo lo anterior implica que $M_{m,n}\left( \mathbb{R} \right)\simeq \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, es decir, que ambos espacios vectoriales son isomorfos.

En búsqueda de una matriz sencilla

Por lo que hemos platicado hasta ahora, a cada transformación lineal le corresponde una matriz, y viceversa. De hecho, esta asociación respeta operacionescomo la suma y el producto escalar. Esta equivalencia está dada a partir de la función $\Phi$ encontrada en la sección anterior.

Si $\Phi $ es biyectiva, ¿por qué hablamos entonces de encontrar una representación matricial simple para una transformación lineal $T$? Esto parecería no tener sentido, pues a cada transformación le corresponde una y sólo una matriz. Sin embargo, esto es cierto únicamente tras haber fijado las bases $\beta$ y $\gamma$ para $\mathbb{R}^n$ y $\mathbb{R}^m$, respectivamente. Así, dependiendo de la elección de las bases las representaciones matriciales cambian y si tenemos una transformación lineal $T$, es posible que querramos encontrar bases $\beta$ y $\gamma$ en donde la representación matricial sea sencilla.

Nos enfocaremos únicamente en transformaciones lineales que van de un espacio vectorial a sí mismo. Tomemos entonces $T:\mathbb{R}^n\to \mathbb{R}^n$ y una base $\beta$ de $\mathbb{R}^n$. Por simplicidad, escribiremos $\text{Mat}_{\beta, \beta}(T)$ simplemente como $\text{Mat}_{\beta}(T)$. Hay propiedades de $T$ que podemos leer en su matriz $\text{Mat}_{\beta}(T)$ y que no dependen de la base $\beta$ que hayamos elegido. Si con una base $\beta$ especial resulta que $\text{Mat}_{\beta}(T)$ es muy sencilla, entonces podremos leer estas propiedades de $T$ muy fácilmente. Un ejemplo es la siguiente proposición, la cual queda como tarea moral.

Proposición. La transformación lineal $T:\mathbb{R}^n\to\mathbb{R}^n$ es invertible si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.

Si $A=\text{Mat}_{\beta}(T)$ fuera muy muy sencilla, por ejemplo, si fuera una matriz diagonal, entonces podríamos saber la invertibilidad de $T$ sabiendo la invertibilidad de $A$, y la de $A$ sería muy fácil de ver pues por ser matriz diagonal bastaría hacer el producto de las entradas de su diagonal para obtener su determinante y estudiar si es distinto de cero.

Motivados por el ejemplo anterior, estudiemos la siguiente pregunta: ¿toda transformación lineal se puede representar con una matriz diagonal? Si una transformación lineal se puede representar de esta manera, diremos que es diagonalizable.

Eigenvalores, eigenvectores y eigenespacios

En lo que sigue repasaremos el aparato conceptual que nos permitirá dar una respuesta parcial de cuándo una matriz es diagonalizable. Un tratamiento mucho más detallado se puede encontrar aquí en el blog, en el curso de Álgebra Lineal II, comenzando con la entrada Eigenvectores y eigenvalores.

Para nuestro repaso, debemos introducir algunos conceptos y estudiarlos.

Definición. Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal. Diremos que un escalar $r \in \mathbb{R}$ es un eigenvalor de $T$ si existe $v\in \mathbb{R}^n\setminus\{ 0 \}$ tal que $T(v)=rv$. A dicho vector $v$ le llamaremos un eigenvector de $T$ con eigenvalor asociado $r$.

Dado un eigenvector $v\in \mathbb{R}^n$, sólo hay un eigenvalor correspondiente a este. Si $T(v)=rv$ y $T(v)=tv$, entonces $rv=tv$ de donde $(r-t)v=0$. Como $v\neq 0$, se sigue que $r=t$.

Por otro lado, para un eigenvalor $r$ puede haber más de un eigenvector con eigenvalor asociado $r$. Consideremos para un eigenvalor $r$ el conjunto $E(r)=\{ v\in V |T(v)=rv\}$. Notemos que $0\in E(r)$ y también todos los eigenvectores de $r$ están en $E(r)$. Además, $E(r)$ es un subespacio de $\mathbb{R}^n$, pues si $u,v \in E(r)$, y $a\in \mathbb{R}$, tenemos

\begin{align*}
T(au+v)&=aT(u)+T(v)\\
&=a(ru)+(rv)\\
&=r(au+v),
\end{align*}

lo cual implica que $au+v \in E(r)$.

Definición. Para una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ y un eigenvalor $r$ de $T$ llamaremos a

$$E(r)=\{ v\in V |T(v)=rv\}$$

el eigenespacio de $T$ correspondiente a $r$.

Cuando tenemos eigenvectores correspondientes a eigenvalores distintos, cumplen algo especial.

Proposición. Si $v_{1}, \dots ,v_{l}$ son eigenvectores de una transformación lineal $T:\mathbb{R}^n \rightarrow \mathbb{R}^n$ con eigenvalores correspondientes $r_{1}, \dots ,r_{l}$ distintos entonces $v_{1}, \dots ,v_{l}$ son linealmente independientes.

Demostración. La ruta para establecer la demostración de este teorema será por inducción sobre $l$. Para un conjunto con solo un eigenvector el resultado es evidente (¿por que?). Supongamos cierto para cualquier subconjunto de $l-1$ eigenvectores que pertenecen a eigenespacios distintos. Sean $v_{1}, \dots ,v_{l}$ eigenvectores en distintos eigenespacios y consideremos $\alpha _{1}, \dots ,\alpha_{l}$ escalares tales que:

\begin{equation}
\label{eq:comb-cero}
\sum_{k=1}^{l}\alpha _{k}v_{k}=0.
\end{equation}

Aplicamos $T$ a la igualdad anterior. Usando que cada $v_{k}$ es eigenvector correspondiente al eigenvalor $r_{k}$ obtenemos:

\begin{align*}
0=T(0)&=T\left(\sum_{k=1}^{l}\alpha _{k}v_{k} \right)\\&=\sum_{k=1}^{l}\alpha _{k}T(v_{k})\\&=\sum_{k=1}^{l}\alpha _{k}r_{k}v_{k}.
\end{align*}

Es decir,

\begin{equation}
\label{eq:aplicarT}
0=\sum_{k=1}^{l}\alpha _{k}r_{k}v_{k}
\end{equation}

Multipliquemos \eqref{eq:comb-cero} por $r_{l}$ y restemos el resultado de \eqref{eq:aplicarT} para obtener que

\begin{align*}
0=0-0&=\sum_{k=1}^{l}\alpha _{k}r_{k}v_{k}-r_{l}\sum_{k=1}^{l}\alpha _{k}v_{k}\\&=\sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})v_{k}.
\end{align*}

Tenemos entonces:

\[ \sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})v_{k}=0.\]

Ya que por hipótesis de inducción $v_{1}, \dots ,v_{l-1}$ son linealmente independientes entonces $\alpha _{k}(r_{k}-r_{l})=0$ para todo $k$, pero los eigenvalores son todos distintos entre sí por lo tanto para todo $k$ de $1$ a $l-1$ se tiene $r_{k}-r_{l}\neq 0$ y así $\alpha _{k}=0$. Finalmente, usando \eqref{eq:comb-cero} obtenemos $\alpha_l=0$. Por lo tanto $v_{1}, \dots ,v_{l}$ son linealmente independientes.

$\square$

Eigenvectores y transformaciones diagonalizables

Recuerda que dijimos que una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ es diagonalizable si existe una base $\beta$ de $\mathbb{R}^n$ tal que $\text{Mat}_{\beta}(T)$ es matriz diagonal. El siguiente resultado conecta las dos ideas que hemos estado explorando: los eigenvectores y la representabilidad sencilla de $T$.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ transformación lineal. Una matriz $T$ es diagonalizable si y sólo si existe una base de $\mathbb{R}^n$ conformada por eigenvectores de $T$.

En realidad la demostración consiste únicamente en entender correctamente cómo se construyen las matrices para una base dada.

Demostración. $\Rightarrow )$ Supongamos que $T$ tiene una representación matricial que es una matriz diagonal $A:=\text{Mat}_{\beta}(T)=\text{diag}(r_{1}, \dots ,r_{n})$ con respecto a la base $\beta=\{ v_{1}, \dots ,v_{n}\}$. Afirmamos que para cada $j=1,\ldots,n$ se tiene $v_j$ es eigevector de eigenvalor $r_j$. En efecto, la forma en la que se construyó la matriz $A$ nos dice que

\begin{align*}
T(e_j)&=\sum_{i=1}^n a_{ij} e_i \\&= a_{jj} e_j \\&= r_j e_j,
\end{align*}

en donde estamos usando que las entradas $a_{ij}$ de la matriz son cero si $i\neq j$ (por ser diagonal), y son $r_j$ si $i=j$. Por supuesto, como $e_j$ forma parte de una base, tampoco es el vector cero. Así, $e_j$ es eigenvector de eigenvalor $e_j$.

$\Leftarrow )$ Supongamos ahora que $v_{1},\dots ,v_{n}$ son una base $\beta$ de $\mathbb{R}^n$ conformada por eigenvectores de $T$ con eigenvalores asociados, digamos, $r_{1},\dots ,r_{n}$. Aquí se puede mostrar que $\text{Mat}_\beta(T)$ es diagonal. Queda como tarea moral hacer las cuentas.

$\square$

Hay una situación particular en la que podemos aprovechar el teorema anterior de manera inmediata: cuando la transformación tiene $n$ eigenvalores distintos. Esta consecuencia queda establecida en el siguiente resultado.

Corolario. Toda transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ tiene a lo más $n$ eigenvalores distintos. Si $T$ tiene exactamente $n$ eigenvalores distintos, entonces los eigenvectores correspondientes forman una base para $\mathbb{R}^n$ y la matriz de $T$ relativa a esa base es una matriz diagonal con los eigenvalores como elementos diagonales.

Demostración. Queda como tarea moral. Como sugerencia, recuerda que mostramos arriba que eigenvectores de eigenvalores distintos son linealmente independientes.

$\square$

Al parecer los eigenvalores, eigenvectores y eigenespacios de una transformación lineal son cruciales para poder expresarla de manera sencilla. ¿Cómo los encontramos? Esto lo veremos en la siguiente entrada.

Antes de concluir, mencionamos que hay otro teorema crucial sobre diagonalización de matrices. Diremos que una matriz $P\in M_n(\mathbb{R})$ es ortogonal si $P^tP=I$.

Teorema (el teorema espectral). Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces, existe una matriz ortogonal $P$ tal que $PAP^t$ es una matriz diagonal.

El teorema anterior nos dice no únicamente que la matriz $A$ es diagonalizable, sino que además es diagonalizable mediante un tipo muy especial de matrices. Un estudio y demostración de este teorema queda fuera de los alcances de nuestro curso, pero puedes revisar, por ejemplo la entrada teorema espectral del curso de Álgebra Lineal I que tenemos en el blog.

Más adelante

Lo que haremos en la siguiente entrada es desarrollar un método para conocer los eigenvalores de una matriz. A partir de ellos podremos encontrar sus eigenvectores. Y en ciertos casos especiales, esto nos permitirá mostrar que la transformación es diagonalizable y, de hecho, nos dará la base para la cual la matriz asociada es diagonal.

Tarea moral

  1. Considera la transformación lineal de $\mathbb{R}^{3}$ en $\mathbb{R}^{2}$, dada como $T(x,y,z)=(x+y,z+y)$. Encuentra su representación matricial con las bases canónicas de $\mathbb{R}^3$ y $\mathbb{R}^2$. Luego, encuentra su representación matricial con las bases $\{(1,2,3),(1,0,1),(0,-1,0)\}$ de $\mathbb{R}^3$ y $\{(1,1),(1,-1)\}$ de $\mathbb{R}^2$.
  2. Considera la siguiente matriz: \[ \begin{pmatrix} 1 & 0 & 2 & 3 \\ 0 & -1 & 0 & 2 \\ \end{pmatrix}\] Da una transformación lineal $T:\mathbb{R}^4\to \mathbb{R}^2$ y ciertas bases $\beta$ de $\mathbb{R}^4$ y $\gamma$ de $\mathbb{R}^2$ para las cuales esta matriz sea la representación matricial de $T$ en las bases $\beta$ y $\gamma$.
  3. Fija bases $\beta$, $\gamma$ y $\delta$ para $\mathbb{R}^n$, $\mathbb{R}^m$ y $\mathbb{R}^l$. Considera dos transformaciones lineales $T:\mathbb{R}^n\to \mathbb{R}^m$ y $S:\mathbb{R}^m\to \mathbb{R}^l$. Demuestra que:
    $$\text{Mat}_{\delta, \beta} (S \circ T) = \text{Mat}_{\delta,\gamma}(S) \text{Mat}_{\gamma, \beta} (T).$$
    En otras palabras que la «composición de transformaciones corresponde al producto de sus matrices».
  4. Sea $T:\mathbb{R}^n\to\mathbb{R}^n$ una transformación lineal y $\beta$ una base de $\mathbb{R}^n$. Demuestra que $T$ es biyectiva si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.
  5. Verifica que los vectores $v_1,\ldots,v_n$ dados en el último teorema en efecto ayudan a dar una representación matricial diagonal para $T$.
  6. La demostración del último corolario es un conjunto de sencillas consecuencias de las definiciones y teoremas desarrollados en esta entrada con respecto a los eigenvalores y eigenvectores. Realiza esta demostración.

Entradas relacionadas

Ecuaciones Diferenciales I: Introducción a las Ecuaciones Diferenciales

Por Omar González Franco

La vida es buena por sólo dos cosas, descubrir y enseñar las matemáticas.
– Simeon Poisson

Introducción

Bienvenidos a la primera clase del curso, en esta entrada conoceremos qué son las ecuaciones diferenciales, cómo clasificarlas y presentaremos una parte de la terminología elemental que usaremos a lo largo del curso.

Las leyes del universo están escritas en el lenguaje de las matemáticas. Muchos de los fenómenos naturales que ocurren en el universo involucran cambios y si logramos crear modelos matemáticos que los describan, sin duda, la derivada será una herramienta fundamental que estará presente. Sabemos que la derivada $\dfrac{dy}{dx} = f'(x)$ de la función $f$ es la razón a la cual la cantidad $y = f(x)$ está cambiando respecto de la variable independiente $x$, es natural, entonces, que las ecuaciones que involucran derivadas se usen frecuentemente para describir el universo cambiante. Una ecuación que relacione una función desconocida con una o más de sus derivadas se llama ecuación diferencial.

Ecuaciones diferenciales

Al tratarse de un curso introductorio, sólo trabajaremos con ecuaciones diferenciales que contienen sólo una variable independiente, estas ecuaciones tienen un nombre particular.

El reto al que nos enfrentamos con las ecuaciones diferenciales es hallar la función involucrada que depende de la variable independiente. Supongamos que tenemos la función

$$y = f(x) = 2e^{x^{2}}$$

Esta función es derivable en todo $\mathbb{R}$, si la derivamos obtenemos otra función dada de la siguiente forma.

$$\dfrac{dy}{dx} = f'(x) = 4xe^{x^{2}}$$

Este resultado se puede reescribir como

$$\dfrac{dy}{dx} = 2x(2e^{x^{2}})$$

Podemos observar que lo que está entre paréntesis es de nuevo la función $y = 2e^{x^{2}}$ , si la sustituimos obtenemos como resultado la siguiente ecuación.

$$\dfrac{dy}{dx} = 2xy$$

Este resultado corresponde a una ecuación diferencial ordinaria, pues contiene la derivada de la variable dependiente $y$ con respecto a la variable independiente $x$, esto es $\dfrac{dy}{dx}$.

Ahora imagina que lo primero que vemos es la ecuación diferencial $\dfrac{dy}{dx} = 2xy$ y lo que debemos de hacer es obtener la función $f(x) = y$. ¿Cómo la obtendrías?. ¡Este es el reto!.

Básicamente el objetivo del curso será desarrollar distintos métodos para resolver los diferentes tipos de ecuaciones diferenciales ordinarias que se puedan presentar, analizaremos las circunstancias en las que aparecen y la forma en que surgen con el fin de describir o modelar fenómenos físicos en términos matemáticos.

Notación

En la mayor parte del curso utilizaremos la notación de Leibniz.

$$\dfrac{dy}{dx}, \hspace{0.4cm} \dfrac{d^{2}y}{dx^{2}}, \hspace{0.4cm} \dfrac{d^{3}y}{dx^{3}}, \hspace{0.4cm} \cdots,$$

En este caso la expresión $\dfrac{d}{dx}$ sirve como un operador que indica una derivación de la variable dependiente $y$ con respecto a la variable independiente $x$.

En ocasiones para ser más compactos utilizaremos la notación prima o también conocida como notación de Lagrange.

$$y^{\prime}, \hspace{0.4cm} y^{\prime \prime}, \hspace{0.4cm} y^{\prime \prime\prime}, \hspace{0.4cm} \cdots$$

En el caso de esta notación, a partir de la cuarta derivada ya no se colocan primas, sino números entre paréntesis, dicho número indica el grado de la derivada.

$$y^{(4)}, \hspace{0.4cm} y^{(5)}, \hspace{0.4cm} \cdots, \hspace{0.4cm} y^{(n)}$$

En este curso haremos mayor uso de la notación de Leibniz debido a que indica con claridad las variables independientes y dependientes. Por ejemplo, en la ecuación

$$\dfrac{dx}{dt} + 8x = 0$$

se observa de forma inmediata que el símbolo $x$ representa a la variable dependiente, mientras que $t$ a la variable independiente.

Cuando se trata de resolver problemas en contextos del mundo real relacionados con Física o ingeniería por ejemplo, es común utilizar la notación de Newton.

$$\dot{y}, \hspace{0.4cm} \ddot{y}, \hspace{0.4cm} \dddot{y}, \hspace{0.4cm} \cdots$$

Es común utilizar esta notación cuando la variable independiente corresponde al tiempo $t$.

$$\dfrac{dy}{dt} = \dot{y}(t)$$

Clasificación de las ecuaciones diferenciales

Para comenzar será importante clasificar a las ecuaciones diferenciales por tipo, orden y linealidad.

  • Clasificación por tipo

Un primer tipo de ecuaciones diferenciales son las Ecuaciones Diferenciales Ordinarias (EDO) que, como se definieron anteriormente, son aquellas que relacionan una función desconocida de una variable independiente con sus derivadas. Algunos ejemplos de ecuaciones diferenciales ordinarias son:

$$\dfrac{dy}{dx} + 5y = e^{x}, \hspace{1cm} \dfrac{d^{2}y}{dx^{2}} -\dfrac{dy}{dx} + 6y = 0 \hspace{1cm} y \hspace{1cm} \dfrac{dx}{dt} + \dfrac{dy}{dt} = 2x + y$$

Otro tipo de ecuaciones diferenciales son las Ecuaciones Diferenciales Parciales (EDP), estas ecuaciones presentan las derivadas parciales de una o más variables dependientes de dos o más variables independientes. Algunos ejemplos de ecuaciones diferenciales parciales son:

$$\dfrac{\partial^{2}z}{\partial x^{2}} + \dfrac{\partial^{2}z}{\partial y^{2}} = 0, \hspace{1cm} \dfrac{\partial^{2}z}{\partial x^{2}} = \dfrac{\partial^{2}z}{\partial t^{2}} -2\dfrac{\partial z}{\partial t} \hspace{1cm} y \hspace{1cm} \dfrac{\partial u}{\partial y} = – \dfrac{\partial v}{\partial x}$$

En este curso no estudiaremos a las ecuaciones diferenciales parciales.

  • Clasificación por orden

El orden de una ecuación diferencial representa el orden de la derivada más alta presente en la ecuación. Así, la ecuación

$$\dfrac{d^{2} y}{dx^{2}} + 5 \left( \dfrac{dy}{dx}\right) ^{3} -4y = e^{x}$$

es una ecuación diferencial ordinaria de segundo orden. Importante, no confundir orden de la derivada con el grado o potencia de las derivadas.

Una EDO de $n$-ésimo orden se puede expresar como una variable dependiente empleando la forma general

$$F(x, y, y^{\prime}, \cdots , y^{(n)}) = 0 \tag{1} \label{1}$$

Donde $F$ es una función con valores reales de $n + 2$ variables. Por motivos teóricos debemos suponer que es posible resolver la EDO anterior únicamente para la derivada de mayor grado $y^{(n)}$ en términos de las $n + 1$ variables restantes, es decir, suponemos que se puede resolver la siguiente ecuación.

$$\dfrac{d^{n}y}{dx^{n}} = f(x, y, y^{\prime}, \cdots , y^{(n – 1)}) \tag{2} \label{2}$$

Donde $f$ es una función continua con valores reales. A la ecuación (\ref{2}) se le denomina forma normal de (\ref{1}). En ocasiones será útil utilizar las formas normales

$$\dfrac{dy}{dx} = f(x, y) \hspace{1cm} y \hspace{1cm} \dfrac{d^{2}y}{dx^{2}} = f(x, y, y^{\prime})$$

para representar ecuaciones diferenciales ordinarias de primer y segundo orden, respectivamente.

Por ejemplo, la forma normal de la ecuación diferencial de primer orden

$$4x \dfrac{dy}{dx} + y = x$$

es

$$\dfrac{dy}{dx} = \dfrac{x -y}{4x}$$

Para $x \neq 0$. En este caso la función $f$ sería

$$f(x, y) = \dfrac{x -y}{4x}$$

Mientras que la forma general de la misma ecuación es

$$F \left( x, y , \dfrac{dy}{dx} \right) = 4x \dfrac{dy}{dx} + y -x = 0$$

Las ecuaciones diferenciales ordinarias de primer orden ocasionalmente se escriben en lo que se conoce como la forma diferencial.

$$M(x, y) dx + N(x, y) dy = 0 \tag{3} \label{3}$$

Anteriormente vimos que la forma normal de la ecuación diferencial dada es

$$\dfrac{dy}{dx} = \dfrac{x -y}{4x}$$

Haciendo de un abuso de notación podemos escribir a esta ecuación como

$$4x dy = (x -y) dx$$

O bien,

$$(y -x) dx + 4x dy = 0$$

Esta es la correspondiente forma diferencial, en este caso

$$M(x, y) = y -x \hspace{1cm} y \hspace{1cm} N(x, y) = 4x$$

Con este ejemplo encontramos tres formas distintas de representar a la misma ecuación diferencial. Veremos más adelante que cada forma de representación nos será de utilidad cuando intentemos encontrar a la función dependiente.

  • Clasificación por linealidad

Una ecuación diferencial ordinaria de $n$-ésimo orden (\ref{1}) es lineal si $F$ es lineal en $y, y^{\prime}, \cdots, y^{(n)}$, es decir, una EDO es lineal si se puede escribir como

$$a_{n}(x) \dfrac{d^{n}y}{dx^{n}} + a_{n -1}(x) \dfrac{d^{n -1}y}{dx^{n -1}} + \cdots + a_{1}(x) \dfrac{dy}{dx} + a_{0}(x) y = g(x) \tag{4} \label{4}$$

Cumpliendo las siguientes propiedades:

  • La variable dependiente $y$, así como todas sus derivadas $y^{\prime}, y^{\prime \prime}, \cdots, y^{(n)}$ son de primer grado, es decir, la potencia de cada uno de los términos que involucran a $y$ es $1$.
  • Los coeficientes $a_{0}, a_{1}, \cdots, a_{n}$ de $y^{\prime}, y^{\prime \prime}, \cdots, y^{(n)}$, respectivamente, así como la función $g(x)$ dependen a lo sumo de la variable independiente $x$.

Una ecuación diferencial ordinaria no lineal simplemente es una ecuación que no es lineal, es decir, que no cumple con las propiedades anteriores.

La ecuación

$$4x \dfrac{dy}{dx} + y = x$$

claramente es lineal, mientras que la ecuación

$$\dfrac{d^{2} y}{dx^{2}} + 5 \left( \dfrac{dy}{dx}\right) ^{3} -4y = e^{x}$$

es no lineal debido a que la primera derivada de la variable dependiente $y$ no es de primer grado, sino de grado $3$.

Ejemplo: Clasificar las siguientes ecuaciones diferenciales.

  • $\dfrac{d^{3}y}{dx^{3}} + 3x \dfrac{dy}{dx} -5y = e^{x}$
  • $\dfrac{d^{2}y}{dx^{2}} + \sin (y) = 0$
  • $(1-y) y^{\prime} + 2y = e^{x}$

Solución:

En la ecuación

$$\dfrac{d^{3}y}{dx^{3}} + 3x \dfrac{dy}{dx} -5y = e^{x}$$

observamos que se trata de una ecuación diferencial ordinaria, pues la variable dependiente $y$ sólo depende de una variable independiente, en este caso de $x$. Por otro lado, observamos que la derivada más alta es $\dfrac{d^{3}y}{dx^{3}}$ , por lo tanto el orden de la ecuación es $3$, es decir, es una ecuación diferencial de tercer orden. Finalmente vemos que se trata de una ecuación lineal, pues la potencia de los términos que involucran a $y$ es $1$ y además la función $g(x) = e^{x}$ sólo depende de la variable independiente.

En la ecuación

$$\dfrac{d^{2}y}{dx^{2}} + \sin (y) = 0$$

notamos que corresponde a una ecuación diferencial ordinaria de segundo orden ya que la derivada más alta es $\dfrac{d^{2}y}{dx^{2}}$. En este caso la ecuación es no lineal ya que la función $\sin(y)$ no es lineal e involucra a la variable dependiente.

Finalmente, en la ecuación

$$(1-y) y^{\prime} + 2y = e^{x}$$

se observa que es una ecuación diferencial ordinaria de primer orden y que es no lineal ya que el coeficiente de $y^{\prime}$, la función $(1 -y)$, depende de la variable dependiente.

$\square$

Como podemos notar, para deducir si una ecuación diferencial es lineal o no es conveniente escribirla en la forma (\ref{4}) y verificar las dos propiedades de linealidad.

De acuerdo a (\ref{4}), las ecuaciones diferenciales de primer orden ($n = 1$) y segundo orden ($n = 2$) se pueden escribir de forma general como

$$a_{1}(x) \frac{dy}{dx} + a_{0}(x) y = g(x) \tag{5} \label{5}$$

y

$$a_{2}(x) \frac{d^{2}y}{dx^{2}} + a_{1}(x) \frac{dy}{dx} + a_{0}(x) y = g(x) \tag{6} \label{6}$$

Respectivamente.

Hemos concluido con esta entrada.

Tarea Moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  1. Definir el orden de las siguientes ecuaciones diferenciales ordinarias y establecer si son lineales o no lineales.
  • $(1 -x) y^{\prime \prime} -4xy^{\prime} + 5y = \cos(x)$
  • $\dfrac{d^{2}y}{dx^{2}} = \sqrt {1 + \left(\dfrac{dy}{dx}\right)^{2}}$
  • $x \dfrac{d^{3}y}{dx^{3}} -\left( \dfrac{dy}{dx} \right) ^{4} + y = 0$
  1. Determinar si las siguientes ecuaciones diferenciales de primer orden son lineales en la variable dependiente indicada comparándola con la ecuación (\ref{4}). (es decir, considera primero a una variable como dependiente de la otra y reescribe la ecuación en la forma general (\ref{4}) para deducir si es lineal o no, posteriormente intercambia al papel de las variables y vuelve a ver si la ecuación es lineal o no).
  • $(y^{2} -1) dx + x dy = 0$, $\hspace{0.5cm}$ en $y$, $\hspace{0.2cm}$ en $x$
  • $u dv + (v + uv -ue^{u}) du = 0$, $\hspace{0.5cm}$ en $v$, $\hspace{0.2cm}$ en $u$

Más adelante …

Como se mencionó, uno de los objetivos es hallar a la función involucrada que depende de la variable independiente, a esta función formalmente se le conoce como función solución de la ecuación diferencial. Antes de estudiar cómo obtener estas funciones solución será conveniente primero estudiar sus propiedades generales.

En la siguiente entrada comenzaremos a estudiar lo relacionado a la solución (o soluciones) de una ecuación diferencial.

Entradas relacionadas

Álgebra Lineal I: Espacios vectoriales

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la primer unidad de este curso de álgebra lineal estudiamos a profundidad al conjunto $F^n$ con sus operaciones de suma y multiplicación por escalar. Luego, hablamos de las matrices en $M_{m,n}(F)$ y vimos cómo pensarlas como transformaciones lineales. Les dimos una operación de producto que en términos de transformaciones lineales se puede pensar como la composición. Luego, hablamos de la forma escalonada reducida de una matriz y cómo llevar cualquier matriz a esta forma usando reducción gaussiana. Esto nos permitió resolver sistemas de ecuaciones lineales homogéneos y no homogeneos, así como encontrar inversas de matrices. Las habilidades desarrolladas en la primer parte del curso serán de mucha utilidad para la segunda, en donde hablaremos de espacios vectoriales.

En esta entrada definiremos el concepto de espacio vectorial y vectores. Para hacer esto, tomaremos como motivación el espacio $F^n$, que ya conocemos bien. Sin embargo, hay muchos otros ejemplos de objetos matemáticos que satisfacen la definición que daremos. Hablaremos de algunos de ellos.

En el transcurso de la unidad también hablaremos de otros conceptós básicos, como la de subespacio. Hablaremos de conjuntos linealmente independientes, de generadores y de bases. Esto nos llevará a establecer una teoría de la dimensión de un espacio vectorial. Las bases son de fundamental importancia pues en el caso de dimensión finita, nos permitirán pensar a cualquier espacio vectorial «como si fuera $F^n$ «. Más adelante precisaremos en qué sentido es esto.

Después, veremos cómo pasar de un espacio vectorial a otro mediante transformaciones lineales. Veremos que las transformaciones entre espacios vectoriales de dimensión finita las podemos pensar prácticamente como matrices, siempre y cuando hayamos elegido una base para cada espacio involucrado. Para ver que estamos haciendo todo bien, debemos verificar que hay una forma sencilla de cambiar esta matriz si usamos una base distinta, y por ello estudiaremos a las matrices de cambio de base.

Esta fuerte relación que existe entre transformaciones lineales y y matrices nos permitirá llevar información de un contexto a otro. Además, nos permitirá definir el concepto de rango para una matriz (y transformación vectorial). Hasta ahora, sólo hemos distinguido entre matrices invertibles y no invertibles. Las matrices invertibles corresponden a transformaciones lineales que «guardan toda la información». El concepto de rango nos permitirá entender de manera más precisa cuánta información guardan las transformaciones lineales no invertibles.

Recordando a $F^n$

Antes de definir el concepto de espacio vectorial en toda su generalidad, recordemos algunas de las cosas que suceden con $F^n$. De hecho, puedes pensar en algo mucho más concreto como $\mathbb{R}^4$.

Como recordatorio, comenzamos tomando un campo $F$ y dijimos que, para fines prácticos, podemos pensar que se trata de $\mathbb{R}$ y $\mathbb{C}$. A los elementos de $F$ les llamamos escalares.

Luego, consideramos todas las $n$-adas de elementos de $F$ y a cada una de ellas le llamamos un vector. A $F^n$ le pusimos una operación de suma, que tomaba dos vectores en $F^n$ y nos daba otro. Además, le pusimos una operación de producto por escalar, la cual tomaba un escalar en $F$ y un vector en $F^n$ y nos daba como resultado un vector. Para hacer estas operaciones procedíamos entrada a entrada.

Sin embargo, hay varias propiedades que demostramos para la suma y producto por escalar, para las cuales ya no es necesario hablar de las entradas de los vectores. Mostramos que todo lo siguiente pasa:

  1. (Asociatividad de la suma) Para cualesquiera vectores $u,v,w$ en $F^n$ se cumple que $(u+v)+w=u+(v+w)$.
  2. (Conmutatividad de la suma) Para cualesquiera vectores $u,v$ en $F^n$ se cumple que $u+v=v+u$.
  3. (Identidad para la suma) Existe un vector $0$ en $F^n$ tal que $u+0=u=0+u$.
  4. (Inversos para la suma) Para cualquier vector $u$ en $F^n$ existe un vector $v$ en $F^n$ tal que $u+v=0=v+u$.
  5. (Distributividad para la suma escalar) Para cualesquiera escalares $a,b$ en $F$ y cualquier vector $v$ en $F^n$ se cumple que $(a+b)v=av+bv$.
  6. (Distributividad para la suma vectorial) Para cualquier escalar $a$ en $F$ y cualesquiera vectores $v,w$ en $F^n$ se cumple que $a(v+w)=av+aw$.
  7. (Identidad de producto escalar) Para la identidad multiplicativa $1$ del campo $F$ y cualquier vector $v$ en $F^n$ se cumple que $1v=v$.
  8. (Compatibilidad de producto escalar) Para cualesquiera dos escalares $a,b$ en $F$ y cualquier vector $v$ en $F^n$ se cumple que $(ab)v=a(bv)$.

Los primeros cuatro puntos son equivalentes a decir que la operación suma en $F^n$ es un grupo conmutativo. Resulta que hay varios objetos matemáticos que satisfacen todas estas ocho propiedades o axiomas de espacio vectorial, y cuando esto pasa hay muchas consecuencias útiles que podemos deducir. La esencia del álgebra lineal precisamente consiste en deducir todo lo posible en estructuras que tienen las ocho propiedades anteriores. Estas estructuras son tan especiales, que tienen su propio nombre: espacio vectorial.

Definición de espacio vectorial

Estamos listos para la definición crucial del curso.

Definición. Sea $F$ un campo. Un espacio vectorial sobre el campo $F$ es un conjunto $V$ con operaciones de suma y producto por escalar, que denotaremos por \begin{align*}
+:& V\times V \to V \quad \text{y}\\
\cdot:& F\times V \to V,
\end{align*}

para las cuales se cumplen las ocho propiedades de la sección anterior. En otras palabras:

  • El conjunto $V$ es un grupo conmutativo con la suma
  • Se tiene asociatividad para la suma escalar y la suma vectorial
  • Se tiene identidad y compatibilidad de la mulltiplicación escalar.

A los elementos de $F$ les llamamos escalares. A los elementos de $F^n$ les llamamos vectores. Para hacer restas, las definimos como $u-v=u+(-v)$, donde $-v$ es el inverso aditivo de $v$ con la suma vectorial. Usualmente omitiremos el signo de producto escalar, así que escribiremos $av$ en vez de $a\cdot v$ para $a$ escalar y $v$ vector.

La definición da la impresión de que hay que verificar muchas cosas. De manera estricta, esto es cierto. Sin embargo, de manera intuitiva hay que pensar que a grandes rasgos los espacios vectoriales son estructuras en donde podemos sumar elementos entre sí y multiplicar vectores por escalares (externos) sin que sea muy complicado.

Como ya mencionamos, el conjunto $F^n$ con las operaciones de suma y multiplicación por escalar que se hacen entrada por entrada es un espacio vectorial sobre $F$. En lo que resta de la entrada, hablaremos de otros ejemplos de espacios vectoriales que nos encontraremos frecuentemente.

Espacios vectoriales de matrices

Otros ejemplos de espacios vectoriales con los que ya nos encontramos son los espacios de matrices. Dado un campo $F$ y enteros positivos $m$ y $n$, el conjunto de matrices en $M_{m,n}(F)$ es un espacio vectorial en donde la suma se hace entrada a entrada y la multiplicación escalar también.

¿Qué es lo que tenemos que hacer para mostrar que en efecto esto es un espacio vectorial? Se tendrían que verificar las 8 condiciones en la definición de espacio vectorial. Esto lo hicimos desde la primer entrada del curso, en el primer teorema de la sección «Operaciones de vectores y matrices». Vuelve a leer ese teorema y verifica que en efecto se enuncian todas las propiedades necesarias.

Aquí hay que tener cuidado entonces con los términos que se usan. Si estamos hablando del espacio vectorial $F^n$, las matrices no forman parte de él, y las matrices no son vectores. Sin embargo, si estamos hablando del espacio vectorial $M_{m,n}(F)$, entonces las matrices son sus elementos, y en este contexto las matrices sí serían vectores.

Ejemplo. Sea $\mathbb{F}_2$ el campo con $2$ elementos. Consideremos $M_{2}(\mathbb{F}_2)$. Este es un espacio vectorial. Tiene $16$ vectores de la forma $\begin{pmatrix} a & b \\ c & d \end{pmatrix}$, en donde cada entrada es $0$ o $1$. La suma y la multiplicación por escalar se hacen entrada a entrada y con las reglas de $\mathbb{F}_2$. Por ejemplo, tenemos $$\begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} + \begin{pmatrix} 0 & 1 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}.$$

$\square$

Espacios vectoriales de funciones

Ahora veremos algunos ejemplos de espacios vectoriales cuyos elementos son funciones. Esto puede parecer algo abstracto, pero en unos momentos veremos algunos ejemplos concretos que nos pueden ayudar a entender mejor.

Sea $F$ un campo y consideremos cualquier conjunto $X$. Consideremos el conjunto $V$ de todas las posibles funciones de $X$ a $F$. A este conjunto queremos ponerle operaciones de suma y de multiplicación por escalar.

Para definir la suma, tomemos dos funciones que van de $X$ a $F$, digamos $f:X\to F$ y $g:X\to F$. Definiremos a la función $f+g$ como la función que a cada $x$ en $X$ lo manda a $f(x)+g(x)$. Aquí estamos usando la suma del campo $F$. En símbolos, $(f+g):X\to F$ tiene regla de asignación $$(f+g)(x)=f(x)+g(x).$$

Para definir el producto por escalar, tomamos una función $f:X\to F$ y un escalar $c$ en el campo $F$. La función $cf$ será la función $cf:X\to F$ con regla de asignación $$(cf)(x)=cf(x)$$ para todo $x$ en $X$.

Resulta que el conjunto $V$ de funciones de $X$ a $F$ con estas operaciones de suma y producto, es un espacio vectorial. Podemos probar, por ejemplo, la asociatividad de la suma. Para ello, la primer cosa que necesitamos mostrar es la asociatividad de la suma. Es decir, que si tenemos $f:X\to F$, $g:X\to F$ y $h:X\to F$, entonces $$(f+g)+h = f+ (g+h).$$

Esta es una igualdad de funciones. Para que sea cierta, tenemos que verificarla en todo el dominio, así que debemos mostrar que para todo $x$ en $X$ tenemos que $$((f+g)+h)(x)=(f+(g+h))(x).$$

Para demostrar esto, usemos la definición de suma de funciones y la asociatividad de la suma del campo $F$. Con ello, podemos realizar la siguiente cadena de igualdades:

\begin{align*}
((f+g)+h)(x)&=(f+g)(x)+h(x)\\
&=(f(x)+g(x)) + h(x) \\
&=f(x) + (g(x)+h(x)) \\
&=f(x) + (g+h)(x)\\
&=(f+(g+h))(x).
\end{align*}

Así, la suma en $V$ es asociativa. El resto de las propiedades se pueden demostrar con la misma receta:

  • Se enuncia la igualdad de funciones que se quiere mostrar.
  • Para que dicha igualdad sea cierta, se tiene que dar en cada elemento del dominio, así que se evalúa en cierta $x$.
  • Se prueba la igualdad usando las definiciones de suma y producto por escalar, y las propiedades de campo de $F$.

Ejemplo. El ejemplo anterior es muy abstracto, pues $X$ puede ser cualquier cosa. Sin embargo, hay muchos espacios de funciones con los cuales se trabaja constantemente. Por ejemplo, si el campo es el conjunto $\mathbb{R}$ de reales y $X$ es el intervalo $[0,1]$, entonces simplemente estamos hablando de las funciones que van de $[0,1]$ a los reales.

Si tomamos $f:[0,1]\to \mathbb{R}$ y $g:[0,1]\to \mathbb{R}$ dadas por \begin{align*}f(x)&= \sin x – \cos x\\ g(x) &= \cos x + x^2,\end{align*} entonces su suma simplemente es la función $f+g:[0,1]\to \mathbb{R}$ definida por $(f+g)(x)=\sin x + x^2$. Si tomamos, por ejemplo, el escalar $2$, entonces la función $2f:[0,1]\to \mathbb{R}$ no es nada más que aquella dada por
$$(2f)(x)= 2\sin x – 2\cos x.$$

Así como usamos el intervalo $[0,1]$, pudimos también haber usado al intervalo $[-2,2)$, al $(-5,\infty]$, o a cualquier otro.

$\square$

Espacios vectoriales de polinomios

Otro ejemplo de espacios vectoriales que nos encontraremos frecuentemente son los espacios de polinomios. Si no recuerdas con precisión cómo se construyen los polinomios y sus operaciones, te recomendamos repasar este tema con material disponible aquí en el blog.

Dado un campo $F$ y un entero positivo $n$ usaremos $F[x]$ para referirnos a todos los polinomios con coeficientes en $F$ y usaremos $F_n[x]$ para referirnos a aquellos polinomios con coeficientes en $F$ y grado a lo más $n$. Aunque el polinomio cero no tiene grado, también lo incluiremos en $F_n[x]$.

Ejemplo. Si $F$ es $\mathbb{C}$, el campo de los números complejos, entonces todos los siguientes son polinomios en $\mathbb{C}[x]$: \begin{align*}p(x)&=(2+i)x^6 + (1+i),\\ q(x)&=3x^2+2x+1,\\ r(x)&=5x^7+(1-3i)x^5-1.\end{align*}

Tanto $p(x)$ como $q(x)$ están en $\mathbb{C}_6[x]$, pues su grado es a lo más $6$. Sin embargo, $r(x)$ no está en $\mathbb{C}_6[x]$ pues su grado es $7$.

El polinomio $q(x)$ también es un elemento de $\mathbb{R}[x]$, pues tiene coeficientes reales. Pero no es un elemento de $\mathbb{R}_1[x]$ pues su grado es demasiado grande.

$\square$

Recuerda que para sumar polinomios se tienen que sumar los coeficientes de grados correspondientes. Al hacer multiplicación por escalar se tienen que multiplicar cada uno de los coeficientes. De esta forma, si $f(x)=x^2+1$ y $g(x)=x^3+\frac{x^2}{2}-3x-1$, entonces $$(f+g)(x)=x^3+\frac{3x^2}{2}-3x,$$ y $$(6g)(x)=6x^3+3x^2-18x-6.$$

Resulta que $F[x]$ con la suma de polinomios y con el producto escalar es un espacio vectorial. Puedes verificar cada uno de los axiomas por tu cuenta.

Observa que la suma de dos polinomios de grado a lo más $n$ tiene grado a lo más $n$, pues no se introducen términos con grado mayor que $n$. Del mismo modo, si tenemos un polinomio con grado a lo más $n$ y lo multiplicamos por un escalar, entonces su grado no aumenta. De esta forma, podemos pensar a estas operaciones como sigue:
\begin{align*}
+:& F_n[x] \times F_n[x] \to F_n[x]\\
\cdot: & F\times F_n[x] \to F_n[x].
\end{align*}

De esta forma, $F_n[x]$ con la suma de polinomios y producto escalar de polinomios también es un espacio vectorial.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • A partir de los axiomas de espacio vectorial, muestra lo siguiente para un espacio vectorial $V$:
    • La identidad de la suma vectorial es única, es decir, que si existe otro elemento $e$ en $V$ tal que $u+e=u=e+u$ para todo $u$ en $V$, entonces $e=0$.
    • Que si $0$ es la identidad aditiva del campo $F$ y $v$ es cualquier vector en $V$, entonces $0v$ es la identidad de la suma vectorial. En símbolos, $0v=0$, donde el primer $0$ es el de $F$ y el segundo el de $V$.
    • Se vale la regla de cancelación para la suma vectorial, es decir, que si $u,v,w$ son vectores en $V$ y $u+v=u+w$, entonces $v=w$.
    • Se vale la regla de cancelación para el producto escalar, es decir, que si $a$ es un escalar no cero del campo $F$ y $u,v$ son vectores de $V$ para los cuales $au=av$, entonces $u=v$.
    • Que el inverso aditivo de un vector $v$ para la suma vectorial en $V$ es precisamente $(-1)v$, es decir, el resultado de hacer la multiplicación escalar de $v$ con el inverso aditivo del $1$ del campo $F$.
  • Sea $V$ un espacio vectorial sobre $\mathbb{R}$. Sean $u$, $v$ y $w$ vectores en $V$. Justifica la siguiente igualdad enunciando de manera explícita todos los axiomas de espacio vectorial que uses $$u+5v-3w+2u-8v= -3(w+v-u).$$
  • Termina de demostrar que en efecto los espacios de funciones con la suma y producto escalar que dimos son espacios de funciones.
  • Enlista todos los polinomios de $(\mathbb{F}_2)_3[x]$. A continuación hay algunos: $$0, x+1, x^2+x, x^3+1.$$ Para cada uno de ellos, encuentra quien es su inverso aditivo para la suma vectorial de $(\mathbb{F}_2)_3[x]$.

Más adelante…

Ya dimos la definición de espacio vectorial y vimos varios ejemplos. Dentro de algunas entradas veremos como conseguir muchos más espacios vectoriales.

En el último ejemplo pasa algo curioso: el espacio $F_n[x]$ es un subconjunto del espacio $F[x]$ y además es un espacio vectorial con las mismas operaciones que $F[x]$. Este es un fenómeno muy importante en álgebra lineal. Decimos que $F_n[x]$ es un subespacio de $F[x]$. En la siguiente entrada definiremos en general qué es un subespacio de un espacio vectorial y veremos algunas propiedades que tienen los subespacios.

Entradas relacionadas