Archivo de la etiqueta: vectores

Álgebra Superior I: Operaciones de suma y producto escalar con vectores y matrices

Por Eduardo García Caballero

Introducción

Anteriormente definimos qué son los vectores y las matrices con entradas reales. Así mismo, mencionamos que existen distintas operaciones que los involucran. En esta entrada conocerás dos de estas operaciones: la suma de vectores/matrices y el producto escalar.

Suma de vectores

Una de las operaciones más sencillas que involucra a los vectores es su suma. Para sumar dos vectores con entradas reales, debemos asegurarnos de que ambos tengan la misma cantidad de entradas. De este modo, podemos ver que los vectores $(1,0,3)$ y $(-2,\sqrt{5})$ no pueden ser sumados, pero los vectores $(7,\frac{1}{2},-5)$ y $(\pi,4,3)$ sí.

Para denotar la suma de dos vectores utilizaremos el símbolo $+$ en medio de ellos. Por ejemplo, la suma de $(7,\frac{1}{2},-5)$ y $(\pi,4,3)$ la escribimos como
\[
(7,\tfrac{1}{2},-5)+(\pi,4,3).
\]

El resultado de esta operación lo obtendremos sumando entrada a entrada los dos vectores originales. Es decir, la primera entrada del nuevo vector será igual a la suma de las primeras entradas de los vectores originales; su segunda entrada será igual a la suma de las segundas entradas de los vectores originales; y así sucesivamente (observemos que, de este modo, el vector resultante tiene el mismo tamaño que los vectores originales). Así, el resultado de sumar $(7,\tfrac{1}{2},-5)$ y $(\pi,4,3)$ es
\[
(7,\tfrac{1}{2},-5)+(\pi,4,3) = (7+\pi, \tfrac{1}{2}+4,-5+3).
\]

Además, ya te habrás dado cuenta de que podemos reducir algunas operaciones de cada entrada del vector (esto por la definición de igualdad de vectores que vimos en la entrada anterior). Así, obtenemos que
\[
(7+\pi,\tfrac{1}{2}+4,-5+3) = (7+\pi, \tfrac{9}{2},-2),
\]
y, al ser la igualdad transitiva, llegamos a que
\[
(7,\tfrac{1}{2},-5)+(\pi,4,3) = (7+\pi, \tfrac{9}{2},-2).
\]

El ejemplo que discutimos aquí es para vectores con tres entradas, pero pudimos hacer exactamente lo mismo con vectores de dos entradas, de cuatro o de más.

Producto escalar de vectores

Otra operación que realizaremos de manera frecuente es el producto escalar. Para efectuar esta operación, requeriremos un número real y un vector, y los denotamos escribiendo primero el número y de manera seguida al vector. De este modo, el producto escalar del número real $4$ y el vector $(3,\sqrt{2},5)$ lo denotaremos por
\[
4(3,\sqrt{2},5).
\]

El resultado es esta operación consiste consiste en multiplicar cada una de las entradas de nuestro vector por el número real escogido. Así, podemos ver que
\[
4(3,\sqrt{2},5) = (4(3), 4(\sqrt{2}), 4(5)),
\]
y, al igual que pasa con la suma, en cada entrada tenemos ahora operaciones en los números reales que podemos simplificar, de modo que
\[
(4(3), 4(\sqrt{2}), 4(5)) = (12,4\sqrt{2},20),
\]
y, por lo tanto,
\[
4(3,\sqrt{2},5) = (12,4\sqrt{2},20).
\]

Al número real por el cual multiplicamos el vector lo denominaremos escalar.

Repaso de propiedades de la suma y producto de números reales

Antes de pasar a ver algunas de las propiedades que cumplen las operaciones vistas anteriormente, será conveniente que repasemos algunas de las propiedades que cumplen los números reales (seguramente estas propiedades las recuerdas de tu curso de Cálculo Diferencial e Integral I). Recordemos que si $a$, $b$ y $c$ son números reales, entonces se cumplen las siguientes propiedades:

Suma:

  • Es asociativa: $(a+b)+c = a+(b+c)$.
  • Es conmutativa: $a+b = b+a$.
  • Tiene neutro: el $0$ es un número real y cumple que $a+0 = 0+a = a$.
  • Tiene inversos: para cada $a$ existe un número real, denotado $-a$, es cual cumple que $a+(-a) = (-a)+a = 0$.

Producto:

  • Es asociativo: $(ab)c = a(bc)$.
  • Es conmutativo: $ab = ba$.
  • Tiene neutro: el $1$ es un número real y cumple que $a(1) = (1)a = a$.
  • Tiene inversos: si $a$ es distinto a $0$, entonces existe un número real, denotado $a^{-1}$, el cual cumple que $a(a^{-1}) = (a^{-1})a = 1$.

Suma y producto:

  • El producto se distribuye sobre la suma: $a(b+c) = ab + ac$ y también $(a+b)c = ac + bc$.

Propiedades de suma y el producto escalar de vectores

En esta sección trabajaremos con vectores en $\mathbb{R}^3$, pero las deducciones son muy parecidas para vectores de cualquier otro tamaño (¿podrías intentarlas para vectores de $\mathbb{R}^4?$).

Primeramente, veamos un ejemplo. Observemos que si $u = (4,6,-2)$ y $v = (1,\tfrac{1}{3},2)$, entonces
\begin{align*}
(4,6,-2) + (1,\tfrac{1}{3}, 2)
&= (4+1,6+\tfrac{1}{3}, -2+2) \\
&= (1+4, \tfrac{1}{3}+6, 2+(-2)) \\
&= (1,\tfrac{1}{3}, 2) + (4,6,-2),
\end{align*}
es decir, $u + v = v+u$. La razón por la cual podemos intercambiar los sumandos en la segunda igualdad es porque las sumas en cada una de las entradas ya son sumas de números reales. Así, la conmutatividad de la suma de reales nos ayudó a ver la conmutatividad de una suma de vectores.

Como puedes ver, para llegar al resultado anterior no nos basamos en ningún valor de $u$ o $v$ en particular. ¡De hecho ni siquiera fue necesario hacer las operaciones! Nos basamos únicamente en las definiciones de igualdad y suma, y en las propiedades de los números reales. Por esta razón, este argumento lo podemos hacer general.

Observemos que cualesquiera vectores $u = (u_1,u_2,u_3)$ y $v=(v_1,v_2,v_3)$ cumplen que
\begin{align*}
u+v
&= (u_1,u_2,u_3)+(v_1,v_2,v_3) \\
&= (u_1+v_1,u_2+v_2,u_3+v_3) \\
&= (v_1+u_1,v_2+u_2,v_3+u_3) \\
&= (v_1,v_2,v_3)+(u_1,u_2,u_3) \\
&= v+u.
\end{align*}

Otra propiedad bastante interesante tiene que ver con un vector especial que conocimos anteriormente. Recordarás que en la entrada anterior definimos al vector cero. Como su nombre lo sugiere, este vector juega el papel de elemento neutro de la suma. Recordemos que el vector cero en $\mathbb{R}^3$ es $0=(0,0,0)$. Observemos que si $u = (8,\pi,-10)$, entonces
\[
u+0 = (8,\pi,-10) + (0,0,0) = (8+0,\pi+0,-10+0) = (8,\pi,-10) = u.
\]
Aunque pudiera parecer que en este caso sí simplificamos el resultado de la operación, en realidad otra vez hicimos únicamente uso de las definiciones de igualdad y suma de vectores, y esta vez la propiedad de que el $0$ (número real) es neutro para la suma de números reales.

Entonces, podemos ver que para cualquier vector $u = (u_1,u_2,u_3)$ se cumple que
\[
u+0 = (u_1,u_2,u_3) + (0,0,0) = (u_1+0,u_2+0,u_3+0) = (u_1,u_2,u_3) = u.
\]

Otras dos propiedades que cumple la suma de vectores, y que cuya deducción se deja como ejercicio al lector, son las siguientes:

  • Para cualesquiera vectores $u = (u_1,u_2,u_3)$, $v=(v_1,v_2,v_3)$ y $w=(w_1,w_2,w_3)$ se cumple que $(u+v)+w = u+(v+w)$.
  • Para cualquier vector $u = (u_1,u_2,u_3)$ existe un vector $v$ que cumple $u+v = 0$ (Recuerda que aquí $0$ denota al vector $(0,0,0)$. Basta con decir cuál es el vector $v$ que cumple esa propiedad). Más aún, podemos demostrar que $v$ es único para cada $u$. Por esta razón, al único vector $v$ que cumple esta propiedad lo denotaremos $-u$.

Por otra parte, revisemos algunas de las propiedades que cumplen en conjunto la suma de vectores y el producto escalar de vectores.

Veamos que para el escalar (número real) $r$ y para los vectores $u = (u_1,u_2,u_3)$ y $v=(v_1,v_2,v_3)$ se cumple que
\begin{align*}
r(u+v)
&= r((u_1,u_2,u_3) + (v_1,v_2,v_3)) \\
&= r(u_1+v_1, u_2+v_2, u_3+v_3) \\
&= (r(u_1+v_1), r(u_2+v_2), r(u_3+v_3)) \\
&= (ru_1+rv_1, ru_2+rv_2, ru_3+rv_3) \\
&= (ru_1,ru_2+ru_3) + (rv_1,rv_2,rv_3) \\
&= r(u_1,u_2,u_3) + r(v_1,v_2,v_3) \\
&= ru + rv.
\end{align*}

(¿Qué se está usando en cada igualdad? ¿Una definición? ¿Una propiedad de los números reales?)

Asimismo, para cuales quiera $r$ y $s$ escalares, y para cualquier vector $u = (u_1,u_2,u_3)$ se cumple que $(r+s)u = ru + su$. ¿Puedes ver cómo se deduce esta propiedad?

Aunque estas dos propiedades son muy parecidas, realmente dicen cosas distintas: $r(u+v)$ indica que el producto escalar se distribuye sobre la suma de vectores, mientras que $(r+s)u$ indica que el producto escalar se distribuye sobre la suma de escalares (números reales).

Una última propiedad de la suma de vectores y producto de vectores es la siguiente: si $r$ y $s$ son escalares, y $u=(u_1,u_2,u_3)$ es un vector, entonces
\begin{align*}
r(s(u))
&= r(s(u_1,u_2,u_3)) \\
&= r(su_1, su_2, su_3) \\
&= (r(su_1), r(su_2), r(su_3)) \\
&= ((rs)u_1, (rs)u_2, (rs)u_3) \\
&= (rs)(u_1,u_2,u_3) \\
&= (rs)u.
\end{align*}
Aún cuando pudiera parecer trivial, esta última propiedad es muy interesante, pues observemos que $r(su)$ involucra únicamente productos escalares, mientras que en $(rs)u$ aparecen tanto el producto de números reales como el producto escalar.

Conocer estas propiedades nos permitirá manipular con facilidad las operaciones entre vectores. Así, por ejemplo, para saber cuál es el resultado de $((1,4,-1) + 5(0,3,4)) + 5(1,1,-5)$, no tendremos que recurrir a efectuar cada operación por definición: podemos optar por manipular la expresión para obtener
\begin{align*}
((1,4,-1) + 5(0,3,4)) + 5(1,1,-5)
&= (1,4,-1) + (5(0,3,4) + 5(1,1,-5)) \\
&= (1,4,-1) + 5((0,3,4) + (1,1,-5)) \\
&= (1,4,-1) + 5(1,4,-1) \\
&= 1(1,4,-1) + 5(1,4,-1) \\
&= (1+5)(1,4,-1) \\
&= 6(1,4,-1) \\
&= (6,24,-6).
\end{align*}

¿Puedes ver qué propiedad(es) usamos en cada paso?

Suma de matrices

La suma de matrices con entradas reales es muy parecida a la suma de vectores. Al igual que con los vectores, tenemos que asegurarnos que las dos matrices que deseamos sumar tengan el mismo tamaño, es decir, que tengan el mismo número de filas y el mismo de columnas. La suma de matrices también la denotaremos utilizando el símbolo $+$ y de igual manera la realizaremos entrada a entrada, según la fila y columna que estemos calculando.

Así, por ejemplo, la suma de
\[
\begin{pmatrix}
8 & 0 & \sqrt{5} \\
-2 & 10 & 0
\end{pmatrix}
\qquad
\text{y}
\qquad
\begin{pmatrix}
-3 & 1 & \sqrt{5} \\
4 & \pi & -2
\end{pmatrix}
\]
es
\[
\begin{pmatrix}
8 & 0 & \sqrt{5} \\
-2 & 10 & 0
\end{pmatrix}
+
\begin{pmatrix}
-3 & 1 & \sqrt{5} \\
4 & \pi & -2
\end{pmatrix}
=
\begin{pmatrix}
8+(-3) & 0+1 & \sqrt{5}+\sqrt{5} \\
-2+4 & 10+\pi & 0+(-2)
\end{pmatrix},
\]
lo cual queda simplificado como,
\[
\begin{pmatrix}
8 & 0 & \sqrt{5} \\
-2 & 10 & 0
\end{pmatrix}
+
\begin{pmatrix}
-3 & 1 & \sqrt{5} \\
4 & \pi & -2
\end{pmatrix}
=
\begin{pmatrix}
5 & 1 & 2\sqrt{5} \\
2 & 10+\pi & -2
\end{pmatrix}.
\]

Producto escalar de matrices

A igual que pasa con la suma, también podemos definir el producto escalar de matrices. Como seguramente ya lo habrás imaginado, esta operación se parece mucho al producto escalar de vectores.

Esta operación involucra a un número real y a una matriz. La denotamos colocando al número real seguido de la matriz, y consiste en multiplicar cada entrada de la matriz por dicho número real.

Por ejemplo, el producto escalar de $-3$ y la matriz
\[
\begin{pmatrix}
8 & 3 \\
\frac{1}{2} & \pi \\
\frac{1}{3} & 4
\end{pmatrix}
\]
es
\[
(-3)
\begin{pmatrix}
8 & 3 \\
\frac{1}{2} & \pi \\
\frac{1}{3} & 4
\end{pmatrix}
=
\begin{pmatrix}
(-3)(8) & (-3)3 \\
(-3)(\frac{1}{2}) & (-3)(\pi) \\
(-3)(\frac{1}{3}) & (-3)4
\end{pmatrix},
\]
es decir,
\[
(-3)
\begin{pmatrix}
8 & 3 \\
\frac{1}{2} & \pi \\
\frac{1}{3} & 4
\end{pmatrix}
=
\begin{pmatrix}
-24 & -9 \\
-\tfrac{3}{2} & -3\pi \\
-1 & -12
\end{pmatrix}.
\]

Propiedades de suma y producto escalar de matrices

Veamos algunas propiedades que cumplen la suma y el producto escalar de matrices. Para esto, trabajaremos con matrices con tamaño $2 \times 3$, pero verás que las deducciones para matrices de cualquier otro tamaño son muy parecidas.

Recordemos que la matriz cero de tamaño $2 \times 3$ es
\[
\mathcal{O} = \mathcal{O}_{2 \times 3} =
\begin{pmatrix}
0 & 0 & 0 \\
0 & 0 & 0
\end{pmatrix}.
\]

Observemos que para cualquier matriz
\[
A =
\begin{pmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23}
\end{pmatrix}
\]
se cumple que
\begin{align*}
A + \mathcal{O}
&=
\begin{pmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23}
\end{pmatrix}
+
\begin{pmatrix}
0 & 0 & 0 \\
0 & 0 & 0
\end{pmatrix}
\\[5pt]
&=
\begin{pmatrix}
a_{11}+0 & a_{12}+0 & a_{13}+0 \\
a_{21}+0 & a_{22}+0 & a_{23}+0
\end{pmatrix}
\\[5pt]
&=
\begin{pmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23}
\end{pmatrix}
\\[5pt]
&= A.
\end{align*}

Por otra parte, dada una matriz $A$, como cada entrada $a_{ij}$ de la matriz es un número real, entonces tienen un respectivo inverso aditivo, es decir, un número $(-a_{ij})$ que cumple que $a_{ij}+(-a_{ij}) = 0$. Así, si definimos
\[
B=
\begin{pmatrix}
(-a_{11}) & (-a_{12}) & (-a_{13}) \\
(-a_{21}) & (-a_{22}) & (-a_{23})
\end{pmatrix}.
\]
Entonces, observemos que
\begin{align*}
A + B
&=
\begin{pmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{2_3}
\end{pmatrix}
+
\begin{pmatrix}
(-a_{11}) & (-a_{12}) & (-a_{13}) \\
(-a_{21}) & (-a_{22}) & (-a_{23})
\end{pmatrix}
\\[5pt]
&=
\begin{pmatrix}
a_{11}+(-a_{11}) & a_{12}+(-a_{12}) & a_{13}+(-a_{13}) \\
a_{21}+(-a_{21}) & a_{22}+(-a_{22}) & a_{23}+(-a_{23})
\end{pmatrix}
\\[5pt]
&=
\begin{pmatrix}
0 & 0 & 0 \\
0 & 0 & 0
\end{pmatrix}
\\[5pt]
&=
\mathcal{O}.
\end{align*}

La matriz $B$ la definimos basándonos en la matriz $A$. Entonces, para cada matriz existe una matriz $B$ que cumple que $A + B = \mathcal{O}$. Como te podrás dar cuenta, la matriz $B$ que cumple esta propiedad es única (¿por qué se cumple esto?); por esta razón, a la $B$ que cumple esta propiedad la denotamos como $-A$.

Seguramente notarás que estas dos propiedades se parecen mucho a las que cumple la suma de vectores. ¿Podrías también probar las siguientes propiedades?

Para cuales quiera matrices $A$, $B$ y $C$ de tamaño $2\times 3$ se cumple que

  • $(A+B)+C = A+(B+C)$.
  • $A+B = B+A$.

Por otra parte, el producto escalar de matrices también se comporta de manera similar al producto escalar de vectores.

Si $r$ y $s$ son escalares y
\[
A =
\begin{pmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23}
\end{pmatrix},
\]
entonces
\begin{align*}
(r+s)A
&=
(r+s)
\begin{pmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23}
\end{pmatrix}
\\[5pt]
&=
\begin{pmatrix}
(r+s)a_{11} & (r+s)a_{12} & (r+s)a_{13} \\
(r+s)a_{21} & (r+s)a_{22} & (r+s)a_{23}
\end{pmatrix}
\\[5pt]
&=
\begin{pmatrix}
ra_{11}+sa_{11} & ra_{12}+sa_{12} & ra_{13}+sa_{13} \\
ra_{21}+sa_{21} & ra_{22}+sa_{12} & ra_{23}+sa_{23}
\end{pmatrix}
\\[5pt]
&=
\begin{pmatrix}
ra_{11} & ra_{12} & ra_{13} \\
ra_{21} & ra_{22} & ra_{23}
\end{pmatrix}
+
\begin{pmatrix}
sa_{11} & sa_{12} & sa_{13} \\
sa_{21} & sa_{22} & sa_{23}
\end{pmatrix}
\\[5pt]
&=
r
\begin{pmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23}
\end{pmatrix}
+
s
\begin{pmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23}
\end{pmatrix}
\\[5pt]
&=
rA + sA.

\end{align*}

Dejamos como ejercicio para el lector probar también las siguientes propiedades:

Para cualquiesquiera escalares $r$ y $s$, y cualesquiera matrices $A$ y $B$ de tamaño $2\times 3$, se cumple que

  • $r(A+B) = rA + rB$.
  • $r(sA) = (rs)A$.

Más adelante…

En esta entrada conocimos las suma y el producto escalar de vectores/matrices, y revisamos algunas propiedades que estas operaciones cumple. Emplear sus propiedades nos permitirá calcular de manera más sencilla sus resultados, además de que se integrarán con operaciones que definiremos en entradas futuras.

En la siguiente entrada conoceremos una nueva operación, la cual involucra al mismo tiempo matrices y vectores.

Tarea moral

  1. Sea $A=\begin{pmatrix} 1 & 2 \\ 3 & 4\end{pmatrix}$. Encuentra explícitamente el resultado de la operación $A+2A+3A+4A+5A+6A+7A$. Como sugerencia, si usas apropiadamente las propiedades que hemos discutido, sólo tendrás que hacer un producto escalar.
  2. ¿Podrías desarrollar las pruebas de las propiedades de suma y producto escalar para vectores en $\mathbb{R}^4$? ¿Podrías hacerlo para suma y producto escalar de matrices de $3 \times 2$?
  3. Como vimos en esta entrada, para cada vector $u$ existe un vector $v$ que cumple que $u+v = 0$. ¿Puedes ver por qué $v$ es único?
  4. En los reales está el escalar $-1$. Demuestra que el producto escalar $(-1)v$ es precisamente el inverso aditivo $-v$ de $v$. Enuncia y demuestra un resultado similar para matrices.
  5. Podemos definir la resta de vectores (o de matrices) de la siguiente manera: $u-v=u+(-v)$. Determina si esta operación es asociativa, conmutativa, si tiene neutro y/o inversos.

Entradas relacionadas

Álgebra Superior I: Los espacios vectoriales $\mathbb{R}^2$ y $\mathbb{R}^3$

Por Eduardo García Caballero

Introducción

A lo largo de esta unidad nos hemos enfocado en estudiar los vectores, las operaciones entre estos y sus propiedades. Sin embargo, hasta ahora solo hemos ocupado una definición provisional de vectores —listas ordenadas con entradas reales—, pero no hemos dado una definición formal de estos. En esta entrada definiremos qué es un espacio vectorial y exploraremos algunas de las propiedades de dos ejemplos importantes de espacios vectoriales: $\mathbb{R}^2$ y $\mathbb{R}^3$-

Las propiedades de espacio vectorial

En entradas anteriores demostramos que los pares ordenados con entradas reales (es decir, los elementos de $\mathbb{R}^2$), en conjunto con la suma entrada a entrada y el producto escalar, cumplen las siguientes propiedades:

1. La suma es asociativa:
\begin{align*}
(u+v)+w &= ((u_1,u_2) + (v_1,v_2)) + (w_1,w_2) \\
&= (u_1,u_2) + ((v_1,v_2) + (w_1,w_2)) \\
&= u+(v+w).\end{align*}

2. La suma es conmutativa:
\begin{align*}u+v &= (u_1,u_2) + (v_1,v_2) \\&= (v_1,v_2) + (u_1,u_2) \\&= v+u.\end{align*}

3. Existe un elemento neutro para la suma:
\begin{align*}
u + 0 &= (u_1,u_2) + (0,0) \\&= (0,0) + (u_1,u_2) \\&= (u_1,u_2) \\&= u.
\end{align*}

4. Para cada par ordenado existe un elemento inverso:
\begin{align*}
u + (-u) &= (u_1,u_2) + (-u_1,-u_2) \\&= (-u_1,-u_2) + (u_1,u_2) \\&= (0,0) \\&= 0.
\end{align*}

5. La suma escalar se distribuye bajo el producto:
\begin{align*}
(r+s)u &= (r+s)(u_1,u_2) \\&= r(u_1,u_2) + s(u_1,u_2) \\&= ru + su.
\end{align*}

6. La suma de pares ordenados se distribuye bajo el producto escalar:
\begin{align*}
r(u + v) &= r((u_1,u_2) + (v_1,v_2)) \\&= r(u_1,u_2) + r(v_1,v_2) \\&= ru + rv.
\end{align*}

7. El producto escalar es compatible con el producto de reales:
\[
(rs)u = (rs)(u_1,u_2) = r(s(u_1,u_2)) = r(su).
\]

8. Existe un elemento neutro para el producto escalar, que justo es el neutro del producto de reales:
\[
1u = 1(u_1,u_2) = (u_1,u_2) = u.
\]

Cuando una colección de objetos matemáticos, en conjunto con una operación de suma y otra operación de producto, cumple las ocho propiedades anteriormente mencionadas, decimos que dicha colección forma un espacio vectorial. Teniendo esto en consideración, los objetos matemáticos que pertenecen a la colección que forma el espacio vectorial los llamaremos vectores.

Así, podemos ver que los pares ordenados con entradas reales, en conjunto con la suma entrada a entrada y el producto escalar, forman un espacio vectorial, al cual solemos denominar $\mathbb{R}^2$. De este modo, los vectores del espacio vectorial $\mathbb{R}^2$ son exactamente los pares ordenados con entradas reales.

Como recordarás, anteriormente también demostramos que las ternas ordenadas con entradas reales, en conjunto con su respectiva suma entrada a entrada y producto escalar, cumplen las ocho propiedades antes mencionadas (¿puedes verificarlo?). Esto nos indica que $\mathbb{R}^3$ también es un espacio vectorial, y sus vectores son las ternas ordenadas con entradas reales. En general, el que un objeto matemático se pueda considerar o no como vector dependerá de si este es elemento de un espacio vectorial.

Como seguramente sospecharás, para valores de $n$ distintos de 2 y de 3 también se cumple que $\mathbb{R}^n$ forma un espacio vectorial. Sin embargo los espacios $\mathbb{R}^2$ y $\mathbb{R}^3$ son muy importantes pues podemos visualizarlos como el plano y el espacio, logrando así describir muchas de sus propiedades. Por esta razón, en esta entrada exploraremos algunas de las principales propiedades de $\mathbb{R}^2$ y $\mathbb{R}^3$.

Observación. Basándonos en la definición, el hecho de que una colección de elementos se pueda considerar o no como espacio vectorial depende también a las operaciones de suma y producto. Por esta razón, es común (y probablemente más conveniente) encontrar denotado el espacio vectorial $\mathbb{R}^2$ como $(\mathbb{R}^2,+,\cdot)$. Más aún, a veces será importante destacar a los elementos escalares y neutros, encontrando el mismo espacio denotado como $(\mathbb{R}^2, \mathbb{R}, +, \cdot, 0, 1)$. Esto lo veremos de manera más frecuente cuando trabajamos con más de un espacio vectorial, sin embargo, cuando el contexto nos permite saber con qué operaciones (y elementos) se está trabajando, podemos omitir ser explícitos y denotar el espacio vectorial simplemente como $\mathbb{R}^2$ o $\mathbb{R}^3$.

Combinaciones lineales

Como vimos en entradas anteriores, la suma de vectores en $\mathbb{R}^2$ la podemos visualizar en el plano como el resultado de poner una flecha seguida de otra, mientras que el producto escalar lo podemos ver como redimensionar y/o cambiar de dirección una flecha.

En el caso de $\mathbb{R}^3$, la intuición es la misma, pero esta vez en el espacio.

Si tenemos varios vectores, podemos sumar múltiplos escalares de ellos para obtener otros vectores. Esto nos lleva a la siguiente definición.

Definición. Dado un conjunto de $n$ vectores $v_1, \ldots, v_n$ en $\mathbb{R}^2$ o ($\mathbb{R}^3$), definimos una combinación lineal de estos vectores como el resultado de la operación
\[
r_1v_1 + r_2v_2 + \cdots + r_nv_n,
\]
donde $r_1, \ldots, r_n$ son escalares.

Ejemplo. En $\mathbb{R}^2$, las siguientes son combinaciones lineales:
\begin{align*}
4(9,-5) + 7(-1,0) + 3(-4,2) &= (17,-14), \\[10pt]
5(1,0) + 4(-1,-1) &= (1,-4), \\[10pt]
-1(1,0) + 0(-1,-1) &= (-1,0), \\[10pt]
5(3,2) &= (15,10).
\end{align*}
De este modo podemos decir que $(17,-14)$ es combinación lineal de los vectores $(9,-5)$, $(-1,0)$ y $(-4,2)$; los vectores $(1,-4)$ y $(-1,0)$ son ambos combinación lineal de los vectores $(1,0)$ y $(-1,-1)$; y $(15,10)$ es combinación lineal de $(3,2)$.

Las combinaciones lineales también tienen un significado geométrico. Por ejemplo, la siguiente figura muestra cómo se vería que $(1,-4)$ es combinación lineal de $(1,0)$ y $(-1,-1)$:

$\triangle$

Ejemplo. En el caso de $\mathbb{R}^3$, observamos que $(7,13,-22)$ es combinación lineal de los vectores $(8,1,-5)$, $(1,0,2)$ y $(9,-3,2)$, pues
\[
4(8,1,-5) + 2(1,0,2) + (-3)(9,-3,2) = (7,13,-22).
\]

$\triangle$

Espacio generado

La figura de la sección anterior nos sugiere cómo entender a una combinación lineal de ciertos vectores dados. Sin embargo, una pregunta natural que surge de esto es cómo se ve la colección de todas las posibles combinaciones lineales de una colección de vectores dados.

Definición. Dado un conjunto de $n$ vectores $v_1, \ldots, v_n$ en $\mathbb{R}^2$ o ($\mathbb{R}^3$), definimos al espacio generado por ellos como el conjunto de todas sus posibles combinaciones lineales. Al espacio generado por estos vectores podemos encontrarlo denotado como $\operatorname{span}(v_1, \ldots, v_n)$ o $\langle v_1, \ldots, v_n \rangle$ (aunque esta última notación a veces se suele dejar para otra operación del álgebra lineal).

¿Cómo puede verse el espacio generado por algunos vectores? Puede demostrarse que en el caso de $\mathbb{R}^2$ tenemos los siguientes casos.

  • Un punto: esto sucede si y sólo si todos los vectores del conjunto son iguales al vector $0$.
  • Una recta: esto sucede si al menos un vector $u$ es distinto de 0 y todos los vectores se encuentran alineados. La recta será precisamente aquella formada por los múltiplos escalares de $u$.
  • Todo $\mathbb{R}^2$: esto sucede si al menos dos vectores $u$ y $v$ de nuestro conjunto no son cero y además no están alineados. Intenta convencerte que en efecto en este caso puedes llegar a cualquier vector del plano sumando un múltiplo de $u$ y uno de $v$.

En $\mathbb{R}^3$, puede mostrarse que el espacio generado se ve como alguna de las siguientes posibilidades:

  • Un punto: esto sucede si y sólo si todos los vectores del conjunto son iguales al vector $0$.
  • Una recta: esto sucede si al menos un vector $u$ es distinto de $0$ y todos los vectores se encuentran alineados con $u$. La recta consiste precisamente de los reescalamientos de $u$.
  • Un plano: esto sucede si al menos dos vectores $u$ y $v$ no son cero y no están alineados, y además todos los demás están en el plano generado por $u$ y $v$ estos dos vectores.
  • Todo $\mathbb{R}^3$: esto sucede si hay tres vectores $u$, $v$ y $w$ que cumplan que ninguno es el vector cero, no hay dos de ellos alineados, y además el tercero no está en el plano generado por los otros dos.

Muchas veces no sólo nos interesa conocer la forma del espacio generado, sino también obtener una expresión que nos permita conocer qué vectores pertenecen a este. Una forma en la que podemos hacer esto es mediante ecuaciones.

Ejemplo. Por ejemplo, observemos que el espacio generado el vector $(3,2)$ en $\mathbb{R}^2$ corresponde a los vectores $(x,y)$ que son de la forma
\[
(x,y) = r(2,3),
\]
donde $r \in \mathbb{R}$ es algún escalar. Esto se cumple si y sólo si
\[
(x,y) = (2r,3r),
\]
lo cual a su vez se cumple si y sólo si $x$ y $y$ satisfacen el sistema de ecuaciones
\[
\begin{cases}
x = 2r \\
y = 3r
\end{cases}.
\]
Si despejamos $r$ en ambas ecuaciones y las igualamos, llegamos a que
\[
\frac{x}{2} = \frac{y}{3},
\]
de donde podemos expresar la ecuación de la recta en su forma homogénea:
\[
\frac{1}{2}x – \frac{1}{3}y = 0;
\]
o bien en como función de $y$:
\[
y = \frac{3}{2}x.
\]

$\triangle$

La estrategia anterior no funciona para todos los casos, y tenemos que ser un poco más cuidadosos.

Ejemplo. El espacio generado por $(0,4)$ corresponde a todos los vectores $(x,y)$ tales que existe $r \in \mathbb{R}$ que cumple
\begin{align*}
(x,y) &= r(0,4) \\
(x,y) &= (0,4r),
\end{align*}
es decir,
\[
\begin{cases}
x = 0 \\
y = 4r
\end{cases}.
\]
En este caso, la única recta que satisface ambas ecuaciones es la recta $x = 0$, la cual no podemos expresar como función de $y$.

En la siguiente entrada veremos otras estrategias para describir de manera analítica el espacio generado.

$\triangle$

El saber si un vector está o no en el espacio generado por otros es una pregunta que se puede resolver con un sistema de ecuaciones lineales.

Ejemplo. ¿Será que el vector $(4,1,2)$ está en el espacio generado por los vectores $(2,3,1)$ y $(1,1,1)$? Para que esto suceda, necesitamos que existan reales $r$ y $s$ tales que $r(2,3,1)+s(1,1,1)=(4,1,2)$. Haciendo las operaciones vectoriales, esto quiere decir que $(2r+s,3r+s,r+s)=(4,1,2)$, de donde tenemos el siguiente sistema de ecuaciones:

$$\left\{\begin{matrix} 2r+s &=4 \\ 3r+s&=1 \\ r+s &= 2.\end{matrix}\right.$$

Este sistema no tiene solución. Veamos por qué. Restando la primera igualdad a la segunda, obtendríamos $r=1-4=-3$. Restando la tercera igualdad a la primera, obtendríamos $r=2-4=-2$. Así, si hubiera solución tendríamos la contradicción $-2=r=-3$. De este modo no hay solución.

Así, el vector $(4,1,2)$ no está en el espacio generado por los vectores $(2,3,1)$ y $(1,1,1)$. Geométricamente, $(4,1,2)$ no está en el plano en $\mathbb{R}^3$ generado por los vectores $(2,3,1)$ y $(1,1,1)$.

$\triangle$

Si las preguntas de espacio generado tienen que ver con sistemas de ecuaciones lineales, entonces seguramente estarás pensando que todo lo que hemos aprendido de sistemas de ecuaciones lineales nos servirá. Tienes toda la razón. Veamos un ejemplo importante.

Ejemplo. Mostraremos que cualquier vector en $\mathbb{R}^2$ está en el espacio generado por los vectores $(1,2)$ y $(3,-1)$. Para ello, tomemos el vector $(x,y)$ que nosotros querramos. Nos gustaría (fijando $x$ y $y$) poder encontrar reales $r$ y $s$ tales que $r(1,2)+s(3,-1)=(x,y)$. Esto se traduce al sistema de ecuaciones

$$\left \{ \begin{matrix} r+3s&=x\\2r-s&=y. \end{matrix} \right.$$

En forma matricial, este sistema es $$\begin{pmatrix} 1 & 3 \\ 2 & -1 \end{pmatrix} \begin{pmatrix} r \\ s \end{pmatrix} = \begin{pmatrix} x \\ y \end{pmatrix}.$$

Como la matriz $\begin{pmatrix} 1 & 3 \\ 2 & -1 \end{pmatrix}$ tiene determinante $1(-1)-(3)(2)=-7$, entonces es invertible. ¡Entonces el sistema siempre tiene solución única en $r$ y $s$ sin importar el valor de $x$ y $y$! Hemos con ello demostrado que cualquier vector $(x,y)$ es combinación lineal de $(1,2)$ y $(3,-1)$ y que entonces el espacio generado por ambos es todo $\mathbb{R}^2$.

$\triangle$

Independencia lineal

Mientras platicábamos en la sección anterior de las posibilidades que podía tener el espcio generado de un conjunto de vectores en $\mathbb{R}^2$ y $\mathbb{R}^3$, fuimos haciendo ciertas precisiones: «que ningún vector sea cero», «que nos vectores no estén alineados», «que ningún vector esté en los planos por los otros dos», etc. La intuición es que si pasaba lo contrario a alguna de estas cosas, entonces los vectores no podían generar «todo lo posible». Si sí se cumplían esas restricciones, entonces cierta cantidad de vectores sí tenía un espacio generado de la dimensión correspondiente (por ejemplo, $2$ vectores de $\mathbb{R}^3$ no cero y no alineados sí generan un plano, algo de dimensión $2$). Resulta que todas estas restricciones se pueden resumir en una definición muy importante.

Definición. Dado un conjunto de $n$ vectores $v_1, \ldots, v_n$ en $\mathbb{R}^2$ o ($\mathbb{R}^3$), diremos que son linealmente independientes si es imposible escribir al vector $0$ como combinación lineal de ellos, a menos que todos los coeficientes de la combinación lineal sean iguales a $0$. En otras palabras, si sucede que $$r_1v_1 + r_2v_2 + \cdots + r_nv_n=0,$$ entonces forzosamente fue porque $r_1=r_2=\ldots=r_n=0$.

Puede mostrarse que si un conjunto de vectores es linealmente independiente, entonces ninguno de ellos se puede escribir como combinación lineal del resto de vectores en el conjunto. Así, la intuición de que «generan todo lo que pueden generar» se puede justificar como sigue: como el primero no es cero, genera una línea. Luego, como el segundo no es múltiplo del primero, entre los dos generarán un plano. Y si estamos en $\mathbb{R}^3$, un tercer vector quedará fuera de ese plano (por no ser combinación lineal de los anteriores) y entonces generarán entre los tres a todo el espacio.

La independencia lineal también se puede estudiar mediante sistemas de ecuaciones lineales.

Ejemplo. ¿Serán los vectores $(3,-1,-1)$, $(4,2,1)$ y $(0,-10,-7)$ linealmente independientes? Para determinar esto, queremos saber si existen escalares $r,s,t$ tales que $r(3,-1,-1)+s(4,2,1)+t(0,-10,-7)=(0,0,0)$ en donde al menos alguno de ellos no es el cero. Esto se traduce a entender las soluciones del siguiente sistema de ecuaciones:

$$\left\{ \begin{array} 33r + 4s &= 0 \\ -r +2s -10t &= 0 \\ -r + s -7t &= 0.\end{array} \right. $$

Podemos entender todas las soluciones usando reducción Gaussiana en la siguiente matriz:

$$\begin{pmatrix} 3 & 4 & 0 & 0 \\ -1 & 2 & -10 & 0 \\ -1 & 1 & -7 & 0 \end{pmatrix}.$$

Tras hacer esto, obtenemos la siguiente matriz:

$$\begin{pmatrix}1 & 0 & 4 & 0\\0 & 1 & -3 & 0\\0 & 0 & 0 & 0 \end{pmatrix}.$$

Así, este sistema de ecuaciones tiene a $t$ como variable libre, que puede valer lo que sea. De aquí, $s=3t$ y $r=-4t$ nos dan una solución. Así, este sistema tiene una infinidad de soluciones. Tomando por ejemplo $t=1$, tenemos $s=3$ y $r=-4$. Entonces hemos encontrado una combinación lineal de los vectores que nos da el vector $(0,0,0)$. Puedes verificar que, en efecto, $$(-4)(3,-1,-1)+3(4,2,1)+(0,-10,-7)=(0,0,0).$$

Concluimos que los vectores no son linealmente independientes.

$\triangle$

Si la única solución que hubiéramos obtenido es la $r=s=t=0$, entonces la conclusión hubiera sido que sí, que los vectores son linealmente independientes. También podemos usar lo que hemos aprendido de matrices y determinantes en algunos casos para poder decir cosas sobre la independencia lineal.

Ejemplo. Mostraremos que los vectores $(2,3,1)$, $(0,5,2)$ y $(0,0,1)$ son linealmente independientes. ¿Qué sucede si una combinación lineal de ellos fuera el vector cero? Tendríamos que $r(2,3,1)+s(0,5,2)+t(0,0,1)=(0,0,0)$, que se traduce en el sistema de ecuaciones $$\left\{ \begin{array} 2r &= 0 \\ 3r + 5s &= 0 \\ r + 2s + t &= 0. \end{array}\right.$$

La matriz asociada a este sistema de ecuaciones es $\begin{pmatrix} 2 & 0 & 0 \\ 3 & 5 & 0 \\ 1 & 2 & 1 \end{pmatrix}$, que por ser triangular inferior tiene determinante $2\cdot 5 \cdot 1 = 10\neq 0$. Así, es una matriz invertible, de modo que el sistema de ecuaciones tiene una única solución. Como $r=s=t$ sí es una solución, esta debe ser la única posible. Así, los vectores $(2,3,1)$, $(0,5,2)$ y $(0,0,1)$ son linealmente independientes. Geométricamente, ninguno de ellos está en el plano hecho por los otros dos.

$\triangle$

Bases

Como vimos anteriormente, existen casos en los que el espacio generado por vectores en $\mathbb{R}^2$ (o $\mathbb{R}^3$) no genera a todo el plano (o al espacio). Por ejemplo, en ambos espacios vectoriales, el espacio generado por únicamente un vector es una recta. Esto también puede pasar aunque tengamos muchos vectores. Si todos ellos están alineados con el vector $0$, entonces su espacio generado sigue siendo una recta también. En la sección anterior platicamos que intuitivamente el problema es que los vectores no son linealmente independientes. Así, a veces unos vectores no generan todo el espacio que pueden generar.

Hay otras ocasiones en las que unos vectores sí generan todo el espacio que pueden generar, pero lo hacen de «manera redundante», en el sentido de que uno o más vectores se pueden poner de más de una forma como combinación lineal de los vectores dados.

Ejemplo. Si consideramos los vectores $(2,1)$, $(1,0)$ y $(2,3)$, observamos que el vector $(2,3)$ se puede escribir como
\[
0(2,1)+3(1,0) + 2(2,3) = (7,6)
\]
o
\[
3(2,2) + 1(1,0) + 0(2,3)= (7,6),
\]
siendo ambas combinaciones lineales del mismo conjunto de vectores.

$\triangle$

Uno de los tipos de conjuntos de vectores más importantes en el álgebra lineal son aquellos conocidos como bases, que evitan los dos problemas de arriba. Por un lado, sí generan a todo el espacio. Por otro lado, lo hacen sin tener redundancias.

Definición. Diremos que un conjunto de vectores es base de $\mathbb{R}^2$ (resp. $\mathbb{R}^3$) si su espacio generado es todo $\mathbb{R}^2$ (resp. $\mathbb{R}^3$) y además son linealmente independientes.

El ejemplo de base más inmediato es el conocido como base canónica.

Ejemplo. En el caso de $\mathbb{R}^2$, la base canónica es $(1,0)$ y $(0,1)$. En \mathbb{R}^3$ la base canónica es $(1,0,0)$, $(0,1,0)$ y $(0,0,1)$.

Partiendo de las definiciones dadas anteriormente, vamos que cualquier vector $(a,b)$ en $\mathbb{R}$ se puede escribir como $a(1,0) + b(0,1)$; y cualquier vector $(a,b,c)$ en $\mathbb{R}^3$ se puede escribir como $a(1,0,0) + b(0,1,0) + c(0,0,1)$.

Más aún, es claro que los vectores $(1,0)$ y $(0,1)$ no están alineados con el origen. Y también es claro que $(1,0,0),(0,1,0),(0,0,1)$ son linealmente idependientes, pues la combinación lineal $r(1,0,0)+s(0,1,0)+t(0,0,1)=(0,0,0)$ implica directamente $r=s=t=0$.

$\triangle$

Veamos otros ejemplos.

Ejemplo. Se tiene lo siguiente:

  • Los vectores $(3,4)$ y $(-2,0)$ son base de $\mathbb{R}^2$ pues son linealmente independientes y su espacio generado es todo $\mathbb{R}^2$.
  • Los vectores $(8,5,-1)$, $(2,2,7)$ y $(-1,0,9)$ son base de $\mathbb{R}^3$ pues son linealmente independientes y su espacio generado es todo $\mathbb{R}^3$.

¡Ya tienes todo lo necesario para demostrar las afirmaciones anteriores! Inténtalo y haz dibujos en $\mathbb{R}^2$ y $\mathbb{R}^3$ de dónde se encuentran estos vectores.

$\triangle$

Como podemos observar, las bases de un espacio vectorial no son únicas, sin embargo, las bases que mencionamos para $\mathbb{R}^2$ coinciden en tener dos vectores, mientras que las bases para $\mathbb{R}^3$ coinciden en tener tres vectores. ¿Será cierto que todas las bases para un mismo espacio vectorial tienen la misma cantidad de vectores?

Más adelante…

En esta entrada revisamos qué propiedades debe cumplir una colección de objetos matemáticos para que sea considerado un espacio vectorial, además de que analizamos con más detalle los espacios vectoriales $\mathbb{R}^2$ y $\mathbb{R}^3$.

Como seguramente sospecharás, para otros valores de $n$ también se cumple que $\mathbb{R}^n$, en conjunto con sus respectivas suma entrada a entrada y producto escalar, forman un espacio vectorial. Sin embargo, en contraste con los espacios $\mathbb{R}^2$ y $\mathbb{R}^3$, este espacio es más difícil de visualizar. En la siguiente entrada generalizaremos para $\mathbb{R}^n$ varias de las propiedades que aprendimos en esta entrada.

Tarea moral

  1. Realiza lo siguiente:
    • De entre los siguientes vectores, encuentra dos que sean linealmente independientes: $(10,16),(-5,-8),(24,15),(10,16),(15,24),(-20,-32)$.
    • Encuentra un vector de $\mathbb{R}^2$ que genere a la recta $2x+3y=0$.
    • Determina qué es el espacio generado por los vectores $(1,2,3)$ y $(3,2,1)$ de $\mathbb{R}^3$.
    • Da un vector $(x,y,z)$ tal que $(4,0,1)$, $(2,1,0)$ y $(x,y,z)$ sean una base de $\mathbb{R}^3$.
  2. Demuestra que $(0,0)$ es el único vector $w$ en $\mathbb{R}^2$ tal que para todo vector $v$ de $\mathbb{R}^2$ se cumple que $v+w=v=w+v$.
  3. Prueba las siguientes dos afirmaciones:
    • Tres o más vectores en $\mathbb{R}^2$ nunca son linealmente independientes.
    • Dos o menos vectores en $\mathbb{R}^3$ nunca son un conjunto generador.
  4. Sean $u$ y $v$ vectores en $\mathbb{R}^2$ distintos del vector cero. Demuestra que $u$ y $v$ son linealmente independientes si y sólo si $v$ no está en la línea generada por $u$.
  5. Encuentra todas las bases de $\mathbb{R}^3$ en donde las entradas de cada uno de los vectores de cada base sean iguales a $0$ ó a $1$.

Entradas relacionadas

Álgebra Superior I: Introducción a vectores y matrices con entradas reales

Por Eduardo García Caballero

Introducción

Los vectores y las matrices son algunos de los objetos matemáticos que nos encontraremos con mayor frecuencia durante nuestra formación matemática. Esto se debe a que nos permiten abordar con sencillez varios problemas de distintas áreas de las matemáticas, como lo son la geometría analítica y la teoría de gráficas. Además, nos ayudan a modelar con gran precisión fenómenos de otras disciplinas, como de la mecánica clásica, gráficos por computadora, circuitos eléctricos, robótica, entre otras.

A pesar de que el estudio a profundidad de los vectores y matrices lo realizaremos en los cursos de Álgebra Lineal I y Álgebra Lineal II, esto no es un impedimento para que nos familiaricemos con varios de los conceptos, técnicas y algoritmos que nos permitirán sacar provecho a esta maravillosa área de las matemáticas.

¿Qué son los vectores?

Dependiendo del área que estudiemos, nos podríamos encontrar con distintas definiciones de vectores. Por ejemplo, en la mecánica clásica se visualiza a los vectores como flechas en el plano o en el espacio, ancladas en un «origen» o en cualquier otro punto del plano. En ciencias de la computación, entenderemos que un vector consiste en un arreglo en el que todas sus entradas son datos del mismo tipo. Como veremos más adelante, las distintas formas de visualizar los vectores son equivalentes.

En este curso trabajaremos con un tipo específico de vectores: los vectores cuyas entradas son números reales. ¿Números reales? Sí. Aquí el temario de la asignatura de un brinco un poco grande. Hasta ahora, hemos intentado construir las matemáticas desde sus fundamentos: lógica, conjuntos, funciones, números naturales, etc. Sin embargo, ahora trabajaremos con el conjunto $\mathbb{R}$ de números reales.

Ya platicamos de que el conjunto de naturales $\mathbb{N}$ se puede pensar desde un sistema axiomático y que de hecho podemos «construir» a los naturales a partir de nociones de teoría de conjuntos. En el curso de Álgebra Superior 2 se platica de cómo construir al conjunto $\mathbb{Z}$ de enteros a partir de $\mathbb{N}$, al conjunto $\mathbb{Q}$ de racionales a partir de $\mathbb{Z}$ y finalmente de cómo construir a $\mathbb{R}$ desde $\mathbb{Q}$. Pero por ahora supondremos la existencia de $\mathbb{R}$ y que cumple todos los axiomas que se tratan por ejemplo en un curso de Cálculo Diferencial e Integral I.

Vectores con entradas reales

Un vector con entradas reales lo podemos entender como una lista ordenada de uno o más números (también conocida como tupla) en la que todos sus valores son números reales. Aquí «lista ordenada» lo pensamos no en el sentido de que sus entradas «van creciendo o decreciendo en orden», sino en el sentido «ordenado» como de parejas ordenadas de la segunda unidad de estas notas. Es decir, no nos importan no sólo los números usados, sino también en qué lugar quedaron.

Un ejemplo que seguramente ya has visto en tus clases de geometría analítica son los vectores en el plano o en el espacio. Recordemos que el vector $(5, \pi)$ determina una única posición en el plano, mientras que $\left(8, \sqrt{2}, \tfrac{4}{3}\right)$ determina una única posición en el espacio. Como ambas tuplas están formadas únicamente por números reales, podemos decir que son vectores con entradas reales. A cada uno de los números que aparecen en la lista le llamaremos entrada, y nos podemos referir a la posición de la entrada para decir cuál es su valor; por ejemplo, la primera entrada de $(5, \pi)$ es $5$, mientras que la tercera entrada de $\left(8, \sqrt{2}, \tfrac{4}{3}\right)$ es $\tfrac{4}{3}$.

Como recordarás, decimos que estos vectores se encuentran en $\mathbb{R}^2$ y $\mathbb{R}^3$, respectivamente. Analizando los ejemplos, te darás cuenta de que el número que acompaña a $\mathbb{R}$ se refiere a la cantidad de números reales que están enlistados en cada vector. Entonces, probablemente te preguntarás qué pasa con listas de más números. Aunque quizá sean más difíciles de visualizar (¡aunque no imposibles!), también existen vectores con cuatro, cinco o incluso más entradas. Esto nos lleva a la siguiente definición.

Definición. Para un número entero positivo $n$, un vector con $n$ entradas reales es una lista ordenada de $n$ elementos, el cual escribiremos $(x_1,x_2,\ldots,x_n)$. El conjunto $\mathbb{R}^n$ consiste de todos los vectores con $n$ entradas reales.

Así, podemos ver que tenemos que $(1,-3.5,e,1)$ es un vector en $\mathbb{R}^4$, mientras que $(1,1,2,3,5,7,13)$ es un vector en $\mathbb{R}^7$. En notación de conjuntos, $(1,-3.5,e,1)\in\mathbb{R}^4$ y $(1,1,2,3,5,7,13)\in\mathbb{R}^7$.

Una forma de empezar a ver cómo los vectores se relacionan entre ellos es preguntándonos cuándo estos son iguales. La primera condición que seguramente se nos vendrá a la mente es que los dos vectores deben tener la misma longitud; de este modo, podemos inmediatamente descartar que $(5, \pi)$ y $(8, \sqrt{2}, \tfrac{4}{3})$ sean iguales.

Otra condición que seguramente consideraremos es que todas sus entradas deben ser iguales. Así, podemos también descartar que $(5, \pi)$ y $(4, 8)$ sean iguales. Sin embargo, ¿son $(5,\pi)$ y $(\pi, 5)$ iguales? Como recordarás, los vectores son listas ordenadas, por lo que no sólo es importante que tengan las mismas entradas, sino que también aparezcan en el mismo orden. Así, podemos también descartar que $(5,\pi)$ y $(\pi, 5)$ sean iguales: basta ver con que la primera entrada del $(5,\pi)$ es $5$, mientras que la primera entrada de $(\pi,5)$ es $\pi$, y claramente $5\ne\pi$. Así mismo, $(1,5,8,1,3)$ es distinto de $(1,5,8,1,4)$ pues aunque compartan muchos elementos en varias de sus posiciones, en el primer vector la última entrada es $3$ y el el segundo la última entrada es $4$.

Definición. Diremos que dos vectores $(x_1,\ldots,x_n)$ y $(y_1,\ldots,y_n)$ de $\mathbb{R}^n$ son iguales si para toda $i=1,\ldots,n$ se tiene que $x_i=y_i$

Por otra parte, antes dijimos que los vectores tienen varias formas de ser representados. Como ejemplo de esto, podemos ver que el vector $(1,-3.5,e,1)$ puede ser representado como

\[
\begin{pmatrix}
1 \\
-3.5 \\
e \\
1
\end{pmatrix}
\qquad
\text{y}
\qquad
\begin{pmatrix}
1 & -3.5 & e & 1
\end{pmatrix}.
\]

Al formato de la izquierda se le conoce como vector vertical o vector columna, mientras que al formato de la derecha se le conoce como vector horizontal o vector fila. Dependiendo del contexto, en ocasiones nos encontraremos con estas representaciones en vez de la que mostramos inicialmente, aunque es importante recordar que siguen siendo vectores con entradas reales, pues son listas ordenadas de números reales.

Matrices con entradas reales

Otro objeto matemático en el que también se enlistan varios números reales se conoce como matriz, con la diferencia de que esta lista tiene forma de arreglo rectangular.

Definición. Una matriz con entradas reales es un arreglo rectangular en donde en cada una de sus posiciones se coloca un número real.

Por ejemplo, las siguientes son matrices con entradas reales:

\[
\begin{pmatrix}
0 & 8 & -4.5 \\
2 & 9 & 0 \\
1 & \pi & 5
\end{pmatrix},
\qquad
\begin{pmatrix}
0 & -3 & 9 & 4.25 \\
100 & 0.1 & -2 & \sqrt{2}
\end{pmatrix}.
\]
Como podrás ver, para poder identificar a una entrada de una matriz debemos de hacer referencia a dos propiedades: el número de fila y el número de columna en el que se encuentra. Las filas se cuentan de arriba hacia abajo, y las columnas de izquierda a derecha. Así, vemos que la entrada que se encuentra en la fila 3 y columna 2 de la primera matriz es $\pi$. A cada entrada le asignamos una coordenada $(i,j)$, donde $i$ es el número de fila y $j$ es el número de columna. Así, $\pi$ se encuentra en la posición $(3,2)$ de la primera matriz.

Por convención, cuando mencionamos el tamaño de una matriz, primero se especifica el número de filas y posteriormente el número de columnas. Así, la primera matriz es de tamaño $3\times 3$, mientras que la segunda es de tamaño $2 \times 4$. Ya que elegimos el tamaño de una matriz, podemos considerar a todas las matrices de ese tamaño.

Definición. El conjunto $M_{m,n}(\mathbb{R})$ consiste de todas las matrices de $m$ filas, $n$ columnas y en donde cada entrada es un número real.

En el caso de que la cantidad de filas y de columnas de la matriz sean el mismo, diremos que se trata de una matriz cuadrada. De nuestros ejemplos anteriores, la primera sí es una matriz cuadrada, pero la segunda no. Para simplificar un poco la notación, introducimos lo siguiente.

Definición. El conjunto $M_n(\mathbb{R})$ consiste de todas las matrices de $n$ filas, $n$ columnas y en donde cada entrada es un número real.

Es decir, simplemente $M_n(\mathbb{R})=M_{n,n}(\mathbb{R})$.

Al igual que pasa con los vectores, podemos comparar dos matrices para saber si estas son iguales. Como te podrás imaginar, hay algunas condiciones que dos matrices deben cumplir para ser iguales: en primera, ambas deben de tener el mismo tamaño; es decir, sus números de filas deben de ser iguales y sus números de columnas deben de ser iguales. Por lo tanto, vemos que las matrices mostradas anteriormente son diferentes. Además, sus correspondientes entradas deben de ser iguales. Podemos escribir esto en una definición como sigue.

Definición. Sean $A$ y $B$ matrices en $M_{m,n}(\mathbb{R})$. Diremos que estas matrices son iguales si para cada $i\in \{1,\ldots,m\}$ y cada $j\in \{1,\ldots,n\}$ se cumple que la entrada $(i,j)$ de $A$ es la misma que la entrada $(i,j)$ de $B$.

¿Puedes decir por qué las siguientes matrices son diferentes?
\[
\begin{pmatrix}
1 & 2 & 3 \\
4 & 5 & 6 \\
7 & 8 & 9
\end{pmatrix}
\ne
\begin{pmatrix}
1 & 4 & 7 \\
2 & 5 & 8 \\
3 & 6 & 9
\end{pmatrix}.
\]

Notación y algunos vectores y matrices especiales

En matemáticas, es usual que denotemos los vectores con letras minúsculas (siendo las más comunes la $u$, $v$ y $w$) aunque muchas veces te podrás encontrar con notaciones especiales que los hacen más fáciles de distinguir, por ejemplo, $\overrightarrow{a}$ o $\mathbf{a}$. Nosotros no haremos esta distinción y usaremos simplemente letras minúsculas. Por ejemplo podríamos tomar al vector $u=(1,2,3)$ de $\mathbb{R}^3$.

Por su parte, las matrices las solemos representar con letras mayúsculas (generalmente las primeras del abecedario: $A$, $B$, $C$). Si la entrada que se encuentra en la fila $i$ y colmuna $j$ de la matriz se le denota como con la correspondiente letra minúscula y con subíndices la posición de su entrada: $a_{ij}$. Así, tendríamos que en
\[
A=
\begin{pmatrix}
0 & 8 & -4.5 \\
2 & 9 & 0 \\
1 & \pi & 5
\end{pmatrix}
\]
la entrada $a_{13} = -4.5$ y la entrada $a_{31} = 1$. ¿Cuál es la entrada $a_{23}$?

Además, existen algunos vectores y matrices con entradas reales que nos encontraremos con bastante frecuencia, y por esta razón reciben nombres especiales:

  • El vector en el que todas sus entradas son el número cero se conoce como vector cero o vector nulo. Por ejemplo, el vector nulo en $\mathbb{R}^2$ es $ (0,0)$ mientras que el nulo en $\mathbb{R}^3$ es $(0,0,0)$. Generalmente, denotamos este vector como $0$ (o, en ocasiones, como $\overrightarrow{0}$ o $\mathbf{0}$) .Es importante observar que se usa el mismo símbolo para representar a los vectores nulos con números distintos de entradas (de modo que podremos encontrar que $0=(0,0)$, en el caso de $\mathbb{R}^2$, o que $0=(0,0,0)$, en el caso de $\mathbb{R}^3$). Esto es algo que debemos tener en cuenta, aunque no suele representar mayores complicaciones, pues el contexto nos dirá 1) Si el símbolo $0$ se usa para el real cero o el vector cero y 2) Con cuántas entradas estamos trabajando.
  • La matriz en el que todas sus entradas son cero se conoce como matriz cero o matriz nula. Ejemplos de matrices nulas son
    \[
    \begin{pmatrix}
    0 & 0 & 0 & 0 \\
    0 & 0 & 0 & 0 \\
    0 & 0 & 0 & 0
    \end{pmatrix}
    \qquad
    \text{y}
    \qquad
    \begin{pmatrix}
    0 & 0 \\
    0 & 0
    \end{pmatrix}.
    \]
    Estas matrices se suelen denotar con el símbolo $\mathcal{O}$, aunque en el caso de las matrices sí es común especificar las dimensiones de la matriz, de modo que la primera matriz escrita en este inciso se denota como $\mathcal{O}_{3\times 4}$ mientras que una matriz cuadrada, como la segunda de este inciso, se denota como $\mathcal{O}_2$.
  • El vector en $\mathbb{R}^n$ cuya $i$-ésima entrada es $1$ y el resto de sus entradas es $0$ se conoce como vector canónico, y se denota $\mathrm{e}_i$. Por ejemplo, el vector canónico $\mathrm{e}_3$ en $\mathbb{R}^4$ es $(0,0,1,0)$.
  • Además, al conjunto de todos los posibles vectores canónicos en $\mathbb{R}^n$ se conoce como la base canónica de $\mathbb{R}^n$; así, la base canónica de $\mathbb{R}^4$ es
    \[
    \{(1,0,0,0), \ (0,1,0,0), \ (0,0,1,0), (0,0,0,1)\} = \{\mathrm{e}_1, \mathrm{e}_2, \mathrm{e}_3, \mathrm{e}_4\}.
    \]
  • Llamamos diagonal de una matriz cuadrada a las componentes cuyos número de fila y número de columna coinciden. Además, diremos que una matriz es una matriz diagonal si es una matriz cuadrada en la que todas sus entradas que no están en la diagonal (es decir, que su número de fila es distinto a su número de columna) son cero. Ejemplos de matrices diagonales son
    \[
    \begin{pmatrix}
    5 & 0 & 0 \\
    0 & 8 & 0 \\
    0 & 0 & \pi
    \end{pmatrix}
    \qquad
    \text{y}
    \qquad
    \begin{pmatrix}
    6 & 0 & 0 & 0 \\
    0 & 7 & 0 & 0 \\
    0 & 0 & 0 & 0 \\
    0 & 0 & 0 & 9
    \end{pmatrix}
    \]
    (Observemos que aquellas entradas que se encuentran sobre su diagonal también pueden ser cero, aquí no tenemos ninguna restricción).
  • La matriz diagonal en la que todas sus entradas sobre la diagonal son 1 se conoce como matriz identidad. Ejemplos de matrices identidad son
    \[
    \begin{pmatrix}
    1 & 0 & 0\\
    0 & 1 & 0 \\
    0 & 0 & 1
    \end{pmatrix}
    \qquad
    \text{y} \\
    \qquad
    \begin{pmatrix}
    1
    \end{pmatrix}.
    \]
    A esta matriz la denotamos por $\mathcal{I}$ y especificamos su tamaño como subíndice. Así, las matrices anteriores son ${I}_3$ e $\mathcal{I}_1$.

Más adelante…

En esta entrada vimos las definiciones de vectores y matrices con entradas reales que usaremos para trabajar en este curso. También revisamos cuándo dos vectores (o matrices) son iguales. Además, vimos algunos ejemplos de vectores y matrices que nos encontraremos con bastante frecuencia en las matemáticas.

En las siguientes entradas veremos que también se pueden hacer operaciones entre vectores y matrices, aunque necesitaremos que se cumplan algunas condiciones especiales.

Tarea moral

  1. Basándonos en la definiciones, verifica las siguientes igualdades:
    • El vector $(4-4,1,3)$ es igual al vector $(0,2-1,2+1)$.
    • La matriz $A=\begin{pmatrix} 1 & 2 \\ 2 & 4\end{pmatrix}$ es igual a la matriz $B$ de $2\times 2$ cuyas entradas están dadas por $b_{ij}=i\cdot j$.
  2. Encuentra todos los posibles vectores que hay en $\mathbb{R}^3$ cuyas entradas sean únicamente los números $1$ y $2$. ¿Cuántos deben de ser?
  3. Seguramente algunos los nombres de los vectores y matrices especiales te recuerdan a algún tipo de operación. ¿Qué operaciones crees que podamos hacer con los vectores y/o matrices, y qué comportamiento tendrían aquellos que reciben un nombre especial?
  4. ¿Por qué podemos decir que una matriz nula cuadrada cumple con ser una matriz diagonal?
  5. Escribe todos los elementos de la base canónica de $\mathbb{R}^6$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Cálculo Diferencial e Integral III: Introducción al teorema de la función inversa

Por Alejandro Antonio Estrada Franco

Introducción

Estamos a punto de entrar a discutir dos de los resultados principales de nuestro curso: el teorema de la función inversa y el teorema de la función implícita. Repasemos un poco qué hemos hecho hasta ahora. En las dos entradas anteriores introdujimos la noción de diferenciabilidad, la cual cuando sucede para una función $f:\mathbb{R}^n\to \mathbb{R}^m$, nos dice que $f$ se parece mucho a una función lineal en un punto dado. Vimos que esta noción implica continuidad y que tiene una regla de la cadena relacionada con el producto de matrices. También, hemos discutido cómo esta noción se relaciona con la existencia de espacios tangentes a gráficas multidimensionales.

Ahora queremos entender todavía mejor a las funciones diferenciables. Hay dos teoremas que nos permiten hacer eso. Uno es el teorema de la función inversa y el otro es el teorema de la función implícita. En esta entrada hablaremos del primero, y en un par de entradas más introduciremos el segundo resultado. El propósito del teorema de la función inversa es dar una condición bajo la cual una función es invertible, por lo menos localmente. De hecho, la mayoría de las veces sólo se puede garantizar la invertibilidad localmente, pues las funciones usualmente no son inyectivas y esto da comportamientos globales más difíciles de manejar.

Enunciar el teorema y entenderlo requiere de cierto esfuerzo. Y demostrarlo todavía más. Por esta razón, en esta entrada nos enfocaremos sólo en dar el teorema y presentar herramientas preliminares que necesitaremos para hacer su demostración.

Enunciado del teorema de la función inversa

Supongamos que tenemos $f:\mathbb{R}^n\to \mathbb{R}^n$ y que es diferenciable en el punto $\bar{a}$. Entonces, $f$ se parece mucho a una función lineal en $\bar{a}$, más o menos $f(\bar{x})\approx f(\bar{a}) + T_{\bar{a}}(\bar{x}-\bar{a})$. Así, si $T_{\bar{a}}$ es invertible, suena a que «cerquita de $\bar{a}$» la función $f(\bar{x})$ debe de ser invertible. El teorema de la función inversa pone estas ideas de manera formal.

Teorema (de la función inversa). Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el abierto $S$. Si la matriz $Df(\bar{a})$ es invertible, entonces, existe $\delta >0$ tal que:

  1. $B_{\delta}(\bar{a})\subseteq S$ y $f$ es inyectiva en $B_{\delta}(\bar{a})$.
  2. $f^{-1}:f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ es continua en $f(B_{\delta}(\bar{a}))$.
  3. $f(B_{\delta}(\bar{a}))\subseteq \mathbb{R}^{n}$ es un conjunto abierto.
  4. $f^{-1}$ es de clase $C^{1}$ en $f(B_{\delta}(\bar{a}))$ y además, si $\bar{x}=f(\bar{v})\in f(B_{\delta}(\bar{a}))$, entonces, $Df^{-1}(\bar{x})=Df^{-1}(f(\bar{v}))=(Df(\bar{v}))^{-1}$.

Veamos qué nos dice de manera intuitiva cada una de las conclusiones del teorema.

  1. Tendremos una bola $B_\delta(\bar{a})$ dentro de la cual $f$ será inyectiva, y por lo tanto será biyectiva hacia su imagen. Así, $f$ restringida a esta bola será invertible. Es importante que sea una bola abierta, porque entonces sí tenemos toda una región «gordita» en donde pasa la invertibilidad (piensa que si fuera un cerrado, a lo mejor sólo es el punto $\bar{a}$ y esto no tiene chiste).
  2. La inversa $f^{-1}$ que existirá para $f$ será continua. Esto es lo mínimo que podríamos esperar, aunque de hecho el punto $4$ garantiza algo mucho mejor.
  3. La imagen de $f$ en la bola $B_\delta(\bar{a})$ será un conjunto abierto.
  4. Más aún, se tendrá que $f^{-1}$ será de clase $C^1$ y se podrá dar de manera explícita a su derivada en términos de la derivada de $f$ con una regla muy sencilla: simplemente la matriz que funciona para derivar $f$ le sacamos su inversa como matriz y esa funciona al evaluarla en el punto apropiado.

El teorema de la función inversa es profundo pues tanto su enunciado como su demostración combina ideas de topología, álgebra y cálculo. Por esta razón, para su demostración necesitaremos recopilar varias de las herramientas de álgebra lineal que hemos repasado en la Unidad 2 y la Unidad 5. Así mismo, necesitaremos ideas topológicas de las que hemos visto en la Unidad 3. Con ellas desarrollaremos algunos resultados auxiliares que en la siguiente entrada nos permitirán concluir la demostración.

Un criterio para campos vectoriales $C^1$

El teorema de la función inversa es para funciones de clase $C^1$. Nos conviene entender esta noción mejor. Cuando una función $f$ es de clase $C^1$, entonces es diferenciable. Pero el regreso no es cierto y hay contraejemplos. ¿Qué le falta a una función diferenciable para ser de clase $C^1$? A grandes rasgos, que las funciones derivadas $T_\bar{a}$ y $T_\bar{b}$ hagan casi lo mismo cuando $\bar{a}$ y $\bar{b}$ son cercanos. En términos de matrices, necesitaremos que la expresión $||(Df(\bar{a})-Df(\bar{b}))(\bar{x})||$ sea pequeña cuando $\bar{a}$ y $\bar{b}$ son cercanos entre sí.

El siguiente teorema será importante en nuestro camino hacia el teorema de la función inversa. Intuitivamente, para lo que lo usaremos es para aproximar una función $f$ localmente, con «cuadritos» que corresponden a los planos tangentes, porque «muy cerquita» estos planos varían muy poco si pedimos que $f$ sea de clase $C^1$. Es decir si $\bar{a}$ y $\bar{b}$ son dos puntos en el dominio de una función diferenciable, y estos están muy cerca uno del otro, sus planos tangentes serán casi el mismo. Esto nos invita a cambiar localmente a una superficie por cuadritos como más adelante se explicará con detalle.

Figura 1. En azul y en rojo dos planos que corresponden a las derivadas $T_{\bar{a}}$ y $T_{\bar{b}}$. Este cambio calculado es distintos puntos cercanos es «suave», esto se expresará con la ecuación $||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\leq \epsilon ||\bar{x}||$ ya con las diferenciales para todo $\bar{x}$.

El teorema concreto que nos interesa demostrar es la siguiente equivalencia para que una función sea de clase $C^1$.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{m}$ una función diferenciable en $S$. Se tiene que $f$ es de clase $C^{1}$ en $S$ si y sólo si para todo $\bar{a}\in S$ y para cada $\varepsilon >0$ existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, y si $\bar{b}\in B_{\delta}(\bar{a})$ se tiene $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq \varepsilon ||\bar{x}||$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. $\Rightarrow).$ Supongamos que $f$ es de clase $C^1$ en $S$, es decir, todas sus funciones componentes tienen derivadas parciales en $S$ y son continuas. Sea $\varepsilon>0$. Veremos que se puede encontrar una $\delta$ como en el enunciado.

Tomemos $\bar{a}$ y $\bar{b}$ en $S$. Expresamos a $(Df(\bar{b})-Df(\bar{a}))(\bar{x})$ como

\begin{align*}
\begin{pmatrix} \frac{\partial f_{1}}{\partial x_{1}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{1}}{\partial x_{n}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{n}}(\bar{a}) \\ \vdots & \ddots & \dots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{1}}(\bar{a}) & \dots & \frac{\partial f_{m}}{\partial x_{n}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{n}}(\bar{a}) \end{pmatrix}\begin{pmatrix} x_{1} \\ \vdots \\ x_{n}\end{pmatrix}
\end{align*}

o equivalentemente como

\begin{align*}
\begin{pmatrix} \left( \triangledown f_{1}(\bar{b})-\triangledown f_{1}(\bar{a})\right) \cdot \bar{x} \\ \vdots \\ \left( \triangledown f_{m}(\bar{b})-\triangledown f_{m}(\bar{a})\right) \cdot \bar{x} \end{pmatrix}.
\end{align*}

De tal manera que por Cauchy-Schwarz:

\begin{align*}
||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||^2&=\sum_{i=1}^m (\left( \triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})\right)\cdot \bar{x})^2\\
&\leq \sum_{i=1}^m ||\triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})||^2||\bar{x}||^2\\
&=||\bar{x}||^2 \sum_{i=1}^m ||\triangledown f_{i}(\bar{b})-\triangledown f_{i}(\bar{a})||^2\\
&=||\bar{x}||^2 \sum_{i=1}^m \sum_{j=1}^{n}\left( \frac{\partial f_{i}}{\partial x_{j}}(\bar{b})-\frac{\partial f_{i}}{\partial x_{j}}(\bar{a})\right) ^{2}
\end{align*}

En este punto se ve la importancia de que las parciales sean continuas. Podemos encontrar una $\delta$ que nos garantice que $B_\delta\subseteq S$ y que si $||\bar{b}-\bar{a}||<\delta$, entonces $$\left| \frac{\partial f_{i}}{\partial x_{j}}(\bar{b})-\frac{\partial f_{i}}{\partial x_{j}}(\bar{a}) \right| < \frac{\varepsilon}{\sqrt{mn}}.$$ En esta situación, podemos seguir acotando $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||^2$ como sigue:
\begin{align*}
&\leq ||\bar{x}|| \sum_{i=1}^m \sum_{j=1}^{n}\frac{\varepsilon^2}{mn}\\
&=\varepsilon^2||\bar{x}||^2.
\end{align*}

Al sacar raiz cuadrada, obtenemos la desigualdad $$||(Df(\bar{b})-Df(\bar{a}))(x)||\leq \varepsilon||\bar{x}||$$ buscada.

$\Leftarrow).$ Supongamos ahora que para cada $\varepsilon$ existe una $\delta$ como en el enunciado del teorema. Debemos ver que todas las derivadas parciales de todas las componentes son continuas. Podemos aplicar la desigualdad $||(Df(\bar{b})-Df(\bar{a}))(\bar{x})||\leq ||\bar{x}||\varepsilon$ tomando como $\bar{x}$ cada vector $\hat{e}_i$ de la base canónica. Esto nos dice que

\[ ||Df(\bar{b})(\hat{e}_i)-Df(\bar{a})(\hat{e}_i)||< \varepsilon||\hat{e}_i|| =\varepsilon.\]

Por nuestro desarrollo anterior, para cada $i$ tenemos

\begin{align*}
\varepsilon&>||Df(\bar{b})(\hat{e}_i)-Df(\bar{a})(\hat{e}_i)||\\
&=||\left( \triangledown f_{1}(\bar{b})\cdot \hat{e}_i-\triangledown f_{1}(\bar{a})\cdot \hat{e}_i,\dots ,\triangledown f_{m}(\bar{b})\cdot \hat{e}_i-\triangledown f_{m}(\bar{a})\cdot \hat{e}_i\right)||\\
&=\left| \left|\left( \frac{\partial f_{1}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{1}}{\partial x_{i}}(\bar{a}),\dots ,\frac{\partial f_{m}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{m}}{\partial x_{i}}(\bar{a})\right) \right| \right|\\
&= \sqrt{\sum_{j=1}^{m}\left(\frac{\partial f_{j}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{j}}{\partial x_{i}}(\bar{a})\right)^{2}}.
\end{align*}

Elevando al cuadrado,

\[ \sum_{j=1}^{m}\left(\frac{\partial f_{j}}{\partial x_{i}}(b)-\frac{\partial f_{j}}{\partial x_{i}}(a)\right)^{2}<\varepsilon ^{2}.\]

Como todos los términos son no negativos, cada uno es menor a $\epsilon^2$. Así, para cada $i,j$ tenemos

\[ \left|\frac{\partial f_{j}}{\partial x_{i}}(\bar{b})-\frac{\partial f_{j}}{\partial x_{i}}(\bar{a})\right|<\varepsilon.\]

Esto es precisamente lo que estábamos buscando: si $\bar{b}$ está lo suficientemente cerca de $\bar{a}$, cada derivada parcial en $\bar{b}$ está cerca de su correspondiente en $\bar{a}$.

$\square$

Invertibilidad de $Df(\bar{a})$ en todo un abierto

En esta sección demostraremos lo siguiente. Si $f:\mathbb{R}^n\to \mathbb{R}^n$ es un campo vectorial diferenciable en $\bar{a}$ y $Df(\bar{a})$ es invertible, entonces $Df(\bar{x})$ será invertible para cualquier $\bar{x}$ alrededor de cierta bola abierta alrededor de $\bar{a}$. Los argumentos en esta ocasión están un poco más relacionados con el álgebra lineal.

Será útil que recuerdes que una transformación lineal $T:\mathbb{R}^n \to \mathbb{R}^n$ es invertible si el único $\bar{x}\in \mathbb{R}^n$ tal que $T(\bar{x})=\bar{0}$ es $\bar{x}=\bar{0}$. El siguiente criterio es otra caracterización de invertibilidad en términos de lo que le hace $T$ a la norma de los vectores.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ una transformación lineal. La transformación $T$ es invertible si y sólo si existe $\varepsilon >0$ tal que $$||T(\bar{x})||\geq \varepsilon ||\bar{x}||$$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. $\left. \Rightarrow \right)$ Como $T$ es invertible, para todo $\bar{x}\neq \bar{0}$ sucede que $T(\bar{x})\neq \bar{0}$. En particular, esto sucede para todos los vectores en $S^{n-1}$ (recuerda que es la esfera de radio $1$ y dimensión $n-1$ centrada en $\bar{0}$). Esta esfera es compacta y consiste exactamente de los $\bar{x}\in \mathbb{R}^n$ de norma $1$.

Sabemos que las transformaciones lineales y la función norma son continuas. Por la compacidad de $S^{n-1}$, la expresión $||T(\bar{x})||$ tiene un mínimo digamos $\varepsilon$, que alcanza en $S^{n-1}$. Por el argumento del párrafo anterior, $\varepsilon>0$.

Tomemos ahora cualquier vector $\bar{x}\in \mathbb{R}^n$. Si $\bar{x}=\bar{0}$, entonces $$||T(\bar{0})||=||\bar{0}||=0\geq \varepsilon ||\bar{0}||.$$ Si $\bar{x}\neq \bar{0}$, el vector $\frac{\bar{x}}{||\bar{x}||}$ está en $S^{n-1}$, de modo que $$\left|\left|T\left(\frac{\bar{x}}{||\bar{x}||}\right)\right|\right| \geq \varepsilon.$$ Usando linealidad para sacar el factor $||\bar{x}||$ y despejando obtenemos $$||T(\bar{x})||\geq \varepsilon ||\bar{x}||,$$ como estábamos buscando.

$\left. \Leftarrow \right)$ Este lado es más sencillo. Si existe dicha $\varepsilon >0$, entonces sucede que para $\bar{x}$ en $\mathbb{R}^n$, con $\bar{x}\neq \bar{0}$ tenemos $$||T(\bar{x})||\geq \varepsilon||\bar{x}||>0.$$ Por lo tanto, $T(\bar{x})\neq \bar{0}$ y así $T$ es invertible.

$\square$

Obtengamos una consecuencia del teorema de clasificación de la sección anterior que está muy relacionada con este resultado que acabamos de demostrar.

Teorema. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ de clase $C^{1}$ en el conjunto abierto $S$ y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces existen $\delta >0$ y $m>0$ tales que $B_{\delta}(\bar{a})\subseteq S$ y $||Df(\bar{b})(\bar{x})||\geq m||\bar{x}||$, para todo $\bar{b}\in B_{\delta}(\bar{a})$ y para todo $\bar{x}\in \mathbb{R}^{n}$.

Demostración. Como $Df(\bar{a})$ es invertible, por el teorema que acabamos de demostrar existe $\varepsilon’>0$ tal que $$||Df(\bar{a})(\bar{x})||\geq \varepsilon’||\bar{x}||$$ para todo $\bar{x}\in \mathbb{R}^{n}$.

Por nuestra caracterización de funciones $C^1$, Ahora como $f\in C^{1}$ en $S$ (abierto) para $\varepsilon =\frac{\varepsilon’}{2}>0$, existe $\delta >0$ tal que $B_{\delta}(\bar{a})\subseteq S$, y $||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\leq \frac{\varepsilon’}{2}||\bar{x}||$ para todo $\bar{b}\in B_{\delta}(\bar{a})$ y para todo $\bar{x}\in \mathbb{R}^{n}$.

Por la desigualdad del triángulo, \[ ||Df(\bar{a})(\bar{x})-Df(\bar{b})(\bar{x})||+||Df(\bar{b})(\bar{x})||\geq ||Df(\bar{a})(\bar{x})||,\]

de donde

\begin{align*}
||Df(\bar{b})(\bar{x})||&\geq ||Df(\bar{a})(\bar{x})||-||Df(\bar{b})(\bar{x})-Df(\bar{a})(\bar{x})||\\
&\geq \varepsilon’||\bar{x}||-\frac{\varepsilon’}{2}||\bar{x}||\\
&= \frac{\varepsilon’}{2} ||\bar{x}||.
\end{align*}

De esta manera, el resultado es cierto para la $\delta$ que dimos y para $m=\frac{\varepsilon’}{2}$.

$\square$

El siguiente corolario es consecuencia inmediata de lo discutido en esta sección y está escrito de acuerdo a la aplicación que haremos más adelante en la demostración del teorema de la función inversa.

Corolario. Sea $f:S\subseteq \mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ una función de clase $C^{1}$ en $S$ y $\bar{a}\in S$. Si $Df(\bar{a})$ es invertible, entonces, existe $\delta > 0$ tal que $B_{\delta}(\bar{a})\subseteq S$ y $Df(\bar{b})$ es invertible para todo $\bar{b}\in B_{\delta}(\bar{a})$.

Queda como tarea moral responder por qué este corolario es consecuencia inmediata del teorema anterior.

Un poco de intuición geométrica

Dejamos esta entrada hasta aquí, la naturaleza densamente teórica de lo que estamos haciendo puede hacer pesadas las exposiciones. Lo que hasta aquí demostramos es que para un campo vectorial $C^1$ si su derivada en $\bar{a}$ es invertible, entonces lo es en toda una vecindad que tiene a $\bar{a}$. Imaginemos al pedacito de superficie $f(B_{\delta}(\bar{a}))$ cubierto con pequeños rectángulos. En cada punto, las imágenes de estos rectángulos están muy cerquita, casi pegados a la superficie. Esto nos garantizaría la invertibilidad de $f$ en esta vecindad.

Figura 2

En la Figura 2 vemos ilustrado esto. El círculo inferior corresponde a la vecindad $B_{\delta}(\bar{a})$ en el dominio de $f$. La función $f$ levanta una porción del plano en la sabana delineada con negro arriba del círculo. En el círculo tenemos al punto $\bar{a}$ en verde agua. Sobre la sábana de arriba tenemos con el mismo color a $f(\bar{a})$. Los puntos negros pequeños dentro de la vecindad alrededor de $\bar{a}$ son alzados por $f$ a puntos negros sobre la sabana. Sobre de cada punto negro en la sabana tenemos un cuadrito rojo que representa al cachito de plano tangente cerca de la imagen de cada punto. La imagen esta llena de estos pequeños cuadritos, todos ellos representan diferenciales invertibles, esto nos permitirá asegurar la invertibilidad de $f$ en al menos una vecindad.

Más adelante…

En la siguiente entrada demostraremos el teorema de la función inversa, inciso por inciso. Es importante que estes familiarizado con los resultados de esta entrada, pues serán parte importante de la demostración.

Tarea moral

  1. ¿Qué diría el teorema de la función inversa para campos vectoriales $f:\mathbb{R}^2\to \mathbb{R}^2$? ¿Se puede usar para $$f(r,\theta)=(r\cos(\theta),r\sin(\theta))?$$ Si es así, ¿para qué valores de $r$ y $\theta$? ¿Qué diría en este caso explícitamente?
  2. Explica por qué el corolario que enunciamos en efecto se deduce de manera inmediata de lo discutido en la sección correspondiente.
  3. Revisa todas las desigualdades que usamos en esta entrada. ¿Qué resultado estamos usando? ¿Cuándo se darían estas igualdades?
  4. Demuestra que el determinante de una matriz es una función continua en términos de las entradas de la matriz. Usa esto para demostrar que si $A\in M_n(\mathbb{R})$ es una matriz y $B$ es una matriz muy cercana a $A$, entonces $B$ también es invertible.
  5. Demuestra que si una transformación $T$ es diagonalizable, entonces en el teorema de caracterización de invertibilidad se puede usar como $\epsilon$ al mínimo de la expresión $|\lambda|$ variando sobre todos los eigenvalores $\lambda$ de $T$.

Entradas relacionadas

Cálculo Diferencial e Integral III: Representaciones matriciales, eigenvalores y eigenvectores

Por Alejandro Antonio Estrada Franco

Introducción

Como se ha mencionado anteriormente el objetivo de introducir ideas de álgebra lineal en cálculo diferencial es poder establecer una transformación lineal que sea la mejor aproximación lineal en un punto a una función dada. Esto nos ayudará a entender a la función dada en el punto en términos de otra función «más simple». Pero así mismo, las transformaciones lineales pueden ellas mismas pensarse en términos de transformaciones más sencillas. En esta entrada revisaremos esta idea y la conectaremos con la noción de eigenvectores.

Por un lado, recordaremos cómo es que una transformación lineal puede ser representada mediante una matriz una vez que se ha elegido una base del espacio vectorial. Luego, hablaremos de cómo elegir, de entre todas las bases, aquella que nos de una representación matricial lo más sencilla posible.

Representación matricial de las transformaciones lineales

Comencemos esta entrada repasando la importante relación entre transformaciones lineales y matrices. Denotaremos como $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ al espacio vectorial de transformaciones lineales de $\mathbb{R}^n$ a $\mathbb{R}^m$.

Si tomamos cualquier transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, entonces los valores de $T$ en cualquier vector de $\mathbb{R}^n$ quedan totalmente determinados por los valores de $T$ en los elementos de alguna base $\beta$ para $\mathbb{R}^n$. Tomemos $\gamma=\{\bar{w}_{1},\dots ,\bar{w}_{m}\}$ una base ordenada para $\mathbb{R}^m$, y $\beta=\{\bar{e}_{1},\dots ,\bar{e}_{n}\}$ una base ordenada para $\mathbb{R}^n$. Para cada $\bar{e}_{k}$ tenemos:

$$\begin{equation} T(\bar{e}_{k})=\sum_{i=1}^{m}t_{ik}\bar{w}_{i} \end{equation},$$

para algunos escalares $t_{1k},\dots ,t_{mk}$ que justo son las componentes de $T(\bar{e}_{k})$ en la base $\gamma$. Con estos escalares, podemos considerar la matriz: \[ \text{Mat}_{\gamma,\beta}(T)= \begin{pmatrix} t_{11} & \dots & t_{1n} \\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \]

Esta es llamada la representación matricial de la transformación $T$ con respecto a las bases $\beta$ y $\gamma$. Esta matriz ayuda a calcular $T$ en cualquier vector de $\mathbb{R}^n$ como explicamos a continuación.

Para cada $\bar{v}\in \mathbb{R}^n$, podemos expresarlo como combinación lineal de elementos de la base $\beta$ digamos que $\bar{v}=\sum_{i=1}^{n} v_{i}\bar{e}_{i}$. Mediante estos coeficientes, podemos entonces asociar a $\bar{v}$ al siguiente vector columna de $\mathbb{R}^n$ \[ [\bar{v}]_{\beta}=\begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}, \]

al que llamamos el vector de coordenadas de $\bar{v}$ con respecto a la base $\beta$.

Realicemos por un lado el siguiente cálculo:

\[ \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}=\begin{pmatrix} t_{11} & \dots & t_{1n}\\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}=\begin{pmatrix} \displaystyle\sum_{k=1}^{n}t_{1k}v_{k} \\ \vdots \\ \displaystyle\sum_{k=1}^{n}t_{mk}v_{k}.\end{pmatrix} \]

Por otro lado tenemos lo siguiente:

\begin{align*}
T(\bar{v})&=T \left( \sum_{k=1}^{n}v_{k}\bar{e}_{k} \right)\\&=\sum_{k=1}^{n}v_{k}T(\bar{e}_{k})\\&=\sum_{k=1}^{n}v_{k}T\left( \sum_{i=1}^{m}t_{ik}\bar{w}_{i} \right)\\&=\sum_{i=1}^{m}\left( \sum_{k=1}^{n}v_{k}t_{ik} \right)\bar{w}_{i}.
\end{align*}

Juntando ambos cálculos: \[ [T(\bar{v})]_{\gamma}=\begin{pmatrix} \sum_{k=1}^{n}v_{k}t_{1k} \\ \vdots \\ \sum_{k=1}^{n}v_{k}t_{mk} \end{pmatrix} = \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}.\]

En otras palabras, aplicar $T$ a un vector $\bar{v}$ equivale a multiplicar $\text{Mat}_{\gamma,\beta}$ por el vector columna asociado a $\bar{v}$ en la base $\beta$, en el sentido de que tras hacer este producto recuperamos el vector de coordenadas para $T(\bar{v})$ en la base $\gamma$.

Isomorfismo entre transformaciones lineales y matrices

Con las operaciones de suma y multiplicación por escalar que vimos en la entrada de Matrices, se tiene que $M_{m,n}\left( \mathbb{R} \right)$ es un espacio vectorial sobre $\mathbb{R}$. De igual manera $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ es un espacio vectorial sobre $\mathbb{R}$ con las siguientes operaciones:

  • Si $T$ y $U$ son dos transformaciones, la transformación $T+U$ es aquella que envía a todo vector $\bar{v}\in \mathbb{R}^n$ al vector $T(\bar{v})+U(\bar{v})$.
  • Si $r\in \mathbb{R}$ la transformación $rT$ es la que a todo $\bar{v}\in \mathbb{R}^n$ lo envía al vector $rT(\bar{v})$.

Queda como ejercicio que verifiques que esto dota efectivamente a $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ de la estructura de espacio vectorial.

A continuación veremos que estos dos espacios vectoriales son, prácticamente, el mismo. Lo que haremos es construir una función $$\Phi :M_{m,n}\left( \mathbb{R} \right) \to\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$$ que sea biyectiva y que preserve las operaciones de suma y de producto escalar.

Para ello, tomemos una base $\beta=\{\bar{e}_1,\ldots,\bar{e}_n\}$ de $\mathbb{R}^{n}$ y una base $\gamma=\{\bar{u}_1,\ldots,\bar{u}_m\}$ de $\mathbb{R}^m$. Tomemos una matriz $A\in M_{m,n}(\mathbb{R})$. Explicaremos a continuación cómo construir la transformación $\Phi(A)$, para lo cual diremos qué hace con cada elemento de la base $\beta$. Tomaremos aquella transformación lineal $T_A\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ tal que

$$T_A(\bar{e}_j)=\sum_{i=1}^n a_{ij} \bar{u}_i.$$

Tomamos entonces $\Phi(A)=T_A$. Veamos que $\Phi$ tiene todas las propiedades que queremos.

  • $\Phi$ es suprayectiva. Si tenemos una transformación $T:\mathbb{R}^n\to \mathbb{R}^m$, entonces por la construcción anterior se tiene que su forma matricial $A:=\text{Mat}_{\gamma,\beta}(T)$ justo cumple $T_A=T$, de modo que $\Phi(A)=T$.
  • $\Phi$ es inyectiva. Si $A$ y $B$ son matrices distintas, entonces difieren en alguna entrada, digamos $(i,j)$. Pero entonces $T_A$ y $T_B$ difieren ya que $T_A(\bar{e}_j)\neq T_B(\bar{e}_j)$ ya que en las combinaciones lineales creadas hay un coeficiente distinto. Así, $\Phi(A)\neq \Phi(B)$.
  • $\Phi $ es lineal. Para $r\in \mathbb{R}$, $A$ y $B$ matrices con entradas $a_{ij}$ y $b_{ij}$, respectivamente, se cumple que $\Phi \left( rA+B \right)=T_{(rA+B)}$ y entonces se satisface para cada $j=1,\dots ,n$ lo siguiente:
    \begin{align*}
    (rA+B)[\bar{e}_{j}]_{\beta}&=rA[\bar{e}_{j}]_{\beta}+B[\bar{e}_{j}]_{\beta}\\&=r[T_A(\bar{e}_{i})]_{\gamma}+[T_{B}(\bar{e}_{i})]_{\gamma}.
    \end{align*}
    Por tanto para cada $\bar{e}_{i}$ tenemos que $$T_{(rA+B)}(\bar{e}_{i})=rT_{A}(\bar{e}_{i})+T_{B}(\bar{e}_{i})$$ y en consecuencia $$T_{(rA+B)}=rT_{A}+T_{B}.$$ Así $$\Phi (rA+B)=r\Phi (A)+\Phi(B).$$

Todo lo anterior implica que $M_{m,n}\left( \mathbb{R} \right)\simeq \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, es decir, que ambos espacios vectoriales son isomorfos.

En búsqueda de una matriz sencilla

Por lo que hemos platicado hasta ahora, a cada transformación lineal le corresponde una matriz, y viceversa. De hecho, esta asociación respeta operaciones como la suma y el producto por escalar. Esta equivalencia está dada a partir de la función $\Phi$ encontrada en la sección anterior.

Si $\Phi $ es biyectiva, ¿por qué hablamos entonces de encontrar una representación matricial simple para una transformación lineal $T$? Esto parecería no tener sentido, pues a cada transformación le corresponde una y sólo una matriz. Sin embargo, esto es cierto únicamente tras haber fijado las bases $\beta$ y $\gamma$ para $\mathbb{R}^n$ y $\mathbb{R}^m$, respectivamente. Así, dependiendo de la elección de las bases las representaciones matriciales cambian y si tenemos una transformación lineal $T$, es posible que querramos encontrar bases $\beta$ y $\gamma$ en donde la representación matricial sea sencilla.

Nos enfocaremos únicamente en transformaciones lineales que van de un espacio vectorial a sí mismo. Tomemos entonces $T:\mathbb{R}^n\to \mathbb{R}^n$ y una base $\beta$ de $\mathbb{R}^n$. Por simplicidad, escribiremos $\text{Mat}_{\beta, \beta}(T)$ simplemente como $\text{Mat}_{\beta}(T)$. Hay propiedades de $T$ que podemos leer en su matriz $\text{Mat}_{\beta}(T)$ y que no dependen de la base $\beta$ que hayamos elegido. Si con una base $\beta$ especial resulta que $\text{Mat}_{\beta}(T)$ es muy sencilla, entonces podremos leer estas propiedades de $T$ muy fácilmente. Un ejemplo es la siguiente proposición, la cual queda como tarea moral.

Proposición. La transformación lineal $T:\mathbb{R}^n\to\mathbb{R}^n$ es invertible si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.

Si $A=\text{Mat}_{\beta}(T)$ fuera muy muy sencilla, por ejemplo, si fuera una matriz diagonal, entonces podríamos saber la invertibilidad de $T$ sabiendo la invertibilidad de $A$, y la de $A$ sería muy fácil de ver pues por ser matriz diagonal bastaría hacer el producto de las entradas de su diagonal para obtener su determinante y estudiar si es distinto de cero.

Motivados por el ejemplo anterior, estudiemos la siguiente pregunta: ¿toda transformación lineal se puede representar con una matriz diagonal? Si una transformación lineal se puede representar de esta manera, diremos que es diagonalizable.

Eigenvalores, eigenvectores y eigenespacios

En lo que sigue repasaremos el aparato conceptual que nos permitirá dar una respuesta parcial de cuándo una matriz es diagonalizable. Un tratamiento mucho más detallado se puede encontrar aquí en el blog, en el curso de Álgebra Lineal II, comenzando con la entrada Eigenvectores y eigenvalores.

Para nuestro repaso, debemos introducir algunos conceptos y estudiarlos.

Definición. Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal. Diremos que un escalar $r \in \mathbb{R}$ es un eigenvalor de $T$ si existe $\bar{v}\in \mathbb{R}^n\setminus\{ \bar{0} \}$ tal que $T(\bar{v})=r\bar{v}$. A dicho vector $\bar{v}$ le llamaremos un eigenvector de $T$ con eigenvalor asociado $r$.

Dado un eigenvector $\bar{v}\in \mathbb{R}^n$, sólo hay un eigenvalor correspondiente a éste. Si $T(\bar{v})=r\bar{v}$ y $T(\bar{v})=t\bar{v}$, entonces $r\bar{v}=t\bar{v}$ de donde $(r-t)\bar{v}=\bar{0}$. Como $\bar{v}\neq \bar{0}$, se sigue que $r=t$.

Por otro lado, para un eigenvalor $r$ puede haber más de un eigenvector con eigenvalor asociado $r$. Consideremos para un eigenvalor $r$ el conjunto $E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$. Notemos que $\bar{0}\in E(r)$ y también todos los eigenvectores de $r$ están en $E(r)$. Además, $E(r)$ es un subespacio de $\mathbb{R}^n$, pues si $\bar{u},\bar{v} \in E(r)$, y $a\in \mathbb{R}$, tenemos

\begin{align*}
T(a\bar{u}+\bar{v})&=aT(\bar{u})+T(\bar{v})\\
&=a(r\bar{u})+(r\bar{v})\\
&=r(a\bar{u}+\bar{v}),
\end{align*}

lo cual implica que $a\bar{u}+\bar{v} \in E(r)$.

Definición. Para una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ y un eigenvalor $r$ de $T$ llamaremos a

$$E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$$

el eigenespacio de $T$ correspondiente a $r$.

Cuando tenemos eigenvectores correspondientes a eigenvalores distintos, cumplen algo especial.

Proposición. Si $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son eigenvectores de una transformación lineal $T:\mathbb{R}^n \rightarrow \mathbb{R}^n$ con eigenvalores correspondientes $r_{1}, \dots ,r_{l}$ distintos entonces $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

Demostración. La ruta para establecer la demostración de este teorema será por inducción sobre $l$. Para un conjunto con sólo un eigenvector el resultado es evidente (¿por qué?). Supongamos cierto para cualquier subconjunto de $l-1$ eigenvectores que pertenecen a eigenespacios distintos. Sean $\bar{v}_{1}, \dots ,\bar{v}_{l}$ eigenvectores en distintos eigenespacios y consideremos $\alpha _{1}, \dots ,\alpha_{l}$ escalares tales que:

\begin{equation}
\label{eq:comb-cero}
\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}=\bar{0}.
\end{equation}

Aplicamos $T$ a la igualdad anterior. Usando que cada $\bar{v}_{k}$ es eigenvector correspondiente al eigenvalor $r_{k}$ obtenemos:

\begin{align*}
\bar{0}=T(\bar{0})&=T\left(\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k} \right)\\&=\sum_{k=1}^{l}\alpha _{k}T(\bar{v}_{k})\\&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}.
\end{align*}

Es decir,

\begin{equation}
\label{eq:aplicarT}
\textbf{0}=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}
\end{equation}

Multipliquemos \eqref{eq:comb-cero} por $r_{l}$ y restemos el resultado de \eqref{eq:aplicarT} para obtener que

\begin{align*}
\bar{0}=\bar{0}-\bar{0}&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}-r_{l}\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}\\&=\sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}.
\end{align*}

Tenemos entonces:

\[ \sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}=\bar{0}.\]

Ya que por hipótesis de inducción $\bar{v}_{1}, \dots ,\bar{v}_{l-1}$ son linealmente independientes entonces $\alpha _{k}(r_{k}-r_{l})=0$ para todo $k$, pero los eigenvalores son todos distintos entre sí por lo tanto para todo $k$ de $1$ a $l-1$ se tiene $r_{k}-r_{l}\neq 0$ y así $\alpha _{k}=0$. Finalmente, usando \eqref{eq:comb-cero} obtenemos $\alpha_l=0$. Por lo tanto $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

$\square$

Eigenvectores y transformaciones diagonalizables

Recuerda que dijimos que una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ es diagonalizable si existe una base $\beta$ de $\mathbb{R}^n$ tal que $\text{Mat}_{\beta}(T)$ es una matriz diagonal. El siguiente resultado conecta las dos ideas que hemos estado explorando: los eigenvectores y la representabilidad sencilla de $T$.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ transformación lineal. Una matriz $T$ es diagonalizable si y sólo si existe una base de $\mathbb{R}^n$ conformada por eigenvectores de $T$.

En realidad la demostración consiste únicamente en entender correctamente cómo se construyen las matrices para una base dada.

Demostración. $\Rightarrow )$ Supongamos que $T$ tiene una representación matricial que es una matriz diagonal $A:=\text{Mat}_{\beta}(T)=\text{diag}(r_{1}, \dots ,r_{n})$ con respecto a la base $\beta=\{\bar{v}_{1}, \dots ,\bar{v}_{n}\}$. Afirmamos que para cada $j=1,\ldots,n$ se tiene $\bar{v}_j$ es eigevector de eigenvalor $r_j$. En efecto, la forma en la que se construyó la matriz $A$ nos dice que

\begin{align*}
T(\bar{e}_j)&=\sum_{i=1}^n a_{ij} \bar{e}_i \\&= a_{jj} \bar{e}_j \\&= r_j \bar{e}_j,
\end{align*}

en donde estamos usando que las entradas $a_{ij}$ de la matriz son cero si $i\neq j$ (por ser diagonal), y son $r_j$ si $i=j$. Por supuesto, como $\bar{e}_j$ forma parte de una base, tampoco es el vector cero. Así, $\bar{e}_j$ es eigenvector de eigenvalor $\bar{e}_j$.

$\Leftarrow )$ Supongamos ahora que $\bar{v}_{1},\dots ,\bar{v}_{n}$ son una base $\beta$ de $\mathbb{R}^n$ conformada por eigenvectores de $T$ con eigenvalores asociados, digamos, $r_{1},\dots ,r_{n}$. Aquí se puede mostrar que $\text{Mat}_\beta(T)$ es diagonal. Queda como tarea moral hacer las cuentas.

$\square$

Hay una situación particular en la que podemos aprovechar el teorema anterior de manera inmediata: cuando la transformación tiene $n$ eigenvalores distintos. Esta consecuencia queda establecida en el siguiente resultado.

Corolario. Toda transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ tiene a lo más $n$ eigenvalores distintos. Si $T$ tiene exactamente $n$ eigenvalores distintos, entonces los eigenvectores correspondientes forman una base para $\mathbb{R}^n$ y la matriz de $T$ relativa a esa base es una matriz diagonal con los eigenvalores como elementos diagonales.

Demostración. Queda como tarea moral. Como sugerencia, recuerda que mostramos arriba que los eigenvectores de eigenvalores distintos son linealmente independientes.

$\square$

Al parecer los eigenvalores, eigenvectores y eigenespacios de una transformación lineal son cruciales para poder expresarla de manera sencilla. ¿Cómo los encontramos? Esto lo veremos en la siguiente entrada.

Antes de concluir, mencionamos que hay otro teorema crucial sobre diagonalización de matrices. Diremos que una matriz $P\in M_n(\mathbb{R})$ es ortogonal si $P^tP=I$.

Teorema (el teorema espectral). Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces, existe una matriz ortogonal $P$ tal que $PAP^t$ es una matriz diagonal.

El teorema anterior nos dice no únicamente que la matriz $A$ es diagonalizable, sino que además es diagonalizable mediante un tipo muy especial de matrices. Un estudio y demostración de este teorema queda fuera de los alcances de nuestro curso, pero puedes revisar, por ejemplo la entrada teorema espectral del curso de Álgebra Lineal I que tenemos en el blog.

Más adelante

Lo que haremos en la siguiente entrada es desarrollar un método para conocer los eigenvalores de una matriz. A partir de ellos podremos encontrar sus eigenvectores. Y en ciertos casos especiales, esto nos permitirá mostrar que la transformación es diagonalizable y, de hecho, nos dará la base para la cual la matriz asociada es diagonal.

Tarea moral

  1. Considera la transformación lineal de $\mathbb{R}^{3}$ en $\mathbb{R}^{2}$, dada como $T(x,y,z)=(x+y,z+y)$. Encuentra su representación matricial con las bases canónicas de $\mathbb{R}^3$ y $\mathbb{R}^2$. Luego, encuentra su representación matricial con las bases $\{(1,2,3),(1,0,1),(0,-1,0)\}$ de $\mathbb{R}^3$ y $\{(1,1),(1,-1)\}$ de $\mathbb{R}^2$.
  2. Considera la siguiente matriz: \[ \begin{pmatrix} 1 & 0 & 2 & 3 \\ 0 & -1 & 0 & 2 \\ \end{pmatrix}\] Da una transformación lineal $T:\mathbb{R}^4\to \mathbb{R}^2$ y ciertas bases $\beta$ de $\mathbb{R}^4$ y $\gamma$ de $\mathbb{R}^2$ para las cuales esta matriz sea la representación matricial de $T$ en las bases $\beta$ y $\gamma$.
  3. Fija bases $\beta$, $\gamma$ y $\delta$ para $\mathbb{R}^n$, $\mathbb{R}^m$ y $\mathbb{R}^l$. Considera dos transformaciones lineales $T:\mathbb{R}^n\to \mathbb{R}^m$ y $S:\mathbb{R}^m\to \mathbb{R}^l$. Demuestra que:
    $$\text{Mat}_{\delta, \beta} (S \circ T) = \text{Mat}_{\delta,\gamma}(S) \text{Mat}_{\gamma, \beta} (T).$$
    En otras palabras que la «composición de transformaciones corresponde al producto de sus matrices».
  4. Sea $T:\mathbb{R}^n\to\mathbb{R}^n$ una transformación lineal y $\beta$ una base de $\mathbb{R}^n$. Demuestra que $T$ es biyectiva si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.
  5. Verifica que los vectores $\bar{v}_1,\ldots,\bar{v}_n$ dados en el último teorema en efecto ayudan a dar una representación matricial diagonal para $T$.
  6. La demostración del último corolario es un conjunto de sencillas consecuencias de las definiciones y teoremas desarrollados en esta entrada con respecto a los eigenvalores y eigenvectores. Realiza esta demostración.

Entradas relacionadas