Archivo de la etiqueta: vectores

Cálculo Diferencial e Integral III: Introducción al teorema de la función inversa

Por Alejandro Antonio Estrada Franco

Introducción

Estamos a punto de entrar a discutir dos de los resultados principales de nuestro curso: el teorema de la función inversa y el teorema de la función implícita. Repasemos un poco qué hemos hecho hasta ahora. En las dos entradas anteriores introdujimos la noción de diferenciabilidad, la cual cuando sucede para una función $f : R^{n} \to R^{m}$ , nos dice que $f$ se parece mucho a una función lineal en un punto dado. Vimos que esta noción implica continuidad y que tiene una regla de la cadena relacionada con el producto de matrices. También, hemos discutido cómo esta noción se relaciona con la existencia de espacios tangentes a gráficas multidimensionales.

Ahora queremos entender todavía mejor a las funciones diferenciables. Hay dos teoremas que nos permiten hacer eso. Uno es el teorema de la función inversa y el otro es el teorema de la función implícita. En esta entrada hablaremos del primero, y en un par de entradas más introduciremos el segundo resultado. El propósito del teorema de la función inversa es dar una condición bajo la cual una función es invertible, por lo menos localmente. De hecho, la mayoría de las veces sólo se puede garantizar la invertibilidad localmente, pues las funciones usualmente no son inyectivas y esto da comportamientos globales más difíciles de manejar.

Enunciar el teorema y entenderlo requiere de cierto esfuerzo. Y demostrarlo todavía más. Por esta razón, en esta entrada nos enfocaremos sólo en dar el teorema y presentar herramientas preliminares que necesitaremos para hacer su demostración.

Enunciado del teorema de la función inversa

Supongamos que tenemos $f : R^{n} \to R^{n}$ y que es diferenciable en el punto $\bar{a}$ . Entonces, $f$ se parece mucho a una función lineal en $\bar{a}$ , más o menos $f (\bar{x}) \approx f (\bar{a}) + T_{\bar{a}} (\bar{x} - \bar{a})$ . Así, si $T_{\bar{a}}$ es invertible, suena a que «cerquita de $\bar{a}$ » la función $f (\bar{x})$ debe de ser invertible. El teorema de la función inversa pone estas ideas de manera formal.

Teorema (de la función inversa). Sea $f : S \subseteq R^{n} \to R^{n}$ de clase $C^{1}$ en el abierto $S$ . Si la matriz $D f (\bar{a})$ es invertible, entonces, existe $δ > 0$ tal que:

$B_{δ} (\bar{a}) \subseteq S$ y $f$ es inyectiva en $B_{δ} (\bar{a})$ .
$f^{- 1} : f (B_{δ} (\bar{a})) \subseteq R^{n} \to R^{n}$ es continua en $f (B_{δ} (\bar{a}))$ .
$f (B_{δ} (\bar{a})) \subseteq R^{n}$ es un conjunto abierto.
$f^{- 1}$ es de clase $C^{1}$ en $f (B_{δ} (\bar{a}))$ y además, si $\bar{x} = f (\bar{v}) \in f (B_{δ} (\bar{a}))$ , entonces, $D f^{- 1} (\bar{x}) = D f^{- 1} (f (\bar{v})) = (D f (\bar{v}))^{- 1}$ .

Veamos qué nos dice de manera intuitiva cada una de las conclusiones del teorema.

Tendremos una bola $B_{δ} (\bar{a})$ dentro de la cual $f$ será inyectiva, y por lo tanto será biyectiva hacia su imagen. Así, $f$ restringida a esta bola será invertible. Es importante que sea una bola abierta, porque entonces sí tenemos toda una región «gordita» en donde pasa la invertibilidad (piensa que si fuera un cerrado, a lo mejor sólo es el punto $\bar{a}$ y esto no tiene chiste).
La inversa $f^{- 1}$ que existirá para $f$ será continua. Esto es lo mínimo que podríamos esperar, aunque de hecho el punto $4$ garantiza algo mucho mejor.
La imagen de $f$ en la bola $B_{δ} (\bar{a})$ será un conjunto abierto.
Más aún, se tendrá que $f^{- 1}$ será de clase $C^{1}$ y se podrá dar de manera explícita a su derivada en términos de la derivada de $f$ con una regla muy sencilla: simplemente la matriz que funciona para derivar $f$ le sacamos su inversa como matriz y esa funciona al evaluarla en el punto apropiado.

El teorema de la función inversa es profundo pues tanto su enunciado como su demostración combina ideas de topología, álgebra y cálculo. Por esta razón, para su demostración necesitaremos recopilar varias de las herramientas de álgebra lineal que hemos repasado en la Unidad 2 y la Unidad 5. Así mismo, necesitaremos ideas topológicas de las que hemos visto en la Unidad 3. Con ellas desarrollaremos algunos resultados auxiliares que en la siguiente entrada nos permitirán concluir la demostración.

Un criterio para campos vectoriales $C^{1}$

El teorema de la función inversa es para funciones de clase $C^{1}$ . Nos conviene entender esta noción mejor. Cuando una función $f$ es de clase $C^{1}$ , entonces es diferenciable. Pero el regreso no es cierto y hay contraejemplos. ¿Qué le falta a una función diferenciable para ser de clase $C^{1}$ ? A grandes rasgos, que las funciones derivadas $T_{\bar{a}}$ y $T_{\bar{b}}$ hagan casi lo mismo cuando $\bar{a}$ y $\bar{b}$ son cercanos. En términos de matrices, necesitaremos que la expresión $| | (D f (\bar{a}) - D f (\bar{b})) (\bar{x}) | |$ sea pequeña cuando $\bar{a}$ y $\bar{b}$ son cercanos entre sí.

El siguiente teorema será importante en nuestro camino hacia el teorema de la función inversa. Intuitivamente, para lo que lo usaremos es para aproximar una función $f$ localmente, con «cuadritos» que corresponden a los planos tangentes, porque «muy cerquita» estos planos varían muy poco si pedimos que $f$ sea de clase $C^{1}$ . Es decir si $\bar{a}$ y $\bar{b}$ son dos puntos en el dominio de una función diferenciable, y estos están muy cerca uno del otro, sus planos tangentes serán casi el mismo. Esto nos invita a cambiar localmente a una superficie por cuadritos como más adelante se explicará con detalle.

Figura 1. En azul y en rojo dos planos que corresponden a las derivadas $T_{\bar{a}}$ y $T_{\bar{b}}$ . Este cambio calculado es distintos puntos cercanos es «suave», esto se expresará con la ecuación $| | D f (\bar{b}) (\bar{x}) - D f (\bar{a}) (\bar{x}) | | \leq ϵ | | \bar{x} | |$ ya con las diferenciales para todo $\bar{x}$ .

El teorema concreto que nos interesa demostrar es la siguiente equivalencia para que una función sea de clase $C^{1}$ .

Teorema. Sea $f : S \subseteq R^{n} \to R^{m}$ una función diferenciable en $S$ . Se tiene que $f$ es de clase $C^{1}$ en $S$ si y sólo si para todo $\bar{a} \in S$ y para cada $ε > 0$ existe $δ > 0$ tal que $B_{δ} (\bar{a}) \subseteq S$ , y si $\bar{b} \in B_{δ} (\bar{a})$ se tiene $| | (D f (\bar{b}) - D f (\bar{a})) (\bar{x}) | | \leq ε | | \bar{x} | |$ para todo $\bar{x} \in R^{n}$ .

Demostración. $\Rightarrow) .$ Supongamos que $f$ es de clase $C^{1}$ en $S$ , es decir, todas sus funciones componentes tienen derivadas parciales en $S$ y son continuas. Sea $ε > 0$ . Veremos que se puede encontrar una $δ$ como en el enunciado.

Tomemos $\bar{a}$ y $\bar{b}$ en $S$ . Expresamos a $(D f (\bar{b}) - D f (\bar{a})) (\bar{x})$ como

$\begin{array}{r} (\begin{array}{c} \frac{\partial f_{1}}{\partial x_{1}} (\bar{b}) - \frac{\partial f_{1}}{\partial x_{1}} (\bar{a}) & \dots & \frac{\partial f_{1}}{\partial x_{n}} (\bar{b}) - \frac{\partial f_{1}}{\partial x_{n}} (\bar{a}) \\ ⋮ & ⋱ & \dots \\ \frac{\partial f_{m}}{\partial x_{1}} (\bar{b}) - \frac{\partial f_{m}}{\partial x_{1}} (\bar{a}) & \dots & \frac{\partial f_{m}}{\partial x_{n}} (\bar{b}) - \frac{\partial f_{m}}{\partial x_{n}} (\bar{a}) \end{array}) (\begin{array}{c} x_{1} \\ ⋮ \\ x_{n} \end{array}) \end{array}$

o equivalentemente como

$\begin{array}{r} (\begin{array}{c} (▽ f_{1} (\bar{b}) - ▽ f_{1} (\bar{a})) \cdot \bar{x} \\ ⋮ \\ (▽ f_{m} (\bar{b}) - ▽ f_{m} (\bar{a})) \cdot \bar{x} \end{array}) . \end{array}$

De tal manera que por Cauchy-Schwarz:

$\begin{aligned} | | (D f (\bar{b}) - D f (\bar{a})) (\bar{x}) | |^{2} & = \sum_{i = 1}^{m} ((▽ f_{i} (\bar{b}) - ▽ f_{i} (\bar{a})) \cdot \bar{x})^{2} \\ \leq \sum_{i = 1}^{m} | | ▽ f_{i} (\bar{b}) - ▽ f_{i} (\bar{a}) | |^{2} | | \bar{x} | |^{2} \\ = | | \bar{x} | |^{2} \sum_{i = 1}^{m} | | ▽ f_{i} (\bar{b}) - ▽ f_{i} (\bar{a}) | |^{2} \\ = | | \bar{x} | |^{2} \sum_{i = 1}^{m} \sum_{j = 1}^{n} {(\frac{\partial f_{i}}{\partial x_{j}} (\bar{b}) - \frac{\partial f_{i}}{\partial x_{j}} (\bar{a}))}^{2} \end{aligned}$

En este punto se ve la importancia de que las parciales sean continuas. Podemos encontrar una $δ$ que nos garantice que $B_{δ} \subseteq S$ y que si $| | \bar{b} - \bar{a} | | < δ$ , entonces $| \frac{\partial f_{i}}{\partial x_{j}} (\bar{b}) - \frac{\partial f_{i}}{\partial x_{j}} (\bar{a}) | < \frac{ε}{\sqrt{m n}} .$ En esta situación, podemos seguir acotando $| | (D f (\bar{b}) - D f (\bar{a})) (\bar{x}) | |^{2}$ como sigue:
$\begin{aligned} \leq | | \bar{x} | | \sum_{i = 1}^{m} \sum_{j = 1}^{n} \frac{ε^{2}}{m n} \\ = ε^{2} | | \bar{x} | |^{2} . \end{aligned}$

Al sacar raiz cuadrada, obtenemos la desigualdad $| | (D f (\bar{b}) - D f (\bar{a})) (x) | | \leq ε | | \bar{x} | |$ buscada.

$\Leftarrow) .$ Supongamos ahora que para cada $ε$ existe una $δ$ como en el enunciado del teorema. Debemos ver que todas las derivadas parciales de todas las componentes son continuas. Podemos aplicar la desigualdad $| | (D f (\bar{b}) - D f (\bar{a})) (\bar{x}) | | \leq | | \bar{x} | | ε$ tomando como $\bar{x}$ cada vector ${\hat{e}}_{i}$ de la base canónica. Esto nos dice que

$| | D f (\bar{b}) ({\hat{e}}_{i}) - D f (\bar{a}) ({\hat{e}}_{i}) | | < ε | | {\hat{e}}_{i} | | = ε .$

Por nuestro desarrollo anterior, para cada $i$ tenemos

$\begin{aligned} ε & > | | D f (\bar{b}) ({\hat{e}}_{i}) - D f (\bar{a}) ({\hat{e}}_{i}) | | \\ = | | (▽ f_{1} (\bar{b}) \cdot {\hat{e}}_{i} - ▽ f_{1} (\bar{a}) \cdot {\hat{e}}_{i}, \dots, ▽ f_{m} (\bar{b}) \cdot {\hat{e}}_{i} - ▽ f_{m} (\bar{a}) \cdot {\hat{e}}_{i}) | | \\ = | | (\frac{\partial f_{1}}{\partial x_{i}} (\bar{b}) - \frac{\partial f_{1}}{\partial x_{i}} (\bar{a}), \dots, \frac{\partial f_{m}}{\partial x_{i}} (\bar{b}) - \frac{\partial f_{m}}{\partial x_{i}} (\bar{a})) | | \\ = \sqrt{\sum_{j = 1}^{m} {(\frac{\partial f_{j}}{\partial x_{i}} (\bar{b}) - \frac{\partial f_{j}}{\partial x_{i}} (\bar{a}))}^{2}} . \end{aligned}$

Elevando al cuadrado,

$\sum_{j = 1}^{m} {(\frac{\partial f_{j}}{\partial x_{i}} (b) - \frac{\partial f_{j}}{\partial x_{i}} (a))}^{2} < ε^{2} .$

Como todos los términos son no negativos, cada uno es menor a $ϵ^{2}$ . Así, para cada $i, j$ tenemos

$| \frac{\partial f_{j}}{\partial x_{i}} (\bar{b}) - \frac{\partial f_{j}}{\partial x_{i}} (\bar{a}) | < ε .$

Esto es precisamente lo que estábamos buscando: si $\bar{b}$ está lo suficientemente cerca de $\bar{a}$ , cada derivada parcial en $\bar{b}$ está cerca de su correspondiente en $\bar{a}$ .

Invertibilidad de $D f (\bar{a})$ en todo un abierto

En esta sección demostraremos lo siguiente. Si $f : R^{n} \to R^{n}$ es un campo vectorial diferenciable en $\bar{a}$ y $D f (\bar{a})$ es invertible, entonces $D f (\bar{x})$ será invertible para cualquier $\bar{x}$ alrededor de cierta bola abierta alrededor de $\bar{a}$ . Los argumentos en esta ocasión están un poco más relacionados con el álgebra lineal.

Será útil que recuerdes que una transformación lineal $T : R^{n} \to R^{n}$ es invertible si el único $\bar{x} \in R^{n}$ tal que $T (\bar{x}) = \bar{0}$ es $\bar{x} = \bar{0}$ . El siguiente criterio es otra caracterización de invertibilidad en términos de lo que le hace $T$ a la norma de los vectores.

Teorema. Sea $T : R^{n} \to R^{n}$ una transformación lineal. La transformación $T$ es invertible si y sólo si existe $ε > 0$ tal que $| | T (\bar{x}) | | \geq ε | | \bar{x} | |$ para todo $\bar{x} \in R^{n}$ .

Demostración. $\Rightarrow)$ Como $T$ es invertible, para todo $\bar{x} \neq \bar{0}$ sucede que $T (\bar{x}) \neq \bar{0}$ . En particular, esto sucede para todos los vectores en $S^{n - 1}$ (recuerda que es la esfera de radio $1$ y dimensión $n - 1$ centrada en $\bar{0}$ ). Esta esfera es compacta y consiste exactamente de los $\bar{x} \in R^{n}$ de norma $1$ .

Sabemos que las transformaciones lineales y la función norma son continuas. Por la compacidad de $S^{n - 1}$ , la expresión $| | T (\bar{x}) | |$ tiene un mínimo digamos $ε$ , que alcanza en $S^{n - 1}$ . Por el argumento del párrafo anterior, $ε > 0$ .

Tomemos ahora cualquier vector $\bar{x} \in R^{n}$ . Si $\bar{x} = \bar{0}$ , entonces $| | T (\bar{0}) | | = | | \bar{0} | | = 0 \geq ε | | \bar{0} | | .$ Si $\bar{x} \neq \bar{0}$ , el vector $\frac{\bar{x}}{| | \bar{x} | |}$ está en $S^{n - 1}$ , de modo que $| | T (\frac{\bar{x}}{| | \bar{x} | |}) | | \geq ε .$ Usando linealidad para sacar el factor $| | \bar{x} | |$ y despejando obtenemos $| | T (\bar{x}) | | \geq ε | | \bar{x} | |,$ como estábamos buscando.

$\Leftarrow)$ Este lado es más sencillo. Si existe dicha $ε > 0$ , entonces sucede que para $\bar{x}$ en $R^{n}$ , con $\bar{x} \neq \bar{0}$ tenemos $| | T (\bar{x}) | | \geq ε | | \bar{x} | | > 0.$ Por lo tanto, $T (\bar{x}) \neq \bar{0}$ y así $T$ es invertible.

Obtengamos una consecuencia del teorema de clasificación de la sección anterior que está muy relacionada con este resultado que acabamos de demostrar.

Teorema. Sea $f : S \subseteq R^{n} \to R^{n}$ de clase $C^{1}$ en el conjunto abierto $S$ y $\bar{a} \in S$ . Si $D f (\bar{a})$ es invertible, entonces existen $δ > 0$ y $m > 0$ tales que $B_{δ} (\bar{a}) \subseteq S$ y $| | D f (\bar{b}) (\bar{x}) | | \geq m | | \bar{x} | |$ , para todo $\bar{b} \in B_{δ} (\bar{a})$ y para todo $\bar{x} \in R^{n}$ .

Demostración. Como $D f (\bar{a})$ es invertible, por el teorema que acabamos de demostrar existe $ε^{'} > 0$ tal que $| | D f (\bar{a}) (\bar{x}) | | \geq ε^{'} | | \bar{x} | |$ para todo $\bar{x} \in R^{n}$ .

Por nuestra caracterización de funciones $C^{1}$ , Ahora como $f \in C^{1}$ en $S$ (abierto) para $ε = \frac{ε^{'}}{2} > 0$ , existe $δ > 0$ tal que $B_{δ} (\bar{a}) \subseteq S$ , y $| | D f (\bar{b}) (\bar{x}) - D f (\bar{a}) (\bar{x}) | | \leq \frac{ε^{'}}{2} | | \bar{x} | |$ para todo $\bar{b} \in B_{δ} (\bar{a})$ y para todo $\bar{x} \in R^{n}$ .

Por la desigualdad del triángulo, $| | D f (\bar{a}) (\bar{x}) - D f (\bar{b}) (\bar{x}) | | + | | D f (\bar{b}) (\bar{x}) | | \geq | | D f (\bar{a}) (\bar{x}) | |,$

de donde

$\begin{aligned} | | D f (\bar{b}) (\bar{x}) | | & \geq | | D f (\bar{a}) (\bar{x}) | | - | | D f (\bar{b}) (\bar{x}) - D f (\bar{a}) (\bar{x}) | | \\ \geq ε^{'} | | \bar{x} | | - \frac{ε^{'}}{2} | | \bar{x} | | \\ = \frac{ε^{'}}{2} | | \bar{x} | | . \end{aligned}$

De esta manera, el resultado es cierto para la $δ$ que dimos y para $m = \frac{ε^{'}}{2}$ .

El siguiente corolario es consecuencia inmediata de lo discutido en esta sección y está escrito de acuerdo a la aplicación que haremos más adelante en la demostración del teorema de la función inversa.

Corolario. Sea $f : S \subseteq R^{n} \to R^{n}$ una función de clase $C^{1}$ en $S$ y $\bar{a} \in S$ . Si $D f (\bar{a})$ es invertible, entonces, existe $δ > 0$ tal que $B_{δ} (\bar{a}) \subseteq S$ y $D f (\bar{b})$ es invertible para todo $\bar{b} \in B_{δ} (\bar{a})$ .

Queda como tarea moral responder por qué este corolario es consecuencia inmediata del teorema anterior.

Un poco de intuición geométrica

Dejamos esta entrada hasta aquí, la naturaleza densamente teórica de lo que estamos haciendo puede hacer pesadas las exposiciones. Lo que hasta aquí demostramos es que para un campo vectorial $C^{1}$ si su derivada en $\bar{a}$ es invertible, entonces lo es en toda una vecindad que tiene a $\bar{a}$ . Imaginemos al pedacito de superficie $f (B_{δ} (\bar{a}))$ cubierto con pequeños rectángulos. En cada punto, las imágenes de estos rectángulos están muy cerquita, casi pegados a la superficie. Esto nos garantizaría la invertibilidad de $f$ en esta vecindad.

En la Figura 2 vemos ilustrado esto. El círculo inferior corresponde a la vecindad $B_{δ} (\bar{a})$ en el dominio de $f$ . La función $f$ levanta una porción del plano en la sabana delineada con negro arriba del círculo. En el círculo tenemos al punto $\bar{a}$ en verde agua. Sobre la sábana de arriba tenemos con el mismo color a $f (\bar{a})$ . Los puntos negros pequeños dentro de la vecindad alrededor de $\bar{a}$ son alzados por $f$ a puntos negros sobre la sabana. Sobre de cada punto negro en la sabana tenemos un cuadrito rojo que representa al cachito de plano tangente cerca de la imagen de cada punto. La imagen esta llena de estos pequeños cuadritos, todos ellos representan diferenciales invertibles, esto nos permitirá asegurar la invertibilidad de $f$ en al menos una vecindad.

Más adelante…

En la siguiente entrada demostraremos el teorema de la función inversa, inciso por inciso. Es importante que estes familiarizado con los resultados de esta entrada, pues serán parte importante de la demostración.

Tarea moral

¿Qué diría el teorema de la función inversa para campos vectoriales $f : R^{2} \to R^{2}$ ? ¿Se puede usar para $f (r, θ) = (r \cos (θ), r \sin (θ)) ?$ Si es así, ¿para qué valores de $r$ y $θ$ ? ¿Qué diría en este caso explícitamente?
Explica por qué el corolario que enunciamos en efecto se deduce de manera inmediata de lo discutido en la sección correspondiente.
Revisa todas las desigualdades que usamos en esta entrada. ¿Qué resultado estamos usando? ¿Cuándo se darían estas igualdades?
Demuestra que el determinante de una matriz es una función continua en términos de las entradas de la matriz. Usa esto para demostrar que si $A \in M_{n} (R)$ es una matriz y $B$ es una matriz muy cercana a $A$ , entonces $B$ también es invertible.
Demuestra que si una transformación $T$ es diagonalizable, entonces en el teorema de caracterización de invertibilidad se puede usar como $ϵ$ al mínimo de la expresión $| λ |$ variando sobre todos los eigenvalores $λ$ de $T$ .

Entradas relacionadas

Ir a Cálculo Diferencial e Integral III
Entrada anterior del curso: Regla de la cadena para campos vectoriales
Entrada siguiente del curso: Demostración del teorema de la función inversa

Cálculo Diferencial e Integral III: Representaciones matriciales, eigenvalores y eigenvectores

Por Alejandro Antonio Estrada Franco

3 respuestas

Introducción

Como se ha mencionado anteriormente el objetivo de introducir ideas de álgebra lineal en cálculo diferencial es poder establecer una transformación lineal que sea la mejor aproximación lineal en un punto a una función dada. Esto nos ayudará a entender a la función dada en el punto en términos de otra función «más simple». Pero así mismo, las transformaciones lineales pueden ellas mismas pensarse en términos de transformaciones más sencillas. En esta entrada revisaremos esta idea y la conectaremos con la noción de eigenvectores.

Por un lado, recordaremos cómo es que una transformación lineal puede ser representada mediante una matriz una vez que se ha elegido una base del espacio vectorial. Luego, hablaremos de cómo elegir, de entre todas las bases, aquella que nos de una representación matricial lo más sencilla posible.

Representación matricial de las transformaciones lineales

Comencemos esta entrada repasando la importante relación entre transformaciones lineales y matrices. Denotaremos como $L (R^{n}, R^{m})$ al espacio vectorial de transformaciones lineales de $R^{n}$ a $R^{m}$ .

Si tomamos cualquier transformación lineal $T \in L (R^{n}, R^{m})$ , entonces los valores de $T$ en cualquier vector de $R^{n}$ quedan totalmente determinados por los valores de $T$ en los elementos de alguna base $β$ para $R^{n}$ . Tomemos $γ = {{\bar{w}}_{1}, \dots, {\bar{w}}_{m}}$ una base ordenada para $R^{m}$ , y $β = {{\bar{e}}_{1}, \dots, {\bar{e}}_{n}}$ una base ordenada para $R^{n}$ . Para cada ${\bar{e}}_{k}$ tenemos:

$\begin{matrix} (1) & T ({\bar{e}}_{k}) = \sum_{i = 1}^{m} t_{i k} {\bar{w}}_{i} \end{matrix},$

para algunos escalares $t_{1 k}, \dots, t_{m k}$ que justo son las componentes de $T ({\bar{e}}_{k})$ en la base $γ$ . Con estos escalares, podemos considerar la matriz: ${Mat}_{γ, β} (T) = (\begin{matrix} t_{11} & \dots & t_{1 n} \\ ⋮ & ⋱ & ⋮ \\ t_{m 1} & \dots & t_{m n} \end{matrix})$

Esta es llamada la representación matricial de la transformación $T$ con respecto a las bases $β$ y $γ$ . Esta matriz ayuda a calcular $T$ en cualquier vector de $R^{n}$ como explicamos a continuación.

Para cada $\bar{v} \in R^{n}$ , podemos expresarlo como combinación lineal de elementos de la base $β$ digamos que $\bar{v} = \sum_{i = 1}^{n} v_{i} {\bar{e}}_{i}$ . Mediante estos coeficientes, podemos entonces asociar a $\bar{v}$ al siguiente vector columna de $R^{n}$ $[\bar{v}]_{β} = (\begin{matrix} v_{1} \\ ⋮ \\ v_{n} \end{matrix}),$

al que llamamos el vector de coordenadas de $\bar{v}$ con respecto a la base $β$ .

Realicemos por un lado el siguiente cálculo:

${Mat}_{γ, β} (T) [\bar{v}]_{β} = (\begin{matrix} t_{11} & \dots & t_{1 n} \\ ⋮ & ⋱ & ⋮ \\ t_{m 1} & \dots & t_{m n} \end{matrix}) (\begin{matrix} v_{1} \\ ⋮ \\ v_{n} \end{matrix}) = (\begin{matrix} \sum_{k = 1}^{n} t_{1 k} v_{k} \\ ⋮ \\ \sum_{k = 1}^{n} t_{m k} v_{k} . \end{matrix})$

Por otro lado tenemos lo siguiente:

$\begin{aligned} T (\bar{v}) & = T (\sum_{k = 1}^{n} v_{k} {\bar{e}}_{k}) \\ = \sum_{k = 1}^{n} v_{k} T ({\bar{e}}_{k}) \\ = \sum_{k = 1}^{n} v_{k} T (\sum_{i = 1}^{m} t_{i k} {\bar{w}}_{i}) \\ = \sum_{i = 1}^{m} (\sum_{k = 1}^{n} v_{k} t_{i k}) {\bar{w}}_{i} . \end{aligned}$

Juntando ambos cálculos: $[T (\bar{v})]_{γ} = (\begin{matrix} \sum_{k = 1}^{n} v_{k} t_{1 k} \\ ⋮ \\ \sum_{k = 1}^{n} v_{k} t_{m k} \end{matrix}) = {Mat}_{γ, β} (T) [\bar{v}]_{β} .$

En otras palabras, aplicar $T$ a un vector $\bar{v}$ equivale a multiplicar ${Mat}_{γ, β}$ por el vector columna asociado a $\bar{v}$ en la base $β$ , en el sentido de que tras hacer este producto recuperamos el vector de coordenadas para $T (\bar{v})$ en la base $γ$ .

Isomorfismo entre transformaciones lineales y matrices

Con las operaciones de suma y multiplicación por escalar que vimos en la entrada de Matrices, se tiene que $M_{m, n} (R)$ es un espacio vectorial sobre $R$ . De igual manera $L (R^{n}, R^{m})$ es un espacio vectorial sobre $R$ con las siguientes operaciones:

Si $T$ y $U$ son dos transformaciones, la transformación $T + U$ es aquella que envía a todo vector $\bar{v} \in R^{n}$ al vector $T (\bar{v}) + U (\bar{v})$ .
Si $r \in R$ la transformación $r T$ es la que a todo $\bar{v} \in R^{n}$ lo envía al vector $r T (\bar{v})$ .

Queda como ejercicio que verifiques que esto dota efectivamente a $L (R^{n}, R^{m})$ de la estructura de espacio vectorial.

A continuación veremos que estos dos espacios vectoriales son, prácticamente, el mismo. Lo que haremos es construir una función $Φ : M_{m, n} (R) \to L (R^{n}, R^{m})$ que sea biyectiva y que preserve las operaciones de suma y de producto escalar.

Para ello, tomemos una base $β = {{\bar{e}}_{1}, \dots, {\bar{e}}_{n}}$ de $R^{n}$ y una base $γ = {{\bar{u}}_{1}, \dots, {\bar{u}}_{m}}$ de $R^{m}$ . Tomemos una matriz $A \in M_{m, n} (R)$ . Explicaremos a continuación cómo construir la transformación $Φ (A)$ , para lo cual diremos qué hace con cada elemento de la base $β$ . Tomaremos aquella transformación lineal $T_{A} \in L (R^{n}, R^{m})$ tal que

$T_{A} ({\bar{e}}_{j}) = \sum_{i = 1}^{n} a_{i j} {\bar{u}}_{i} .$

Tomamos entonces $Φ (A) = T_{A}$ . Veamos que $Φ$ tiene todas las propiedades que queremos.

$Φ$ es suprayectiva. Si tenemos una transformación $T : R^{n} \to R^{m}$ , entonces por la construcción anterior se tiene que su forma matricial $A := {Mat}_{γ, β} (T)$ justo cumple $T_{A} = T$ , de modo que $Φ (A) = T$ .
$Φ$ es inyectiva. Si $A$ y $B$ son matrices distintas, entonces difieren en alguna entrada, digamos $(i, j)$ . Pero entonces $T_{A}$ y $T_{B}$ difieren ya que $T_{A} ({\bar{e}}_{j}) \neq T_{B} ({\bar{e}}_{j})$ ya que en las combinaciones lineales creadas hay un coeficiente distinto. Así, $Φ (A) \neq Φ (B)$ .
$Φ$ es lineal. Para $r \in R$ , $A$ y $B$ matrices con entradas $a_{i j}$ y $b_{i j}$ , respectivamente, se cumple que $Φ (r A + B) = T_{(r A + B)}$ y entonces se satisface para cada $j = 1, \dots, n$ lo siguiente:
$\begin{aligned} (r A + B) [{\bar{e}}_{j}]_{β} & = r A [{\bar{e}}_{j}]_{β} + B [{\bar{e}}_{j}]_{β} \\ = r [T_{A} ({\bar{e}}_{i})]_{γ} + [T_{B} ({\bar{e}}_{i})]_{γ} . \end{aligned}$
Por tanto para cada ${\bar{e}}_{i}$ tenemos que $T_{(r A + B)} ({\bar{e}}_{i}) = r T_{A} ({\bar{e}}_{i}) + T_{B} ({\bar{e}}_{i})$ y en consecuencia $T_{(r A + B)} = r T_{A} + T_{B} .$ Así $Φ (r A + B) = r Φ (A) + Φ (B) .$

Todo lo anterior implica que $M_{m, n} (R) ≃ L (R^{n}, R^{m})$ , es decir, que ambos espacios vectoriales son isomorfos.

En búsqueda de una matriz sencilla

Por lo que hemos platicado hasta ahora, a cada transformación lineal le corresponde una matriz, y viceversa. De hecho, esta asociación respeta operaciones como la suma y el producto por escalar. Esta equivalencia está dada a partir de la función $Φ$ encontrada en la sección anterior.

Si $Φ$ es biyectiva, ¿por qué hablamos entonces de encontrar una representación matricial simple para una transformación lineal $T$ ? Esto parecería no tener sentido, pues a cada transformación le corresponde una y sólo una matriz. Sin embargo, esto es cierto únicamente tras haber fijado las bases $β$ y $γ$ para $R^{n}$ y $R^{m}$ , respectivamente. Así, dependiendo de la elección de las bases las representaciones matriciales cambian y si tenemos una transformación lineal $T$ , es posible que querramos encontrar bases $β$ y $γ$ en donde la representación matricial sea sencilla.

Nos enfocaremos únicamente en transformaciones lineales que van de un espacio vectorial a sí mismo. Tomemos entonces $T : R^{n} \to R^{n}$ y una base $β$ de $R^{n}$ . Por simplicidad, escribiremos ${Mat}_{β, β} (T)$ simplemente como ${Mat}_{β} (T)$ . Hay propiedades de $T$ que podemos leer en su matriz ${Mat}_{β} (T)$ y que no dependen de la base $β$ que hayamos elegido. Si con una base $β$ especial resulta que ${Mat}_{β} (T)$ es muy sencilla, entonces podremos leer estas propiedades de $T$ muy fácilmente. Un ejemplo es la siguiente proposición, la cual queda como tarea moral.

Proposición. La transformación lineal $T : R^{n} \to R^{n}$ es invertible si y sólo si ${Mat}_{β} (T)$ es invertible.

Si $A = {Mat}_{β} (T)$ fuera muy muy sencilla, por ejemplo, si fuera una matriz diagonal, entonces podríamos saber la invertibilidad de $T$ sabiendo la invertibilidad de $A$ , y la de $A$ sería muy fácil de ver pues por ser matriz diagonal bastaría hacer el producto de las entradas de su diagonal para obtener su determinante y estudiar si es distinto de cero.

Motivados por el ejemplo anterior, estudiemos la siguiente pregunta: ¿toda transformación lineal se puede representar con una matriz diagonal? Si una transformación lineal se puede representar de esta manera, diremos que es diagonalizable.

Eigenvalores, eigenvectores y eigenespacios

En lo que sigue repasaremos el aparato conceptual que nos permitirá dar una respuesta parcial de cuándo una matriz es diagonalizable. Un tratamiento mucho más detallado se puede encontrar aquí en el blog, en el curso de Álgebra Lineal II, comenzando con la entrada Eigenvectores y eigenvalores.

Para nuestro repaso, debemos introducir algunos conceptos y estudiarlos.

Definición. Sea $T : R^{n} \to R^{n}$ una transformación lineal. Diremos que un escalar $r \in R$ es un eigenvalor de $T$ si existe $\bar{v} \in R^{n} ∖ {\bar{0}}$ tal que $T (\bar{v}) = r \bar{v}$ . A dicho vector $\bar{v}$ le llamaremos un eigenvector de $T$ con eigenvalor asociado $r$ .

Dado un eigenvector $\bar{v} \in R^{n}$ , sólo hay un eigenvalor correspondiente a éste. Si $T (\bar{v}) = r \bar{v}$ y $T (\bar{v}) = t \bar{v}$ , entonces $r \bar{v} = t \bar{v}$ de donde $(r - t) \bar{v} = \bar{0}$ . Como $\bar{v} \neq \bar{0}$ , se sigue que $r = t$ .

Por otro lado, para un eigenvalor $r$ puede haber más de un eigenvector con eigenvalor asociado $r$ . Consideremos para un eigenvalor $r$ el conjunto $E (r) = {\bar{v} \in V | T (\bar{v}) = r \bar{v}}$ . Notemos que $\bar{0} \in E (r)$ y también todos los eigenvectores de $r$ están en $E (r)$ . Además, $E (r)$ es un subespacio de $R^{n}$ , pues si $\bar{u}, \bar{v} \in E (r)$ , y $a \in R$ , tenemos

$\begin{aligned} T (a \bar{u} + \bar{v}) & = a T (\bar{u}) + T (\bar{v}) \\ = a (r \bar{u}) + (r \bar{v}) \\ = r (a \bar{u} + \bar{v}), \end{aligned}$

lo cual implica que $a \bar{u} + \bar{v} \in E (r)$ .

Definición. Para una transformación lineal $T : R^{n} \to R^{n}$ y un eigenvalor $r$ de $T$ llamaremos a

$E (r) = {\bar{v} \in V | T (\bar{v}) = r \bar{v}}$

el eigenespacio de $T$ correspondiente a $r$ .

Cuando tenemos eigenvectores correspondientes a eigenvalores distintos, cumplen algo especial.

Proposición. Si ${\bar{v}}_{1}, \dots, {\bar{v}}_{l}$ son eigenvectores de una transformación lineal $T : R^{n} \to R^{n}$ con eigenvalores correspondientes $r_{1}, \dots, r_{l}$ distintos entonces ${\bar{v}}_{1}, \dots, {\bar{v}}_{l}$ son linealmente independientes.

Demostración. La ruta para establecer la demostración de este teorema será por inducción sobre $l$ . Para un conjunto con sólo un eigenvector el resultado es evidente (¿por qué?). Supongamos cierto para cualquier subconjunto de $l - 1$ eigenvectores que pertenecen a eigenespacios distintos. Sean ${\bar{v}}_{1}, \dots, {\bar{v}}_{l}$ eigenvectores en distintos eigenespacios y consideremos $α_{1}, \dots, α_{l}$ escalares tales que:

$\begin{matrix} (2) & \sum_{k = 1}^{l} α_{k} {\bar{v}}_{k} = \bar{0} . \end{matrix}$

Aplicamos $T$ a la igualdad anterior. Usando que cada ${\bar{v}}_{k}$ es eigenvector correspondiente al eigenvalor $r_{k}$ obtenemos:

$\begin{aligned} \bar{0} = T (\bar{0}) & = T (\sum_{k = 1}^{l} α_{k} {\bar{v}}_{k}) \\ = \sum_{k = 1}^{l} α_{k} T ({\bar{v}}_{k}) \\ = \sum_{k = 1}^{l} α_{k} r_{k} {\bar{v}}_{k} . \end{aligned}$

Es decir,

$\begin{matrix} (3) & 0 = \sum_{k = 1}^{l} α_{k} r_{k} {\bar{v}}_{k} \end{matrix}$

Multipliquemos $(2)$ por $r_{l}$ y restemos el resultado de $(3)$ para obtener que

$\begin{aligned} \bar{0} = \bar{0} - \bar{0} & = \sum_{k = 1}^{l} α_{k} r_{k} {\bar{v}}_{k} - r_{l} \sum_{k = 1}^{l} α_{k} {\bar{v}}_{k} \\ = \sum_{k = 1}^{l - 1} α_{k} (r_{k} - r_{l}) {\bar{v}}_{k} . \end{aligned}$

Tenemos entonces:

$\sum_{k = 1}^{l - 1} α_{k} (r_{k} - r_{l}) {\bar{v}}_{k} = \bar{0} .$

Ya que por hipótesis de inducción ${\bar{v}}_{1}, \dots, {\bar{v}}_{l - 1}$ son linealmente independientes entonces $α_{k} (r_{k} - r_{l}) = 0$ para todo $k$ , pero los eigenvalores son todos distintos entre sí por lo tanto para todo $k$ de $1$ a $l - 1$ se tiene $r_{k} - r_{l} \neq 0$ y así $α_{k} = 0$ . Finalmente, usando $(2)$ obtenemos $α_{l} = 0$ . Por lo tanto ${\bar{v}}_{1}, \dots, {\bar{v}}_{l}$ son linealmente independientes.

Eigenvectores y transformaciones diagonalizables

Recuerda que dijimos que una transformación lineal $T : R^{n} \to R^{n}$ es diagonalizable si existe una base $β$ de $R^{n}$ tal que ${Mat}_{β} (T)$ es una matriz diagonal. El siguiente resultado conecta las dos ideas que hemos estado explorando: los eigenvectores y la representabilidad sencilla de $T$ .

Teorema. Sea $T : R^{n} \to R^{n}$ transformación lineal. Una matriz $T$ es diagonalizable si y sólo si existe una base de $R^{n}$ conformada por eigenvectores de $T$ .

En realidad la demostración consiste únicamente en entender correctamente cómo se construyen las matrices para una base dada.

Demostración. $\Rightarrow)$ Supongamos que $T$ tiene una representación matricial que es una matriz diagonal $A := {Mat}_{β} (T) = diag (r_{1}, \dots, r_{n})$ con respecto a la base $β = {{\bar{v}}_{1}, \dots, {\bar{v}}_{n}}$ . Afirmamos que para cada $j = 1, \dots, n$ se tiene ${\bar{v}}_{j}$ es eigevector de eigenvalor $r_{j}$ . En efecto, la forma en la que se construyó la matriz $A$ nos dice que

$\begin{aligned} T ({\bar{e}}_{j}) & = \sum_{i = 1}^{n} a_{i j} {\bar{e}}_{i} \\ = a_{j j} {\bar{e}}_{j} \\ = r_{j} {\bar{e}}_{j}, \end{aligned}$

en donde estamos usando que las entradas $a_{i j}$ de la matriz son cero si $i \neq j$ (por ser diagonal), y son $r_{j}$ si $i = j$ . Por supuesto, como ${\bar{e}}_{j}$ forma parte de una base, tampoco es el vector cero. Así, ${\bar{e}}_{j}$ es eigenvector de eigenvalor ${\bar{e}}_{j}$ .

$\Leftarrow)$ Supongamos ahora que ${\bar{v}}_{1}, \dots, {\bar{v}}_{n}$ son una base $β$ de $R^{n}$ conformada por eigenvectores de $T$ con eigenvalores asociados, digamos, $r_{1}, \dots, r_{n}$ . Aquí se puede mostrar que ${Mat}_{β} (T)$ es diagonal. Queda como tarea moral hacer las cuentas.

Hay una situación particular en la que podemos aprovechar el teorema anterior de manera inmediata: cuando la transformación tiene $n$ eigenvalores distintos. Esta consecuencia queda establecida en el siguiente resultado.

Corolario. Toda transformación lineal $T : R^{n} \to R^{n}$ tiene a lo más $n$ eigenvalores distintos. Si $T$ tiene exactamente $n$ eigenvalores distintos, entonces los eigenvectores correspondientes forman una base para $R^{n}$ y la matriz de $T$ relativa a esa base es una matriz diagonal con los eigenvalores como elementos diagonales.

Demostración. Queda como tarea moral. Como sugerencia, recuerda que mostramos arriba que los eigenvectores de eigenvalores distintos son linealmente independientes.

Al parecer los eigenvalores, eigenvectores y eigenespacios de una transformación lineal son cruciales para poder expresarla de manera sencilla. ¿Cómo los encontramos? Esto lo veremos en la siguiente entrada.

Antes de concluir, mencionamos que hay otro teorema crucial sobre diagonalización de matrices. Diremos que una matriz $P \in M_{n} (R)$ es ortogonal si $P^{t} P = I$ .

Teorema (el teorema espectral). Sea $A \in M_{n} (R)$ una matriz simétrica. Entonces, existe una matriz ortogonal $P$ tal que $P A P^{t}$ es una matriz diagonal.

El teorema anterior nos dice no únicamente que la matriz $A$ es diagonalizable, sino que además es diagonalizable mediante un tipo muy especial de matrices. Un estudio y demostración de este teorema queda fuera de los alcances de nuestro curso, pero puedes revisar, por ejemplo la entrada teorema espectral del curso de Álgebra Lineal I que tenemos en el blog.

Más adelante…

Lo que haremos en la siguiente entrada es desarrollar un método para conocer los eigenvalores de una matriz. A partir de ellos podremos encontrar sus eigenvectores. Y en ciertos casos especiales, esto nos permitirá mostrar que la transformación es diagonalizable y, de hecho, nos dará la base para la cual la matriz asociada es diagonal.

Tarea moral

Considera la transformación lineal de $R^{3}$ en $R^{2}$ , dada como $T (x, y, z) = (x + y, z + y)$ . Encuentra su representación matricial con las bases canónicas de $R^{3}$ y $R^{2}$ . Luego, encuentra su representación matricial con las bases ${(1, 2, 3), (1, 0, 1), (0, - 1, 0)}$ de $R^{3}$ y ${(1, 1), (1, - 1)}$ de $R^{2}$ .
Considera la siguiente matriz: $(\begin{matrix} 1 & 0 & 2 & 3 \\ 0 & - 1 & 0 & 2 \end{matrix})$ Da una transformación lineal $T : R^{4} \to R^{2}$ y ciertas bases $β$ de $R^{4}$ y $γ$ de $R^{2}$ para las cuales esta matriz sea la representación matricial de $T$ en las bases $β$ y $γ$ .
Fija bases $β$ , $γ$ y $δ$ para $R^{n}$ , $R^{m}$ y $R^{l}$ . Considera dos transformaciones lineales $T : R^{n} \to R^{m}$ y $S : R^{m} \to R^{l}$ . Demuestra que:
${Mat}_{δ, β} (S \circ T) = {Mat}_{δ, γ} (S) {Mat}_{γ, β} (T) .$
En otras palabras que la «composición de transformaciones corresponde al producto de sus matrices».
Sea $T : R^{n} \to R^{n}$ una transformación lineal y $β$ una base de $R^{n}$ . Demuestra que $T$ es biyectiva si y sólo si ${Mat}_{β} (T)$ es invertible.
Verifica que los vectores ${\bar{v}}_{1}, \dots, {\bar{v}}_{n}$ dados en el último teorema en efecto ayudan a dar una representación matricial diagonal para $T$ .
La demostración del último corolario es un conjunto de sencillas consecuencias de las definiciones y teoremas desarrollados en esta entrada con respecto a los eigenvalores y eigenvectores. Realiza esta demostración.

Entradas relacionadas

Ir a Cálculo Diferencial e Integral III
Entrada anterior del curso: Sistemas de ecuaciones lineales
Entrada siguiente del curso: Polinomio característico

Geometría Analítica I: Polinomios cuadráticos y curvas cuadráticas

Por Leonardo Ignacio Martínez Sandoval

Deja un comentario

Introducción

Lo primero que queremos determinar en un problema de clasificación es cuáles son los objetos que clasificaremos. En esta entrada los definimos con toda precisión: serán los polinomios cuadráticos en dos variables y las curvas cuadráticas.

Los primeros son expresiones algebraicas que mezclan a dos variables $x$ y $y$ mediante sumas y productos, pero teniendo grado dos. Las segundas son aquellos conjuntos del plano en donde se anula un polinomio cuadrático.

Polinomios cuadráticos en dos variables

Comencemos con una definición algebraica.

Definición. Un polinomio cuadrático en dos variables $P$ es una función $P : R^{2} \to R$ de la forma $P ((x, y)) = A x^{2} + B x y + C y^{2} + D x + E y + F,$ para algunos reales $A, B, C, D, E, F$ , en donde alguno de $A$ , $B$ ó $C$ es distinto de cero.

En ocasiones, para abreviar «polinomio cuadrático en dos variables» simplemente usaremos las siglas «PCDV».

Ejemplo. Todas las expresiones que aparecen en las cónicas canónicas que hemos estudiado son PCDVs. Por ejemplo, la ecuación canónica de la elipse $\frac{x^{2}}{a^{2}} + \frac{y^{2}}{b^{2}} = 1$ puede reescribirse como $b^{2} x^{2} + a^{2} y^{2} - a^{2} b^{2} = 0.$ Del lado izquierdo de esta igualdad tenemos un PCDV. De manera similar, la ecuación canónica de la parábola $y^{2} = 4 p x$ puede reescribirse como $y^{2} - 4 p x = 0$ . Una vez más al lado izquierdo nos aparece un PCDV.

$△$

Ejemplo. Si consideramos las dos rectas $3 x + 5 y + 1 = 0$ y $2 x - 2 y + 1 = 0$ y «multiplicamos» sus ecuaciones, entonces obtenemos de nuevo un PCDV pues el producto es:

$\begin{aligned} (3 x + 5 y + 1) (2 x - 2 y + 1) & = 6 x^{2} - 6 x y + 3 x + 10 x y - 10 y^{2} + 5 y + 2 x - 2 y + 1 \\ = 6 x^{2} + 4 x y - 10 y^{2} + 5 x + 3 y + 1. \end{aligned}$

$△$

Curvas cuadráticas

Cuando tenemos una expresión algebraica que depende de dos variables $x$ y $y$ , entonces podemos preguntarnos por cómo es la figura geométrica que se obtiene al considerar los puntos $(x, y)$ del plano que hacen que la expresión algebraica sea igual a cero. Un ejemplo de esto es cuando consideramos las expresiones del estilo $A x + B y + C$ . Las parejas $(x, y)$ que hacen que esta expresión sea igual a cero forman una recta en el plano. En efecto, forman la recta en forma normal dada por la ecuación $(A, B) \cdot (x, y) = - C$ , como puedes verificar.

Esta idea es mucho más general. A partir de los polinomios cuadráticos en dos variables también podemos hacernos la misma pregunta: ¿cómo se ven las parejas $(x, y)$ que anulan un polinomio cuadrático? La respuesta será importante, así que las figuras que se construyen así les damos su propio nombre.

Definición. Una curva cuadrática es el conjunto de puntos $(x, y)$ del plano que anulan a un polinomio cuadrático en dos variables $P$ . En otras palabras, es un conjunto de la forma $C := {(x, y) \in R^{2} : A x^{2} + B x y + C y^{2} + D x + E y + F = 0} .$

A $P$ le llamamos el polinomio asociado a $C$ . A $C$ le llamamos la curva descrita (o dada) por $P$ . Quizás usaremos terminología un poco distinta, pero que siga dejando evidente que $P$ y $C$ están relacionados.

Ejemplo. Ya hemos estudiado anteriormente algunas curvas cuadráticas: las cónicas canónicas. Por ejemplo, si tomamos el PCDV $P ((x, y)) = 4 x^{2} - 9 y^{2} - 36$ y nos preguntamos para cuáles parejas $(x, y)$ esto es igual a cero, como respuesta tenemos que son aquellas parejas $(x, y)$ tales que $4 x^{2} - 9 y^{2} - 36 = 0$ , lo cual podemos reescribir como $\frac{x^{2}}{9} - \frac{y^{2}}{4} = 1.$ Esta es la hipérbola canónica de semieje mayor $3$ y semieje menor $2$ . Podemos verla en la siguiente figura.

$△$

Ejemplo. ¿Qué sucede si nos fijamos en la curva descrita por el polinomio cuadrático en dos variables $6 x^{2} + 4 x y - 10 y^{2} + 5 x + 3 y + 1$ que construimos en un ejemplo anterior? Si recuerdas, obtuvimos este polinomio cuadrático en dos variables a partir de multiplicar dos expresiones. De esta forma, tenemos que $6 x^{2} + 4 x y - 10 y^{2} + 5 x + 3 y + 1 = 0$ si y sólo si $(3 x + 5 y + 1) (2 x - 2 y + 1) = 0.$ Pero el producto de dos cosas es igual a cero si y sólo si alguna es igual a cero. Así, alguna de las expresiones $3 x + 5 y + 1$ y $2 x - 2 y + 1$ debe ser igual a cero. Si la primera es cero, entonces $(x, y)$ es un punto en la recta normal $ℓ_{1}$ de ecuación $(3, 5) \cdot (x, y) = - 1$ . Si la segunda es cero, entonces $(x, y)$ es un punto en la recta normal $ℓ_{2}$ de ecuación $(2, - 2) \cdot (x, y) = - 1$ . Así, la curva cuadrática descrita por el PCDV es la unión de $ℓ_{1}$ con $ℓ_{2}$ . Podemos verla en la siguiente figura.

$△$

Forma matricial de polinomios cuadráticos en dos variables

Cuando trabajamos con rectas, nos convenía tener varias formas de expresarlas: la forma paramétrica ayudaba a determinar fácilmente el paralelismo, la forma baricéntrica nos daba fórmulas sencillas para los puntos medios, la forma normal nos permitía encontrar distancias, etc. Así mismo, cuando trabajamos con polinomios cuadráticos en dos variables es de ayuda tener más de una expresión.

Podemos reescribir un polinomio cuadrático en dos variables $P ((x, y)) = A x^{2} + B x y + C y^{2} + D x + E y + F$ de una manera más compacta usando multiplicación matricial. Para ello, definimos $M = (\begin{matrix} A & \frac{B}{2} \\ \frac{B}{2} & C \end{matrix}), k = (\begin{matrix} D \\ E \end{matrix}), v = (\begin{matrix} x \\ y \end{matrix}) .$ Con esta notación, e interpretando a las matrices de $1 \times 1$ como reales, tenemos que $P$ se puede reescribir de la siguiente manera: $P (v) = v .$

En efecto, al realizar las operaciones en el lado derecho obtenemos:

$\begin{aligned} v^{t} M v + k^{t} v + F & = (\begin{array}{c} x & y \end{array}) (\begin{array}{c} A & \frac{B}{2} \\ \frac{B}{2} & C \end{array}) (\begin{array}{c} x \\ y \end{array}) + (\begin{array}{c} D & E \end{array}) (\begin{array}{c} x \\ y \end{array}) + F \\ = (\begin{array}{c} x & y \end{array}) (\begin{array}{c} A x + \frac{B}{2} y \\ \frac{B}{2} x + C y \end{array}) + D x + E y + F \\ = A x^{2} + B x y + C y^{2} + D x + E y + F . \end{aligned}$

Observa que cuando pasamos un polinomio cuadrático en dos variables a forma matricial entonces siempre obtenemos una matriz $M$ simétrica.

Ejemplo. La forma matricial del PCDV que encontramos anteriormente $6 x^{2} + 4 x y - 10 y^{2} + 5 x + 3 y + 1$ es

$(\begin{matrix} x & y \end{matrix}) (\begin{matrix} 6 & 2 \\ 2 & 10 \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) + (\begin{matrix} 5 & 3 \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) + 1.$

nota que el coeficiente de $x y$ se tuvo que dividir entre $2$ para llegar a las entradas de la matriz. Es importante recordar esto al pasar de la forma en coordenadas a la forma matricial.

$△$

En caso de ser necesario, también podemos pasar fácilmente de la forma matricial de un polinomio cuadrático en dos variables a su forma en coordenadas.

Ejemplo. Si comenzamos con el polinomio cuadrático en dos variables con forma matricial $(\begin{matrix} x & y \end{matrix}) (\begin{matrix} 2 & - 1 \\ - 1 & 3 \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) + (\begin{matrix} 0 & - 3 \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) - 1,$

entonces su forma en coordenadas es $2 x^{2} - 2 x y + 3 y^{2} - 3 y - 1.$

Observa que las entradas $- 1$ fuera de la diagonal principal de la matriz al salir se duplican para conformar el coeficiente de $x y$ . Es importante recordar esto al pasar de forma matricial a forma en coordenadas.

$△$

Más adelante…

En esta entrada definimos qué son los polinomios cuadráticos en dos variables y qué son las curvas cuadráticas.

Por un lado, mencionamos que todas las ecuaciones de cónicas canónicas que hemos visto tienen polinomios cuadráticos en dos variables. ¿Será que todas las ecuaciones de cónicas también tienen polinomios cuadráticos en dos variables? Por otro lado, vimos que algunas curvas cuadráticas son cónicas. Pero nos pasó algo un poco raro: en un ejemplo salieron dos rectas que se intersectan, que quizás estrictamente no pensamos como una cónica usual (elipse, hipérbola, parábola).

¿Cómo serán todas las curvas cuadráticas? ¿Serán sólo las cónicas usuales y algunas excepciones o podrán tener formas muy extrañas? Eso lo estudiaremos después.

También en esta entrada vimos la forma matricial de un polinomio cuadrático en dos variables. De momento, no hemos hablado de la utilidad que tiene pensar a un PCDV así. Sin embargo, en la siguiente entrada veremos que esta expresión es fundamental para ver qué sucede cuando «combinamos» un polinomio cuadrático con una transformación afín.

Tarea moral

Usa alguna herramienta tecnológica (como GeoGebra) para trazar las curvas cuadráticas descritas por los siguientes polinomios cuadráticos en dos variables:
- $x^{2} - 2 x y + 3 y^{2} + x - 5 y + 7$
- $3 y^{2} + 5 y + x$
- $x^{2} + y^{2} - 5 x - 5 y + 3$
- $x y - x - y + 7$
- $- x^{2} + 2 x y - 3 y^{2} - x + 5 y - 7$
Sea $P : R^{2} \to R$ dada por $P ((x, y)) = (A x + B y + C) (D x + E y + F)$ . Demuestra que $P$ es un polinomio cuadrático en dos variables. Luego, demuestra que:
1. Si $A E - B D \neq 0$ , entonces la curva cuadrática dada por $P$ es la unión de dos rectas que se intersectan.
2. Si $A E - B D = 0$ , entones la curva cuadrática dada por $P$ es la unión de dos rectas paralelas (no necesariamente distintas).
Demuestra que la intersección de una recta con una curva cuadrática sólo puede ser:
1. Vacía,
2. Un punto,
3. Dos puntos, o
4. Una infinidad de puntos.
Demuestra que cualquier curva cuadrática $C$ puede ser descrita a través de una infinidad de polinomios cuadráticos en dos variables.
Considera la gráfica de la función $f (x) = \sin (x)$ . ¿Será que esta gráfica es una curva cuadrática? Intenta demostrar por qué sí o por qué no.

Entradas relacionadas

Ir a Geometría Analítica I
Entrada anterior del curso: Introducción a resultados de clasificación
Siguiente entrada del curso: Equivalencias afines e isométricas

Álgebra Lineal II: Aplicar polinomios a transformaciones lineales y matrices

Por Julio Sampietro

5 respuestas

Introducción

Varios de los resultados fundamentales de Álgebra Lineal se obtienen al combinar las idea de transformaciones lineales con la de polinomios. El objetivo de esta entrada es introducir el concepto de «aplicar polinomios a matrices» o equivalentemente «aplicar polinomios a transformaciones lineales». La idea fundamental es simple: las potencias en los polinomios se convierten en repetidas aplicaciones de la transformación y las constantes en múltiplos de la identidad. Si bien esta idea es simple, más adelante veremos aplicaciones importantes y con un gran alcance. Uno de los resultados cruciales que surge de esta idea es el conocido teorema de Cayley-Hamilton.

Primeras construcciones

Sea $V$ un espacio vectorial sobre un campo $F$ , y sea $T : V \to V$ una transformación lineal. Definimos a la transformación $T^{n} : V \to V$ para cualquier $n \in N$ inductivamente a través de

$\begin{array}{r} T^{0} = Id, T^{i + 1} = T \circ T^{i}, \end{array}$

donde, recordamos, $Id$ es la transformación identidad. Intuitivamente, $T^{n}$ es la « $n$ -ésima composición» de $T$ . Por ejemplo, $T^{3} (v)$ no es más que $T (T (T (v)))$ y $T^{0} (v)$ es simplemente «no usar $T$ para nada», es decir, $Id (v) = v$ . Al componer iteradamente $T$ , sigue siendo una transformación lineal de $V$ a $V$ , así que $T^{n}$ es transformación lineal de $V$ a $V$ para todo entero $n \geq 0$ .

Ya que hablamos de «potencias» de una transformación lineal, podemos rápidamente hacer sentido de un «polinomio evaluado en una transformación lineal». Si $P (X) = a_{0} + a_{1} X + a_{2} X^{2} + \dots + a_{n} X^{n} \in F [X]$ es un polinomio, definimos $P (T) : V \to V$ como

$\begin{array}{r} P (T) := a_{0} T^{0} + a_{1} T^{1} + a_{2} T^{2} + \dots + a_{n} T^{n} . \end{array}$

Como las transformaciones lineales de $V$ a $V$ son cerradas bajo combinaciones lineales, entonces $P (T)$ también es una transformación lineal de $V$ a $V$ .

Ejemplo. Tomemos a la transformación $T : R^{2} \to R^{2}$ dada por $T (x, y) = (2 x - 2 y, x + y)$ . Tomemos al polinomio $P (x) = x^{3} - 2 x + 4$ . ¿Quién es la transformación $P (T)$ ? Calculemos primero las «potencias» de $T$ :

$\begin{aligned} T^{0} (x, y) & = (x, y) \\ T^{1} (x, y) & = T (x, y) \\ = (2 x - 2 y, x + y) \\ T^{2} (x, y) & = T (T (x, y)) \\ = T (2 x - 2 y, x + y) \\ = (2 (2 x - 2 y) - 2 (x + y), (2 x - 2 y) + (x + y)) \\ = (2 x - 6 y, 3 x - y) \\ T^{3} (x, y) & = T (2 x - 6 y, 3 x - y) \\ = (- 2 x - 10 y, 5 x - 7 y) . \end{aligned}$

Ahora sí, ya podemos saber qué hace $P (T)$ . Tenemos:

$\begin{aligned} P (T) (x, y) & = (T^{3} - 2 T + 4 Id) (x, y) \\ = (- 2 x - 10 y, 5 x - 7 y) - 2 (2 x - 2 y, x + y) + 4 (x, y) \\ = (- 2 x - 6 y, 3 x - 5 y) . \end{aligned}$

$△$

Sumas y productos de polinomios

Las operaciones suma y producto de polinomios se traducen, respectivamente, a suma y composición de las evaluaciones en transformaciones lineales. Esta es una linda propiedad que podemos hacer precisa gracias a la siguiente proposición.

Proposición. Si $P_{1}, P_{2} \in F [X]$ son dos polinomios y $T : V \to V$ es una transformación lineal, entonces

$(P_{1} + P_{2}) (T) = P_{1} (T) + P_{2} (T)$ ,
$(P_{1} P_{2}) (T) = P_{1} (T) \circ P_{2} (T)$ .

Te invitamos a demostrar esta proposición. Advertimos que, sin embargo, no se cumplen identidades como $P (T_{1} + T_{2}) = P (T_{1}) + P (T_{2})$ o bien $P (T_{1} \circ T_{2}) = P (T_{1}) \circ P (T_{2}) .$ Un contraejemplo para la primera identidad podría ser tomar $P (X) = X^{2}$ y $T_{1} = T_{2} = Id$ . En este caso

$\begin{aligned} P (T_{1} + T_{2}) & = (T_{1} + T_{2})^{2} \\ = 4 Id \\ \neq 2 Id \\ = P (T_{1}) + P (T_{2}) . \end{aligned}$

Dejamos como ejercicio el verificar que la segunda identidad tampoco es cierta en general. Fijando $T$ , podemos juntar a todas las transformaciones de la forma $P (T)$ para algún $P$ en la siguiente estructura.

Definición. La $F$ -álgebra generada por la transformación $T$ es el conjunto

$\begin{array}{r} F [T] = {P (T) ∣ P \in F [X]} . \end{array}$

Una consecuencia de la proposición anterior (es más, ¡una mera traducción!) es la siguiente.

Proposición. Para cualesquiera $x, y \in F [T]$ y $c \in F$ se cumple que $x + c y \in F [T]$ y $x \circ y \in F [T] .$ Es decir, $F [T]$ es un subespacio del espacio de todas las transformaciones lineales de $V$ en $V$ que además es estable bajo composición.

También puedes verificar que $F [T]$ es el subespacio más chico (en el sentido de contención) del espacio de transformaciones lineales en $V$ que contiene a $T$ , a $Id$ y que es cerrado bajo composiciones.

Lo mismo pero con matrices

Desde Álgebra Lineal I sabemos que una transformación lineal se corresponde de manera biunívoca (fijando una base) con una matriz. Nuestra discusión previa se puede adaptar a este vocabulario, y eso es lo que haremos ahora.

Si $A \in M_{n} (F)$ es una matriz cuadrada de orden $n$ con coeficientes en $F$ , podemos entender a $A^{n}$ simplemente como el $n$ -ésimo producto de $A$ consigo misma. Luego si $P (X) = a_{0} + a_{1} X + a_{2} X^{2} + \dots + a_{n} X^{n} \in F [X]$ es un polinomio, definimos

$\begin{array}{r} P (A) := a_{0} I_{n} + a_{1} A + a_{2} A^{2} + \dots + a_{n} A^{n} . \end{array}$

Se cumple que $(P Q) (A) = P (A) \cdot Q (A)$ para cualesquiera polinomios $P, Q$ y cualquier matriz $A$ . Similarmente el álgebra generada por $A$ se define como

$\begin{array}{r} F [A] = {P (A) ∣ P \in F [X]}, \end{array}$

y es un subespacio de $M_{n} (F)$ que es cerrado bajo producto de matrices.

Ejemplo. Consideremos la matriz $A = (\begin{matrix} 2 & - 2 \\ 1 & 1 \end{matrix})$ . Consideremos el polinomio $P (x) = x^{3} - 2 x + 4$ . ¿Quién es la matriz $P (A)$ ? Usando la definición, primero nos enfocaremos en encontrar las potencias de $A$ . Puedes verificar por tu cuenta que:

$\begin{aligned} A^{0} & = (\begin{array}{c} 1 & 0 \\ 0 & 1 \end{array}) \\ A^{1} & = (\begin{array}{c} 2 & - 2 \\ 1 & 1 \end{array}) \\ A^{2} & = (\begin{array}{c} 2 & - 6 \\ 3 & - 1 \end{array}) \\ A^{3} & = (\begin{array}{c} - 2 & - 10 \\ 5 & - 7 \end{array}) \end{aligned}$

De esta manera,

$\begin{aligned} P (A) & = A^{3} - 2 A + 4 I_{2} \\ = (\begin{array}{c} - 2 & - 10 \\ 5 & - 7 \end{array}) - 2 (\begin{array}{c} 2 & - 2 \\ 1 & 1 \end{array}) + 4 (\begin{array}{c} 1 & 0 \\ 0 & 1 \end{array}) \\ = (\begin{array}{c} - 2 & - 6 \\ 3 & - 5 \end{array}) . \end{aligned}$

$△$

Este ejemplo se parece mucho al ejemplo que hicimos cuando evaluamos un polinomio en una transformación $T$ . Esto no es casualidad, y se puede resumir en la siguiente observación.

Observación. Si $A$ es la matriz asociada a $T$ en alguna base, entonces $P (A)$ es la matriz asociada a $P (T)$ en dicha base.

Unos problemas para calentar

A continuación veremos algunos unos cuantos problemas resueltos para que te familiarices con los conceptos que acabamos de ver de manera un poco más teórica.

Problema 1.

Si $A, B \in M_{n} (F)$ son matrices con $B$ invertible, demuestra que para cualquier $P \in F [X]$ se cumple
$\begin{array}{r} P (B A B^{- 1}) = B P (A) B^{- 1} . \end{array}$
Demuestra que si $A, B \in M_{n} (F)$ son similares, entonces $P (A)$ y $P (B)$ son similares para cualquier $P \in F [X]$ .

Solución.

Primero supongamos que $P (X) = X^{k}$ para alguna $k \geq 1$ . Necesitamos demostrar que ${(B A B^{- 1})}^{k} = B A^{k} B^{- 1}$ , y esto lo podemos verificar sencillamente pues
$\begin{aligned} (B A B^{- 1}) \cdot (B A B^{- 1}) \dots (B A B^{- 1}) & = B A (B^{- 1} B) A \dots (B^{- 1} B) A B^{- 1} \\ = B A^{k} B^{- 1}, \end{aligned}$
donde usamos que $B B^{- 1} = I_{n}$ . Más generalmente, si $P (X) = a_{0} + a_{1} X + a_{2} X^{2} + \dots + a_{n} X^{n}$ entonces
$\begin{aligned} P (B A B^{- 1}) & = \sum_{i = 0}^{n} a_{i} (B A B^{- 1})^{i} \\ = \sum_{i = 0}^{n} a_{i} B A^{i} B^{- 1} \\ = B (\sum_{i = 0}^{n} a_{i} A^{i}) B^{- 1} \\ = B P (A) B^{- 1} \end{aligned}$
que es lo que queríamos demostrar.
Como $A$ y $B$ son similares, existe $C$ invertible tal que $A = C B C^{- 1}$ . Por el inciso anterior tenemos
$\begin{array}{r} P (A) = P (C B C^{- 1}) = C P (B) C^{- 1} . \end{array}$
Así, $P (A)$ y $P (B)$ son similares.

Problema 2. Considera la matriz

$\begin{array}{r} A = (\begin{array}{c} 0 & 1 & - 1 \\ - 2 & 0 & 3 \\ 0 & 0 & 4 \end{array}) \end{array}$

así como el polinomio $P (X) = X^{2} + 2 X - 1$ . Calcula $P (A)$ .

Solución. Es cuestión de hacer los cálculos. Vemos que

$\begin{array}{r} A^{2} = (\begin{array}{c} - 2 & 0 & - 1 \\ 0 & - 2 & 14 \\ 0 & 0 & 16 \end{array}) \end{array}$

y así

$\begin{aligned} P (A) & = A^{2} + 2 A - I_{3} \\ = (\begin{array}{c} - 2 & 0 & - 1 \\ 0 & - 2 & 14 \\ 0 & 0 & 16 \end{array}) + 2 (\begin{array}{c} 0 & 1 & - 1 \\ - 2 & 0 & 3 \\ 0 & 0 & 4 \end{array}) - (\begin{array}{c} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array}) \\ = (\begin{array}{c} - 3 & 2 & - 3 \\ - 4 & - 3 & 20 \\ 0 & 0 & 23 \end{array}) . \end{aligned}$

$△$

Problema 3. Si $A$ es simétrica, demuestra que $P (A)$ es simétrica para cualquier polinomio $P$ .

Solución. La demostración se basa en los siguientes hechos:

Si $A = (a_{i j})$ y $B = (b_{i j})$ son matrices simétricas y $c \in F$ es un escalar, entonces $A + c B$ es simétrica, puesto que
$\begin{array}{r} (A + c B)_{i j} = a_{i j} + c b_{i j} = a_{j i} + c b_{j i} = (A + c B)_{j i} . \end{array}$
Si $A, B$ son simétricas, su producto es una matriz simétrica. De nuevo, basta con hacer el cálculo
$\begin{array}{r} (A B)_{i j} = \sum_{k = 1}^{n} a_{i k} b_{k j} = \sum_{k = 1}^{n} b_{j k} a_{k i} = (A B)_{j i} . \end{array}$
Usando el inciso anterior, se sigue que si $A$ es simétrica, entonces $A^{k}$ es simétrica para toda $k \geq 1$ . Además, $I_{n}$ es simétrica y por el primer punto tenemos que toda combinación lineal de matrices simétricas es simétrica. En particular $P (A)$ es simétrica.

Problema 4. Sea $V$ el espacio vectorial de todas las funciones $f : R \to R$ infinitamente diferenciables. Sea $T : V \to V$ dada por $T : f \mapsto f^{'}$ . ¿Puedes encontrar un polinomio $P \in R (X)$ distinto de cero tal que $P (T) = 0$ ?

Solución. No es posible encontrar dicho polinomio. Suponiendo que sí, tendríamos que $P (T)$ es una ecuación diferencial polinomial de orden $n$ , es decir, a cada función la evaluamos en una combinación

$\begin{array}{r} a_{0} f + a_{1} f^{'} + a_{2} f » + \dots + a_{n} f^{n} \end{array}$

donde $f^{n}$ es la $n$ -ésima derivada. Si $P (T)$ es idénticamente cero, tenemos que toda función suave $f$ satisface esta ecuación. En particular tenemos que la constante $g (x) = 1$ la satisface. Así $g^{'} = g » = \dots = g^{n} = 0$ y entonces

$\begin{array}{r} P (T) (g) = a_{0} g + a_{1} g + \dots + a_{n} g^{n} = a_{0} = 0. \end{array}$

Concluimos que $a_{0} = 0$ . Luego, si consideramos a la función identidad $h (x) = x$ entonces también se tiene que cumplir la ecuación (recordamos que ya eliminamos el término $a_{0}$ ). Así

$\begin{array}{r} P (T) (h) = a_{1} h^{'} + a_{2} h » + \dots + a_{n} h^{n} = a_{1} = 0, \end{array}$

donde usamos que $h^{'} (x) = 1$ y todas las derivadas de orden superior son cero. Continuando con este proceso (evaluando en $x^{2}, x^{3}, \dots$ ) llegamos a que todos los coeficientes $a_{i}$ son cero. Esto quiere decir que el polinomio era nulo en primer lugar.

$△$

Más adelante…

En entradas subsecuentes estudiaremos polinomios de matrices con propiedades especiales, como por ejemplo el polinomio mínimo, que se distinguen por sus deseables propiedades algebraicas. Este es el primer paso hacia el teorema de Cayley-Hamilton.

Tarea moral

Aquí hay unos ejercicios para que practiques lo visto en esta entrada.

Compara el ejemplo que se dio de evaluar un polinomio en una transformación $T$ con el de evaluar un polinomio en una matriz $A$ . ¿Por qué se parecen tanto?
Considera $V$ el espacio vectorial de funciones $C^{\infty}$ en el intervalo $[0, 2 π]$ y $D : V \to V$ a la transformación que manda una función a su derivada, es decir $D (f) = f^{'}$ . Encuentra un polinomio $P$ tal que $P (D) (\sin (x) + \cos (x))$ sea la función cero.
Demuestra que si $A$ es una matriz diagonal, $P (A)$ también es diagonal.
Si
$\begin{array}{r} A = (\begin{array}{c} 1 & 2 \\ 0 & - 1 \end{array}) \end{array}$
y $P (X) = X^{3} - X^{2} + X - 1$ , calcula $P (A)$ .
Generaliza el último problema de la entrada como sigue: Si $V$ es un espacio vectorial y $T : V \to V$ es tal que existen elementos $v_{i}$ con $i \in N$ que cumplen $T^{i} (v_{i}) \neq 0$ y $T^{j} (v_{i}) = 0$ para $j > i$ , entonces no existe $P$ no nulo tal que $P (T)$ sea cero.

Entradas relacionadas

Ir a Álgebra Lineal II
Entrada anterior del curso: Introducción al curso
Siguiente entrada del curso: Polinomio mínimo de transformaciones lineales y matrices

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal I: Combinaciones lineales

Por Julio Sampietro

4 respuestas

Introducción

En esta entrada presentamos el concepto de combinaciones lineales en espacios vectoriales que será fundamental para nuestro estudio. De cierta manera (que se verá más claramente cuando hablemos de bases en espacios vectoriales arbitrarios) captura un aspecto de la base canónica de $F^{n}$ : Todo vector lo podemos escribir como $x_{1} e_{1} + \dots + x_{n} e_{n}$ , lo que con nuestro lenguaje será una combinación lineal de los vectores $e_{i}$ .

También hablamos del concepto de espacio generado. De manera intuitiva, el espacio generado por un conjunto de vectores es el mínimo subespacio que los tiene (y que a la vez tiene a todas las combinaciones lineales de ellos). Geométricamente, los espacios generados describen muchos de los objetos conocidos como rectas y planos. De manera algebraica, este concepto nos servirá mucho en lo que sigue del curso.

Definición de combinaciones lineales

Sea $V$ un espacio vectorial sobre un campo $F$ , y sean $v_{1}, \dots, v_{n}$ vectores en $V$ . Por definición, $V$ contiene a todos los vectores de la forma $c_{1} v_{1} + \dots + c_{n} v_{n}$ con $c_{1}, \dots, c_{n} \in F$ . La colección de los vectores de este estilo es importante y le damos una definición formal:

Definición. Sean $v_{1}, \dots, v_{n}$ vectores en un espacio vectorial $V$ sobre $F$ .

Un vector $v$ es una combinación lineal de los vectores $v_{1}, \dots, v_{n}$ si existen escalares $c_{1}, \dots, c_{n} \in F$ tales que
$\begin{array}{r} v = c_{1} v_{1} + c_{2} v_{2} + \dots + c_{n} v_{n} . \end{array}$
El espacio generado (que a veces abreviaremos como el generado) por $v_{1}, \dots, v_{n}$ es el subconjunto de $V$ de todas las combinaciones lineales de $v_{1}, \dots, v_{n}$ , y lo denotamos por $span (v_{1}, \dots, v_{n})$ .

Ejemplo.

La matriz $A = (\begin{matrix} 2 & 2 \\ 1 & 1 \end{matrix})$ es una combinación lineal de las matrices $B = (\begin{matrix} 10 & 0 \\ 5 & 0 \end{matrix})$ y $C = (\begin{matrix} 0 & 1 \\ 0 & \frac{1}{2} \end{matrix})$ pues $A = \frac{1}{5} B + 2 C$ . Así, $A$ está en el generado por $B$ y $C$ .
El generado $span (v)$ de un único vector en $R^{n}$ consta de puras copias re-escaladas de $v$ (también nos referimos a estos vectores como múltiplos escalares de $v$ ). Usando la interpretación geométrica de vectores en $R^{2}$ o $R^{3}$ , si $v \neq 0$ entonces $span (v)$ representa una recta por el origen en la dirección de $v$ .
Si $e_{1} = (1, 0, 0)$ y $e_{2} = (0, 1, 0)$ , entonces
$\begin{array}{r} x e_{1} + y e_{2} = (x, y, 0) . \end{array}$
Como $x$ y $y$ fueron arbitrarios, podemos concluir que $span (e_{1}, e_{2})$ consta de todos los vectores en $R^{3}$ cuya tercer entrada es cero. Esto es el plano $x y$ . En general, si $v_{1}, v_{2}$ son dos vectores no colineales en $R^{3}$ entonces su espacio generado es el único plano por el origen que los contiene.
El polinomio $3 x^{10} + 7$ del espacio vectorial $R_{10} [x]$ no puede ser escrito como combinación lineal de los polinomios $x^{10} + x^{2} + 1$ , $x^{7} + 3 x + 1$ , $7 x^{3}$ . Para demostrar esto, debemos probar que no existen reales $a, b, c$ tales que $3 x^{10} + 7 = a (x^{10} + x^{2} + 1) + b (x^{7} + 3 x + 1) + 7 c x^{3} .$
Procedamos por contradicción. Si acaso esto fuera posible, desarrollando el producto de la derecha y observando el coeficiente de $x^{10}$ , necesitamos que $a$ sea igual a $3$ . Pero entonces a la derecha va a quedar un término $3 x^{2}$ que no se puede cancelar con ninguno otro de los sumandos, sin importar el valor de $b$ o $c$ . Igualando términos cuadráticos, tendríamos entonces $0 = 3 x^{2}$ , lo cual es una contradicción.

$△$

Problemas prácticos de combinaciones lineales

La definición de que un vector sea combinación de otros es existencial. Para mostrar que sí es combinación lineal, basta encontrar algunos coeficientes. Para mostrar que no es combinación lineal, hay que argumental por qué ninguna de las combinaciones lineales de los vectores es igual al vector buscado.

Problema 1. Muestra que el vector $(1, 1, 1)$ de $R^{3}$ no se puede expresar como combinación lineal de los vectores

$\begin{array}{r} v_{1} = (1, 0, 0), v_{2} = (0, 1, 0) y v_{3} = (1, 1, 0) . \end{array}$

Solución. Una combinación lineal arbitraria de $v_{1}, v_{2}, v_{3}$ es de la forma

$\begin{array}{r} x_{1} v_{1} + x_{2} v_{2} + x_{3} v_{3} = (x_{1} + x_{3}, x_{2} + x_{3}, 0) \end{array}$

para $x_{1}, x_{2}, x_{3}$ reales. Así, las combinaciones lineales de $v_{1}, v_{2}, v_{2}$ siempre tienen a $0$ como tercera coordenada. De esta forma, ninguna de ellas puede ser igual a $(1, 1, 1)$ .

Más generalmente, consideramos el siguiente problema práctico: dada una familia de vectores $v_{1}, v_{2}, \dots, v_{k}$ en $F^{n}$ y un vector $v \in F^{n}$ , decide si $v$ es una combinación lineal de $v_{1}, \dots, v_{k}$ . En otras palabras, si $v \in span (v_{1}, \dots, v_{k})$ .

Para resolver este problema, consideramos la matriz de tamaño $n \times k$ cuyas columnas son $v_{1}, \dots, v_{k}$ . Decir que $v \in span (v_{1}, \dots, v_{k})$ es lo mismo que encontrar escalares $x_{1}, \dots, x_{k} \in F$ tales que $v = x_{1} v_{1} + \dots + x_{k} v_{k}$ . De manera equivalente, si tomamos $X = (x_{1}, \dots, x_{k})$ , queremos la existencia de una solución al sistema $A X = v$ .

Esto es muy útil. Como tenemos una manera práctica de decidir si este sistema es consistente (por reducción gaussiana de la matriz aumentada $(A | v)$ ), tenemos una manera práctica de resolver el problema de si un vector es combinación lineal de otros. Por supuesto, esto también nos da una solución concreta al problema, es decir, no sólo decide la existencia de la combinación lineal, sino que además da una cuando existe.

Problema 2. Sean $v_{1} = (1, 0, 1, 2), v_{2} = (3, 4, 2, 1)$ y $v_{3} = (5, 8, 3, 0)$ vectores en el espacio vectorial $R^{4}$ . ¿Está el vector $v = (1, 0, 0, 0)$ en el generado de $v_{1}, v_{2}$ y $v_{3}$ ? ¿El vector $w = (4, 4, 3, 3)$ ?

Solución. Aplicamos el método que describimos en el párrafo anterior. Es decir, tomemos la matriz

$\begin{array}{r} A = (\begin{array}{c} 1 & 3 & 5 \\ 0 & 4 & 8 \\ 1 & 2 & 3 \\ 2 & 1 & 0 \end{array}) . \end{array}$

Queremos ver si el sistema $A X = v$ es consistente. Haciendo reducción gaussiana a mano, o bien usando una calculadora de forma escalonada reducida (por ejemplo, la de eMathHelp), obtenemos que la forma escalonada reducida de la matriz aumentada $(A | v)$ es

$\begin{array}{r} (A | v) \sim (\begin{array}{c} 1 & 0 & - 1 & 0 \\ 0 & 1 & 2 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{array}) . \end{array}$

Viendo el tercer renglón, notamos que tiene pivote en la última columna. Deducimos que el sistema no es consistente, así que $v \notin span (v_{1}, v_{2}, v_{3})$ .

Procedemos de manera similar para el vector $w$ . Esta vez tenemos

$\begin{array}{r} (A | w) \sim (\begin{array}{c} 1 & 0 & - 1 & 1 \\ 0 & 1 & 2 & 1 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{array}), \end{array}$

lo que muestra que el sistema es consistente (pues ninguna fila tiene su pivote en la última columna), por lo tanto $w \in span (v_{1}, v_{2}, v_{3})$ . Si queremos encontrar una combinación lineal explícita tenemos que resolver el sistema

$\begin{array}{r} (\begin{array}{c} 1 & 0 & - 1 \\ 0 & 1 & 2 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{array}) \cdot (\begin{array}{c} x_{1} \\ x_{2} \\ x_{3} \end{array}) = (\begin{array}{c} 1 \\ 1 \\ 0 \\ 0 \end{array}) . \end{array}$

Tenemos que ninguna fila tiene su pivote en la columna $3$ , así que $x_{3}$ es variable libre. Las variables $x_{1}$ y $x_{2}$ son pivote. Esto nos da como solución $x_{1} = x_{3} + 1$ y $x_{2} = 1 - 2 x_{3}$ . Entonces podemos escribir

$\begin{array}{r} w = (1 + x_{3}) v_{1} + (1 - 2 x_{3}) v_{2} + x_{3} v_{3} \end{array}$

y esto es válido para cualquier elección de $x_{3}$ . Podemos, por ejemplo, escoger $x_{3} = 0$ y obtener $w = v_{1} + v_{2}$ .

$△$

Por supuesto, en el problema anterior pudimos haber encontrado la expresión $w = v_{1} + v_{2}$ explorando el problema o por casualidad. Esto sería suficiente para mostrar que $w$ es combinación lineal. Pero la ventaja del método sistemático que mostramos es que no se corre el riesgo de no encontrar la solución a simple vista. De me manera definitiva nos dice si hay o no hay solución, y cuando sí hay, encuentra una.

Una caracterización del espacio generado

Probamos el siguiente resultado, que explica la importancia del concepto de espacio generado. En particular, la proposición muestra que el espacio generado es un subespacio. Si te parece un poco confusa la demostración, puede ser de ayuda leer antes la observación que le sigue.

Proposición. Sea $V$ un espacio vectorial sobre un campo $F$ y $v_{1}, v_{2}, \dots, v_{n} \in V$ . Entonces

$span (v_{1}, v_{2}, \dots, v_{n})$ es la intersección de todos los subespacios vectoriales de $V$ que contienen a todos los vectores $v_{1}, \dots, v_{n}$ .
$span (v_{1}, v_{2}, \dots, v_{n})$ es el subespacio más chico (en contención) de $V$ que contiene a $v_{1}, \dots, v_{n}$ .

Demostración. Como la intersección arbitraria de subespacios es un subespacio, la parte $1$ implica la parte $2$ . Probemos entonces la parte $1$ .

Primero demostremos que $span (v_{1}, v_{2}, \dots, v_{n})$ está contenido en todo subespacio $W$ de $V$ que tiene a $v_{1}, \dots, v_{n}$ . En otras palabras, tenemos que ver que cualquier subespacio $W$ que tenga a $v_{1}, \dots, v_{n}$ tiene a todas las combinaciones lineales de ellos. Esto se sigue de que $W$ , por ser subespacio, es cerrado bajo productos por escalar y bajo sumas. Así, si tomamos escalares $α_{1}, \dots, α_{n}$ tenemos que cada uno de $α_{1} v_{1}, \dots, α_{n} v_{n}$ está en $W$ y por lo tanto la combinación lineal (que es la suma de todos estos), también está en $W$ .

La afirmación anterior implica que $span (v_{1}, \dots, v_{n})$ está contenido en la intersección de todos los espacios que tienen a $v_{1}, \dots, v_{n}$ , pues está contenido en cada uno de ellos.

Ahora, queremos ver ‘la otra contención’, es decir, que $span (v_{1}, \dots, v_{n})$ contiene a la intersección de todos los espacios que tienen a $v_{1}, \dots, v_{n}$ . Para esto veremos primero que $span (v_{1}, \dots, v_{n})$ es un subespacio vectorial. Sean $x, y \in span (v_{1}, \dots, v_{n})$ y $c \in F$ un escalar. Como $x$ y $y$ son, por definición, combinaciones lineales de $v_{1}, \dots, v_{n}$ , podemos escribir $x = a_{1} v_{1} + \dots + a_{n} v_{n}$ para algunos escalares $a_{i}$ y $y = b_{1} v_{1} + \dots + b_{n} v_{n}$ para unos escalares $b_{i}$ . Así

$\begin{array}{r} x + c y = (a_{1} + c b_{1}) v_{1} + \dots + (a_{n} + c b_{n}) v_{n} \end{array}$

también es una combinación lineal de $v_{1}, \dots, v_{n}$ y por tanto un elemento del espacio generado. Se sigue que $span (v_{1}, \dots, v_{n})$ es uno de los subespacios que tienen a $v_{1}, \dots, v_{n}$ . Así, este generado «aparece» en la intersección que hacemos de subespacios que tienen a estos vectores, y como la intersección de una familia de conjuntos está contenida en cada uno de esos conjuntos, concluimos que $span (v_{1}, \dots, v_{n})$ contiene a dicha inteesección.

Argumentemos ahora la segunda parte de la proposición. Se usa el mismo argumento que arriba. Si $W$ es cualquier subespacio que contiene a $v_{1}, \dots, v_{n}$ , entonces «aparece» en la intersección y por tanto $span (v_{1}, \dots, v_{n})$ está contenido en $W$ . Es decir, es más chico (en contención) que cualquier otro subespacio que contenga a estos vectores.

Observación. Ya que la demostración previa puede resultar un poco confusa, presentamos una versión un poco más relajada de la idea que se usó. Sea ${W_{i} ∣ i \in I}$ la familia de todos los subespacios de $V$ que contienen a $v_{1}, \dots, v_{n}$ .

En el primer párrafo, probamos que

$\begin{array}{r} span (v_{1}, \dots, v_{n}) \subseteq W_{i} \end{array}$

para todo $i \in I$ . Luego $span (v_{1}, \dots, v_{n}) \subseteq ⋂_{i \in I} W_{i}$ .

En el segundo párrafo, probamos que $S p a n (v_{1}, \dots, v_{n})$ es un subespacio que contiene a $v_{1}, \dots, v_{n}$ . Es decir, entra en nuestra familia ${W_{i} ∣ i \in I}$ , es uno de los $W_{i}$ , digamos $W_{j}$ . Entonces

$\begin{array}{r} span (v_{1}, \dots, v_{n}) = W_{j} \supseteq ⋂_{i \in I} W_{i} . \end{array}$

En ese momento ya tenemos la primer igualdad: $span (v_{1}, \dots, v_{n}) = ⋂_{i \in I} W_{i} .$

Ahora, la segunda conclusión de la proposición se sigue de esto con una observación más: Si $W^{'}$ es un subespacio que contiene a $v_{1}, \dots, v_{n}$ entonces también entra en nuestra familia de los $W_{i}$ ’s, es decir es $W_{p}$ para algún $p \in I$ . Ahora usando el inciso $1$ , tenemos que

$\begin{array}{r} span (v_{1}, \dots, v_{n}) = ⋂_{i \in I} W_{i} \subseteq W_{p} = W^{'} . \end{array}$

Esto concluye la demostración.

Más adelante…

El concepto de combinación lineal es la piedra angular para definir varios otros conceptos importantes en espacios vectoriales. Es un primer paso para definir a los conjuntos de vectores generadores y a los conjuntos de vectores linealmente independientes. Una vez que hayamos desarrollado ambos conceptos, podremos hablar de bases de un espacio vectorial, y con ello hablar de la dimensión de un espacio vectorial.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

¿Se puede expresar al vector $(1, 3, 0, 5)$ como combinación lineal de $(0, 1, 0, 3)$ , $(0, - 1, 2, 0)$ y $(2, 0, - 1, - 6)$ ? Si sí, encuentra una o más combinaciones lineales que den el vector $(1, 3, 0, 5)$
¿Se puede expresar al polinomio $1 + x^{2} + 3 x^{3} - x^{4} + x^{5}$ como combinación lineal de los siguientes polinomios
$\begin{array}{r} x^{2} - 3 x^{4}, \\ 1 + x^{2} - x^{5}, \\ 2 x + x^{4}, \\ 2 + x^{2}, \\ 5 x + 5 x^{2} - x^{5} ? \end{array}$
Sea $P$ un plano en $R^{3}$ por el origen y $L$ una recta de $R^{3}$ por el origen y con dirección dada por un vector $v \neq 0$ . Demuestra que la intersección de $L$ con $P$ es una recta si y sólo si existen dos vectores en $P$ tal que su suma sea $v$ .
Encuentra el conjunto generado por los vectores del espacio vectorial indicado
- Las matrices $(\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix})$ y $(\begin{matrix} 1 & 0 \\ 0 & - 1 \end{matrix})$ del espacio $M_{2}$ .
- Los vectores $(1, - 1, 0)$ y $(1, 0, - 1)$ del espacio $R^{3}$ .
- Los polinomios $1$ , $x$ , $x^{2}$ y $x^{3}$ del espacio $R [x]$ .
Sea $V$ un espacio vectorial. Si $v_{1}, \dots, v_{n}, x$ son vectores en un espacio vectorial $V$ , ¿será cierto siempre que $span (v_{1}, \dots, v_{n}) \subseteq span (v_{1}, \dots, v_{n}, x)$ ? De ser así, ¿esta contención siempre es estricta? Demuestra tu respuesta o da un contraejemplo.
Sean $v_{1}, \dots, v_{n}$ y $x$ vectores en un espacio vectorial $V$ . Supongamos que $v_{n}$ está en $span (v_{1}, \dots, v_{n - 1}, x)$ . Muestra que $span (v_{1}, \dots, v_{n - 1}, x) = span (v_{1}, \dots, v_{n - 1}, v_{n}) .$

Entradas relacionadas

Ir a Álgebra Lineal I
Entrada anterior del curso: Problemas de espacios y subespacios vectoriales
Siguiente entrada del curso: Conjuntos generadores e independencia lineal

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Introducción

Enunciado del teorema de la función inversa

Un criterio para campos vectoriales C1

Invertibilidad de Df(a¯) en todo un abierto

Un poco de intuición geométrica

Más adelante…

Tarea moral

Entradas relacionadas

Introducción

Representación matricial de las transformaciones lineales

Isomorfismo entre transformaciones lineales y matrices

En búsqueda de una matriz sencilla

Eigenvalores, eigenvectores y eigenespacios

Eigenvectores y transformaciones diagonalizables

Más adelante…

Tarea moral

Entradas relacionadas

Introducción

Polinomios cuadráticos en dos variables

Curvas cuadráticas

Forma matricial de polinomios cuadráticos en dos variables

Más adelante…

Tarea moral

Entradas relacionadas

Introducción

Primeras construcciones

Sumas y productos de polinomios

Lo mismo pero con matrices

Unos problemas para calentar

Más adelante…

Tarea moral

Entradas relacionadas

Agradecimientos

Introducción

Definición de combinaciones lineales

Problemas prácticos de combinaciones lineales

Una caracterización del espacio generado

Más adelante…

Tarea moral

Entradas relacionadas

Agradecimientos

Un criterio para campos vectoriales $C^{1}$

Invertibilidad de $D f (\bar{a})$ en todo un abierto