Archivo de la etiqueta: vectores

Cálculo Diferencial e Integral III: Introducción al teorema de la función inversa

Por Alejandro Antonio Estrada Franco

Introducción

Estamos a punto de entrar a discutir dos de los resultados principales de nuestro curso: el teorema de la función inversa y el teorema de la función implícita. Repasemos un poco qué hemos hecho hasta ahora. En las dos entradas anteriores introdujimos la noción de diferenciabilidad, la cual cuando sucede para una función f:RnRm, nos dice que f se parece mucho a una función lineal en un punto dado. Vimos que esta noción implica continuidad y que tiene una regla de la cadena relacionada con el producto de matrices. También, hemos discutido cómo esta noción se relaciona con la existencia de espacios tangentes a gráficas multidimensionales.

Ahora queremos entender todavía mejor a las funciones diferenciables. Hay dos teoremas que nos permiten hacer eso. Uno es el teorema de la función inversa y el otro es el teorema de la función implícita. En esta entrada hablaremos del primero, y en un par de entradas más introduciremos el segundo resultado. El propósito del teorema de la función inversa es dar una condición bajo la cual una función es invertible, por lo menos localmente. De hecho, la mayoría de las veces sólo se puede garantizar la invertibilidad localmente, pues las funciones usualmente no son inyectivas y esto da comportamientos globales más difíciles de manejar.

Enunciar el teorema y entenderlo requiere de cierto esfuerzo. Y demostrarlo todavía más. Por esta razón, en esta entrada nos enfocaremos sólo en dar el teorema y presentar herramientas preliminares que necesitaremos para hacer su demostración.

Enunciado del teorema de la función inversa

Supongamos que tenemos f:RnRn y que es diferenciable en el punto a¯. Entonces, f se parece mucho a una función lineal en a¯, más o menos f(x¯)f(a¯)+Ta¯(x¯a¯). Así, si Ta¯ es invertible, suena a que «cerquita de a¯» la función f(x¯) debe de ser invertible. El teorema de la función inversa pone estas ideas de manera formal.

Teorema (de la función inversa). Sea f:SRnRn de clase C1 en el abierto S. Si la matriz Df(a¯) es invertible, entonces, existe δ>0 tal que:

  1. Bδ(a¯)S y f es inyectiva en Bδ(a¯).
  2. f1:f(Bδ(a¯))RnRn es continua en f(Bδ(a¯)).
  3. f(Bδ(a¯))Rn es un conjunto abierto.
  4. f1 es de clase C1 en f(Bδ(a¯)) y además, si x¯=f(v¯)f(Bδ(a¯)), entonces, Df1(x¯)=Df1(f(v¯))=(Df(v¯))1.

Veamos qué nos dice de manera intuitiva cada una de las conclusiones del teorema.

  1. Tendremos una bola Bδ(a¯) dentro de la cual f será inyectiva, y por lo tanto será biyectiva hacia su imagen. Así, f restringida a esta bola será invertible. Es importante que sea una bola abierta, porque entonces sí tenemos toda una región «gordita» en donde pasa la invertibilidad (piensa que si fuera un cerrado, a lo mejor sólo es el punto a¯ y esto no tiene chiste).
  2. La inversa f1 que existirá para f será continua. Esto es lo mínimo que podríamos esperar, aunque de hecho el punto 4 garantiza algo mucho mejor.
  3. La imagen de f en la bola Bδ(a¯) será un conjunto abierto.
  4. Más aún, se tendrá que f1 será de clase C1 y se podrá dar de manera explícita a su derivada en términos de la derivada de f con una regla muy sencilla: simplemente la matriz que funciona para derivar f le sacamos su inversa como matriz y esa funciona al evaluarla en el punto apropiado.

El teorema de la función inversa es profundo pues tanto su enunciado como su demostración combina ideas de topología, álgebra y cálculo. Por esta razón, para su demostración necesitaremos recopilar varias de las herramientas de álgebra lineal que hemos repasado en la Unidad 2 y la Unidad 5. Así mismo, necesitaremos ideas topológicas de las que hemos visto en la Unidad 3. Con ellas desarrollaremos algunos resultados auxiliares que en la siguiente entrada nos permitirán concluir la demostración.

Un criterio para campos vectoriales C1

El teorema de la función inversa es para funciones de clase C1. Nos conviene entender esta noción mejor. Cuando una función f es de clase C1, entonces es diferenciable. Pero el regreso no es cierto y hay contraejemplos. ¿Qué le falta a una función diferenciable para ser de clase C1? A grandes rasgos, que las funciones derivadas Ta¯ y Tb¯ hagan casi lo mismo cuando a¯ y b¯ son cercanos. En términos de matrices, necesitaremos que la expresión ||(Df(a¯)Df(b¯))(x¯)|| sea pequeña cuando a¯ y b¯ son cercanos entre sí.

El siguiente teorema será importante en nuestro camino hacia el teorema de la función inversa. Intuitivamente, para lo que lo usaremos es para aproximar una función f localmente, con «cuadritos» que corresponden a los planos tangentes, porque «muy cerquita» estos planos varían muy poco si pedimos que f sea de clase C1. Es decir si a¯ y b¯ son dos puntos en el dominio de una función diferenciable, y estos están muy cerca uno del otro, sus planos tangentes serán casi el mismo. Esto nos invita a cambiar localmente a una superficie por cuadritos como más adelante se explicará con detalle.

Figura 1. En azul y en rojo dos planos que corresponden a las derivadas Ta¯ y Tb¯. Este cambio calculado es distintos puntos cercanos es «suave», esto se expresará con la ecuación ||Df(b¯)(x¯)Df(a¯)(x¯)||ϵ||x¯|| ya con las diferenciales para todo x¯.

El teorema concreto que nos interesa demostrar es la siguiente equivalencia para que una función sea de clase C1.

Teorema. Sea f:SRnRm una función diferenciable en S. Se tiene que f es de clase C1 en S si y sólo si para todo a¯S y para cada ε>0 existe δ>0 tal que Bδ(a¯)S, y si b¯Bδ(a¯) se tiene ||(Df(b¯)Df(a¯))(x¯)||ε||x¯|| para todo x¯Rn.

Demostración. ). Supongamos que f es de clase C1 en S, es decir, todas sus funciones componentes tienen derivadas parciales en S y son continuas. Sea ε>0. Veremos que se puede encontrar una δ como en el enunciado.

Tomemos a¯ y b¯ en S. Expresamos a (Df(b¯)Df(a¯))(x¯) como

(f1x1(b¯)f1x1(a¯)f1xn(b¯)f1xn(a¯)fmx1(b¯)fmx1(a¯)fmxn(b¯)fmxn(a¯))(x1xn)

o equivalentemente como

((f1(b¯)f1(a¯))x¯(fm(b¯)fm(a¯))x¯).

De tal manera que por Cauchy-Schwarz:

||(Df(b¯)Df(a¯))(x¯)||2=i=1m((fi(b¯)fi(a¯))x¯)2i=1m||fi(b¯)fi(a¯)||2||x¯||2=||x¯||2i=1m||fi(b¯)fi(a¯)||2=||x¯||2i=1mj=1n(fixj(b¯)fixj(a¯))2

En este punto se ve la importancia de que las parciales sean continuas. Podemos encontrar una δ que nos garantice que BδS y que si ||b¯a¯||<δ, entonces |fixj(b¯)fixj(a¯)|<εmn. En esta situación, podemos seguir acotando ||(Df(b¯)Df(a¯))(x¯)||2 como sigue:
||x¯||i=1mj=1nε2mn=ε2||x¯||2.

Al sacar raiz cuadrada, obtenemos la desigualdad ||(Df(b¯)Df(a¯))(x)||ε||x¯|| buscada.

). Supongamos ahora que para cada ε existe una δ como en el enunciado del teorema. Debemos ver que todas las derivadas parciales de todas las componentes son continuas. Podemos aplicar la desigualdad ||(Df(b¯)Df(a¯))(x¯)||||x¯||ε tomando como x¯ cada vector e^i de la base canónica. Esto nos dice que

||Df(b¯)(e^i)Df(a¯)(e^i)||<ε||e^i||=ε.

Por nuestro desarrollo anterior, para cada i tenemos

ε>||Df(b¯)(e^i)Df(a¯)(e^i)||=||(f1(b¯)e^if1(a¯)e^i,,fm(b¯)e^ifm(a¯)e^i)||=||(f1xi(b¯)f1xi(a¯),,fmxi(b¯)fmxi(a¯))||=j=1m(fjxi(b¯)fjxi(a¯))2.

Elevando al cuadrado,

j=1m(fjxi(b)fjxi(a))2<ε2.

Como todos los términos son no negativos, cada uno es menor a ϵ2. Así, para cada i,j tenemos

|fjxi(b¯)fjxi(a¯)|<ε.

Esto es precisamente lo que estábamos buscando: si b¯ está lo suficientemente cerca de a¯, cada derivada parcial en b¯ está cerca de su correspondiente en a¯.

◻

Invertibilidad de Df(a¯) en todo un abierto

En esta sección demostraremos lo siguiente. Si f:RnRn es un campo vectorial diferenciable en a¯ y Df(a¯) es invertible, entonces Df(x¯) será invertible para cualquier x¯ alrededor de cierta bola abierta alrededor de a¯. Los argumentos en esta ocasión están un poco más relacionados con el álgebra lineal.

Será útil que recuerdes que una transformación lineal T:RnRn es invertible si el único x¯Rn tal que T(x¯)=0¯ es x¯=0¯. El siguiente criterio es otra caracterización de invertibilidad en términos de lo que le hace T a la norma de los vectores.

Teorema. Sea T:RnRn una transformación lineal. La transformación T es invertible si y sólo si existe ε>0 tal que ||T(x¯)||ε||x¯|| para todo x¯Rn.

Demostración. ) Como T es invertible, para todo x¯0¯ sucede que T(x¯)0¯. En particular, esto sucede para todos los vectores en Sn1 (recuerda que es la esfera de radio 1 y dimensión n1 centrada en 0¯). Esta esfera es compacta y consiste exactamente de los x¯Rn de norma 1.

Sabemos que las transformaciones lineales y la función norma son continuas. Por la compacidad de Sn1, la expresión ||T(x¯)|| tiene un mínimo digamos ε, que alcanza en Sn1. Por el argumento del párrafo anterior, ε>0.

Tomemos ahora cualquier vector x¯Rn. Si x¯=0¯, entonces ||T(0¯)||=||0¯||=0ε||0¯||. Si x¯0¯, el vector x¯||x¯|| está en Sn1, de modo que ||T(x¯||x¯||)||ε. Usando linealidad para sacar el factor ||x¯|| y despejando obtenemos ||T(x¯)||ε||x¯||, como estábamos buscando.

) Este lado es más sencillo. Si existe dicha ε>0, entonces sucede que para x¯ en Rn, con x¯0¯ tenemos ||T(x¯)||ε||x¯||>0. Por lo tanto, T(x¯)0¯ y así T es invertible.

◻

Obtengamos una consecuencia del teorema de clasificación de la sección anterior que está muy relacionada con este resultado que acabamos de demostrar.

Teorema. Sea f:SRnRn de clase C1 en el conjunto abierto S y a¯S. Si Df(a¯) es invertible, entonces existen δ>0 y m>0 tales que Bδ(a¯)S y ||Df(b¯)(x¯)||m||x¯||, para todo b¯Bδ(a¯) y para todo x¯Rn.

Demostración. Como Df(a¯) es invertible, por el teorema que acabamos de demostrar existe ε>0 tal que ||Df(a¯)(x¯)||ε||x¯|| para todo x¯Rn.

Por nuestra caracterización de funciones C1, Ahora como fC1 en S (abierto) para ε=ε2>0, existe δ>0 tal que Bδ(a¯)S, y ||Df(b¯)(x¯)Df(a¯)(x¯)||ε2||x¯|| para todo b¯Bδ(a¯) y para todo x¯Rn.

Por la desigualdad del triángulo, ||Df(a¯)(x¯)Df(b¯)(x¯)||+||Df(b¯)(x¯)||||Df(a¯)(x¯)||,

de donde

||Df(b¯)(x¯)||||Df(a¯)(x¯)||||Df(b¯)(x¯)Df(a¯)(x¯)||ε||x¯||ε2||x¯||=ε2||x¯||.

De esta manera, el resultado es cierto para la δ que dimos y para m=ε2.

◻

El siguiente corolario es consecuencia inmediata de lo discutido en esta sección y está escrito de acuerdo a la aplicación que haremos más adelante en la demostración del teorema de la función inversa.

Corolario. Sea f:SRnRn una función de clase C1 en S y a¯S. Si Df(a¯) es invertible, entonces, existe δ>0 tal que Bδ(a¯)S y Df(b¯) es invertible para todo b¯Bδ(a¯).

Queda como tarea moral responder por qué este corolario es consecuencia inmediata del teorema anterior.

Un poco de intuición geométrica

Dejamos esta entrada hasta aquí, la naturaleza densamente teórica de lo que estamos haciendo puede hacer pesadas las exposiciones. Lo que hasta aquí demostramos es que para un campo vectorial C1 si su derivada en a¯ es invertible, entonces lo es en toda una vecindad que tiene a a¯. Imaginemos al pedacito de superficie f(Bδ(a¯)) cubierto con pequeños rectángulos. En cada punto, las imágenes de estos rectángulos están muy cerquita, casi pegados a la superficie. Esto nos garantizaría la invertibilidad de f en esta vecindad.

Figura 2

En la Figura 2 vemos ilustrado esto. El círculo inferior corresponde a la vecindad Bδ(a¯) en el dominio de f. La función f levanta una porción del plano en la sabana delineada con negro arriba del círculo. En el círculo tenemos al punto a¯ en verde agua. Sobre la sábana de arriba tenemos con el mismo color a f(a¯). Los puntos negros pequeños dentro de la vecindad alrededor de a¯ son alzados por f a puntos negros sobre la sabana. Sobre de cada punto negro en la sabana tenemos un cuadrito rojo que representa al cachito de plano tangente cerca de la imagen de cada punto. La imagen esta llena de estos pequeños cuadritos, todos ellos representan diferenciales invertibles, esto nos permitirá asegurar la invertibilidad de f en al menos una vecindad.

Más adelante…

En la siguiente entrada demostraremos el teorema de la función inversa, inciso por inciso. Es importante que estes familiarizado con los resultados de esta entrada, pues serán parte importante de la demostración.

Tarea moral

  1. ¿Qué diría el teorema de la función inversa para campos vectoriales f:R2R2? ¿Se puede usar para f(r,θ)=(rcos(θ),rsin(θ))? Si es así, ¿para qué valores de r y θ? ¿Qué diría en este caso explícitamente?
  2. Explica por qué el corolario que enunciamos en efecto se deduce de manera inmediata de lo discutido en la sección correspondiente.
  3. Revisa todas las desigualdades que usamos en esta entrada. ¿Qué resultado estamos usando? ¿Cuándo se darían estas igualdades?
  4. Demuestra que el determinante de una matriz es una función continua en términos de las entradas de la matriz. Usa esto para demostrar que si AMn(R) es una matriz y B es una matriz muy cercana a A, entonces B también es invertible.
  5. Demuestra que si una transformación T es diagonalizable, entonces en el teorema de caracterización de invertibilidad se puede usar como ϵ al mínimo de la expresión |λ| variando sobre todos los eigenvalores λ de T.

Entradas relacionadas

Cálculo Diferencial e Integral III: Representaciones matriciales, eigenvalores y eigenvectores

Por Alejandro Antonio Estrada Franco

Introducción

Como se ha mencionado anteriormente el objetivo de introducir ideas de álgebra lineal en cálculo diferencial es poder establecer una transformación lineal que sea la mejor aproximación lineal en un punto a una función dada. Esto nos ayudará a entender a la función dada en el punto en términos de otra función «más simple». Pero así mismo, las transformaciones lineales pueden ellas mismas pensarse en términos de transformaciones más sencillas. En esta entrada revisaremos esta idea y la conectaremos con la noción de eigenvectores.

Por un lado, recordaremos cómo es que una transformación lineal puede ser representada mediante una matriz una vez que se ha elegido una base del espacio vectorial. Luego, hablaremos de cómo elegir, de entre todas las bases, aquella que nos de una representación matricial lo más sencilla posible.

Representación matricial de las transformaciones lineales

Comencemos esta entrada repasando la importante relación entre transformaciones lineales y matrices. Denotaremos como L(Rn,Rm) al espacio vectorial de transformaciones lineales de Rn a Rm.

Si tomamos cualquier transformación lineal TL(Rn,Rm), entonces los valores de T en cualquier vector de Rn quedan totalmente determinados por los valores de T en los elementos de alguna base β para Rn. Tomemos γ={w¯1,,w¯m} una base ordenada para Rm, y β={e¯1,,e¯n} una base ordenada para Rn. Para cada e¯k tenemos:

(1)T(e¯k)=i=1mtikw¯i,

para algunos escalares t1k,,tmk que justo son las componentes de T(e¯k) en la base γ. Con estos escalares, podemos considerar la matriz: Matγ,β(T)=(t11t1ntm1tmn)

Esta es llamada la representación matricial de la transformación T con respecto a las bases β y γ. Esta matriz ayuda a calcular T en cualquier vector de Rn como explicamos a continuación.

Para cada v¯Rn, podemos expresarlo como combinación lineal de elementos de la base β digamos que v¯=i=1nvie¯i. Mediante estos coeficientes, podemos entonces asociar a v¯ al siguiente vector columna de Rn [v¯]β=(v1vn),

al que llamamos el vector de coordenadas de v¯ con respecto a la base β.

Realicemos por un lado el siguiente cálculo:

Matγ,β(T)[v¯]β=(t11t1ntm1tmn)(v1vn)=(k=1nt1kvkk=1ntmkvk.)

Por otro lado tenemos lo siguiente:

T(v¯)=T(k=1nvke¯k)=k=1nvkT(e¯k)=k=1nvkT(i=1mtikw¯i)=i=1m(k=1nvktik)w¯i.

Juntando ambos cálculos: [T(v¯)]γ=(k=1nvkt1kk=1nvktmk)=Matγ,β(T)[v¯]β.

En otras palabras, aplicar T a un vector v¯ equivale a multiplicar Matγ,β por el vector columna asociado a v¯ en la base β, en el sentido de que tras hacer este producto recuperamos el vector de coordenadas para T(v¯) en la base γ.

Isomorfismo entre transformaciones lineales y matrices

Con las operaciones de suma y multiplicación por escalar que vimos en la entrada de Matrices, se tiene que Mm,n(R) es un espacio vectorial sobre R. De igual manera L(Rn,Rm) es un espacio vectorial sobre R con las siguientes operaciones:

  • Si T y U son dos transformaciones, la transformación T+U es aquella que envía a todo vector v¯Rn al vector T(v¯)+U(v¯).
  • Si rR la transformación rT es la que a todo v¯Rn lo envía al vector rT(v¯).

Queda como ejercicio que verifiques que esto dota efectivamente a L(Rn,Rm) de la estructura de espacio vectorial.

A continuación veremos que estos dos espacios vectoriales son, prácticamente, el mismo. Lo que haremos es construir una función Φ:Mm,n(R)L(Rn,Rm) que sea biyectiva y que preserve las operaciones de suma y de producto escalar.

Para ello, tomemos una base β={e¯1,,e¯n} de Rn y una base γ={u¯1,,u¯m} de Rm. Tomemos una matriz AMm,n(R). Explicaremos a continuación cómo construir la transformación Φ(A), para lo cual diremos qué hace con cada elemento de la base β. Tomaremos aquella transformación lineal TAL(Rn,Rm) tal que

TA(e¯j)=i=1naiju¯i.

Tomamos entonces Φ(A)=TA. Veamos que Φ tiene todas las propiedades que queremos.

  • Φ es suprayectiva. Si tenemos una transformación T:RnRm, entonces por la construcción anterior se tiene que su forma matricial A:=Matγ,β(T) justo cumple TA=T, de modo que Φ(A)=T.
  • Φ es inyectiva. Si A y B son matrices distintas, entonces difieren en alguna entrada, digamos (i,j). Pero entonces TA y TB difieren ya que TA(e¯j)TB(e¯j) ya que en las combinaciones lineales creadas hay un coeficiente distinto. Así, Φ(A)Φ(B).
  • Φ es lineal. Para rR, A y B matrices con entradas aij y bij, respectivamente, se cumple que Φ(rA+B)=T(rA+B) y entonces se satisface para cada j=1,,n lo siguiente:
    (rA+B)[e¯j]β=rA[e¯j]β+B[e¯j]β=r[TA(e¯i)]γ+[TB(e¯i)]γ.
    Por tanto para cada e¯i tenemos que T(rA+B)(e¯i)=rTA(e¯i)+TB(e¯i) y en consecuencia T(rA+B)=rTA+TB. Así Φ(rA+B)=rΦ(A)+Φ(B).

Todo lo anterior implica que Mm,n(R)L(Rn,Rm), es decir, que ambos espacios vectoriales son isomorfos.

En búsqueda de una matriz sencilla

Por lo que hemos platicado hasta ahora, a cada transformación lineal le corresponde una matriz, y viceversa. De hecho, esta asociación respeta operaciones como la suma y el producto por escalar. Esta equivalencia está dada a partir de la función Φ encontrada en la sección anterior.

Si Φ es biyectiva, ¿por qué hablamos entonces de encontrar una representación matricial simple para una transformación lineal T? Esto parecería no tener sentido, pues a cada transformación le corresponde una y sólo una matriz. Sin embargo, esto es cierto únicamente tras haber fijado las bases β y γ para Rn y Rm, respectivamente. Así, dependiendo de la elección de las bases las representaciones matriciales cambian y si tenemos una transformación lineal T, es posible que querramos encontrar bases β y γ en donde la representación matricial sea sencilla.

Nos enfocaremos únicamente en transformaciones lineales que van de un espacio vectorial a sí mismo. Tomemos entonces T:RnRn y una base β de Rn. Por simplicidad, escribiremos Matβ,β(T) simplemente como Matβ(T). Hay propiedades de T que podemos leer en su matriz Matβ(T) y que no dependen de la base β que hayamos elegido. Si con una base β especial resulta que Matβ(T) es muy sencilla, entonces podremos leer estas propiedades de T muy fácilmente. Un ejemplo es la siguiente proposición, la cual queda como tarea moral.

Proposición. La transformación lineal T:RnRn es invertible si y sólo si Matβ(T) es invertible.

Si A=Matβ(T) fuera muy muy sencilla, por ejemplo, si fuera una matriz diagonal, entonces podríamos saber la invertibilidad de T sabiendo la invertibilidad de A, y la de A sería muy fácil de ver pues por ser matriz diagonal bastaría hacer el producto de las entradas de su diagonal para obtener su determinante y estudiar si es distinto de cero.

Motivados por el ejemplo anterior, estudiemos la siguiente pregunta: ¿toda transformación lineal se puede representar con una matriz diagonal? Si una transformación lineal se puede representar de esta manera, diremos que es diagonalizable.

Eigenvalores, eigenvectores y eigenespacios

En lo que sigue repasaremos el aparato conceptual que nos permitirá dar una respuesta parcial de cuándo una matriz es diagonalizable. Un tratamiento mucho más detallado se puede encontrar aquí en el blog, en el curso de Álgebra Lineal II, comenzando con la entrada Eigenvectores y eigenvalores.

Para nuestro repaso, debemos introducir algunos conceptos y estudiarlos.

Definición. Sea T:RnRn una transformación lineal. Diremos que un escalar rR es un eigenvalor de T si existe v¯Rn{0¯} tal que T(v¯)=rv¯. A dicho vector v¯ le llamaremos un eigenvector de T con eigenvalor asociado r.

Dado un eigenvector v¯Rn, sólo hay un eigenvalor correspondiente a éste. Si T(v¯)=rv¯ y T(v¯)=tv¯, entonces rv¯=tv¯ de donde (rt)v¯=0¯. Como v¯0¯, se sigue que r=t.

Por otro lado, para un eigenvalor r puede haber más de un eigenvector con eigenvalor asociado r. Consideremos para un eigenvalor r el conjunto E(r)={v¯V|T(v¯)=rv¯}. Notemos que 0¯E(r) y también todos los eigenvectores de r están en E(r). Además, E(r) es un subespacio de Rn, pues si u¯,v¯E(r), y aR, tenemos

T(au¯+v¯)=aT(u¯)+T(v¯)=a(ru¯)+(rv¯)=r(au¯+v¯),

lo cual implica que au¯+v¯E(r).

Definición. Para una transformación lineal T:RnRn y un eigenvalor r de T llamaremos a

E(r)={v¯V|T(v¯)=rv¯}

el eigenespacio de T correspondiente a r.

Cuando tenemos eigenvectores correspondientes a eigenvalores distintos, cumplen algo especial.

Proposición. Si v¯1,,v¯l son eigenvectores de una transformación lineal T:RnRn con eigenvalores correspondientes r1,,rl distintos entonces v¯1,,v¯l son linealmente independientes.

Demostración. La ruta para establecer la demostración de este teorema será por inducción sobre l. Para un conjunto con sólo un eigenvector el resultado es evidente (¿por qué?). Supongamos cierto para cualquier subconjunto de l1 eigenvectores que pertenecen a eigenespacios distintos. Sean v¯1,,v¯l eigenvectores en distintos eigenespacios y consideremos α1,,αl escalares tales que:

(2)k=1lαkv¯k=0¯.

Aplicamos T a la igualdad anterior. Usando que cada v¯k es eigenvector correspondiente al eigenvalor rk obtenemos:

0¯=T(0¯)=T(k=1lαkv¯k)=k=1lαkT(v¯k)=k=1lαkrkv¯k.

Es decir,

(3)0=k=1lαkrkv¯k

Multipliquemos (2) por rl y restemos el resultado de (3) para obtener que

0¯=0¯0¯=k=1lαkrkv¯krlk=1lαkv¯k=k=1l1αk(rkrl)v¯k.

Tenemos entonces:

k=1l1αk(rkrl)v¯k=0¯.

Ya que por hipótesis de inducción v¯1,,v¯l1 son linealmente independientes entonces αk(rkrl)=0 para todo k, pero los eigenvalores son todos distintos entre sí por lo tanto para todo k de 1 a l1 se tiene rkrl0 y así αk=0. Finalmente, usando (2) obtenemos αl=0. Por lo tanto v¯1,,v¯l son linealmente independientes.

◻

Eigenvectores y transformaciones diagonalizables

Recuerda que dijimos que una transformación lineal T:RnRn es diagonalizable si existe una base β de Rn tal que Matβ(T) es una matriz diagonal. El siguiente resultado conecta las dos ideas que hemos estado explorando: los eigenvectores y la representabilidad sencilla de T.

Teorema. Sea T:RnRn transformación lineal. Una matriz T es diagonalizable si y sólo si existe una base de Rn conformada por eigenvectores de T.

En realidad la demostración consiste únicamente en entender correctamente cómo se construyen las matrices para una base dada.

Demostración. ) Supongamos que T tiene una representación matricial que es una matriz diagonal A:=Matβ(T)=diag(r1,,rn) con respecto a la base β={v¯1,,v¯n}. Afirmamos que para cada j=1,,n se tiene v¯j es eigevector de eigenvalor rj. En efecto, la forma en la que se construyó la matriz A nos dice que

T(e¯j)=i=1naije¯i=ajje¯j=rje¯j,

en donde estamos usando que las entradas aij de la matriz son cero si ij (por ser diagonal), y son rj si i=j. Por supuesto, como e¯j forma parte de una base, tampoco es el vector cero. Así, e¯j es eigenvector de eigenvalor e¯j.

) Supongamos ahora que v¯1,,v¯n son una base β de Rn conformada por eigenvectores de T con eigenvalores asociados, digamos, r1,,rn. Aquí se puede mostrar que Matβ(T) es diagonal. Queda como tarea moral hacer las cuentas.

◻

Hay una situación particular en la que podemos aprovechar el teorema anterior de manera inmediata: cuando la transformación tiene n eigenvalores distintos. Esta consecuencia queda establecida en el siguiente resultado.

Corolario. Toda transformación lineal T:RnRn tiene a lo más n eigenvalores distintos. Si T tiene exactamente n eigenvalores distintos, entonces los eigenvectores correspondientes forman una base para Rn y la matriz de T relativa a esa base es una matriz diagonal con los eigenvalores como elementos diagonales.

Demostración. Queda como tarea moral. Como sugerencia, recuerda que mostramos arriba que los eigenvectores de eigenvalores distintos son linealmente independientes.

◻

Al parecer los eigenvalores, eigenvectores y eigenespacios de una transformación lineal son cruciales para poder expresarla de manera sencilla. ¿Cómo los encontramos? Esto lo veremos en la siguiente entrada.

Antes de concluir, mencionamos que hay otro teorema crucial sobre diagonalización de matrices. Diremos que una matriz PMn(R) es ortogonal si PtP=I.

Teorema (el teorema espectral). Sea AMn(R) una matriz simétrica. Entonces, existe una matriz ortogonal P tal que PAPt es una matriz diagonal.

El teorema anterior nos dice no únicamente que la matriz A es diagonalizable, sino que además es diagonalizable mediante un tipo muy especial de matrices. Un estudio y demostración de este teorema queda fuera de los alcances de nuestro curso, pero puedes revisar, por ejemplo la entrada teorema espectral del curso de Álgebra Lineal I que tenemos en el blog.

Más adelante

Lo que haremos en la siguiente entrada es desarrollar un método para conocer los eigenvalores de una matriz. A partir de ellos podremos encontrar sus eigenvectores. Y en ciertos casos especiales, esto nos permitirá mostrar que la transformación es diagonalizable y, de hecho, nos dará la base para la cual la matriz asociada es diagonal.

Tarea moral

  1. Considera la transformación lineal de R3 en R2, dada como T(x,y,z)=(x+y,z+y). Encuentra su representación matricial con las bases canónicas de R3 y R2. Luego, encuentra su representación matricial con las bases {(1,2,3),(1,0,1),(0,1,0)} de R3 y {(1,1),(1,1)} de R2.
  2. Considera la siguiente matriz: (10230102) Da una transformación lineal T:R4R2 y ciertas bases β de R4 y γ de R2 para las cuales esta matriz sea la representación matricial de T en las bases β y γ.
  3. Fija bases β, γ y δ para Rn, Rm y Rl. Considera dos transformaciones lineales T:RnRm y S:RmRl. Demuestra que:
    Matδ,β(ST)=Matδ,γ(S)Matγ,β(T).
    En otras palabras que la «composición de transformaciones corresponde al producto de sus matrices».
  4. Sea T:RnRn una transformación lineal y β una base de Rn. Demuestra que T es biyectiva si y sólo si Matβ(T) es invertible.
  5. Verifica que los vectores v¯1,,v¯n dados en el último teorema en efecto ayudan a dar una representación matricial diagonal para T.
  6. La demostración del último corolario es un conjunto de sencillas consecuencias de las definiciones y teoremas desarrollados en esta entrada con respecto a los eigenvalores y eigenvectores. Realiza esta demostración.

Entradas relacionadas

Geometría Analítica I: Polinomios cuadráticos y curvas cuadráticas

Por Leonardo Ignacio Martínez Sandoval

Introducción

Lo primero que queremos determinar en un problema de clasificación es cuáles son los objetos que clasificaremos. En esta entrada los definimos con toda precisión: serán los polinomios cuadráticos en dos variables y las curvas cuadráticas.

Los primeros son expresiones algebraicas que mezclan a dos variables x y y mediante sumas y productos, pero teniendo grado dos. Las segundas son aquellos conjuntos del plano en donde se anula un polinomio cuadrático.

Polinomios cuadráticos en dos variables

Comencemos con una definición algebraica.

Definición. Un polinomio cuadrático en dos variables P es una función P:R2R de la forma P((x,y))=Ax2+Bxy+Cy2+Dx+Ey+F, para algunos reales A,B,C,D,E,F, en donde alguno de A, B ó C es distinto de cero.

En ocasiones, para abreviar «polinomio cuadrático en dos variables» simplemente usaremos las siglas «PCDV».

Ejemplo. Todas las expresiones que aparecen en las cónicas canónicas que hemos estudiado son PCDVs. Por ejemplo, la ecuación canónica de la elipse x2a2+y2b2=1 puede reescribirse como b2x2+a2y2a2b2=0. Del lado izquierdo de esta igualdad tenemos un PCDV. De manera similar, la ecuación canónica de la parábola y2=4px puede reescribirse como y24px=0. Una vez más al lado izquierdo nos aparece un PCDV.

Ejemplo. Si consideramos las dos rectas 3x+5y+1=0 y 2x2y+1=0 y «multiplicamos» sus ecuaciones, entonces obtenemos de nuevo un PCDV pues el producto es:

(3x+5y+1)(2x2y+1)=6x26xy+3x+10xy10y2+5y+2x2y+1=6x2+4xy10y2+5x+3y+1.

Curvas cuadráticas

Cuando tenemos una expresión algebraica que depende de dos variables x y y, entonces podemos preguntarnos por cómo es la figura geométrica que se obtiene al considerar los puntos (x,y) del plano que hacen que la expresión algebraica sea igual a cero. Un ejemplo de esto es cuando consideramos las expresiones del estilo Ax+By+C. Las parejas (x,y) que hacen que esta expresión sea igual a cero forman una recta en el plano. En efecto, forman la recta en forma normal dada por la ecuación (A,B)(x,y)=C, como puedes verificar.

Esta idea es mucho más general. A partir de los polinomios cuadráticos en dos variables también podemos hacernos la misma pregunta: ¿cómo se ven las parejas (x,y) que anulan un polinomio cuadrático? La respuesta será importante, así que las figuras que se construyen así les damos su propio nombre.

Definición. Una curva cuadrática es el conjunto de puntos (x,y) del plano que anulan a un polinomio cuadrático en dos variables P. En otras palabras, es un conjunto de la forma C:={(x,y)R2:Ax2+Bxy+Cy2+Dx+Ey+F=0}.

A P le llamamos el polinomio asociado a C. A C le llamamos la curva descrita (o dada) por P. Quizás usaremos terminología un poco distinta, pero que siga dejando evidente que P y C están relacionados.

Ejemplo. Ya hemos estudiado anteriormente algunas curvas cuadráticas: las cónicas canónicas. Por ejemplo, si tomamos el PCDV P((x,y))=4x29y236 y nos preguntamos para cuáles parejas (x,y) esto es igual a cero, como respuesta tenemos que son aquellas parejas (x,y) tales que 4x29y236=0, lo cual podemos reescribir como x29y24=1. Esta es la hipérbola canónica de semieje mayor 3 y semieje menor 2. Podemos verla en la siguiente figura.

Ejemplo. ¿Qué sucede si nos fijamos en la curva descrita por el polinomio cuadrático en dos variables 6x2+4xy10y2+5x+3y+1 que construimos en un ejemplo anterior? Si recuerdas, obtuvimos este polinomio cuadrático en dos variables a partir de multiplicar dos expresiones. De esta forma, tenemos que 6x2+4xy10y2+5x+3y+1=0 si y sólo si (3x+5y+1)(2x2y+1)=0. Pero el producto de dos cosas es igual a cero si y sólo si alguna es igual a cero. Así, alguna de las expresiones 3x+5y+1 y 2x2y+1 debe ser igual a cero. Si la primera es cero, entonces (x,y) es un punto en la recta normal 1 de ecuación (3,5)(x,y)=1. Si la segunda es cero, entonces (x,y) es un punto en la recta normal 2 de ecuación (2,2)(x,y)=1. Así, la curva cuadrática descrita por el PCDV es la unión de 1 con 2. Podemos verla en la siguiente figura.

Forma matricial de polinomios cuadráticos en dos variables

Cuando trabajamos con rectas, nos convenía tener varias formas de expresarlas: la forma paramétrica ayudaba a determinar fácilmente el paralelismo, la forma baricéntrica nos daba fórmulas sencillas para los puntos medios, la forma normal nos permitía encontrar distancias, etc. Así mismo, cuando trabajamos con polinomios cuadráticos en dos variables es de ayuda tener más de una expresión.

Podemos reescribir un polinomio cuadrático en dos variables P((x,y))=Ax2+Bxy+Cy2+Dx+Ey+F de una manera más compacta usando multiplicación matricial. Para ello, definimos M=(AB2B2C),k=(DE),v=(xy). Con esta notación, e interpretando a las matrices de 1×1 como reales, tenemos que P se puede reescribir de la siguiente manera: P(v)=v.

En efecto, al realizar las operaciones en el lado derecho obtenemos:

vtMv+ktv+F=(xy)(AB2B2C)(xy)+(DE)(xy)+F=(xy)(Ax+B2yB2x+Cy)+Dx+Ey+F=Ax2+Bxy+Cy2+Dx+Ey+F.

Observa que cuando pasamos un polinomio cuadrático en dos variables a forma matricial entonces siempre obtenemos una matriz M simétrica.

Ejemplo. La forma matricial del PCDV que encontramos anteriormente 6x2+4xy10y2+5x+3y+1 es

(xy)(62210)(xy)+(53)(xy)+1.

nota que el coeficiente de xy se tuvo que dividir entre 2 para llegar a las entradas de la matriz. Es importante recordar esto al pasar de la forma en coordenadas a la forma matricial.

En caso de ser necesario, también podemos pasar fácilmente de la forma matricial de un polinomio cuadrático en dos variables a su forma en coordenadas.

Ejemplo. Si comenzamos con el polinomio cuadrático en dos variables con forma matricial (xy)(2113)(xy)+(03)(xy)1,

entonces su forma en coordenadas es 2x22xy+3y23y1.

Observa que las entradas 1 fuera de la diagonal principal de la matriz al salir se duplican para conformar el coeficiente de xy. Es importante recordar esto al pasar de forma matricial a forma en coordenadas.

Más adelante…

En esta entrada definimos qué son los polinomios cuadráticos en dos variables y qué son las curvas cuadráticas.

Por un lado, mencionamos que todas las ecuaciones de cónicas canónicas que hemos visto tienen polinomios cuadráticos en dos variables. ¿Será que todas las ecuaciones de cónicas también tienen polinomios cuadráticos en dos variables? Por otro lado, vimos que algunas curvas cuadráticas son cónicas. Pero nos pasó algo un poco raro: en un ejemplo salieron dos rectas que se intersectan, que quizás estrictamente no pensamos como una cónica usual (elipse, hipérbola, parábola).

¿Cómo serán todas las curvas cuadráticas? ¿Serán sólo las cónicas usuales y algunas excepciones o podrán tener formas muy extrañas? Eso lo estudiaremos después.

También en esta entrada vimos la forma matricial de un polinomio cuadrático en dos variables. De momento, no hemos hablado de la utilidad que tiene pensar a un PCDV así. Sin embargo, en la siguiente entrada veremos que esta expresión es fundamental para ver qué sucede cuando «combinamos» un polinomio cuadrático con una transformación afín.

Tarea moral

  1. Usa alguna herramienta tecnológica (como GeoGebra) para trazar las curvas cuadráticas descritas por los siguientes polinomios cuadráticos en dos variables:
    • x22xy+3y2+x5y+7
    • 3y2+5y+x
    • x2+y25x5y+3
    • xyxy+7
    • x2+2xy3y2x+5y7
  2. Sea P:R2R dada por P((x,y))=(Ax+By+C)(Dx+Ey+F). Demuestra que P es un polinomio cuadrático en dos variables. Luego, demuestra que:
    1. Si AEBD0, entonces la curva cuadrática dada por P es la unión de dos rectas que se intersectan.
    2. Si AEBD=0, entones la curva cuadrática dada por P es la unión de dos rectas paralelas (no necesariamente distintas).
  3. Demuestra que la intersección de una recta con una curva cuadrática sólo puede ser:
    1. Vacía,
    2. Un punto,
    3. Dos puntos, o
    4. Una infinidad de puntos.
  4. Demuestra que cualquier curva cuadrática C puede ser descrita a través de una infinidad de polinomios cuadráticos en dos variables.
  5. Considera la gráfica de la función f(x)=sin(x). ¿Será que esta gráfica es una curva cuadrática? Intenta demostrar por qué sí o por qué no.

Entradas relacionadas

Álgebra Lineal II: Aplicar polinomios a transformaciones lineales y matrices

Por Julio Sampietro

Introducción

Varios de los resultados fundamentales de Álgebra Lineal se obtienen al combinar las idea de transformaciones lineales con la de polinomios. El objetivo de esta entrada es introducir el concepto de «aplicar polinomios a matrices» o equivalentemente «aplicar polinomios a transformaciones lineales». La idea fundamental es simple: las potencias en los polinomios se convierten en repetidas aplicaciones de la transformación y las constantes en múltiplos de la identidad. Si bien esta idea es simple, más adelante veremos aplicaciones importantes y con un gran alcance. Uno de los resultados cruciales que surge de esta idea es el conocido teorema de Cayley-Hamilton.

Primeras construcciones

Sea V un espacio vectorial sobre un campo F, y sea T:VV una transformación lineal. Definimos a la transformación Tn:VV para cualquier nN inductivamente a través de

T0=Id,Ti+1=TTi,

donde, recordamos, Id es la transformación identidad. Intuitivamente, Tn es la «n-ésima composición» de T. Por ejemplo, T3(v) no es más que T(T(T(v))) y T0(v) es simplemente «no usar T para nada», es decir, Id(v)=v. Al componer iteradamente T, sigue siendo una transformación lineal de V a V, así que Tn es transformación lineal de V a V para todo entero n0.

Ya que hablamos de «potencias» de una transformación lineal, podemos rápidamente hacer sentido de un «polinomio evaluado en una transformación lineal». Si P(X)=a0+a1X+a2X2++anXnF[X] es un polinomio, definimos P(T):VV como

P(T):=a0T0+a1T1+a2T2++anTn.

Como las transformaciones lineales de V a V son cerradas bajo combinaciones lineales, entonces P(T) también es una transformación lineal de V a V.

Ejemplo. Tomemos a la transformación T:R2R2 dada por T(x,y)=(2x2y,x+y). Tomemos al polinomio P(x)=x32x+4. ¿Quién es la transformación P(T)? Calculemos primero las «potencias» de T:

T0(x,y)=(x,y)T1(x,y)=T(x,y)=(2x2y,x+y)T2(x,y)=T(T(x,y))=T(2x2y,x+y)=(2(2x2y)2(x+y),(2x2y)+(x+y))=(2x6y,3xy)T3(x,y)=T(2x6y,3xy)=(2x10y,5x7y).

Ahora sí, ya podemos saber qué hace P(T). Tenemos:

P(T)(x,y)=(T32T+4Id)(x,y)=(2x10y,5x7y)2(2x2y,x+y)+4(x,y)=(2x6y,3x5y).

Sumas y productos de polinomios

Las operaciones suma y producto de polinomios se traducen, respectivamente, a suma y composición de las evaluaciones en transformaciones lineales. Esta es una linda propiedad que podemos hacer precisa gracias a la siguiente proposición.

Proposición. Si P1,P2F[X] son dos polinomios y T:VV es una transformación lineal, entonces

  1. (P1+P2)(T)=P1(T)+P2(T),
  2. (P1P2)(T)=P1(T)P2(T).

Te invitamos a demostrar esta proposición. Advertimos que, sin embargo, no se cumplen identidades como P(T1+T2)=P(T1)+P(T2) o bien P(T1T2)=P(T1)P(T2). Un contraejemplo para la primera identidad podría ser tomarP(X)=X2 y T1=T2=Id. En este caso

P(T1+T2)=(T1+T2)2=4Id2Id=P(T1)+P(T2).

Dejamos como ejercicio el verificar que la segunda identidad tampoco es cierta en general. Fijando T, podemos juntar a todas las transformaciones de la forma P(T) para algún P en la siguiente estructura.

Definición. La F-álgebra generada por la transformación T es el conjunto

F[T]={P(T)PF[X]}.

Una consecuencia de la proposición anterior (es más, ¡una mera traducción!) es la siguiente.

Proposición. Para cualesquiera x,yF[T] y cF se cumple que x+cyF[T] y xyF[T]. Es decir, F[T] es un subespacio del espacio de todas las transformaciones lineales de V en V que además es estable bajo composición.

También puedes verificar que F[T] es el subespacio más chico (en el sentido de contención) del espacio de transformaciones lineales en V que contiene a T, a Id y que es cerrado bajo composiciones.

Lo mismo pero con matrices

Desde Álgebra Lineal I sabemos que una transformación lineal se corresponde de manera biunívoca (fijando una base) con una matriz. Nuestra discusión previa se puede adaptar a este vocabulario, y eso es lo que haremos ahora.

Si AMn(F) es una matriz cuadrada de orden n con coeficientes en F, podemos entender a An simplemente como el n-ésimo producto de A consigo misma. Luego si P(X)=a0+a1X+a2X2++anXnF[X] es un polinomio, definimos

P(A):=a0In+a1A+a2A2++anAn.

Se cumple que (PQ)(A)=P(A)Q(A) para cualesquiera polinomios P,Q y cualquier matriz A. Similarmente el álgebra generada por A se define como

F[A]={P(A)PF[X]},

y es un subespacio de Mn(F) que es cerrado bajo producto de matrices.

Ejemplo. Consideremos la matriz A=(2211). Consideremos el polinomio P(x)=x32x+4. ¿Quién es la matriz P(A)? Usando la definición, primero nos enfocaremos en encontrar las potencias de A. Puedes verificar por tu cuenta que:

A0=(1001)A1=(2211)A2=(2631)A3=(21057)

De esta manera,

P(A)=A32A+4I2=(21057)2(2211)+4(1001)=(2635).

Este ejemplo se parece mucho al ejemplo que hicimos cuando evaluamos un polinomio en una transformación T. Esto no es casualidad, y se puede resumir en la siguiente observación.

Observación. Si A es la matriz asociada a T en alguna base, entonces P(A) es la matriz asociada a P(T) en dicha base.

Unos problemas para calentar

A continuación veremos algunos unos cuantos problemas resueltos para que te familiarices con los conceptos que acabamos de ver de manera un poco más teórica.

Problema 1.

  1. Si A,BMn(F) son matrices con B invertible, demuestra que para cualquier PF[X] se cumple
    P(BAB1)=BP(A)B1.
  2. Demuestra que si A,BMn(F) son similares, entonces P(A) y P(B) son similares para cualquier PF[X].

Solución.

  1. Primero supongamos que P(X)=Xk para alguna k1. Necesitamos demostrar que (BAB1)k=BAkB1, y esto lo podemos verificar sencillamente pues
    (BAB1)(BAB1)(BAB1)=BA(B1B)A(B1B)AB1=BAkB1,
    donde usamos que BB1=In. Más generalmente, si P(X)=a0+a1X+a2X2++anXn entonces
    P(BAB1)=i=0nai(BAB1)i=i=0naiBAiB1=B(i=0naiAi)B1=BP(A)B1
    que es lo que queríamos demostrar.
  2. Como A y B son similares, existe C invertible tal que A=CBC1. Por el inciso anterior tenemos
    P(A)=P(CBC1)=CP(B)C1.
    Así, P(A) y P(B) son similares.

◻

Problema 2. Considera la matriz

A=(011203004)

así como el polinomio P(X)=X2+2X1. Calcula P(A).

Solución. Es cuestión de hacer los cálculos. Vemos que

A2=(20102140016)

y así

P(A)=A2+2AI3=(20102140016)+2(011203004)(100010001)=(32343200023).

Problema 3. Si A es simétrica, demuestra que P(A) es simétrica para cualquier polinomio P.

Solución. La demostración se basa en los siguientes hechos:

  1. Si A=(aij) y B=(bij) son matrices simétricas y cF es un escalar, entonces A+cB es simétrica, puesto que
    (A+cB)ij=aij+cbij=aji+cbji=(A+cB)ji.
  2. Si A,B son simétricas, su producto es una matriz simétrica. De nuevo, basta con hacer el cálculo
    (AB)ij=k=1naikbkj=k=1nbjkaki=(AB)ji.
  3. Usando el inciso anterior, se sigue que si A es simétrica, entonces Ak es simétrica para toda k1. Además, In es simétrica y por el primer punto tenemos que toda combinación lineal de matrices simétricas es simétrica. En particular P(A) es simétrica.

◻

Problema 4. Sea V el espacio vectorial de todas las funciones f:RR infinitamente diferenciables. Sea T:VV dada por T:ff. ¿Puedes encontrar un polinomio PR(X) distinto de cero tal que P(T)=0?

Solución. No es posible encontrar dicho polinomio. Suponiendo que sí, tendríamos que P(T) es una ecuación diferencial polinomial de orden n, es decir, a cada función la evaluamos en una combinación

a0f+a1f+a2f»++anfn

donde fn es la n-ésima derivada. Si P(T) es idénticamente cero, tenemos que toda función suave f satisface esta ecuación. En particular tenemos que la constante g(x)=1 la satisface. Así g=g»==gn=0 y entonces

P(T)(g)=a0g+a1g++angn=a0=0.

Concluimos que a0=0. Luego, si consideramos a la función identidad h(x)=x entonces también se tiene que cumplir la ecuación (recordamos que ya eliminamos el término a0). Así

P(T)(h)=a1h+a2h»++anhn=a1=0,

donde usamos que h(x)=1 y todas las derivadas de orden superior son cero. Continuando con este proceso (evaluando en x2,x3,) llegamos a que todos los coeficientes ai son cero. Esto quiere decir que el polinomio era nulo en primer lugar.

Más adelante…

En entradas subsecuentes estudiaremos polinomios de matrices con propiedades especiales, como por ejemplo el polinomio mínimo, que se distinguen por sus deseables propiedades algebraicas. Este es el primer paso hacia el teorema de Cayley-Hamilton.

Tarea moral

Aquí hay unos ejercicios para que practiques lo visto en esta entrada.

  1. Compara el ejemplo que se dio de evaluar un polinomio en una transformación T con el de evaluar un polinomio en una matriz A. ¿Por qué se parecen tanto?
  2. Considera V el espacio vectorial de funciones C en el intervalo [0,2π] y D:VV a la transformación que manda una función a su derivada, es decir D(f)=f. Encuentra un polinomio P tal que P(D)(sin(x)+cos(x)) sea la función cero.
  3. Demuestra que si A es una matriz diagonal, P(A) también es diagonal.
  4. Si
    A=(1201)
    y P(X)=X3X2+X1, calcula P(A).
  5. Generaliza el último problema de la entrada como sigue: Si V es un espacio vectorial y T:VV es tal que existen elementos vi con iN que cumplen Ti(vi)0 y Tj(vi)=0 para j>i, entonces no existe P no nulo tal que P(T) sea cero.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal I: Combinaciones lineales

Por Julio Sampietro

Introducción

En esta entrada presentamos el concepto de combinaciones lineales en espacios vectoriales que será fundamental para nuestro estudio. De cierta manera (que se verá más claramente cuando hablemos de bases en espacios vectoriales arbitrarios) captura un aspecto de la base canónica de Fn: Todo vector lo podemos escribir como x1e1++xnen, lo que con nuestro lenguaje será una combinación lineal de los vectores ei.

También hablamos del concepto de espacio generado. De manera intuitiva, el espacio generado por un conjunto de vectores es el mínimo subespacio que los tiene (y que a la vez tiene a todas las combinaciones lineales de ellos). Geométricamente, los espacios generados describen muchos de los objetos conocidos como rectas y planos. De manera algebraica, este concepto nos servirá mucho en lo que sigue del curso.

Definición de combinaciones lineales

Sea V un espacio vectorial sobre un campo F, y sean v1,,vn vectores en V. Por definición, V contiene a todos los vectores de la forma c1v1++cnvn con c1,,cnF. La colección de los vectores de este estilo es importante y le damos una definición formal:

Definición. Sean v1,,vn vectores en un espacio vectorial V sobre F.

  1. Un vector v es una combinación lineal de los vectores v1,,vn si existen escalares c1,,cnF tales que
    v=c1v1+c2v2++cnvn.
  2. El espacio generado (que a veces abreviaremos como el generado) por v1,,vn es el subconjunto de V de todas las combinaciones lineales de v1,,vn, y lo denotamos por span(v1,,vn).

Ejemplo.

  1. La matriz A=(2211) es una combinación lineal de las matrices B=(10050) y C=(01012) pues A=15B+2C. Así, A está en el generado por B y C.
  2. El generado span(v) de un único vector en Rn consta de puras copias re-escaladas de v (también nos referimos a estos vectores como múltiplos escalares de v). Usando la interpretación geométrica de vectores en R2 o R3, si v0 entonces span(v) representa una recta por el origen en la dirección de v.
  3. Si e1=(1,0,0) y e2=(0,1,0), entonces
    xe1+ye2=(x,y,0).
    Como x y y fueron arbitrarios, podemos concluir que span(e1,e2) consta de todos los vectores en R3 cuya tercer entrada es cero. Esto es el plano xy. En general, si v1,v2 son dos vectores no colineales en R3 entonces su espacio generado es el único plano por el origen que los contiene.
  4. El polinomio 3x10+7 del espacio vectorial R10[x] no puede ser escrito como combinación lineal de los polinomios x10+x2+1, x7+3x+1, 7x3. Para demostrar esto, debemos probar que no existen reales a,b,c tales que 3x10+7=a(x10+x2+1)+b(x7+3x+1)+7cx3.
    Procedamos por contradicción. Si acaso esto fuera posible, desarrollando el producto de la derecha y observando el coeficiente de x10, necesitamos que a sea igual a 3. Pero entonces a la derecha va a quedar un término 3x2 que no se puede cancelar con ninguno otro de los sumandos, sin importar el valor de b o c. Igualando términos cuadráticos, tendríamos entonces 0=3x2, lo cual es una contradicción.

Problemas prácticos de combinaciones lineales

La definición de que un vector sea combinación de otros es existencial. Para mostrar que sí es combinación lineal, basta encontrar algunos coeficientes. Para mostrar que no es combinación lineal, hay que argumental por qué ninguna de las combinaciones lineales de los vectores es igual al vector buscado.

Problema 1. Muestra que el vector (1,1,1) de R3 no se puede expresar como combinación lineal de los vectores

v1=(1,0,0),v2=(0,1,0) y v3=(1,1,0).

Solución. Una combinación lineal arbitraria de v1,v2,v3 es de la forma

x1v1+x2v2+x3v3=(x1+x3,x2+x3,0)

para x1,x2,x3 reales. Así, las combinaciones lineales de v1,v2,v2 siempre tienen a 0 como tercera coordenada. De esta forma, ninguna de ellas puede ser igual a (1,1,1).

◻

Más generalmente, consideramos el siguiente problema práctico: dada una familia de vectores v1,v2,,vk en Fn y un vector vFn, decide si v es una combinación lineal de v1,,vk. En otras palabras, si vspan(v1,,vk).

Para resolver este problema, consideramos la matriz de tamaño n×k cuyas columnas son v1,,vk. Decir que vspan(v1,,vk) es lo mismo que encontrar escalares x1,,xkF tales que v=x1v1++xkvk. De manera equivalente, si tomamos X=(x1,,xk), queremos la existencia de una solución al sistema AX=v.

Esto es muy útil. Como tenemos una manera práctica de decidir si este sistema es consistente (por reducción gaussiana de la matriz aumentada (A|v)), tenemos una manera práctica de resolver el problema de si un vector es combinación lineal de otros. Por supuesto, esto también nos da una solución concreta al problema, es decir, no sólo decide la existencia de la combinación lineal, sino que además da una cuando existe.

Problema 2. Sean v1=(1,0,1,2),v2=(3,4,2,1) y v3=(5,8,3,0) vectores en el espacio vectorial R4. ¿Está el vector v=(1,0,0,0) en el generado de v1,v2 y v3? ¿El vector w=(4,4,3,3)?

Solución. Aplicamos el método que describimos en el párrafo anterior. Es decir, tomemos la matriz

A=(135048123210).

Queremos ver si el sistema AX=v es consistente. Haciendo reducción gaussiana a mano, o bien usando una calculadora de forma escalonada reducida (por ejemplo, la de eMathHelp), obtenemos que la forma escalonada reducida de la matriz aumentada (A|v) es

(A|v)(1010012000010000).

Viendo el tercer renglón, notamos que tiene pivote en la última columna. Deducimos que el sistema no es consistente, así que vspan(v1,v2,v3).

Procedemos de manera similar para el vector w. Esta vez tenemos

(A|w)(1011012100000000),

lo que muestra que el sistema es consistente (pues ninguna fila tiene su pivote en la última columna), por lo tanto wspan(v1,v2,v3). Si queremos encontrar una combinación lineal explícita tenemos que resolver el sistema

(101012000000)(x1x2x3)=(1100).

Tenemos que ninguna fila tiene su pivote en la columna 3, así que x3 es variable libre. Las variables x1 y x2 son pivote. Esto nos da como solución x1=x3+1 y x2=12x3. Entonces podemos escribir

w=(1+x3)v1+(12x3)v2+x3v3

y esto es válido para cualquier elección de x3. Podemos, por ejemplo, escoger x3=0 y obtener w=v1+v2.

Por supuesto, en el problema anterior pudimos haber encontrado la expresión w=v1+v2 explorando el problema o por casualidad. Esto sería suficiente para mostrar que w es combinación lineal. Pero la ventaja del método sistemático que mostramos es que no se corre el riesgo de no encontrar la solución a simple vista. De me manera definitiva nos dice si hay o no hay solución, y cuando sí hay, encuentra una.

Una caracterización del espacio generado

Probamos el siguiente resultado, que explica la importancia del concepto de espacio generado. En particular, la proposición muestra que el espacio generado es un subespacio. Si te parece un poco confusa la demostración, puede ser de ayuda leer antes la observación que le sigue.

Proposición. Sea V un espacio vectorial sobre un campo F y v1,v2,,vnV. Entonces

  1. span(v1,v2,,vn) es la intersección de todos los subespacios vectoriales de V que contienen a todos los vectores v1,,vn.
  2. span(v1,v2,,vn) es el subespacio más chico (en contención) de V que contiene a v1,,vn.

Demostración. Como la intersección arbitraria de subespacios es un subespacio, la parte 1 implica la parte 2. Probemos entonces la parte 1.

Primero demostremos que span(v1,v2,,vn) está contenido en todo subespacio W de V que tiene a v1,,vn. En otras palabras, tenemos que ver que cualquier subespacio W que tenga a v1,,vn tiene a todas las combinaciones lineales de ellos. Esto se sigue de que W, por ser subespacio, es cerrado bajo productos por escalar y bajo sumas. Así, si tomamos escalares α1,,αn tenemos que cada uno de α1v1,,αnvn está en W y por lo tanto la combinación lineal (que es la suma de todos estos), también está en W.

La afirmación anterior implica que span(v1,,vn) está contenido en la intersección de todos los espacios que tienen a v1,,vn, pues está contenido en cada uno de ellos.

Ahora, queremos ver ‘la otra contención’, es decir, que span(v1,,vn) contiene a la intersección de todos los espacios que tienen a v1,,vn. Para esto veremos primero que span(v1,,vn) es un subespacio vectorial. Sean x,yspan(v1,,vn) y cF un escalar. Como x y y son, por definición, combinaciones lineales de v1,,vn, podemos escribir x=a1v1++anvn para algunos escalares ai y y=b1v1++bnvn para unos escalares bi. Así

x+cy=(a1+cb1)v1++(an+cbn)vn

también es una combinación lineal de v1,,vn y por tanto un elemento del espacio generado. Se sigue que span(v1,,vn) es uno de los subespacios que tienen a v1,,vn. Así, este generado «aparece» en la intersección que hacemos de subespacios que tienen a estos vectores, y como la intersección de una familia de conjuntos está contenida en cada uno de esos conjuntos, concluimos que span(v1,,vn) contiene a dicha inteesección.

Argumentemos ahora la segunda parte de la proposición. Se usa el mismo argumento que arriba. Si W es cualquier subespacio que contiene a v1,,vn, entonces «aparece» en la intersección y por tanto span(v1,,vn) está contenido en W. Es decir, es más chico (en contención) que cualquier otro subespacio que contenga a estos vectores.

◻

Observación. Ya que la demostración previa puede resultar un poco confusa, presentamos una versión un poco más relajada de la idea que se usó. Sea {WiiI} la familia de todos los subespacios de V que contienen a v1,,vn.

En el primer párrafo, probamos que

span(v1,,vn)Wi

para todo iI. Luego span(v1,,vn)iIWi.

En el segundo párrafo, probamos que Span(v1,,vn) es un subespacio que contiene a v1,,vn. Es decir, entra en nuestra familia {WiiI}, es uno de los Wi, digamos Wj. Entonces

span(v1,,vn)=WjiIWi.

En ese momento ya tenemos la primer igualdad: span(v1,,vn)=iIWi.

Ahora, la segunda conclusión de la proposición se sigue de esto con una observación más: Si W es un subespacio que contiene a v1,,vn entonces también entra en nuestra familia de los Wi’s, es decir es Wp para algún pI. Ahora usando el inciso 1, tenemos que

span(v1,,vn)=iIWiWp=W.

Esto concluye la demostración.

Más adelante…

El concepto de combinación lineal es la piedra angular para definir varios otros conceptos importantes en espacios vectoriales. Es un primer paso para definir a los conjuntos de vectores generadores y a los conjuntos de vectores linealmente independientes. Una vez que hayamos desarrollado ambos conceptos, podremos hablar de bases de un espacio vectorial, y con ello hablar de la dimensión de un espacio vectorial.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. ¿Se puede expresar al vector (1,3,0,5) como combinación lineal de (0,1,0,3), (0,1,2,0) y (2,0,1,6)? Si sí, encuentra una o más combinaciones lineales que den el vector (1,3,0,5)
  2. ¿Se puede expresar al polinomio 1+x2+3x3x4+x5 como combinación lineal de los siguientes polinomios
    x23x4,1+x2x5,2x+x4,2+x2,5x+5x2x5?
  3. Sea P un plano en R3 por el origen y L una recta de R3 por el origen y con dirección dada por un vector v0. Demuestra que la intersección de L con P es una recta si y sólo si existen dos vectores en P tal que su suma sea v.
  4. Encuentra el conjunto generado por los vectores del espacio vectorial indicado
    • Las matrices (1001) y (1001) del espacio M2.
    • Los vectores (1,1,0) y (1,0,1) del espacio R3.
    • Los polinomios 1, x, x2 y x3 del espacio R[x].
  5. Sea V un espacio vectorial. Si v1,,vn,x son vectores en un espacio vectorial V, ¿será cierto siempre que span(v1,,vn)span(v1,,vn,x)? De ser así, ¿esta contención siempre es estricta? Demuestra tu respuesta o da un contraejemplo.
  6. Sean v1,,vn y x vectores en un espacio vectorial V. Supongamos que vn está en span(v1,,vn1,x). Muestra que span(v1,,vn1,x)=span(v1,,vn1,vn).

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»