Archivo de la etiqueta: matriz

Álgebra Lineal II: Aplicaciones de la forma canónica de Jordan

Por Leonardo Ignacio Martínez Sandoval

Introducción

En las entradas anteriores demostramos que cualquier matriz (o transformación lineal) tiene una y sólo una forma canónica de Jordan. Además, explicamos cómo se puede obtener siguiendo un procedimiento específico. Para terminar nuestro curso, platicaremos de algunas de las consecuencias del teorema de Jordan.

Clasificación de matrices por similaridad

Una pregunta que aún no hemos podido responder es la siguiente: si nos dan dos matrices A y B en Mn(F), ¿son similares? Con la maquinaria desarrollada hasta ahora podemos dar una muy buena respuesta.

Proposición. Sean A y B matrices en Mn(F) tales que el polinomio característico de A se divide en F. Entonces, A y B son similares si y sólo si se cumplen las siguientes dos cosas:

  • El polinomio característico de B también se divide en Mn(F) y
  • A y B tienen la misma forma canónica de Jordan.

Demostración. Sea J la forma canónica de Jordan de A.

Si A y B son similares, como A es similar a J, se tiene que B es similar a J. Entonces, B tiene el mismo polinomio característico que A y por lo tanto se divide en F. Además, como J es similar a B, entonces por la unicidad de la forma canónica de Jordan, precisamente J es la forma canónica de Jordan de B. Esto es un lado de nuestra proposición.

Supongamos ahora que el polinomio característico de B también se divide en Mn(F) y que la forma canónica de Jordan de B también es J. Por transitividad de similaridad, A es similar a B.

◻

Veamos un ejemplo de cómo usar esto en un problema específico.

Problema. Encuentra dos matrices en M2(R) que tengan como polinomio característico a x23x+2, pero que no sean similares.

Solución. Las matrices A=(1002) y B=(1102) ya están en forma canónica de Jordan y son distintas, así que por la proposición anterior no pueden ser similares. Además, por ser triangulares superiores, en ambos casos el polinomio característico es (X1)(X2)=X23X+2.

El problema anterior fue sumamente sencillo. Piensa en lo difícil que sería argumentar con cuentas de producto de matrices que no hay ninguna matriz PM2(R) tal que A=P1BP.

Forma canónica de Jordan «para cualquier matriz»

Como en C[X] todos los polinomios se dividen, entonces tenemos el siguiente corolario del teorema de Jordan.

Corolario. Toda matriz en Mn(C) tiene una única forma canónica de Jordan.

Aquí C es muy especial pues es un campo completo, es decir, en el cual cualquier polinomio no constante tiene por lo menos una raíz. En general esto no es cierto, y es muy fácil dar ejemplos: x22 no tiene raíces en Q y x2+1 no tiene raíces en R.

Sin embargo, existe toda un área del álgebra llamada teoría de campos en donde se puede hablar de extensiones de campos. Un ejemplo de extensión de campo es que C es una extensión de R pues podemos encontrar «una copia de» R dentro de C (fijando la parte imaginaria igual a cero).

Un resultado importante de teoría de campos es el siguiente:

Teorema. Sea F un campo y P(X) un polinomio en F[X]. Existe una extensión de campo G de F tal que P(X) se divide en G.

¿Puedes notar la consecuencia que esto trae para nuestra teoría de álgebra lineal? Para cualquier matriz en Mn(F), podemos considerar a su polinomio característico y encontrar campo G que extiende a F en donde el polinomio se divide. Por el teorema de Jordan, tendríamos entonces lo siguiente.

Corolario. Sea A una matriz en Mn(F). Entonces, A tiene una forma canónica de Jordan en un campo G que extiende a F.

Por supuesto, la matriz P invertible que lleva A a su forma canónica quizás sea una matriz en Mn(G).

Toda matriz compleja es similar a su transpuesta

Ya demostramos que para cualquier matriz A en Mn(F) se cumple que χA(X)=χ(AT)(X). Esto implica que A y su transpuesta AT tienen los mismos eigenvalores, traza y determinante. También vimos que μA(X)=μAT(X). Las matrices A y AT comparten muchas propiedades. ¿Será que siempre son similares? A continuación desarrollamos un poco de teoría para resolver esto en el caso de los complejos.

Proposición. Sea Jλ,n un bloque de Jordan en Mn(F). Entonces, Jλ,n y Jλ,nT son similares.

Demostración. Para bloques de Jordan, podemos dar explícitamente la matriz de similitud. Es la siguiente matriz, con unos en la diagonal no principal:

P=(0001001001001000).

Esta matriz es invertible, su inversa es ella misma y cumple lo siguiente (ver ejercicios). Si A es una matriz en Mn(F), entonces:

  • Si A tiene columnas C1,,Cn, entonces AP tiene columnas Cn,,C1.
  • Si A tiene filas R1,,Rn, entonces PA tiene filas Rn,,R1.

Para los bloques de Jordan, si revertimos el orden de las filas y luego el de las columnas, llegamos a la transpuesta. Así, Jλ,nT=PJλ,nP es la similitud entre las matrices dadas.

◻

La prueba anterior no funciona en general pues para matrices arbitrarias no pasa que AT=PAP (hay un contraejemplo en los ejercicios). Para probar lo que buscamos, hay que usar la forma canónica de Jordan.

Teorema. En Mn(C), toda matriz es similar a su transpuesta.

Demostración. Sea A una matriz en Mn(C). Como en C todo polinomio se divide, tanto A como AT tienen forma canónica de Jordan. Digamos que la forma canónica de Jordan es

(1)J=(Jλ1,k10000Jλ2,k20000Jλ3,k30000Jλd,kd).

Si P es la matriz de similitud, tenemos que A=P1JP y al transponer obtenemos que:

AT=PT(Jλ1,k1T0000Jλ2,k2T0000Jλ3,k3T0000Jλd,kdT)(PT)1.

Como por la proposición anterior cada bloque de Jordan es similar a su transpuesta, existen matrices invertibles Q1,,Qd tales Jλi,kiT=Qi1Jλi,kiQi para todo i{1,,d}. Pero entonces al definir Q como la matriz de bloques

Q=(Q1000Q20000Qd),

obtenemos la similaridad

AT=PTQ1(Jλ1,k10000Jλ2,k20000Jλ3,k30000Jλd,kd)Q(PT)1.

Así, A y AT tienen la misma forma canónica de Jordan y por lo tanto son matrices similares.

◻

Más adelante…

¡Hemos terminado el curso de Álgebra Lineal II! Por supuesto, hay muchos temas de Álgebra Lineal adicionales que uno podría estudiar.

Un tema conectado con lo que hemos platicado es qué hacer con las matrices cuyo polinomio característico no se divide en el campo con el que estamos trabajando. Por ejemplo si tenemos una matriz A en Mn(R) cuyo polinomio característico no se divide, una opción es pensarla como matriz en Mn(C) y ahí encontrar su forma canónica de Jordan. ¿Pero si queremos quedarnos en R? Sí hay resultados que llevan una matriz a algo así como una «forma canónica» en R muy cercana a la forma canónica de Jordan.

Otro posible camino es profundizar en la pregunta de cuándo dos matrices en Mn(F) son similares. Si tienen forma canónica de Jordan, ya dimos una buena caracterización en esta entrada. En los ejercicios encontrarás otra. Pero, ¿y si no tienen forma canónica de Jordan? Podríamos extender el campo a otro campo G y comprar las formas canónicas ahí, pero en caso de existir la similaridad, sólo la tendremos en Mn(G). Existe otra manera de expresar a una matriz en forma canónica, que se llama la forma canónica de Frobenius y precisamente está pensada para determinar si dos matrices son similares sin que sea necesario encontrar las raíces del polinomio característico, ni extender el campo.

Estos son sólo dos ejemplos de que la teoría de álgebra lineal es muy extensa. En caso de que estés interesado, hay mucho más por aprender.

Tarea moral

  1. Sea A una matriz en Mn(F) y tomemos P en Mn(F) la matriz
    P=(0001001001001000).
    • Demuestra que si A tiene columnas C1,,Cn, entonces AP tiene columnas Cn,,C1.
    • Demuestra que si A tiene filas R1,,R1, entonces PA tiene filas Rn,,Rn.
    • Concluye con cualquiera de los incisos anteriores que P es invertible y su inversa es ella misma.
    • Tomemos explicitamente n=2 y A=(1234). Encuentra explícitamente PAP. ¿Es AT?
  2. ¿Cuál es la máxima cantidad de matrices que se pueden dar en M5(C) de manera que cada una de ellas tenga polinomio característico x2(x2+1)(x+3) y tales que no haya dos de ellas que sean similares entre sí.
  3. Sea A una matriz en Mn(R) tal que su polinomio característico se divide en R, con forma canónica de Jordan J. Sea P(X) un polinomio en R[X].
    • Demuestra que el polinomio característico de P(A) se divide en R.
    • La forma canónica de Jordan de P(A) no necesariamente será P(J) pues puede que el polinomio altere el orden de los eigenvalores pero, ¿cómo se obtiene la forma canónica de P(A) a partir de J?
  4. Sean A y B matrices en Mn(F) cuyo polinomio característico se divide en F. Muestra que A y B son similares si y sólo si para cualquier polinomio P(X) en F[X] se tiene que rango(P(A))=rango(P(B)).
  5. Investiga sobre la forma canónica de Frobenius y sobre la variante a la forma canónica de Jordan restringida a R.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Superior I: Producto de matrices con vectores

Por Eduardo García Caballero

Introducción

Anteriormente conocimos dos operaciones que podemos realizar utilizando vectores o matrices: la suma entre vectores/matrices y el producto escalar. Como recordarás, estas operaciones involucran exclusivamente vectores o exclusivamente matrices. En esta entrada veremos una operación que involucra a ambos objetos matemáticos a la vez: el producto de una matriz por un vector.

Definición de producto de matrices con vectores

Una condición indispensable para poder realizar el producto matriz-vector es que la cantidad de columnas de la matriz sea la misma que la cantidad de entradas del vector. Basándonos en esto, podríamos multiplicar
(31225)(π4)o(1729132)(3235),
pero no podríamos realizar la operación
(1729132)(π4).

Como te habrás podido dar cuenta, en este tipo de producto es usual representar los vectores en su forma de “vector vertical” o “vector columna”.

El resultado de multiplicar una matriz por un vector será un nuevo vector, cuyo tamaño corresponde a la cantidad de filas de la matriz original.

Para obtener este nuevo vector, se sigue un algoritmo especial, el cual conocerás en entradas futuras. Sin embargo, a continuación te presentamos las fórmulas que definen a algunos casos especiales de esta operación, lo cual te permitirá obtener el producto en casos con una cantidad pequeña de entradas.

  • Producto de una matriz de tamaño 2×2 por un vector de tamaño 2:

(a11a12a21a22)(u1u2)=(a11u1+a12u2a21u1+a22u2).

  • Producto de una matriz de tamaño 3×2 por un vector de tamaño 2:

(a11a12a21a22a31a32)(u1u2)=(a11u1+a12u2a21u1+a22u2a31u1+a32u2).

  • Producto de una matriz de tamaño 2×3 por un vector de tamaño 3:

(a11a12a13a21a22a23)(u1u2u3)=(a11u1+a12u2+a13u3a21u1+a22u2+a23u3).

  • Producto de una matriz de tamaño 3×3 por un vector de tamaño 3:

(a11a12a13a21a22a23a31a32a33)(u1u2u3)=(a11u1+a12u2+a13u3a21u1+a22u2+a23u3a31u1+a32u2+a33u3).

¿Observas algún patrón en estas fórmulas?

Veamos algunos ejemplos numéricos de cómo usar estas fórmulas:

(31221)(134)=((3)(13)+(12)(4)(2)(13)+(1)(4))=(1+223+4)=(1103)

(1729132)(3235)=((1)(3)+(7)(23)+(2)(5)(9)(3)+(13)(23)+(2)(5))=(5+15233313).

Breve exploración geométrica

Como probablemente hayas visto en tu curso de Geometría Analítica I, el producto de matrices por vectores se puede emplear para representar distintas transformaciones de vectores en el plano y en el espacio.

Si multiplicamos una matriz diagonal por un vector, entonces el resultado corresponderá a “redimensionar” el vector en sus distintas direcciones. Por ejemplo, observamos que el producto
(3002)(33)=(96)
corresponde a redimensionar el vector original al triple de manera horizontal y al doble de manera vertical.

Por otra parte, multiplicar por una matriz de la forma
(cos(θ)sin(θ)sin(θ)cos(θ))
ocasiona que el vector rote un ángulo θ en sentido contrario a las manecillas del reloj; por ejemplo,
(cos(30º)sin(30º)sin(30º)cos(30º))(54)=(32121232)(54)=((32)(5)+(12)(4)(12)(5)+(32)(4))=(53425+432).

Propiedades algebraicas del producto de una matriz por un vector

A continuación, exploraremos algunas de las propiedades que cumple el producto matriz-vector. Estas propiedades las deduciremos para matrices de 2×3 por vectores de tamaño 3, pero la deducción para otros tamaños de matrices y vectores se realiza de manera análoga.

Primeramente, observemos que para matrices A y B de tamaño 2×3, y para un vector u, se cumple que
(A+B)u=((a11a12a13a21a22a23)+(b11b12b13b21b22b23))(u1u2u3)=(a11+b11a12+b12a13+b13a21+b21a22+b22a23+b23)(u1u2u3)=((a11+b11)u1+(a12+b12)u2+(a13+b13)u3(a21+b21)u1+(a22+b22)u2+(a23+b23)u3)=(a11u1+b11u1+a12u2+b12u2+a13u3+b13u3a21u1+b21u1+a22u2+b22u2+a23u3+b23u3)=(a11u1+a12u2+a13u3a21u1+a22u2+a23u3)+(b11u1+b12u2+b13u3b21u1+b22u2+b23u3)=(a11a12a13a21a22a23)(u1u2u3)+(b11b12b13b21b22b23)(u1u2u3)=Au+Bu,
es decir, el producto matriz-vector se distribuye sobre la suma de matrices (esto también se conoce como que el producto matriz-vector abre sumas).

Por otra parte, podemos probar que el producto matriz-vector se distribuye sobre la suma de vectores; es decir, si A es una matriz de 2×3, y u y v son vectores de tamaño 3, entonces
A(u+v)=Au+Av.

Además, veamos que si A es una matriz de 2×3, r es un escalar, y u un vector de tamaño 3, entonces
A(ru)=(a11a12a13a21a22a23)(r(u1u2u3))=(a11a12a13a21a22a23)(ru1ru2ru3)=(a11ru1+a12ru2+a13ru3a21ru1+a22ru2+a23ru3)=(r(a11u1)+r(a12u2)+r(a13u3)r(a21u1)+r(a22u2)+r(a23u3))=r(a11u1+a12u2+a13u3a21u1+a22u2+a23u3)=r((a11a12a13a21a22a23)(u1u2u3))=r(Au)
y, más aún,
A(ru)=(a11a12a13a21a22a23)(r(u1u2u3))=(a11a12a13a21a22a23)(ru1ru2ru3)=(a11ru1+a12ru2+a13ru3a21ru1+a22ru2+a23ru3)=((ra11)u1+(ra12)u2+(ra13)u3(ra21)u1+(ra22)u2+(ra23)u3)=((ra11ra12ra13ra21ra22ra23)(u1u2u3))=(r(a11a12a13a21a22a23))(u1u2u3)=(rA)u.

Por lo tanto A(ru)=r(Au)=(rA)u. Esta propiedad se conoce como que el producto matriz-vector saca escalares.

Como el producto de matrices por vectores abre sumas y saca escalares, se dice que es lineal. Un hecho bastante interesante, cuya demostración se dejará hasta los cursos de álgebra lineal, es que el regreso de esta afirmación también se cumple: ¡A cualquier transformación lineal se le puede asociar una matriz A de modo que aplicar la transformación a un vector v es lo mismo que hacer el producto Av!

Otras propiedades de este producto

En entradas anteriores definimos algunos vectores y matrices especiales.

Como recordarás, definimos la matriz identidad de tamaño 3×3 como
I3=(100010001).

Observemos que al multiplicar I3 por el vector
(u1u2u3)
obtendremos
I3u=(100010001)(u1u2u3)=(1u1+0u2+0u30u1+1u2+0u30u1+0u2+1u3)=(u1u2u3)=u.
Como su nombre lo sugiere, la matriz In tiene la propiedad de ser neutro al multiplicarlo por un vector de tamaño n (de hecho, como veremos en la siguiente entrada, ¡la matriz In también cumple esta propiedad en otras operaciones!).

Por otra parte, recordemos que definimos el vector canónico ei de tamaño n como el vector en el que su i-ésima entrada es 1 y sus demás entradas son 0. Como ejemplo, veamos que
Ae1=(a11a12a13a21a22a23)(100)=(1a11+0a12+0a131a21+0a22+0a23)=(a11a21),
donde este resultado corresponde a al primera columna de la matriz.

De manera análoga, podemos ver que
Ae2=(a12a22)yAe3=(a13a23)
corresponden a la segunda y tercera columna de la matriz, respectivamente.

En general, para matrices de tamaño m×n y el vector ei de tamaño n, el resultado de Aei corresponde al vector cuyas entradas son las que aparecen en la i-ésima columna de la matriz.

Más adelante…

En esta entrada conocimos el producto de matrices con vectores, exploramos su interpretación geométrica y revisamos algunas de las propiedades algebraicas que cumple. Esta operación se añade a las que aprendimos en entradas anteriores, ampliando nuestra colección de herramientas.

En la siguiente entrada descubriremos una operación que nos permitirá sacar aún más poder a las operaciones que hemos conocido hasta ahora: el producto de matrices.

Tarea moral

  1. Obtén el resultado de las siguientes multipicaciones:

(123101)(456),

(25312)(42).

  1. Considera la matriz A=(3445). Realiza la siguiente operación: A(A(A(A(23)))).
  2. ¿Cuál matriz permite rotar un vector en el plano 45º? ¿Cuál 60º?
  3. Deduce las propiedades del producto matriz-vector para matrices de 3×2 y vectores de tamaño 2.
  4. Una matriz desconocida A de 3×3 cumple que Ae1=(201), que Ae2=(511) y que Ae3=(111). ¿Cuánto es A(234)?

Entradas relacionadas

Cálculo Diferencial e Integral III: Teorema de la función implícita y demostración

Por Alejandro Antonio Estrada Franco

Introducción

En esta parte del curso estamos abordando los resultados principales de campos vectoriales y su diferenciabilidad. Hemos hablado de cómo la derivada de una composición se calcula con regla de la cadena. También, enunciamos el teorema de la función inversa, lo demostramos, y vimos un ejemplo de cómo se usa. Ahora pasaremos a otro de los resultados fundamentales en el tema: el teorema de la función implícita. Vamos a motivarlo a partir del problema de resolver sistemas de ecuaciones no lineales. Luego, lo enunciaremos formalmente y lo demostraremos. La discusión y los ejemplos los dejaremos para la siguiente entrada.

Una motivación: resolver sistemas de ecuaciones no lineales

Con lo que repasamos sobre sistemas de ecuaciones lineales, y con lo que se ve en un curso de Álgebra Lineal I, se puede entender completamente cómo resolver sistemas de eccuaciones lineales. Recordemos un poco de esto. Tomemos el siguiente sistema de ecuaciones lineales en las variables x1,,xn:

{a11x1+a12x2++a1nxn=b1a21x1+a22x2++a2nxn=b2am1x1+am2x2++amnxn=bm.

Para resolverlo, se podría utilizar el proceso de reducción gaussiana. Tras hacer esto, podíamos clasificar a las variables en libres (que podían valer lo que sea) y pivote (que dependían afinmente de las libres). Esto daba todas las soluciones. Si, por decir algo, las variables pivote son x1,x2,,xm y las libre son xm+1,,xn, entonces podemos reescribir lo anterior de la siguiente manera: «podemos despejar a las primeras en función de las segundas», algo así como

x1=T1(xm+1,,xn)x2=T2(xm+1,,xn)xm=Tm(xm+1,,xn).

Elegimos a xm+1,,xn como queramos. De ahí x1,,xm quedan definidos afinmente con las T1,,Tm. Y esto da todas las soluciones. Pero, ¿qué sucedería si tenemos un sistema de ecuaciones mucho más general?

Para plantear esto, imaginemos que ahora tenemos cualesquiera funciones f1,,fm:RnR y que queremos encontrar todas las soluciones x1,,xn al siguiente sistema de ecuaciones:

(2){f1(x1,,xn)=0fm(x1,,xn)=0.

Esto es tan general como pudiéramos esperar. A la izquierda hay ceros, pero es porque si hubiera otras cosas, podríamos pasarlas a la izquierda para dejar ceros a la derecha.

Este sistema (2) parece imposible de resolver: no tenemos idea de quiénes son las funciones f1,,fn, no hay reducción gaussiana, no hay variables libres, etc. Pero imaginemos que el campo vectorial (f1,,fm) es de clase C1 alrededor de algún punto v¯0=(x10,,xn0) en donde queremos despejar. Esto nos diría que cerca de v¯0 cada expresión fi(v¯) con v¯=(x1,,xn) se parece muchísimo a su mejor aproximación lineal:

fi(v¯0)+fi(v¯0)(v¯v¯0)

donde, tenemos:
fi(v¯0)+fi(v¯0)(v¯v¯0)=fi(v¯0)+(fix1(v¯0),,fixn(v¯0))(x1x10,,xnxn0)=fi(v¯0)+j=1nfixj(v¯0)(xjxj0)=fi(v¯0)+j=1nfixj(v¯0)xjj=1nfixj(v¯0)xj0=fi(v¯0)(v¯)+fi(v¯0)j=1nfixj(v¯0)xj0=fi(v¯0)(v¯)+b¯i,

donde b¯i=fi(v¯0)j=1nfixj(v¯0)xj0. Pero entonces el sistema es prácticamente el mismo sistema que

(3){f1x1(v¯0)x1++f1xn(v¯0)xn+b1=0f2x1(v¯0)x1++f2xn(v¯0)xn+b2=0fmx1(v¯0)x1++fmxn(v¯0)xn+bm=0

Esto se ve un poco complicado, pero cada fixj(v¯0)xj es simplemente un número real. ¡Cerquita de v¯0 el sistema de ecuaciones (2) es prácticamente un sistema lineal! Sería entonces de esperarse que las soluciones el sistema (2) original sean muy cercanas a las del sistema lineal (3) que sale y de nuevo recuperamos los trucos usuales: reducción gaussiana, variables libres, variables pivote, etc.

Pensando en que en el sistema (3) las variables pivote son x1,,xm y las libres son xm+1,,xn, entonces podemos encontrar transformaciones afines T1,,Tm:RnR tales que las soluiones de (3) consisten en elegir xm+1,,xn arbitrariamente, y tomar

x1=T1(xm+1,,xn)x2=T2(xm+1,,xn)xm=Tm(xm+1,,xn).

Muy probablemente (x1,,xn) no será una solución de (2), pues son sistemas diferentes entre sí. Pero suena a que son tan tan cercanos, que con tantita maniobra podremos encontrar funciones S1,,Sm:RnR tales que cualquier solución a (2) similarmente está dada por elegir xm+1,,xn arbitrariamente y tomar

x1=S1(xm+1,,xn)x2=S2(xm+1,,xn)xm=Sm(xm+1,,xn).

Gracias a que pudimos poner a todos los x1,xm en función de los xm+1,,xn, hemos logrado encontrar todas las soluciones a (2) cerca de v¯0. El teorema de la función inversa nos ayuda a volver precisas muchas de las cosas discutidas en esta sección.

Enunciado del teorema de la función implícita

Pensemos que tenemos algunas restricciones dadas por ecuaciones como las del sistema (2). Lo que el teorema de la función implícita nos dirá es que bajo suficiente regularidad y algunas condiciones de invertibilidad, en una vecindad de un punto v¯0 las incógnitas x1,,xm se pueden poner en función de las incógnitas xm+1,,xn, es decir, que se puede despejar como lo mencionamos al final de la sección anterior. El enunciado es el siguiente.

Teorema (de la función implícita). Sea f:SRm×RlRm un campo vectorial de clase C1 en S con funciones componentes fi:SRm×RlR, para i=1,,m.

Pensemos en el conjunto A de soluciones (y1,,ym,x1,,xl) del siguiente sistema de ecuaciones:

(4){f1(y1,,ym,x1,,xl)=0fm(y1,,ym,x1,,xl)=0.

Supongamos además que para el punto (y¯0,x¯0)=(y10,,ym0,x10,,xl0)SA la matriz

(f1y1(y¯0,x¯0)fiym(y¯0,x¯0)fmy1(y¯0,x¯0)fmym(y¯0,x¯0))

es invertible. Entonces existen abiertos VRm y URl con y¯0V, x¯0U, para los cuales hay una única función h:UV de clase C1 en V, tal que f(y¯,x¯)=0¯ si y sólo si y¯=h(x¯).

Sólo para aclarar algunas diferencias con lo discutido anteriormente, aquí ya estamos separando en lo que esperaremos que serán las variables libres x1,,xm y las variables pivote y1,,yl. Estamos además estudiando el caso en el que tenemos tantas variables libres como ecuaciones, pues este caso es fácil de enunciar en términos de la invertibilidad de una matriz. El caso más general se trata con reducción gaussiana como platicamos en la sección anterior. La igualdad y¯=h(x¯) es lo que entendemos como «despejar» a los yi’s en función de los xj’s.

Demostración del teorema de la función implícita

Veamos la demostración del teorema.

Demostración. Definamos F:SRm×RlRm×Rl como F(y¯,x¯)=(f(y¯,x¯),x¯). Dado que f es de clase C1, se tendrá que F también (explica esto como tarea moral).

Notemos que

F(y¯0,x¯0)=(f(y¯0,x¯0),x¯0)=(0¯,x¯0).

Por otro lado, notemos que la matriz jacobiana de F en (y¯0,x¯0) es

[f1y¯1(y¯0,x¯0)f1ym(y¯0,x¯0)f1x1(y¯0,x¯0)f1xl(y¯0,x¯0)fmy1(y¯0,x¯0)fmym(y¯0,x¯0)fmx1(y¯0,x¯0)fmyl(y¯0,x¯0)00100001]

esta matriz además es invertible (también tendrás que explicar ambas cosas de tarea moral).

La idea clave es que entonces podemos usar el teorema de la función inversa en F. Aplícandolo en este contexto, obtenemos que existe δ>0 tal que F es inyectiva en una bola Bδ(y¯0,x¯0)S. Nos dice también que F(Bδ(y¯0,x¯0)) es un conjunto abierto, y que F1:F(Bδ(y¯0,x¯0))Rm×RlRm×Rl es de clase C1 en F(Bδ(y¯0,x¯0)). También dice algo de quién es la derivada explícitamente, pero eso no lo necesitaremos por ahora (de tarea moral tendrás que pensar qué nos dice esto).

Como F manda (y¯0,x¯0) a (0¯,x¯0) y F(Bδ(y¯0,x¯0)) es un abierto, entonces hay una bola abierta W alrededor de (0¯,x¯0) contenida en F(Bδ(y¯0,x¯0)). El conjunto U que propondremos será el abierto que se obtiene al intersectar W con el espacio en donde la coordenada correspondiente a f(y¯,x¯) es cero. En otras palabras, U es un abierto y consiste de x¯ para los cuales existe un y¯ tal que F(y¯,x¯)=(0¯,x¯) (es decir, f(y¯,x¯)=0¯).

Tomemos ahora un x¯U. Afirmamos que hay sólo un y¯ tal que (y¯,x¯)Bδ(y¯0,x¯0) y f(y¯,x¯)=0¯. Si hubiera y¯ y y¯ que satisfacen eso, tendríamos

F(y¯,x¯)=(f(y¯,x¯),x¯)=(0¯,x¯)=(f(y¯,x¯),x¯)=F(y¯,x¯),

que por la inyectividad de F implica y¯=y¯. De hecho, dicho único y¯ está en función de F1, que es de clase C1 de modo que el conjunto de los y¯ asignados a los x¯ en U es un abierto V.

Así, podemos definir h:UV de la siguiente manera: h(x¯)=y¯, donde y¯ es el único elemento para el cual f(y¯,x¯)=0¯ y (y¯,x¯)Bδ(y¯0,x¯0). De la discusión desarrollada, h está bien definida y cumple con las propiedades buscadas.

Por último probemos que h es de clase C1 en U. Como F1 esta definida y, además es de clase C1 sobre el conjunto F(Bδ(x¯0,y¯0)), si escribimos que F1=((F1)1,,(F1)m), bastaría con demostrar:

h(x¯)=((F1)1(0¯,x¯),,(F1)m(0¯,x¯))

para cada x¯V. Esto se hace como sigue:

(h(x¯),x¯)=F1(F(h(x¯),x¯))=F1(0¯,x¯)=((F1)1(0¯,x¯),,(F1)m(0¯,x¯),(F1)m+1(0¯,x¯),,(F1)m+l(0¯,x¯)).

Así queda terminada de la demostración de este importante teorema.

◻

Algunas reflexiones finales

Si quisiéramos usar de manera práctica la demostración para encontrar la función implícita h, necesitaríamos calcular la inversa F1. Sin embargo, las técnicas que tenemos hasta ahora no nos permiten hacer eso tan fácilmente. La versión del teorema de la función inversa que tenemos nos dice que hay una inversa, pero no nos dice quién es. La mayoría de las veces dar esta inversa es muy difícil, por no decir imposible.

Aunque esto parezca algo negativo, de cualquier forma tenemos un resultado muy importante. En algunos casos, sí podremos dar la función inversa con relativa facilidad. Y en otros contextos, aunque no podamos dar la inversa explícitamente, sí tendremos una base teórica robusta para demostrar otros resultados. El teorema de la función implícita es una palanca importante para otros resultados que brindan mucha luz acerca del comportamiento de los campos vectoriales.

Mas adelante

La demostración y el desarrollo teórico tanto del teorema de la función inversa, como el de la función implícita, son muy técnicos. Dejaremos los aspectos técnicos hasta aquí y en la siguiente entrada procesaremos mejor lo que quiere decir este teorema hablando de varios ejemplos, y también de sus consecuencias.

Tarea moral

  1. Considérese la función T:R3R2 dada por T(x,y,z)=(x+z,y+x) aplica el teorema de la función implícita para obtener una función h:RR2 tal que (h(a¯),a¯) es solución de la ecuación T(x,y,z)=(0,0).
  2. Explica con detalle por qué la función F de la demostración del teorema de la función implícita es de clase C1.
  3. Verifica que en efecto DF(y¯0,x¯0) es la expresión dada en la demostración del teorema. Además, justifica por qué es invertible.
  4. Justifica con detalle por qué los conjuntos U y V de la demostración en efecto son conjuntos abiertos.
  5. El teorema de la función inversa también nos dice quién es la derivada de la inversa. ¿Eso qué quiere decir en el contexto del teorema de la función implícita?

Entradas relacionadas

Investigación de Operaciones: Forma canónica y forma estándar de un problema lineal (9)

Por Aldo Romero

Introducción

En las entradas anteriores hemos dado ejemplos de varios problemas de aplicación que pueden ser planteados mediante un problema de programación lineal. Una vez que llegamos a un modelo, se pueden tener restricciones de los tipos , = y . Además, puede haber restricciones de signo sobre las variables. Puede que se les pida ser no positivas, no negativas o irrestrictas (no restringidas) en signo. Lo que haremos ahora es ver cómo podemos llegar a un cierto formato (forma estándar o forma canónica).

Forma canónica de un problema lineal

A continuación introducimos el primer formato que nos facilitará el trabajo.

Definición. Se dice que un problema de programación lineal está en forma canónica si cumple simultáneamente las siguientes tres propiedades:

  1. El problema es de maximización.
  2. Las restricciones del problema son todas del tipo (menor o igual).
  3. Las variables de decisión son no negativas.

Así, tenemos entonces que un problema en forma canónica se ve como sigue:

Maxz=c1x1++cnxns.a.a11x1+a12x2++a1nxnb1a21x1+a22x2++a2nxnb2am1x1+am2x2++amnxnbnx10,x20,,xn0.

En términos matriciales, esto podemos reescribirlo de manera mucho más compacta como sigue:

Maxz=cxs.a.Axbx0,

en donde:

  • c=(c1,,cn)Rn es el vector de costos (vector renglón)
  • x=(x1,,xn)Rn es el vector de variables de decisión (vector columna),
  • A=[aij] es la matriz de restricciones, que es una matriz de m×n y
  • b=(b1,,bm)Rm es el vector de constantes que acotan las combinaciones lineales de variables.
  • Entendemos 0 como el vector en Rn que consiste de puras entradas iguales a cero.

Todo problema de programación lineal puede ser expresado en forma canónica; es decir, puede definirse un problema en forma canónica equivalente a él, en el sentido de que la solución de uno nos permite encontrar la solución del otro de manera sencilla. En efecto:

  • Si el problema es de minimización, puede considerarse en vez de z la función z=z y en el problema equivalente se busca maximizar z.
  • Si una restricción es del tipo puede ser mutiplicada por -1 para obtener una del tipo .
  • Una ecuación puede ser substituida por una desigualdad del tipo y otra del tipo . Luego, la del tipo puede ser substituida por una del tipo como en el punto anterior.
  • Para una variable xi0 puede definirse xi=xi, resultando xi0. Claramente hay una biyección entre elegir el valor de xi y xi.
  • Para una xi no restringida pueden ser definidas dos variables no negativas xi y xi tales que xixi=xi. Para cualquier xi dado podemos construir dichas variables, y viceversa, para xi y xi se puede construir xi.

Ejemplo de pasar un problema a forma canónica

Transformaremos el siguiente problema a su forma canónica.
Minz=x13x2+7x3s.a.3x1+x2+3x340x1+9x27x3505x1+3x2=205x2+8x380x1,x20,x3libre.

Primeramente se definen las variables no negativas x3 y x3, tales que x3x3=x3, con objeto de satisfacer el punto (3) de la definición. Para satisfacer el punto (1) se considera la función:
z=z=x1+3x27x3=x1+3x27x3+7x3

y se busca maximiza ésta (equivalente a minimizar z). Finalmente se realizan cambios en las restricciones para satisfacer el punto (2). La primera y cuarta desigualdad cumplen con la definición por lo que no se modifican (más allá de la sustitución de x3 por x3x3); la segunda desigualdad se multiplica por 1 para obtener una del tipo : x1+9x27x350x19x2+7x350.

Substituyendo las nuevas variables se obtiene: x19x2+7x37x350.

Para la tercera desigualdad se tiene lo siguiente:

5x1+3x2=205x1+3x220y5x1+3x2205x1+3x220y5x13x220.

Finalmente el problema queda expresado en forma canónica como:

Maxz=x1+3x27x3+7x3s.a.3x1+x2+3x33x340x19x2+7x37x3505x1+3x2205x13x2205x2+8x38x380x1,x2,x3,x30.

Forma estándar de un problema lineal

Definición. Se dice que un problema de programación lineal está en forma estándar si

  1. Todas las restricciones son ecuaciones.
  2. Todas las variables son no negativas.
  3. La función objetivo puede pedirse que se optimice maximizándola, o minimizándola.

De esta manera, un problema en forma estándar se ve como sigue:

Max(Min)z=c1x1++cnxns.a.a11x1+a12x2++a1nxn=b1a21x1+a22x2++a2nxn=b2am1x1+am2x2++amnxn=bnx10,x20,,xn0.

En notación matricial, el problema en forma canónica queda expresado de la siguiente manera:

Max(Min)z=cxs.a.Ax=bx0

en donde c,x,A y b0 son como se mencionó antes.

Así como cualquier problema de programación lineal puede ser expresado en forma canónica, también cualquier problema de programación lineal puede expresarse en forma estándar. Una restricción del tipo () puede ser transformada en una ecuación sumando (o restando) una variable no negativa que recibe el nombre de variable de holgura (o variable de sobra).

Ejemplo de pasar un problema a forma estándar

Retomemos el problema ejemplo anterior, antes de expresarlo en forma canónica.

Minz=x13x2+7x3s.a.3x1+x2+3x340x1+9x27x3505x1+3x2=205x2+8x380x1,x20,x3libre.

Vamos a expresarlo ahora en forma estándar. Como lo hicimos anteriormente, hacemos la sustitución x=x3x3 para que la variable libre se convierta en dos con restricciones de ser no negativas.

Para satisfacer (1) se introducen las variables de holgura, x4, x5 y x6 que pediremos que sean no negativas. A la primera desigualdad le sumamos x4. A la quinta le sumamos x6. Y finalmente, a la segunda le restamos x5. Esto transforma las desigualdades en igualdades. De esta manera, el problema queda expresado de la siguiente manera:

Minz=x13x2+7x37x3s.a.3x1+x2+3x33x3+x4=40x1+9x27x3+7x3x5=505x1+3x2=205x2+8x38x3+x6=80x1,x2,x3,x3,x4,x5,x60.

Más adelante…

Las formas que estudiamos en esta entrada nos ayudarán posteriormente para plantear soluciones para problemas de programación lineal.

Mientras tanto, en la siguiente entrada hablaremos de algunos otros conceptos relativos a la teoría de problemas lineales y posibles propiedades que puede tener una asignación de variables. Diremos qué es una solución básica, una solución factible y un punto extremo para un problema lineal.

Tarea moral

  1. ¿Cuál sería la forma estándar del problema de maximizar x+y sujeto a xy8 y y0? ¿Y su forma canónica?
  2. Transforma el siguiente problema de programación lineal a su forma canónica y a su forma estándar:
    Maxz=2x1+3x22x3s.a.4x1x25x3=102x1+3x2+2x312x10,x2,x3irrestrictas.
  3. Revisa nuevamente las entradas anteriores y encuentra las formas canónicas y formas estándar de los problemas que hemos planteado hasta ahora.
  4. La forma estándar (o bien la forma canónica) de un programa lineal «es equivalente» al problema original. Justifica esta afirmación formalmente. Es decir, explica por qué una solución x1,,xn que optimiza el problema original está asociada a una solución de su forma estándar (o canónica) y viceversa.
  5. Imagina que tenemos un sistema de ecuaciones de la forma Ax=B con A matriz en Mm,n(R) y b vector en Rm. Queremos encontrar de todas las posibles soluciones al sistema aquella que minimiza la suma de las entradas de x. Plantea esto como un problema lineal y transfórmalo a su forma canónica y a su forma estándar.

Entradas relacionadas

Álgebra Lineal II: Adjunta de una transformación lineal

Por Ayax Calderón

Introducción

En esta tercera unidad estudiaremos algunos aspectos geométricos de transformaciones lineales. Para ello, lo primero que haremos será introducir la noción de la adjunta de una transformación lineal. Esto nos permitirá más adelante poder hablar de varias transformaciones especiales: normales, simétricas, antisimétricas, ortogonales. De entrada, las definiciones para cada uno de estos conceptos parecerán simplemente un juego algebraico. Sin embargo, poco a poco descubriremos que pidiendo a las transformaciones lineales cierta propiedad con respecto a su adjunta, podemos recuperar muchas propiedades geométricas bonitas que satisfacen.

Un ejemplo de esto serán las transformaciones ortogonales. Estas serán las transformaciones que, a grandes rasgos, no cambian la norma. Daremos un teorema de clasificación para este tipo de transformaciones: veremos que sólo son reflexiones o rotaciones en ciertos ejes. Después estudiaremos las transformaciones simétricas y veremos un resultado fantástico: el teorema espectral. Este teorema nos garantizará que toda transformación simétrica en R puede ser diagonalizada, y de hecho a través de una transformación ortogonal.

El párrafo anterior nos dice que las transformaciones ortogonales y las simétricas serán «fáciles de entender» en algún sentido. Esto parece limitado a unas familias muy particulares de transformaciones. Sin embargo, cerraremos la unidad con un teorema muy importante: el teorema de descomposición polar. Gracias a él lograremos entender lo que hace cualquier transformación lineal. Tenemos un camino muy interesante por recorrer. Comencemos entonces con la idea de la adjunta de una transformación lineal.

La adjunta de una transformación lineal

Sea V un espacio euclidiano y producto interior ,. Tomemos una transformación lineal T:VV. Para cada yV, la transformación xT(x),y es una forma lineal. Del teorema de representación de Riesz se sigue que existe un único vector T(y)V tal que
T(x),y=T(y),x=x,T(y)xV.

Esta asignación de este vector T es lineal, ya que al vector ry1+y2 para r escalar y y1,y2 en V se le asigna la forma lineal xT(x),ry1+y2=r(T(x),y1+(T(x),y2), que se puede verificar que le corresponde en la representación de Riesz el vector rT(y1)+T(y2).

De esta manera, podemos correctamente enunciar la siguiente definición.

Definición. Sea V un espacio euclidiano y producto interior ,. Sea T:VV una transformación lineal. Definimos a la adjunta de T, como la única transformación lineal T:VV que cumple la siguiente condición para todos x,y en V:

T(x),y=x,T(y)

Notemos que para cualesquiera x,yV tenemos que
y,T(x)=T(x),y=x,T(y)=T(y),x=y,(T)(x).

Restando el último término del primero, se sigue que T(x)(T)(x)=0, de manera que (T)=T, por lo cual simplemente escribiremos T=T.

Por lo tanto, la asignación TT es una transformación auto-inversa sobre V.

La matriz de la transformación adjunta

Tenemos que T=T. Esto debería recordarnos a la transposición de matrices. En efecto, en cierto sentido podemos pensar a la transformación T algo así como la transpuesta de la transformación (por lo menos en el caso real, para espacios sobre C será algo ligeramente distinto).

La siguiente proposición nos ayudará a reforzar esta intuición.

Proposición. Sea V un espacio euclidiano y producto interior , y T:VV una transformación lineal. Sea B=(e1,,en) una base otronormal de V. Se tiene que MatB(T)=tMatB(T).

En palabras, bajo una base ortonormal, la adjunta de una transformación tiene como matriz a la transpuesta de la transformación original.

Solución. Sea A=MatB(T) y B=[Bij] la matriz asociada a T con respecto a B. Para cada i{1,,n} se tiene
T(ei)=k=1nbkiek.

En vista de que T(ei)=k=1nakiek y de que la base B es ortonormal, se tiene que T(ei),ej=k=1nakiek,ej=aji y
ei,T(ej)=k=1nbkjei,ek=bij.

Como, por definición de transformación adjunta, se tiene que
T(ei),ej=ei,T(ej), entonces bij=aji para cada i,j en {1,,n}, que precisamente significa que B=tA.

◻

Ejemplos de encontrar una adjunción

La proposición de la sección anterior nos da una manera práctica de encontrar la adjunción para transformaciones lineales.

Ejemplo. Encontraremos la transformación adjunta a la transformación lineal T:R2R2 dada por T((x,y))=(yx,y+2x). Por la proposición de la sección anterior, basta expresar a T en una base ortonormal y transponer. Usemos la base canónica de R2. En esta base, la matriz que representa a T es (1121). Por ello, la matriz que representa a T es la transpuesta, es decir (1211). De este modo, concluimos que T((x,y))=(x+2y,x+y).

Podemos verificar que en efecto esta transformación satisface la definición de adjunción. Por un lado,

T((a,b)),(c,d)=(ba,b+2a)(c,d)=bcac+bd+2ad,

y por otro

(a,b),T((c,d))=(a,b)(c+2d,c+d)=ac+2ad+bc+bd.

Ambas expresiones en efecto son iguales.

Problema. Demuestra que una transformación lineal T en un espacio euclideano de dimensión finita y la adjunta T de T tienen el mismo determinante.

Solución. El determinante de una transformación es igual al determinante de cualquiera de las matrices que la represente. Así, si A es la forma matricial de T bajo una base ortonormal, se tiene que det(A)=det(T). Por la proposición de la sección anterior, tA es la forma matricial de T en esa misma base, de modo que det(tA)=det(T). Pero una matriz y su transpuesta tienen el mismo determinante, de modo que det(T)=det(tA)=det(A)=det(T).

◻

Más adelante…

La noción de transformación adjunta es nuestra primera noción fundamental para poder definir más adelante transformaciones que cumplen propiedades geométricas especiales. Con ella, en la siguiente entrada hablaremos de transformaciones simétricas, antisimétricas y normales.

Toma en cuenta que las definiciones que hemos dado hasta ahora son para espacios euclideanos, es decir, para el caso real. Cuando hablamos de espacios hermitianos, es decir, del caso complejo, los resultados cambian un poco. La transformación adjunta se define igual. Pero, por ejemplo, si la matriz que representa a una transformación es A, entonces la que representará a su adjunta no será la transpuesta, sino más bien la transpuesta conjugada.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más a profundidad la teoría vista.

  1. Encuentra la transformación adjunta para las siguientes tranformaciones lineales:
    • T:R2R2 dada por T(x,y)=(2yx,2x+y).
    • T:R3R3 dada por T(x,y,z)=(x+y+z,y+z,z).
    • T:RnRn tal que para la base canónica e1,,en cumple que T(ei)=ei+1 para i=1,,n1 y T(en)=0.
  2. Considera el espacio vectorial Mn(R). En este espacio, la operación transponer es una transformación lineal. ¿Cuál es su transformación adjunta?
  3. Completa los detalles de que T es en efecto una transformación lineal.
  4. Demuestra que si T es una transformación lineal sobre un espacio euclidiano y λ es un eigenvalor de T, entonces λ también es un eigenvalor de T. De manera más general, demuestra que T y T tienen el mismo polinomio característico.
  5. Sea V un espacio euclidiano y T:VV. ¿Es cierto que para todo polinomio p se cumple que p(T)=p(T)?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»