Archivo de la etiqueta: sistema de ecuaciones

Investigación de Operaciones: Soluciones básicas, factibles y no degeneradas (10)

Por Aldo Romero

Introducción

Ya hablamos de qué es la forma canónica y la forma estándar de un problema lineal. Como platicamos, esto nos permitirá llevar los problemas que nos interesan a ciertas formas especiales a las que podremos aplicarles algunos métodos más adelante. Lo que haremos ahora es comenzar a pensar en qué quiere decir resolver un problema lineal. Para ello, recordaremos de distintos tipos de soluciones que los problemas lineales pueden tener.

Tipos de soluciones y región de factibilidad

En esta sección recordaremos los conceptos de soluciones factibles, soluciones básicas factibles (degeneradas y no degeneradas) y de región de factibilidad.

Supongamos que tenemos un problema de programación lineal en su forma canónica:

Maxz=cxs.a.Axbx0,

donde usamos la misma notación que en la entrada anterior, pero donde tomaremos l variables de decisión. En particular, x,c son vectores en Rn, b es un vector en Rm y A es una matriz de entradas reales de m×n. Recuerda que en la expresión anterior entendemos 0 como el vector en Rn con entradas todas iguales a cero.

Este problema también tiene una forma estándar, en donde transformamos las desigualdades en igualdades introduciendo variables de sobra y de holgura.
Maxz=cxs.a.Ax=bx0,

en donde en hemos agregado nm variables de holgura al vector x, para obtener un vector x en Rn, así como nm columnas a A para volverla una matriz en de m×n, para agregar los coeficientes de las variables de holgura que hacen que se de la igualdad.

Como recordatorio, tenemos las siguientes definiciones para los tipos de soluciones del problema lineal.

Definición. Una solución factible al problema lineal en forma canónica dado anteriormente es un vector columna x=(x1x2xn) que satisface las restricciones Axb y x0. Esto se corresponde con una solución x al problema en forma estándar que satisface Ax=b y x0.

Definición. La región de factibilidad del problema lineal en forma canónica es el conjunto de todas las soluciones factibles.

De entre las soluciones factibles, hay algunas que son un poco más sencillas, en el sentido de que varias de sus entradas son iguales a cero pensadas como soluciones del problema en forma estándar. En las siguientes definiciones suponemos que el rango de la matriz A es exactamente igual a m.

Definición. Una solución básica factible es una solución factible x correspondiente a una solución x del problema en forma estándar con no más de m componentes positivas. En otras palabras, x tiene al menos nm entradas iguales a cero.

Definición. Una solución básica factible no degenerada es una solución factible x correspondiente a una solución x del problema en forma estándar con exactamente m componentes positivas. En otras palabras, x tiene exactamente nm entradas iguales a cero.

Definición. Una solución básica factible degenerada es una solución factible x correspondiente a uan solución x del problema en forma estándar con menos de m componentes positivas. En otras palabras, x tiene más de nm entradas iguales a cero.

La importancia de las soluciones básicas factibles y no degeneradas es que cumplen las siguientes:

  1. Se puede mostrar que si un problema de programación lineal tiene óptimo, entonces dicho óptimo se alcanza para alguna solución básica factible y no degenerada.
  2. Las soluciones básicas factibles y no degeneradas se pueden encontrar resolviendo sistemas de ecuaciones.
  3. Geométricamente, las soluciones básicas factibles y no degeneradas están en vértices de la región de factibilidad.

A continuación explicaremos algunos de estos puntos con un ejemplo detallado, que te ayudará a entender la intuición detrás de estas definiciones y de su importancia.

Ejemplos de región de factibilidad y tipos de solución

Consideremos el siguiente problema de programación lineal:

Max.z=2x1+3x2s.a.2x1+x24x1+2x25x1,x20.

Antes de comenzar a estudiar la región de factibilidad, debemos verificar que está en forma canónica. En efecto, todo está en orden: el problema es de maximización, las desigualdades son y a las variables de decisión se les pide ser no negativas.

La región de factibilidad es el conjunto de todos los (x1,x2) (en el plano R2) que cumplen las restricciones del problema, es decir, 2x1+x24, x1+2x25, x10 y x20. Para entender esto mejor, lo podemos pensar en cuatro regiones:

Región 1: La región x10, que queda a la derecha del eje y.

Región 2: La región x20, que queda arriba del eje x.

Región 3: La región 2x1+x24, que queda debajo de la recta 2x1+x2=4.

Región 4: La región x1+2x25, que queda por debajo de la recta x1+2x2=5.

Como queremos que (x1,x2) satisfaga todas las restricciones simultáneamente, necesitamos que esté en la intersección de todas las regiones. Así, la región de factibilidad es en la que se intersectan todas estas regiones que acabamos de dibujar. Al sobreponerlas, obtenemos la región encerrada en la siguiente figura:

Si gustas, puedes también explorar el interactivo de GeoGebra en donde se han coloreado los complementos de las regiones para más claridad. Puedes usar el cursor para mover la figura y las herramientas de lupa para hacer acercamientos y alejamientos.

La intuición que debemos tener ahora es que el máximo de la función objetivo 2x1+3x2 se tiene que alcanzar en alguno de los vértices del cuadrilátero que es la región factible. A grandes rasgos, estos vértices serán las soluciones básicas factibles y no degeneradas. Veamos dónde el álgebra nos dice esto.

Para ello, pensemos al problema en su forma estándar, tomando variables de holgura s1 y s2. Las restricciones que tienen las cuatro variables en conjunto son las siguientes.

2x1+x2+s1=4x1+2x2+s2=5x1,x2,s1,s20.

La matriz A es (21101201), que puedes verificar que tiene rango 2. Las soluciones básicas y no degeneradas corresponden a tener en ese sistema de ecuaciones exactamente m=2 variables positivas, de manera que necesitamos hacer exactamente nm=42=2 de estas variables iguales a cero. Al hacer esto, podemos resolver para las m=2 variables restantes. Por ejemplo, si establecemos x1=0 y x2=0, las ecuaciones se convierten en

s1=4s2=5x1,x2,s1,s20,

que tiene solución única (x1,x2,s1,s2)=(0,0,4,5). Así, la solución básica del problema en forma canónica es (x1,x2)=(0,0). Hay que recordar dar la solución básica ya sólo para las variables originales, es decir, las del problema en forma canónica.

Esta solución corresponde al punto C del interactivo de GeoGebra. Se puede determinar otra solución básica fijando s1=0 y s2=0, donde el sistema sería ahora

2x1+x2=4x1+2x2=5x1,x2,s1,s20,

y tras resolver las dos ecuaciones, la solución básica que se obtiene es (x1,x2)=(1,2), que es el punto A del interactivo de GeoGebra.

Podemos seguir haciendo esto. Si consideramos todas las posibilidades en las que dos variables son cero y resolvemos las ecuaciones resultantes, eso nos dará puntos (x1,x2) en el plano. La solución óptima es la solución básica factible (punto de esquina) con el mejor valor objetivo.

En este ejemplo tenemos (42)=4!2!2!=6 formas de volver dos de las n variables iguales a cero. Ya para las variables x1 y x2, los puntos que obtenemos son los puntos A, B, C, D que son vértices de la región de factibilidad. Los puntos E y F del interactivo también son puntos básicos y no degenerados (son las otras dos intersecciones de las rectas que dibujamos), pero como no satisfacen la condición de factibilidad del problema, entonces no los podemos considerar y por lo tanto no son candidatos a dar el valor óptimo.

La siguiente tabla muestra todas las soluciones básicas y no básicas de este ejemplo:

Variables no básicas (cero)Variables básicasSolución para (x1,x2)Punto de esquina asociado¿Factible?Valor objetivo z
(x1,s1)(s1,s2)(0,0)C0
(x1,s1)(x2,s2)(0,4)ENo___
(x1,s2)(x2,s1)(0,2.5)D7.5
(x2,s1)(x1,s2)(2,0)B4
(x2,s2)(x1,s1)(5,0)FNo___
(s1,s2)(x1,x2)(1,2)A8 (óptimo)

Más adelante…

Notemos que a medida que el tamaño del problema se incrementa, enumerar todos los puntos esquina se volverá una tarea que tomaría mucho tiempo. Por ejemplo, si tuviéramos 20 variables (ya con las de holgura) y 10 restricciones, es necesario resolver considerar (2010)=184756 formas de crear ecuaciones de 10×10, y resolver cada una de ellas. Aunque esto es finito, son demasiadas operaciones. Y este en la práctica incluso es un ejemplo pequeño, ya que en la vida real hay problemas lineales que pueden incluir miles de variables y restricciones.

Por ello, se vuelve cruciar encontrar un método que atenúe esta carga computacional en forma drástica, que permita investigar sólo un subconjunto de todas las posibles soluciones factibles básicas no degeneradas (vértices de la región de factibilidad), pero que garantice encontrar el óptimo. Una idea intuitiva que debería servir es comenzar en un vértice y «avanzar en una dirección que mejore la función objetivo». Esto precisamente es la intuición detrás del método simplex, que repasaremos a continuación.

Tarea moral

  1. Considera el siguiente problema lineal en su forma canónica:

Maxz=2x1+3x2s.a.x1+3x263x1+2x26x1,x20.

Sigue los pasos descritos arriba para encontrar todas sus soluciones básicas factibles y no degeneradas. Usa ello para encontrar el óptimo del problema.

  1. Actualiza las restricciones en el interactivo de GeoGebra que se compartió en la entrada para visualizar este problema y confirmar tus cuentas del ejercicio anterior. Para ello, deberás ir al apartado «Álgebra» del interactivo y modificar los objetos a y b.
  2. Considera un problema de optimización lineal en dos variables x y y, en forma canónica y con m restricciones (desigualdades), además de las restricciones x0 y y0. Explica por qué la región de factibilidad siempre es un polígono con a lo más m+2 lados, y por qué entonces basta evaluar la función objetivo en a lo más m+2 puntos para encontrar su máximo.
  3. ¿Cómo se vería la región de factibilidad de un problema de optimización lineal de maximización que no tenga máximo? Explica todas las posibilidades y da ejemplos.
  4. Intenta usar las ideas de esta entrada para resolver los problemas de optimización lineal clásicos que hemos descrito en entradas anteriores.

Entradas relacionadas

Cálculo Diferencial e Integral III: Teorema de la función implícita y demostración

Por Alejandro Antonio Estrada Franco

Introducción

En esta parte del curso estamos abordando los resultados principales de campos vectoriales y su diferenciabilidad. Hemos hablado de cómo la derivada de una composición se calcula con regla de la cadena. También, enunciamos el teorema de la función inversa, lo demostramos, y vimos un ejemplo de cómo se usa. Ahora pasaremos a otro de los resultados fundamentales en el tema: el teorema de la función implícita. Vamos a motivarlo a partir del problema de resolver sistemas de ecuaciones no lineales. Luego, lo enunciaremos formalmente y lo demostraremos. La discusión y los ejemplos los dejaremos para la siguiente entrada.

Una motivación: resolver sistemas de ecuaciones no lineales

Con lo que repasamos sobre sistemas de ecuaciones lineales, y con lo que se ve en un curso de Álgebra Lineal I, se puede entender completamente cómo resolver sistemas de eccuaciones lineales. Recordemos un poco de esto. Tomemos el siguiente sistema de ecuaciones lineales en las variables x1,,xn:

{a11x1+a12x2++a1nxn=b1a21x1+a22x2++a2nxn=b2am1x1+am2x2++amnxn=bm.

Para resolverlo, se podría utilizar el proceso de reducción gaussiana. Tras hacer esto, podíamos clasificar a las variables en libres (que podían valer lo que sea) y pivote (que dependían afinmente de las libres). Esto daba todas las soluciones. Si, por decir algo, las variables pivote son x1,x2,,xm y las libre son xm+1,,xn, entonces podemos reescribir lo anterior de la siguiente manera: «podemos despejar a las primeras en función de las segundas», algo así como

x1=T1(xm+1,,xn)x2=T2(xm+1,,xn)xm=Tm(xm+1,,xn).

Elegimos a xm+1,,xn como queramos. De ahí x1,,xm quedan definidos afinmente con las T1,,Tm. Y esto da todas las soluciones. Pero, ¿qué sucedería si tenemos un sistema de ecuaciones mucho más general?

Para plantear esto, imaginemos que ahora tenemos cualesquiera funciones f1,,fm:RnR y que queremos encontrar todas las soluciones x1,,xn al siguiente sistema de ecuaciones:

(1){f1(x1,,xn)=0fm(x1,,xn)=0.

Esto es tan general como pudiéramos esperar. A la izquierda hay ceros, pero es porque si hubiera otras cosas, podríamos pasarlas a la izquierda para dejar ceros a la derecha.

Este sistema (1) parece imposible de resolver: no tenemos idea de quiénes son las funciones f1,,fn, no hay reducción gaussiana, no hay variables libres, etc. Pero imaginemos que el campo vectorial (f1,,fm) es de clase C1 alrededor de algún punto v¯0=(x10,,xn0) en donde queremos despejar. Esto nos diría que cerca de v¯0 cada expresión fi(v¯) con v¯=(x1,,xn) se parece muchísimo a su mejor aproximación lineal:

fi(v¯0)+fi(v¯0)(v¯v¯0)

donde, tenemos:
fi(v¯0)+fi(v¯0)(v¯v¯0)=fi(v¯0)+(fix1(v¯0),,fixn(v¯0))(x1x10,,xnxn0)=fi(v¯0)+j=1nfixj(v¯0)(xjxj0)=fi(v¯0)+j=1nfixj(v¯0)xjj=1nfixj(v¯0)xj0=fi(v¯0)(v¯)+fi(v¯0)j=1nfixj(v¯0)xj0=fi(v¯0)(v¯)+b¯i,

donde b¯i=fi(v¯0)j=1nfixj(v¯0)xj0. Pero entonces el sistema es prácticamente el mismo sistema que

(2){f1x1(v¯0)x1++f1xn(v¯0)xn+b1=0f2x1(v¯0)x1++f2xn(v¯0)xn+b2=0fmx1(v¯0)x1++fmxn(v¯0)xn+bm=0

Esto se ve un poco complicado, pero cada fixj(v¯0)xj es simplemente un número real. ¡Cerquita de v¯0 el sistema de ecuaciones (1) es prácticamente un sistema lineal! Sería entonces de esperarse que las soluciones el sistema (1) original sean muy cercanas a las del sistema lineal (2) que sale y de nuevo recuperamos los trucos usuales: reducción gaussiana, variables libres, variables pivote, etc.

Pensando en que en el sistema (2) las variables pivote son x1,,xm y las libres son xm+1,,xn, entonces podemos encontrar transformaciones afines T1,,Tm:RnR tales que las soluiones de (2) consisten en elegir xm+1,,xn arbitrariamente, y tomar

x1=T1(xm+1,,xn)x2=T2(xm+1,,xn)xm=Tm(xm+1,,xn).

Muy probablemente (x1,,xn) no será una solución de (1), pues son sistemas diferentes entre sí. Pero suena a que son tan tan cercanos, que con tantita maniobra podremos encontrar funciones S1,,Sm:RnR tales que cualquier solución a (1) similarmente está dada por elegir xm+1,,xn arbitrariamente y tomar

x1=S1(xm+1,,xn)x2=S2(xm+1,,xn)xm=Sm(xm+1,,xn).

Gracias a que pudimos poner a todos los x1,xm en función de los xm+1,,xn, hemos logrado encontrar todas las soluciones a (1) cerca de v¯0. El teorema de la función inversa nos ayuda a volver precisas muchas de las cosas discutidas en esta sección.

Enunciado del teorema de la función implícita

Pensemos que tenemos algunas restricciones dadas por ecuaciones como las del sistema (1). Lo que el teorema de la función implícita nos dirá es que bajo suficiente regularidad y algunas condiciones de invertibilidad, en una vecindad de un punto v¯0 las incógnitas x1,,xm se pueden poner en función de las incógnitas xm+1,,xn, es decir, que se puede despejar como lo mencionamos al final de la sección anterior. El enunciado es el siguiente.

Teorema (de la función implícita). Sea f:SRm×RlRm un campo vectorial de clase C1 en S con funciones componentes fi:SRm×RlR, para i=1,,m.

Pensemos en el conjunto A de soluciones (y1,,ym,x1,,xl) del siguiente sistema de ecuaciones:

(3){f1(y1,,ym,x1,,xl)=0fm(y1,,ym,x1,,xl)=0.

Supongamos además que para el punto (y¯0,x¯0)=(y10,,ym0,x10,,xl0)SA la matriz

(f1y1(y¯0,x¯0)fiym(y¯0,x¯0)fmy1(y¯0,x¯0)fmym(y¯0,x¯0))

es invertible. Entonces existen abiertos VRm y URl con y¯0V, x¯0U, para los cuales hay una única función h:UV de clase C1 en V, tal que f(y¯,x¯)=0¯ si y sólo si y¯=h(x¯).

Sólo para aclarar algunas diferencias con lo discutido anteriormente, aquí ya estamos separando en lo que esperaremos que serán las variables libres x1,,xm y las variables pivote y1,,yl. Estamos además estudiando el caso en el que tenemos tantas variables libres como ecuaciones, pues este caso es fácil de enunciar en términos de la invertibilidad de una matriz. El caso más general se trata con reducción gaussiana como platicamos en la sección anterior. La igualdad y¯=h(x¯) es lo que entendemos como «despejar» a los yi’s en función de los xj’s.

Demostración del teorema de la función implícita

Veamos la demostración del teorema.

Demostración. Definamos F:SRm×RlRm×Rl como F(y¯,x¯)=(f(y¯,x¯),x¯). Dado que f es de clase C1, se tendrá que F también (explica esto como tarea moral).

Notemos que

F(y¯0,x¯0)=(f(y¯0,x¯0),x¯0)=(0¯,x¯0).

Por otro lado, notemos que la matriz jacobiana de F en (y¯0,x¯0) es

[f1y¯1(y¯0,x¯0)f1ym(y¯0,x¯0)f1x1(y¯0,x¯0)f1xl(y¯0,x¯0)fmy1(y¯0,x¯0)fmym(y¯0,x¯0)fmx1(y¯0,x¯0)fmyl(y¯0,x¯0)00100001]

esta matriz además es invertible (también tendrás que explicar ambas cosas de tarea moral).

La idea clave es que entonces podemos usar el teorema de la función inversa en F. Aplícandolo en este contexto, obtenemos que existe δ>0 tal que F es inyectiva en una bola Bδ(y¯0,x¯0)S. Nos dice también que F(Bδ(y¯0,x¯0)) es un conjunto abierto, y que F1:F(Bδ(y¯0,x¯0))Rm×RlRm×Rl es de clase C1 en F(Bδ(y¯0,x¯0)). También dice algo de quién es la derivada explícitamente, pero eso no lo necesitaremos por ahora (de tarea moral tendrás que pensar qué nos dice esto).

Como F manda (y¯0,x¯0) a (0¯,x¯0) y F(Bδ(y¯0,x¯0)) es un abierto, entonces hay una bola abierta W alrededor de (0¯,x¯0) contenida en F(Bδ(y¯0,x¯0)). El conjunto U que propondremos será el abierto que se obtiene al intersectar W con el espacio en donde la coordenada correspondiente a f(y¯,x¯) es cero. En otras palabras, U es un abierto y consiste de x¯ para los cuales existe un y¯ tal que F(y¯,x¯)=(0¯,x¯) (es decir, f(y¯,x¯)=0¯).

Tomemos ahora un x¯U. Afirmamos que hay sólo un y¯ tal que (y¯,x¯)Bδ(y¯0,x¯0) y f(y¯,x¯)=0¯. Si hubiera y¯ y y¯ que satisfacen eso, tendríamos

F(y¯,x¯)=(f(y¯,x¯),x¯)=(0¯,x¯)=(f(y¯,x¯),x¯)=F(y¯,x¯),

que por la inyectividad de F implica y¯=y¯. De hecho, dicho único y¯ está en función de F1, que es de clase C1 de modo que el conjunto de los y¯ asignados a los x¯ en U es un abierto V.

Así, podemos definir h:UV de la siguiente manera: h(x¯)=y¯, donde y¯ es el único elemento para el cual f(y¯,x¯)=0¯ y (y¯,x¯)Bδ(y¯0,x¯0). De la discusión desarrollada, h está bien definida y cumple con las propiedades buscadas.

Por último probemos que h es de clase C1 en U. Como F1 esta definida y, además es de clase C1 sobre el conjunto F(Bδ(x¯0,y¯0)), si escribimos que F1=((F1)1,,(F1)m), bastaría con demostrar:

h(x¯)=((F1)1(0¯,x¯),,(F1)m(0¯,x¯))

para cada x¯V. Esto se hace como sigue:

(h(x¯),x¯)=F1(F(h(x¯),x¯))=F1(0¯,x¯)=((F1)1(0¯,x¯),,(F1)m(0¯,x¯),(F1)m+1(0¯,x¯),,(F1)m+l(0¯,x¯)).

Así queda terminada de la demostración de este importante teorema.

◻

Algunas reflexiones finales

Si quisiéramos usar de manera práctica la demostración para encontrar la función implícita h, necesitaríamos calcular la inversa F1. Sin embargo, las técnicas que tenemos hasta ahora no nos permiten hacer eso tan fácilmente. La versión del teorema de la función inversa que tenemos nos dice que hay una inversa, pero no nos dice quién es. La mayoría de las veces dar esta inversa es muy difícil, por no decir imposible.

Aunque esto parezca algo negativo, de cualquier forma tenemos un resultado muy importante. En algunos casos, sí podremos dar la función inversa con relativa facilidad. Y en otros contextos, aunque no podamos dar la inversa explícitamente, sí tendremos una base teórica robusta para demostrar otros resultados. El teorema de la función implícita es una palanca importante para otros resultados que brindan mucha luz acerca del comportamiento de los campos vectoriales.

Mas adelante

La demostración y el desarrollo teórico tanto del teorema de la función inversa, como el de la función implícita, son muy técnicos. Dejaremos los aspectos técnicos hasta aquí y en la siguiente entrada procesaremos mejor lo que quiere decir este teorema hablando de varios ejemplos, y también de sus consecuencias.

Tarea moral

  1. Considérese la función T:R3R2 dada por T(x,y,z)=(x+z,y+x) aplica el teorema de la función implícita para obtener una función h:RR2 tal que (h(a¯),a¯) es solución de la ecuación T(x,y,z)=(0,0).
  2. Explica con detalle por qué la función F de la demostración del teorema de la función implícita es de clase C1.
  3. Verifica que en efecto DF(y¯0,x¯0) es la expresión dada en la demostración del teorema. Además, justifica por qué es invertible.
  4. Justifica con detalle por qué los conjuntos U y V de la demostración en efecto son conjuntos abiertos.
  5. El teorema de la función inversa también nos dice quién es la derivada de la inversa. ¿Eso qué quiere decir en el contexto del teorema de la función implícita?

Entradas relacionadas

Álgebra Lineal II: Unicidad de la forma de Jordan para nilpotentes

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la entrada anterior enunciamos el teorema de la forma canónica de Jordan para matrices nilpotentes. Demostramos una parte: la existencia de la forma canónica de Jordan. Para ello, nos enfocamos en el teorema en su versión en términos de transformaciones lineales. En esta entrada nos enfocaremos en demostrar la unicidad de la forma canónica de Jordan. Curiosamente, en este caso será un poco más cómodo trabajar con la forma matricial del teorema. Para recordar lo que queremos probar, volvemos a poner el enunciado del teorema a continuación. Lo que buscamos es ver que los enteros k1,,kd que menciona el teorema son únicos.

Teorema. Sea A una matriz nilpotente en Mn(F). Entonces existen únicos enteros k1,,kd tales que k1+k2++kd=n,k1k2kd, y para los cuales A es similar a la siguiente matriz de bloques: (J0,k1000J0,k2000J0,kd).

Nuestra estrategia para mostrar la unicidad será el estudio del rango de las potencias de A. Si A es similar una matriz en forma canónica J, entonces existe P invertible tal que A=P1JP, de donde se puede mostrar indutivamente que Ak=P1JkP, mostrando que Ak y Jk son similares. Además, sabemos por teoría anterior que matrices similares tienen el mismo rango. De modo que si A es similar a J entonces todas las potencias de A tienen el mismo rango que todas las potencias de J. Con esta idea en mente estudiaremos cómo es el rango de matrices de bloques de Jordan de eigenvalor cero.

Rango de potencias de bloques de Jordan

Claramente el rango del bloque de Jordan J0,n es n1, pues ya está en forma escalonada reducida y tiene n1 vectores distintos de cero. El siguiente resultado generaliza esta observación.

Proposición. Sea n un entero positivo, F un campo y J0,n el bloque de Jordan de eigenvalor 0 y tamaño n en Mn(F). Para k=1,,n se tiene que el rango de J0,nk es igual a nk. Para valores de k más grandes, el rango es igual a cero.

Demostración. Si e1,,en es la base canónica de Fn, tenemos que J0,nei=ei1 para i=2,,n y J0,ne1=0. De manera intuitiva, la multiplicación matricial por J0,n va «desplazando los elementos de la base e1,,en a la izquierda, hasta sacarlos». De este modo, J0,nk para k=1,,n hace lo siguiente:

J0,nkei={0para kieikpara ki1.

Así, J0,nk manda a la base e1,,en a los vectores e1,,enk y a k copias del vector cero. Como los primeros son nk vectores linealmente independientes, obtenemos que el rango de J0,nk es nk.

Para valores de k más grandes la potencia se hace la matriz cero, así que su rango es cero.

◻

Rango de potencias de matrices de bloques de Jordan

¿Qué sucede si ahora estudiamos el rango de las potencias de una matriz de bloques de Jordan? Consideremos, por ejemplo, la siguiente matriz, en donde k1,,kd son enteros positivos de suma n y con k1kd:

J=(J0,k1000J0,k2000J0,kd).

Por un lado, es sencillo elevar esta matriz a potencias, pues simplemente los bloques se elevan a las potencias correspondientes. En símbolos:

Jr=(J0,k1r000J0,k2r000J0,kdr).

¿Cuál es el rango de esta potencia? Nos conviene cambiar un poco de notación. En vez de considerar a los ki por separado, los agruparemos de acuerdo a su valor, que puede ir de 1 a n. Así, para cada j=1,,n definimos mj como la cantidad de valores ki iguales a j. Bajo esta notación, la igualdad k1++kd=n se puede reescribir como m1+2m2+3m3++nmn=n.

Una primera observación es que el rango de J es simplemente la suma de los rangos de cada una de las J0,ki. Cada una de éstas contribuye con rango ki1. Así, en términos de las mj tenemos lo siguiente:

rango(J)=i=1d(ki1)=j=1n(j1)mj=0m1+1m2+2m3++(n1)mn.

De manera similar,

rango(Jr)=i=1drango(J0,kir)=j=1nmjrango(J0,jr).

El término rango(J0,jr) lo podemos calcular con la proposición de la sección anterior, cuidando la restricción entre el tamaño y las potencias que queremos. De aquí y de la restricción original para la las mj salen todas las siguientes igualdades:

n=1m1+2m2+3m3++nmnrango(J)=0m1+1m2+2m3++(n1)mnrango(J2)=0m1+0m2+1m3++(n2)mnrango(J3)=0m1+0m2+0m3++(n3)mnrango(Jn1)=0m1+0m2+0m3++1mn.

A partir de aquí el rango de Jn es 0. Esto nos da una manera de entender con mucha precisión el rango de cualquier potencia de una matriz diagonal por bloques hecha con bloques de Jordan.

Unicidad de la forma canónica de Jordan

Estamos listos para justificar la unicidad de la forma canónica de Jordan. Una matriz diagonal por bloques hecha por bloques de Jordan queda totalmente determinada por los valores de mj de la sección anterior. Supongamos que A tiene como forma canónica de Jordan tanto a una matriz J con valores mj, como a otra matriz J con valores mj.

Como dos matrices similares cumplen que sus potencias son todas del mismo rango, entonces para cualquier r de 1 a n1 se cumple que rango(Jr)=rango(Ar)=rango(Jr). Así, tanto (m1,,mn) como (m1,,mn) son soluciones al siguiente sistema de ecuaciones en variables x1,,xn.

n=1x1+2x2+3x3++nxnrango(A)=0x1+1x2+2x3++(n1)xnrango(A2)=0x1+0x2+1x3++(n2)xnrango(A3)=0x1+0x2+0x3++(n3)xnrango(An1)=0x1+0x2+0x3++1xn.

Pero este es un sistema de n ecuaciones en n variables y con matriz asociada de determinante 1, así que su solución es única. Esto muestra que (m1,,mn)=(m1,,mn). Entonces, en J y J aparecen la misma cantidad de bloques de cada tamaño. Como además los bloques van de tamaño menor a mayor tanto en J como en J, concluimos que J=J.

Como consecuencia de toda esta discusión, obtenemos de hecho lo siguiente.

Corolario. Dos matrices nilpotentes son semejantes si y sólo si tienen la misma forma canónica de Jordan. Distintas formas canónicas de Jordan dan distintas clases de semejanza.

Una receta para encontrar la forma canónica de Jordan de nilpotentes

La demostración anterior no sólo demuestra la unicidad de la forma canónica de Jordan. Además, nos dice exactamente cómo obtenerla. Para ello:

  1. Calculamos todas las potencias de A hasta n1.
  2. Usando reducción gaussiana (o de otro modo), calculamos el rango de cada una de estas potencias.
  3. Resolvemos el sistema de ecuaciones en variables xj de la sección anterior.
  4. La forma canónica de Jordan de A tiene xj bloques de tamaño j, que debemos colocar en orden creciente de tamaño.

Ejemplo. Consideremos la siguiente matriz en M7(R): C=(2726613713512553217156311833125110203612361784188161512123458511102512282980159113311498878690232197140988191151952348230160517910013161031440)

Sus números son muy complicados, sin embargo, nos podemos auxiliar de herramientas computacionales para encontrar sus potencias. Soprendentemente esta es una matriz nilpotente de índice 3 pues:

C2=(0102093403680668061020900146914897979497941469100273991318261826273900722124074814481472210014193473194629462141930010956365273047304109560011952398479687968119520)

y

C3=(0000000000000000000000000000000000000000000000000).

Usando reducción gaussiana, o herramientas computacionales, obtenemos que el rango de C es 4 y que el rango de C2 es 2. A partir de k3 obtenemos que rango(Ck)=rango(O7)=0. Si queremos encontrar la forma canónica de Jordan de C, necesitamos entonces resolver el siguiente sistema de ecuaciones, que nos dirá cuántos bloques xj de tamaño j hay:

7=x1+2x2+3x3+4x4+5x5+6x6+7x74=x2+2x3+3x4+4x5+5x6+6x72=x3+2x4+3x5+4x6+5x70=x4+2x5+3x6+4x70=x5+2x6+3x70=x6+2x70=x7

Para resolverlo lo mejor es proceder «de abajo hacia arriba». Las últimas cuatro ecuaciones nos dicen que x7=x6=x5=x4=0. Así, el sistema queda un poco más simple, como:

7=x1+2x2+3x34=x2+2x32=x3.

De la última igualdad, tenemos x3=2, lo que nos dice que la forma canónica de Jordan tendría dos bloques de tamaño 3. Sustituyendo en la penúltima igualdad obtenemos que 4=x2+4, de donde x2=0. Así, no tendremos ningún bloque de tamaño 2. Finalmente, sustituyendo ambos valores en la primera igualdad obtenemos que 7=x1+0+6. De aquí obtenemos x1=1, así que la forma canónica de Jordan tendrá un bloque de tamaño 1. En resumen, la forma canónica de Jordan es la matriz (J0,1000J0,3000J0,3). Explícitamente, ésta es la siguiente matriz:

(0000000001000000010000000000000001000000010000000).

Para verla un poco más «como de bloques» la podemos reescribir de la siguiente manera:

(0000000001000000010000000000000001000000010000000).

Más adelante…

Hemos demostrado la existencia y unicidad de la forma canónica de Jordan para matrices nilpotentes. Este es un resultado interesante por sí mismo. Sin embargo, también es un paso intermedio para un resultado más general. En las siguientes entradas hablaremos de una versión más general del teorema de Jordan, para matrices tales que su polinomio característico se descomponga totalmente en el campo en el que estemos trabajando.

Tarea moral

  1. Considera la siguiente matriz: M=(11111111111133337777).
    1. Muestra que M es una matriz nilpotente y determina su índice.
    2. ¿Cuál es la forma canónica de Jordan de M?
  2. Describe las posibles formas canónicas de Jordan para una matriz nilpotente AM5(F) de índice 2.
  3. Describe las posibles formas canónicas de Jordan para una matriz nilpotente AM7(F) de rango 5.
  4. Encuentra de manera explícita la inversa de la siguiente matriz en Mn(R) y usa esto para dar de manera explícita la solución al sistema de ecuación en las variables xi que aparece en la entrada: (123n1n012n2n1001n3n20001200001).
  5. Sea A una matriz nilpotente en Mn(R). Muestra que las matrices A y 5A son similares entre sí.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal I: Más ejemplos de reducción gaussiana

Por Ayax Calderón

Introducción

En esta entrada veremos varios ejemplos que nos ayudarán a comprender que la reducción gaussiana es una herramienta muy poderosa a la hora de resolver sistemas de ecuaciones lineales.

Problemas resueltos

Problema 1. Implementa el algoritmo de reducción gaussiana en la matriz
A=(02112110213110211111)

Solución. Para este problema usaremos la siguiente notación para indicar las operaciones elementales que estamos efectuando :

  • RiRj para intercambiar el renglón i con el renglón j.
  • kRi para multiplicar el renglón i por el escalar k.
  • Ri+kRj para sumarle k veces el renglón j al renglón i.


A=(02112110213110211111)R1R2(11021021123110211111)R4R1(11021021123110200110)R3+3R1(11021021120416500110)12R2(1102101121210416500110)R34R2(1102101121210014100110)
R1R2(101232001121210014100110)1R3(101232001121210014100110)R4R3(101232001121210014100031)R212R3(101232001052320014100031)R1+12R3(100121201052320014100031)
13R4(1001212010523200141000113)R3+4R4(10012120105232001013000113)R252R4(1001212010023001013000113)R1+12R4(100013010023001013000113)=Ared

Problema 2. Resuelve el siguiente sistema homogéneo.
{x+2y3z=02x+5y+2z=03xy4z=0

Solución. La matriz asociada al sistema anterior es
(123252314)
Para resolver el sistema AX=0 nos bastará con encontrar Ared, pues el sistema AredX=0 es equivalente al sistema AX=0.
(123252314)R22R1(123018314)R33R1(123018075)R12R2(1019018075)R3+7R2(10190180061)R2861R3(10190100061)R1+1961R3(1000100061)161R3(100010001)=Ared

De lo anterior se sigue que para resolver el sistema AX=0 basta con resolver el sistema
(100010001)(xyz)=(000).
Pero este sistema es el sistema

{x=0y=0z=0.

De esta forma, x=y=z=0 es la (única) solución al sistema original.

Problema 3. Determina las soluciones fundamentales del sistema homogéneo AX=0, donde A es la matriz
A=(121024021212).

Solución. Sea AX=0 el sistema
(121024021212)(xyzw)=(000)

Para este problema nuevamente nos interesa llevar la matriz asociada al sistema a su forma escalonada reducida.

Aunque es muy importante saber cómo se hacen estos procedimientos, es cierto que también existen herramientas que nos ayudan a hacer estos cálculos de manera más rápida. En esta ocasión usaremos una calculadora de forma reducida escalonada disponible en línea, la cual nos indica que la forma escalonada reducida de la matriz A es
Ared=(120100110000).

De esta forma, el sistema del problema es equivalente al sistema AredX=0
(120100110000)(xyzw)=(000)
Las variables pivote son x y z. Las variables libres son y y w.

Como se mencionó en una entrada anterior, para encontrar las soluciones fundamentales hay que expresar a las variables pivote en términos de las variables libres. En el sistema anterior podemos notar que
{x=2y+wz=w.
por lo que
(xyzw)=(2y+wyww)=y(2100)+w(1011)
siendo los vectores columna de la última igualdad las soluciones fundamentales del sistema AX=0, es decir que con estas soluciones se pueden generar todas las demás.

Hasta ahora hemos visto ejemplos de reducción gaussiana de matrices de tamaño muy concreto y entradas muy concretas. Sin embargo, otra habilidad importante es aprender a usar reducción gaussiana en una matriz de tamaño arbitrario, con algunas entradas específicas. Veamos un ejemplo de cómo hacer esto.

Problema 4. Sea n>2 un número entero. Resuelve en números reales el sistema
x2=x1+x32,x3=x2+x42,,,xn1=xn2+xn2.

Solución. Este es un sistema lineal homogéneo de ecuaciones. Esto se puede verificar multiplicando cada ecuación por 2 e igualándola a 0. Por ejemplo, la primer ecuación se puede escribir como x12x2+x3=0. Transformando el resto de las ecuaciones, obtenemos que el sistema se puede escribir en forma matricial como AX=0, dondeA es la matriz en Mn2,n(F) dada por
(121000000121000000121000000120000000021000000121).

Esta matriz se ve algo intimidante, pero igual se le puede aplicar reducción gaussiana. Hagamos esto.

Afortunadamente, en cada fila ya tenemos un pivote y están «escalonados». Basta con hacer transvecciones para asegurar que en cada columna de un pivote, el pivote es la única entrada no cero. Haremos los primeros pasos para encontrar un patrón de qué va sucediendo.

En el primer paso, sumamos dos veces la fila 2 a la primer fila. Al hacer esto obtenemos:

(103200000121000000121000000120000000021000000121).

Con esto la segunda columna ya queda lista. El el siguiente paso, multiplicamos por 3 (y 2) la tercer fila y se lo sumamos a la primera fila (y segunda, respectivamente). Obtenemos:

(100430000103200000121000000120000000021000000121).

Para el siguiente paso, ahora hay que multiplicar por 4 (3, 2) la cuarta fila y sumárselo a la primera (segunda, tercera, respectivamente), y obtenemos:

(100054000010043000001032000000121000000000210000000121).

El patrón es ahora claro. Conforme arreglamos la columna j, luego la columna j+1 tiene a los números (j+1),j,,3,2 y la columna j+2 tiene a los números j,j1,j2,,1,2,1. Esto puede demostrarse formalmente por inducción. Al arreglar la columna n2, la matriz queda en la siguiente forma escalonada reducida:

(100000(n1)n2010000(n2)n3001000(n3)n4000100(n4)n50000003200000121).

Estamos listos para resolver el sistema asociado. Las variables libres son xn1 y xn, que podemos darles valores arbitrarios a y b. Las variables pivote son todas las demás, y de acuerdo a la forma de la matriz anterior, están dadas por

x1=(n1)a(n2)bx2=(n2)a(n3)bx3=(n3)a(n4)bxn2=2ab.

Esto determina todas las soluciones.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Lineal I: Determinantes en sistemas de ecuaciones lineales y regla de Cramer

Por Leonardo Ignacio Martínez Sandoval

Introducción

Con la teoría que hemos desarrollado acerca de espacios vectoriales, de determinantes y con las herramientas que hemos adquirido para calcularlos, podemos volver a visitar el tema de sistemas de ecuaciones lineales y verlo desde una perspectiva más completa. Los determinantes en sistemas de ecuaciones lineales nos sirven para varias cosas.

Por un lado, sirven para encontrar el rango de una matriz. El rango está relacionado con la dimensión del espacio de soluciones a un sistema lineal de ecuaciones. Esto es parte del contenido del importante teorema de Rouché-Capelli que enunciaremos y demostraremos.

Por otro lado, cuando tenemos sistemas lineales con matriz asociada cuadrada e invertible, podemos usar determinantes para encontrar las soluciones. A esto se le conoce como las fórmulas de Cramer o la regla de Cramer. También enunciaremos y demostraremos esto. La regla de Cramer es parcialmente útil en términos prácticos, pues para sistemas concretos conviene más usar reducción gaussiana. Sin embargo, es muy importante en términos teóricos, cuando se quieren probar propiedades de las soluciones a un sistema de ecuaciones.

Rango de una matriz y determinantes

Recuerda que el rango de una matriz A en Mm,n(F) es, por definición, la dimensión del espacio vectorial que es la imagen de la transformación XAX de FnFm. Anteriormente, mostramos que esto coincide con la dimensión del espacio vectorial generado por los vectores columna de A. Como el rango de una matriz coincide con su transpuesta, entonces también es la dimensión del espacio vectorial generado por los vectores fila de A.

Lo que veremos ahora es que podemos determinar el rango de una matriz A calculando algunos determinantes de matrices pequeñas asociadas a A. Una submatriz de A es una matriz que se obtiene de eliminar algunas filas o columnas de A.

Teorema. Sea A una matriz en Mm,n(F). El rango de A es igual al tamaño de la submatriz cuadrada más grande de A que sea invertible.

Demostración. Llamemos C1,,Cn a las columnas de A. Sabemos que r=dimspan(C1,,Cn).

Mostraremos primero que hay una submatriz cuadrada de tamaño r. Por el lema de Steinitz, podemos escoger r enteros 1i1<<irn tal que las columnas Ci1,,Cir de A cumplen span(C1,,Cn)=span(Ci1,,Cir). Así, la matriz B hecha por columnas Ci1,,Cir está en Mm,r(F) y es de rango r.

Ahora podemos calcular el rango de B por filas. Si F1,,Fm son las filas de B, tenemos que r=dimspan(F1,,Fm). De nuevo, por el lema de Steinitz, existen enteros 1j1<<jrm tales que span(F1,,Fm)=span(Fi1,,Fir). De esta forma, la matriz C hecha por las filas Fj1,,Fjr está en Mr(F) y es de rango r. Por lo tanto, C es una matriz cuadrada de tamaño r y es invertible.

Esta matriz C es una submatriz de A pues se obtiene al eliminar de A todas las columnas en posiciones distintas a i1,,ir y todas las filas en posiciones distintas a j1,,jr. Esto muestra una parte de lo que queremos.

Ahora mostraremos que si B es una submatriz de A cuadrada e invertible de tamaño d, entonces dr. En efecto, tomemos una B así. Sus columnas son linealmente independientes. Si i1<<in corresponden a los índices de las columnas de A que se preservan al pasar a B, entonces las columnas Ci1,,Cid de A son linealmente independientes, ya que si hubiera una combinación no trivial de ellas igual a cero, entonces la habría de las columnas de B, lo cual sería una contradicción a que son linealmente independientes.

De esta forma,
d=dimspan(Ci1,,Cid)dimspan(C1,,Cd)=r,

que es la desigualdad que nos faltaba para terminar la prueba.

◻

Ejemplo. Supongamos que queremos encontrar el rango de la siguiente matriz en M3,5(R): A=(454720310905093).

Por propiedades de rango que vimos anteriormente, ya sabemos que su rango es a lo más el mínimo de sus dimensiones, así que su rango es como mucho min(3,5)=3.

Por otro lado, notemos que si eliminamos la segunda y cuarta columnas, entonces obtenemos la submatriz cuadrada (442019003). Esta es una matriz triangular superior, así que su determinante es el producto de las diagonales, que es 4(1)(3)=12.

Como el determinante no es cero, es una matriz invertible de tamaño 3. Por la proposición anterior, el rango de A debe ser entonces mayor o igual a 3. Juntando las dos desigualdades que encontramos, el rango de A debe ser igual a 3.

Estas ideas nos servirán al aplicar determinantes en sistemas de ecuaciones.

Teorema de Rouché-Capelli

Recordemos que un sistema lineal de ecuaciones con m ecuaciones y n incógnitas es de la forma

a11x1+a12x2++a1nxn=b1a21x1+a22x2++a2nxn=b2am1x1+am2x2++amnxn=bm,

lo cual se puede reescribir en términos matriciales tomando una matriz, un vector de escalares y un vector de incógnitas así:
A=(a11a12a1na21a22a2nam1am2amn),b=(b1bm) y X=(x1xn), y reescribiendo el sistema como AX=b.

Si C1,,Cn son las columnas de la matriz A, también sabemos que AX=x1C1++xnCn, de modo que el sistema de ecuaciones puede ser escrito como x1C1++xnCn=b.

Esto nos da una intuición fuerte de lo que es un sistema lineal de ecuaciones: se trata de determinar si b está en el espacio generado por las columnas de A, y si es así, ver todas las formas en las que podemos obtenerlo.

El teorema de la sección anterior nos permite aplicar determinantes en sistemas de ecuaciones lineales mediante el siguiente resultado.

Teorema (Rouché-Capelli). Sean AMn(F) y bFm. Sea (A|b) la matriz en Mn,n+1(F) obtenida de agregar a b como columna hasta la derecha de la matriz A. Entonces:

  • El sistema lineal de ecuaciones AX=b tiene al menos una solución si y sólo si rank(A)=rank((A|b)).
  • El conjunto de soluciones Sh al sistema homogéneo es un subespacio de Fn de dimensión nrank(A).

Demostración. Por la discusión previa, el sistema tiene una solución si y sólo si b es una combinación lineal de las columnas de A. De esta forma, si existe una solución, entonces rank(A)=rank((A|b)), pues el espacio generado por las columnas de A sería el mismo que el de las columnas de (A|b).

Por otro lado, si rank(A)=rank((A|b)) es porque las columnas de A y las de (A|b) generan el mismo espacio, de modo que b está en el espacio vectorial generado por las columnas. Esto prueba la primer parte.

Para la segunda parte, el sistema homogéneo es AX=0, de modo que el conjunto solución es precisamente el kernel de la transformación T:FnFm tal que XAX. Por el teorema de rango-nulidad, tenemos que dimSh=ndimIm(T)=nrank(A). Esto termina la demostración.

◻

Como discutimos con anterioridad, ya que tenemos una solución x0 para el sistema de ecuaciones AX=b, entonces todas las soluciones son el conjunto x0+Sh:={x0+x:xSh}. En otras palabras, cualquier solución al sistema se puede obtener sumando a x0 una solución al sistema lineal homogéneo asociado.

Ejemplo. Consideremos el siguiente sistema de ecuaciones en R en tres variables:
2x+3yz=13xy+2z=03x+10y5z=0

Afirmamos que el sistema no tiene solución. La matriz asociada es A=(2313123105). Por lo que sabemos de determinantes de 3×3, podemos calcular su determinante como
|2313123105|=(2)(1)(5)+(3)(10)(1)+(3)(3)(2)(1)(1)(3)(2)(10)(2)(3)(3)(5)=1030+18340+45=0.

Esto muestra que A no es invertible, y que por lo tanto tiene rango a lo más 2. Como |2331|=(2)(1)(3)(3)=11 es un subdeterminante no cero de tamaño 2, entonces A tiene rango 2.

Ahora consideremos la matriz (A|b)=(2311312031050). Eliminemos la tercer columna. Podemos calcular al siguiente subdeterminante de 3×3 por expansión de Laplace en la última columna:

|2313103100|=1|31310|0|23310|+0|2331|=1(310+13)=33.

De esta forma, (A|b) tiene una submatriz de 3×3 invertible, y por lo tanto tiene rango al menos 3. Como tiene 3 filas, su rango es a lo más 3. Con esto concluimos que su rango es exactamente 3. Conluimos que rankA=23=rank(A|b), de modo que por el teorema de Rouché-Capelli, el sistema de ecuaciones no tiene solución.

Antes de ver un ejemplo en el que el sistema sí tiene solución, pensemos qué sucede en este caso. Si la matriz A es de rango r, por el teorema de la sección pasada podemos encontrar una submatriz cuadrada B de tamaño r que es invertible. Tras una permutación de las variables o de las ecuaciones, podemos suponer sin perder generalidad que corresponde a las variables x1,,xr y a las primeras r ecuaciones. De esta forma, el sistema AX=b se resume en el siguiente sistema de ecuaciones equivalente:

a11x1+a12x2++a1rxr=b1a1,r+1xr+1a1,nxna21x1+a22x2++a2rxr=b2a2,r+1xr+1a2,nxnar1x1+ar2x2++arrxr=bmar,r+1xr+1ar,nxn,

Aquí xr+1,,xn son lo que antes llamábamos las variables libres y x1,,xr son lo que llamábamos variables pivote. Como la submatriz B correspondiente al lado izquierdo es invertible, para cualquier elección de las variables libres podemos encontrar una única solución para las variables pivote. Ya habíamos probado la existencia y unicidad de cierta solución. Pero de hecho, hay una forma explícita de resolver sistemas de ecuaciones correspondientes a matrices cuadradas. Esto es el contenido de la siguiente sección.

Fórmulas de Cramer para sistemas cuadrados

El siguiente teorema es otra aplicación de determinantes en sistemas de ecuaciones lineales. Nos habla de las soluciones de un sistema lineal AX=b en donde A es una matriz cuadrada e invertible.

Teorema (fórmulas de Cramer). Sea A una matriz invertible en Mn(F) y b=(b1,,bn) un vector en Fn. Entonces el sistema lineal de ecuaciones AX=b tiene una única solución X=(x1,,xn) dada por xi=detAidetA, en donde Ai es la matriz obtenida al reemplazar la i-ésima columna de A por el vector columna b.

Demostración. La existencia y unicidad de la solución ya las habíamos mostrado anteriormente, cuando vimos que la única solución está dada por X=(x1,,xn)=A1b.

Si C1,,Cn son las columnas de A, que (x1,,xn) sea solución al sistema quiere decir que x1C1++xnCn=b.

El determinante pensado como una función en n vectores columna es n-lineal, de modo que usando la linealidad en la i-ésima entrada y que el determinantes es alternante, tenemos que:
detAi=det(C1,,Ci1,b,Ci+1,,Cn)=det(C1,,Ci1,j=1nxjCj,Ci+1,,Cn)=j=1nxjdet(C1,,Ci1,Cj,Ci+1,,Cn)=xidet(C1,,Ci1,Ci,Ci+1,,Cn)=xidetA

Como A es invertible, su determinante no es 0, de modo que xi=detAidetA, como queríamos.

◻

Veamos un ejemplo concreto de la aplicación de las fórmulas de Cramer.

Ejemplo. Consideremos el siguiente sistema de ecuaciones en R en tres variables:
2x+3yz=13xy+2z=03x+10y5z=3

En un ejemplo anterior vimos que la matriz asociada A=(2313123105) tiene rango 2. Se puede verificar que la matriz aumentada (A|b)=(2311312031053) también tiene rango 2. Por el teorema de Rouché-Capelli, debe existir una solución al sistema de ecuaciones AX=b, y el sistema homogéneo tiene espacio de soluciones de dimensión 32=1.

Como la submatriz de las primeras dos filas y columnas es invertible por tener determinante 2(1)(3)(3)=110, entonces el sistema de ecuaciones original es equivalente al subsistema

2x+3y=1+z3xy=2z.

Para encontrar su solución, fijamos una z arbitraria. Usando la regla de Cramer, la solución al sistema

está dada por
x=|1+z32z1|11=15z11y=|21+z32z|11=3+7z11.

De esta forma, las soluciones al sistema original están dadas por (15z11,3+7z11,z)=(111,311,0)+z(511,711,1).

Observa que en efecto el espacio de soluciones del sistema homogéneo es de dimensión 1, pues está generado por el vector (511,711,1), y que todas las soluciones al sistema original son una de estas soluciones, más la solución particular (111,311,0).

◻

Para terminar, veamos un ejemplo muy sencillo de cómo usar las fórmulas de Cramer en un sistema de ecuaciones de 2×2 con un parámetro θ. La intepretación geométrica del siguiente sistema de ecuaciones es «encuentra el punto (x,y) del plano tal que al rotarse en θ alrededor del origen, llega al punto (a,b) » .

Problema. Sea a,b,θ números reales. Encuentra las soluciones x,y al sistema de ecuaciones
xcosθysinθ=axsinθ+ycosθ=b.

Solución. La matriz asociada al sistema es A=(cosθsinθsinθcosθ) que tiene determinante detA=cos2θ+sin2θ=1.

De acuerdo al teorema de Cramer, las soluciones al sistema están dadas por:

x=|asinθbcosθ|detA=acosθ+bsinθy=|cosθasinθb|detA=bcosθasinθ.

Hay herramientas en línea que te permiten ver de manera interactiva cómo usar las fórmulas de Cramer para sistemas de ecuaciones en los reales. Una de ellas es el Cramer’s Rule Calculator de matrix RESHISH, en donde puedes ver la solución por pasos para ejemplos que tú fijes.

Más adelante…

En esta entrada volvimos a hablar de sistemas de ecuaciones lineales, pero ahora que ya sabemos determinantes, pudimos verlo con un enfoque diferente al que habíamos utilizado para abordar el tema en la primera unidad. También hablamos de la regla de Cramer, una herramienta muy poderosa cuando estamos intentando resolver sistemas de ecuaciones.

Ahora, vamos a ver cómo se usa lo que vimos en esta entrada resolviendo varios ejemplos. Después, empezaremos a abordar el tema de eigenvalores y eigenvectores.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Determina el rango de la matriz A=(201324523125).
  • Para la matriz A del inciso anterior, resuelve los sistemas de ecuaciones lineales AX=(5832) y AX=(58133).
  • Verifica que la matriz aumentada en el último ejemplo en efecto tiene rango 2.
  • Muestra que si A es una matriz en Mn(R) con entradas enteras y de determinante 1, y b es un vector en Rn con entradas enteras, entonces la solución X del sistema de ecuaciones AX=b tiene entradas enteras.
  • ¿Cómo puedes usar la regla de Cramer para encontrar la inversa de una matriz invertible A?
  • Considera un sistema de ecuaciones con coeficientes en un campo F1 y una extensión de campo F2. Muestra que si el sistema tiene una solución en F2, entonces también tiene una solución en F1.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»