Archivo de la etiqueta: vectores

Investigación de Operaciones: Soluciones básicas, factibles y no degeneradas (10)

Por Aldo Romero

Introducción

Ya hablamos de qué es la forma canónica y la forma estándar de un problema lineal. Como platicamos, esto nos permitirá llevar los problemas que nos interesan a ciertas formas especiales a las que podremos aplicarles algunos métodos más adelante. Lo que haremos ahora es comenzar a pensar en qué quiere decir resolver un problema lineal. Para ello, recordaremos de distintos tipos de soluciones que los problemas lineales pueden tener.

Tipos de soluciones y región de factibilidad

En esta sección recordaremos los conceptos de soluciones factibles, soluciones básicas factibles (degeneradas y no degeneradas) y de región de factibilidad.

Supongamos que tenemos un problema de programación lineal en su forma canónica:

Maxz=cxs.a.Axbx0,

donde usamos la misma notación que en la entrada anterior, pero donde tomaremos l variables de decisión. En particular, x,c son vectores en Rn, b es un vector en Rm y A es una matriz de entradas reales de m×n. Recuerda que en la expresión anterior entendemos 0 como el vector en Rn con entradas todas iguales a cero.

Este problema también tiene una forma estándar, en donde transformamos las desigualdades en igualdades introduciendo variables de sobra y de holgura.
Maxz=cxs.a.Ax=bx0,

en donde en hemos agregado nm variables de holgura al vector x, para obtener un vector x en Rn, así como nm columnas a A para volverla una matriz en de m×n, para agregar los coeficientes de las variables de holgura que hacen que se de la igualdad.

Como recordatorio, tenemos las siguientes definiciones para los tipos de soluciones del problema lineal.

Definición. Una solución factible al problema lineal en forma canónica dado anteriormente es un vector columna x=(x1x2xn) que satisface las restricciones Axb y x0. Esto se corresponde con una solución x al problema en forma estándar que satisface Ax=b y x0.

Definición. La región de factibilidad del problema lineal en forma canónica es el conjunto de todas las soluciones factibles.

De entre las soluciones factibles, hay algunas que son un poco más sencillas, en el sentido de que varias de sus entradas son iguales a cero pensadas como soluciones del problema en forma estándar. En las siguientes definiciones suponemos que el rango de la matriz A es exactamente igual a m.

Definición. Una solución básica factible es una solución factible x correspondiente a una solución x del problema en forma estándar con no más de m componentes positivas. En otras palabras, x tiene al menos nm entradas iguales a cero.

Definición. Una solución básica factible no degenerada es una solución factible x correspondiente a una solución x del problema en forma estándar con exactamente m componentes positivas. En otras palabras, x tiene exactamente nm entradas iguales a cero.

Definición. Una solución básica factible degenerada es una solución factible x correspondiente a uan solución x del problema en forma estándar con menos de m componentes positivas. En otras palabras, x tiene más de nm entradas iguales a cero.

La importancia de las soluciones básicas factibles y no degeneradas es que cumplen las siguientes:

  1. Se puede mostrar que si un problema de programación lineal tiene óptimo, entonces dicho óptimo se alcanza para alguna solución básica factible y no degenerada.
  2. Las soluciones básicas factibles y no degeneradas se pueden encontrar resolviendo sistemas de ecuaciones.
  3. Geométricamente, las soluciones básicas factibles y no degeneradas están en vértices de la región de factibilidad.

A continuación explicaremos algunos de estos puntos con un ejemplo detallado, que te ayudará a entender la intuición detrás de estas definiciones y de su importancia.

Ejemplos de región de factibilidad y tipos de solución

Consideremos el siguiente problema de programación lineal:

Max.z=2x1+3x2s.a.2x1+x24x1+2x25x1,x20.

Antes de comenzar a estudiar la región de factibilidad, debemos verificar que está en forma canónica. En efecto, todo está en orden: el problema es de maximización, las desigualdades son y a las variables de decisión se les pide ser no negativas.

La región de factibilidad es el conjunto de todos los (x1,x2) (en el plano R2) que cumplen las restricciones del problema, es decir, 2x1+x24, x1+2x25, x10 y x20. Para entender esto mejor, lo podemos pensar en cuatro regiones:

Región 1: La región x10, que queda a la derecha del eje y.

Región 2: La región x20, que queda arriba del eje x.

Región 3: La región 2x1+x24, que queda debajo de la recta 2x1+x2=4.

Región 4: La región x1+2x25, que queda por debajo de la recta x1+2x2=5.

Como queremos que (x1,x2) satisfaga todas las restricciones simultáneamente, necesitamos que esté en la intersección de todas las regiones. Así, la región de factibilidad es en la que se intersectan todas estas regiones que acabamos de dibujar. Al sobreponerlas, obtenemos la región encerrada en la siguiente figura:

Si gustas, puedes también explorar el interactivo de GeoGebra en donde se han coloreado los complementos de las regiones para más claridad. Puedes usar el cursor para mover la figura y las herramientas de lupa para hacer acercamientos y alejamientos.

La intuición que debemos tener ahora es que el máximo de la función objetivo 2x1+3x2 se tiene que alcanzar en alguno de los vértices del cuadrilátero que es la región factible. A grandes rasgos, estos vértices serán las soluciones básicas factibles y no degeneradas. Veamos dónde el álgebra nos dice esto.

Para ello, pensemos al problema en su forma estándar, tomando variables de holgura s1 y s2. Las restricciones que tienen las cuatro variables en conjunto son las siguientes.

2x1+x2+s1=4x1+2x2+s2=5x1,x2,s1,s20.

La matriz A es (21101201), que puedes verificar que tiene rango 2. Las soluciones básicas y no degeneradas corresponden a tener en ese sistema de ecuaciones exactamente m=2 variables positivas, de manera que necesitamos hacer exactamente nm=42=2 de estas variables iguales a cero. Al hacer esto, podemos resolver para las m=2 variables restantes. Por ejemplo, si establecemos x1=0 y x2=0, las ecuaciones se convierten en

s1=4s2=5x1,x2,s1,s20,

que tiene solución única (x1,x2,s1,s2)=(0,0,4,5). Así, la solución básica del problema en forma canónica es (x1,x2)=(0,0). Hay que recordar dar la solución básica ya sólo para las variables originales, es decir, las del problema en forma canónica.

Esta solución corresponde al punto C del interactivo de GeoGebra. Se puede determinar otra solución básica fijando s1=0 y s2=0, donde el sistema sería ahora

2x1+x2=4x1+2x2=5x1,x2,s1,s20,

y tras resolver las dos ecuaciones, la solución básica que se obtiene es (x1,x2)=(1,2), que es el punto A del interactivo de GeoGebra.

Podemos seguir haciendo esto. Si consideramos todas las posibilidades en las que dos variables son cero y resolvemos las ecuaciones resultantes, eso nos dará puntos (x1,x2) en el plano. La solución óptima es la solución básica factible (punto de esquina) con el mejor valor objetivo.

En este ejemplo tenemos (42)=4!2!2!=6 formas de volver dos de las n variables iguales a cero. Ya para las variables x1 y x2, los puntos que obtenemos son los puntos A, B, C, D que son vértices de la región de factibilidad. Los puntos E y F del interactivo también son puntos básicos y no degenerados (son las otras dos intersecciones de las rectas que dibujamos), pero como no satisfacen la condición de factibilidad del problema, entonces no los podemos considerar y por lo tanto no son candidatos a dar el valor óptimo.

La siguiente tabla muestra todas las soluciones básicas y no básicas de este ejemplo:

Variables no básicas (cero)Variables básicasSolución para (x1,x2)Punto de esquina asociado¿Factible?Valor objetivo z
(x1,s1)(s1,s2)(0,0)C0
(x1,s1)(x2,s2)(0,4)ENo___
(x1,s2)(x2,s1)(0,2.5)D7.5
(x2,s1)(x1,s2)(2,0)B4
(x2,s2)(x1,s1)(5,0)FNo___
(s1,s2)(x1,x2)(1,2)A8 (óptimo)

Más adelante…

Notemos que a medida que el tamaño del problema se incrementa, enumerar todos los puntos esquina se volverá una tarea que tomaría mucho tiempo. Por ejemplo, si tuviéramos 20 variables (ya con las de holgura) y 10 restricciones, es necesario resolver considerar (2010)=184756 formas de crear ecuaciones de 10×10, y resolver cada una de ellas. Aunque esto es finito, son demasiadas operaciones. Y este en la práctica incluso es un ejemplo pequeño, ya que en la vida real hay problemas lineales que pueden incluir miles de variables y restricciones.

Por ello, se vuelve cruciar encontrar un método que atenúe esta carga computacional en forma drástica, que permita investigar sólo un subconjunto de todas las posibles soluciones factibles básicas no degeneradas (vértices de la región de factibilidad), pero que garantice encontrar el óptimo. Una idea intuitiva que debería servir es comenzar en un vértice y «avanzar en una dirección que mejore la función objetivo». Esto precisamente es la intuición detrás del método simplex, que repasaremos a continuación.

Tarea moral

  1. Considera el siguiente problema lineal en su forma canónica:

Maxz=2x1+3x2s.a.x1+3x263x1+2x26x1,x20.

Sigue los pasos descritos arriba para encontrar todas sus soluciones básicas factibles y no degeneradas. Usa ello para encontrar el óptimo del problema.

  1. Actualiza las restricciones en el interactivo de GeoGebra que se compartió en la entrada para visualizar este problema y confirmar tus cuentas del ejercicio anterior. Para ello, deberás ir al apartado «Álgebra» del interactivo y modificar los objetos a y b.
  2. Considera un problema de optimización lineal en dos variables x y y, en forma canónica y con m restricciones (desigualdades), además de las restricciones x0 y y0. Explica por qué la región de factibilidad siempre es un polígono con a lo más m+2 lados, y por qué entonces basta evaluar la función objetivo en a lo más m+2 puntos para encontrar su máximo.
  3. ¿Cómo se vería la región de factibilidad de un problema de optimización lineal de maximización que no tenga máximo? Explica todas las posibilidades y da ejemplos.
  4. Intenta usar las ideas de esta entrada para resolver los problemas de optimización lineal clásicos que hemos descrito en entradas anteriores.

Entradas relacionadas

Álgebra Superior I: El espacio vectorial Rn

Por Eduardo García Caballero

Introducción

En la entrada anterior introdujimos conceptos relacionados a los espacios vectoriales R2 y R3. Hablamos de vectores, combinaciones lineales, espacio generado, independencia lineal y bases. Ahora haremos lo análogo en dimensiones más altas, para lo cual hablaremos de Rn.

La idea es sencilla, queremos extender lo que ya hicimos para vectores con 5 o 100 entradas. Sin embargo, visualizar estos espacios y entender su geometría ya no será tan sencillo. Es por esta razón que principalmente nos enfocaremos a generalizar las propiedades algebraicas que hemos discutido. Esta resultará una manera muy poderosa de estudiar los espacios vectoriales, pues nos permitirá generalizar sin mucha dificultad los conceptos aprendidos en la entrada anterior al espacio Rn para cualquier número natural n.

Definición del espacio vectorial Rn

En la entrada anterior vimos cuáles son propiedades que debe cumplir una colección de objetos, en conjunto con una operación de suma y otra de producto escalar, para poder considerarse un espacio vectorial. Como ya vimos, tanto R2 y R3 son espacios vectoriales. Podemos definir a Rn y a sus operaciones como sigue.

Definición. El conjunto Rn consiste de todas las n-adas ordenadas u=(u1,u2,,un) en donde cada ui es un número real, para i=1,,n. A ui le llamamos la i-ésima entrada de u. Para dos elementos de Rn, digamos

u=(u1,u2,,un)v=(v1,v2,,vn),

definimos la suma u+v como la n-áda cuya i-ésima entrada es ui+vi (decimos que sumamos entrada a entrada). En símbolos, u+v=(u1+v1,u2+v2,,un+vn).

Además, si tomamos un real r, definimos el producto escalar de r con u como la n-ada cuya i-ésima entrada es rui, es decir, ru=(ru1,ru2,,run).

El conjunto Rn con esta suma y producto escalar cumple ser un espacio vectorial. A continuación probaremos sólo algunas de las propiedades, ¿puedes completar el resto?

1. La suma es asociativa:
(u+v)+w=((u1,u2,,un)+(v1,v2,,vn))+(w1,w2,,wn)=(u1+v1,u2+v2,,un+vn)+(w1,w2,,wn)=((u1+v1)+w1,(u2+v2)+w2,,(un+vn)+wn)=(u1+(v1+w1),u2+(v2+w2),,un+(vn+wn))=(u1,u2,,un)+(v1+w1,v2+w2,,vn+wn)=(u1,u2,,un)+((v1,v2,,vn)+(w1,w2,,wn))=u+(v+w).

La cuarta igualdad usa el paso clave de que en R sí sabemos que la suma es asociativa.

2. La suma es conmutativa:
u+v=v+w.

¡Intenta demostrarlo!

3. Existe un elemento neutro para la suma, que es el elemento de Rn en donde todas las entradas son iguales al neutro aditivo 0 de R:
u+0=(u1,u2,,un)+(0,0,,0)=(u1+0,u2+0,,un+0)=(u1,u2,,un)=u.

Para demostrar esta propiedad, necesitaras usar que en R cada ui tiene inverso aditivo.

4. Para cada n-tupla existe un elemento inverso:
u+(u)=0.

5. La suma escalar se distribuye bajo el producto escalar:
(r+s)u=(r+s)(u1,u2,,un)=((r+s)u1,(r+s)u2,,(r+s)un)=(ru1+su1,ru2+su2,,rn+sun)=(ru1,ru2,,run)+(su1,su2,,sun)=r(u1,u2,,un)+s(u1,u2,,un)=ru+su.

Una vez más, se está usando una propiedad de R para concluir una propiedad análoga en Rn. En este caso, se está usando fuertemente que hay una propiedad de distributividad en R.

6. La suma de n-tuplas de distribuye bajo el producto de escalares:
r(u+v)=ru+rv.

7. El producto escalar es compatible con el producto de R:
(rs)u=(rs)(u1,u2,,un)=((rs)u1,(rs)u2,,(rs)un)=(r(su1),r(su2),,r(sun))=r(su1,su2,,sun)=r(s(u1,u2,,un))=r(su).

8. El neutro multiplicativo 1 de R funciona como neutro para el producto escalar:
1u=u.

De este modo, podemos trabajar con el espacio vectorial Rn para explorar sus propiedades. La gran ventaja es que lo que demostremos para Rn en general lo podremos usar para cualquier valor particular de n. y poder emplearlas cuando trabajemos con algún número n en particular.

Combinaciones lineales y espacio generado

Al igual que hicimos con R2 y R3 podemos definir los conceptos de combinación lineal y espacio generado para el espacio vectorial Rn.

Definición. En Rn, diremos que un vector u es combinación lineal de los vectores v1,,vk si y sólo si existen números reales r1,,rn en R tales que
u=r1v1+r2v2++rkvk.

Ejemplo. En R5, el vector (3,4,2,5,5) es combinación lineal de los vectores (2,1,2,0,3), (0,1,1,3,0) y (1,1,5,2,1), pues
(3,4,2,5,5)=2(2,1,2,0,3)+1(0,1,1,3,0)+1(1,1,5,2,1).

La noción de combinación lineal nos permite hablar de todas las posibles combinaciones lineales, así como en R2 y R3.

Definición. Dado un conjunto de vectores v1,,vn en Rn, podemos definir el espacio generado por estos vectores como el conjunto de todas las posibles combinaciones lineales de v1,,vn en Rn.

Es este caso, ya no podremos visualizar geométricamente el espacio generado (aunque con un poco de imaginación, quizás puedas generalizar lo que ya hicimos en dimensiones anteriores: ¿cómo se vería un plano en R4?, ¿cómo se vería un sub-R3 de R4?). De cualquier manera, sí podemos seguir respondiendo preguntas del espacio generado a través de sistemas de ecuaciones.

Ejemplo. ¿El espacio generado por los vectores (1,1,1,0), (0,3,1,2), (2,3,1,0) y (1,0,2,1) es R4?

Para ver si R4 es el espacio generado por los vectores propuestos, debemos asegurarnos de que cada vector en R4 se pueda expresar como combinación lineal de estos. Entonces, seleccionamos un vector (a,b,c,d) arbitrario en R4, y debemos ver si existen escalares q, r, s y t tales que
q(1,1,1,0)+r(0,3,1,2)+s(2,3,1,0)+t(1,0,2,1)=(a,b,c,d);
esto es,
(q,q,q,0)+(0,3r,r,2r)+(2s,3s,s,0)+(t,0,2t,t)=(a,b,c,d),
que equivale a
(q+2s+t,q+3r+3s,q+r+s+2t,2r+t)=(a,b,c,d),
lo cual a su vez equivale al sistema de ecuaciones
{q++2s+t=aq+3r+3s=bq+r+s+2t=c2r+t=d,
el cual podemos representar como
(1021133011120201)(qrst)=(abcd).
Además, podemos observar que la matriz en el lado izquierdo tiene determinante distinto de 0 (para verificar esto, tendrás que calcularlo), lo que nos indica que es invertible, y la igualdad anterior equivale a
(qrst)=(1021133011120201)1(abcd),
o bien,
(qrst)=(31331/21/41/403/21/45/4111/21/21)(abcd),
de donde tenemos la solución para q,r,s,t siguiente:
{q=3a+b+3c3dr=12a+14b+14cs=32a14b54c+dt=a12b12c+d.
Este sistema nos da una fórmula para los escalares q, r, s y t en función del valor de las entradas del vector (a,b,c,d), y estos escalares satisfacen
q(1,1,1,0)+r(0,3,1,2)+s(2,3,1,0)+t(1,0,2,1)=(a,b,c,d).
Como esto se cumple para un vector arbitrario (a,b,c,d) en R4, entonces se cumple para todos los vectores de R4; es decir, ¡R4 es el espacio generado por los vectores (1,1,1,0), (0,3,1,2), (2,3,1,0), (1,0,2,1)!

Nuestra técnica de resolver sistemas de ecuaciones mediante la inversa de la matriz asociada ha resultado muy útil. Hemos tenido un poco de suerte en que la matriz sea invertible. Si no lo fuera, no podríamos haber hecho el procedimiento descrito en el ejemplo. ¿Será que si la matriz no es invertible, entonces el sistema no se podrá resolver? La respuesta es compleja: a veces sí, a veces no. En ese caso hay que entender el sistema de ecuaciones con otro método, como reducción gaussiana.

Independencia lineal

Cuando exploramos las propiedades de R2 y R3, observamos que hay ocasiones en las que el espacio generado por un conjunto de vectores es «más chico» de lo que se esperaría de la cantidad de vectores: por ejemplo, dos vectores en R2 generan una línea (y no todo R2) cuando estos dos se encuentran alineados con el origen. Cuando tres vectores en R3 no están alineados, pero se encuentran sobre el mismo plano por el origen, su espacio generado es dicho plano (y no todo R3).

Aunque el el espacio vectorial Rn no podamos visualizarlo de manera inmediata, podemos mantener la intuición de que un conjunto de vectores «genera todo lo que puede generar» o «genera algo más chico». Para identificar en qué situación nos encontramos, recurrimos a la siguiente definición.

Definición. Dado un conjunto de k vectores v1,v2,,vk en Rn distintos de 0, diremos son linealmente independientes si la única forma de escribir al vector 0 como combinación lineal de ellos es cuando todos los coeficientes de la combinación lineal son igual al escalar 0; es decir, si tenemos que
r1v1+r2v2++rkvk=0,
entonces forzosamente r1=r2==rn=0.

Teniendo esta definición en consideración, se puede mostrar que si un conjunto de vectores es linealmente independiente, entonces ninguno de los vectores se puede escribir como combinación lineal de los otros. De hecho, es únicamente en este caso cuando cuando el espacio generado por los vectores es «todo lo que se puede generar».

La justificación de por qué sucede esto es similar a la que vimos en la entrada anterior: como el primer vector es no genera una línea. Como el segundo vector no se puede escribir como combinación lineal del primero, entonces queda fuera de esta línea y ambos generan un plano. Como el tercer vector no se puede escribir como combinación lineal de los primeros dos, entonces queda fuera del plano, y entre los tres generan un espacio «más grande» («de dimensión 3»). A partir de este punto, quizá no podamos visualizar inmediatamente la forma geométrica del espacio generado, pero como sabemos que los vectores son linealmente independientes, entonces el cuarto vector no se puede escribir como combinación lineal de los primeros tres. Por ello, queda fuera del espacio generado por los primeros tres, y el espacio generado por los cuatro es aún «más grande» («de dimensión 4»); y así sucesivamente, para tantos vectores linealmente independientes como tengamos.

Una herramienta que podemos emplear para determinar cuándo un conjunto de vectores es linealmente independiente son nuevamente los sistemas de ecuaciones. Para esto veamos el siguiente ejemplo.

Ejemplo. ¿Son los vectores (1,5,1,2), (3,3,0,1), (2,0,4,1) y (0,1,1,0) linealmente independientes en R4?

Supongamos que para ciertos escalares a, b, c y d, se cumple que
a(1,5,1,2)+b(3,3,0,1)+c(2,0,4,1)+d(0,1,1,0)=(0,0,0,0).
Esto es equivalente a decir que
(a,5a,a,2a)+(3b,3b,0,b)+(2c,0,4c,c)+(0,d,d,0)=(0,0,0,0)
que equivale a
(a+3b2c,5a3b+d,a+4cd,2ab+c)=(0,0,0,0),
y a su vez equivale al sistema de ecuaciones
{a+3b2c=05a3b+d=0a+4cd=02ab+c=0
el cual podemos representar de la forma
(1320530110412110)(abcd)=(0000),
y, como notamos que la matriz del lado izquierdo de la ecuación tiene determinante distinto de 0 (¿puedes verificarlo?), entonces es invertible, de modo que
(abcd)=(1320530110412110)1(0000)=(0000),
es decir,
a=b=c=d=0,
lo que nos indica, basándonos en la definición, que los vectores anteriores son linealmente independientes.

El ejemplo anterior nos da una idea de lo que debe cumplir un conjunto linealmente independiente de n vectores en Rn. En general, podemos mostrar que un conjunto de n vectores v1=(v11,v12,,v1n), v2=(v21,v22,,v2n), , vn=(vn1,vn2,,vnn) es linealmente independiente si y sólo si la matriz
(v11v21vn1v12v22vn2v1nv2nvnn),
formada por los vectores escritos como columna, es invertible. Esto ya platicamos que está relacionado con que su determinante sea distinto de 0. Pero no en todas las situaciones tendremos tantos vectores como entradas y entonces tendremos que estudiar el sistema de ecuaciones lineales con otras técnicas, como reducción gaussiana.

Ejemplo. ¿Serán los vectores (1,2,3,4,5), (6,7,8,9,10) y (11,12,13,14,15) de R5 linealmente independientes? Tal y como lo hemos hecho arriba, podemos preguntarnos si hay reales a,b,c tales que a(1,2,3,4,5)+b(6,7,8,9,10)+c(11,12,13,14,15)=(0,0,0,0,0), y que no sean todos ellos cero. Tras plantear el sistema como sistema de ecuaciones y luego en forma matricial, lo que se busca es ver si el sistema (161127123813491451015)(abc)=(00000) tiene alguna solución no trivial. Esto puede entenderse aplicando reducción gaussiana a A, que muestra que toda solución al sistema anterior es solución al sistema (101012000000000)(abc)=(00000), lo cual nos lleva a que el sistema original es equivalente al sistema {ac=0b+2c=0.

De aquí, podemos tomar a c como cualquier valor, digamos 1, de donde a=1 y b=2 es solución. En resumen, hemos detectado que (1,2,3,4,5)2(6,7,8,9,10)+(11,12,13,14,15)=(0,0,0,0,0), que es una combinación lineal de los vectores donde no todos los coeficientes son cero. Por ello, no son linealmente intependientes.

Puedes intentar «imaginar» esto como que son vectores en R5 (un espacio de «dimensión 5»), pero no generan dentro de él algo de dimensión 3, sino algo de dimensión menor. Como (1,2,3,4,5) y (6,7,8,9,10) sí son linealmente independientes (¡demuéstralo!), entonces los tres vectores en realidad generan sólo un plano mediante sus combinaciones lineales.

◻

Bases

De manera similar a lo que observamos en la entrada anterior, hay ocasiones en las que un conjunto de vectores no tiene como espacio generado a todo Rn. Por otra parte, hay ocasiones en las que el conjunto de vectores sí genera a todo Rn, pero lo hace de manera «redundante», en el sentido de que, aunque su espacio generado sí es todo Rn, podríamos quitar a algún vector del conjunto y el espacio generado sería el mismo. La siguiente definición se enfoca en los conjuntos en los que no pasa mal ninguna de estas cosas. Es decir, los vectores generan exactamente al espacio: cada vector se genera por una y sólo una combinación lineal de ellos.

Definición. Diremos que un conjunto de vectores v1,v2,,vk es base del esapacio vectorial Rn si el conjunto de vectores es linealmente independiente y el espacio generado por estos es exactamente Rn.

Ejemplo. Al igual que en R2 y R3, la «base canónica» es el primer ejemplo que seguramente se nos viene a la mente. La base canónica en Rn consiste en los n vectores e1=(1,0,0,,0), e2=(0,1,0,,0), e3=(0,0,1,,0), , en=(0,0,0,,1). Es claro que cualquier vector u=(u1,u2,,un) es combinación lineal de e1,,en pues podemos expresarlo como
u=(u1,u2,,un)=(u1,0,,0)+(0,u2,,0)+(0,0,,un)=u1(1,0,,0)+u2(0,1,,0)++un(0,0,,1)=u1e1+u2e2++unen.
Además, los vectores e1,,en son linealmente independientes (¿puedes ver por qué?). De este modo, verificamos que la «base canónica» es, en efecto, una base.

Ejemplo. Más arriba verificamos que los vectores (1,5,1,2), (3,3,0,1), (2,0,4,1) y (0,1,1,0) son linealmente independientes. Además, vimos que la matriz formada por estos es invertible. De este modo, verificamos que estos vectores forman una base para R4.

Más adelante…

A lo largo de esta unidad nos hemos enfocado en estudiar a vectores, matrices, ecuaciones lineales y espacios vectroriales. En las últimas entradas, vimos que hay ocho condiciones que se deben cumplir para que un conjunto de objetos matemáticos (junto con una operación de suma y una de producto escalar) sean considerados espacio vectorial. Todos los ejemplos de espacio vectorial que vimos son de la forma Rn, sin embargo, puede surgir la pregunta, ¿existen espacios vectoriales que no sean de esta forma?

De hecho, si has estado prestando atención en la formalidad de los resultados, hay muchos resultados que han quedado pendientes:

  • ¿Por qué el determinante no depende de la fila o columna en la que se expanda?
  • Si tenemos matrices de n×n, ¿por qué son invertibles si y sólo si el determinate es cero?
  • En matrices de n×n, ¿por qué el determinante es multiplicativo?
  • ¿Cómo se formaliza el proceso de reducción gaussiana y para qué más sirve?
  • ¿Será que podemos tener muchos vectores linealmente independientes en Rn? ¿Será posible tener un conjunto generador de menos de n vectores para Rn? ¿Por qué?

Estas dudas no se resuelven en el curso de Álgebra Superior 2, que sigue a este. Sin embargo, en el curso de Álgebra Lineal I sí se resuelven varias de estas dudas.

Además, podrás ver que hay otros tipos de objetos matemáticos distintos a las listas ordenadas y que también forman un espacio vectorial; algunos con los cuales ya hemos trabajado, como lo son las matrices, y otros que se comportan de manera muy poco usual, como son los espacios con dimensión infinita. Asimismo, con las herramientas que hemos desarrollado hasta ahora, podremos aprender nuevos conceptos como transformaciones lineales, eigenvectores y eigenvalores; estos nos permitirán comprender de manera más íntima los espacios vectoriales, y podremos relacionarlos unos con otros.

Tarea moral

  1. Verifica lo siguiente:
    • (1,1,1,1), (2,2,2,2), (1,1,2,2), (2,2,1,1) no es un conjunto linealmente independiente de R4.
    • (1,2,3,4), (2,3,4,1), (3,4,1,2), (4,1,2,3) es un conjunto generador de R4.
    • (1,1,1,1,1),(1,1,1,1,0),(1,1,1,0,0),(1,1,0,0,0),(1,0,0,0,0) es una base de R5.
  2. Demuestra las siguientes dos cosas:
    • Sea S un conjunto generador de Rn y TS. Entonces T es conjunto generador de Rn.
    • Sea T un conjunto linealmente independiente de Rn y ST. Entonces S es un conjunto linealmente independiente de Rn.
  3. Sean v1,v2,v3,,vk vectores linealmente independientes de Rn. Demuestra que v1,v1+v2,v1+v2+v3,,v1+v2+v3++vk son también vectores linealmente independientes de Rn. ¿Es esto un si y sólo si?
  4. En vista de lo que hemos platicado para matrices de 2×2, 3×3, R2 y R3, ¿cómo definirías el producto matriz-vector AX donde A es una matriz de m×n y X un vector en Rn?
  5. Demuestra que la definición de base tal y como está en la entrada en efecto permite no sólo escribir a cada vector v del espacio como combinación lineal de los elementos de una base v1,,vn, sino que también implica que dicha expresión será única.

Entradas relacionadas

Álgebra Superior I: Reducción de Gauss-Jordan

Por Eduardo García Caballero

Introducción

En la entrada anterior vimos que los sistemas de ecuaciones se encuentran íntimamente relacionados con los vectores y las matrices. Teniendo esto en cuenta, en esta entrada abordaremos una estrategia que nos permitirá encontrar soluciones de los sistemas de ecuaciones lineales.

Operaciones elementales por filas

Antes de pasar a describir el algoritmo con el cual podremos resolver un sistema de ecuaciones lineales, deberemos definir algunas operaciones y conceptos que nos ayudaran a efectuarlo. Empecemos con una lista de operaciones que se pueden aplicar a las matrices, las cuales son con conocidas como operaciones elementales por filas.

Para esto, consideremos una matriz
A=(5π32121/340932/3),
y veamos cómo la afecta cada una de estas operaciones.

La primera de estas operaciones es el reescalamiento. Esta operación consiste en seleccionar una fila de una matriz, y multiplicar cada una de las entradas de esta fila por un mismo número real distinto de cero. Por ejemplo, si reescalamos la tercera fila de A por el número 3, obtendremos la matriz
(5π3212(3)(1/3)(3)(4)(3)(0)932/3)=(5π32121120932/3).

Otra operación que podemos aplicar a las matrices es la trasposición, la cual consiste en intercambiar el contenido de dos filas distintas. Por ejemplo, si transponemos las filas 2 y 4 de A, el resultado será la matriz
(5π3932/31/340212).

La última de las operaciones que nos interesa es la transvección. Esta consiste en sumar el múltiplo de una fila (el resultado de multiplicar cada entrada de una fila por un mismo escalar) a otra fila (la suma se realiza entrada por entrada). Por ejemplo, si en A realizamos la transvección que corresponde a “sumar 3/2 de la cuarta fila a la primera fila”, obtendremos la matriz
(5+(3/2)(9)π+(3/2)(3)3+(3/2)(2/3)2121/340932/3)=(37/29/2+π42121/340932/3).

Si recuerdas, todos los sistemas de ecuaciones se pueden escribir como Ax=b. Las operaciones elementales son muy importantes por las siguientes dos razones:

  • Si aplicamos la misma operación elemental a A y b para obtener la matriz A y el vector b, entonces Ax=b y Ax=b tienen exactamente el mismo conjunto solución. Decimos que «las operaciones elementales no cambian las soluciones del sistema».
  • Usando operaciones elementales se puede llevar el sistema Ax=b a un sistema mucho más sencillo Aredx=bred (que discutiremos más abajo). Entonces «las operaciones ayudan a simplificar un sistema de ecuaciones».

Juntando ambas observaciones, con operaciones elementales podemos llevar cualquier sistema de ecuaciones a uno mucho más sencillo y con el mismo conjunto solución.

Puedes intentar convencerte de la primera afirmación pensando en lo siguiente. En un reescalamiento de filas corresponde a multiplicar por una constante no nula ambos lados de una ecuación; la transposición corresponde a cambiar el orden en el que aparecen dos ecuaciones diferentes; mientras que la transvección corresponde a sumar un múltiplo de una ecuación a otra ecuación, y el sistema tiene las mismas soluciones pues, si un conjunto de valores es solución para dos ecuaciones, entonces es solución para cualquier combinación lineal de estas. En un curso de Álgebra Lineal I puedes encontrar las justificaciones con mucho más detalle.

En las siguientes secciones hablamos un poco más de la segunda afirmación.

Forma escalonada y escalonada reducida para una matriz

Además de las operaciones elementales por filas, es importante definir algunos conceptos.

Comencemos con el concepto de pivote: diremos que una entrada de una matriz es un pivote si es el primer elemento distinto de cero en una fila.

Diremos que una matriz se encuentra en forma escalonada si se cumple: 1. Todas las filas nulas se encuentran hasta abajo; 2. Todos los pivotes de filas no-nulas tienen valor 1; 3. El pivote de cada fila se encuentra la derecha del pivote de una fila superior. Es fácil identificar las matrices en forma escalonada porque parecen “estar en escalerita”. Por ejemplo, la matriz
(191101230011)
se encuentra en forma escalonada, mientras que las matrices
(102400920300)y(068500000092)
no lo están. ¿Puedes justificar por qué?

Por su parte, diremos que una matriz se encuentra en forma escalonada reducida si está en forma escalonada y, además, si hay un pivote en alguna fila, todas las entradas que no sean pivote en la misma columna del pivote son iguales a 0 (Ojo. Siempre hablamos de pivotes de renglones).

Por ejemplo, la matriz
(101001300001)
está en forma escalonada reducida.

Como recordarás de la entrada anterior, un sistema de ecuaciones lineales
{a11x1+a12x2++a1nxn=b1a21x1+a22x2++a2nxn=b2am1x1+am2x2++amnxn=bm
se puede codificar como
(a11a12a1na21a22a2nam1am2amn)(x1x2xn)=(b1b2bm).

Como podemos cambiar el nombre de las variables, pero el vector de soluciones sigue siendo el mismo, es común codificar el sistema como una única matriz aumentada
(a11a12a1na21a22a2nam1am2amn | b1b2bm).

Aquí pusimos una línea vertical, pero sólo es por ayuda visual. Esa matriz la puedes tratar como cualquier matriz que hemos platicado.

Teniendo esto en cuenta, las matrices en forma escalonada reducida nos son de gran utilidad al resolver sistemas de ecuaciones lineales. Por ejemplo, consideremos el sistema
{x+3y+2w=8z+w=9,
el cual tiene como matriz aumentada a
(13020011 | 89),
la cual se encuentra en forma escalonada.

Gracias a que la matriz está en forma escalonada, podemos elegir en orden inverso w, z, y, x a las variables libres y pivote como en la entrada anterior. En este caso, podemos elegir como queramos el valor de w (w es variable libre). Usando la segunda ecuación, podemos despejar z en términos de w (z es variable pivote). Estos dos valores los sustituimos en la primera ecuación y notamos que y puede ser lo que queramos (y es variable libre). Finalmente, x queda totalmente determinado por las demás variables (x es pivote). Las variables pivote justo corresponden a columnas de la matriz que tengan pivote de alguna fila.

La ventaja de la forma escalonada es que podremos ir obteniendo fácilmente el valor de cada variable “de abajo hacia arriba”. En el caso de un sistema cuya matriz se encuentre en forma escalonada reducida, será aún más sencillo pues ya no tendremos que sustituir valores y obtenemos el despeje directamente.

Teorema de reducción de Gauss-Jordan

El siguiente teorema relaciona las operaciones elementales por filas con la forma escalonada reducida de una matriz.

Teorema (de reducción de Gauss-Jordan o reducción gaussiana). Cualquier matriz con entradas reales se puede a una forma escalonada reducida aplicando una cantidad finita de pasos.

A continuación presentamos un algoritmo con el cual podemos pasar de una matriz arbitraria a una matriz en su forma escalonada reducida. Para hacer más sencilla su aplicación, nos enfocaremos en comprender la estrategia que sigue el algoritmo. La descripción formal del algoritmo y demostración de que en efecto funciona como esperamos es un tema que abordarás en el curso de Álgebra Lineal I (puedes echarle un ojo a esta entrada).

Primeramente, describiremos los pasos del algoritmo, al que se le conoce como reducción de Gauss-Jordan o reducción gaussiana.

Estrategia: Iremos arreglando la matriz de izquierda a derecha. Para ello, haremos los siguientes pasos repetidamente.

  1. Buscamos la primera columna de la matriz (de izquierda a derecha) que no tenga puros ceros.
  2. Una vez encontrada dicha columna, buscamos la primera entrada (de arriba hacia abajo) que no sea cero.
  3. Pasamos la fila que contiene a dicha entrada hasta arriba mediante la operación de transposición.
  4. Multiplicamos cada entrada de la fila que acabamos de mover hasta arriba por el inverso multiplicativo de su primera entrada (aquí usamos la operación de reescalamiento). La primera entrada de esta fila ahora será 1.
  5. Mediante la operación de transvección, sustraemos múltiplos de la primera fila al resto de renglones de la matriz, de modo que el resto de los valores en la columna correspondiente a la primera entrada de la fila en la que estamos trabajando pasen a ser 0 (como puedes observar, la entrada primera entrada no-nula de la fila en la que estamos trabajando ahora será un pivote).
  6. Ignorando la primera fila, buscamos la primera columna (de izquierda a derecha) que no tenga puros ceros.
  7. Repetimos los pasos anteriores (2 a 6), pero ahora, en vez de mover la fila con la que estamos trabajando “hasta arriba”, la moveremos inmediatamente después de la última fila con la que trabajamos.
  8. Hacemos esto hasta haber arreglado todas las columnas.

Ejemplo de reducción de Gauss-Jordan

Ahora, como ejemplo, veamos cómo podemos implementar este algoritmo en la matriz
(01234101233110201111),
la cual, si la consideramos como la matriz aumentada
(0123101231100111 | 4321),
corresponde al sistema de ecuaciones
{y+2z+3w=4x+z+2w=23x+yz=0y+z+w=1.

Buscamos la primera la primera columna no nula, la cual resulta ser la primera columna de la matriz. En esta columna, vemos que la segunda entrada es la primera entrada distinta de cero. Entonces, mediante trasposicón, intercambiamos las filas 1 y 2 (“movemos la segunda columna hasta arriba”):
(10123012343110201111).

Ahora, nos fijamos en la primera entrada no nula de la primera fila, que es 1, y reescalamos la fila por su inverso multiplicativo, que es 1:
((1)(1)(1)(0)(1)(1)(1)(2)(1)(3)012343110201111)=(10123012343110201111).

Ahora, observamos el valor de la primera entrada de la tercera fila, el cual es 3. Entonces, mediante transvección, sumamos 3 veces la fila 1 a la fila 3:
(10123012343+(3)(1)1+(3)(0)1+(3)(1)0+(3)(2)2+(3)(3)01111)=(101230123401261101111),
y realizamos lo mismo, pero ahora considerando la fila 4.
(10123012340126110+(0)(1)1+(0)(0)1+(0)(1)1+(0)(2)1+(0)(3))=(101230123401261101111)
Como puedes observar, ninguna de las transvecciones influye en la otra, de manera que las podemos enlistar en un único paso. Además, al hacer una transvección con escalar 0 no cambia nada de la fila, así que estas no se necesita hacerlas.

Ahora, ignorando la última fila con la que trabajamos (que es la primera), buscamos la primera columna no-nula, que en este caso será la segunda, posteriormente buscamos el primer elemento no nulo de la columna, el cual se encuentra en la segunda fila, y la “movemos enseguida de la última fila con la que trabajamos” (en este caso no tendríamos que realizar ninguna transposición, o bien, la transposición sería la de la segunda fila consigo misma, ya que ya se encuentra en seguida de la última fila con la que trabajamos). Después, reescalamos por el inverso multiplicativo del primer elemento no nulo de la fila, que es 1:
(10123(1)(0)(1)(1)(1)(2)(1)(3)(1)(4)01261101111)=(101230123401261101111)
(observa que reescalar por 1 deja todas las entradas iguales) y posteriormente realizamos las transvecciones necesarias para que el resto de entradas de la segunda columna sean cero.
(10+(0)(1)1+(0)(2)2+(0)(3)3+(0)(4)0123401+(1)(1)2+(1)(2)6+(1)(3)11+(1)(4)01+(1)(1)1+(1)(2)1+(1)(3)1+(1)(4))=(10123012340003700123)

De manera similar, ignorando ahora las primeras dos filas, buscamos la primera columna no-nula, la cual corresponde ahora a la tercera, y buscamos el primer elemento no-nulo de esta columna, el cual se encuentra en la cuarta fila. Entonces, transponemos las filas 3 y 4 para que el primer elemento no-nulo quede inmediatamente después de la última fila con la que trabajamos:
(10123012340012300037).

Seguidamente, reescalamos la tercera fila,
(1012301234(1)(0)(1)(0)(1)(1)(1)(2)(1)(3)00037)=(10123012340012300037)
y relizamos las transvecciones necesarias:
(1+(1)(0)0+(1)(0)1+(1)(1)2+(1)(2)3+(1)(3)0+(2)(0)1+(2)(0)2+(2)(1)3+(2)(2)4+(2)(3)0012300037)=(10000010120012300037).

Finalmente, como nuestra última columna no cero es la cuarta y la primera fila no cero (ignorando las filas que ya tienen pivote) tiene un 3, reescalamos de la siguiente manera:
(100000101200123(1/3)(0)(1/3)(0)(1/3)(0)(1/3)(3)(1/3)(7))=(10000010120012300017/3),

Y hacemos las transvecciones necesarias:
(100000+(1)(0)1+(1)(0)0+(1)(0)1+(1)(1)2+(1)(7/3)0+(2)(0)0+(2)(0)1+(2)(0)2+(2)(1)3+(2)(7/3)00017/3)=(1000001001/300105/300017/3).

Notemos que si consideramos esta matriz como la matriz aumentada
(1000010000100001 | 01/35/37/3),
este corresponde al sistema
{x=0y=1/3z=5/3w=7/3,
del cual sabemos inmediatamente su solución. Como mencionamos anteriormente, los sistemas de ecuaciones asociados a la matriz original y la matriz escalonada reducida resultante de aplicar operaciones elementales por filas, consideradas como matrices aumentadas, tienen las mismas soluciones. Entonces, ¡este último sistema es la solución para nuestro sistema de ecuaciones original!

Como podemos ver, los sistemas de ecuaciones asociados a una matriz en su forma escalonada reducida son fáciles de resolver por que vamos escogiendo valores arbitrarios para las variables en posición que no es pivote, mientras que podemos obtener el valor de las variables que son pivote mediante despejes sencillos.

Recuerda que este algoritmo funciona para cualquier matriz con entradas reales. ¿Podrías proponer otro sistema de ecuaciones e implementar la misma estrategia para resolverlo?

Más adelante…

Ahora vimos una estrategia para resolver sistemas de ecuaciones lineales de distintos tamaños. En las siguientes entradas conoceremos más propiedades sobre las matrices. Estas nuevas propiedades también juegan un rol fundamental en poder determinar de manera más rápida cuándo un sistema de ecuaciones lineales tiene solución, y tener otras alternativas para resolverlo bajo ciertas condiciones.

Tarea moral

  1. Aplica reducción gaussiana a las siguientes matrices:
    (52135),(110101011).
  2. Resuelve el siguiente sistema de ecuaciones llevándolo a forma escalonada reducida, y luego aplicando a técnica de variables libres y pivote:
    {a+b+c+d+e=52a+2b3c3d+e=5ab+cd+e=0.
  3. Sea I la matriz identidad de n×n y A otra matriz de n×n. Sea E la matriz obtenida de aplicar una transvección a I. Sea B la matriz de aplicar esa misma transvección a A. Demuestra que EA=B.
  4. Demuestra que una matriz A de 2×2 es invertible si y sólo si al aplicar reducción de Gauss-Jordan al final se obtiene la matriz identidad I. ¿Puedes hacerlo para matrices de 3×3? ¿De n×n?
  5. Sea A una matriz de 2×2 invertible. A A le «pegamos» una identidad del mismo tamaño a la derecha para llegar a (A|I), por ejemplo (abcd) se convertiría en (ab10cd01). Muestra que si aplicamos reducción de Gauss-Jordan a (A|I), se llega a (I|A1). Intenta extender tu demostración a matrices de 3×3 ó n×n.

Entradas relacionadas

Álgebra Superior I: Producto de matrices con matrices

Por Eduardo García Caballero

Introducción

Hasta ahora hemos conocido varias operaciones que involucran escalares, vectores y matrices. En esta entrada aprenderemos sobre una de las operaciones más importantes en el álgebra lineal: el producto de matrices con matrices.

Definición de producto de matrices

Para poder efectuar el producto de dos matrices, hay que asegurarnos de que el número de columnas de la primera matriz sea igual al número de filas de la segunda matriz.

El resultado de una matriz A de tamaño m×n por una matriz B de tamaño n× será la matriz C=AB de tamaño m×, donde la entrada cij de C está dada por la fórmula
cij=ai1b1j+ai2b2j++ainbnj.

A primera vista esta fórmula puede parecer complicada, sin embargo, practicando con algunos ejemplos verás que es muy fácil de implementar.

  • Producto de matrices de tamaño 2×2:

Sean
A=(1357)yB=(2468).

Como estamos multiplicando una matriz de tamaño 2×2 por una matriz de tamaño 2×2, sabemos que el resultado será otra matriz de tamaño 2×2. Ahora, iremos calculando una por una sus entradas.

Sea C=AB. Para calcular la entrada c11 observamos la primera fila de A y la primera columna de B, las cuales son
A=(1357)yB=(2468),
de modo que c11=(1)(2)+(3)(6)=20:
AB=(20285276).

Para la entrada c12, nos fijamos en la primera columna de A y en la segunda columna de B, que son
A=(1357)yB=(2468),
obteniendo c12=(1)(4)+(3)(8)=28:
AB=(20285276).

De manera similar, observemos la segunda fila de A y la primera columna de B,
A=(1357),B=(2468),
obteniendo c21=(5)(2)+(7)(6)=52, mientras que la segunda fila de A y la segunda columna de B son
A=(1357),B=(2468),
obteniendo c22=(5)(4)+(7)(8)=76.

Por lo tanto,
AB=(20285276).

En general, el resultado del producto de las matrices
A=(a11a12a21a22)yB=(b11b12b21b22)
es
AB=(a11a12a21a22)(b11b12b21b22)=(a11b11+a12b21a11b12+a12b22a21b11+a22b21a21b12+a22b22).

  • Producto de matriz de 3×2 por matriz de 2×2:

Supongamos que
A=(351043)yB=(7852).

En este caso, como estamos multiplicando una matriz de tamaño 3×2 por una matriz de tamaño 2×2, la matriz resultante tendrá tamaño 3×2.

Podemos obtener sus entradas de manera similar al caso anterior. Si C=AB, entonces la entrada c12 la podemos encontrar revisando la primera fila de A y la segunda columna de B,
A=(351043),B=(7852).
de modo que c12=(3)(8)+(5)(2)=34. Por su parte, para obtener la entrada c31 nos fijamos en la tercera fila de A y la primera columna de B,
A=(351043),B=(7852).
obteniendo c31=(4)(7)+(3)(5)=43.

¿Podrías comprobar que
AB=(4634784338)?

Así, para el caso general de matrices de 3×2 por 2×2, obtendremos
(a11a12a21a22a31a32)(b11b12b21b22)=(a11b11+a12b21a11b12+a12b22a21b11+a22b21a21b12+a22b22a31b11+a32b21a31b12+a32b22).

  • Producto de matriz de 4×2 por matriz de 2×3:

¿Podrías verificar que la siguiente fórmula es correcta?
(a11a12a21a22a31a32a41a42)(b11b12b13b21b22b23)=(a11b11+a12b21a11b12+a12b22a11b13+a12b23a21b11+a22b21a21b12+a22b22a21b13+a22b23a31b11+a32b21a31b12+a32b22a31b13+a32b23a41b11+a42b21a41b12+a42b22a41b13+a42b23).

Propiedades del producto de matrices

A continuación revisaremos algunas de las propiedades que cumple la multiplicación de matrices. Para demostrar las siguientes propiedades, consideraremos la matriz A de tamaño 3×2 y las matrices B y C de tamaño 2×2, aunque se pueden probar para matrices de cualesquier otro tamaño entre las cuales se puedan efectuar las operaciones.

Veamos que si efectuamos la multiplicación de una matriz de tamaño m×n por una matriz de tamaño n×1 siguiendo el algoritmo descrito anteriormente, el resultado coincide con el de multiplicar la matriz de tamaño m×n por un vector de tamaño n. Por ejemplo, si multiplicamos A por una matriz U de tamaño 2×1, obtendremos
(a11a12a21a22a31a32)(u11u12)=(a11u11+a12u21a21u11+a22u21a31u11+a32u21).

Esta es una observación importante pues todo lo que demostremos para el producto de matrices también lo tendremos para el producto de matriz por vector.

Veamos que la multiplicación de matrices es asociativa:

(AB)C=((a11a12a21a22a31a32)(b11b12b21b22))(c11c12c21c22)=(a11b11+a12b21a11b12+a12b22a21b11+a22b21a21b12+a22b22a31b11+a32b21a31b12+a32b22)(c11c12c21c22)=((a11b11+a12b21)c11+(a11b12+a12b22)c21(a11b11+a12b21)c12+(a11b12+a12b22)c22(a21b11+a22b21)c11+(a21b12+a22b22)c21(a21b11+a22b21)c12+(a21b12+a22b22)c22(a31b11+a32b21)c11+(a31b12+a32b22)c21(a31b11+a32b21)c12+(a31b12+a32b22)c22)=(a11(b11c11+b12c21)+a12(b21c11+b22c21)a11(b11c12+b12c22)+a12(b21c12+b22c22)a21(b11c11+b12c21)+a22(b21c11+b22c21)a21(b11c12+b12c22)+a22(b21c12+b22c22)a31(b11c11+b12c21)+a32(b21c11+b22c21)a31(b11c12+b12c22)+a32(b21c12+b22c22))=(a11a12a21a22a31a32)(b11c11+b12c21b11c12+b12c22b21c11+b22c21b21c12+b22c22)=(a11a12a21a22a31a32)((b11b12b21b22)(c11c12c21c22))=A(BC).

De manera muy similar, si u es un vector de tamaño 2, podemos ver que se cumple que A(Bu)=(AB)u. ¿Puedes demostrarlo? Hazlo por lo menos para matrices A y B ambas de 2×2.

Quizás tengas la impresión de que hay que hacer demasiadas cuentas y que sería sumamente difícil demostrar estas propiedades para matrices más grandes. Sin embargo, en cursos posteriores verás cómo trabajar apropiadamente con la notación para poder hacer estas demostraciones más fácilmente.

El producto de matrices es asociativo. Sin embargo, no es conmutativo. Por ejemplo, consideremos las matrices
E=(5730)yF=(1291).


Veamos que
EF=(68336)(174863)=FE.

En términos de combinar el producto de matrices con otras operaciones, tenemos que el producto de matrices por la izquierda se distribuye sobre la suma de matrices:
A(B+C)=(a11a12a21a22a31a32)((b11b12b21b22)+(c11c12c21c22))=(a11a12a21a22a31a32)(b11+c11b12+c12b21+c21b22+c22)=(a11(b11+c11)+a12(b21+c21)a11(b12+c21)+a12(b22+c22)a21(b11+c11)+a22(b21+c21)a21(b12+c21)+a22(b22+c22)a31(b11+c11)+a32(b21+c21)a31(b12+c21)+a32(b22+c22))=(a11b11+a11c11+a12b21+a12c21a11b12+a11c11+a12b22+a12c22a21b11+a21c11+a22b21+a22c21a21b12+a21c12+a22b22+a22c22a31b11+a31c11+a32b21+a32c21a31b12+a31c12+a32b22+a32c22)=(a11b11+a12b21a11b12+a12b22a21b11+a22b21a21b12+a22b22a31b11+a32b21a31b12+a32b22)+(a11c11+a12c21a11c12+a12c22a21c11+a22c21a21c12+a22c22a31c11+a32c21a31c12+a32c22)=(a11a12a21a22a31a32)(b11b12b21b22)+(a11a12a21a22a31a32)(c11c12c21c22)=AB+AC.

El producto también se distribuye sobre la suma cuando la suma aparece a la izquierda. ¿Podrías probar que si D es una matriz de tamaño 3×2, entonces se cumple (A+D)B=AB+DB?

En entradas anteriores vimos que In tiene la propiedad de ser neutro al multiplicarla por un vector de tamaño n. Resulta que In también tiene esta propiedad al multiplicarla por la izquierda por una matriz de tamaño n×m. Por ejemplo, veamos que al multiplicar I3 por la izquierda por A, obtenemos
I3A=(100010001)(a11a12a21a22a31a32)=(1a11+0a21+0a311a12+0a22+0a320a11+1a21+0a310a12+1a22+0a320a11+0a21+1a310a12+0a22+1a32)=(a11a12a21a22a31a32)=A.

¿Podrías probar que AI2=A (es decir, que I2 es neutro por la derecha para A)?

Habiendo visto que el producto de matrices es asociativo, conmutativo y tiene neutros, probablemente te estarás preguntando si existen inversos en la multiplicación de matrices. Este cuestionamiento lo dejaremos para la siguiente entrada.

Relación con la composición de transformaciones

Como vimos en la entrada anterior, una forma de visualzar el producto de una matriz A por un vector u es como una transformación que envía el vector u a un único vector Au.

Teniendo en mente esto, veamos que la propiedad de que A(Bu)=(AB)u resulta aún más interesante. Para esto, veamos que el siguiente ejemplo: sean
A=(0211),B=(1230),yu=(12).

Si multiplicamos B por u, vemos que corresponde a la transformación que envía u=(12) al vector Bu=(53).

Ahora, si multiplicamos A por el vector Bu, vemos que corresponde a la transformación que envía Bu al vector A(Bu)=(68) (Acabamos de obtener el resultado de aplicar a u la composición de las transformaciones B y A).

Por otra parte, si realizamos la multiplicación
AB=(0211)(1230)=(6042),
la transformación asociada a AB envía u al vector (AB)u=(68).

¡La composición de las transformaciones asociadas a B y A aplicada al vector u coincide con la transformación asociada a la matriz AB aplicada al mismo vector!

Si probamos esto para un vector arbitrario, nos daremos cuenta de que en todos los casos se cumple lo mismo. En realidad, esto no es una coincidencia: como aprenderás en tus cursos de álgebra lineal, la composición de transformaciones lineales está directamente asociada al producto de matrices.

Potencias de matrices

Podemos ver que si una matriz A es cuadrada, al tener el mismo número de filas que de columnas, entonces podemos realizar la multiplicaciones AA, AAA, AAAA, etc., que por asociatividad no importa en qué orden multipliquemos. Esto nos sugiere que podemos cacular potencias de matrices.

Para una matriz cuadrada A, definiremos de manera recursiva la potencia An:

  • Definimos A0=I.
  • Dada An, con n un número natural, definimos An+1=AnA.

Por ejemplo, si
A=(2134),
calculemos A3 empleando la definición recursiva. Para esto, iremos calculando una por una las potencias de A, hasta llegar a A3:
A0=I=(1001),A1=A0A=(1001)(2134)=(2134),A2=A1A=(2134)(2134)=((2)(2)+(1)(3)(2)(1)+(1)(4)(3)(2)+(4)(3)(3)(1)+(4)(4))=(761819),A3=A2A=(761819)(2134)=((7)(2)+(6)(3)(7)(1)+(6)(4)(18)(2)+(19)(3)(18)(1)+(19)(4))=(32319394).

Prueba calcular algunas potencias de la matriz (2003). ¿Notas algún patrón especial?

Más adelante…

En esta entrada aprendimos sobre el producto de matrices con matrices y conocimos algunas de sus propiedades. En la siguiente entrada abordaremos la pregunta sobre si existen los inversos en la multiplicación de matrices.

Tarea moral

  1. Realiza el producto de matrices (123012113)(111111111).
  2. Considera la matriz A=(3445). Realiza las siguientes operaciones por separado, sin usar la asociatividad del producto de matrices. ¿Cuál de las dos operaciones te resultó más fácil de hacer?
    • A(A(A(A(23)))).
    • (((AA)A)A)(23).
  3. Completa las pruebas faltantes de las propiedades de la multiplicación de matrices.
  4. Demuestra la siguiente ley de exponentes para matrices: AmAn=Am+n.
  5. Prueba que si
    A=(a1100a22),
    y k es un entero mayor o igual que 0, entonces
    Ak=(a11k00a22k)
    (Sugerencia: realizarlo por inducción sobre k, utilizando la definición recursiva).
  6. Encuentra matrices A y B de 2×2 para las cuales A2B2(A+B)(AB).

Entradas relacionadas

Álgebra Superior I: Matrices invertibles

Por Eduardo García Caballero

Introducción

En la entrada anterior definimos el producto de matrices con matrices y exploramos algunas de sus propiedades, siendo varias de estas familiares: el producto de matrices es asociativo, conmutativo y tiene elemento neutro. En esta entrada exploraremos una pregunta que quedó abierta: ¿el producto de matrices cumple con tener inversos?

Definición de matrices invertibles

Diremos que una matriz cuadrada A es invertible si y sólo si tiene inverso multiplicativo; es decir, si existe una matriz B tal que AB=BA=I.

Observemos para que la definción anterior tenga sentido, es indispensable que A sea cuadrada, pues veamos que si A es de tamaño m×n, entonces para que los productos AB y BA estén definidos, B tendrá que ser de tamaño n×m. Así, AB será de tamaño m×n y BA de tamaño n×n, y como AB=BA, entonces m=n, y, por tanto, AB=BA=In (y con ello también observamos que B tiene que ser cuadrada de tamaño n×n).

Un ejemplo de una matriz de 2×2 que es invertible es
A=(1235)
que tiene como inversa a la matriz
B=(5231),
pues
AB=(1235)(5231)=((1)(5)+(2)(3)(1)(2)+(2)(1)(3)(5)+(5)(3)(3)(2)+(5)(1))=(1001)=I2
y
BA=(5231)(1235)=((5)(1)+(2)(3)(5)(2)+(2)(5)(3)(1)+(1)(3)(3)(2)+(1)(5))=(1001)=I2.
Por lo tanto,
AB=BA=I2.

Algo que seguramente te preguntarás es si cualquier matriz cuadrada tiene un inverso multiplicativo. A diferencia de otros tipos de operaciones con inversos, el producto de matrices no siempre cumple con tenerlos: un ejemplo de esto es la matriz
A=(2100)
la cual, al multiplicarla por cualquier matriz
B=(abcd)
por la derecha, nos da como resultado
AB=(2100)(abcd)=(2a+c2b+,d00),
y como en cualquier caso obtenemos que su entrada en la posición (2,2) es 0, tenemos que AB es distinta a I2, pues la entrada en la posición (2,2) de esta última es 1.

Propiedades de matrices invertibles

A continuación exploraremos algunas de las propiedades que cumplen las matrices invertibles.

Primeramente, veamos que si una matriz A de n×n es invertible, entonces su inversa será única. Para demostrar esto, supongamos que B y C son ambas inversas multiplicativas de A; es decir, AB=BA=In y AC=CA=In. Entonces,
AB=ACB(AB)=B(AC)(BA)B=(BA)CInB=InCB=C.

Como la matriz inversa de A es única, usualmente la denotamos como A1.

Por otra parte, veamos que si A y B son matrices invertibles, con inversas A1 y B1, respectivamente, entonces, si podemos multiplicar A y B (es decir, si A y B son del mismo tamaño), entonces AB es invertible, pues se cumple que
(AB)(B1A1)=A(BB1)A1=AInA1=AA1=In,
y también que
(B1A1)(AB)=B1(A1A)B=B1InB=B1B=In,
es decir, B1A1 es la matriz inversa de AB, lo cual denotamos como (AB)1=B1A1.

Finalmente, recordando la interpretación geométrica que dimos a la multiplicación de matrices por vectores, y la propiedad de que A(Bu)=(AB)u, entonces notamos que
A1(Au)=(A1A)u=Iu=u.

Como la transformación correspondiente a A envía el vector u al vector Au, y como el resultado de aplicar (A1A)u deja al vector u en su lugar, esto nos dice que la transformación correspondiente a A1 es aquella que regresa el vector Au a su posición original.

En la siguiente imagen se visualiza esta propiedad para el caso en el que
A=(3142)yu=(12).

Formula para inversa de matrices de 2×2

Más arriba vimos que hay matrices que sí tienen inversa, mientras que otras no tienen. Para el caso de matrices de 2×2, tendremos que
A=(abcd)
es invertible si y sólo si se cumple que adbc0.

En dado caso, la inversa de A será la matriz
A1=1adbc(dbca)=(dadbcbadbccadbcaadbc).

Por ejemplo, veamos que si
A=(abcd)=(1223),
entonces adbc=(1)(3)(2)(2)=3(4)=70, por lo que podemos garantizar que A tiene matriz inversa, la cual es
A1=1adbc(dbca)=17(3221)=(3/72/72/71/7).

Verificamos que
AA1=(1223)(3/72/72/71/7)=((1)(3/7)+(2)(2/7)(1)(2/7)+(2)(1/7)(2)(3/7)+(3)(2/7)(2)(2/7)+(3)(1/7))=(1001)=I2
y
A1A=(3/72/72/71/7)(1223)=((3/7)(1)+(2/7)(2)(3/7)(2)+(2/7)(3)(2/7)(1)+(1/7)(2)(2/7)(2)+(1/7)(3))=(1001)=I2.

De manera similar, veamos que la matriz
(3412)
es invertible pues (3)(2)(4)(1)=20. ¿Puedes calcular su inversa?

Por el contrario, veamos que en la matriz
(6432)
tenemos que (6)(2)(4)(3)=1212=0, y, por tanto, no es invertible.

Para el caso de matrices de mayor tamaño, también existen condiciones y fórmulas para calcular sus inversas, sin embargo, estas no resultan tan sencillas. Será necesario que comprendamos más propiedades de las matrices para poder obtenerlas.

Más adelante…

En esta entrada conocimos una propiedad más que cumplen las matrices respecto a su producto, que es la de tener inverso multiplicativas; también vimos las condiciones bajo las cuales una matriz de 2×2 puede tener inverso, y revisamos su fórmula.

En la siguiente entrada, conoceremos una nueva operación, la cual se distinguirá de todas las que hemos visto hasta ahora, pues esta operación involucra a una única matriz a la vez.

Tarea moral

  1. ¿Para qué valores de a se cumple que
    (5a22a)
    es invertible?
  2. Muestra que si A, B y C son matrices invertibles del mismo tamaño, entonces
    (ABC)1=C1B1A1.
  3. Muestra que si A es una matriz invertible y k es un entero positivo, entonces Ak también es invertible y (Ak)1=(A1)k.
  4. ¿Por qué la matriz
    (340720000)
    no es invertible?
  5. Muestra que en efecto el criterio que dimos para que una matriz A=(abcd) tenga inversa es suficiente y necesario. Para la parte de que es suficiente, tendrás que ver que si adbc0, la matriz propuesta en la entrada siempre funciona como inversa. Para ver que es necesario, supón que adbc=0. En este caso, ad=bc y podrás encontrar a partir de a,b,c,d a dos vectores distintos u y v tales que Au=Av. Esto mostrará que la transformación asociada a A no es inyectiva y por tanto no podrá tener inversa, así que A tampoco tendrá inversa.

Entradas relacionadas