Archivo de la etiqueta: sistema de ecuaciones

Geometría Analítica I: Intersección de rectas en forma normal

Por Leonardo Ignacio Martínez Sandoval

Introducción

Una pregunta geométrica muy natural es determinar cómo es la intersección de dos objetos geométricos, es decir, cuales son aquellos puntos que pertenecen a ambos. En el caso de las rectas, eso tiene una respuesta sencilla: la intersección de dos rectas puede ser vacía (cuando son paralelas), o bien un único punto, o bien una recta (cuando son la misma recta).

Como veremos a continuación, esto es sencillo de formalizar utilizando la forma normal de las rectas. Más aún, la forma normal nos ayudará a detectar mediante una cuenta sencilla exactamente en cuál de los casos anteriores nos encontramos. Así mismo, en caso de estar en la caso de que la intersección sea un único punto, también nos dará un procedimiento para encontrar sus coordenadas.

¿Cuándo dos vectores son paralelos?

Antes de estudiar concretamente la intersección de dos rectas, vamos a apoyarnos de la intuición que hemos desarrollado. Si tenemos rectas en forma normal correspondientes a vectores normales $u$ y $v$, entonces sabemos que las rectas son perpendiculares, respectivamente a los vectores $u$ y $v$. Si estos vectores están en la misma dirección, entonces las rectas también. Por ello, las rectas serán paralelas y entonces la intuición nos dice que o bien no se intersectarán, o bien serán la misma recta. Parece ser entonces importante encontar un criterio algebraico para saber cuándo dos vectores son paralelos o no.

Consideremos dos vectores no nulos $u=(u_1,u_2)$ y $v=(v_1,v_2)$. ¿Cuándo estos vectores son paralelos? Como los vectores están anclados en el origen, esto sucede únicamente cuando o bien $u$ es múltiplo escalar de $v$, o bien $v$ es múltiplo escalar de $u$. De esto sale el siguiente criterio algebraico:

Proposición. Tomemos dos vectores no nulos $u=(u_1,u_2)$ y $v=(v_1,v_2)$. Estos vectores son paralelos si y sólo si la expresión $u_1v_2-u_2v_1$ es igual a cero.

Demostración. Demostraremos la proposición en ambas direcciones.

$(\Rightarrow)$ Supongamos que los vectores $u=(u_1,u_2)$ y $v=(v_1,v_2)$ son paralelos. Si $u$ y $v$ son paralelos, entonces uno es un múltiplo escalar del otro. Sin pérdida de generalidad, supongamos que $u = k v$ para algún escalar $k \in \mathbb{R}$. Esto significa que:

$$u_1 = kv_1 \quad \text{y} \quad u_2 = kv_2.$$

Sustituyendo estas expresiones en $u_1v_2-u_2v_1$, obtenemos:

\begin{align*} u_1v_2-u_2v_1 &= (kv_1)v_2 – (kv_2)v_1 \\ &= kv_1v_2 – kv_2v_1 \\ &= 0. \end{align*}

Por lo tanto, si $u$ y $v$ son paralelos, entonces $u_1v_2-u_2v_1 = 0$.

$(\Leftarrow)$ Ahora supongamos que $u_1v_2-u_2v_1 = 0$. Queremos demostrar que $u$ y $v$ son paralelos. La condición $u_1v_2-u_2v_1 = 0$ se puede reescribir como $u_1v_2 = u_2v_1$.

Como $v$ no es el vector nulo, tenemos los siguientes casos:

  • Caso 1: $v_1 \neq 0$. De la igualdad $u_1v_2 = u_2v_1$, podemos despejar $u_2$ como $u_2 = \frac{u_1v_2}{v_1}$. Definamos $k = \frac{u_1}{v_1}$. Entonces, $u_1 = kv_1$. Sustituyendo $u_1$ en la expresión para $u_2$: $$u_2 = \frac{(kv_1)v_2}{v_1} = kv_2.$$ Así, tenemos $u_1 = kv_1$ y $u_2 = kv_2$, lo que implica que $$u = (u_1, u_2) = (kv_1, kv_2) = k(v_1, v_2) = kv.$$ Por lo tanto, $u$ es un múltiplo escalar de $v$, y son paralelos.
  • Caso 2: $v_1 = 0$. Dado que $v \neq (0,0)$, si $v_1 = 0$, entonces $v_2 \neq 0$. La condición $u_1v_2 = u_2v_1$ se convierte en $u_1v_2 = u_2 \cdot 0$, lo que implica $u_1v_2 = 0$. Como $v_2 \neq 0$, debemos tener $u_1 = 0$. En este subcaso, los vectores son $v=(0,v_2)$ y $u=(0,u_2)$. Estos vectores son paralelos pues ambos están en el eje $y$. Más concretamente, $u=\frac{u_2}{v_2} v$.

En ambos casos, si $u_1v_2-u_2v_1 = 0$, los vectores $u$ y $v$ son paralelos.

$\square$

Así, la expresión $u_1v_2-u_2v_1$ parece ser muy importante para nuestro problema de determinar la intersección de dos rectas. En efecto, en las siguientes secciones volverá a aparecer.

Intersección de rectas en forma normal

La siguiente proposición nos dice exactamente cómo es la intersección de dos rectas una vez que las tenemos en forma normal.

Proposición. Sean $a_1,a_2$ vectores no nulos de $\mathbb{R}^2$ y $b_1,b_2$ número reales. Consideremos las siguientes dos rectas en forma normal:

\begin{align*}
\ell_1 &= \{(x,y) \in \mathbb{R}^2: a_1 \cdot (x,y) = b_1\} \\
\ell_2 &= \{(x,y) \in \mathbb{R}^2: a_2 \cdot (x,y) = b_2\}.
\end{align*}

La intersección de estas rectas tiene las siguientes posibilidades:

  • Si $a_1$ y $a_2$ no son vectores paralelos, entonces la intersección de $\ell_1$ y $\ell_2$ es única.
  • Si $a_1$ y $a_2$ son vectores paralelos, entonces $a_1=ka_2$ para algún real $k$:
    • Si $b_1=kb_2$, entonces ambas ecuaciones representan la misma recta y entonces la intersección es ella misma.
    • Si $b_1\neq kb_2$, entonces las rectas son distintas y paralelas y por lo tanto tienen intersección vacía.

Demostración. Vayamos por casos. Nombremos $a_1=(a_{11},a_{12})$ y $a_2=(a_{21},a_{22})$.

Las ecuaciones de las rectas son:

$$
\begin{cases}
a_{11}x + a_{12}y = b_1 \\
a_{21}x + a_{22}y = b_2
\end{cases}
$$

Esto es un sistema de ecuaciones lineales. Analicemos las posibilidades:

  • Caso 1: $a_1$ y $a_2$ no son vectores paralelos. Según la proposición anterior, dos vectores $a_1=(a_{11},a_{12})$ y $a_2=(a_{21},a_{22})$ no son paralelos si y sólo si la expresión $a_{11}a_{22}-a_{12}a_{21}$ es distinta de cero. Multiplicando la primera ecuación por $a_{21}$ y la segunda ecuación por $a_{11}$ obtenemos lo siguiente:
    \begin{align*} a_{21}(a_{11}x + a_{12}y) &= a_{21}b_1 \\ a_{11}(a_{21}x + a_{22}y) &= a_{11}b_2 \end{align*}
    Lo que resulta en el sistema equivalente:
    \begin{align*} a_{11}a_{21}x + a_{12}a_{21}y &= a_{21}b_1 \\ a_{11}a_{21}x + a_{11}a_{22}y &= a_{11}b_2 \end{align*}
    Restando la primera ecuación de la segunda, eliminamos $x$ y obtenemos:
    \begin{align*} (a_{11}a_{21}x + a_{11}a_{22}y) – (a_{11}a_{21}x + a_{12}a_{21}y) &= a_{11}b_2 – a_{21}b_1 \\ (a_{11}a_{22} – a_{12}a_{21})y &= a_{11}b_2 – a_{21}b_1 \end{align*}
    Dado que $a_{11}a_{22}-a_{12}a_{21} \neq 0$, podemos despejar $y$ para obtener un valor único. De manera análoga, se puede encontrar un valor único para $x$. Esto demuestra que existe una única solución $(x,y)$ para el sistema, lo que significa que la intersección de $\ell_1$ y $\ell_2$ es única.
  • Caso 2: $a_1$ y $a_2$ son vectores paralelos, y $b_1=kb_2$ para algún $k \in \mathbb{R}$. Si $a_1$ y $a_2$ son paralelos, entonces $a_1 = ka_2$ para algún escalar $k \in \mathbb{R}$ (ya que $a_1$ y $a_2$ son vectores no nulos). Esto implica que $a_{11} = ka_{21}$ y $a_{12} = ka_{22}$. La ecuación de la recta $\ell_1$ es $a_{11}x + a_{12}y = b_1$. Sustituyendo las expresiones para $a_{11}$ y $a_{12}$ en esta ecuación, obtenemos: \begin{align*} (ka_{21})x + (ka_{22})y &= b_1 \\ k(a_{21}x + a_{22}y) &= b_1 \end{align*} Sabemos que para los puntos en $\ell_2$, se cumple $a_{21}x + a_{22}y = b_2$. Sustituyendo esto en la ecuación anterior, obtenemos $kb_2 = b_1$. Si se cumple la condición $b_1=kb_2$, entonces la ecuación de $\ell_1$ se convierte en $k(a_{21}x + a_{22}y) = kb_2$. Dado que $a_1$ es no nulo, $k$ no puede ser cero. Podemos dividir por $k$ para obtener $a_{21}x + a_{22}y = b_2$. Esta es exactamente la ecuación de la recta $\ell_2$. Por lo tanto, ambas ecuaciones representan la misma recta, y su intersección es la recta completa.
  • Caso 3: $a_1$ y $a_2$ son vectores paralelos, y $b_1 \neq kb_2$ para algún $k \in \mathbb{R}$. Similar al Caso 2, si $a_1$ y $a_2$ son paralelos, entonces $a_1 = ka_2$ para algún $k \in \mathbb{R}$. Esto lleva a que la ecuación de $\ell_1$ pueda escribirse como $k(a_{21}x + a_{22}y) = b_1$. Si existiera un punto $(x,y)$ en la intersección de $\ell_1$ y $\ell_2$, debería satisfacer ambas ecuaciones. Es decir, $a_{21}x + a_{22}y = b_2$ (por ser un punto de $\ell_2$) y $k(a_{21}x + a_{22}y) = b_1$ (por ser un punto de $\ell_1$). Sustituyendo la primera en la segunda, obtendríamos $kb_2 = b_1$. Sin embargo, la condición de este caso es que $b_1 \neq kb_2$. Esto significa que no puede haber ningún punto $(x,y)$ que satisfaga ambas ecuaciones simultáneamente. Por lo tanto, las rectas son paralelas y distintas, y su intersección es vacía.

$\square$

Ejemplo de rectas iguales

Veamos ahora ejemplos de cada una de estas posibilidades:

Ejemplo. Encuentra la intersección de las rectas dadas por las siguientes ecuaciones.

\begin{align*}
(1,-2)\cdot (x,y) = 3\\
(-2,4) \cdot (x,y) = -6.
\end{align*}

Solución. Identifiquemos los vectores normales $a_1$ y $a_2$, y los escalares $b_1$ y $b_2$:

$$a_1 = (1,-2), \quad b_1 = 3$$

$$a_2 = (-2,4), \quad b_2 = -6$$

Primero, verificamos si los vectores normales $a_1$ y $a_2$ son paralelos. Calculamos la expresión $a_{11}a_{22}-a_{12}a_{21}$:

\begin{align*} a_{11}a_{22}-a_{12}a_{21} &= (1)(4) – (-2)(-2) \\ &= 4 – 4 \\ &= 0. \end{align*}

Dado que la expresión es cero, los vectores $a_1$ y $a_2$ son paralelos. De hecho, por inspección notamos que $(1,-2) = -\frac{1}{2}(-2,4)$.

Notemos que también sucede que $b_1=3=-\frac{1}{2}6$. Según la proposición, las rectas son entonces la misma. Por lo tanto, la intersección de las dos rectas es la recta misma, $\ell_1$. Podemos escribir la solución como el conjunto de puntos $(x,y)$ que satisfacen $x – 2y = 3$.

$\triangle$

Ejemplo de rectas que no se intersectan

Ejemplo. Encuentra la intersección de las rectas dadas por las siguientes ecuaciones:

\begin{align*}
(3,-4)\cdot (x,y) = 3\\
(-6,8) \cdot (x,y) = -2.
\end{align*}

Solución. Identifiquemos los vectores normales $a_1$ y $a_2$, y los escalares $b_1$ y $b_2$:

$$a_1 = (3,-4), \quad b_1 = 3$$

$$a_2 = (-6,8), \quad b_2 = -2$$

Primero, verificamos si los vectores normales $a_1$ y $a_2$ son paralelos. Calculamos la expresión $a_{11}a_{22}-a_{12}a_{21}$:

\begin{align*} a_{11}a_{22}-a_{12}a_{21} &= (3)(8) – (-4)(-6) \\ &= 24 – 24 \\ &= 0 \end{align*}

Como obtenemos cero, los vectores $a_1$ y $a_2$ son paralelos. Esto significa que $a_1 = ka_2$ para algún escalar $k$. En efecto, $a_1= -\frac{1}{2} a_2$. Sin embargo, ahora $-\frac{1}{2} b_2 = 1 \neq 3 = b_1$. Esto significa que las rectas son paralelas y distintas.

Por lo tanto, la intersección de las dos rectas es vacía.

$\triangle$

La siguiente figura muestra ambas rectas. En efecto, las rectas parecen ser paralelas.

Ejemplo de rectas que se intersectan en un único punto

Ejemplo. Determina dónde se intersectan la recta paralela a $(3,1)$ que pasa por el punto $(1,1)$ y la recta perpendicular a $(2,2)$ que pasa por el punto $(5,-3)$.

Solución. Para poder usar los resultados de esta entrada, primero pasaremos cada una de estas ecuaciones a forma normal $a \cdot (x,y) = b$.

Recta 1: Paralela a $(3,1)$ y pasa por $(1,1)$.

Si la recta es paralela al vector $(3,1)$, su vector normal $a_1$ debe ser perpendicular a $(3,1)$. Un vector perpendicular a $(3,1)$ es, por ejemplo, $a_1 = (-1,3)$.

La ecuación de la recta es de la forma $-x + 3y = b_1$. Para encontrar $b_1$, sustituimos el punto $(1,1)$ por el que pasa la recta:

$$b_1= -(1) + 3(1) = 2.$$

Así, la primera recta en forma normal es $\ell_1 =\{(-1,3) \cdot (x,y) = 2\}$, correspondiente a la ecuación $-x+3y=2$.

Recta 2: Perpendicular a $(2,2)$ y pasa por $(5,-3)$.

Si la recta es perpendicular al vector $(2,2)$, entonces su vector normal $a_2$ es $(2,2)$.

La ecuación de la recta es de la forma $2x + 2y = b_2$. Para encontrar $b_2$, sustituimos el punto $(5,-3)$ por el que pasa la recta:

$$b_2 = 2(5)+2(-3)=4.$$

Así, la segunda recta en forma normal corresponde a la ecuación $2x+y=4$, que es equivalente a $x+y=2$. Así, podemos ponerle en forma normal como $\ell_2=\{(1,1) \cdot (x,y) = 2\}$.

De este modo, encontrar los puntos de intersección de las rectas corresponde a resolver el siguiente sistema de ecuaciones:

$$\begin{cases} -x + 3y = 2\\ x + y = 2. \end{cases}$$

Identificamos los vectores normales $a_1 = (-1,3)$ y $a_2 = (1,1)$. Veamos si $a_1$ y $a_2$ son paralelos. Para ello, calculamos la expresión $a_{11}a_{22}-a_{12}a_{21}$:

\begin{align*} a_{11}a_{22}-a_{12}a_{21} &= (-1)(1) – (3)(1) \\ &= -1 – 3 \\ &= -4. \end{align*}

Dado que el resultado no es cero, los vectores $a_1$ y $a_2$ no son paralelos. Según la proposición, esto significa que la intersección de las dos rectas es un punto único, que podemos encontrar resolviendo el sistema de ecuaciones. Sumando la primera ecuación con la segunda:

\begin{align*} (-x + 3y) + (x + y) &= 2 + 2 \\ 4y &= 4 \\ y &= 1. \end{align*}

Como $y$ es $1$, entonces de la segunda igualdad concluimos que $x=1$ también. Por lo tanto, las rectas se intersecan en el punto $(1,1)$.

$\triangle$

La siguiente figura muestra ambas rectas. La visualización coincide con lo que demostramos formalmente.

Más adelante…

Hemos entendido cómo se ve la intersección de rectas a partir de su forma normal. Pero la forma normal de una recta no sólo nos ayuda a hablar de la recta misma. Una pequeña variación nos permite hablar también de cada uno de los dos pedazos en los que queda dividido el plano por la recta. A cada uno de estos pedazos le llamamos semiplano. ¿Cómo se verá la intersección de semiplanos? Daremos una introducción a estas ideas en la siguiente entrada.

Tarea moral

  1. De la siguiente lista de vectores, identifica todos aquellos $u$ y $v$ que cumplan que $u$ es paralelo a $v$:
    \begin{align*}&(1,1), (3,3), (5,2), (2,5), (10,4), \\&(-5,-2), (-3,3), (2,-2), (4,0), (5,1).\end{align*}
  2. Encuentra la intersección de las siguientes parejas de rectas:
    • $2x+3y=1$ y $3x+2y=2$.
    • $15+20y=12$ y $-6x-8y=7$.
    • $x+y=1$ y $-x-y=-1$.
  3. En los resultados de esta entrada hemos pedido que los vectores $u$ y $v$ sean no nulos para que las rectas en forma normal estén bien definidas. Pero si alguno de estos vectores es cero, todavía se pueden plantear un sistema de dos ecuaciones. ¿Qué posibilidades hay para estos sistemas de ecuaciones?
  4. Si tenemos vectores $u$, $v$ y $w$ en el plano, muestra que están en una misma línea si y sólo si $u-v$ y $w-v$ son paralelos.
  5. Toma tres vectores $u$, $v$ y $w$ de modo que no estén en una misma línea. La altura desde $u$ es la recta por $u$, perpendicular a $v-w$. De manera análoga se definen las alturas por $v$ y $w$.
    • Encuentra la intersección de la altura por $u$ y la altura por $v$.
    • Encuentra la intersección de la altura por $u$ y la altura por $w$.
    • Demuestra analíticamente, con las técnicas que hemos platicado aquí, que las tres alturas pasan por un mismo punto.

Entradas relacionadas

Investigación de Operaciones: Soluciones básicas, factibles y no degeneradas (10)

Por Aldo Romero

Introducción

Ya hablamos de lo que es la forma canónica y la forma estándar de un problema lineal. Como platicamos, esto nos permitirá darle solución a los problemas siguiendo métodos que requieren tener el problema en alguna de estas dos formas. Lo que haremos ahora es reflexionar a qué nos referimos con resolver un problema de programación lineal. Para ello, recordemos los distintos tipos de soluciones que los problemas lineales pueden tener.

Tipos de soluciones y región de factibilidad

Recordemos los conceptos de soluciones factibles, soluciones básicas factibles (degeneradas y no degeneradas) y de región de factibilidad.

Supongamos que tenemos un problema de programación lineal en su forma canónica:

\begin{align*}
Max \quad z &= c^tx\\
s.a&\\
A^tx &\leq b\\
x &\geq \bar 0\\
\end{align*}

donde usamos la misma notación que en la entrada anterior. En particular, $c$ y $x$ son vectores en $\mathbb{R}^n$, $b$ es un vector en $\mathbb{R}^m$ y $A$ es una matriz de $m\times n$. Recuerda que en la expresión anterior entendemos $\bar 0$ como el vector en $\mathbb{R}^n$ con entradas todas iguales a cero.

También recordemos la forma estándar de un problema de programación lineal:

\begin{align*}
Max \quad z &= c’^tx’\\
s.a&\\
A’^tx’ &=b’\\
x’ &\geq \bar 0\\
\end{align*}

en donde $c’$ y $x’$ son vectores en $\mathbb{R}^{n}$,$b’$ es un vector en $\mathbb{R}^{m}$ y $A’$ es una matriz de valores reales de $m \times n$.

Como recordatorio, tenemos las siguientes definiciones para los tipos de soluciones del problema lineal.

Definición. Una solución factible a un problema de programación lineal en forma canónica es un vector $x = x_1 + x_2 + \ldots + x_n$ que satisface las restricciones $Ax \leq b$ y $x \geq \bar 0$. Esto se corresponde con una solución $x’ = x_1′ + x_2′ \ldots + x_n’$ al problema en forma estándar que satisface $A’x’= b’$ y $x’\geq \bar 0$.

Definición. La región de factibilidad de un problema de programación lineal es el conjunto de todas las soluciones factibles.

Definición. Una solución básica factible es una solución factible correspondiente a una solución $x’$ del problema en forma estándar con no más de $m$ componentes positivas. En otras palabras, $x’$ tiene al menos $n-m$ entradas iguales a cero.

Definición. Una solución básica factible no degenerada es una solución factible $x$ correspondiente a una solución $x’$ del problema en forma estándar con exactamente $m$ componentes positivas. En otras palabras, $x’$ tiene exactamente $n-m$ entradas iguales a cero.

Definición. Una solución básica factible degenerada es una solución factible correspondiente a una solución $x’$ del problema en forma estándar con menos de $m$ componentes positivas. En otras palabras, $x’$ tiene más de $n-m$ entradas iguales a cero.

La importancia de las soluciones básicas factibles y no degeneradas es que cumplen las siguientes:

  1. Se puede mostrar que si un problema de programación lineal tiene óptimo, entonces dicho óptimo se alcanza para alguna solución básica factible y no degenerada.
  2. Las soluciones básicas factibles y no degeneradas se pueden encontrar resolviendo sistemas de ecuaciones.
  3. Geométricamente, las soluciones básicas factibles y no degeneradas están en puntos extremos dentro de la región de factibilidad.

A continuación explicaremos algunos de estos puntos con un ejemplo detallado, que te ayudará a entender la intuición detrás de estas definiciones y de su importancia.

Ejemplos de región de factibilidad y tipos de solución

Consideremos el siguiente problema de programación lineal en su forma canónica:

\begin{align*}
Max. \quad z &= 2x_1 + 3x_2\\
s.a.&\\
&\begin{matrix}2x_1 &+ x_2 &\leq & 4\\
x_1 &+ 2x_2 &\leq &5\end{matrix}\\
&x_1, x_2 \geq 0.
\end{align*}

La región de factibilidad es el conjunto de todos los $(x_1,x_2)$ (en el plano $\mathbb{R}^2$) que cumplen las restricciones del problema, es decir, $2x_1 + x_2 \leq 4$, $x_1 + 2x_2 \leq 5$ y $x_1,x_2 \geq 0$. Para entender esto mejor, vamos a ilustrar cada restricción en $\mathbb{R}^2$ a continuación :

Región 1: La región $x_1\geq 0$, que son todos los elementos de $\mathbb{R}^2$ que se encuentran a la derecha del eje $Y$ incluyéndolo:

Región 2: La región $x_2\geq 0$, que son todos los elementos de $\mathbb{R}^2$ que se encuentran arriba del eje $X$ incluyéndolo:

Región 3: La región $2x_1 + x_2 \leq 4$, que son los elementos en $\mathbb{R}^2$ que están debajo de la recta $2x_1+x_2=4$ incluyéndola:

Región 4: La región $x_1+2x_2\leq 5$, que son los elementos en $\mathbb{R}^2$ que están debajo de la recta $x_1+2x_2=5$ incluyéndola:

Como queremos que se cumplan todas las restricciones al mismo tiempo, los puntos $(x_1,x_2) \in \mathbb{R}^2$ de la región de factibilidad que se encuentren en todas las regiones al mismo tiempo, es decir, los puntos que estén en la intersección. Al sobreponer las regiones que acabamos de ilustrar, obtenemos la región encerrada en la siguiente figura:

También puedes explorar el interactivo de Geogebra en donde se han coloreado los complementos de las regiones para más claridad. Puedes usar el cursor para mover la figura y las herramientas de lupa para hacer acercamientos y alejamientos.

Como hemos mencionado, el óptimo de un problema de programación lineal es una solución básica factible no degenerada y toda solución básica factible no degenerada se encuentra en algún vértice de la región de factibilidad. Entonces, el valor máximo de la función $2x_1+3x_2$ se alcanza en alguno de los vértices del polígono que es la región factible. Veamos dónde el álgebra nos dice esto.

Para ello, pensemos al problema en su forma estándar, tomando variables de holgura $s_1$ y $s_2$. Las restricciones que tienen las cuatro variables en conjunto son las siguientes.

\begin{align*}
2x_1 + x_2 + s_1 &= 4\\
x_1 + 2x_2 + s_2 &= 5\\
x_1, x_2, s_1, s_2 &\geq 0.
\end{align*}

La matriz $A’$ es $\begin{pmatrix}2 & 1 & 1 & 0 \\ 1 & 2 & 0 & 1 \end{pmatrix}$, que, se puede verificar, tiene rango $2$. Las soluciones básicas y no degeneradas corresponden a tener en ese sistema de ecuaciones exactamente $m=2$ variables positivas, de manera que necesitamos hacer exactamente $n-m=4-2=2$ de estas variables iguales a cero. Al hacer esto, podemos resolver para las $m=2$ variables restantes. Por ejemplo, si establecemos $x_1 = 0$ y $x_2 = 0$, las ecuaciones se convierten en:

\begin{align*}
s_1 = 4\\
s_2 = 5\\
x_1, x_2, s_1, s_2 \geq 0,
\end{align*}

que tiene solución única $(x_1,x_2,s_1,s_2)=(0,0,4,5)$. Así, la solución básica del problema en forma canónica es $(x_1,x_2)=(0,0)$. Hay que recordar la solución básica sólo para las variables originales, es decir, las del problema en forma canónica.

Esta solución corresponde al punto $A$ del interactivo de GeoGebra. Se puede determinar otra solución básica fijando $s_1 = 0$ y $s_2 = 0$, donde el sistema sería ahora

\begin{align*}
2x_1 + x_2 = 4\\
x_1 + 2x_2 = 5\\
x_1, x_2, s_1, s_2 \geq 0,
\end{align*}

Resolvamos este sistema de ecuaciones de forma rápida. Si multiplicamos la segunda ecuación por un $-2$ y sumamos ambas ecuaciones, la variable $x_1$ se eliminará y tendremos solo una ecuación: $-3x_2 = -6$ lo que es equivalente a $x_2 = 2$. Si sustituimos ahora este valor para $x_2$ en cualquiera de las ecuaciones, tras unos simples despejes tendremos que $x_1 = 1$.

Así, la solución básica que se obtiene es $(x_1,x_2)=(1,2)$, que es el punto $D$ del interactivo de GeoGebra.

Si seguimos considerando todas las posibilidades en las que dos variables son cero y resolvemos los ssistemas de ecuaciones resultantes, eso nos dará todas soluciones básicas no degeneradas. La solución óptima es la solución básica factible (punto extremo) con el mejor valor objetivo.

En este ejemplo tenemos $\binom{4}{2} = \frac{4!}{2!2!} = 6$ formas de volver dos de las $n$ variables iguales a cero. Ya para las variables $x_1$ y $x_2$, los puntos que obtenemos son los puntos $A$, $B$, $C$, $D$ que son puntos extremos de la región de factibilidad. Los puntos $E$ y $F$ del interactivo también son puntos básicos y no degenerados (son las otras dos intersecciones de las rectas que dibujamos), pero como no satisfacen la condición de factibilidad del problema, entonces no los podemos considerar y por lo tanto no son candidatos a dar el valor óptimo.

La siguiente tabla muestra todas las soluciones básicas factibles y no factibles de este problema:

Variables no básicas (cero)Variables básicasSolución para $(x_1,x_2)$Punto de extremo asociado¿Factible?Valor objetivo z
$(x_1, x_2) = (0,0)$$(s_1, s_2) = (4,5)$$(0, 0)$A0
$(x_1, s_1) = (0,0)$$(x_2, s_2) = (4,-3)$$(0, 4)$ENo ya que $s_2 < 0$12 (No factible)
$(x_1, s_2) = (0,0)$$(x_2, s_1) = (2.5,1.5) $$(0, 2.5)$B7.5
$(x_2, s_1) = (0,0)$$(x_1, s_2) = (2,3)$$(2, 0)$C4
$(x_2, s_2) = (0,0)$$(x_1, s_1) = (5, -6)$$(5, 0)$FNo ya que
$s_1 < 0$
10 (No factible)
$(s_1, s_2) = (0,0)$$(x_1, x_2) = (1,2)$$(1, 2)$D8 (óptimo)

Más adelante…

Notemos que a medida que el tamaño del problema se incrementa, enumerar todos los puntos esquina se volverá una tarea que tomaría mucho tiempo. Por ejemplo, si tuviéramos $20$ variables (ya con las de holgura) y $10$ restricciones, es necesario resolver considerar $\binom{20}{10}=184756$ formas de crear ecuaciones de $10\times 10$, y resolver cada una de ellas. Aunque esto es finito, son demasiadas operaciones. Y este en la práctica incluso es un ejemplo pequeño, ya que en la vida real hay problemas lineales que pueden incluir miles de variables y restricciones.

Por ello, se vuelve cruciar encontrar un método que atenúe esta carga computacional en forma drástica, que permita investigar sólo un subconjunto de todas las posibles soluciones factibles básicas no degeneradas (vértices de la región de factibilidad), pero que garantice encontrar el óptimo. Una idea intuitiva que debería servir es comenzar en un vértice y «avanzar en una dirección que mejore la función objetivo». Esto precisamente es la intuición detrás del método simplex, que repasaremos a continuación.

Tarea moral

  1. Considera el siguiente problema lineal en su forma canónica:

\begin{align*}
Min \quad z &= 2x_1 + 3x_2 \\
s.a.&\\
&\begin{matrix}x_1 &+ 3x_2 &\geq&6\\
3x_1 &+ 2x_2 &\geq &6\end{matrix}\\
&x_1, x_2 \geq 0.
\end{align*}

Usa el procedimiento descrito arriba para encontrar todas sus soluciones básicas no degeneradas y encontrar el óptimo del problema.

  1. Considera un problema de programación lineal en dos variables $x$ y $y$, en forma canónica y con $m$ restricciones (desigualdades), además de las restricciones $x\geq 0$ y $y\geq 0$. Explica con tus propias palabras por qué la región de factibilidad siempre es un polígono con a lo más $m+2$ lados, y por qué entonces basta evaluar la función objetivo en a lo más $m+2$ puntos para encontrar su máximo.
  2. Explica con tus palabras cómo se vería la región de factibilidad de un problema de programación lineal de maximización que no tenga máximo. ¿Qué cambios se le tendrían que hacer a las restricciones del primer ejemplo para que se volviera un problema de maximización sin máximo?

Respuestas

1.- Primero vamos a cambiar este problema a su forma estándar.

Definamos variables de holgura no negativas $s_1$ y $s_2$ tales que $x_1 + 3x_2 – s_1 = 6$ y $3x_1 +2x_2 – s_2 = 6$.

Entonces la forma estandar del problema sería de la siguiente manera:

\begin{align*}
Min \quad z &= 2x_1 + 3x_2 \\
s.a.&\\
&\begin{matrix}x_1 &+ 3x_2 &- s_1 = &6\\
3x_1 &+ 2x_2 &- s_2 = &6\end{matrix}\\
&x_1, x_2, s_1, s_2 \geq 0.
\end{align*}

Su matriz A’ asociado a las restricciones $\begin{pmatrix}1 & 3 & -1 & 0 \\ 3 & 2 & 0 & -1 \end{pmatrix}$ en una matriz de $2 \times 4$. Las soluciones básicas no degeneradas $x’$ en $\mathbb{R}^4$ tienen $4-2 = 2$ entradas iguales a 0.

Variables no básicas (cero)Variables básicasSolución para $(x_1,x_2)$Punto de extremo asociado¿Factible?Valor objetivo z
$(x_1, x_2) = (0,0)$$(s_1, s_2) = (-6,-6)$$(0, 0)$ANo ya que $s_1,s_2 < 0$0
$(x_1, s_1) = (0,0)$$(x_2, s_2) = (2,-2)$$(0, 2)$BNo ya que $s_2 < 0$6 (No factible)
$(x_1, s_2) = (0,0)$$(x_2, s_1) = (3,3)$$(0, 3)$C9
$(x_2, s_1) = (0,0)$$(x_1, s_2) = (6, 12) $$(6, 0)$D12
$(x_2, s_2) = (0,0)$$(x_1, s_1) = (2,-4)$$(2, 0)$ENo ya que
$s_1 < 0$
4 (No factible)
$(s_1, s_2) = (0,0)$$(x_1, x_2) = (6/7,12/7)$$(6/7,12/7)$F48/7 = 6 + 6/7 (óptimo)

Por lo que el óptimo se encuentra en el punto F = (6/7, 12/7).

En el siguiente interactivo de GeoGebra, verifica uno por uno los puntos extremos que se encontraron.

2.- Se podría argumentar tal vez que cada restricción de un problema de programación lineal representa un lado del polígono que forma la región factible. Y como tenemos m restricciones en el problema y las condiciones de no negatividad son 2 restricciones más, el polígono tendrá a lo más m+2 lados.

3.- La región de factibilidad se vería como una región no acotada en el primer cuadrante del plano. En esta región, dada un punto x dentro de ella, existe otro punto x’ tal que $z(x) < z(x’)$.

El que se tendría que hacer en el primer problema sería simplemente invertir las desigualdades de las restricciones:

\begin{align*}
Max. \quad z &= 2x_1 + 3x_2\\
s.a.&\\
&\begin{matrix}2x_1 &+ x_2 &\geq & 4\\
x_1 &+ 2x_2 &\geq &5\end{matrix}\\
&x_1, x_2 \geq 0.
\end{align*}

Se puede verificar haciendo los cambios en el primer interactivo que estos cambios nos cambiaran la región factible a una región no acotada.

Entradas relacionadas

Cálculo Diferencial e Integral III: Teorema de la función implícita y demostración

Por Alejandro Antonio Estrada Franco

Introducción

En esta parte del curso estamos abordando los resultados principales de campos vectoriales y su diferenciabilidad. Hemos hablado de cómo la derivada de una composición se calcula con regla de la cadena. También, enunciamos el teorema de la función inversa, lo demostramos, y vimos un ejemplo de cómo se usa. Ahora pasaremos a otro de los resultados fundamentales en el tema: el teorema de la función implícita. Vamos a motivarlo a partir del problema de resolver sistemas de ecuaciones no lineales. Luego, lo enunciaremos formalmente y lo demostraremos. La discusión y los ejemplos los dejaremos para la siguiente entrada.

Una motivación: resolver sistemas de ecuaciones no lineales

Con lo que repasamos sobre sistemas de ecuaciones lineales, y con lo que se ve en un curso de Álgebra Lineal I, se puede entender completamente cómo resolver sistemas de eccuaciones lineales. Recordemos un poco de esto. Tomemos el siguiente sistema de ecuaciones lineales en las variables $x_1,\ldots,x_n$:

\begin{align*}
\left\{ \begin{matrix}
a_{11}x_1+a_{12}x_2+\ldots+a_{1n}x_n = b_1\\
a_{21}x_1+a_{22}x_2+\ldots+a_{2n}x_n = b_2\\
\vdots\\
a_{m1}x_1+a_{m2}x_2+\ldots+a_{mn}x_n = b_m.\\
\end{matrix} \right.
\end{align*}

Para resolverlo, se podría utilizar el proceso de reducción gaussiana. Tras hacer esto, podíamos clasificar a las variables en libres (que podían valer lo que sea) y pivote (que dependían afinmente de las libres). Esto daba todas las soluciones. Si, por decir algo, las variables pivote son $x_1,x_2,\ldots,x_m$ y las libre son $x_{m+1},\ldots,x_n$, entonces podemos reescribir lo anterior de la siguiente manera: «podemos despejar a las primeras en función de las segundas», algo así como

\begin{align*}
x_1 &= T_1(x_{m+1},\ldots,x_n)\\
x_2 &= T_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=T_m(x_{m+1},\ldots,x_n).
\end{align*}

Elegimos a $x_{m+1},\ldots,x_n$ como queramos. De ahí $x_1,\ldots,x_m$ quedan definidos afinmente con las $T_1,\ldots,T_m$. Y esto da todas las soluciones. Pero, ¿qué sucedería si tenemos un sistema de ecuaciones mucho más general?

Para plantear esto, imaginemos que ahora tenemos cualesquiera funciones $f_1,\ldots,f_m:\mathbb{R}^n\to \mathbb{R}$ y que queremos encontrar todas las soluciones $x_1,\ldots,x_n$ al siguiente sistema de ecuaciones:

\begin{equation}
\label{eq:sistemadificil}
\left\{ \begin{matrix}
f_{1}(x_{1},\dots ,x_{n})=0 \\
\vdots \\
f_{m}(x_{1},\dots ,x_{n})=0.
\end{matrix}\right.
\end{equation}

Esto es tan general como pudiéramos esperar. A la izquierda hay ceros, pero es porque si hubiera otras cosas, podríamos pasarlas a la izquierda para dejar ceros a la derecha.

Este sistema \eqref{eq:sistemadificil} parece imposible de resolver: no tenemos idea de quiénes son las funciones $f_1,\ldots, f_n$, no hay reducción gaussiana, no hay variables libres, etc. Pero imaginemos que el campo vectorial $(f_1,\ldots,f_m)$ es de clase $C^1$ alrededor de algún punto $\bar{v}_0=(x_{1}^{0},\dots,x_{n}^{0})$ en donde queremos despejar. Esto nos diría que cerca de $\bar{v}_0$ cada expresión $f_i(\bar{v})$ con $\bar{v}=(x_{1},\dots,x_{n})$ se parece muchísimo a su mejor aproximación lineal:

\[f_i(\bar{v}_0)+\triangledown f_i(\bar{v}_0)\bullet (\bar{v}-\bar{v}_0)\]

donde, tenemos:
\begin{align*}
f_i(\bar{v}_0)+\triangledown f_i(\bar{v}_0)\bullet (\bar{v}-\bar{v}_0)
&=f_i(\bar{v}_0)+\left(\frac{\partial f_i}{\partial x_1}(\bar{v}_0),\dots ,\frac{\partial f_i}{\partial x_n}(\bar{v}_0)\right)\bullet\left(x_1 -x_{1}^{0},\dots , x_n -x_{n}^{0}\right)\\ &=f_i(\bar{v}_0)+\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)(x_j -x_{j}^{0})\\ &=f_i(\bar{v}_0)+\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_j -\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_{j}^{0}\\ &=\triangledown f_i(\bar{v}_0)\bullet (\bar{v})+f_i(\bar{v}_0) -\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}} (\bar{v}_0)x_{j}^{0}\\ &=\triangledown f_i(\bar{v}_0)\bullet (\bar{v}) + \bar{b}_i,
\end{align*}

donde $\bar{b}_i=f_i(\bar{v}_0)-\sum_{j=1}^n \frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_0)x_{j}^0$. Pero entonces el sistema es prácticamente el mismo sistema que

\begin{equation}\label{eq:sistemafacil}\left \{\begin{matrix}\frac{\partial f_{1}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{1}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{1}\hspace{0.1cm}=\hspace{0.1cm}0 \\
\frac{\partial f_{2}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{2}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{2}\hspace{0.1cm}=\hspace{0.1cm}0 \\ \vdots & \vdots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}(\bar{v}_{0})x_{1}\hspace{0.1cm}+ & \dots & +\hspace{0.1cm}\frac{\partial f_{m}}{\partial x_{n}}(\bar{v}_{0})x_{n}\hspace{0.1cm}+\hspace{0.1cm}b_{m}\hspace{0.1cm}=\hspace{0.1cm}0 \end{matrix}\right.\end{equation}

Esto se ve un poco complicado, pero cada $\frac{\partial f_{i}}{\partial x_{j}}(\bar{v}_{0})x_{j}$ es simplemente un número real. ¡Cerquita de $\bar{v}_0$ el sistema de ecuaciones \eqref{eq:sistemadificil} es prácticamente un sistema lineal! Sería entonces de esperarse que las soluciones el sistema \eqref{eq:sistemadificil} original sean muy cercanas a las del sistema lineal \eqref{eq:sistemafacil} que sale y de nuevo recuperamos los trucos usuales: reducción gaussiana, variables libres, variables pivote, etc.

Pensando en que en el sistema \eqref{eq:sistemafacil} las variables pivote son $x_1,\ldots, x_m$ y las libres son $x_{m+1},\ldots,x_n$, entonces podemos encontrar transformaciones afines $T_1,\ldots,T_m:\mathbb{R}^n\to \mathbb{R}$ tales que las soluiones de \eqref{eq:sistemafacil} consisten en elegir $x_{m+1},\ldots,x_n$ arbitrariamente, y tomar

\begin{align*}
x_1 &= T_1(x_{m+1},\ldots,x_n)\\
x_2 &= T_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=T_m(x_{m+1},\ldots,x_n).
\end{align*}

Muy probablemente $(x_1,\ldots,x_n)$ no será una solución de \eqref{eq:sistemadificil}, pues son sistemas diferentes entre sí. Pero suena a que son tan tan cercanos, que con tantita maniobra podremos encontrar funciones $S_1,\ldots, S_m: \mathbb{R}^n\to \mathbb{R}$ tales que cualquier solución a \eqref{eq:sistemadificil} similarmente está dada por elegir $x_{m+1},\ldots, x_n$ arbitrariamente y tomar

\begin{align*}
x_1 &= S_1(x_{m+1},\ldots,x_n)\\
x_2 &= S_2(x_{m+1},\ldots,x_n)\\
\vdots \\
x_m&=S_m(x_{m+1},\ldots,x_n).
\end{align*}

Gracias a que pudimos poner a todos los $x_1,\ldots x_m$ en función de los $x_{m+1},\ldots,x_n$, hemos logrado encontrar todas las soluciones a \eqref{eq:sistemadificil} cerca de $\bar{v}_0$. El teorema de la función inversa nos ayuda a volver precisas muchas de las cosas discutidas en esta sección.

Enunciado del teorema de la función implícita

Pensemos que tenemos algunas restricciones dadas por ecuaciones como las del sistema \eqref{eq:sistemadificil}. Lo que el teorema de la función implícita nos dirá es que bajo suficiente regularidad y algunas condiciones de invertibilidad, en una vecindad de un punto $\bar{v}_{0}$ las incógnitas $x_{1},\dots ,x_{m}$ se pueden poner en función de las incógnitas $x_{m+1},\dots ,x_{n}$, es decir, que se puede despejar como lo mencionamos al final de la sección anterior. El enunciado es el siguiente.

Teorema (de la función implícita). Sea $f:S\subseteq\mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^m$ un campo vectorial de clase $C^1$ en $S$ con funciones componentes $f_i: S\subseteq\mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}$, para $i=1,\ldots,m$.

Pensemos en el conjunto $A$ de soluciones $(y_1,\ldots,y_m,x_1,\ldots,x_l)$ del siguiente sistema de ecuaciones:

\begin{equation}
\label{eq:sistemaimplicita}
\left\{ \begin{matrix}
f_{1}(y_{1},\dots ,y_m,x_1,\ldots,x_l)=0 \\
\vdots \\
f_{m}(y_{1},\dots ,y_m,x_1,\ldots,x_l)=0.
\end{matrix}\right.
\end{equation}

Supongamos además que para el punto $$(\bar{y}_0,\bar{x}_0)=\left(y_{1}^{0},\dots ,y_{m}^{0},x_{1}^{0},\dots ,x_{l}^{0}\right)\in S\cup A$$ la matriz

\[ \begin{pmatrix} \frac{\partial f_{1}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{i}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) \end{pmatrix} \]

es invertible. Entonces existen abiertos $V\subset \mathbb{R}^{m}$ y $U\subset \mathbb{R}^l$ con $\bar{y}_0\in V$, $\bar{x}_0\in U$, para los cuales hay una única función $h:U\to V$ de clase $C^{1}$ en $V$, tal que $f(\bar{y},\bar{x})=\bar{0}$ si y sólo si $\bar{y}=h(\bar{x})$.

Sólo para aclarar algunas diferencias con lo discutido anteriormente, aquí ya estamos separando en lo que esperaremos que serán las variables libres $x_1,\ldots,x_m$ y las variables pivote $y_1,\ldots,y_l$. Estamos además estudiando el caso en el que tenemos tantas variables libres como ecuaciones, pues este caso es fácil de enunciar en términos de la invertibilidad de una matriz. El caso más general se trata con reducción gaussiana como platicamos en la sección anterior. La igualdad $\bar{y}=h(\bar{x})$ es lo que entendemos como «despejar» a los $y_i$’s en función de los $x_j$’s.

Demostración del teorema de la función implícita

Veamos la demostración del teorema.

Demostración. Definamos $F:S\subset \mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ como $F(\bar{y},\bar{x})=(f(\bar{y},\bar{x}),\bar{x})$. Dado que $f$ es de clase $C^1$, se tendrá que $F$ también (explica esto como tarea moral).

Notemos que

\begin{align*}
F(\bar{y}_{0},\bar{x}_{0})&=(f(\bar{y}_{0},\bar{x}_{0}),\bar{x}_{0})=(\bar{0},\bar{x}_0).\end{align*}

Por otro lado, notemos que la matriz jacobiana de $F$ en $(\bar{y}_0,\bar{x}_0)$ es

$$\begin{bmatrix} \frac{\partial f_{1}}{\partial \bar{y}_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{1}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) & \frac{\partial f_{1}}{\partial x_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{1}}{\partial x_{l}}(\bar{y}_{0},\bar{x}_{0}) \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial y_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{m}}(\bar{y}_{0},\bar{x}_{0}) & \frac{\partial f_{m}}{\partial x_{1}}(\bar{y}_{0},\bar{x}_{0}) & \dots & \frac{\partial f_{m}}{\partial y_{l}}(\bar{y}_{0},\bar{x}_{0}) \\ 0 & \dots & 0 & 1 & \dots & 0 \\ \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ 0 & \dots & 0 & 0 & \dots & 1 \end{bmatrix}$$

esta matriz además es invertible (también tendrás que explicar ambas cosas de tarea moral).

La idea clave es que entonces podemos usar el teorema de la función inversa en $F$. Aplícandolo en este contexto, obtenemos que existe $\delta >0$ tal que $F$ es inyectiva en una bola $B_{\delta}(\bar{y}_{0},\bar{x}_{0})\subset S$. Nos dice también que $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$ es un conjunto abierto, y que $F ^{-1}:F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))\subset \mathbb{R}^{m}\times \mathbb{R}^{l}\rightarrow \mathbb{R}^{m}\times \mathbb{R}^{l}$ es de clase $C^{1}$ en $F(B_{\delta}(\bar{y}_{0},\bar{x}_{0}))$. También dice algo de quién es la derivada explícitamente, pero eso no lo necesitaremos por ahora (de tarea moral tendrás que pensar qué nos dice esto).

Como $F$ manda $(\bar{y}_0,\bar{x}_0)$ a $(\bar{0},\bar{x}_0)$ y $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$ es un abierto, entonces hay una bola abierta $W$ alrededor de $(\bar{0},\bar{x}_0)$ contenida en $F(B_{\delta}(\bar{y}_0,\bar{x}_{0}))$. El conjunto $U$ que propondremos será el abierto que se obtiene al intersectar $W$ con el espacio en donde la coordenada correspondiente a $f(\bar{y},\bar{x})$ es cero. En otras palabras, $U$ es un abierto y consiste de $\bar{x}$ para los cuales existe un $\bar{y}$ tal que $F(\bar{y},\bar{x})=(\bar{0},\bar{x})$ (es decir, $f(\bar{y},\bar{x})=\bar{0}$).

Tomemos ahora un $\bar{x}\in U$. Afirmamos que hay sólo un $\bar{y}$ tal que $(\bar{y},\bar{x})\in B_{\delta}(\bar{y}_{0},\bar{x}_{0})$ y $f(\bar{y},\bar{x})=\bar{0}$. Si hubiera $\bar{y}$ y $\bar{y}’$ que satisfacen eso, tendríamos

$$F(\bar{y},\bar{x})=(f(\bar{y},\bar{x}),\bar{x})=(\bar{0},\bar{x})=(f(\bar{y}’,\bar{x}),\bar{x})=F(\bar{y}’,\bar{x}),$$

que por la inyectividad de $F$ implica $\bar{y}=\bar{y}’$. De hecho, dicho único $\bar{y}$ está en función de $F^{-1}$, que es de clase $C^1$ de modo que el conjunto de los $\bar{y}$ asignados a los $\bar{x}$ en $U$ es un abierto $V$.

Así, podemos definir $h:U\to V$ de la siguiente manera: $h(\bar{x})=\bar{y}$, donde $\bar{y}$ es el único elemento para el cual $f(\bar{y},\bar{x})=\bar{0}$ y $(\bar{y},\bar{x})\in B_{\delta}(\bar{y}_{0},\bar{x}_{0})$. De la discusión desarrollada, $h$ está bien definida y cumple con las propiedades buscadas.

Por último probemos que $h$ es de clase $C^{1}$ en $U$. Como $F^{-1}$ esta definida y, además es de clase $C^{1}$ sobre el conjunto $F(B_{\delta}(\bar{x}_{0},\bar{y}_{0}))$, si escribimos que $F^{-1}=\left( (F^{-1})_{1},\dots ,(F^{-1})_{m} \right)$, bastaría con demostrar:

\[ h(\bar{x})=\left( (F^{-1})_{1}(\bar{0},\bar{x}),\dots , (F^{-1})_{m}(\bar{0},\bar{x})\right) \]

para cada $\bar{x}\in V$. Esto se hace como sigue:

\begin{align*} (h(\bar{x}),\bar{x})&=F^{-1}(F(h(\bar{x}),\bar{x}))\\ &=F^{-1}(\bar{0},\bar{x}) \\ &=\left( (F^{-1})_{1}(\bar{0},\bar{x}),\dots ,(F^{-1})_{m}(\bar{0},\bar{x}),(F^{-1})_{m+1}(\bar{0},\bar{x}),\dots ,(F^{-1})_{m+l}(\bar{0},\bar{x}) \right). \end{align*}

Así queda terminada de la demostración de este importante teorema.

$\square$

Algunas reflexiones finales

Si quisiéramos usar de manera práctica la demostración para encontrar la función implícita $h$, necesitaríamos calcular la inversa $F^{-1}$. Sin embargo, las técnicas que tenemos hasta ahora no nos permiten hacer eso tan fácilmente. La versión del teorema de la función inversa que tenemos nos dice que hay una inversa, pero no nos dice quién es. La mayoría de las veces dar esta inversa es muy difícil, por no decir imposible.

Aunque esto parezca algo negativo, de cualquier forma tenemos un resultado muy importante. En algunos casos, sí podremos dar la función inversa con relativa facilidad. Y en otros contextos, aunque no podamos dar la inversa explícitamente, sí tendremos una base teórica robusta para demostrar otros resultados. El teorema de la función implícita es una palanca importante para otros resultados que brindan mucha luz acerca del comportamiento de los campos vectoriales.

Mas adelante

La demostración y el desarrollo teórico tanto del teorema de la función inversa, como el de la función implícita, son muy técnicos. Dejaremos los aspectos técnicos hasta aquí y en la siguiente entrada procesaremos mejor lo que quiere decir este teorema hablando de varios ejemplos, y también de sus consecuencias.

Tarea moral

  1. Considérese la función $T:\mathbb{R}^{3}\rightarrow \mathbb{R}^{2}$ dada por $T(x,y,z)=(x+z,y+x)$ aplica el teorema de la función implícita para obtener una función $h:\mathbb{R}\rightarrow \mathbb{R}^{2}$ tal que $(h(\bar{a}),\bar{a})$ es solución de la ecuación $T(x,y,z)=(0,0)$.
  2. Explica con detalle por qué la función $F$ de la demostración del teorema de la función implícita es de clase $C^1$.
  3. Verifica que en efecto $DF(\bar{y}_0,\bar{x}_0)$ es la expresión dada en la demostración del teorema. Además, justifica por qué es invertible.
  4. Justifica con detalle por qué los conjuntos $U$ y $V$ de la demostración en efecto son conjuntos abiertos.
  5. El teorema de la función inversa también nos dice quién es la derivada de la inversa. ¿Eso qué quiere decir en el contexto del teorema de la función implícita?

Entradas relacionadas

Álgebra Lineal II: Unicidad de la forma de Jordan para nilpotentes

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la entrada anterior enunciamos el teorema de la forma canónica de Jordan para matrices nilpotentes. Demostramos una parte: la existencia de la forma canónica de Jordan. Para ello, nos enfocamos en el teorema en su versión en términos de transformaciones lineales. En esta entrada nos enfocaremos en demostrar la unicidad de la forma canónica de Jordan. Curiosamente, en este caso será un poco más cómodo trabajar con la forma matricial del teorema. Para recordar lo que queremos probar, volvemos a poner el enunciado del teorema a continuación. Lo que buscamos es ver que los enteros $k_1,\ldots, k_d$ que menciona el teorema son únicos.

Teorema. Sea $A$ una matriz nilpotente en $M_n(F)$. Entonces existen únicos enteros $k_1,\ldots,k_d$ tales que \begin{align*} &k_1+k_2+\ldots+k_d = n,\\ &k_1\leq k_2 \leq \ldots \leq k_d,\end{align*} y para los cuales $A$ es similar a la siguiente matriz de bloques: $$\begin{pmatrix} J_{0,k_1} & 0 & \cdots & 0 \\ 0 & J_{0,k_2} & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & J_{0,k_d}\end{pmatrix}.$$

Nuestra estrategia para mostrar la unicidad será el estudio del rango de las potencias de $A$. Si $A$ es similar una matriz en forma canónica $J$, entonces existe $P$ invertible tal que $A=P^{-1}JP$, de donde se puede mostrar indutivamente que $A^k=P^{-1}J^kP$, mostrando que $A^k$ y $J^k$ son similares. Además, sabemos por teoría anterior que matrices similares tienen el mismo rango. De modo que si $A$ es similar a $J$ entonces todas las potencias de $A$ tienen el mismo rango que todas las potencias de $J$. Con esta idea en mente estudiaremos cómo es el rango de matrices de bloques de Jordan de eigenvalor cero.

Rango de potencias de bloques de Jordan

Claramente el rango del bloque de Jordan $J_{0,n}$ es $n-1$, pues ya está en forma escalonada reducida y tiene $n-1$ vectores distintos de cero. El siguiente resultado generaliza esta observación.

Proposición. Sea $n$ un entero positivo, $F$ un campo y $J_{0,n}$ el bloque de Jordan de eigenvalor $0$ y tamaño $n$ en $M_n(F)$. Para $k=1,\ldots,n$ se tiene que el rango de $J_{0,n}^k$ es igual a $n-k$. Para valores de $k$ más grandes, el rango es igual a cero.

Demostración. Si $e_1,\ldots,e_n$ es la base canónica de $F^n$, tenemos que $J_{0,n}e_i=e_{i-1}$ para $i=2,\ldots,n$ y $J_{0,n}e_1=0$. De manera intuitiva, la multiplicación matricial por $J_{0,n}$ va «desplazando los elementos de la base $e_1,\ldots,e_n$ a la izquierda, hasta sacarlos». De este modo, $J_{0,n}^k$ para $k=1,\ldots,n$ hace lo siguiente:

$$J_{0,n}^k e_i=\begin{cases} 0 & \text{para $k\geq i$}\\ e_{i-k} & \text{para $k\leq i-1$.}\end{cases}$$

Así, $J_{0,n}^k$ manda a la base $e_1,\ldots,e_n$ a los vectores $e_1,\ldots,e_{n-k}$ y a $k$ copias del vector cero. Como los primeros son $n-k$ vectores linealmente independientes, obtenemos que el rango de $J_{0,n}^k$ es $n-k$.

Para valores de $k$ más grandes la potencia se hace la matriz cero, así que su rango es cero.

$\square$

Rango de potencias de matrices de bloques de Jordan

¿Qué sucede si ahora estudiamos el rango de las potencias de una matriz de bloques de Jordan? Consideremos, por ejemplo, la siguiente matriz, en donde $k_1,\ldots,k_d$ son enteros positivos de suma $n$ y con $k_1\leq \ldots \leq k_d$:

$$J=\begin{pmatrix} J_{0,k_1} & 0 & \cdots & 0 \\ 0 & J_{0,k_2} & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & J_{0,k_d}\end{pmatrix}.$$

Por un lado, es sencillo elevar esta matriz a potencias, pues simplemente los bloques se elevan a las potencias correspondientes. En símbolos:

$$J^r=\begin{pmatrix} J_{0,k_1}^r& 0 & \cdots & 0 \\ 0 & J_{0,k_2}^r& \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & J_{0,k_d}^r\end{pmatrix}.$$

¿Cuál es el rango de esta potencia? Nos conviene cambiar un poco de notación. En vez de considerar a los $k_i$ por separado, los agruparemos de acuerdo a su valor, que puede ir de $1$ a $n$. Así, para cada $j=1,\ldots,n$ definimos $m_j$ como la cantidad de valores $k_i$ iguales a $j$. Bajo esta notación, la igualdad $k_1+\ldots+k_d=n$ se puede reescribir como $$m_1+2m_2+3m_3+\ldots+nm_n=n.$$

Una primera observación es que el rango de $J$ es simplemente la suma de los rangos de cada una de las $J_{0,k_i}$. Cada una de éstas contribuye con rango $k_i-1$. Así, en términos de las $m_j$ tenemos lo siguiente:

\begin{align*}
\text{rango}(J)&=\sum_{i=1}^d (k_i-1)\\
&=\sum_{j=1}^n (j-1) m_j \\
&=0\cdot m_1 + 1\cdot m_2 + 2 \cdot m_3 + \ldots + (n-1) \cdot m_n.
\end{align*}

De manera similar,

\begin{align*}
\text{rango}(J^r)&=\sum_{i=1}^d \text{rango}(J_{0,k_i}^r)\\
&=\sum_{j=1}^n m_j \text{rango}(J_{0,j}^r).
\end{align*}

El término $\text{rango}(J_{0,j}^r)$ lo podemos calcular con la proposición de la sección anterior, cuidando la restricción entre el tamaño y las potencias que queremos. De aquí y de la restricción original para la las $m_j$ salen todas las siguientes igualdades:

\begin{align*}
n&= 1\cdot m_1 + 2\cdot m_2 + 3 \cdot m_3 + \ldots + n \cdot m_n\\
\text{rango}(J)&=0\cdot m_1 + 1\cdot m_2 + 2 \cdot m_3 + \ldots + (n-1) \cdot m_n\\
\text{rango}(J^2)&= 0 \cdot m_1 + 0 \cdot m_2 + 1 \cdot m_3 + \ldots + (n-2)\cdot m_n\\
\text{rango}(J^3)&= 0 \cdot m_1 + 0 \cdot m_2 + 0 \cdot m_3 + \ldots + (n-3)\cdot m_n\\
&\vdots\\
\text{rango}(J^{n-1})&= 0\cdot m_1 + 0 \cdot m_2 + 0 \cdot m_3 + \ldots + 1 \cdot m_n.
\end{align*}

A partir de aquí el rango de $J^n$ es $0$. Esto nos da una manera de entender con mucha precisión el rango de cualquier potencia de una matriz diagonal por bloques hecha con bloques de Jordan.

Unicidad de la forma canónica de Jordan

Estamos listos para justificar la unicidad de la forma canónica de Jordan. Una matriz diagonal por bloques hecha por bloques de Jordan queda totalmente determinada por los valores de $m_j$ de la sección anterior. Supongamos que $A$ tiene como forma canónica de Jordan tanto a una matriz $J$ con valores $m_j$, como a otra matriz $J’$ con valores $m_j’$.

Como dos matrices similares cumplen que sus potencias son todas del mismo rango, entonces para cualquier $r$ de $1$ a $n-1$ se cumple que $$\text{rango}(J^r)=\text{rango}(A^r)=\text{rango}(J’^r).$$ Así, tanto $(m_1,\ldots,m_n)$ como $({m_1}’,\ldots,{m_n}’)$ son soluciones al siguiente sistema de ecuaciones en variables $x_1,\ldots,x_n$.

\begin{align*}
n&= 1\cdot x_1 + 2\cdot x_2 + 3 \cdot x_3 + \ldots + n \cdot x_n\\
\text{rango}(A)&=0\cdot x_1 + 1\cdot x_2 + 2 \cdot x_3 + \ldots + (n-1) \cdot x_n\\
\text{rango}(A^2)&= 0 \cdot x_1 + 0 \cdot x_2 + 1 \cdot x_3 + \ldots + (n-2)\cdot x_n\\
\text{rango}(A^3)&= 0 \cdot x_1 + 0 \cdot x_2 + 0 \cdot x_3 + \ldots + (n-3)\cdot x_n\\
&\vdots\\
\text{rango}(A^{n-1})&= 0\cdot x_1 + 0 \cdot x_2 + 0 \cdot x_3 + \ldots + 1 \cdot x_n.
\end{align*}

Pero este es un sistema de $n$ ecuaciones en $n$ variables y con matriz asociada de determinante $1$, así que su solución es única. Esto muestra que $(m_1,\ldots,m_n)=({m_1}’,\ldots,{m_n}’)$. Entonces, en $J$ y $J’$ aparecen la misma cantidad de bloques de cada tamaño. Como además los bloques van de tamaño menor a mayor tanto en $J$ como en $J’$, concluimos que $J=J’$.

Como consecuencia de toda esta discusión, obtenemos de hecho lo siguiente.

Corolario. Dos matrices nilpotentes son semejantes si y sólo si tienen la misma forma canónica de Jordan. Distintas formas canónicas de Jordan dan distintas clases de semejanza.

Una receta para encontrar la forma canónica de Jordan de nilpotentes

La demostración anterior no sólo demuestra la unicidad de la forma canónica de Jordan. Además, nos dice exactamente cómo obtenerla. Para ello:

  1. Calculamos todas las potencias de $A$ hasta $n-1$.
  2. Usando reducción gaussiana (o de otro modo), calculamos el rango de cada una de estas potencias.
  3. Resolvemos el sistema de ecuaciones en variables $x_j$ de la sección anterior.
  4. La forma canónica de Jordan de $A$ tiene $x_j$ bloques de tamaño $j$, que debemos colocar en orden creciente de tamaño.

Ejemplo. Consideremos la siguiente matriz en $M_7(\mathbb{R})$: $$C=\begin{pmatrix}-27 & 266 & 1 & -37 & 135 & -125 & 53\\217 & -1563 & 118 & 33 & -1251 & 1020 & 361\\236 & -1784 & 188 & 16 & -1512 & 1234 & 585\\11 & -10 & -25 & 12 & 28 & -29 & -80\\-159 & 1133 & -114 & -98 & 878 & -690 & -232\\197 & -1409 & 88 & -19 & -1151 & 952 & 348\\-230 & 1605 & -179 & -100 & 1316 & -1031 & -440\end{pmatrix}$$

Sus números son muy complicados, sin embargo, nos podemos auxiliar de herramientas computacionales para encontrar sus potencias. Soprendentemente esta es una matriz nilpotente de índice $3$ pues:

$$C^2=\begin{pmatrix}0 & -10209 & -3403 & -6806 & -6806 & 10209 & 0\\0 & 14691 & 4897 & 9794 & 9794 & -14691 & 0\\0 & 2739 & 913 & 1826 & 1826 & -2739 & 0\\0 & 7221 & 2407 & 4814 & 4814 & -7221 & 0\\0 & -14193 & -4731 & -9462 & -9462 & 14193 & 0\\0 & 10956 & 3652 & 7304 & 7304 & -10956 & 0\\0 & -11952 & -3984 & -7968 & -7968 & 11952 & 0\end{pmatrix}$$

y

$$C^3=\begin{pmatrix}0 & 0 & 0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 0 & 0 & 0\end{pmatrix}.$$

Usando reducción gaussiana, o herramientas computacionales, obtenemos que el rango de $C$ es $4$ y que el rango de $C^2$ es $2$. A partir de $k\geq 3$ obtenemos que $\text{rango}(C^k)=\text{rango}(O_7)=0$. Si queremos encontrar la forma canónica de Jordan de $C$, necesitamos entonces resolver el siguiente sistema de ecuaciones, que nos dirá cuántos bloques $x_j$ de tamaño $j$ hay:

\begin{align*}
7&= x_1+2x_2+3x_3+4x_4+5x_5+6x_6+7x_7\\
4&=x_2 + 2x_3 + 3x_4+4x_5+5x_6+6x_7\\
2&= x_3 + 2x_4+3x_5+4x_6+5x_7 \\
0&= x_4+2x_5+3x_6+4x_7\\
0 &= x_5+2x_6+3x_7\\
0&= x_6+2x_7\\
0&= x_7
\end{align*}

Para resolverlo lo mejor es proceder «de abajo hacia arriba». Las últimas cuatro ecuaciones nos dicen que $x_7=x_6=x_5=x_4=0$. Así, el sistema queda un poco más simple, como:

\begin{align*}
7&= x_1+2x_2+3x_3\\
4&=x_2 + 2x_3\\
2&= x_3.
\end{align*}

De la última igualdad, tenemos $x_3=2$, lo que nos dice que la forma canónica de Jordan tendría dos bloques de tamaño $3$. Sustituyendo en la penúltima igualdad obtenemos que $4=x_2+4$, de donde $x_2=0$. Así, no tendremos ningún bloque de tamaño $2$. Finalmente, sustituyendo ambos valores en la primera igualdad obtenemos que $7=x_1+0+6$. De aquí obtenemos $x_1=1$, así que la forma canónica de Jordan tendrá un bloque de tamaño $1$. En resumen, la forma canónica de Jordan es la matriz $$\begin{pmatrix} J_{0,1} & 0 & 0 \\ 0 & J_{0,3} & 0 \\ 0 & 0 & J_{0,3}\end{pmatrix}.$$ Explícitamente, ésta es la siguiente matriz:

$$\begin{pmatrix} 0& 0 & 0 & 0 & 0 & 0 & 0 \\ 0& 0 & 1 & 0 & 0 & 0 & 0 \\ 0& 0 & 0 & 1 & 0 & 0 & 0 \\ 0& 0 & 0 & 0 & 0 & 0 & 0 \\ 0& 0 & 0 & 0 & 0 & 1 & 0 \\ 0& 0 & 0 & 0 & 0 & 0 & 1 \\ 0& 0 & 0 & 0 & 0 & 0 & 0 \end{pmatrix}.$$

Para verla un poco más «como de bloques» la podemos reescribir de la siguiente manera:

$$\left(\begin{array}{c|ccc|ccc} 0& 0 & 0 & 0 & 0 & 0 & 0 \\ \hline 0& 0 & 1 & 0 & 0 & 0 & 0 \\ 0& 0 & 0 & 1 & 0 & 0 & 0 \\ 0& 0 & 0 & 0 & 0 & 0 & 0 \\ \hline 0& 0 & 0 & 0 & 0 & 1 & 0 \\ 0& 0 & 0 & 0 & 0 & 0 & 1 \\ 0& 0 & 0 & 0 & 0 & 0 & 0 \end{array}\right).$$

$\triangle$

Más adelante…

Hemos demostrado la existencia y unicidad de la forma canónica de Jordan para matrices nilpotentes. Este es un resultado interesante por sí mismo. Sin embargo, también es un paso intermedio para un resultado más general. En las siguientes entradas hablaremos de una versión más general del teorema de Jordan, para matrices tales que su polinomio característico se descomponga totalmente en el campo en el que estemos trabajando.

Tarea moral

  1. Considera la siguiente matriz: $$M=\begin{pmatrix}11 & 11 & -11 & -11\\-1 & -1 & 1 & 1\\3 & 3 & -3 & -3\\7 & 7 & -7 & -7\end{pmatrix}.$$
    1. Muestra que $M$ es una matriz nilpotente y determina su índice.
    2. ¿Cuál es la forma canónica de Jordan de $M$?
  2. Describe las posibles formas canónicas de Jordan para una matriz nilpotente $A \in M_{5}(F)$ de índice $2$.
  3. Describe las posibles formas canónicas de Jordan para una matriz nilpotente $A \in M_{7}(F)$ de rango $5$.
  4. Encuentra de manera explícita la inversa de la siguiente matriz en $M_n(\mathbb{R})$ y usa esto para dar de manera explícita la solución al sistema de ecuación en las variables $x_i$ que aparece en la entrada: $$\begin{pmatrix} 1 & 2 & 3 & \cdots & n-1 & n \\ 0 & 1 & 2 & \cdots & n-2 & n-1 \\ 0 & 0 & 1 & \cdots & n-3 & n-2 \\ & \vdots & & \ddots & & \vdots\\ 0 & 0 & 0 & \cdots & 1 & 2 \\ 0 & 0 & 0 & \cdots & 0 & 1\end{pmatrix}.$$
  5. Sea $A$ una matriz nilpotente en $M_n(\mathbb{R})$. Muestra que las matrices $A$ y $5A$ son similares entre sí.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal I: Más ejemplos de reducción gaussiana

Por Ayax Calderón

Introducción

En esta entrada veremos varios ejemplos que nos ayudarán a comprender que la reducción gaussiana es una herramienta muy poderosa a la hora de resolver sistemas de ecuaciones lineales.

Problemas resueltos

Problema 1. Implementa el algoritmo de reducción gaussiana en la matriz
\begin{align*}
A=\begin{pmatrix}
0 & 2 & 1 & 1 & 2\\
1 & 1 & 0 & 2 & 1\\
-3 & 1 & 1 & 0 & 2\\
1 & 1 & 1 & 1 & 1\end{pmatrix}
\end{align*}

Solución. Para este problema usaremos la siguiente notación para indicar las operaciones elementales que estamos efectuando :

  • $R_i \leftrightarrow R_j$ para intercambiar el renglón $i$ con el renglón $j$.
  • $kR_i$ para multiplicar el renglón $i$ por el escalar $k$.
  • $R_i + kR_j$ para sumarle $k$ veces el renglón $j$ al renglón $i$.


\begin{align*}
A=&\begin{pmatrix}
0 & 2 & 1 & 1 & 2\\
1 & 1 & 0 & 2 & 1\\
-3 & 1 & 1 & 0 & 2\\
1 & 1 & 1 & 1 & 1\end{pmatrix}\\
R_1 \leftrightarrow R_2
& \begin{pmatrix}
1 & 1 & 0 & 2 & 1\\
0 & 2 & 1 & 1 & 2\\
-3 & 1 & 1 & 0 & 2\\
1 & 1 & 1 & 1 & 1\end{pmatrix}\\
R_4 – R_1
&\begin{pmatrix}
1 & 1 & 0 & 2 & 1\\
0 & 2 & 1 & 1 & 2\\
-3 & 1 & 1 & 0 & 2\\
0 & 0 & 1 & -1 & 0\end{pmatrix}\\
R_3 + 3R_1
&\begin{pmatrix}
1 & 1 & 0 & 2 & 1\\
0 & 2 & 1 & 1 & 2\\
0 & 4 & 1 & 6 & 5\\
0 & 0 & 1 & -1 & 0\end{pmatrix}\\
\frac{1}{2}R_2
& \begin{pmatrix}
1 & 1 & 0 & 2 & 1\\
0 & 1 & \frac{1}{2} & \frac{1}{2} & 1\\
0 & 4 & 1 & 6 & 5\\
0 & 0 & 1 & -1 & 0\end{pmatrix}\\
R_3 – 4R_2
&\begin{pmatrix}
1 & 1 & 0 & 2 & 1\\
0 & 1 & \frac{1}{2} & \frac{1}{2} & 1\\
0 & 0 & -1 & 4 & 1\\
0 & 0 & 1 & -1 & 0\end{pmatrix}
\end{align*}
\begin{align*}
R_1 – R_2
& \begin{pmatrix}
1 & 0 & -\frac{1}{2} & \frac{3}{2} & 0\\
0 & 1 & \frac{1}{2} & \frac{1}{2} & 1\\
0 & 0 & -1 & 4 & 1\\
0 & 0 & 1 & -1 & 0\end{pmatrix}\\
-1\cdot R_3
&\begin{pmatrix}
1 & 0 & -\frac{1}{2} & \frac{3}{2} & 0\\
0 & 1 & \frac{1}{2} & \frac{1}{2} & 1\\
0 & 0 & 1 & -4 & -1\\
0 & 0 & 1 & -1 & 0\end{pmatrix}\\
R_4 – R_3
& \begin{pmatrix}
1 & 0 & -\frac{1}{2} & \frac{3}{2} & 0\\
0 & 1 & \frac{1}{2} & \frac{1}{2} & 1\\
0 & 0 & 1 & -4 & -1\\
0 & 0 & 0 & 3 & 1\end{pmatrix}\\
R_2 – \frac{1}{2} R_3
& \begin{pmatrix}
1 & 0 & -\frac{1}{2} & \frac{3}{2} & 0\\
0 & 1 & 0 & \frac{5}{2} & \frac{3}{2}\\
0 & 0 & 1 & -4 & -1\\
0 & 0 & 0 & 3 & 1\end{pmatrix} \\
R_1 + \frac{1}{2}R_3
& \begin{pmatrix}
1 & 0 & 0 & -\frac{1}{2} & -\frac{1}{2}\\
0 & 1 & 0 & \frac{5}{2} & \frac{3}{2}\\
0 & 0 & 1 & -4 & -1\\
0 & 0 & 0 & 3 & 1\end{pmatrix}
\end{align*}
\begin{align*}
\frac{1}{3} R_4
&\begin{pmatrix}
1 & 0 & 0 & -\frac{1}{2} & -\frac{1}{2}\\
0 & 1 & 0 & \frac{5}{2} & \frac{3}{2}\\
0 & 0 & 1 & -4 & -1\\
0 & 0 & 0 & 1 & \frac{1}{3}\end{pmatrix}\\
R_3 + 4R_4
& \begin{pmatrix}
1 & 0 & 0 & -\frac{1}{2} & -\frac{1}{2}\\
0 & 1 & 0 & \frac{5}{2} & \frac{3}{2}\\
0 & 0 & 1 & 0 & \frac{1}{3}\\
0 & 0 & 0 & 1 & \frac{1}{3}\end{pmatrix} \\
R_2 – \frac{5}{2}R_4
& \begin{pmatrix}
1 & 0 & 0 & -\frac{1}{2} & -\frac{1}{2}\\
0 & 1 & 0 & 0 & \frac{2}{3}\\
0 & 0 & 1 & 0 & \frac{1}{3}\\
0 & 0 & 0 & 1 & \frac{1}{3}\end{pmatrix} \\
R_1 + \frac{1}{2}R_4
& \begin{pmatrix}
1 & 0 & 0 & 0 & -\frac{1}{3}\\
0 & 1 & 0 & 0 & \frac{2}{3}\\
0 & 0 & 1 & 0 & \frac{1}{3}\\
0 & 0 & 0 & 1 & \frac{1}{3}\end{pmatrix}\\
=&A_{red}
\end{align*}

$\triangle$

Problema 2. Resuelve el siguiente sistema homogéneo.
\begin{align*}
\begin{cases}
x+2y-3z &=0\\
2x+5y+2z &=0\\
3x-y-4z &=0
\end{cases}
\end{align*}

Solución. La matriz asociada al sistema anterior es
\begin{align*}
\begin{pmatrix}
1 & 2 & -3\\
2 & 5 & 2\\
3 & -1 & -4
\end{pmatrix}
\end{align*}
Para resolver el sistema $AX=0$ nos bastará con encontrar $A_{red}$, pues el sistema $A_{red}X=0$ es equivalente al sistema $AX=0$.
\begin{align*}
&\begin{pmatrix}
1 & 2 & -3\\
2 & 5 & 2\\
3 & -1 & -4
\end{pmatrix}\\
R_2 -2R_1
&\begin{pmatrix}
1 & 2 & -3\\
0 & 1 & 8\\
3 & -1 & -4
\end{pmatrix}\\
R_3 – 3R_1
&\begin{pmatrix}
1 & 2 & -3\\
0 & 1 & 8\\
0 & -7 & 5
\end{pmatrix}\\
R_1 – 2R_2
&\begin{pmatrix}
1 & 0 & -19\\
0 & 1 & 8\\
0 & -7 & 5
\end{pmatrix}\\
R_3 + 7R_2
&\begin{pmatrix}
1 & 0 & -19\\
0 & 1 & 8\\
0 & 0 & 61
\end{pmatrix}\\
R_2 – \frac{8}{61}R_3
&\begin{pmatrix}
1 & 0 & -19\\
0 & 1 & 0\\
0 & 0 & 61
\end{pmatrix}\\
R_1 + \frac{19}{61}R_3
&\begin{pmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 61
\end{pmatrix}\\
\frac{1}{61}R_3
&\begin{pmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1
\end{pmatrix}\\
&=A_{red}
\end{align*}

De lo anterior se sigue que para resolver el sistema $AX=0$ basta con resolver el sistema
\begin{align*}
\begin{pmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1
\end{pmatrix} \begin{pmatrix}
x\\
y\\
z
\end{pmatrix}= \begin{pmatrix}
0\\
0\\
0
\end{pmatrix}.
\end{align*}
Pero este sistema es el sistema

\begin{align*}
\begin{cases} x = 0\\ y = 0 \\ z = 0. \end{cases}
\end{align*}

De esta forma, $x=y=z=0$ es la (única) solución al sistema original.

$\triangle$

Problema 3. Determina las soluciones fundamentales del sistema homogéneo $AX=0$, donde $A$ es la matriz
\begin{align*}
A=\begin{pmatrix}
1 & -2 & 1 & 0\\
-2 & 4 & 0 & 2\\
-1 & 2 & 1 & 2
\end{pmatrix}.
\end{align*}

Solución. Sea $AX=0$ el sistema
\begin{align*}
\begin{pmatrix}
1 & -2 & 1 & 0\\
-2 & 4 & 0 & 2\\
-1 & 2 & 1 & 2
\end{pmatrix} \begin{pmatrix}
x\\
y\\
z\\
w \end{pmatrix} = \begin{pmatrix}
0\\
0\\
0 \end{pmatrix}
\end{align*}

Para este problema nuevamente nos interesa llevar la matriz asociada al sistema a su forma escalonada reducida.

Aunque es muy importante saber cómo se hacen estos procedimientos, es cierto que también existen herramientas que nos ayudan a hacer estos cálculos de manera más rápida. En esta ocasión usaremos una calculadora de forma reducida escalonada disponible en línea, la cual nos indica que la forma escalonada reducida de la matriz $A$ es
\begin{align*}
A_{red}=\begin{pmatrix}
1 & -2 & 0 & -1\\
0 & 0 & 1 & 1\\
0 & 0 & 0 & 0
\end{pmatrix}.
\end{align*}

De esta forma, el sistema del problema es equivalente al sistema $A_{red}X=0$
\begin{align*}
\begin{pmatrix}
1 & -2 & 0 & -1\\
0 & 0 & 1 & 1\\
0 & 0 & 0 & 0
\end{pmatrix} \begin{pmatrix}
x\\
y\\
z\\
w \end{pmatrix} = \begin{pmatrix}
0\\
0\\
0 \end{pmatrix}
\end{align*}
Las variables pivote son $x$ y $z$. Las variables libres son $y$ y $w$.

Como se mencionó en una entrada anterior, para encontrar las soluciones fundamentales hay que expresar a las variables pivote en términos de las variables libres. En el sistema anterior podemos notar que
\begin{align*}
\begin{cases}
x =2y+w\\
z=-w.
\end{cases}
\end{align*}
por lo que
\begin{align*}
\begin{pmatrix}
x\\
y\\
z\\
w
\end{pmatrix}&=\begin{pmatrix}
2y+w\\
y\\
-w\\
w
\end{pmatrix}\\
&=y\begin{pmatrix}
2\\
1\\
0\\
0
\end{pmatrix} + w \begin{pmatrix}
1\\
0\\
-1\\
1
\end{pmatrix}
\end{align*}
siendo los vectores columna de la última igualdad las soluciones fundamentales del sistema $AX=0$, es decir que con estas soluciones se pueden generar todas las demás.

$\triangle$

Hasta ahora hemos visto ejemplos de reducción gaussiana de matrices de tamaño muy concreto y entradas muy concretas. Sin embargo, otra habilidad importante es aprender a usar reducción gaussiana en una matriz de tamaño arbitrario, con algunas entradas específicas. Veamos un ejemplo de cómo hacer esto.

Problema 4. Sea $n>2$ un número entero. Resuelve en números reales el sistema
\begin{align*}
x_2=\frac{x_1+x_3}{2}, x_3= \hspace{2mm} \frac{x_2+x_4}{2}, \hspace{2mm} \dots , \hspace{2mm}, x_{n-1}=\frac{x_{n-2}+x_n}{2}.
\end{align*}

Solución. Este es un sistema lineal homogéneo de ecuaciones. Esto se puede verificar multiplicando cada ecuación por $2$ e igualándola a $0$. Por ejemplo, la primer ecuación se puede escribir como $x_1-2x_2+x_3=0$. Transformando el resto de las ecuaciones, obtenemos que el sistema se puede escribir en forma matricial como $AX=0$, donde$A$ es la matriz en $M_{n-2,n}(F)$ dada por
\begin{align*}
\begin{pmatrix}
1 & -2 & 1 & 0 & 0 & \cdots & 0 & 0 & 0 \\
0 & 1 & -2 & 1 & 0 & \cdots & 0 & 0 & 0 \\
0 & 0 & 1 & -2 & 1 & \cdots & 0 & 0 & 0 \\
0 & 0 & 0 & 1 & -2 & \cdots & 0 & 0 & 0 \\
& \vdots & & \vdots & & \ddots & & \vdots &\\
0 & 0 & 0 & 0 & 0 & \cdots & -2 & 1 & 0\\
0 & 0 & 0 & 0 & 0 & \cdots & 1 &- 2 & 1
\end{pmatrix}.
\end{align*}

Esta matriz se ve algo intimidante, pero igual se le puede aplicar reducción gaussiana. Hagamos esto.

Afortunadamente, en cada fila ya tenemos un pivote y están «escalonados». Basta con hacer transvecciones para asegurar que en cada columna de un pivote, el pivote es la única entrada no cero. Haremos los primeros pasos para encontrar un patrón de qué va sucediendo.

En el primer paso, sumamos dos veces la fila $2$ a la primer fila. Al hacer esto obtenemos:

\begin{align*}
\begin{pmatrix}
1 & 0 & -3 & 2 & 0 & \cdots & 0 & 0 & 0 \\
0 & 1 & -2 & 1 & 0 & \cdots & 0 & 0 & 0 \\
0 & 0 & 1 & -2 & 1 & \cdots & 0 & 0 & 0 \\
0 & 0 & 0 & 1 & -2 & \cdots & 0 & 0 & 0 \\
& \vdots & & \vdots & & \ddots & & \vdots &\\
0 & 0 & 0 & 0 & 0 & \cdots & -2 & 1 & 0\\
0 & 0 & 0 & 0 & 0 & \cdots & 1 &- 2 & 1
\end{pmatrix}.
\end{align*}

Con esto la segunda columna ya queda lista. El el siguiente paso, multiplicamos por 3 (y 2) la tercer fila y se lo sumamos a la primera fila (y segunda, respectivamente). Obtenemos:

\begin{align*}
\begin{pmatrix}
1 & 0 & 0 & -4 & 3 & \cdots & 0 & 0 & 0 \\
0 & 1 & 0 & -3 & 2 & \cdots & 0 & 0 & 0 \\
0 & 0 & 1 & -2 & 1 & \cdots & 0 & 0 & 0 \\
0 & 0 & 0 & 1 & -2 & \cdots & 0 & 0 & 0 \\
& \vdots & & \vdots & & \ddots & & \vdots &\\
0 & 0 & 0 & 0 & 0 & \cdots & -2 & 1 & 0\\
0 & 0 & 0 & 0 & 0 & \cdots & 1 &- 2 & 1
\end{pmatrix}.
\end{align*}

Para el siguiente paso, ahora hay que multiplicar por 4 (3, 2) la cuarta fila y sumárselo a la primera (segunda, tercera, respectivamente), y obtenemos:

\begin{align*}
\begin{pmatrix}
1 & 0 & 0 & 0 & -5 & 4 & \cdots & 0 & 0 & 0 \\
0 & 1 & 0 & 0 & -4 & 3 & \cdots & 0 & 0 & 0 \\
0 & 0 & 1 & 0 & -3 & 2 &\cdots & 0 & 0 & 0 \\
0 & 0 & 0 & 1 & -2 & 1 & \cdots & 0 & 0 & 0 \\
& \vdots & & \vdots & & & \ddots & & \vdots &\\
0 & 0 & 0 & 0 & 0 & 0 & \cdots & -2 & 1 & 0\\
0 & 0 & 0 & 0 & 0 & 0 &\cdots & 1 &- 2 & 1
\end{pmatrix}.
\end{align*}

El patrón es ahora claro. Conforme arreglamos la columna $j$, luego la columna $j+1$ tiene a los números $-(j+1), -j, \ldots, -3, -2$ y la columna $j+2$ tiene a los números $j,j-1,j-2,\ldots,1,-2,1$. Esto puede demostrarse formalmente por inducción. Al arreglar la columna $n-2$, la matriz queda en la siguiente forma escalonada reducida:

\begin{align*}
\begin{pmatrix}
1 & 0 & 0 & 0 & 0 & \cdots & 0 & -(n-1) & n-2 \\
0 & 1 & 0 & 0 & 0 & \cdots & 0 & -(n-2) & n-3 \\
0 & 0 & 1 & 0 & 0 & \cdots & 0 & -(n-3) & n-4 \\
0 & 0 & 0 & 1 & 0 & \cdots & 0 & -(n-4) & n-5 \\
& \vdots & & \vdots & & \ddots & & \vdots &\\
0 & 0 & 0 & 0 & 0 & \cdots & 0 & -3 & 2\\
0 & 0 & 0 & 0 & 0 & \cdots & 1 & -2 & 1
\end{pmatrix}.
\end{align*}

Estamos listos para resolver el sistema asociado. Las variables libres son $x_{n-1}$ y $x_n$, que podemos darles valores arbitrarios $a$ y $b$. Las variables pivote son todas las demás, y de acuerdo a la forma de la matriz anterior, están dadas por

\begin{align*}
x_1&=(n-1)a – (n-2) b\\
x_2&=(n-2)a – (n-3) b\\
x_3&=(n-3)a – (n-4) b\\
&\vdots\\
x_{n-2}&=2a- b.
\end{align*}

Esto determina todas las soluciones.

$\triangle$

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»