Archivo de la etiqueta: forma matricial

Cálculo Diferencial e Integral III: Formas cuadráticas

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior hablamos de formas bilineales. A partir de esta noción podemos introducir otra más: la de formas cuadráticas. Las formas cuadráticas son cruciales, pues es a partir de ellas que podemos hacer geometría en espacios vectoriales.

Formas bilineales simétricas

Hay unas formas bilineales que son especiales pues al intercambiar los vectores argumento no cambian de valor.

Definición. Una forma bilineal $b\in B(\mathbb{R}^n)$ es simétrica si $b(\bar{u},\bar{v})=b(\bar{v},\bar{u})$ para todos los $\bar{u},\bar{v}\in \mathbb{R}^n$.

Cuando una forma bilineal es simétrica, la matriz que la representa también. En efecto, si $A$ es una representación matricial de la forma bilineal $b$ en la base $\beta$, podemos escribir: \[b(\bar{u},\bar{v})=[\bar{u}]^{t}A[\bar{v}]=\left( [\bar{u}]^{t}A[\bar{v}] \right) ^{t}=[\bar{v}]^{t}A^{t}[\bar{u}].\]

En la igualdad de en medio usamos que $[\bar{u}]^{t}A[\bar{v}] \in \mathbb{R}$ para obtener que este producto matricial es igual a su transpuesta (¿por qué?). Así pues, si $b$ es simétrica: \[ [\bar{v}]^{t}A^{t}[\bar{u}]=b\left( \bar{u},\bar{v} \right)=b\left( \bar{v},\bar{u}\right)=[\bar{v}]^{t}A[\bar{u}],\]

para todo $\bar{u},\bar{v}\in \mathbb{R}^n$. En particular, al evaluar $b(\bar{e}_i,\bar{e}_j)$ para $\bar{e}_i,\bar{e}_j$ una pareja de elementos de la base $\beta$ obtenemos que $A$ y $A^{t}$ coinciden en cualquier entrada $(i,j)$. Por lo tanto $A=A^{t}$, entonces $A$ es simétrica.

Formas cuadráticas y su forma polar

Una forma cuadrática se obtiene de evaluar una forma bilineal usando el mismo vector para ambas entradas. Formalmente, tenemos lo siguiente.

Definición. Una función $q:\mathbb{R}^n \to \mathbb{R}$ es una forma cuadrática si existe una forma bilineal $b:\mathbb{R}^n\times \mathbb{R}^n\to \mathbb{R}$ tal que $q(\bar{v})=b(\bar{v},\bar{v})$ para todo $\bar{v}$ en $\mathbb{R}^n$. A $q$ le llamamos la forma cuadrática asociada a $b$.

Es posible que una misma forma cuadrática pueda ser creada por dos formas bilineales distintas.

Ejemplo. Tomemos la forma bilineal $b_1((x_1,x_2),(y_1,y_2))=0$ para todos $\bar{u},\bar{v}\in \mathbb{R}^2$ y la forma bilineal $b_2((x_1,x_2),(y_1,y_2))=x_1y_2-x_2y_1$. Si $q_1$ es la forma cuadrática asociada a $b_1$ y $q_2$ es la forma cuadrática asociada a $b_2$, se tiene que $q_1((x_1,x_2))=0$ para todo $(x_1,x_2)$ en $\mathbb{R}^2$, y también se tiene que $q_2((x_1,x_2))=0$ para todo $(x_1,x_2)$ en $\mathbb{R}^2$ (verifícalo). Así, aunque $b_1\neq b_2$, se tiene que $q_1=q_2$.

$\triangle$

Si agregamos la hipótesis adicional de que la forma bilineal que se usa sea simétrica, entonces sí tenemos unicidad. De hecho, podemos saber exactamente de qué forma bilineal simétrica $b$ viene una forma cuadrática dada $q$. Este es el contenido del siguiente teorema, que se llama el teorema de la identidad de polarización.

Teorema. Si $q$ es una forma cuadrática en $\mathbb{R}^n$, entonces existe una única forma bilineal $b$ simétrica tal que $q(\bar{v})=b(\bar{v},\bar{v})$ para todo $\bar{v}\in \mathbb{R}^n$. Más aún, \[ \begin{equation} b(\bar{u},\bar{v})=\frac{1}{2}\left(q(\bar{u}+\bar{v})-q(\bar{u})-q(\bar{v})\right). \end{equation}.\]

Demostración. Haremos sólo parte de la demostración: la de la unicidad. El resto puede consultarse, por ejemplo, en la entrada Formas cuadráticas, propiedades, polarización y teorema de Gauss. Supongamos que $q$ es forma cuadrática y que viene de la forma bilineal simétrica $B$. Desarrollando el lado derecho de la ecuación tenemos

\begin{align*}
\frac{1}{2}\left( q(\bar{u}+\bar{v})-q(\bar{u})-q(\bar{v})\right) &= \frac{1}{2}\left( B(\bar{u}+\bar{v},\bar{u}+\bar{v})-B(\bar{u},\bar{u})-B(\bar{v},\bar{v})\right)\\&=\frac{1}{2}\left(B(\bar{u}+\bar{v},\bar{u})+B(\bar{u}+\bar{v},\bar{v})-B(\bar{u},\bar{u})-B(\bar{v},\bar{v})\right)\\
&=\frac{1}{2}\left(B(\bar{u},\bar{u})+B(\bar{v},\bar{u})+B(\bar{u},\bar{v})+B(\bar{v},\bar{v})-B(\bar{u},\bar{u})-B(\bar{v},\bar{v})\right)\\
&=\frac{1}{2}\left(2B(\bar{u},\bar{v})\right)=B(\bar{u},\bar{v}).
\end{align*}

Esto muestra que la expresión del teorema es la única que podría servir para obtener la forma bilineal simétrica de la que viene $q$. El resto de la demostración consiste en ver que, en efecto, la expresión propuesta es bilineal y es simétrica.

$\square$

Por el teorema de la identidad de polarización, podemos siempre suponer que una forma cuadrática viene de una forma bilineal simétrica $b$, a la que le llamaremos su forma polar.

Forma matricial de una forma cuadrática

Definición. Sea $q$ una forma cuadrática de $\mathbb{R}^n$ y $\beta$ una base de $\mathbb{R}^n$. La forma matricial de $q$ en la base $\beta$ será la forma matricial de su forma polar en la base $\beta$.

Por lo visto anteriormente, si $b$ es simétrica, se representa por una matriz simétrica $A=a_{ij}$. Así, las formas matriciales de formas cuadráticas siempre son simétricas. Para evaluar $q$, podemos hacer lo siguiente:

\begin{align*}
q(\bar{v})&=b(\bar{v},\bar{v})\\
&=[\bar{v}]^{t}A[\bar{v}]\\
&=\begin{pmatrix}x_{1} & \dots & x_{n}\end{pmatrix} \begin{pmatrix} a_{11} & \dots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{n1} & \dots & a_{nn} \end{pmatrix} \begin{pmatrix} x_{1} \\ \vdots \\ x_{n} \end{pmatrix}
\end{align*}

Desarrollando el producto obtenemos $$q(\bar{v})=a_{11}x_{1}^{2}+a_{22}x_{2}^{2}+\dots +a_{nn}x_{n}^{2}+2\sum_{i<j}a_{ij}x_{i}x_{j}.$$

Esta última ecuación en las variables $x_{i}$ se denomina el polinomio cuadrático correspondiente a la matriz simétrica $A$.

Nota que si la matriz $A$ es diagonal, entonces $q$ tendrá el siguiente polinomio cuadrático: \[ \begin{equation} q(\bar{v})=[\bar{v}]^{t}A[\bar{v}]=a_{11}x_{1}^{2}+a_{22}x_{2}^{2}+\dots +a_{nn}x_{n}^{2}. \end{equation} \]

Este es un polinomio muy sencillo: no tendrá términos con «productos cruzados».

Teorema de Gauss para formas cuadráticas

Enseguida presentamos un teorema muy importante de formas cuadráticas. Su importancia radica en que siempre deseamos simplificar los objetos que tenemos.

Teorema. Sea $b$ una forma bilineal simétrica en $V$, un espacio vectorial de dimensión finita $n$ sobre $\mathbb{R}$. Entonces $V$ tiene una base $\{\bar{v}_{1},\dots ,\bar{v}_{n}\}$ en la que $b$ se representa por una matriz diagonal, es decir, $b(\bar{v}_{i},\bar{v}_{j})=0$ para $i\neq j$.

Demostración. Procederemos por inducción sobre $n=\dim V$. Si $\dim V=1$, se cumple claramente (¿Por qué?). Por tanto, podemos suponer $\dim V>1$. Si $b=0$, también la afirmación es cierta inmediatamente, pues $b$ se representa por una matriz de puros ceros. Si $q(\bar{v})=b(\bar{v},\bar{v})=0$ para todo $\bar{v}\in V$, al escribir $b$ en su forma polar se obtiene que $b=0$ . Por esta razón se puede suponer que existe un vector $\bar{v}_{1}\in V$ tal que $b(\bar{v}_{1},\bar{v}_{1})\neq0$. Sean $U$ el subespacio generado por $\bar{v}_{1}$ y $W$ el conjunto de aquellos vectores $\bar{v}\in V$ para los que $b(\bar{v}_{1},\bar{v})=0$. Afirmamos que $V=U\oplus W$.

  1. $U\cap W=\{\bar{0} \}$. Supongamos $\bar{u}\in U\cap W$. Como $\bar{u}\in U$, $\bar{u}=k\bar{v}_{1}$ para algún escalar $k\in \mathbb{R}$. Como $\bar{u}\in W$, $0=b(\bar{v}_{1},\bar{u})=b(\bar{v}_{1},k\bar{v}_{1})=kb(\bar{v}_{1},\bar{v}_{1})$. Pero $b(\bar{v}_{1},\bar{v}_{1})\neq 0$; luego $k=0$ y por consiguiente $\bar{u}=\bar{0}$. Así $U\cap W=\{ \bar{0}\}$.
  2. Veamos que $V=U+W$. Sea $\bar{v}\in V$. Consideremos $\bar{w}$ definido como: \[ \bar{w}=\bar{v}-\frac{b(\bar{v}_{1},\bar{v})}{b(\bar{v}_{1},\bar{v}_{1})}\bar{v}_{1}.\] Entonces \[ b(\bar{v}_{1},\bar{w})=b(\bar{v}_{1},\bar{v})-\frac{b(\bar{v}_{1},\bar{v})}{b(\bar{v}_{1},\bar{v}_{1})}b(\bar{v}_{1},\bar{v}_{1})=0. \] Así $\bar{w}\in W$. Por tanto $\bar{v}$ es la suma de un elemento de $U$ y uno de $W$. Entonces se cumple $V=U+W$.
    Ahora $b$ restringida a $W$ es una forma bilineal simétrica en $W$. Pero $\dim W=n-1$, luego existe una base $\{ \bar{v}_{2},\dots ,\bar{v}_{n} \}$ de $W$ tal que $b(\bar{v}_{i},\bar{v}_{j})=0$ para $i\neq j$ y $2\leq i,j\leq n$. Por la propia definición de $W$, $b(\bar{v}_{1},\bar{v}_{j})=0$ para $j=2,\dots n$. Por tanto, la base $\{\bar{v}_{1},\dots ,\bar{v}_{n} \}$ de $V$ tiene la propiedad requerida de que $b(\bar{v}_{i},\bar{v}_{j})=0$ para $i\neq j$.

$\square$

Tenemos pues que para toda forma bilineal simétrica tenemos una representación matricial diagonal. Dicho en otras palabras, para cualquier matriz simétrica $A$ en $M_n(\mathbb{R})$, se tiene que es congruente a alguna matriz diagonal. También de aquí se tiene que para toda forma cuadrática tenemos una representación matricial diagonal.

Formas cuadráticas positivas y positivas definidas

Otra noción importante para formas cuadráticas es la siguiente.

Definición. Diremos que una forma cuadrática $q:\mathbb{R}^n\to \mathbb{R}$ es positiva si se cumple que $q(\bar{x})\geq 0$ para todo $\bar{x}\in \mathbb{R}^n$. Diremos que es positiva definida si se cumple que $q(\bar{x})>0$ para todo $\bar{x}\in \mathbb{R}^n \setminus \{\bar{0}\}$.

Si $b$ es la forma bilineal simétrica que define a $q$ y $A$ es una matriz que represente a $b$ en alguna base $\beta$, se puede ver que $q$ es positiva si y sólo si $X^{t}AX\geq 0$ para todo $X\in \mathbb{R}^n$. Así mismo, es positiva definida si y sólo si $X^{t}AX>0$ para todo $X\neq 0$ en $\mathbb{R}^n$. Esto motiva la siguiente definición para matrices.

Definición. Sea $A\in \mathbb{R}^n$ una matriz simétrica. Diremos que es positiva si se cumple que $X^{t}AX\geq 0$ para todo $X\in \mathbb{R}^n$. Diremos que es, es positiva definida si y sólo si $X^{t}AX>0$ para todo $X\neq 0$ en $\mathbb{R}^n$.

Una propiedad importante que queda como tarea moral es que la propiedad de ser positiva (o positiva definida) es invariante bajo congruencia de matrices.

Hay otras maneras de saber si una matriz es positiva, o positiva definida. De hecho, en la entrada de Matrices positivas y congruencia de matrices de nuestro curso de Álgebra Lineal II puedes encontrar la siguiente caracterización:

Teorema. Sea $A$ una matriz simétrica en $M_n(\mathbb{R})$. Las siguientes afirmaciones son equivalentes:

  1. $A$ es positiva.
  2. $A$ es congruente a una matriz diagonal con puras entradas mayores o iguales a cero.
  3. $A$ puede ser escrita de la forma $B^{t}B$ para alguna matriz $B\in M_n(\mathbb{R})$.

Hay otro resultado más que relaciona a las matrices positivas definidas con sus eigenvalores.

Teorema. Si $A$ es una matriz simétrica en $M_n(\mathbb{R})$ y es positiva definida, entonces todos sus eigenvalores son positivos.

Matriz Hessiana

Veamos cómo se aplican algunas de las ideas vistas en cálculo. Retomemos la discusión de la entrada Polinomio de Taylor para campos escalares. Hacia el final de la entrada enunciamos el teorema de Taylor en el caso especial de grado $2$. Al tomar un campo escalar $f$ y un punto $\bar{a}$, el polinomio de Taylor de grado $2$ estaba dado como sigue:

$$T_{2,\bar{a}}(\bar{a}+\bar{v})=f(\bar{a})+\frac{(\bar{v}\cdot \triangledown )f(\bar{a})}{1!}+\frac{(\bar{v}\cdot \triangledown)^{2}f(\bar{a})}{2!}.$$

Donde

$$\frac{(\bar{v}\cdot \triangledown)^{2}f(\bar{a})}{2!}=\sum_{i=1}^{n}\sum_{j=1}^n v_{i}v_{j}\frac{\partial ^{2}f}{\partial x_{j}\partial x_{i}}(\bar{a}).$$

Observa que este sumando se puede pensar como una forma cuadrática:

\[ q(\bar{v})=\begin{pmatrix}v_{1} & \dots & v_n\end{pmatrix}\begin{pmatrix} \frac{\partial ^{2}f}{\partial x_{1}^{2}}(a) & \dots & \frac{\partial ^{2}f}{\partial x_{1}\partial x_{_{n}}}(\bar{a})\\ \vdots & \ddots & \vdots \\ \frac{\partial ^{2}f}{\partial x_{_{n}}\partial x_{1}}(\bar{a}) & \dots & \frac{\partial ^{2}f}{\partial x_{_{n}}^{2}}(\bar{a}) \end{pmatrix}\begin{pmatrix} v_{1} \\ \vdots \\ v_n\end{pmatrix}\]

La matriz de esta forma cuadrática tiene una importancia especial en el cálculo de varias variables, y por ello tiene su propia definición.

Definición. Sea $f$ un campo escalar definido sobre algún subconjunto abierto de $\mathbb{R}^{n}$. Si $f$ tiene derivadas parciales de segundo orden en el punto $\bar{a}$, a la siguiente matriz la llamamos la matriz hessiana de $f$ en $\bar{a}$:

\[ H_f(\bar{a})=\begin{pmatrix} \frac{\partial ^{2}f}{\partial x_{1}^{2}}(\bar{a}) & \dots & \frac{\partial ^{2}f}{\partial x_{1}\partial x_{_{n}}}(\bar{a}) \\ \vdots & \ddots & \vdots \\ \frac{\partial ^{2}f}{\partial x_{_{n}}\partial x_{1}}(\bar{a}) & \dots & \frac{\partial ^{2}f}{\partial x_{_{n}}^{2}}(\bar{a})\end{pmatrix}.\]

Cuando hablemos de optimización, esta matriz tomará un significado especial. Por ahora, enfoquémonos en entender cómo obtenerla.

Ejemplo. Encontraremos la matriz Hessiana del campo escalar $f(x,y)=\sin(xy)$ en el punto $\left( 1,\frac{\pi}{4} \right)$. Para ello, calculamos las siguientes derivadas parciales de orden $1$ y $2$:

\[ \frac{\partial f}{\partial x}=y\cos(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial x^{2}}=-y^{2}\sin(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial y\partial x}=\cos(xy)-xy\sin(xy) \]

\[ \frac{\partial f}{\partial y}=x\cos(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial y^{2}}=-x^{2}\sin(xy),\hspace{0.3cm}\frac{\partial ^{2}f}{\partial x\partial y}=\cos(xy)-xy\sin(xy).\]

Por lo tanto

\[ H(x,y)=\begin{pmatrix} -y^{2}\sin(xy) &\cos(xy)-xy\sin(xy) \\ \cos(xy)-xy\sin(xy) & -x^{2}\sin(xy) \end{pmatrix}.\]

Evaluando en el punto $\left(1,\frac{\pi}{4} \right),$

\[ H\left(1,\frac{\pi}{4} \right)=\begin{pmatrix} -\frac{\pi ^{2}}{16}\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2}\left( 1-\frac{\pi}{4}\right) \\ \frac{\sqrt{2}}{2}\left( 1-\frac{\pi}{4}\right) & -\frac{\sqrt{2}}{2} \end{pmatrix}.\]

$\triangle$

Mas adelante…

Con esto terminamos nuestro repaso de álgebra lineal, y con ello tenemos las herramientas necesarias para poder retomar nuestro estudio de las funciones en varias variables. En la siguiente entrada comenzaremos con el concepto de diferenciabilidad. A lo largo de las siguientes entradas, iremos viendo por qué las herramientas de álgebra lineal que desarrollamos son importantes.

Así mismo, cuando lleves un curso de Cálculo Diferencial e Integral IV también retomaras una parte importante de la teoría que hemos repasado.

Tarea moral

  1. Responder en la primer definición porque $[\bar{u}]^{t}A[\bar{v}]\in \mathbb{R}$.
  2. Demostrar que el espacio $W$ del último teorema es un subespacio vectorial de $V$.
  3. Explicar en la demostración del último teorema por qué éste se cumple cuando $b=0$ o $\dim V=1$.
  4. Explicar porque $\dim W=n-1$.
  5. Verifica que si una matriz $A$ es positiva definida, entonces cualquier matriz $B$ congruente a $A$ también es positiva definida.
  6. Demuestra el último teorema de esta entrada, es decir, que las matrices simétricas positivas definidas tienen eigenvalores positivos.

Entradas relacionadas

Geometría Analítica I: Polinomios cuadráticos y curvas cuadráticas

Por Leonardo Ignacio Martínez Sandoval

Introducción

Lo primero que queremos determinar en un problema de clasificación es cuáles son los objetos que clasificaremos. En esta entrada los definimos con toda precisión: serán los polinomios cuadráticos en dos variables y las curvas cuadráticas.

Los primeros son expresiones algebraicas que mezclan a dos variables $x$ y $y$ mediante sumas y productos, pero teniendo grado dos. Las segundas son aquellos conjuntos del plano en donde se anula un polinomio cuadrático.

Polinomios cuadráticos en dos variables

Comencemos con una definición algebraica.

Definición. Un polinomio cuadrático en dos variables $P$ es una función $P:\mathbb{R}^2\to \mathbb{R}$ de la forma $$P((x,y))=Ax^2+Bxy+Cy^2+Dx+Ey+F,$$ para algunos reales $A,B,C,D,E,F$, en donde alguno de $A$, $B$ ó $C$ es distinto de cero.

En ocasiones, para abreviar «polinomio cuadrático en dos variables» simplemente usaremos las siglas «PCDV».

Ejemplo. Todas las expresiones que aparecen en las cónicas canónicas que hemos estudiado son PCDVs. Por ejemplo, la ecuación canónica de la elipse $$\frac{x^2}{a^2}+\frac{y^2}{b^2}=1$$ puede reescribirse como $$b^2x^2+a^2y^2-a^2b^2=0.$$ Del lado izquierdo de esta igualdad tenemos un PCDV. De manera similar, la ecuación canónica de la parábola $y^2=4px$ puede reescribirse como $y^2-4px=0$. Una vez más al lado izquierdo nos aparece un PCDV.

$\triangle$

Ejemplo. Si consideramos las dos rectas $3x+5y+1=0$ y $2x-2y+1=0$ y «multiplicamos» sus ecuaciones, entonces obtenemos de nuevo un PCDV pues el producto es:

\begin{align*}
(3x+5y+1)(2x-2y+1)&=6x^2-6xy+3x+10xy-10y^2+5y+2x-2y+1\\
&=6x^2+4xy-10y^2+5x+3y+1.
\end{align*}

$\triangle$

Curvas cuadráticas

Cuando tenemos una expresión algebraica que depende de dos variables $x$ y $y$, entonces podemos preguntarnos por cómo es la figura geométrica que se obtiene al considerar los puntos $(x,y)$ del plano que hacen que la expresión algebraica sea igual a cero. Un ejemplo de esto es cuando consideramos las expresiones del estilo $Ax+By+C$. Las parejas $(x,y)$ que hacen que esta expresión sea igual a cero forman una recta en el plano. En efecto, forman la recta en forma normal dada por la ecuación $(A,B)\cdot (x,y)=-C$, como puedes verificar.

Esta idea es mucho más general. A partir de los polinomios cuadráticos en dos variables también podemos hacernos la misma pregunta: ¿cómo se ven las parejas $(x,y)$ que anulan un polinomio cuadrático? La respuesta será importante, así que las figuras que se construyen así les damos su propio nombre.

Definición. Una curva cuadrática es el conjunto de puntos $(x,y)$ del plano que anulan a un polinomio cuadrático en dos variables $P$. En otras palabras, es un conjunto de la forma $$\mathcal{C}:=\{(x,y)\in \mathbb{R}^2: Ax^2+Bxy+Cy^2+Dx+Ey+F = 0\}.$$

A $P$ le llamamos el polinomio asociado a $\mathcal{C}$. A $\mathcal{C}$ le llamamos la curva descrita (o dada) por $P$. Quizás usaremos terminología un poco distinta, pero que siga dejando evidente que $P$ y $\mathcal{C}$ están relacionados.

Ejemplo. Ya hemos estudiado anteriormente algunas curvas cuadráticas: las cónicas canónicas. Por ejemplo, si tomamos el PCDV $P((x,y))=4x^2-9y^2-36$ y nos preguntamos para cuáles parejas $(x,y)$ esto es igual a cero, como respuesta tenemos que son aquellas parejas $(x,y)$ tales que $ 4x^2-9y^2-36=0$, lo cual podemos reescribir como $$\frac{x^2}{9}-\frac{y^2}{4}=1.$$ Esta es la hipérbola canónica de semieje mayor $3$ y semieje menor $2$. Podemos verla en la siguiente figura.

$\triangle$

Ejemplo. ¿Qué sucede si nos fijamos en la curva descrita por el polinomio cuadrático en dos variables $$ 6x^2+4xy-10y^2+5x+3y+1$$ que construimos en un ejemplo anterior? Si recuerdas, obtuvimos este polinomio cuadrático en dos variables a partir de multiplicar dos expresiones. De esta forma, tenemos que $$ 6x^2+4xy-10y^2+5x+3y+1=0$$ si y sólo si $$ (3x+5y+1)(2x-2y+1) =0.$$ Pero el producto de dos cosas es igual a cero si y sólo si alguna es igual a cero. Así, alguna de las expresiones $3x+5y+1$ y $2x-2y+1$ debe ser igual a cero. Si la primera es cero, entonces $(x,y)$ es un punto en la recta normal $\ell_1$ de ecuación $(3,5)\cdot (x,y) = -1$. Si la segunda es cero, entonces $(x,y)$ es un punto en la recta normal $\ell_2$ de ecuación $(2,-2)\cdot(x,y) = -1$. Así, la curva cuadrática descrita por el PCDV es la unión de $\ell_1$ con $\ell_2$. Podemos verla en la siguiente figura.

$\triangle$

Forma matricial de polinomios cuadráticos en dos variables

Cuando trabajamos con rectas, nos convenía tener varias formas de expresarlas: la forma paramétrica ayudaba a determinar fácilmente el paralelismo, la forma baricéntrica nos daba fórmulas sencillas para los puntos medios, la forma normal nos permitía encontrar distancias, etc. Así mismo, cuando trabajamos con polinomios cuadráticos en dos variables es de ayuda tener más de una expresión.

Podemos reescribir un polinomio cuadrático en dos variables $$P((x,y))=Ax^2+Bxy+Cy^2+Dx+Ey+F$$ de una manera más compacta usando multiplicación matricial. Para ello, definimos $$M=\begin{pmatrix} A & \frac{B}{2} \\ \frac{B}{2} & C \end{pmatrix}, k=\begin{pmatrix} D \\ E \end{pmatrix}, v=\begin{pmatrix} x \\ y \end{pmatrix}.$$ Con esta notación, e interpretando a las matrices de $1\times 1$ como reales, tenemos que $P$ se puede reescribir de la siguiente manera: $$P(v)=v.$$

En efecto, al realizar las operaciones en el lado derecho obtenemos:

\begin{align*}
v^t M v + k^t v + F &=\begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} A & \frac{B}{2} \\ \frac{B}{2} & C \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} + \begin{pmatrix} D & E \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} + F\\
&=\begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} Ax + \frac{B}{2} y \\ \frac{B}{2} x + C y \end{pmatrix} + Dx + Ey + F\\
&=Ax^2 + Bxy + Cy^2+Dx+Ey+F.
\end{align*}

Observa que cuando pasamos un polinomio cuadrático en dos variables a forma matricial entonces siempre obtenemos una matriz $M$ simétrica.

Ejemplo. La forma matricial del PCDV que encontramos anteriormente $$6x^2+4xy-10y^2+5x+3y+1$$ es

$$ \begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} 6 & 2 \\ 2 & 10 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} + \begin{pmatrix} 5 & 3 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} + 1.$$

nota que el coeficiente de $xy$ se tuvo que dividir entre $2$ para llegar a las entradas de la matriz. Es importante recordar esto al pasar de la forma en coordenadas a la forma matricial.

$\triangle$

En caso de ser necesario, también podemos pasar fácilmente de la forma matricial de un polinomio cuadrático en dos variables a su forma en coordenadas.

Ejemplo. Si comenzamos con el polinomio cuadrático en dos variables con forma matricial $$ \begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} 2 & -1 \\ -1 & 3 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} + \begin{pmatrix} 0 & -3 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} – 1, $$

entonces su forma en coordenadas es $$2x^2-2xy+3y^2 – 3y -1.$$

Observa que las entradas $-1$ fuera de la diagonal principal de la matriz al salir se duplican para conformar el coeficiente de $xy$. Es importante recordar esto al pasar de forma matricial a forma en coordenadas.

$\triangle$

Más adelante…

En esta entrada definimos qué son los polinomios cuadráticos en dos variables y qué son las curvas cuadráticas.

Por un lado, mencionamos que todas las ecuaciones de cónicas canónicas que hemos visto tienen polinomios cuadráticos en dos variables. ¿Será que todas las ecuaciones de cónicas también tienen polinomios cuadráticos en dos variables? Por otro lado, vimos que algunas curvas cuadráticas son cónicas. Pero nos pasó algo un poco raro: en un ejemplo salieron dos rectas que se intersectan, que quizás estrictamente no pensamos como una cónica usual (elipse, hipérbola, parábola).

¿Cómo serán todas las curvas cuadráticas? ¿Serán sólo las cónicas usuales y algunas excepciones o podrán tener formas muy extrañas? Eso lo estudiaremos después.

También en esta entrada vimos la forma matricial de un polinomio cuadrático en dos variables. De momento, no hemos hablado de la utilidad que tiene pensar a un PCDV así. Sin embargo, en la siguiente entrada veremos que esta expresión es fundamental para ver qué sucede cuando «combinamos» un polinomio cuadrático con una transformación afín.

Tarea moral

  1. Usa alguna herramienta tecnológica (como GeoGebra) para trazar las curvas cuadráticas descritas por los siguientes polinomios cuadráticos en dos variables:
    • $x^2-2xy+3y^2+x-5y+7$
    • $3y^2+5y+x$
    • $x^2+y^2-5x-5y+3$
    • $xy-x-y+7$
    • $-x^2+2xy-3y^2-x+5y-7$
  2. Sea $P:\mathbb{R}^2\to \mathbb{R}$ dada por $P((x,y))=(Ax+By+C)(Dx+Ey+F)$. Demuestra que $P$ es un polinomio cuadrático en dos variables. Luego, demuestra que:
    1. Si $AE-BD\neq 0$, entonces la curva cuadrática dada por $P$ es la unión de dos rectas que se intersectan.
    2. Si $AE-BD=0$, entones la curva cuadrática dada por $P$ es la unión de dos rectas paralelas (no necesariamente distintas).
  3. Demuestra que la intersección de una recta con una curva cuadrática sólo puede ser:
    1. Vacía,
    2. Un punto,
    3. Dos puntos, o
    4. Una infinidad de puntos.
  4. Demuestra que cualquier curva cuadrática $\mathcal{C}$ puede ser descrita a través de una infinidad de polinomios cuadráticos en dos variables.
  5. Considera la gráfica de la función $f(x)=\sin(x)$. ¿Será que esta gráfica es una curva cuadrática? Intenta demostrar por qué sí o por qué no.

Entradas relacionadas

Álgebra Lineal I: Forma matricial de una transformación lineal

Por Ayax Calderón

Introducción

Durante la primera unidad de este curso vimos que las transformaciones lineales $T:F^n \to F^m$ pueden ser descritas por medio de matrices $A\in M_{m,n}(F)$. Nuestro objetivo ahora es extender este resultado para describir transformaciones lineales $T:V\to W$ entre espacios vectoriales de dimensión finita $V$ y $W$. Es decir, para cada una de estas transformaciones, queremos ver cómo se ven en forma matricial.

Sin embargo, a diferencia de lo que sucedía antes, la descripción en esta forma no será única. Para construir una matriz que represente a una transformación lineal, necesitaremos fijar bases para $V$ y $W$. Distintas bases nos darán distintas matrices.

Para esta entrada todos los espacios vectoriales que usemos son de dimensión finita sobre el campo $F$. Usaremos los resultados de la entrada pasada, en la que estudiamos qué le hacen las transformaciones lineales a los conjuntos linealmente independientes, a los generadores y a las bases.

Un paréntesis técnico de isomorfismos

Quizás a estas alturas ya te hayas dado cuenta de que, en cierto sentido, los espacios vectoriales con la misma dimensión se parecen mucho entre sí. Por ejemplo, los espacios vectoriales $\mathbb{R}^4$, $M_2(\mathbb{R}) $ y $\mathbb{R}_3[x]$ pueden pensarse «como el mismo» si identificamos a cada vector $(a,b,c,d)$ con la matriz $\begin{pmatrix} a & b \\ c & d \end{pmatrix}$, o bien con el polinomio $a+bx+cx^2+dx^3$. Esta identificación es biyectiva y «respeta las operaciones».

Con esta motivación, veamos una definición formal.

Definición. Decimos que una transformación lineal $T:V\to W$ es un isomorfismo de espacios vectoriales si es biyectiva. Lo denotamos como $V\simeq_{T} W$, que se lee «$V$ isomorfo a $W$ mediante $T$».

Problema. Sea $T:V\to W$ un isomorfismo de espacios vectoriales. Prueba que su inversa $T^{-1}:W\to V$ es un isomorfismo de espacios vectoriales.

Demostración. La transformación $T^{-1}$ es biyectiva, pues es invertible de inversa $T$, así que sólo hace falta checar que $T^{-1}$ es lineal. Tomemos $w_1$, $w_2$ en $W$, y $c$ en el campo. Como $T$ es suprayectiva, podemos tomar $v_1=T^{-1}(w_1)$ y $v_2=T^{-1}(w_2)$. Entonces $T(v_1)=w_1$ y $T(v_2)=w_2$, así
\begin{align*}
T^{-1}(w_1+cw_2)&=T^{-1}(T(v_1)+cT(v_2))\\
&=T^{-1}(T(v_1+cv_2))\\
&=v_1+cv_2
\end{align*}

En la segunda igualdad estamos usando que $T$ es lineal. De esta forma, concluimos que $T^{-1}$ es lineal también.

$\square$

Formalicemos ahora sí nuestra intuición de que «todos los espacios vectoriales de la misma dimensión finta $n$ sobre un mismo campo se comportan igual». En términos matemáticos, decimos que «es posible clasificar los espacios vectoriales de dimensión finita distintos de $\{0\}$, salvo isomorfismos». Para mostrar esto, veremos que para cada entero positivo $n$ todos los espacios vectoriales de dimensión $n$ son isomorfos a $F^n$. El siguiente resultado da el isomorfismo de manera explícita.

Teorema. Sea $n$ un entero positivo y sea $V$ un espacio vectorial de dimensión finita sobre $F$. Si $B={e_1,\dots,e_n}$ es una base de $V$, entonces la transformación $i_B:F^n\to V$ definida por $$i_B(x_1,\dots,x_n)=x_1e_1+x_2e_2+\dots+x_ne_n$$ es un isomorfismo de espacios vectoriales.

La verificación de los detalles de este teorema queda como tarea moral. Como sugerencia, recuerda que una base $B$ de $V$ te permite expresar a cada vector de $V$ (de aquí saldrá la suprayectividad) de manera única (de aquí saldrá la inyectividad) como combinación lineal de elementos de $B$.

Corolario. Si $T:V\to W$ es un isomorfismo de espacios vectoriales, entonces $\dim V=\dim W$.

Bases ordenadas

Sea $V$ un espacio vectorial de dimensión finita $n$. Una base ordenada de $V$ es simplemente una base para la cual nos importa en qué orden están sus elementos. La escribimos con notación de paréntesis en vez de llaves, es decir, en vez de poner $B=\{v_1,\ldots,v_n\}$, ponemos $B=(v_1,\ldots,v_n)$ para hacer énfasis en el orden.

Ejemplo 1. El conjunto $\{(1,2),(3,4)\}$ es una base de $\mathbb{R}^2$. De aquí, podemos obtener dos bases ordenadas, $B=((1,2),(3,4))$ y $B’=((3,4),(1,2))$. Aunque tienen a los mismos elementos, las pensamos como bases ordenadas diferentes pues sus elementos aparecen en diferente orden.

Del mismo modo, las bases $B=(1,x,x^2,x^3)$ y $B’=(x^3,x^2,x,1)$ son la misma base de $\mathbb{R}_2[x]$, pero son distintas como bases ordenadas.

$\triangle$

Por las discusión en la sección anterior, la elección de una base ordenada en un espacio vectorial $V$ de dimensión $n$ nos permite identificar $V$ con $F^{n}$. Es decir, dada una base $B$, podemos «ponerle coordenadas» a los elementos de $V$. Dependiendo de la base ordenada escogida, es posible que obtengamos diferentes coordenadas.

Ejemplo 2. Consideremos el espacio vectorial $M_2(\mathbb{R})$. Se puede verificar que cada uno de los siguientes conjuntos ordenados son una base:

\begin{align*}
B&=\left(\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix},\begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix},\begin{pmatrix} 0 & 0 \\ 1 & 0 \end{pmatrix},\begin{pmatrix} 0 & 0 \\ 0 & 1 \end{pmatrix}\right)\\
B’&=\left(\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix},\begin{pmatrix} 0 & 0 \\ 1 & 0 \end{pmatrix},\begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix},\begin{pmatrix} 0 & 0 \\ 0 & 1 \end{pmatrix}\right)\\
B»&=\left(\begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix},\begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix},\begin{pmatrix} 0 & 0 \\ 1 & 1 \end{pmatrix},\begin{pmatrix} 0 & 0 \\ 0 & 1 \end{pmatrix}\right)
\end{align*}

Como cada uno de ellos es una base, entonces podemos escribir a la matriz $A=\begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}$ como combinación lineal de elementos de cada uno de $B$, $B’$ o $B»$.

Si lo hacemos para $B$, tendríamos (en orden), a los coeficientes $1,2,3,4$, así que las coordenadas de $A$ en la base ordenada $B$ serían $(1,2,3,4)$.

Si lo hacemos para $B’$, tendríamos (en orden), a los coeficientes $1,3,2,4$, así que las coordenadas de $A$ en la base ordenada $B’$ serían $(1,3,2,4)$. Aunque $B$ y $B’$ tengan los mismos elementos, las coordenadas difieren pues como bases ordenadas $B$ y $B’$ son distintas.

Si lo hacemos para $B»$, tendríamos (en orden), a los coeficientes $1,1,1,1$, así que las coordenadas de $A$ en la base ordenada $B»$ serían $(1,1,1,1)$. Aquí obtenemos coordenadas muy distintas pues $B$ y $B»$ ni siquiera tienen a los mismos elementos.

$\triangle$

La forma matricial de una transformación lineal

Consideremos ahora espacios vectoriales $V$ y $W$ de dimensiones $n$ y $m$ respectivamente. Supongamos que tenemos una transformación lineal $T:V\to W$. Escogemos bases ordenadas $B_V=(v_1,\dots, v_n)$ y $B_W=(w_1,\dots,w_m)$ de $V$ y $W$ respectivamente. Ten cuidado, aquí $(v_1,\dots, v_n)$ no es un vector de $F^n$, sino una colección ordenada de vectores de $V$.

Por el teorema de caracterización de espacios vectoriales de dimensión finita, tenemos los isomorfismos $$i_{B_{V}}:F^n\to V,$$ $$i_{B_{W}}:F^m\to W.$$

¿Cómo podemos usar todas estas transformaciones para construir una transformación $F^n\to F^m$? La idea es usar el inverso de $i_{B_W}$ y componer todo.

Así, consideramos $\psi_T$ como la composición de las transformaciones $i_{B_{V}}, T, i_{B_{W}}^{-1}$, es decir, $$\psi_T:F^n\to F^m,$$ está dada por $$\psi_T=i_{B_W}^{-1}\circ T\circ i_{B_{V}}.$$

De esta forma, $\psi_T$ es una transformación lineal entre $F^n$ y $F^m$. ¡Este tipo de transformaciones ya las conocemos! Sabemos que $\psi_T$ se describe de manera única por medio de una matriz $A\in M_{m,n}(F).$ Esta es, por definición, la matriz asociada a $T$ con respecto a las bases $B_V$ y $B_W$ o bien la forma matricial de $T$. Dicha matriz depende fuertemente de las dos bases, así que la denotaremos como $\text{Mat}_{B_W,B_V}(T)$ . Por el momento sólo pongamos mucha atención en el orden en el que escribimos las bases en los subíndices. Es importante más adelante veremos que resulta útil escribirlo así.

Cuando $T:V\to V$ va de un espacio vectorial a sí mismo y usamos sólo una base $B$, simplificamos la notación a $\text{Mat}_B(T)$.

Evaluar $T$ usando su forma matricial

La construcción anterior parece muy complicada, pero en realidad es muy natural. Lo que está sucediendo es lo siguiente. Ya sabemos que toda transformación lineal entre $F^n$ y $F^m$ está dada por matrices. Podemos extender esto a una descripción de transformaciones lineales entre $V$ y $W$ identificando $V$ con $F^n$ y $W$ con $F^m$ vía la elección de bases en $V$ y $W$.

Notemos que si definimos $A:=\text{Mat}_{B_{W},B_{V}}(T)$, entonces tenemos que

$i_{B_{W}}(Ax)=T(i_{B_{V}}(x))$ … (1)

Esta igualdad nos va a ayudar a decir quién es $T$ en términos de las entradas de la matriz $A$. Sea $\{e_1,\dots,e_n\}$ la base canónica de $F^n$ y $\{f_1,\dots,f_m\}$ la base canónica de $F^m$. Si$ A=[a_{ij}]$, entonces por definición $Ae_i=a_{1i}f_1+\dots+a_{mi}f_{m}$, así para $x=e_i$ se tiene

$i_{B_{W}}(Ax)=i_{B_{W}}(a_{1i}f_1+\dots + a_{mi}f_m) = a_{1i}w_1+\dots + a_{mi}w_m.$

Por otro lado, $i_{B_{V}}(e_i)=v_i$, de manera que la relación (1) es equivalente a la relación

$T(v_i)=a_{1i}w_1+\dots + a_{mi}w_m$

Aquí empieza a haber mucha notación, pero no hay que perderse. Hasta ahora lo que tenemos es que «podemos saber cuánto vale la transformación $T$ en cada elemento de la base de $V$ en términos de la matriz $A$». ¡Este es un paso importante, pues en la entrada anterior vimos que basta saber qué le hace una transformación a los elementos de la base para saber qué le hace a cualquier vector! Resumimos lo obtenido hasta ahora.

Proposición. Sea $T:V\to W$ una transformación lineal y sean $B_V=\{v_1,\dots v_n\}, B_W=\{w_1,\dots,w_m\}$ bases en $V$ y $W$, respectivamente. Escribamos $\text{Mat}_{B_W,B_V}(T)=[a_{ij}]$. Entonces para toda $1\leq i\leq n$ se tiene $$T(v_i)=\displaystyle\sum_{j=1}^m a_{ji}w_j.$$

Así, si tenemos la matriz $A$ que representa a $T$ en las bases $B_V$ y $B_W$ y un vector arbitrario $v$ en $V$, para saber quién es $T(V)$ basta:

  • Usar la proposición anterior para saber quién es $T(v_i)$ para cada $v_i$ en la base $B_V$.
  • Expresar a $v$ en términos de la base $B_V$ como, digamos, $v=c_1v_1+\ldots+c_nv_n$.
  • Usar que $T$ es lineal para concluir que $T(v)=c_1T(v_1)+\ldots+c_nT(v_n)$ y usar los valores de $T(v_i)$ encontrados en el primer inciso.

Forma matricial de composiciones de transformaciones lineales

Para finalizar esta entrada queremos entender la relación entre la composición $S\circ T$ de transformaciones lineales y las matrices asociadas de $T$ y $S$. En otras palabras, sean $T:V\to W$ y $S:W\to U$ transformaciones lineales fijas y supongamos que $m=dimV$, $n=dimW$, $p=dimU$. También fijemos las bases $B_U, B_V, B_W$ en $U,V,W$, respectivamente. Para simplificar las cosas escribamos

$\mathcal{A}=\text{Mat}_{B_U,B_W}(S)$ y $\mathcal{B}=\text{Mat}_{B_W,B_V}(T)$

Con respecto a las bases $B_U,B_V,B_W$ se tienen los isomorfismos $i_{B_U}, i_{B_V}, i_{B_W}$ definidos como lo hicimos anteriormente en esta misma entrada del blog, y por definición de $\mathcal{A}, \mathcal{B}$ se tiene

$i_{B_W}(\mathcal{B}x)=T(i_{B_V}(x))$ con $x\in F^m$,

$i_{B_U}(\mathcal{A}y)=S(i_{B_W}(y))$ con $y\in F^n$.

Aplicando $S$ en la primera relación y después usando la segunda relación, se tiene para $x\in F^m$

$(S\circ T)(i_{B_V}(x))=S(i_{B_W}(\mathcal{B}x))=i_{B_U}(\mathcal{A} \mathcal{B}x)$.

Esta última relación y la definición de $\text{Mat}_{B_U,B_V}(S\circ T)$ nos muestra que

$\text{Mat}_{B_U,B_V}(S\circ T)=\mathcal{A} \cdot \mathcal{B}$.

En otras palabras, la composición de transformaciones lineales se reduce a multiplicar sus matrices asociadas o de manera más formal

Teorema. Sean $T:V\to W$ y $S:W\to U$ transformaciones lineales entre espacios vectoriales de dimensión finita y sean $B_U, B_V, B_W$ bases de $U,V,W$, respectivamente. Entonces

$\text{Mat}_{B_U,B_V}(S\circ T)=\text{Mat}_{B_U,B_W}(S)\cdot \text{Mat}_{B_W,B_V}(T).$

Cuando tenemos transformaciones lineales de un espacio vectorial $V$ a sí mismo, y usamos la misma base $B$, el resultado anterior se puede escribir de una manera más sencilla.

Corolario. Sean $T_1,T_2:V\to V$ transformaciones lineales en un espacio vectorial de dimensión finita $V$, y sea $B$ una base de $V$. Entonces

$\text{Mat}_{B}(T_1\circ T_2)=\text{Mat}_{B}(T_1)\cdot \text{Mat}_{B}(T_2)$.

Más adelante…

En esta entrada comenzamos con una transformación lineal $T:V\to W$ y bases ordenadas de de $V$ y $W$ para representar a $T$ como una matriz. Así mismo, vimos cómo tras una elección de base podemos pensar a cualquier vector en términos de sus «coordenadas», usando a los coeficientes que permiten expresarlo (de manera única) como combinación lineal de elementos de la base. Las matrices y coordenadas que así obtenemos nos ayudarán mucho. Sin embargo, será fundamental entender qué es lo que sucede con estas representaciones cuando elegimos bases diferentes, y cómo podemos cambiar de ciertas coordenadas o matrices a otras cuando hacemos un cambio de base. Esto es lo que estudiaremos en las siguientes entradas.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Verifica que la relación «son isomorfos» para espacios vectoriales es una relación de equivalencia.
  • Muestra que la transformación $i_B$ dada en el teorema de clasificación de espacios vectoriales de dimensión finita en efecto es un isomorfismo.
  • Asegúrate de entender el último corolario.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»