Archivo de la etiqueta: espacio vectorial

Álgebra Lineal I: Espacios vectoriales

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la primer unidad de este curso de álgebra lineal estudiamos a profundidad al conjunto $F^n$ con sus operaciones de suma y multiplicación por escalar. Luego, hablamos de las matrices en $M_{m,n}(F)$ y vimos cómo pensarlas como transformaciones lineales. Les dimos una operación de producto que en términos de transformaciones lineales se puede pensar como la composición. Luego, hablamos de la forma escalonada reducida de una matriz y cómo llevar cualquier matriz a esta forma usando reducción gaussiana. Esto nos permitió resolver sistemas de ecuaciones lineales homogéneos y no homogeneos, así como encontrar inversas de matrices. Las habilidades desarrolladas en la primer parte del curso serán de mucha utilidad para la segunda, en donde hablaremos de espacios vectoriales.

En esta entrada definiremos el concepto de espacio vectorial y vectores. Para hacer esto, tomaremos como motivación el espacio $F^n$, que ya conocemos bien. Sin embargo, hay muchos otros ejemplos de objetos matemáticos que satisfacen la definición que daremos. Hablaremos de algunos de ellos.

En el transcurso de la unidad también hablaremos de otros conceptos básicos, incluido el de subespacio. Hablaremos de conjuntos linealmente independientes, de generadores y de bases. Esto nos llevará a establecer una teoría de la dimensión de un espacio vectorial. Las bases son de fundamental importancia pues en el caso de dimensión finita, nos permitirán pensar a cualquier espacio vectorial «como si fuera $F^n$ «. Más adelante precisaremos en qué sentido es esto.

Después, veremos cómo pasar de un espacio vectorial a otro mediante transformaciones lineales. Veremos que las transformaciones entre espacios vectoriales de dimensión finita las podemos pensar prácticamente como matrices, siempre y cuando hayamos elegido una base para cada espacio involucrado. Para ver que estamos haciendo todo bien, debemos verificar que hay una forma sencilla de cambiar esta matriz si usamos una base distinta, y por ello estudiaremos a las matrices de cambio de base.

Esta fuerte relación que existe entre transformaciones lineales y y matrices nos permitirá llevar información de un contexto a otro. Además, nos permitirá definir el concepto de rango para una matriz (y transformación vectorial). Hasta ahora, sólo hemos distinguido entre matrices invertibles y no invertibles. Las matrices invertibles corresponden a transformaciones lineales que «guardan toda la información». El concepto de rango nos permitirá entender de manera más precisa cuánta información guardan las transformaciones lineales no invertibles.

Recordando a $F^n$

Antes de definir el concepto de espacio vectorial en toda su generalidad, recordemos algunas de las cosas que suceden con $F^n$. De hecho, puedes pensar en algo mucho más concreto como $\mathbb{R}^4$.

Como recordatorio, comenzamos tomando un campo $F$ y dijimos que, para fines prácticos, podemos pensar que se trata de $\mathbb{R}$ y $\mathbb{C}$. A los elementos de $F$ les llamamos escalares.

Luego, consideramos todas las $n$-adas de elementos de $F$ y a cada una de ellas le llamamos un vector. A $F^n$ le pusimos una operación de suma, que tomaba dos vectores en $F^n$ y nos daba otro. Además, le pusimos una operación de producto por escalar, la cual tomaba un escalar en $F$ y un vector en $F^n$ y nos daba como resultado un vector. Para hacer estas operaciones procedíamos entrada a entrada.

Sin embargo, hay varias propiedades que demostramos para la suma y producto por escalar, para las cuales ya no es necesario hablar de las entradas de los vectores. Mostramos que todo lo siguiente pasa:

  1. (Asociatividad de la suma) Para cualesquiera vectores $u,v,w$ en $F^n$ se cumple que $(u+v)+w=u+(v+w)$.
  2. (Conmutatividad de la suma) Para cualesquiera vectores $u,v$ en $F^n$ se cumple que $u+v=v+u$.
  3. (Identidad para la suma) Existe un vector $0$ en $F^n$ tal que $u+0=u=0+u$.
  4. (Inversos para la suma) Para cualquier vector $u$ en $F^n$ existe un vector $v$ en $F^n$ tal que $u+v=0=v+u$.
  5. (Distributividad para la suma escalar) Para cualesquiera escalares $a,b$ en $F$ y cualquier vector $v$ en $F^n$ se cumple que $(a+b)v=av+bv$.
  6. (Distributividad para la suma vectorial) Para cualquier escalar $a$ en $F$ y cualesquiera vectores $v,w$ en $F^n$ se cumple que $a(v+w)=av+aw$.
  7. (Identidad de producto escalar) Para la identidad multiplicativa $1$ del campo $F$ y cualquier vector $v$ en $F^n$ se cumple que $1v=v$.
  8. (Compatibilidad de producto escalar) Para cualesquiera dos escalares $a,b$ en $F$ y cualquier vector $v$ en $F^n$ se cumple que $(ab)v=a(bv)$.

Los primeros cuatro puntos son equivalentes a decir que la operación suma en $F^n$ es un grupo conmutativo. Resulta que hay varios objetos matemáticos que satisfacen todas estas ocho propiedades o axiomas de espacio vectorial, y cuando esto pasa hay muchas consecuencias útiles que podemos deducir. La esencia del álgebra lineal precisamente consiste en deducir todo lo posible en estructuras que tienen las ocho propiedades anteriores. Estas estructuras son tan especiales, que tienen su propio nombre: espacio vectorial.

Definición de espacio vectorial

Estamos listos para la definición crucial del curso.

Definición. Sea $F$ un campo. Un espacio vectorial sobre el campo $F$ es un conjunto $V$ con operaciones de suma y producto por escalar, que denotaremos por \begin{align*}
+:& V\times V \to V \quad \text{y}\\
\cdot:& F\times V \to V,
\end{align*}

para las cuales se cumplen las ocho propiedades de la sección anterior. En otras palabras:

  • El conjunto $V$ es un grupo conmutativo con la suma.
  • Se tiene asociatividad para la suma escalar y la suma vectorial
  • Se tiene identidad y compatibilidad de la mulltiplicación escalar.

A los elementos de $F$ les llamamos escalares. A los elementos de $F^n$ les llamamos vectores. Para hacer restas, las definimos como $u-v=u+(-v)$, donde $-v$ es el inverso aditivo de $v$ con la suma vectorial. Usualmente omitiremos el signo de producto escalar, así que escribiremos $av$ en vez de $a\cdot v$ para $a$ escalar y $v$ vector.

La definición da la impresión de que hay que verificar muchas cosas. De manera estricta, esto es cierto. Sin embargo, de manera intuitiva hay que pensar que a grandes rasgos los espacios vectoriales son estructuras en donde podemos sumar elementos entre sí y multiplicar vectores por escalares (externos) sin que sea muy complicado.

Como ya mencionamos, el conjunto $F^n$ con las operaciones de suma y multiplicación por escalar que se hacen entrada por entrada es un espacio vectorial sobre $F$. En lo que resta de la entrada, hablaremos de otros ejemplos de espacios vectoriales que nos encontraremos frecuentemente.

Espacios vectoriales de matrices

Otros ejemplos de espacios vectoriales con los que ya nos encontramos son los espacios de matrices. Dado un campo $F$ y enteros positivos $m$ y $n$, el conjunto de matrices en $M_{m,n}(F)$ es un espacio vectorial en donde la suma se hace entrada a entrada y la multiplicación escalar también.

¿Qué es lo que tenemos que hacer para mostrar que en efecto esto es un espacio vectorial? Se tendrían que verificar las 8 condiciones en la definición de espacio vectorial. Esto lo hicimos desde la primer entrada del curso, en el primer teorema de la sección «Operaciones de vectores y matrices». Vuelve a leer ese teorema y verifica que en efecto se enuncian todas las propiedades necesarias.

Aquí hay que tener cuidado entonces con los términos que se usan. Si estamos hablando del espacio vectorial $F^n$, las matrices no forman parte de él, y las matrices no son vectores. Sin embargo, si estamos hablando del espacio vectorial $M_{m,n}(F)$, entonces las matrices son sus elementos, y en este contexto las matrices sí serían vectores.

Ejemplo. Sea $\mathbb{F}_2$ el campo con $2$ elementos. Consideremos $M_{2}(\mathbb{F}_2)$. Este es un espacio vectorial. Tiene $16$ vectores de la forma $\begin{pmatrix} a & b \\ c & d \end{pmatrix}$, en donde cada entrada es $0$ o $1$. La suma y la multiplicación por escalar se hacen entrada a entrada y con las reglas de $\mathbb{F}_2$. Por ejemplo, tenemos $$\begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} + \begin{pmatrix} 0 & 1 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}.$$

$\triangle$

Espacios vectoriales de funciones

Ahora veremos algunos ejemplos de espacios vectoriales cuyos elementos son funciones. Esto puede parecer algo abstracto, pero en unos momentos veremos algunos ejemplos concretos que nos pueden ayudar a entender mejor.

Sea $F$ un campo y consideremos cualquier conjunto $X$. Consideremos el conjunto $V$ de todas las posibles funciones de $X$ a $F$. A este conjunto queremos ponerle operaciones de suma y de multiplicación por escalar.

Para definir la suma, tomemos dos funciones que van de $X$ a $F$, digamos $f:X\to F$ y $g:X\to F$. Definiremos a la función $f+g$ como la función que a cada $x$ en $X$ lo manda a $f(x)+g(x)$. Aquí estamos usando la suma del campo $F$. En símbolos, $(f+g):X\to F$ tiene regla de asignación $$(f+g)(x)=f(x)+g(x).$$

Para definir el producto por escalar, tomamos una función $f:X\to F$ y un escalar $c$ en el campo $F$. La función $cf$ será la función $cf:X\to F$ con regla de asignación $$(cf)(x)=cf(x)$$ para todo $x$ en $X$.

Resulta que el conjunto $V$ de funciones de $X$ a $F$ con estas operaciones de suma y producto, es un espacio vectorial. Podemos probar, por ejemplo, la asociatividad de la suma. Para ello, la primer cosa que necesitamos mostrar es la asociatividad de la suma. Es decir, que si tenemos $f:X\to F$, $g:X\to F$ y $h:X\to F$, entonces $$(f+g)+h = f+ (g+h).$$

Esta es una igualdad de funciones. Para que sea cierta, tenemos que verificarla en todo el dominio, así que debemos mostrar que para todo $x$ en $X$ tenemos que $$((f+g)+h)(x)=(f+(g+h))(x).$$

Para demostrar esto, usemos la definición de suma de funciones y la asociatividad de la suma del campo $F$. Con ello, podemos realizar la siguiente cadena de igualdades:

\begin{align*}
((f+g)+h)(x)&=(f+g)(x)+h(x)\\
&=(f(x)+g(x)) + h(x) \\
&=f(x) + (g(x)+h(x)) \\
&=f(x) + (g+h)(x)\\
&=(f+(g+h))(x).
\end{align*}

Así, la suma en $V$ es asociativa. El resto de las propiedades se pueden demostrar con la misma receta:

  • Se enuncia la igualdad de funciones que se quiere mostrar.
  • Para que dicha igualdad sea cierta, se tiene que dar en cada elemento del dominio, así que se evalúa en cierta $x$.
  • Se prueba la igualdad usando las definiciones de suma y producto por escalar, y las propiedades de campo de $F$.

Ejemplo. El ejemplo anterior es muy abstracto, pues $X$ puede ser cualquier cosa. Sin embargo, hay muchos espacios de funciones con los cuales se trabaja constantemente. Por ejemplo, si el campo es el conjunto $\mathbb{R}$ de reales y $X$ es el intervalo $[0,1]$, entonces simplemente estamos hablando de las funciones que van de $[0,1]$ a los reales.

Si tomamos $f:[0,1]\to \mathbb{R}$ y $g:[0,1]\to \mathbb{R}$ dadas por \begin{align*}f(x)&= \sin x – \cos x\\ g(x) &= \cos x + x^2,\end{align*} entonces su suma simplemente es la función $f+g:[0,1]\to \mathbb{R}$ definida por $(f+g)(x)=\sin x + x^2$. Si tomamos, por ejemplo, el escalar $2$, entonces la función $2f:[0,1]\to \mathbb{R}$ no es nada más que aquella dada por
$$(2f)(x)= 2\sin x – 2\cos x.$$

Así como usamos el intervalo $[0,1]$, pudimos también haber usado al intervalo $[-2,2)$, al $(-5,\infty]$, o a cualquier otro.

$\triangle$

Espacios vectoriales de polinomios

Otro ejemplo de espacios vectoriales que nos encontraremos frecuentemente son los espacios de polinomios. Si no recuerdas con precisión cómo se construyen los polinomios y sus operaciones, te recomendamos repasar este tema con material disponible aquí en el blog.

Dado un campo $F$ y un entero positivo $n$ usaremos $F[x]$ para referirnos a todos los polinomios con coeficientes en $F$ y usaremos $F_n[x]$ para referirnos a aquellos polinomios con coeficientes en $F$ y grado a lo más $n$. Aunque el polinomio cero no tiene grado, también lo incluiremos en $F_n[x]$.

Ejemplo. Si $F$ es $\mathbb{C}$, el campo de los números complejos, entonces todos los siguientes son polinomios en $\mathbb{C}[x]$: \begin{align*}p(x)&=(2+i)x^6 + (1+i),\\ q(x)&=3x^2+2x+1,\\ r(x)&=5x^7+(1-3i)x^5-1.\end{align*}

Tanto $p(x)$ como $q(x)$ están en $\mathbb{C}_6[x]$, pues su grado es a lo más $6$. Sin embargo, $r(x)$ no está en $\mathbb{C}_6[x]$ pues su grado es $7$.

El polinomio $q(x)$ también es un elemento de $\mathbb{R}[x]$, pues tiene coeficientes reales. Pero no es un elemento de $\mathbb{R}_1[x]$ pues su grado es demasiado grande.

$\triangle$

Recuerda que para sumar polinomios se tienen que sumar los coeficientes de grados correspondientes. Al hacer multiplicación por escalar se tienen que multiplicar cada uno de los coeficientes. De esta forma, si $f(x)=x^2+1$ y $g(x)=x^3+\frac{x^2}{2}-3x-1$, entonces $$(f+g)(x)=x^3+\frac{3x^2}{2}-3x,$$ y $$(6g)(x)=6x^3+3x^2-18x-6.$$

Resulta que $F[x]$ con la suma de polinomios y con el producto escalar es un espacio vectorial. Puedes verificar cada uno de los axiomas por tu cuenta.

Observa que la suma de dos polinomios de grado a lo más $n$ tiene grado a lo más $n$, pues no se introducen términos con grado mayor que $n$. Del mismo modo, si tenemos un polinomio con grado a lo más $n$ y lo multiplicamos por un escalar, entonces su grado no aumenta. De esta forma, podemos pensar a estas operaciones como sigue:
\begin{align*}
+:& F_n[x] \times F_n[x] \to F_n[x]\\
\cdot: & F\times F_n[x] \to F_n[x].
\end{align*}

De esta forma, $F_n[x]$ con la suma de polinomios y producto escalar de polinomios también es un espacio vectorial.

Más adelante…

Ya dimos la definición de espacio vectorial y vimos varios ejemplos. Dentro de algunas entradas veremos como conseguir muchos más espacios vectoriales.

En el último ejemplo pasa algo curioso: el espacio $F_n[x]$ es un subconjunto del espacio $F[x]$ y además es un espacio vectorial con las mismas operaciones que $F[x]$. Este es un fenómeno muy importante en álgebra lineal. Decimos que $F_n[x]$ es un subespacio de $F[x]$. En la siguiente entrada definiremos en general qué es un subespacio de un espacio vectorial y veremos algunas propiedades que tienen los subespacios.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • A partir de los axiomas de espacio vectorial, muestra lo siguiente para un espacio vectorial $V$:
    • La identidad de la suma vectorial es única, es decir, que si existe otro elemento $e$ en $V$ tal que $u+e=u=e+u$ para todo $u$ en $V$, entonces $e=0$.
    • Que si $0$ es la identidad aditiva del campo $F$ y $v$ es cualquier vector en $V$, entonces $0v$ es la identidad de la suma vectorial. En símbolos, $0v=0$, donde el primer $0$ es el de $F$ y el segundo el de $V$.
    • Se vale la regla de cancelación para la suma vectorial, es decir, que si $u,v,w$ son vectores en $V$ y $u+v=u+w$, entonces $v=w$.
    • Se vale la regla de cancelación para el producto escalar, es decir, que si $a$ es un escalar no cero del campo $F$ y $u,v$ son vectores de $V$ para los cuales $au=av$, entonces $u=v$.
    • Que el inverso aditivo de un vector $v$ para la suma vectorial en $V$ es precisamente $(-1)v$, es decir, el resultado de hacer la multiplicación escalar de $v$ con el inverso aditivo del $1$ del campo $F$.
  • Sea $V$ un espacio vectorial sobre $\mathbb{R}$. Sean $u$, $v$ y $w$ vectores en $V$. Justifica la siguiente igualdad enunciando de manera explícita todos los axiomas de espacio vectorial que uses $$u+5v-3w+2u-8v= -3(w+v-u).$$
  • Termina de demostrar que en efecto los espacios de funciones con la suma y producto escalar que dimos son espacios de funciones.
  • Enlista todos los polinomios de $(\mathbb{F}_2)_3[x]$. A continuación hay algunos: $$0, x+1, x^2+x, x^3+1.$$ Para cada uno de ellos, encuentra quien es su inverso aditivo para la suma vectorial de $(\mathbb{F}_2)_3[x]$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Seminario de Resolución de Problemas: Rango de matrices y el teorema de factorización PJQ

Por Leonardo Ignacio Martínez Sandoval

Introducción

El algunas ocasiones es suficiente saber si una matriz es invertible o no. Sin embargo, esta es una distinción muy poco fina. Hay algunos otros problemas en los que se necesita decir más acerca de la matriz. Podemos pensar que una matriz invertible, como transformación lineal, «guarda toda la información» al pasar de un espacio vectorial a otro. Cuando esto no sucede, nos gustaría entender «qué tanta información se guarda». El rango de matrices es una forma de medir esto. Si la matriz es de $m\times n$, el rango es un número entero que va de cero a $n$. Mientras mayor sea, «más información guarda».

Por definición, el rango de una matriz $A$ de $m\times n$ es igual a la dimensión del subespacio vectorial de $\mathbb{R}^m$ generado por los vectores columna de $A$. Una matriz de $n\times n$ tiene rango $n$ si y sólo si es invertible.

Si pensamos a $A$ como la transformación lineal de $\mathbb{R}^n$ a $\mathbb{R}^m$ tal que $X\mapsto AX$, entonces el rango es precisamente la dimensión de la imagen de $A$. Esto permite extender la definición de rango a transformaciones lineales arbitrarias, y se estudia con generalidad en un curso de álgebra lineal.

En las siguientes secciones enunciaremos sin demostración algunas propiedades del rango de matrices y las usaremos para resolver problemas.

Propiedades del rango de matrices

Comenzamos enunciando algunas propiedades del rango de matrices

Teorema. Sean $m$, $n$ y $p$ enteros. Sea $B$ una matriz de $n\times p$, y $A$, $A’$ matrices de $m\times n$. Sean además $P$ una matriz de $n\times p$ cuya transformación lineal asociada es suprayectiva y $Q$ una matriz de $r\times m$ cuya transformación lineal asociada es inyectiva. Entonces:

  1. $\rank(A)\leq \min(m,n)$
  2. $\rank(AB)\leq \min(\rank(A),\rank(B))$
  3. $\rank(A+A’)\leq \rank(A) + \rank(A’)$
  4. $\rank(QA) = \rank(A)$
  5. $\rank(AP)=\rank(A)$

Consideremos el siguiente problema, tomado del libro Essential Linear Algebra de Titu Andreescu.

Problema. Las matrices $A$ y $B$ tienen entradas reales. La matriz $A$ es de $3\times 3$, la matriz $B$ es de $2\times 3$ y además $$AB=\begin{pmatrix} 0 & -1 & -1 \\ -1 & 0 & -1 \\ 1 & 1 & 2 \end{pmatrix}.$$ Determina el valor del producto $BA$.

Sugerencia pre-solución. Un paso intermedio clave es mostrar que el producto $BA$ es invertible.

Solución. Para empezar, afirmamos que $(AB)^2=AB$. Esto se puede verificar directamente haciendo el producto de matrices.

Luego, afirmamos que el rango de $AB$ es $2$. En efecto, eso se puede hacer fácilmente por definición. Por un lado, la suma de las primeras dos columnas es igual a la tercera, así que el espacio vectorial que generan las tres es de dimensión a lo más dos. Pero es al menos dos, pues las primeras dos columnas son linealmente independientes. Esto muestra la afirmación.

Ahora, usando la propiedad (2) del teorema dos veces, tenemos que
\begin{align*}
\rank(BA)&\geq \rank (A(BA)) \\
&\geq \rank (A(BA)B)\\
&=\rank((AB)^2) \\
&= \rank (AB)\\
&=2.
\end{align*}

Así, $BA$ es una matriz de $2\times 2$ de rango $2$ y por lo tanto es invertible.

Consideremos ahora el producto $(BA)^3$. Desarrollando y usando que $(AB)^2=AB$, tenemos que

\begin{align*}
(BA)^3 &= BABABA \\
&=B(AB)^2 A\\
&=BABA\\
&=(BA)^2.
\end{align*}

Como $BA$ es invertible, entonces $(BA)^2$ tiene inversa. Si multiplicamos la igualdad $(BA)^3 = (BA)^2$ por esa inversa, obtenemos que $$BA=I_2.$$

$\square$

El teorema anterior nos permite acotar por arriba el rango del producto de dos matrices. También hay una desigualdad que nos permite acotar por abajo el rango de dicho producto, cuando las matrices son cuadradas.

Teorema (desigualdad de Sylvester). Para matrices $A$ y $B$ de $n\times n$, se tiene que $$\rank(AB)\geq \rank(A) + \rank(B) – n.$$

Problema. La matriz $A$ es de $2020 \times 2020$. Muestra que:

  • Si $A$ tiene rango $2017$, entonces la matriz $A^{673}$ no puede ser la matriz de $2020\times 2020$ de puros ceros, es decir, $O_{2020}$.
  • Si $A$ tiene rango $2016$, entonces la matriz $A^{673}$ puede ser la matriz $O_{2020}$.

Sugerencia pre-solución. Enuncia una afirmación más general relacionada con el rango que puedas probar por inducción utilizando la desigualdad de Sylvester.

Solución. Para la primer parte, probaremos primero algo más general. Afirmamos que si $M$ es una matriz de $n \times n$ de rango $n-s$ y $k$ es un entero positivo, entonces el rango de la matriz $M^k$ es por lo menos $n-ks$. Procedemos por inducción sobre $k$. Si $k=1$, el resultado es cierto pues $M$ tiene rango $n-s=n-1\cdot s$.

Supongamos el resultado para cierto entero $k$. Usando la desigualdad de Sylverster y la hipótesis inductiva, tenemos que
\begin{align*}
\rank(A^{k+1})&\geq \rank(A^k) + \rank(A) – n\\
&\geq (n-ks) + (n-s) – n\\
&=n-(k+1)s.
\end{align*}

Esto muestra la afirmación general.

Si regresamos a la primer parte del problema original y aplicamos el resultado anterior, tenemos que $A^{673}$ es una matriz de rango por lo menos $$2020 – 673 \cdot 3 = 2020 – 2019 = 1.$$ De esta forma, $A^{673}$ no puede ser la matriz $0$.

Hagamos ahora la segunda parte del problema. Para ello, debemos construir una matriz $A$ de $2020\times 2020$ de rango $2016$ tal que $A^{673}$ sea la matriz $0$. Para ello, consideremos la matriz $A$ tal que sus primeras $4$ columnas sean iguales al vector $0$, y que sus columnas de la $5$ a la $2020$ sean los vectores canónicos $e_1,\ldots, e_{2016}$.

Esta matriz claramente es de rango $2016$, pues el espacio generado por sus columnas es el espacio generado por $e_1,\ldots, e_{2016}$, que es de dimensión $2016$. Por otro lado, se puede mostrar inductivamente que para $k=1,\ldots,505$, se tiene que $A^{k}$ es una matriz en donde sus columnas de $1$ a $4k$ son todas el vector $0$, y sus columnas de $4k+1$ a $2020$ son $e_1,\ldots, e_{2020-4k}$. En particular, $A^{505}=O_{2020}$, y entonces $A^{673}$ también es la matriz de puros ceros.

$\square$

Equivalencias de rango de matrices

Hay muchas formas alternativas para calcular el rango de una matriz. El siguiente teorema resume las equivalencias más usadas en resolución de problemas.

Teorema. Sea $A$ una matriz de $m\times n$ con entradas reales. Los siguientes números son todos iguales:

  • El rango de $A$, es decir, la dimensión del espacio vectorial generado por los vectores columna de $A$.
  • La dimensión del espacio vectorial generado por los vectores fila de $A$. Observa que esto es, por definición, el rango de la transpuesta de $A$.
  • La cantidad de filas no cero que tiene la forma escalonada reducida de $A$.
  • (Teorema de rango-nulidad) $n-\dim \ker(A)$, donde $\ker(A)$ es el espacio vectorial de soluciones a $AX=0$.
  • El tamaño más grande de una submatriz cuadrada de $A$ que sea invertible.
  • La cantidad de eigenvalores complejos distintos de cero contando multiplicidades algebraicas.

Problema. Determina todos los posibles rangos que pueden tener las matrices con entradas reales de la forma $$\begin{pmatrix} a & b & c & d \\ b & a & d & c \\ c & d & a & b \\ d & c & b & a \end{pmatrix}.$$

Sugerencia pre-solución. Comienza haciendo casos pequeños. Para dar los ejemplos y mostrar que tienen el rango deseado, usa el teorema de equivalencia de rango para simplificar algunos argumentos.

Solución. El rango de una matriz de $4\times 4$ es un entero de $0$ a $4$. Debemos ver cuáles de estos valores se pueden alcanzar con matrices de la forma dada.

Tomando $a=b=c=d=0$, obtenemos la matriz $O_4$, que tiene rango $0$. Si $a=b=c=d=1$, obtenemos la matriz de puros unos, que tiene rango $1$. Además, si $a=1$ y $b=c=d=0$, obtenemos la matriz identidad, que tiene rango $4$.

Si $a=b=1$ y $c=d=0$, obtenemos la matriz $$A = \begin{pmatrix} 1 & 1 & 0 & 0 \\1 & 1 & 0 & 0 \\ 0 & 0 & 1 & 1 \\ 0 & 0 & 1 & 1 \end{pmatrix}.$$ Esta matriz tiene sólo dos columnas diferentes, así que su rango es a lo más dos. Pero tiene como submatriz a la matriz $$I_2=\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix},$$ que tiene rango $2$, entonces el rango de $A$ es al menos $2$. De esta forma, el rango de $A$ es $2$.

Veamos ahora que el rango puede ser $3$. Para ello, damos un argumento de determinantes. Llamemos $s=a+b+c+d$. Sumando las tres últimas filas a la primera y factorizando $s$, tenemos que
\begin{align*}
\begin{vmatrix} a & b & c & d \\ b & a & d & c \\ c & d & a & b \\ d & c & b & a \end{vmatrix}&=\begin{vmatrix} s & s & s & s \\ b & a & d & c \\ c & d & a & b \\ d & c & b & a \end{vmatrix}\\
&=s\begin{vmatrix} 1 & 1 & 1 & 1 \\ b & a & d & c \\ c & d & a & b \\ d & c & b & a \end{vmatrix}.
\end{align*}

Así, si tomamos $a=b=c=1$ y $d=-3$, entonces $s=0$ y por lo tanto la matriz $B$ que obtenemos no es invertible, así que su rango es a lo más tres. Pero además es de rango al menos tres pues $B$ tiene como submatriz a $$\begin{pmatrix} 1 & 1 & -3 \\ 1 & -3 & 1 \\ -3 & 1 & 1 \end{pmatrix},$$ que es invertible pues su determinante es $$-3-3-3-1-1+27=16\neq 0.$$

Concluimos que los posibles rangos que pueden tener las matrices de esa forma son $0,1,2,3,4$.

$\square$

El teorema de factorización $PJQ$

Existen diversos teoremas que nos permiten factorizar matrices en formas especiales. De acuerdo a lo que pida un problema, es posible que se requiera usar uno u otro resultado. El teorema de factorización más útil para cuando se están resolviendo problemas de rango es el siguiente.

Teorema (factorización $PJQ$). Sea $A$ una matriz de $m\times n$ y $r$ un entero en $\{0,\ldots,\min(m,n)\}$. El rango de $A$ es igual a $r$ si y sólo si existen matrices invertibles $P$ de $m\times m$ y $Q$ de $n\times n$ tales que $A=PJ_rQ$, en donde $J_r$ es la matriz de $m\times n$ cuyas primeras $r$ entradas de su diagonal principal son $1$ y todas las demás entradas son cero, es decir, en términos de matrices de bloque, $$J_r=\begin{pmatrix}
I_r & O_{r,n-r} \\
O_{m-r,r} & O_{m-r,n-r}
\end{pmatrix}.$$

Como evidencia de la utilidad de este teorema, sugerimos que intentes mostrar que el rango por columnas de una matriz es igual al rango por filas, usando únicamente la definición. Esto es relativamente difícil. Sin embargo, con el teorema $PJQ$ es inmediato. Si $A$ es de $m\times n$ y tiene rango $r$, entonces su factorización $PJQ$ es de la forma $$A=PJ_rQ.$$ Entonces al transponer obtenemos
\begin{align*}
^tA&= {^tQ} {^t J_r} {^tP}.
\end{align*}

Esto es de nuevo un factorización $PJQ$, con ${^t J_r}$ la matriz de $n\times m$ que indica que $^t A$ es de rango $r$.

Veamos ahora un problema clásico en el que se puede usar la factorización $PJQ$.

Problema. Sea $A$ una matriz de $m \times n$ y rango $r$. Muestra que:

  • $A$ puede ser escrita como la suma de $r$ matrices de rango $1$.
  • $A$ no puede ser escrita como la suma de $r-1$ o menos matrices de rango $1$.

Sugerencia pre-solución. Para la primer parte, usa el teorema $PJQ$. Para la segunda parte, usa desigualdades del rango.

Solución. Tomemos $A=PJ_rQ$ una factorización $PJQ$ de $A$.

Hagamos la primer parte. Para ello, para cada $i=1,\ldots,r$, consideremos la matriz $L_i$ de $m\times n$ tal que su $i$-ésima entrada en la diagonal principal es $1$ y el resto de sus entradas son iguales a $0$.

Por un lado, $L_i$ es de rango $1$, pues tiene sólo una columna distinta de cero. De este modo, $$\rank(PL_iQ)\leq \rank(PL_i) \leq \rank(L_i)=1,$$ y como $P$ y $Q$ son invertibles, $$\rank(PL_iQ)\geq \rank(L_i) \geq 1.$$ Así, para cada $i=1,\ldots, r$, se tiene que $L_i$ es de rango $1$.

Por otro lado, $$J_r = L_1 + L_2 + \ldots + L_r,$$ así que
\begin{align*}
A&=PJ_rQ\\
&=P(L_1 + L_2 + \ldots + L_r)Q\\
&=PL_1Q + PL_2Q + \ldots + PL_rQ.
\end{align*}

Esto expresa a $A$ como suma de $r$ matrices de rango $1$.

Para la segunda parte del problema, usamos repetidamente que el rango es subaditivo. Si tenemos matrices $B_1,\ldots,B_s$ matrices de $m\times n$, entonces
\begin{align*}
\rank(B_1&+B_2+\ldots+B_s) & \\
&\leq \rank(B_1) + \rank (B_2 + \ldots + B_s)\\
&\leq \rank(B_1) + \rank(B_2) + \rank(B_3+\ldots+B_s)\\
& vdots \\
&\leq \rank(B_1) + \rank(B_2) + \ldots + \rank(B_s).
\end{align*}

Si cada $B_i$ es de rango $1$, entonces su suma tiene rango a lo más $s$.

Así, la suma de $r-1$ o menos matrices de rango $1$ tiene rango a lo más $r-1$, y por lo tanto no puede ser igual a $A$.

$\square$

Más problemas

Puedes encontrar más problemas de rango de una matriz en la Sección 5.4 del libro Essential Linear Algebra de Titu Andreescu. El teorema $PJQ$, así como muchos problemas ejemplo, los puedes encontrar en el Capítulo 5 del libro Mathematical Bridges de Andreescu, Mortici y Tetiva.

Seminario de Resolución de Problemas: Desigualdad de Cauchy-Schwarz

Por Leonardo Ignacio Martínez Sandoval

Introducción

Seguimos con las entradas de temas de desigualdades. Con anterioridad ya hablamos de desigualdades básicas y de desigualdades con medias. En esta ocasión estudiaremos una desigualdad muy versátil: la desigualdad de Cauchy-Schwarz.

En su versión más simple, lo que dice la desigualdad de Cauchy-Schwarz es lo siguiente.

Desigualdad (de Cauchy-Schwarz). Para cualesquiera números reales $a_1,\ldots,a_n$ y $b_1,\ldots,b_n$ se tiene que $$|a_1b_1+\ldots+a_nb_n| \leq \sqrt{a_1^2+\ldots+a_n^2} \sqrt{b_1^2+\ldots+b_n^2}.$$

Primero, veremos cómo se demuestra esta desigualdad. Luego, veremos varios problemas en los que se puede aplicar. Finalmente, hablaremos un poco de sus extensiones a espacios vectoriales.

La demostración polinomial de la desigualdad de Cauchy-Schwarz

Una forma de demostrar la desigualdad de Cauchy-Schwarz es usando inducción sobre $n$. Hay otra demostración usando polinomios. Veamos esa demostración, pues tiene la idea útil de usar argumentos polinomiales para demostrar igualdades.

Consideremos la expresión $$p(t)=\sum_{i=1}^n (a_i+b_i t)^2.$$ Como es una suma de cuadrados, esta expresión es no negativa. Haciendo los cuadrados, y desarrollando la suma, podemos escribirla de la siguiente forma, que nos dice que es un polinomio cuadrático en $t$:

\begin{align*}
\sum_{i=1}^n (a_i+b_i t)^2&=\sum_{i=1}^n \left(a_i^2 + 2a_ib_i t + b_i^2 t^2\right)\\
&=\sum_{i=1}^n a_i^2 + \left(2\sum_{i=1}^n a_ib_i \right)t + \left(\sum_{i=1}^n b_i^2\right)t^2.
\end{align*}

De esta forma $p(t)$ es un polinomio cuadrático y siempre toma valores no negativos. Así, a lo más puede tener una raíz $t$, por lo que su discriminante es menor o igual a $0$:

$$ \left(2\sum_{i=1}^n a_ib_i \right)^2-4\left(\sum_{i=1}^n a_i^2\right)\left(\sum_{i=1}^n b_i^2\right)\leq 0$$

Al pasar el segundo término sumando al otro lado y dividir entre $4$ queda

$$\left(\sum_{i=1}^n a_ib_i \right)^2\leq \left(\sum_{i=1}^n a_i^2\right)\left(\sum_{i=1}^n b_i^2\right).$$

Al sacar raíz cuadrada de ambos lados hay que tener cuidado de poner un valor absoluto al lado izquierdo. Al hacer esto, se obtiene el resultado deseado: $$\left|\sum_{i=1}^n a_ib_i \right|\leq \sqrt{\sum_{i=1}^n a_i^2}\cdot \sqrt{\sum_{i=1}^n b_i^2}.$$

Observa que la igualdad se da si y sólo si el discriminante es $0$, lo cual sucede si y sólo si el polinomio tiene una raíz $t$. Cuando esto pasa, cada uno de los sumandos al cuadrado de $p(t)$ debe ser $0$. Así, existe un real $t$ tal que $a_i=-tb_i$ para todo $i=1,\ldots,n$. Esto lo podemos decir en términos vectoriales como que «la igualdad se da si y sólo si el vector $(a_1,\ldots,a_n)$ es un múltiplo escalar del vector $(b_1,\ldots,b_n)$ » .

Un problema sobre acotar el valor de una variable

Problema. Sean $a,b,c,d$ números reales tales que
\begin{align*}
a+b+c+d&=6\\
a^2+b^2+c^2+d^2&=12.
\end{align*}
¿Cuál es el máximo valor que puede tener $d$?

Sugerencia. Aplica la desigualdad de Cauchy-Schwarz a las ternas $(a,b,c)$ y $(1,1,1)$.

Solución. Aplicando la desigualdad a las ternas $(a,b,c)$ y $(1,1,1)$ obtenemos que $$|a+b+c|\leq \sqrt{a^2+b^2+c^2}\cdot{\sqrt{3}}.$$ Usando las hipótesis sobre $a,b,c,d$, tenemos que esta desigualdad es equivalente a $|6-d|\leq \sqrt{3}\cdot {\sqrt{12-d^2}$. Elevando al cuadrado de ambos lados, obtenemos las desigualdades equivalentes
\begin{align*}
36-12d+d^2&\leq 3(12-d^2)\\
36-12d+d^2&\leq 36-3d^2\\
4d^2-12d&\leq 0\\
4d(d-3)&\leq 0.
\end{align*}

Para que se satisfaga esta desigualdad, tiene que pasar o bien que simultáneamente $d\leq 0$ y $d\geq 3$ (lo cual es imposible), o bien que simultáneamente $d\geq 0$ y $d\leq 3$. En conclusión, esto acota el máximo valor posible de $d$ con $3$.

En efecto, existe una solución con $d=3$. De acuerdo al caso de igualdad de la desigualdad de Cauchy-Schwarz, debe pasar cuando $(a,b,c)$ es un múltiplo escalar de $(1,1,1)$, es decir, cuando $a=b=c$. Como $a+b+c+d=6$ y queremos $d=3$, esto forza a que $a=b=c=1$. Y en efecto, tenemos que con esta elección $$a^2+b^2+c^2+d^2=1+1+1+9=12.$$

$\square$

Aplicando Cauchy-Schwarz en un problema con el circunradio

A veces podemos aprovechar información implícita en un problema geométrico y combinarla con la desigualdad de Cauchy-Schwarz. Veamos un problema en el que sucede esto.

Problema. Sea $P$ un punto en el interior del triángulo $ABC$ y $p,q,r$ las distancias de $P$ a los lados $BC, CA, AB$ respectivamente, que tienen longitudes $a,b,c$, respectivamente. Sea $R$ el circunradio de $ABC$. Muestra que $$\sqrt{p}+\sqrt{q}+\sqrt{r} \leq \sqrt{\frac{a^2+b^2+c^2}{2R}}.$$

Sugerencia pre-solución. Necesitarás aplicar la desigualdad de Cauchy-Schwarz más de una vez. Haz una figura para entender la expresión $ap+bq+cr$. Necesitarás también la fórmula que dice que se puede calcular el área $T$ de un triángulo mediante la fórmula $$T=\frac{abc}{R}.$$

Solución. Lo primero que haremos es aplicar la desigualdad de Cauchy-Schwarz en las ternas $(\sqrt{ap},\sqrt{bq},\sqrt{cr})$ y $(1/\sqrt{a},1/\sqrt{b},1/\sqrt{c})$ para obtener $$\sqrt{p}+\sqrt{q}+\sqrt{r}\leq \sqrt{ap+bq+cr}\cdot\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}}.$$

Observa que $ap$ es dos veces el área de $\triangle BCP$. De manera similar, tenemos que $bq$ y $cr$ son las áreas de $\triangle CAP$ y $\triangle ABP$ respectivamente. Así, si llamamos $T$ al área de $\triangle ABC$ tenemos que $ap+bq+cr=2T$. Otra expresión para el área de $\triangle ABC$ en términos de su circunradio $R$ es $$T=\frac{abc}{4R}.$$ En otras palabras, $ap+bq+cr=\frac{abc}{2R}$.

Esto nos permite continuar con la desigualdad como sigue:
\begin{align*}
\sqrt{p}+\sqrt{q}+\sqrt{r} &\leq \sqrt{\frac{abc}{2R}}\cdot\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}}\\
&=\sqrt{\frac{abc}{2R}}\cdot\sqrt{\frac{ab+bc+ca}{abc}}\\
&=\sqrt{\frac{ab+bc+ca}{2R}}.
\end{align*}

Esto es casi la desigualdad que queremos. Para terminar, basta mostrar que $$ab+bc+ca\leq a^2+b^2+c^2.$$ Esto se puede hacer de varias formas (intenta hacerlo usando la desigualdad MA-MG). Pero para continuar viendo la versatilidad de la desigualdad de Cauchy-Schwarz, observa que se puede deducir de ella aplicándola a las ternas $(a,b,c)$ y $(b,c,a)$.

$\square$

En el problema anterior, ¿para qué puntos $P$ se alcanza la igualdad?

Cauchy-Schwarz más allá de los números reales

Lo que está detrás de la desiguadad de Cauchy-Schwarz es en realidad la noción de producto interior en álgebra lineal. En cualquier espacio vectorial sobre los reales que tenga un producto interior $\langle \cdot, \cdot \rangle$ se satisface una desigualdad del tipo de la de Cauchy-Schwarz. No entraremos en los detalles de la teoría que se necesita desarrollar, pues eso se estudia en un curso de álgebra lineal. Sin embargo, enunciaremos el teorema y veremos una forma de aplicarlo.

Teorema (desigualdad de Cauchy-Schwarz). Si $V$ es un espacio vectorial con producto interior $\langle \cdot, \cdot \rangle$ entonces para cualesquiera dos vectores $u$ y $v$ se satisface que $$|\langle u , v\rangle|\leq \sqrt{\langle u , u\rangle}\cdot \sqrt{\langle v , v\rangle}.$$

Se puede mostrar que bajo las hipótesis del teorema la función $\norm{u}:=\langle u , u\rangle$ es una norma. Como platicamos con anterioridad, una norma satisface la desigualdad del triángulo, que en espacios vectoriales tiene un nombre especial.

Teorema (desigualdad de Minkowski). Si $V$ es un espacio vectorial con producto interior $\langle \cdot, \cdot \rangle$ y $\norm{u}:=\langle u , u\rangle$, entonces para cualesquiera dos vectores $u$ y $v$ se satisface que $$\norm{u}+\norm{v}\geq \norm{u+v}.$$

Es relativamente sencillo ver que las desigualdades de Cauchy-Schwarz y de Minkowski son «equivalentes», en el sentido de que se puede mostrar una fácilmente suponiendo la otra y viceversa.

La desigualdad de Cauchy-Schwarz que usamos en las secciones anteriores es para el producto interior en $\mathbb{R}^n$ dado por $$\langle (a_1,\ldots,a_n),(b_1,\ldots,b_n) \rangle = a_1b_1+\ldots + a_nb_n,$$ al cual le llamamos el producto punto.

Si tenemos a $V$ el espacio vectorial de las funciones continuas reales en el intervalo $[0,1]$, entonces $$\langle f,g\rangle = \int_0^1 f(x)g(x) \, dx$$ es un producto interior para $V$. Esto nos puede ayudar a resolver algunos problemas.

Problema. Sea $f:[0,1]\to \mathbb{R}^+$ una función continua. Muestra que $$\left ( \int_0^1 f(x)\, dx \right) \left (\int_0^1 \frac{1}{f(x)}\, dt \right) \geq 1.$$

Sugerencia pre-solución. Aplica la desigualdad de Cauchy-Schwarz con el producto interior que discutimos antes de esta entrada.

Solución. Tomemos el producto interior $$\langle f,g\rangle = \int_0^1 f(x)g(x) \, dx$$ en el espacio vectorial de funciones reales y continuas en $[0,1]$. Como la imagen de $f$ está en los reales positivos, podemos definir la función $h:[0,1]\to \mathbb{R}^+$ dada por $h(x)=\sqrt{f(x)}$.

Tenemos que
\begin{align*}
\left \langle h, \frac{1}{h}\right \rangle &= \int_0^1 h(x)\cdot \frac{1}{h(x)}\, dx\\
&=\int_0^1 1\, dx\\
&=1.
\end{align*}

Por otro lado,

\begin{align*}
\langle h, h \rangle &= \int_0^1 h(x)\cdot h(x)\, dx\\
&=\int_0^1 f(x)\, dx.
\end{align*}

y

\begin{align*}
\left\langle \frac{1}{h}, \frac{1}{h} \right\rangle&= \int_0^1 \frac{1}{h(x)}\cdot \frac{1}{h(x)}\, dx\\
&=\int_0^1 \frac{1}{f(x)}\, dx
\end{align*}

La conclusión se sigue entonces de manera inmediata de la desigualdad de Cauchy-Schwarz para $\langle \cdot, \cdot \rangle$.

$\square$

Más problemas

Puedes encontrar más problemas que usan la desigualdad de Cauchy-Schwarz en la sección 7.1 del libro Problem Solving through Problems de Loren Larson. También puedes consultar más técnicas y problemas en el libro Desigualdades de la Olimpiada Mexicana de Matemáticas.

Álgebra Lineal I: Problemas de formas cuadráticas y producto interior

Por Blanca Radillo

Introducción

En las últimas sesiones, hemos introducido el tema de formas bilineales y formas cuadráticas. Más adelante, hablamos de positividad de formas cuadráticas y de producto interior. Ahora veremos algunos problemas de formas cuadráticas y producto interior.

Problemas resueltos de formas cuadráticas

Sabemos que si $T:V\times V\rightarrow \mathbb{R}$ es una transformación lineal, $T$ no necesariamente es una forma bilineal (durante la clase del viernes se discutió un ejemplo), entonces una pregunta interesante es ¿qué información tenemos sobre el núcleo de una forma cuadrática? Es fácil ver que una forma cuadrática no es una transformación lineal, pero está asociada a una forma bilineal. Interesadas en esta pregunta, analizaremos algunas propiedades del núcleo de una forma bilineal y de una forma cuadrática.

Problema 1. a) Si $q$ es una forma cuadrática en $\mathbb{R}^n$, ¿el conjunto $\{ x\in \mathbb{R}^n: q(x)=0 \}$ es un subespacio de $\mathbb{R}^n$?
b) Describe ${ x\in \mathbb{R}^n:q(x)=0}$ si:
1) $q(x,y)=x^2+y^2$,
2) $q(x,y,z)=xy+yz+zx$
3) $q(x,y,z)=(x-y)^2+(y-z)^2+(z-x)^2$.

Solución. a) La respuesta es: no, el conjunto $\{ x\in \mathbb{R}^n: q(x)=0 \}$ no necesariamente es un subespacio, ya que no necesariamente es cerrado bajo la suma. Daremos un ejemplo.

Sea $q:\mathbb{R}^2\rightarrow \mathbb{R}$ definido como $q((x,y))=x^2-y^2$. Sabemos que ésta es una forma cuadrática. Notemos que para todo $x,y \in\mathbb{R}$, si $v_1=(x,x),v_2=(y,-y)$, entonces $q(v_1)=x^2-x^2=0$ y $q(v_2)=y^2-(-y)^2=0$, entonces $v_1,v_2 \in \{ x\in \mathbb{R}^n: q(x)=0 \}$. Pero $v_1+v_2=(x+y,x-y)$ no pertenecen al núcleo de $q$, ya que $q(v_1+v_2)=q((x+y,x-y))=(x+y)^2-(x-y)^2=4xy\neq 0$ si $x,y\neq 0$.

b.1) Sea $(x,y)\in\mathbb{R}^2$ tal que $q((x,y))=x^2+y^2=0$. Como $x,y\in\mathbb{R}$, sabemos que la única posibilidad en que la suma de dos cuadrados sea cero es que ambos sean cero, por lo tanto $\{ x\in \mathbb{R}^2: q(x)=0 \}=\{(0,0)\}$.

b.2) Sea $(x,y,z)\in\mathbb{R}^3$ tal que $q((x,y,z))=xy+yz+zx=0$. Si $x=0$ entonces $yz=0$, esto es posible sólo si $y=0$ o $z=0$. Entonces el núcleo contiene a los ejes $(x,0,0)$, $(0,y,0)$ y $(0,0,z)$. Ahora, si $x=-y$, entonces $xy+yz+zx=-x^2-xz+zx=-x^2=0$, por lo tanto $x=0=y$, obteniendo nuevamente a los ejes. Ahora suponemos que $x+y\neq 0$. Entonces $xy+yz+zx=xy+z(x+y)=0$, obteniendo que $z=-\frac{xy}{x+y}$ (el cono elíptico). Por lo tanto el núcleo de $q$ son los ejes y el cono elíptico.

b.3) Sea $(x,y,z)\in\mathbb{R}^3$ tal que $q((x,y,z))=(x-y)^2+(y-z)^2+(z-x)^2=0$. Al igual que en el inciso (b.1), esto sólo es posible si $x-y=y-z=z-x=0$, entonces $x=y=z$. Por lo tanto, $\{ x\in \mathbb{R}^n: q(x)=0 \}=\{(x,x,x):x\in\mathbb{R}\}$.

$\triangle$

Problema 2. Sea $V=P_2(\mathbb{R})$ el espacio de polinomios en $[-1,1]$ con coeficientes reales de grado a lo más 2 y considera el mapeo $b:V\times V\rightarrow \mathbb{R}$ definido como

$b(f,g)=\int_{-1}^1 tf(t)g(t) dt.$

Prueba que $b$ es una forma bilineal simétrica de $V$. Si $q$ es la forma cuadrática asociada, encuentra las $f$ en $V$ tales que $q(f)=0$.

Solución. Mostrar que $b$ es bilineal es sencillo, y queda como tarea moral. Es fácil ver que es simétrica, ya que

\begin{align*}
b(f,g)&=\int_{-1}^1 tf(t)g(t) dt \\
&=\int_{-1}^1 tg(t)f(t)dt=b(g,f).
\end{align*}

Ahora, queremos encontrar las funciones $f$ tales que $q(f)=b(f,f)=\int_{-1}^1 tf^2(t)dt=0$. Como $f$ es un polinomio de grado $2$, es de la forma $f(x)=ax^2+bx+c$ para reales $a,b,c$ y entonces

\begin{align*}
0&=q(f)\\
&=\int_{-1}^1 tf^2(t)dt \\
&=\int_{-1}^1 t(at^2+bt+c)^2dt \\
& = \int_{-1}^1 t(a^2t^4+2abt^3+(b^2+2ac)t^2+2bct+c^2)dt \\
&=\int_{-1}^1 (a^2t^5+2abt^4+(b^2+2ac)t^3+2bct^2+c^2t)dt \\
&=\frac{4ab}{5}+\frac{4bc}{3}=0
\end{align*}

Esto implica que $4b(3a+5c)=0$, entonces $b=0$ o $3a+5c=0$. Por lo tanto $$\{f\in V:q(f)=0\}=\{ax^2+c \}\cup \{ax^2+bx-\frac{3a}{5}\}.$$

$\square$

Problemas resueltos de producto interior

Ahora recordemos que en la clase de ayer, definimos formas bilineales y cuadráticas positivas y definidas positivas, y a partir de ello, definimos qué es un producto interior. Así, en los siguientes problemas, veremos algunos ejemplos de estas definiciones.

Problema 3. Determina cuáles de las siguientes formas cuadráticas son positivas. ¿Cuáles también son definidas positivas?

  1. $q(x,y,z)=xy+yz+zx$.
  2. $q(x,y,z)=(x-y)^2+(y-z)^2+(z-x)^2$.
  3. $q(x,y,z)=x^2-y^2+z^2-xy+2yz-3zx$.

Solución. Sea $v=(x,y,z)\in\mathbb{R}^3$, recordemos que para cada uno de los incisos $q$ es positiva si $q(v)\geq 0$ para toda $v$ y es definida positiva si es positiva y $q(v)=0$ si y sólo si $v=0$.

1) Si escogemos a $v$ como $v=(1,-2,1)$ tenemos que
\begin{align*}q(v)&=q(1,-2,1)\\&=1(-2)+(-2)(1)+1(1)\\&=-2-2+1\\&=-3.\end{align*} Por lo tanto no es positiva ni definida positiva.

2) Dado que para todo $x,y,z$, tenemos que $(x-y)^2,(y-z)^2,(z-x)^2\geq 0$, entonces $q(v)\geq 0$ para todo $v\in\mathbb{R}^3$. Pero si $q(v)=0$, entonces $x=y=z$, pero no necesariamente son iguales a cero. Por lo tanto, $q$ es positiva pero no es definida positiva.

3) Si tomamos $v=(3,0,3)$, obtenemos que \begin{align*}q(v)&=(3)^2+(3)^2-3(3)(3)\\&=9+9-27\\&=-9\\&<0.\end{align*} Por lo tanto no es positiva ni definida positiva.

$\triangle$

Problema 4. Sea $V=C([a,b],\mathbb{R})$. Prueba que el mapeo $\langle \cdot , \cdot \rangle$ definido por $$\langle f,g \rangle = \int_a^b f(x)g(x) dx$$ es un producto interior en $V$.

Solución. Por lo visto en la clase de ayer, tenemos que un producto interior es una forma bilineal simétrica y definida positiva.
Es fácil ver que es forma bilineal simétrica. Basta con probar que es una forma definida positiva. Entonces $\langle f,f\rangle=\int_0^1 f^2(x)dx \geq 0$ ya que $f^2(x)\geq 0$ para toda $x$. Por lo tanto $\langle \cdot, \cdot \rangle$ es positiva. Como $f^2$ es continua y positiva, si $\int_0^1 f^2(x)dx=0$, implica que $f^2=0$, entonces $f=0$. Por lo tanto, $\langle \cdot , \cdot \rangle$ es definida positiva, y por ende, es un producto interior.

$\triangle$

Para finalizar, el siguiente problema es un ejemplo que pareciera ser producto interior, pero resulta que no serlo.

Problema 5. Sea $C^\infty([0,1],\mathbb{R})$ es el espacio de funciones suaves (funciones continuas cuyas derivadas de cualquier orden existen y son continuas). Definimos el espacio $V={ f\in C^\infty([0,1],\mathbb{R}): f(0)=f(1)=0 }$. Si definimos $$\langle f,g \rangle:=\int_0^1 (f(x)g'(x)+f'(x)g(x))dx,$$ ¿es $\langle \cdot , \cdot \rangle$ un producto interior en $V$?

Solución. Es claro ver que $\langle \cdot, \cdot \rangle$ es bilineal y simétrica, entonces falta demostrar si es o no es una forma definida positiva. Para $f\in V$, tenemos que $\langle f,f \rangle=\int_0^1 2f(x)f'(x)dx.$

Notemos que, por la regla de la cadena, $\frac{d}{dx}f^2(x)=2f(x)f'(x)$, entonces \begin{align*}\langle f,f \rangle&=\int_0^1 \frac{d}{dx} f^2(x) dx\\&=f^2(1)-f^2(0)\\&=0.\end{align*}

Por lo tanto $\langle f,f\rangle=0$ para toda $f$. Esto implica que no es definida positiva, y como consecuencia, no es producto interior de $V$.

$\triangle$

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Lineal I: Formas cuadráticas, propiedades, polarización y Gauss

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la entrada anterior hablamos acerca de formas bilineales y comenzamos a hablar de formas cuadráticas. Discutimos cómo a partir de estas nociones a la larga podremos hablar de geometría y cálculo en espacios vectoriales. El objetivo de esta entrada es entender mejor a las formas cuadráticas y su relación con formas bilineales.

Lo primero que haremos es demostrar la identidad de polarización, que a grandes rasgos dice que hay una biyección entre las formas bilineales simétricas y las formas cuadráticas. Veremos algunos ejemplos concretos de esta biyección. A partir de ella demostraremos algunas propiedades de formas cuadráticas. Finalmente, hablaremos brevemente de un bello resultado de Gauss que caracteriza las formas cuadráticas en $\mathbb{R}^n$ en términos de formas lineales, de las cuales discutimos mucho cuando hablamos de espacio dual.

Como pequeño recordatorio de la entrada anterior, una forma bilineal de un espacio vectorial $V$ es una transformación $b:V\times V \to \mathbb{R}$ tal que cada que fijamos una coordenada, es lineal en la otra. Esta forma es simétrica si $b(x,y)=b(y,x)$ para cada par de vectores $x,y$ en $V$. Una forma cuadrática de $V$ es una transformación $q:V\to \mathbb{R}$ tal que $q(x)=b(x,x)$ para alguna forma bilineal $b$.

Formas cuadráticas y polarización

En la entrada anterior enunciamos el siguiente teorema, que mostraremos ahora.

Teorema (identidad de polarización). Sea $q:V\to \mathbb{R}$ una forma cuadrática. Existe una única forma bilineal simétrica $b:V\times V \to \mathbb{R}$ tal que $q(x)=b(x,x)$ para todo vector $x$. Esta forma bilineal está determinada mediante la identidad de polarización $$b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2}.$$

Demostración. Tomemos una forma cuadrática $q$ de $V$. Por definición, está inducida por una forma bilineal $B$ de $V$, es decir, $q(x)=B(x,x)$. Definamos la transformación $b$ mediante $$b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2}.$$ Comencemos probando que $b$ es una transformación bilineal simétrica. Notemos que:
\begin{align*}
b(x,y)&=\frac{q(x+y)-q(x)-q(y)}{2}\\
&=\frac{B(x+y,x+y)-B(x,x)-B(y,y)}{2}\\
&=\frac{B(x,x)+B(x,y)+B(y,x)+B(y,y)-B(x,x)-B(y,y)}{2}\\
&=\frac{B(x,y)+B(y,x)}{2}.
\end{align*}

De aquí es muy claro que $b$ es forma bilineal, pues fijando $x$, set tiene que $b(x,y)$ es combinación lineal de dos formas lineales en $y$; y fijando $y$, se tiene que $b(x,y)$ es combinación lineal de dos formas lineales en $x$. Además, de esta igualdad (o directo de la definición de $b$) es claro que $b(x,y)=b(y,x)$.

También de esta igualdad obtenemos que $$b(x,x)=B(x,x)=q(x).$$

Para mostrar la unicidad, notemos que cualquier forma bilineal simétrica $b’$ tal que $b'(x,x)=q(x)$ debe satisfacer, como en las cuentas que hicimos arriba, que
\begin{align*}
q(x+y)&=b'(x+y,x+y)\\
&=q(x)+q(y)+b'(x,y)+b'(y,x)\\
&=q(x)+q(y)+2b'(x,y).
\end{align*}

De aquí, despejando $b’$, se obtiene que debe tener la forma de $b$.

$\square$

El teorema anterior justifica la siguiente definición.

Definición. Dada una forma cuadrática $q$ de $V$, a la única forma bilineal simétrica $b$ de $V$ tal que $q(x)=b(x,x)$ le llamamos la forma polar de $q$.

Ejemplo 1. En el espacio vectorial $\mathbb{R}^n$, la transformación $q:\mathbb{R}^n\to \mathbb{R}$ dada por $$q(x_1,\ldots,x_n)=x_1^2+\ldots+x_n^2.$$ es una forma cuadrática. Su forma polar es la forma bilineal producto punto que manda a $x=(x_1,\ldots,x_n)$ y $y=(y_1,\ldots,y_n)$ a $$b(x,y)=x_1y_1+\ldots+x_ny_n.$$

Esto coincide con la construcción dada por la identidad de polarización, ya que \begin{align*}q(x+y)-q(x)-q(y)&=\sum_{i=1}^n (x_i+y_i)^2-x_i^2-y_i^2 \\&= \sum_{i=1}^n x_iy_i\end{align*}

$\triangle$

Ejemplo 2. En el espacio vectorial $\mathbb{R}[x]$ de polinomios con coeficientes reales, la transformación $Q$ dada por $$Q(p)=p(0)p(1)+p(2)^2$$ es una forma cuadrática. Para encontrar a su forma bilineal polar, usamos la identidad de polarización
\begin{align*}
B(p,q)&=\frac{Q(p+q)-Q(p)-Q(q)}{2}\\
&=\frac{(p+q)(0)(p+q)(1)+(p+q)(2)^2-p(0)p(1)-p(2)^2-q(0)q(1)-q(2)^2}{2}\\
&=\frac{p(0)q(1)+q(0)p(1)+2p(2)q(2)}{2}\\
&=\frac{p(0)q(1)}{2}+\frac{p(1)q(0)}{2}+p(2)q(2).
\end{align*}

$\triangle$

Propiedades de formas cuadráticas

Si $q$ es una forma cuadrática, $x$ es un vector y $c$ es un real, tenemos que $q(cx)=c^2q(x)$, pues sale una $c$ por cada una de las coordenadas de la forma bilineal asociada. En particular, $q(-x)=q(x)$.

La identidad de polarización nos permite probar otras propiedades de formas bilineales y formas cuadráticas.

Proposición. Sea $q$ una forma cuadrática en $V$ con forma polar $b$. Entonces:

  • Para todo par de vectores $x$ y $y$ en $V$, se tiene que $$b(x,y)=\frac{q(x+y)-q(x-y)}{4}.$$
  • (Ley del paralelogramo) Para todo par de vectores $x$ y $y$ en $V$, se tiene que $$q(x+y)+q(x-y)=2(q(x)+q(y)).$$
  • (Teorema de Pitágoras) Para vectores $x$ y $y$ tales que $b(x,y)=0$, se tiene que $$q(x+y)=q(x)+q(y).$$
  • (Diferencia de cuadrados) Para todo par de vectores $x$ y $y$ en $V$, se tiene que $b(x+y,x-y)=q(x)-q(y).$

Demostración. Por la identidad de polarización tenemos que $$b(x,y)=\frac{q(x+y)-q(x)-q(y)}{2},$$ y como $q(y)=q(-y)$, tenemos también por la identidad de polarización que \begin{align*}-b(x,y)&=b(x,-y)\\&=\frac{q(x-y)-q(x)-q(y)}{2}.\end{align*}

Restando la segunda ecuación de la primera, obtenemos la primer propiedad. Sumando ambas obtenemos la ley del paralelogramo.

El teorema de Pitágoras es una consecuencia directa de la identidad de polarización.

La identidad de diferencia de cuadrados es una consecuencia de la primer propiedad aplicada a los vectores $x+y$ y $x-y$, y de usar que $q(2x)=4q(x)$ y que $q(2y)=4q(y)$.

$\square$

Forma de las formas cuadráticas

Otra consecuencia de la identidad de polarización es que establece una biyección entre las formas cuadráticas y las formas simétricas bilineales. Esta asociación nos permite decir cómo se ven exactamente las formas cuadráticas en espacios vectoriales de dimensión finita.

Toda forma cuadrática viene de una forma bilineal simétrica. En la entrada anterior, mencionamos que para definir una forma bilineal simétrica en un espacio vectorial $V$ de dimensión $n$, basta tomar una base $\{e_1,\ldots,e_n\}$ de $V$ y decidir los valores $b_{ij}$ de $b(e_i,e_j)$ para $1\leq i \leq j \leq n$. Como $b$ es simétrica, para $j<i$ se tendría que $b(e_i,e_j)=b(e_j,e_i)$, es decir, que $b_{ji}=b_{ij}$.

De esta forma, para todo vector $v$ en $V$ podemos encontrar el valor de $q(v)$ expresando $v$ en la base $\{e_1,\ldots,e_n\}$, digamos, $$v=a_1e_1+\ldots+a_ne_n,$$ de donde $$q(v)=\sum_{i=1}^n b_{ii} a_i^2 + 2 \sum_{1\leq i < j \leq n} b_{ij} a_i a_j.$$

Ejemplo. Toda forma cuadrática en $\mathbb{R}^3$ se obtiene de elegir reales $a,b,c,d,e,f$ y definir $$q(x,y,z)=ax^2+by^2+cz^2+2dxy+2eyz+2fzx.$$ La forma polar de $q$ es la forma bilineal $B$ tal que para la base canónica $e_1,e_2,e_3$ de $\mathbb{R}^3$ hace lo siguiente

\begin{align*}
B(e_1,e_1)&=a\\
B(e_2,e_2)&=b\\
B(e_3,e_3)&=c\\
B(e_1,e_2)&=B(e_2,e_1)=d\\
B(e_2,e_3)&=B(e_3,e_2)=e\\
B(e_3,e_1)&=B(e_1,e_3)=f.
\end{align*}

$\triangle$

Teorema de Gauss de formas cuadráticas (opcional)

Para esta sección, fijemos al espacio vectorial como $\mathbb{R}^n$. Hay una forma muy natural de construir formas cuadráticas a partir de formas lineales. Tomemos números reales $\alpha_1,\ldots, \alpha_r$ y formas lineales $l_1,\ldots,l_r$. Consideremos $$q(x)=\alpha_1l_1(x)^2+\ldots+\alpha_r l_r(x)^2.$$ Se tiene que $q$ es una forma cuadrática. La demostración de ello es sencillo y se queda como tarea moral.

Lo que descubrió Gauss es que todas las formas cuadráticas se pueden expresar de esta forma, y de hecho, es posible hacerlo usando únicamente formas lineales que sean linealmente independientes y coeficientes $1$ y $-1$.

Teorema (clasificación de Gauss de formas cuadráticas). Sea $q$ una forma cuadrática en $\mathbb{R}^n$. Entonces, existen enteros no negativos $r$ y $s$, y formas lineares $l_1,\ldots,l_r,m_1,\ldots,m_s$ en $(\mathbb{R}^n)^\ast$, todas ellas linealmente independientes, tales que $$q=l_1^2+\ldots+l_r^2-m_1^2-\ldots-m_s^2.$$

Hay un pequeño refinamiento de este teorema, demostrado por Sylvester.

Teorema (teorema de la inercia de Sylverster). Los números $r$ y $s$ en el teorema de clasificación de Gauss de formas cuadráticas son únicos.

Ejemplo. Tomemos la forma cuadrática en $\mathbb{R}^3$ dada por $q(x,y,z)=xy+yz+zx$. Por el teorema de Gauss, esta forma se debe de poder poner como combinación lineal de cuadrados de formas lineales independientes. En efecto, tenemos que: $$xy+yz+zx=\left(\frac{2x+y+z}{2}\right)^2-\left(\frac{y-z}{2}\right)^2-x^2,$$ en donde
\begin{align*}
(x,y,z)&\mapsto \frac{2x+y+z}{2},\\
(x,y,z) &\mapsto \frac{y-z}{2}\quad \text{ y }\\
(x,y,z)&\mapsto x
\end{align*}
son formas lineales linealmente independientes.

$\triangle$

Más adelante…

En esta entrada estudiamos a fondo la identidad de polarización; esto nos permitió concluir que existe una biyección entre las funciones bilineales simétricas y las formas cuadráticas. También, pusimos mucho énfasis en ejemplos concretos de esta biyección.

Con esto estamos listos para empezar a pensar en cómo haríamos geometría o cálculo en espacios vectoriales. Abordaremos estos temas al final de esta unidad. En la siguiente entrada hablaremos del producto interior.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Verifica que las formas cuadráticas de los ejemplos del teorema de polarización en efecto son formas cuadráticas.
  • Muestra que $q(x,y)=3x^2-y^2+7y$ no es una forma cuadrática.
  • Muestra que si $\alpha_1,\ldots, \alpha_r$ son reales y tomamos formas lineales $l_1,\ldots,l_r$ en $\mathbb{R}^n$, entonces $$q(x)=a_1l_1(x)^2+\ldots+\alpha_r l_r(x)^2$$ es una forma cuadrática.
  • ¿Quién es la forma polar de la forma cuadrática $Q(f)=\int_{0}^1 f^2(x)\, dx$ en el espacio vectorial de funciones continuas en el intervalo $[0,1]$?

Una demostración algorítmica del teorema de Gauss se puede encontrar en la Sección 10.1 del libro de Álgebra Lineal de Titu Andreescu.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»