Archivo del Autor: Leonardo Ignacio Martínez Sandoval

Leonardo Ignacio Martínez Sandoval

Acerca de Leonardo Ignacio Martínez Sandoval

Hola. Soy Leonardo Martínez. Soy Profesor de Tiempo Completo en la Facultad de Ciencias de la UNAM. Hice un doctorado en Matemáticas en la UNAM, un postdoc en Israel y uno en Francia. Además, me gusta colaborar con proyectos de difusión de las matemáticas como la Olimpiada Mexicana de Matemáticas.

Geometría Analítica I: Introducción a resultados de clasificación

Por Leonardo Ignacio Martínez Sandoval

Introducción

En tu formación matemática muchas veces te encontrarás con resultados de clasificación. Pero, ¿qué es clasificar en este contexto? A grandes rasgos, consiste en poder decir de manera sencilla cómo son todos los objetos matemáticos que se estén estudiando en un contexto dado.

En esta entrada hablaremos un poco más del problema de clasificar ciertos objetos matemáticos. Iniciaremos con un ejemplo «de juguete» muy básico. Luego, hablaremos de cómo en las clasificaciones geométricas podemos usar transformaciones. Finalmente, daremos un ejemplo sencillo de cómo usar estas ideas en la clasificación de los segmentos del plano.

Ejemplo básico de clasificación

Cuando queremos hacer una clasificación, en el sentido matemático, lo que queremos hacer es tomar algunos objetos matemáticos y decir, bajo algún criterio cómo son todos los «tipos posibles» que existen para esos objetos. Esto puede ser respondido de muchas formas, así que es fundamental acordar dos cosas con precisión:

  1. ¿Cuáles son los objetos que queremos clasificar?
  2. ¿Bajo qué criterio diremos que dos de esos objetos son «del mismo tipo»?

Al final del proceso, nos gustaría tener una lista relativamente fácil de escribir de todas las posibilidades. Esto puede ayudar posteriormente a resolver otros problemas matemáticos o bien a desarrollar más teoría.

Comencemos con un ejemplo «de juguete». Será muy sencillo, pero nos permitirá hablar de algunas de las sutilezas que nos encontraremos en contextos más abstractos. Considera la siguiente figura en la que hay varias figuras geométricas.

Imagina que nos piden «clasificar todas las figuras que están aquí». Lo que nos gustaría obtener al final es una lista con la clasificación, es decir con «todas las posibilidades» de figuras que hay. Si sólo nos dan esta instrucción, entonces estaríamos en problemas: hay muchas forms de clasificar estos objetos.

Una posible clasificación es por forma. Si consideramos equivalentes a dos de estas figuras cuando tienen la misma forma, entonces nuestra lista de posibilidades se reduce a tres: triángulos, cuadrados y círculos. Nuestro teorema de clasificación se vería así:

Teorema. Cualquier figura de la imagen tiene alguna de las siguientes formas:

  1. Triángulo
  2. Cuadrado
  3. Círculo

Este teorema de clasificación está padre. Pero puede ser inútil en algunos contextos. Por ejemplo, imagina que las figuras son muestras que está regalando una tienda de pinturas para que puedas llevarlas a tu casa y usarlas para ver si te gustaría pintar una pared con el color dado. Para estos fines es (prácticamente) lo mismo que te den un cuadrado azul o un triángulo azul. Lo único que importa es el color.

Pensar de esta manera nos da otra manera de clasificar a las figuras: por color. Si usamos esta noción de equivalencia, entonces nuestro resultado de clasificación sería muy distinto.

Teorema. Cualquier figura de la imagen es de alguno de los siguientes colores:

  1. Rojo
  2. Naranja
  3. Amarillo
  4. Verde
  5. Azul

Pero podríamos querer ser mucho más estrictos y querer clasificar considerando ambos criterios: tanto la forma como el color. Quizás uno podría pensar que como hay tres figuras y cinco colores, entonces hay $3\cdot 5=15$ posibilidades en esta clasificación. Obtendríamos el siguiente resultado.

Teorema. Cualquier figura de la imagen es de alguno de los siguientes 15 tipos: triángulo rojo, triángulo naranja, triángulo amarillo, triángulo verde, triángulo azul, cuadrado rojo, cuadrado naranja, cuadrado amarillo, cuadrado verde, cuadrado azul, círculo rojo, círculo naranja, círculo amarillo, círculo verde, círculo azul.

Estrictamente hablando, este resultado es correcto: cualquier figura es de alguno de esos tipos. Pero el teorema tiene algo incómodo: nos está dando posibilidades que no suceden. Por ejemplo, no hay cuadrados amarillos, ni círculos azules.

Una clasificación con forma y color que nos dejaría más satisfecho sería la siguiente:

Teorema. Cualquier figura de la imagen es de alguno de los siguientes 11 tipos:

  1. Triángulo rojo
  2. Triángulo naranja
  3. Triángulo amarillo
  4. Triángulo azul
  5. Cuadrado rojo
  6. Cuadrado naranja
  7. Cuadrado azul
  8. Círculo rojo
  9. Círculo naranja
  10. Círculo amarillo
  11. Círculo verde

Más aún, cualquiera de estas posibilidades sucede.

Este resultado se siente mucho más satisfactorio. Por un lado, no está agregando a la lista «opciones de más». Por otro lado, a partir de él podemos demostrar proposiciones sin tener que volver a ver la figura. Algunos ejemplos son los siguientes:

  • Ningún círculo de nuestra figuras es azul.
  • Todas las figuras verdes son círculos.
  • Ninguna figura amarilla es un cuadrado.

Para mostrar cualquiera de estas, basta ver nuestra clasificación.

¿Podemos dar una clasificación mucho más estricta? Sí, por supuesto. Por ejemplo, podemos considerar dos figuras iguales sólo cuando tienen exactamente la misma figura, color y posición. En este caso nuestro teorema de clasificación tendría un tipo por cada una de las 19 figuras. Esta clasificación también se siente un poco insatisfactoria pues en realidad no estamos «agrupando» figuras, sino simplemente «poniendo a cada una en su propio grupo». Pero bueno, es una clasificación válida también.

Uso de relaciones de equivalencia y particiones

Una manera de formalizar una clasificación es a partir de relaciones de equivalencia y particiones. Recordemos las siguientes dos definiciones:

Definición. Una relación de equivalencia en un conjunto $X$ es una colección de parejas $(x,y)$ en $X\times X$ tales que:

  • (Reflexividad) Para cualquier $x$ en $X$ la pareja $(x,x)$ está en la colección.
  • (Simetría) Si para algunos $x,y$ en $X$ se cumple que la pareja $(x,y)$ está en la colección, entonces la pareja $(y,x)$ también está en la colección.
  • (Transitividad) Si para algunos $x,y,z$ en $X$ se cumple que tanto las parejas $(x,y)$ como $(y,z)$ están en la colección, entonces la pareja $(x,z)$ también está.

Las relaciones de equivalencia nos ayudan a decir cuándo dos objetos de $X$ «son iguales» o «son el mismo» bajo algún criterio usualmente más relajado que la igualdad.

Definición. Una partición de un conjunto $X$ es una colección de conjuntos $(A_i)_{i \in I}$ para algún conjunto de índices $I$ tal que ninguno de los $A_i$ es vacío, cualesquiera dos de ellos tienen intersección vacía y $X=\cup_{i\in I}A_i$.

Un resultado clásico de teoría de conjuntos dice que «una relación de equivalencia da una partición, y viceversa». Formalmente, dada una relación de equivalencia $R$ en un conjunto $X$, podemos crear la clase de equivalencia de un elemento $x$ en $X$ como sigue: $$\overline(x):=\{y \in X: (x,y)\in R\}.$$ El conjunto $\{\overline{x}:x\in X\}$ da una colección de conjuntos que es una partición de $X$. Y viceversa, si tenemos una partición $(A_i)_{i \in I}$, entonces podemos considerar las parejas $(x,y)$ de elementos tales que $x$ y $y$ están en un mismo $A_i$, de donde obtenemos una relación de equivalencia.

Regresando a la idea de clasificar, podemos realizar una clasificación a través de una relación de equivalencia o de una partición. Las clases de equivalencia son los «tipos» de objetos que tenemos. Podemos dar un representante «sencillo» dentro de cada clase de equivalencia para hacer nuestra lista de los posibles «tipos» que existen.

Ejemplo. En los números enteros podemos decir que dos enteros $x$ y $y$ están relacionados cuando $x-y$ es un número par. Es fácil mostrar que esto da una relación de equivalencia y que las clases de equivalencia en este caso son los conjuntos:

\begin{align*}
P&=\{\ldots,-4,-2,0,2,4,\ldots\},
Q&=\{\ldots,-3,-1,1,3,\ldots\}.
\end{align*}

Tenemos que $P$ y $Q$ forman una partición del conjunto $\mathbb{Z}$ de números enteros. Así, esta relación clasifica a los enteros en dos tipos: los pares y los impares. Otra forma de dar esta clasificación es diciendo que «Cualquier entero es equivalente al $0$ o al $1$», o más explícitamente, «Para cualquier entero $z$ se tiene que o bien $z$ es par, o bien $z-1$ es par».

$\square$

Clasificación de segmentos del plano con transformaciones

Hacia donde queremos ir es hacia una clasificación relacionada con la geometría. Por esta razón, las relaciones de equivalencia, particiones o «tipos» de objetos que obtendremos estarán relacionados con nociones geométricas. Una manera de hacer esto es mediante las transformaciones que estuvimos estudiando en la unidad anterior: transformaciones afines, traslaciones, isometrías, transformaciones ortogonales, etc.

Por ejemplo, pensemos en que estamos hablando de los segmentos cerrados y acotados en el plano cartesiano. Es decir, de acuerdo a lo que estudiamos en la primera unidad, para cualesquiera dos puntos distintos $P$ y $Q$ en el plano estamos considerando el conjunto $$\overline{PQ}=\{pP+qQ:0\leq p \leq 1, 0 \leq q \leq 1, p+q=1\}.$$ En la siguiente figura puedes ver algunos de los (muchos) segmentos que hay en el plano:

Familia de segmentos

¿Cómo podemos clasificar a todos los segmentos que hay en el plano? Antes de cualquier cosa, tenemos que ponernos de acuerdo en la clasificación. Una manera de hacer esto es mediante transformaciones del plano. Veamos un par de ejemplos.

Ejemplo. Una primer opción es que digamos que dos segmentos son del mismo tipo cuando podamos trasladar uno de ellos al otro. Si hacemos esto, casi todos los segmentos de la siguiente figura serían del mismo tipo.

Familia de segmentos

El único que no es del mismo tipo que los demás sería el segmento punteado que, aunque lo dibujamos intencionalmente de la misma longitud que los demás, no resulta ser equivalente pues es imposible trasladarlo a alguno de los otros segmentos. Con esta noción de segmentos equivalentes, ¿qué posibilidades tendríamos? Es más o menos fácil convencerse de que para que dos segmentos sean del mismo tipo con esta clasificación necesitamos que a) sean paralelos y b) tengan la misma longitud. Por ello mismo, no es tampoco difícil convencerse del siguiente teorema de clasificación.

Teorema. Cualquier segmento del plano es equivalente bajo traslaciones a un segmento tal que uno de sus extremos es el origen.

$\square$

Veamos otra manera de clasificar los segmentos del plano.

Ejemplo. Diremos que dos segmentos son del mismo tipo si podemos llevar uno al otro a través de una isometría. Si hacemos esto entonces ahora sí todos los segmentos de la siguiente figura son equivalentes (pensando en que el segmento punteado tiene la misma longitud que los otros).

De hecho, por lo que sabemos de las isometrías podemos afirmar que bajo este criterio dos segmentos son del mismo tipo si y sólo si tienen la misma longitud. Esto nos llevaría a un teorema de clasificación un poco distinto.

Teorema. Cualquier segmento se puede mediante isometrías a un segmento que sale del origen y termina en un punto del la forma $(x,0)$ con $x>0$. Más aún, todos estos segmentos son de distinto tipo.

$\square$

En los dos ejemplos anteriores hemos sido un poco informales, pues dejamos varias cosas sin demostrar. Seguramente podrás detectarlas e intentar completar los argumentos que faltan. Algunas de estas cosas faltantes están en los ejercicios.

Más adelante…

En esta entrada hablamos de la noción de «clasificar» de manera muy general, con el fin de entenderla y ver algunas de las sutilezas que nos encontraremos más adelante. A partir de ahora nos enfocaremos en probar resultados de clasificación muy específicos, relacionados con las cónicas.

Sin embargo, queremos ser muy precisos con respecto a la clasificación que daremos. Por esta razón, en las siguientes dos entradas hablaremos de los objetos específicos que queremos clasificar y de las nociones de equivalencia que permitiremos.

Tarea moral

  1. Verifica que en nuestro ejemplo de juguete la relación «tener el mismo color» es una relación de equivalencia.
  2. Para cada una de las clasificaciones que dimos en nuestro ejemplo de juguete encuentra cuántas de las figuras originales hay en cada una de las clases.
  3. Demuestra que la relación en $\mathbb{Z}$ en la cual tenemos a $(x,y)$ si y sólo si $x-y$ es un número par es una relación de equivalencia. Muestra que en este caso la partición consiste en el conjunto de los números pares, y el conjunto de los números impares.
  4. Sea $S$ el conjunto de segmentos en el plano. Diremos un elemento $s_1$ de $S$ es traslacionalmente equivalente a otro elemento $s_2$ de $S$ si existe una traslación $T$ de $\mathbb{R}^2$ tal que $T(s_1)=s_2$. Demuestra que «ser traslacionalmente eqivalente a» es una relación de equivalencia en $S$.
  5. Da teoremas de clasificación de las rectas en $\mathbb{R}$ usando transformaciones para cada una de las siguientes posibilidades:
    1. Dos rectas son del mismo tipo si se puede llevar una a otra mediante una traslación.
    2. Dos rectas son del mismo tipo si se puede llevar una a la otra mediante una rotación.
    3. Dos rectas son del mismo tipo si se puede llevar una a la otra mediante una isometría.

Entradas relacionadas

Geometría Analítica I: Equivalencias afines e isométricas

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores hablamos de los objetos que nos interesa clasificar: los polinomios cuadráticos y las curvas cuadráticas. Ahora hablaremos de las nociones que usaremos para considerar a dos polinomios cuadráticos o curvas cuadráticas como «equivalentes». Para ello, definiremos las nociones de «afínmente equivalentes» e «isométricametne equivalentes».

Composición de un PCDV y una transformación afín

Antes de enunciar propiamente el problema de clasificación que queremos resolver, vamos a demostrar un resultado auxiliar fundamental. A grandes rasgos, lo que nos dice es que si combinamos un polinomio cuadrático en dos variables con una transformación afín, entonces de nuevo obtenemos un polinomio cuadrático en dos variables. La demostración hará evidente cómo a veces es más útil la forma matricial de un PCDV.

Teorema. Consideremos $P:\mathbb{R}^2\to \mathbb{R}$ un polinomio cuadrático en dos variables y $T:\mathbb{R}^2\to \mathbb{R}^2$ una transformación afín dados por

\begin{align*}
P(v)&=v^t M v + k^t v + F\\
T(v)&=Av+b
\end{align*}

para $A,M$ matrices de $2\times 2$, para $k,b$ vectores columna en $\mathbb{R}^2$ y $F$ un real. Entonces $P\circ T$ es nuevamente un polinomio cuadrático en dos variables y, explícitamente,

\begin{align*}
(P\circ T)(v)= v^t(A^tMA)v + (2b^t MA + k^t A) v + P(b) .
\end{align*}

Demostración. La expresión que queremos encontrar es $(P\circ T)(v)=P(T(v))=P(Av+b)$. Para evaluar $P$, hagamos cada término poco a poco. A continuación usaremos las propiedades de la multiplicación matricial y de la transposición de matrices. Recordemos que $M$ es una matriz simétrica.

Hagamos las operaciones término a término. En el primer sumando tenemos:

\begin{align*}
(Av+b)^t M (Av+b) &= (v^tA^t+b^t) M (Av+b)\\
&=v^tA^tMAv + v^t A^t M b + b^t M A v + b^t M b\\
&=v^t(A^tMA)v + (A^t M b)^t v + (b^t M A) v + b^t M b\\
&= v^t(A^tMA)v + (b^t M^t A) v + (b^t M A) v + b^t M b \\
&= v^t(A^tMA)v + 2 (b^t M A) v + b^t M b.
\end{align*}

En el segundo sumando tenemos:

\begin{align*}
k^t(Av+b)=k^tAv + k^t b.
\end{align*}

Y el último sumando es $F$. Al sumar todo notemos que aparece un término $b^t M b + k^t b + F=P(b)$. Así, concluimos que: $$(P\circ T)(v)= v^t(A^tMA)v + (2b^t MA + k^t A) v + P(b).$$

Esto muestra que $P\circ T$ es de nuevo un polinomio cuadrático en dos variables y que la fórmula es como se establece en el enunciado del teorema.

$\square$

Aunque parezca que se hiceron varias cuentas, son muchas menos a que si usáramos la expresión en coordenadas. Además, usaremos repetidamente el resultado para ahorrarnos cuentas posteriores. Veamos un pequeño ejemplo de lo que sucede al componer una transformación afín con un PCDV.

Ejemplo. Consideremos al polinomio cuadrático en dos variables $P((x,y))=2x^2-y^2+3x+2$ y a la transformación afín $T((x,y))=(2x,y+1)$. Al realizar la composición obtenemos lo siguiente:

\begin{align*}
(P\circ T)((x,y))&=P(T((x,y))\\
&=P((2x,y+1))\\
&=2(2x)^2-(y+1)^2+3(2x)+2\\
&=4x^2-y^2-2y-1+6x+2\\
&=4x^2-y^2+6x-2y+1.
\end{align*}

En efecto, como lo afirma el teorema, obtenemos nuevamente un polinomio cuadrático en dos variables.

$\square$

La imagen de una curva cuadrática bajo una transformación afín

La sección anterior nos dice qué pasa si «combinamos» un polinomio cuadrático en dos variables y una transformación afín. También podemos preguntarnos qué es lo que sucede si «combinamos» una transformación afín y una curva cuadrática. Aquí lo que estamos pensando es que la transformación afín se la aplicaremos a cada punto de la curva.

Ejemplo. Tomemos la curva cuadrática descrita por el polinomio cuadrático $y^2+3x-y+1=0$. Al trazarla en el plano obtenemos la siguiente figura.

Aparentemente, obtenemos una parábola. Tomemos ahora la transformación afín $T((x,y))=(y-1,x+y)$. Al aplicar esta transformación a cada punto de la curva cuadrática anterior obtenemos la curva roja de la siguiente figura.

Aparentemente estamos obteniendo nuevamente una parábola. Entonces, parece ser que la transformación afín envió una curva cuadrática a otra curva cuadrática.

$\square$

Lo que sucede en el ejemplo anterior de hecho es algo que sucede en general: cuando aplicamos una transformación afín a una curva cuadrática entonces de nuevo obtenemos una curva cuadrática. Esto es lo que afirma el siguiente resultado.

Teorema. Sea $\mathcal{C}$ la curva cuadrática descrita por el polinomio cuadrático en dos variables $P$. Sea $T$ una transformación afín. Entonces $$T(\mathcal{C})=\{T((x,y)): (x,y)\in \mathcal{C}\}$$ también es una curva cuadrática. Más específicamente, es la curva cuadrática descrita por el polinomio cuadrático en dos variables $P\circ Tˆ{-1}$.

Demostración. Como $T$ es transformación afín, entonces es invertible y su inversa $Tˆ{-1}$ también es una transformación afín. Por el teorema anterior, $P\circ Tˆ{-1}$ en efecto es una transformación afín.

Tenemos que un punto $(w,z)$ pertenece a $T\mathcal{C}$ si y sólo si es de la forma $T((x,y))$ con $(x,y)$ en $\mathcal{C}$ es decir, con $P((x,y))=0$. Aplicando $Tˆ{-1}$ en $(w,z)=T((x,y))$, obtenemos que $(x,y)=Tˆ{-1}((w,z))$. Así, $(w,z)$ está en $T(\mathcal{C})$ si y sólo si $P(Tˆ{-1})((x,y))=0$. De esta manera, $T\mathcal{C}$ es precisamente el conjunto de puntos en donde se anula el PCDV $P\circ Tˆ{-1}$.

$\square$

Podemos resumir el teorema anterior como sigue: las transformaciones afines mandan curvas cuadráticas en curvas cuadráticas.

Equivalencias de polinomios y curvas cuadráticas

Al aplicar una transformación afín a un polinomio cuadrático en dos variables, de nuevo obtenemos un polinomio cuadrático. Pero no podemos ir de un polinomio cuadrático a cualquier otro haciendo esto. De hecho, es especial que esto suceda.

Definición. Diremos un polinomio cuadrático en dos variables $P$ es afínmente equivalente a otro polinomio cuadrático en dos variables $Q$ si existe una transformación afín $T$ tal que $P=Q\circ T$.

Así mismo, no cualquier curva cuadrática puede ir a cualquier otra mediante transformaciones afines. ESsto es especial.

Definición Diremos que una curva cuadrática $\mathcal{C}$ es afínmente equivalente a otra curva cuadrática $\mathcal{D}$ si existe una transformación afín $T$ tal que $\mathcal{C}=D$.

Tanto en el caso de polinomios cuadráticos en dos variables, como en el caso de curvas cuadráticas, la relación de ser afínmente equivalente es una relación de equivalencia. Demostraremos esto para el caso de polinomios cuadráticos. El caso de curvas queda como tarea.

Proposición. La relación «ser afínmente equivalente a» es una relación de equivalencia para polinomios cuadráticos en dos variables.

Demostración. Debemos mostrar que la relación es reflexiva, simétrica y transitiva. La relación es reflexiva pues cualquier polinomio cuadrático en dos variables $P$ es afínmente equivalente a sí mismo a través de la transformación afín $$I((x,y))=\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix}+ \begin{pmatrix} 0 \\ 0 \end{pmatrix},$$ pues como simplemente es la identidad, tenemos $P \circ I = P$.

Si un polinomio $P$ es afínmente equivalente a uno $Q$, es porque existe una transformación afín $T$ tal que $P=Q\circ T$. Como $T$ es afín, su inversa también lo es, de modo que la igualdad $Q=P\circ Tˆ{-1}$ nos dice que $Q$ es afínmente equivalente a $P$. Esto muestra la simetría de la relación.

Finalmente, para la transitividad tomemos polinomios $P$, $Q$ y $R$ con $P$ afínmente equivalente $Q$ mediante una transformacion afín $T$ y $Q$ afínmente equivalente a $R$ mediante una transformación afín $S$. Tenemos entonces las igualdades $P=Q\circ T$ y $Q=R\circ S$. De este modo $$P=Q\circ T = (R\circ S)\circ T=R\circ (S \circ T).$$

Como la composición de transformaciones afines es una transformación afín, entonces esto nos dice que $P$ es afínmente equivalente a $R$, como queríamos.

$\square$

Ambas nociones de equivalencia afín están muy relacionadas entre sí, aunque no son exactamente lo mismo. En la siguiente proposición veremos que la equivalencia afín de PCDVs implica la equivalencia afín de las curvas cuadráticas que describen. Sin embargo, en los ejercicios verás que hay que ser mucho más cuidadosos con el regreso.

Proposición. Si $\mathcal{C}$ y $\mathcal{D}$ son curvas curvas cuadráticas descritas por polinomios cuadráticos en dos variables $P$ y $Q$ afínmente equivalentes, entonces $\mathcal{C}$ y $\mathcal{D}$ son afínmente equivalentes.

Demostración. Como $P$ y $Q$ son afínmente equivalentes, existe una transformación afín $T$ tal que $P=Q\circ T$. Tenemos entonces que $(x,y)\in \mathcal{C}$ si y sólo si $P((x,y))=0$, lo cual sucede si y sólo si $Q(T((x,y)))=0$, si y sólo si $T((x,y))$ está en $\mathcal{D}$. Esto muestra que $\mathcal{D}=T(\mathcal{C})$.

$\square$

Con menos transformaciones es más difícil ser equivalente

Así como definimos la relación de «ser afínmente equivalente» también podríamos definir relaciones similares usando otros grupos de transformaciones. Por ejemplo:

Definición. Diremos un PCDV $P$ es isométricamente equivalente a otro PCDV $Q$ si existe una isometría $T$ tal que $P=Q\circ T$. Diremos que una curva cuadrática $\mathcal{C}$ es isométricamente equivalente a otra curva cuadrática $\mathcal{D}$ si existe una isometría $T$ tal que $\mathcal{C}=T(\mathcal{D})$

La noción de «ser isométricamente equivalentes» es, en cierto sentido «más fuerte» que la de ser «afínmente equivalentes». ¿Por qué? Porque todas las isometrías son transformaciones afines, pero lo contrario no es cierto. Así, «hay menos» isometrías que transformaciones afines. De esta forma, es «más difícil» que dos curvas cuadráticas sean isométricamente equivalentes, a que sean afínmente equivalentes. Veamos un ejemplo.

Ejemplo. Consideremos las curvas cuadráticas descritas por los siguientes polinomios:

\begin{align*}
P_1((x,y))&=x^2+2x+y^2\\
P_2((x,y))&=x^2+y^2-1\\
P_3((x,y))&=2x^2+y^2-1.
\end{align*}

Al graficarlas obtenemos respectivamente las curvas $\mathcal{C}_1, \mathcal{C}_2, \mathcal{C}_3$ en la siguiente figura. De lo que sabemos de circunferencias y elipses, tenemos que $\mathcal{C}_1$ y $\mathcal{C}_2$ son circunferencias de radio $1$ y que $\mathcal{C}_3$ es una elipse canónica con focos en el eje $y$ y centro en $(0,0)$.

Pensemos primero en equivalencia afín. Las tres curvas cuadráticas son afínmente equivalentes. Para ello, basta ver que los PCDVs que las describen son afínmente equivalentes. Para la equivalencia entre $P_1$ y $P_2$ tomamos la transformación afín $(x,y)\mapsto (x+1,y)$ y notamos que $$P_2((x+1,y))=(x+1)^2+y^2-1=x^2+2x+y^2=P_1((x,y)).$$ Para la equivalencia entre $P_2$ y $P_3$ tomamos la transformación afín $(x,y)\mapsto (\sqrt{2}x,y)$ y notamos que $$P_2((\sqrt{2}x,y))=(\sqrt{2}x)^2+y^2-1=2x^2+y^2-1=P_3((x,y)).$$ La equivalencia afín entre $P_1$ y $P_3$ se obtiene por transitividad.

Como la transformación afín $(x,y)\mapsto (x+1,y)$ es de hecho una traslación, entonces es una isometría. De esta manera, $P_1$ y $P_2$ no sólo son afínmente equivalentes, sino que también son isométricamente equivalentes. Sin embargo, es imposible encontrar una isometría que envíe $\mathcal{C}_2$ a $\mathcal{C}_3$, pues tendría que llevar a $(0,0)$ a un punto equidistante a todos los puntos de $\mathcal{C}_3$. Pero $\mathcal{C}_3$ no es una circunferencia.

En resumen:

  • $\mathcal{C}_1,\mathcal{C}_2,\mathcal{C}_3$ son todas ellas afínmente equivalentes.
  • $\mathcal{C}_1$ es isométricamente equivalente a $\mathcal{C}_2$.
  • $\mathcal{C}_3$ no es isométricamete equivalente a $\mathcal{C}_2$, y por lo tanto tampoco a $\mathcal{C}_1$.

$\square$

Más adelante…

Ya dijimos qué objetos nos interesa clasificar: los polinomios cuadráticos y las curvas cuadráticas. También ya dijimos qué noción de clasificación usaremos: la equivalencia afín o la equivalencia isométrica. Estamos listos para enunciar los teoremas de clasificación que queremos demostrar. Haremos esto en la siguiente entrada. Después, en entradas posteriores, nos enfocaremos a dar la demostración poco a poco. Esto a su ves nos permitirá resolver problemas prácticos de cónicas como poder encontrar su centro o qué tan rotadas están.

Tarea moral

  1. Demuestra que la relación «es afínmente equivalente a» es una relación de equivalencia para curvas cuadráticas.
  2. Encuentra de manera explícita una transformación afín que ayude a ver que los polinomios cuadráticos $x^2+6x+y^2+8$ y $x^2+y^2-4y+3$ son afínmente equivalentes. ¿Son isométricamente equivalentes?
  3. Demuestra que los polinomios cuadráticos en dos variables $P((x,y))=x^2+y^2+1$ y $Q((x,y))=x^2+1$ no pueden ser afínmente equivalentes. Luego, muestra que las curvas cuadráticas que defininen sí son afínmente equivalentes. Como sugerencia, para ver que los polinomios no son afínmente equivalentes procede por contradicción. Supón que sí y obtén una contradicción con el coeficiente de $y^2$.
  4. Muestra lo siguiente:
    1. Dos parábolas canónicas cualesquiera (i.e. descritas por ecuaciones de la forma $y=cx^2$) son afínmente equivalentes.
    2. Dos elipses canónicas cualesquiera (i.e. descritas por ecuaciones de la forma $\frac{x^2}{a^2}+\frac{y^2}{b^2}=1$) son afínmente equivalentes.
    3. Dos hipérbolas canónicas cualesquiera (i.e. descritas por ecuaciones de la forma $\frac{x^2}{a^2}-\frac{y^2}{b^2}=1$) son afínmente equivalentes.
  5. Usa como ejemplo las definiciones de la entrada para definir la noción de ser «traslacionalmente equivalente». Demuestra lo siguiente:
    1. La relación «es traslacionalmente equivalente a» es una relación de equivalencia.
    2. Dos rectas son traslacionalmente equivalentes si y sólo si son paralelas.
    3. Dos circunferencias son traslacionalmente equivalentes si y sólo si son del mismo radio.
    4. Existen elipses isométricamente equivalentes, pero que no son traslacionalmente equivalentes.

Entradas relacionadas

Geometría Analítica I: Polinomios cuadráticos y curvas cuadráticas

Por Leonardo Ignacio Martínez Sandoval

Introducción

Lo primero que queremos determinar en un problema de clasificación es cuáles son los objetos que clasificaremos. En esta entrada los definimos con toda precisión: serán los polinomios cuadráticos en dos variables y las curvas cuadráticas.

Los primeros son expresiones algebraicas que mezclan a dos variables $x$ y $y$ mediante sumas y productos, pero teniendo grado dos. Las segundas son aquellos conjuntos del plano en donde se anula un polinomio cuadrático.

Polinomios cuadráticos en dos variables

Comencemos con una definición algebraica.

Definición. Un polinomio cuadrático en dos variables $P$ es una función $P:\mathbb{R}^2\to \mathbb{R}$ de la forma $$P((x,y))=Ax^2+Bxy+Cy^2+Dx+Ey+F,$$ para algunos reales $A,B,C,D,E,F$, en donde alguno de $A$, $B$ ó $C$ es distinto de cero.

En ocasiones, para abreviar «polinomio cuadrático en dos variables» simplemente usaremos las siglas «PCDV».

Ejemplo. Todas las expresiones que aparecen en las cónicas canónicas que hemos estudiado son PCDVs. Por ejemplo, la ecuación canónica de la elipse $$\frac{x^2}{a^2}+\frac{y^2}{b^2}=1$$ puede reescribirse como $$b^2x^2+a^2y^2-a^2b^2=0.$$ Del lado izquierdo de esta igualdad tenemos un PCDV. De manera similar, la ecuación canónica de la parábola $y^2=4px$ puede reescribirse como $y^2-4px=0$. Una vez más al lado izquierdo nos aparece un PCDV.

$\square$

Ejemplo. Si consideramos las dos rectas $3x+5y+1=0$ y $2x-2y+1=0$ y «multiplicamos» sus ecuaciones, entonces obtenemos de nuevo un PCDV pues el producto es:

\begin{align*}
(3x+5y+1)(2x-2y+1)&=6x^2-6xy+3x+10xy-10y^2+5y+2x-2y+1\\
&=6x^2+4xy-10y^2+5x+3y+1.
\end{align*}

$\square$

Curvas cuadráticas

Cuando tenemos una expresión algebraica que depende de dos variables $x$ y $y$, entonces podemos preguntarnos por cómo es la figura geométrica que se obtiene al considerar los puntos $(x,y)$ del plano que hacen que la expresión algebraica sea igual a cero. Un ejemplo de esto es cuando consideramos las expresiones del estilo $Ax+By+C$. Las parejas $(x,y)$ que hacen que esta expresión sea igual a cero forman una recta en el plano. En efecto, forman la recta en forma normal dada por la ecuación $(A,B)\cdot (x,y)=-C$, como puedes verificar.

Esta idea es mucho más general. A partir de los polinomios cuadráticos en dos variables también podemos hacernos la misma pregunta: ¿cómo se ven las parejas $(x,y)$ que anulan un polinomio cuadrático? La respuesta será importante, así que las figuras que se construyen así les damos su propio nombre.

Definición. Una curva cuadrática es el conjunto de puntos $(x,y)$ del plano que anulan a un polinomio cuadrático en dos variables $P$. En otras palabras, es un conjunto de la forma $$\mathcal{C}:=\{(x,y)\in \mathbb{R}^2: Ax^2+Bxy+Cy^2+Dx+Ey+F = 0\}.$$

A $P$ le llamamos el polinomio asociado a $\mathcal{C}$. A $\mathcal{C}$ le llamamos la curva descrita (o dada) por $P$. Quizás usaremos terminología un poco distinta, pero que siga dejando evidente que $P$ y $\mathcal{C}$ están relacionados.

Ejemplo. Ya hemos estudiado anteriormente algunas curvas cuadráticas: las cónicas canónicas. Por ejemplo, si tomamos el PCDV $P((x,y))=4x^2-9y^2-36$ y nos preguntamos para cuáles parejas $(x,y)$ esto es igual a cero, como respuesta tenemos que son aquellas parejas $(x,y)$ tales que $ 4x^2-9y^2-36=0$, lo cual podemos reescribir como $$\frac{x^2}{9}-\frac{y^2}{4}=1.$$ Esta es la hipérbola canónica de semieje mayor $3$ y semieje menor $2$. Podemos verla en la siguiente figura.

$\square$

Ejemplo. ¿Qué sucede si nos fijamos en la curva descrita por el polinomio cuadrático en dos variables $$ 6x^2+4xy-10y^2+5x+3y+1$$ que construimos en un ejemplo anterior? Si recuerdas, obtuvimos este polinomio cuadrático en dos variables a partir de multiplicar dos expresiones. De esta forma, tenemos que $$ 6x^2+4xy-10y^2+5x+3y+1=0$$ si y sólo si $$ (3x+5y+1)(2x-2y+1) =0.$$ Pero el producto de dos cosas es igual a cero si y sólo si alguna es igual a cero. Así, alguna de las expresiones $3x+5y+1$ y $2x-2y+1$ debe ser igual a cero. Si la primera es cero, entonces $(x,y)$ es un punto en la recta normal $\ell_1$ de ecuación $(3,5)\cdot (x,y) = -1$. Si la segunda es cero, entonces $(x,y)$ es un punto en la recta normal $\ell_2$ de ecuación $(2,-2)\cdot(x,y) = -1$. Así, la curva cuadrática descrita por el PCDV es la unión de $\ell_1$ con $\ell_2$. Podemos verla en la siguiente figura.

$\square$

Forma matricial de polinomios cuadráticos en dos variables

Cuando trabajamos con rectas, nos convenía tener varias formas de expresarlas: la forma paramétrica ayudaba a determinar fácilmente el paralelismo, la forma baricéntrica nos daba fórmulas sencillas para los puntos medios, la forma normal nos permitía encontrar distancias, etc. Así mismo, cuando trabajamos con polinomios cuadráticos en dos variables es de ayuda tener más de una expresión.

Podemos reescribir un polinomio cuadrático en dos variables $$P((x,y))=Ax^2+Bxy+Cy^2+Dx+Ey+F$$ de una manera más compacta usando multiplicación matricial. Para ello, definimos $$M=\begin{pmatrix} A & \frac{B}{2} \\ \frac{B}{2} & C \end{pmatrix}, k=\begin{pmatrix} D \\ E \end{pmatrix}, v=\begin{pmatrix} x \\ y \end{pmatrix}.$$ Con esta notación, e interpretando a las matrices de $1\times 1$ como reales, tenemos que $P$ se puede reescribir de la siguiente manera: $$P(v)=v.$$

En efecto, al realizar las operaciones en el lado derecho obtenemos:

\begin{align*}
v^t M v + k^t v + F &=\begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} A & \frac{B}{2} \\ \frac{B}{2} & C \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} + \begin{pmatrix} D & E \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} + F\\
&=\begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} Ax + \frac{B}{2} y \\ \frac{B}{2} x + C y \end{pmatrix} + Dx + Ey + F\\
&=Ax^2 + Bxy + Cy^2+Dx+Ey+F.
\end{align*}

Observa que cuando pasamos un polinomio cuadrático en dos variables a forma matricial entonces siempre obtenemos una matriz $M$ simétrica.

Ejemplo. La forma matricial del PCDV que encontramos anteriormente $$6x^2+4xy-10y^2+5x+3y+1$$ es

$$ \begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} 6 & 2 \\ 2 & 10 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} + \begin{pmatrix} 5 & 3 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} + 1.$$

nota que el coeficiente de $xy$ se tuvo que dividir entre $2$ para llegar a las entradas de la matriz. Es importante recordar esto al pasar de la forma en coordenadas a la forma matricial.

$\square$

En caso de ser necesario, también podemos pasar fácilmente de la forma matricial de un polinomio cuadrático en dos variables a su forma en coordenadas.

Ejemplo. Si comenzamos con el polinomio cuadrático en dos variables con forma matricial $$ \begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} 2 & -1 \\ -1 & 3 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} + \begin{pmatrix} 0 & -3 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} – 1, $$

entonces su forma en coordenadas es $$2x^2-2xy+3y^2 – 3y -1.$$

Observa que las entradas $-1$ fuera de la diagonal principal de la matriz al salir se duplican para conformar el coeficiente de $xy$. Es importante recordar esto al pasar de forma matricial a forma en coordenadas.

$\square$

Más adelante…

En esta entrada definimos qué son los polinomios cuadráticos en dos variables y qué son las curvas cuadráticas.

Por un lado, mencionamos que todas las ecuaciones de cónicas canónicas que hemos visto tienen polinomios cuadráticos en dos variables. ¿Será que todas las ecuaciones de cónicas también tienen polinomios cuadráticos en dos variables? Por otro lado, vimos que algunas curvas cuadráticas son cónicas. Pero nos pasó algo un poco raro: en un ejemplo salieron dos rectas que se intersectan, que quizás estrictamente no pensamos como una cónica usual (elipse, hipérbola, parábola).

¿Cómo serán todas las curvas cuadráticas? ¿Serán sólo las cónicas usuales y algunas excepciones o podrán tener formas muy extrañas? Eso lo estudiaremos después.

También en esta entrada vimos la forma matricial de un polinomio cuadrático en dos variables. De momento, no hemos hablado de la utilidad que tiene pensar a un PCDV así. Sin embargo, en la siguiente entrada veremos que esta expresión es fundamental para ver qué sucede cuando «combinamos» un polinomio cuadrático con una transformación afín.

Tarea moral

  1. Usa alguna herramienta tecnológica (como GeoGebra) para trazar las curvas cuadráticas descritas por los siguientes polinomios cuadráticos en dos variables:
    • $x^2-2xy+3y^2+x-5y+7$
    • $3y^2+5y+x$
    • $x^2+y^2-5x-5y+3$
    • $xy-x-y+7$
    • $-x^2+2xy-3y^2-x+5y-7$
  2. Sea $P:\mathbb{R}^2\to \mathbb{R}$ dada por $P((x,y))=(Ax+By+C)(Dx+Ey+F)$. Demuestra que $P$ es un polinomio cuadrático en dos variables. Luego, demuestra que:
    1. Si $AE-BD\neq 0$, entonces la curva cuadrática dada por $P$ es la unión de dos rectas que se intersectan.
    2. Si $AE-BD=0$, entones la curva cuadrática dada por $P$ es la unión de dos rectas paralelas (no necesariamente distintas).
  3. Demuestra que la intersección de una recta con una curva cuadrática sólo puede ser:
    1. Vacía,
    2. Un punto,
    3. Dos puntos, o
    4. Una infinidad de puntos.
  4. Demuestra que cualquier curva cuadrática $\mathcal{C}$ puede ser descrita a través de una infinidad de polinomios cuadráticos en dos variables.
  5. Considera la gráfica de la función $f(x)=\sin(x)$. ¿Será que esta gráfica es una curva cuadrática? Intenta demostrar por qué sí o por qué no.

Entradas relacionadas

Álgebra Lineal II: Aplicaciones del teorema de Cayley-Hamilton

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores ya enunciamos y demostramos el teorema de Cayley-Hamilton. Veremos ahora algunas aplicaciones de este resultado.

Encontrar inversas de matrices

El teorema de Cayley-Hamilton nos puede ayudar a encontrar la inversa de una matriz haciendo únicamente combinaciones lineales de potencias de la matriz. Procedemos como sigue. Supongamos que una matriz $A$ en $M_n(F)$ tiene polinomio característico $$\chi_A(x)=x^n+a_{n-1}x^{n-1}+\ldots+a_1x+a_0.$$ Como $a_0=\det(A)$, si $a_0=0$ entonces la matriz no es invertible. Supongamos entonces que $a_0\neq 0$. Por el teorema de Cayley-Hamilton tenemos que $$A^n+a_{n-1}A^{n-1}+\ldots+a_1A+a_0I_n=O_n.$$ De aquí podemos despejar la matriz identidad como sigue:

\begin{align*}
I_n&=-\frac{1}{a_0}\left( A^n+a_{n-1}A^{n-1}+\ldots+a_1A \right)\\
&=-\frac{1}{a_0}\left(A^{n-1}+a_{n-1}A^{n-2}+\ldots+a_1 I\right) A.
\end{align*}

Estos cálculos muestran que la inversa de $A$ es la matriz $$ -\frac{1}{a_0}\left(A^{n-1}+a_{n-1}A^{n-1}+\ldots+a_1 I\right).$$

Ejemplo. Supongamos que queremos encontrar la inversa de la siguiente matriz $$A=\begin{pmatrix} 2 & 2 & 0 \\ 0 & -1 & 0 \\ 1 & 1 & 1 \end{pmatrix}.$$ Su polinomio característico es $\lambda^3-2\lambda^2 – \lambda +2$. Usando la fórmula de arriba, tenemos que

$$A^{-1}=-\frac{1}{2}(A^2-2A-I).$$

Necesitamos entonces $A^2$, que es:

$$A^2=\begin{pmatrix} 4 & 2 & 0 \\ 0 & 1 & 0 \\ 3 & 2 & 1 \end{pmatrix}.$$

De aquí, tras hacer las cuentas correspondientes, obtenemos que:

$$A^{-1}=\begin{pmatrix} \frac{1}{2} & 1 & 0 \\ 0 & -1 & 0 \\ -\frac{1}{2} & 0 & 1\end{pmatrix}.$$

Puedes verificar que en efecto esta es la inversa de $A$ realizando la multiplicación correspondiente.

$\square$

El método anterior tiene ciertas ventajas y desventajas. Es práctico cuando es sencillo calcular el polinomio característico, pero puede llevar a varias cuentas. En términos de cálculos, en general reducción gaussiana funciona mejor para matrices grandes. Como ventaja, el resultado anterior tiene corolarios teóricos interesantes. Un ejemplo es el siguiente resultado.

Corolario. Si $A$ es una matriz con entradas en los enteros y determinante $1$ ó $-1$, entonces $A^{-1}$ tiene entradas enteras.

Encontrar el polinomio mínimo de una matriz

Otra de las consecuencias teóricas del teorema de Cayley-Hamilton con aplicaciones prácticas ya la discutimos en la entrada anterior.

Proposición. El polinomio mínimo de una matriz (o transformación lineal) divide a su polinomio característico.

Esto nos ayuda a encontrar el polinomio mínimo de una matriz: calculamos el polinomio característico y de ahí intentamos varios de sus divisores polinomiales para ver cuál de ellos es el de grado menor y que anule a la matriz. Algunas consideraciones prácticas son las siguientes:

  • Si el polinomio característico se factoriza totalmente sobre el campo y conocemos los eigenvalores, entonces conocemos todos los factores lineales. Basta hacer las combinaciones posibles de factores lineales para encontrar el polinomio característico (considerando posibles multiplicidades).
  • Además, para cada eigenvalor $\lambda$ ya vimos que $\lambda$ debe ser raíz no sólo del polinomio característico, sino también del polinomio mínimo. Así, debe aparecer un factor $x-\lambda$ en el polinomio mínimo para cada eigenvalor $\lambda$.

Ejemplo. Encontramos el polinomio mínimo de la siguiente matriz:

$$B=\begin{pmatrix} 2 & 0 & 4 \\ 3 & -1 & -1 \\0 & 0 & 2 \end{pmatrix}.$$

Una cuenta estándar muestra que el polinomio característico es $(x-2)^2(x+1)$. El polinomio mínimo debe ser mónico, dividir al polinomio característico y debe contener forzosamente a un factor $(x-2)$ y un factor $(x+1)$. Sólo hay dos polinomios con esas condiciones: $(x-2)(x+1)$ y $(x-2)^2(x+1)$. Si $(x-2)(x+1)$ anula a $B$, entonces es el polinomio mínimo. Si no, es el otro. Haciendo las cuentas:

\begin{align*}
(B-2I_3)(B+I_3)&=\begin{pmatrix}0 & 0 & 4 \\ 3 & -3 & -1 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} 3 & 0 & 4 \\ 3 & 0 & -1 \\ 0 & 0 & 3 \end{pmatrix}\\
&=\begin{pmatrix} 0 & 0 & 12 \\ 0 & 0 & 12 \\ 0 & 0 & 0 \end{pmatrix}.
\end{align*}

Así, $(x-2)(x+1)$ no anula a la matriz y por lo tanto el polinomio mínimo es justo el polinomio característico $(x-2)^2(x+1)$.

$\square$

Ejemplo. Consideremos la matriz $C=\begin{pmatrix} 3 & 0 & 0 \\ 0 & 3 & 0 \\ 0 & 0 & 3 \end{pmatrix}$. Su polinomio característico es $(x-3)^3$. Así, su polinomio mínimo es $x-3$, $(x-3)^2$ ó $(x-3)^3$. Nos damos cuenta rápidamente que $x-3$ sí anula a la matriz pues $A-3I_3=O_3$. De este modo, el polinomio mínimo es $x-3$.

$\square$

Clasificación de matrices con alguna condición algebraica

Si sabemos que una matriz cumple una cierta condición algebraica, entonces el teorema de Cayley-Hamilton puede ayudarnos a entender cómo debe ser esa matriz, es decir, a caracterizar a todas las matrices que cumplan la condición.

Por ejemplo, ¿quienes son todas las matrices en $M_n(\mathbb{R})$ que son su propia inversa? La condición algebraica es $A^2=I_2$. Si el polinomio característico de $A$ es $x^2+bx+c$, entonces por el teorema de Cayley-Hamilton y la hipótesis tenemos que $O_2=A^2+bA+cI_2=bA+(c+1)I_2$. De aquí tenemos un par de casos:

  • Si $b\neq 0$, podemos despejar a $A$ como $A=-\frac{c+1}{b}I_2$, es decir $A$ debe ser un múltiplo de la identidad. Simplificando la notación, $A=xI_2$. Así, la condición $A^2=I_2$ se convierte en $x^2I_2=I_2$, de donde $x^2=1$ y por lo tanto $x=\pm 1$. Esto nos da las soluciones $A=I_2$ y $A=-I_2$.
  • Si $b=0$, entonces $O_2=(c+1)I_2$, de donde $c=-1$. De este modo, el polinomio característico es $x^2-1=(x+1)(x-1)$. Se puede demostrar que aquí las soluciones son las matices semejantes a la matriz $\begin{pmatrix}1 & 0 \\ 0 & -1 \end{pmatrix}$, y sólo esas.

Más adelante…

El teorema de Cayley-Hamilton es un resultado fundamental en álgebra lineal. Vimos dos demostraciones, pero existen varias más. Discutimos brevemente algunas de sus aplicaciones, pero tiene otras tantas. De hecho, más adelante en el curso lo retomaremos para aplicarlo nuevamente.

Por ahora cambiaremos ligeramente de tema. De manera muy general, veremos cómo llevar matrices a otras matrices que sean más simples. En las siguientes entradas haremos esto mediante similaridades de matrices. Más adelante haremos esto mediante congruencias de matrices. Hacia la tercer unidad del curso encontraremos un resultado aún más restrictivo, en el que veremos que cualquier matriz simétrica real puede ser llevada a una matriz diagonal mediante una matriz que simultáneamente da una similaridad y una congruencia.

Tarea moral

  1. Encuentra el polinomio mínimo de la matriz $\begin{pmatrix}-3 & 1 & 0 & 0 \\ 0 & -3 & 0 & 0 \\ 0 & 0 & 2 & 1 \\ 0 & 0 & 0 & 2\end{pmatrix}$
  2. Encuentra la inversa de la siguiente matriz usando las técnica usada en esta entrada: $$\begin{pmatrix} 0 & 1 & 1 \\ 1 & -1 & 2\\ 2 & 2 & 1 \end{pmatrix}.$$
  3. Demuestra el corolario de matrices con entradas enteras. De hecho, muestra que es un si y sólo si: una matriz invertibles con entradas enteras cumple que su inversa tiene únicamente entradas enteras si y sólo si su determinante es $1$ ó $-1$.
  4. ¿Cómo son todas las matrices en $M_2(\mathbb{R})$ tales que $A^2=A$?
  5. ¿Cómo son todas las matrices en $M_3(\mathbb{R})$ de determinante $0$ tales que $A^3=O_3$?

Entradas relacionadas

Álgebra Lineal II: Proceso de Gram-Schmidt en espacios euclideanos

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la entrada anterior recordamos algunas de las aplicaciones que pueden tener las bases ortogonales y ortonormales. Esto nos da la pista de que siempre es bueno intentar conseguir una base ortonormal. ¿Es esto siempre posible? En el primer curso de Álgebra Lineal vimos que si tenemos en espacio euclideano, entonces sí. Esto está explicado a detalle en la entrada del Proceso de Gram-Schmidt.

Esta entrada está escrita únicamente en formato de recordatorio. Enunciamos los resultados principales, pero las demostraciones y más ejemplos se encuentran en otras entradas.

Teorema de Gram-Schmidt

El teorema de Gram-Schmidt asegura que dado un conjunto de vectores linealmente independientes en un espacio vectorial real con un producto interior dado, podemos encontrar otros vectores que ahora sean ortonormales, que generen lo mismo y que además «apunten hacia un lado similar» a los vectores originales. Además, asegura que estos vectores son únicos. El resultado concreto es el siguiente.

Teorema. Sea $V$ un espacio vectorial real con producto interior $\langle \cdot, \cdot \rangle$. Sean $v_1,\ldots,v_d$ vectores linealmente independientes. Entonces, existen únicos vectores ortonormales $e_1,\ldots,e_d$ tales que para toda $k\in\{1,2,\ldots,d\}$ se tiene que $$\text{span}(e_1,\ldots,e_k)= \text{span}(v_1,\ldots,v_k)$$ y $\langle e_k, v_k \rangle >0$.

Muy a grandes rasgos, esta forma de escribir el teorema permite hacer inducción en $d$. Al pasar a un nuevo $d$, podemos usar hipótesis inductiva para construir $e_1,\ldots,e_{d-1}$. Así, sólo hay que ver cómo construir $e_d$ para que sea ortogonal a todos los anteriores y para que tenga norma $1$. Para encontra a un buen candidato, se debe poner a $e_d$ en términos de los $e_1,\ldots,e_{d-1}$ y $v_d$, y se debe suponer que cumple lo deseado. Al hacer algunos productos interiores esto nos dice que $e_d$ forzosamente se construye definiendo

$$f_d=v_d-\sum_{i=1}^{d-1}\langle v_d, e_i\rangle e_i$$

y tomando $e_d=\frac{f_d}{\norm{f_d}}$.

En los detalles de la prueba se ve que este $e_d$ en efecto cumple todo lo deseado.

Si estamos en un espacio euclideano, entonces tenemos una base finita. Podemos usar esta en la hipótesis del teorema de Gram-Schmidt para concluir lo siguiente.

Corolario. Todo espacio euclideano tiene una base ortonormal.

Algoritmo de Gram-Schmidt

La demostración del teorema de Gram-Schmidt a su vez da un algorimo para encontrar de manera explícita la base ortonormal buscada. Es un algoritmo que poco a poco va contruyendo los vectores. Supongamos que nos dan los vectores $v_1,\ldots,v_n$.

Para empezar, normalizamos $v_1$ para obtener $e_1=\frac{v_1}{\norm{v_1}}$. De aquí en adelante procedemos recursivamente. Si ya construimos $e_1,\ldots,e_k$, entonces podemos construir $e_{k+1}$ a través de la fórmula que pusimos, es decir, primero definimos

$$f_{k+1}=v_{k+1}-\sum_{i=1}^{k}\langle v_{k+1}, e_i\rangle e_i,$$

para luego tomar $e_{k+1}$ como la normalización de $f_{k+1}$, es decir, como $\frac{e_{k+1}}{\norm{e_{k+1}}.$ Seguimos de esta manera hasta terminar.

El siguiente diagrama da una idea un poco más visual de cómo vamos haciendo las operaciones. Comenzamos con los vectores $v_1,\ldots,v_d$ de la fila superior. Luego, vamos construyendo a los $e_i$ y $f_i$ en el orden indicado por las flechas: $e_1,f_2,e_2,\ldots,f_{d-1},e_{d-1},f_d,e_d$. Para construir un $f_i$ usamos la fórmula con productos interiores. Para construir el $e_i$ correspondiente, normalizamos.

Intuición geométrica

Ya tenemos el lenguaje para entender mucho mejor el proceso de Gram-Schmidt. Si te das cuenta, cuando tomamos $$f_{k+1}=v_{k+1}-\sum_{i=1}^{k}\langle v_{k+1}, e_i\rangle e_i$$ justamente estamos aprovechando la descomposición

$$v_{k+1}= \left(\sum_{i=1}^{k}\langle v_{k+1}\right)+ f_{k+1}$$

de $v_{k+1}$ como suma de un elemento en espacio generado por $e_1,\ldots, e_k$ y uno en su ortogonal. El elemento del espacio generado lo obtenemos a través de la fórmula que sale de la descomposición de Fourier que vimos en la entrada anterior. El hecho de que $f_{k+1}$ esté en el ortogonal es lo que hace que cada nuevo vector sea ortogonal a los anteriores. Al final hay que normalizar $f_{k+1}$ para que la base sea ortonormal y no sólo ortogonal. Habría dos formas de hacerlo. Una es tomar $\frac{f_{k+1}}{\norm{f_{k+1}}}$. La otra es tomar $-\frac{f_{k+1}}{\norm{f_{k+1}}}$. El producto escalar positivo que pedimos es lo que nos da la unicidad.

Ejemplo de aplicación del algoritmo de Gram-Schmidt

Hagamos un ejemplo muy sencillo. Será sólo de práctica y como recordatorio. Hay ejemplos más interesantes en la entrada Problemas de bases ortogonales, Fourier y proceso de Gram-Schmidt.

Es sencillo verificar que $\langle (a,b,c), (x,y,z)\rangle =4ax+3by+2cz$ es un producto interior en $\mathbb{R}^3$. Vamos a ortonormalizar la base $(1,1,1)$, $(0,1,1)$, $(0,0,1)$.

En la notación del algoritmo, tenemos entonces $v_1=(1,1,1)$, $v_2=(0,1,1)$ y $v_3=(0,0,1)$. El primer paso es tomar $e_1=\frac{v_1}{\norm{v_1}}$. La norma de $v_1$ con este producto interior es $\sqrt{4+3+2}=3$. De este modo, $e_1=\left(\frac{1}{3}, \frac{1}{3} , \frac{1}{3} \right)$.

Teniendo $e_1$, podemos definir $f_2$ con la fórmula dada:

\begin{align*}
f_2&=v_2-\langle v_2, e_1 \rangle e_1\\
&=(0,1,1)-\left(4\cdot 0\cdot \frac{1}{3}+3\cdot 1 \cdot \frac{1}{3} + 2 \cdot 1 \cdot \frac{1}{3}\right)\left(\frac{1}{3},\frac{1}{3},\frac{1}{3} \right)\\
&=(0,1,1)-\frac{5}{3} \left(\frac{1}{3},\frac{1}{3},\frac{1}{3} \right)\\
&=\left(-\frac{5}{9},\frac{4}{9},\frac{4}{9}\right).
\end{align*}

De aquí, debemos normalizar $f_2$. Su norma es $$\sqrt{ \frac{100}{81}+\frac{48}{81}+\frac{32}{81} } = \frac{\sqrt{180}}{9}=\frac{2\sqrt{5}}{3}=\frac{10}{3\sqrt{5}}.$$ De este modo, $$e_2=\left(-\frac{\sqrt{5}}{6},\frac{2\sqrt{5}}{15},\frac{2\sqrt{5}}{15}\right)$$

Teniendo $e_1$ y $e_2$, podemos definir $f_3$ con la fórmula dada:

\begin{align*}
f_3&=v_3-\langle v_3, e_1 \rangle e_1 – \langle v_3, e_2 \rangle e_2\\
&=(0,0,1)-\frac{2}{3} \left(\frac{1}{3}, \frac{1}{3} , \frac{1}{3} \right) – \frac{4\sqrt{5}}{15} \left(-\frac{\sqrt{5}}{6},\frac{2\sqrt{5}}{15},\frac{2\sqrt{5}}{15}\right)\\
&=(0,0,1)-\left(\frac{2}{9}, \frac{2}{9} , \frac{2}{9} \right)-\left(-\frac{2}{9},\frac{8}{45},\frac{8}{45}\right)\\
&=\left(0, -\frac{2}{5},\frac{3}{5}\right).
\end{align*}

De aquí, debemos normalizar $f_3$. Su norma es $$\sqrt{\frac{12}{25}+\frac{18}{25}}=\frac{\sqrt{6}}{\sqrt{5}}=\frac{6}{\sqrt{30}}.$$ De este modo, $$e_3=\left( 0, -\frac{\sqrt{30}}{15}, \frac{\sqrt{30}}{10}\right).$$

Hemos encontrado la base ortonormal buscada $e_1,e_2,e_3$.

$\square$

Más adelante…

Con esta entrada-recordatorio terminamos la segunda unidad del curso. A partir de ahora es importante que recuerdes que todo espacio euclideano tiene una base ortonormal. También es útil que recuerdes cómo se obtiene, así que asegúrate de practicar el proceso de Gram-Schmidt.

Todo lo que hemos mencionado tiene su análogo en espacios vectoriales sobre los complejos con un producto interior hermitiano. Asegúrate de entender las diferencias y de realizar los ejercicios que te permitirán entender los resultados correspondientes.

En la siguiente unidad desarrollaremos la teoría necesaria para poder enunciar y demostrar tanto el teorema espectral real, como el teorema espectral complejo.

Tarea moral

  1. Haz la demostración del teorema de Gram-Schmidt a partir del esquema comentado en la entrada. En caso de que se te dificulte, revisa los detalles en la entrada de blog correspondiente.
  2. Para verificar que todo esté en orden, verifica que los vectores $e_1,e_2,e_3$ del ejemplo en efecto son una base ortonormal con el producto interior dado.
  3. En el teorema de Gram-Schmidt, ¿es importante el orden en el que elijamos $v_1$ hasta $v_n$? ¿Cambia el conjunto resultante si cambiamos el orden? ¿Es conveniente tomar algún otro orden para simplificar las cuentas?
  4. Aplica el proceso de Gram-Schmidt a los vectores \begin{align*}(1,1,1,1)\\ (0,1,1,1)\\ (0,0,1,1)\\ (0,0,0,1)\end{align*} en $\mathbb{R}^4$ con el producto interior canónico (el producto punto).
  5. Enuncia y demuestra un teorema de Gram-Schmidt para espacios vectoriales sobre $\mathbb{C}$ con un producto interior hermitiano. Obtén el corolario correspondiente para los espacios hermitianos. Aplica este proceso a los vectores $(1+i,1+i,1+i),(0,1+i,1+i),(0,0,1+i)$ de $\mathbb{C}^3$ con el producto hermitiano canónico para obtener una base ortonormal.

Entradas relacionadas