Archivo de la etiqueta: producto interior

Geometría Analítica I: Producto interior y el ortogonal canónico

Por Elsa Fernanda Torres Feria

Introducción

Continuando la conexión con la geometría Euclidiana con la que empezamos, hay un concepto en la geometría analítica que se conecta con la noción de ángulo, la de distancia y la de norma en la primera geometría mencionada, el producto interior. Dentro del contenido de esta entrada esta su definición en una dimensión de $2$ o mayor, ejemplos y sus propiedades. También, se discute el concepto del vector ortogonal canónico, que en conjunción con el producto interior, sirve como herramienta para detectar ciertas características de rectas y vectores.

Producto interior

Abramos esta entrada con la definición de este nuevo concepto.

Definición. Si tenemos dos vectores $u=(u_1,u_2)$ y $v=(v_1,v_2)$ en $\mathbb{R}^2$, el producto interior (o producto punto) en $\mathbb{R}^2$ de $u$ con $v$, está dado por

$u\cdot v := (u_1,u_2) \cdot (v_1,v_2) = u_1v_1 +u_2 v_2$

Esta definición se puede expresar en dimensiones mayores.

Definición. Si tenemos dos vectores $u=(u_1,u_2, \dots, u_n)$ y $v=(v_1,v_2, \dots, v_n)$ en $\mathbb{R}^n$, el producto interior (o producto punto) en $\mathbb{R}^n$ de $u_1$ con $u_2$, está definido como

\begin{align*}
u\cdot v : &= (u_1,u_2, \dots, u_n) \cdot (v_1,v_2, \dots, v_n) \\
&= u_1v_1 +u_2 v_2+u_3 v_3 + \dots + u_n v_n \\
&= \sum _{j=1} ^{n} u_j v_j
\end{align*}

Es importante notar que el resultado del producto interior (que es una operación vectorial), es un escalar.

Ejemplos:

1. Sean los vectores $(5,3)$ y $(2,-4)$ en $\mathbb{R}^2$, el producto interior de estos es

\begin{align*}
(5,3) \cdot (2,-4)&=5(2)+3(-4)\\
&=10-12\\
&=-2
\end{align*}

2. Sean los vectores $(-3,1,-1)$ y $(-6,2,-3)$ en $\mathbb{R}^3$, el producto interior de estos es

\begin{align*}
(-3,1,-1) \cdot (-6,2,-3)&=-3(-6)+1(2)+(-1)(-3)\\
&=18+2+3\\
&=23
\end{align*}

3. Sean los vectores $(1,0,-5,2,0,1)$ y $(0,-6,0,0,2,0)$ en $\mathbb{R}^6$, el resultado de su producto interior es cero, verifica.

Ahora que hemos definido una nueva operación, nos gustaría demostrar algunas propiedades asociadas a esta.

Teorema. Para todos los vectores $u,v,w \in \mathbb{R}^n$ y para todo número $t \in \mathbb{R}$ se cumple que

$u \cdot v = v \cdot u$
$u \cdot (tv)=t(u\cdot v)$
$u \cdot (v + w)= u \cdot v + u \cdot w$
$u \cdot u \geq 0$
$u \cdot u =0 \Leftrightarrow u=(0,0)$

La primera propiedad nos dice que el producto interior es conmutativo; la siguiente que la operación saca escalares; la tercera expresa que esta abre sumas; la cuarta que al hacer el producto interior de un vector consigo mismo, el resultado es siempre mayor o igual a cero la última que la igualdad a cero sólo sucede cuando el vector $u$ es el vector cero.

Demostración

Haremos la demostración para vectores en $\mathbb{R}^2$, (el caso para dimensión $n$ es análogo) y usaremos los axiomas de los números reales.

Para empezar definamos los vectores $u=(u_1,u_2)$, $v=(v_1,v_2)$ y $w=(w_1,w_2)$ en $\mathbb{R}^2$

1. P. D. $u \cdot v = v \cdot u$. Comencemos con la definición y desarrollemos a partir de ella

\begin{align*}
u \cdot v &=(u_1,u_2) \cdot (v_1,v_2)\\
&=u_1v_1+u_2v_2 \\
&=v_1u_1+v_2u_2 \\
&=(v_1,v_2) \cdot (u_1,u_2)\\
&=v \cdot u
\end{align*}

$\therefore$ $u\cdot v= v \cdot u$

2. P.D. $u \cdot (tv)=t(u\cdot v)$

\begin{align*}
u \cdot (tv)&=(u_1,u_2) \cdot t(v_1,v_2) \\
&= (u_1,u_2) \cdot (tv_1,tv_2) \\
&= u_1(tv_1)+u_2(tv_2)\\
&= t(u_1v_1+u_2v_2) \\
&=t(u_1,u_2) \cdot (v_1,v_2)\\
&= t (u \cdot v)
\end{align*}

$\therefore u \cdot (tv)=t(u\cdot v)$

3. P.D. $u \cdot (v + w)= u \cdot v + u \cdot w$

\begin{align*}
u \cdot (v + w)&=(u_1,u_2) \cdot ((v_1,v_2) + (w_1,w_2)) \\
&= (u_1,u_2) \cdot (v_1+w_1,v_2+w_2) \\
&=u_1(v_1+w_1)+u_2(v_2+w_2) \\
&=u_1v_1+u_1w_1+u_2v_2+u_2w_2 \\
&=u_1v_1+u_2v_2+u_1w_1+u_2w_2 \\
&=(u_1v_1+u_2v_2)+(u_1w_1+u_2w_2) \\
&=((u_1,u_2)\cdot(v_1,v_2)) + ((u_1,u_2) \cdot (w_1,w_2)) \\
&= u \cdot v + u \cdot w
\end{align*}

$\therefore$ $u \cdot (v + w)= u \cdot v + u \cdot w$

4 y 5. P.D. $u \cdot u \geq 0$ y $u \cdot u =0 \Leftrightarrow u=(0,0)$

\begin{align*}
u \cdot u&=(u_1,u_2) \cdot (u_1,u_2) \\
&= u_1u_1+u_2u_2\\
&= u_1^2 + u_2^2 \geq 0
\end{align*}

La última relación se da ya que es una suma de números al cuadrado y cada término por sí sólo es mayor o igual a cero.

Resulta que si $u_1 \neq 0$ ó $u_2 \neq 0$, entonces $u_1^2 + u_2^2 > 0$, por lo que el único caso en el que se da la igualdad a cero es cuando $u=(0,0)$.

$\therefore$ $u \cdot u \geq 0$ y $u \cdot u =0 \Leftrightarrow u=(0,0)$

$\square$

Lo usado en esta demostración se restringe a los axiomas de los reales y la definición del producto interior, por lo que aunque no haya mucha descripción, espero que te sea clara.

El ortogonal canónico

Definición. Sea $v=(x,y)$ un vector en $\mathbb{R}^2$, el vector ortogonal canónico a v es el vector

$v^{\perp}=(-y,x)$

Si te das cuenta, esta definición hace referencia a lo que sucede al aplicar el ortogonal a un vector. Además, esta definición define al ortogonal canónico, pero no significa que sea el único vector perpendicular (ortogonal) a $v$.

Antes de definir o probar más cosas relacionadas al ortogonal, hagamos algunas observaciones.

Observación: Si aplicamos 4 veces el ortogonal a un vector $v$, regresamos al mismo vector:

$v^{\perp}=(x,y)^{\perp}=(-y,x)$

$(-y,x)^{\perp}=(-x,-y)$

$(-x,-y)^{\perp}=(y,-x)$

$(y,-x)^{\perp}=(x,y)$

Observación: Para cualquier $v=(x,y) \in \mathbb{R}^2$, tenemos que

$v \cdot v^{\perp} =(a,b) \cdot (-b,a)=a(-b)+b(a)=-ab+ab=0$

Para continuar, usemos el producto interior para definir y probar ciertas cosas con relación al compadre ortogonal.

Definición. Diremos que dos vectores $u,v \in \mathbb{R}^2$ son perpendiculares (ortogonales) si $u \cdot v=0$.

Proposición. Sea $u \in \mathbb{R}^2$ \ ${ 0\}$. Entonces

$\{x \in \mathbb{R}^2 : x \cdot u =0\}=L_{u_{\perp}}:=\{ru^{\perp}: r \in \mathbb{R}\}$

Demostración

Como queremos comprobar una igualdad de conjuntos, hay que probar la doble contención. Comencemos con la contención $\supseteq$.

$\supseteq$ En esta contención, queremos demostrar que cualquier vector de la forma $ru^{\perp}$ es tal que

$(ru^{\perp}) \cdot u=0$

Tomemos un vector de la forma $ru^{\perp}$ con $r \in \mathbb{R}$ y notemos que gracias a la segunda propiedad del producto interior se cumple que

$(ru^{\perp}) \cdot u = r(u^{\perp} \cdot u)= r(0)=0 $

Esto es suficiente para la demostración de la primera contención, pues hemos probado que el producto interior de cualquier vector de la forma $ru^{\perp}$ con $u$ es cero.

$\subseteq$ Para esta contención, queremos demostrar que los vectores $x$ que cumplen $x \cdot u =0$, son de la forma $x=r u^{\perp}$. Para esto, tomemos un vector $x=(r,s)$ que cumpla la primera condición y expresemos al vector $u$ con sus coordenadas $u=(u_1,u_2)$. Al realizar el producto interior obtenemos

$x \cdot u=(r,s) \cdot (u_1,u_2)=ru_1+su_2=0 $

$\Rightarrow ru_1= -su_2 \cdots (a) $

Dado que $u \neq (0,0)$, al menos una de sus entradas es distinta de cero. Supongamos que $u_1 \neq 0$, entonces podemos despejar $r$

$r=\frac{-su_2}{u_1}$

Podemos sustituir este valor en $x$ y desarrollar para obtener

\begin{align*}
x=(r,s)&=\left( \frac{-su_2}{u_1},s \right)=s\left( \frac{-u_2}{u_1}, 1 \right) \\
&=s \left( \frac{-u_2}{u_1}, \frac{u_1}{u_1} \right) \\
&=\frac{s}{u_1} \left( -u_2, u_1 \right)
\end{align*}

Y ya está el primer caso, pues sabemos que $u^{\perp}=( -u_2, u_1)$.

Así, $x \in \mathbb{R}^2$ tal que $x \cdot u=0$, es de la forma $ru^{\perp}$, con r un escalar.

En el caso en el que $u_2 \neq 0$, tenemos algo análogo. A partir de $(a)$ podemos despejar $s$

$ ru_1= -su_2$

$s=\frac{-ru_1}{u_2}$

Al sustituir en $x$ y desarrollar obtendremos que

$x=\frac{r}{-u_2}(-u_2,u_1)$

$\square$

Aplicaciones del producto punto

Para cerrar esta entrada, usemos el producto interior para describir algunas características de las rectas y vectores.

Definición. Diremos que dos líneas $l_1$ y $l_2$ son perpendiculares si al escribirlas en forma paramétrica

$l_1=\{ p_1+rq_1 : r \in \mathbb{R} \}$

$l_2=\{ p_2+rq_2 : r \in \mathbb{R} \}$

se tiene que $q_1 \cdot q_2 =0$, esto es si sus vectores dirección son ortogonales.

Proposición. Dos vectores $u$ y $v$ son paralelos si y sólo si $u$ y $v^{\perp}$ son ortogonales, es decir si $u \cdot v^{\perp}=0$.

Demostración

Ida ($\Rightarrow$). Si $u$ y $v$ son paralelos, por definición $u=cv$ con $c \in \mathbb{R}$. Como queremos que $u$ y $v^{\perp}$ sean ortogonales, realicemos su producto interior y utilicemos las propiedades de este para desarrollar

\begin{align*}
u \cdot v^{\perp}&=(cv) \cdot v^{\perp} \\
&=c(v \cdot v^{\perp}) \\
&=c(0)=0
\end{align*}

Por lo que $u$ y $v^{\perp}$ son ortogonales.

Regreso ($\Leftarrow$). Si ahora suponemos que $u$ y $v^{\perp}$ son ortogonales, pasa que

$u \cdot v^{\perp}=0$

Pero por lo visto en la proposición de la sección anterior, esto sólo pasa cuando $u=c(v^{\perp})^{\perp}$ para algún $c \in \mathbb{R}$. Si $v=(v_1,v_2)$ esto se desarrolla como

\begin{align*}
u&=c(v^{\perp})^{\perp}=c(-v_2,v_1)^{\perp}\\
&=c(-v_1,-v_2)\\
&= -cv
\end{align*}

$\therefore$ por definición de paralelismo, $u$ y $v$ son paralelos.

$\square$

Otra cosa útil del producto punto, es que cualquier recta se puede escribir en términos de este. Precisemos esto en la siguiente proposición.

Proposición. Sea la recta $l$ en su forma paramétrica

$l=\{p+rq : r \in \mathbb{R}\}$

La recta $l$ se puede escribir usando el producto punto de la siguiente manera

$l=\{x \in \mathbb{R} ^2 : q^{\perp} \cdot x=q^{\perp} \cdot p \}$

Antes de adentrarnos en la demostración, hablemos un poco de qué significa esta proposición con ayuda del siguiente interactivo aclarando que $qT$ es el vector $q{^\perp}$.

Al definir $qT$ como el vector perpendicular a la recta, tenemos que $q$ es el vector director de esta; $p$ es el punto por el que pasa la recta y $x$ representa a los puntos en ella. Como $p$ y $qt$ son fijos, entonces $qT \cdot p$ es un número constante. Si tú mueves $x$ a lo largo de la recta, veras que el producto punto $qT \cdot x$ al cual denominamos como $a$ en GeoGebra, no varia.

Es así como expresamos la recta por medio del producto punto; el conjunto de todas los $x \in \mathbb{R}^2$ tal que el producto punto con $q^{\perp}$ ($qT$ en el interactivo) es igual a $q^{\perp} \cdot p$.

Con esto claro, procedamos a la demostración.

Demostración

Como queremos demostrar que $l$ en su forma paramétrica es el mismo conjunto que el descrito por el producto punto, tenemos que explorar las dos contenciones de los conjuntos.

$\supseteq$ Tomemos $x \in \mathbb{R}^2$ tal que $q^{\perp}\cdot x =q^{\perp}\cdot p$. De esta igualdad se tiene que

\begin{align*}
0 &= q^{\perp}\cdot x – q^{\perp}\cdot p\\
&=q^{\perp}\cdot (x-p)\\
& \Rightarrow q^{\perp}\cdot (x-p) =0
\end{align*}

Dada la última igualdad, sabemos (por la primera proposición de esta entrada) que $x-p$ debe ser un múltiplo de $(q^{\perp})^{\perp}=-q$ y por lo tanto un múltiplo de $q$; por lo que para algún $s \in \mathbb{R}$ se tiene que

\begin{align*}
x-p&=sq\\
\Rightarrow x&=p+sq
\end{align*}

$\subseteq$ Ahora partamos de un punto $x=p+rq \in$ $l$ y desarrollemos su producto punto con $q^{\perp}$ para finalizar esta demostración

\begin{align*}
q^{\perp} \cdot x &= q^{\perp} \cdot (p+rq)\\
&=(q^{\perp} \cdot p) + (q^{\perp} \cdot (rq)) \\
&= q^{\perp} \cdot p
\end{align*}

Donde la última igualdad se da gracias a que $q^{\perp} \cdot (rq)=r(q^{\perp} \cdot q)=0$.

$\therefore$ Partiendo la expresión paramétrica de la recta está contenida en la expresión con producto punto y viceversa y por lo tanto son el mismo conjunto (la misma recta).

$\square$

Más adelante…

El producto interior fungirá como herramienta para establecer las nociones de distancia y ángulo en las siguientes entradas y particularmente para definir la forma normal de la recta en la siguiente entrada.

Tarea moral

Completa los pocos pasos que omitimos en cada demostración o ejemplo.
Demuestra el teorema de las propiedades del producto interior para $n=3$.
Calcula el producto interior de los siguientes vectores:
- $(4,-1)$ y $(7,2)$
- $(-2,3,0)$ y $(4,-6,0)$
- $(-2,3,0)$ y $(-2)(-2,3,0)$
- $(5,0,-3,0,0)$ y $(0,4,0,-2,1)$
Usando la definición del producto interior, demuestra que dado $ u \in \mathbb{R}^2$ se tiene que

$u \cdot x =0$, $\forall x\in \mathbb{R}^2$

si y sólo si $u=(0,0)$.

Demuestra que para todos los vectores $ u \text{, }v \in \mathbb{R}^2$ y $\forall t \in \mathbb{R}$, se cumple que
1. $(u+v)^{\perp}=u^{\perp}+v^{\perp}$
2. $(tu^{\perp})=t(u^{\perp})$
3. $u^{\perp} \cdot v^{\perp}=u \cdot v$
4. $u^{\perp} \cdot v = -(u \cdot v^{\perp})$

Álgebra Lineal II: Transformaciones ortogonales, isometrías y sus propiedades

Por Ayax Calderón

3 respuestas

Introducción

En entradas anteriores hemos estudiado algunas transformaciones lineales especiales con respecto a la transformación adjunta asociada. Estudiamos, por ejemplo, las transformaciones normales que son aquellas que conmutan con su adjunta. El siguiente paso es estudiar las transformaciones lineales entre espacios euclidianos que preservan las distancias. Estas transformaciones son muy importantes, pues son aquellas transformaciones que además de ser lineales, coinciden con nuestra intuición de movimiento rígido. Veremos que esta condición garantiza que la transformación en cuestión preserva el producto interior de un espacio a otro.

Isometrías y transformaciones ortogonales

Definición. Sean $V_1,V_2$ espacios euclidianos con productos interiores $\langle \cdot, \cdot \rangle_1$ y $\langle \cdot, \cdot \rangle_2$, y con correspondientes normas $||\cdot||_1$ y $||\cdot||_2$. Una isometría entre $V_1$ y $V_2$ es un isomorfismo $T:V_1\to V_2$ tal que para cualesquiera $x,y\in V_1$ se cumple que $$\langle T(x), T(y) \rangle_2 = \langle x,y\rangle_1.$$

Por lo tanto, una isometría es una transformación lineal biyectiva que preserva el producto interior. El siguiente problema nos da una mejor idea de esta preservación.

Problema. Sea $T:V_1\to V_2$ un isomorfismo de espacios vectoriales. Las siguientes dos condiciones son equivalentes.

$\langle T(x),T(y) \rangle_2 = \langle x,y \rangle_1 $ para cualesquiera $x,y\in V_1$.
$||T(x)||_2=||x||_1$ para cualquier $x\in V_1$.

Solución. $(1)\Rightarrow (2).$ Tomando $y=x$ se obtiene
$$||T(x)||_2^2=||x||_1^2$$ y por lo tanto $||T(x)||_2=||x||_1$, lo cual muestra el inciso 2.

$(2) \Rightarrow (1).$ Usando la identidad de polarización y la linealidad de $T$, podemos mostrar que
\begin{align*}
\langle T(x), T(y) \rangle_2 &=\frac{||T(x)+T(y)||_2^2-||T(x)||_2^2 – ||T(y)||_2^2}{2}\\
&= \frac{||T(x+y)||_2^2-||T(x)||_2^2 – ||T(y)||_2^2}{2}\\
&=\frac{||x+y||_2^2-||x||_2^2 – ||y||_2^2}{2}=\langle x,y \rangle_1,
\end{align*} lo cual muestra 1.

$\square$

Observación. Si $T$ es una transformación como la del problema anterior, entonces $T$ es automáticamente inyectiva: si $T(x)=0$, entonces $||T(x)||_2=0$, de donde $||x||_1=0$ y por lo tanto $x=0$. Recuerda que si $T$ es transformación lineal y $\text{ker}(T)=\{0\}$, entonces $T$ es inyectiva.

Definición. Sea $V$ un espacio euclidiano. Diremos que una transformación lineal $T:V\to V$ es ortogonal si $T$ es una isometría de $V$ en $V$. En otras palabras, $T$ es ortogonal si $T$ es biyectiva y para cualesquiera $x,y\in V$ se tiene que $$\langle T(x), T(y) \rangle = \langle x,y \rangle.$$

Nota que la biyectividad de $T$ es consecuencia de la relación anterior, gracias a la observación. Por lo tanto $T$ es ortogonal si y sólo si $T$ preserva el producto interior.

Similarmente, diremos que una matriz $A\in M_n(\mathbb{R})$ es ortogonal si
$$A^tA=I_n.$$

Estas nociones de ortogonalidad parecen algo distintas entre sí, pero la siguiente sección ayudará a entender la conexión que existe entre ellas.

Ejemplo. La matriz $\begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}$ es ortogonal, pues $$\begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix} \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}.$$

$\triangle$

Equivalencias de transformaciones ortogonales

Entendamos un poco más qué quiere decir que una matriz $A\in M_n(\mathbb{R})$ sea ortogonal. Supongamos que sus filas son $R_1,\dots,R_n$. Notemos que la entrada $(i,j)$ de la matriz $A^tA$ es precisamente el producto punto $\langle R_i, R_j \rangle$. De esta manera, pedir que $$A^tA=I_n$$ es equivalente a pedir que $$\langle R_i, R_j \rangle = \begin{cases} 1 &\text{si $i=j$}\\ 0 & \text{en otro caso.}\end{cases}.$$

Esto es exactamente lo mismo que pedir que los vectores $R_1,\ldots,R_n$ formen una base ortonormal de $\mathbb{R}^n$.

También, de la igualdad $A^tA=I_n$ obtenemos que $A$ y $^tA$ son inversas, de modo que también tenemos $^tAA=I_n$, de donde $^tA$ también es ortogonal. Así, las filas de $^tA$ también son una base ortonormal de $\mathbb{R}^n$, pero estas filas son precisamente las columnas de $A$. Por lo tanto, prácticamente hemos probado el siguiente teorema.

Teorema. Sea $A\in M_n(\mathbb{R})$ una matriz y considera a $\mathbb{R}^n$ con el producto interior canónico. Las siguientes afirmaciones son equivalentes:

$A$ es ortogonal.
Las filas de $A$ forman una base ortonormal de $\mathbb{R}^n$.
Las columnas de $A$ forman una base ortonormal de $\mathbb{R}^n$.
Para cualquier $x\in\mathbb{R}^n$ se tiene $$||Ax||=||x||.$$

Las afirmaciones restantes quedan como tarea moral. Tenemos un resultado muy similar para el caso de transformaciones lineales.

Teorema. Sea $V$ un espacio euclidiano y $T:V\to V$ una transformación lineal. Demuestra que las siguientes afirmaciones son equivalentes:

$T$ es ortogonal, es decir, $\langle T(x),T(y) \rangle = \langle x,y \rangle$ para cualesquiera $x,y\in V$.
$||T(x)||=||x||$ para cualquier $x\in V$.
$T^*\circ T=Id$.

Demostración.$(1) \Rightarrow (2).$ Haciendo la sustitución $x=y$.

$(2) \Rightarrow (3).$ Usando polarización (haz los detalles de tarea moral)

$(3) \Rightarrow (1).$ Pensemos que $2$ se satisface. Entonces

\begin{align*}
\langle T^*\circ T(x)-x,y \rangle&=\langle y, T^*(T(x)) \rangle-\langle x,y \rangle\\
&= \langle T(x),T(y) \rangle – \langle x,y \rangle=0
\end{align*}

para cualesquiera $x,y \in V$ y por lo tanto $T^*(T(x))=x$, lo que prueba $(4)$.

$(4) \Rightarrow (1).$ Si $(4)$ se satisface, entonces $T$ es biyectiva, con inversa $T^*$, por lo que bastará ver que se cumple $(3)$ (pues a su vez implica $(2)$. Notemos que para cualquier $x\in V$ tenemos: $$||T(x)||^2=\langle T(x),T(x) \rangle =\langle x,T^*(T(x)) \rangle=\langle x,x \rangle=||x||^2.$$ Se concluye el resultado deseado.

$\square$

Las transformaciones ortogonales forman un grupo

Las propiedades anteriores nos hablan de una transformación ortogonal. Sin embargo, al tomar un espacio vectorial $V$ y considerar todas las posibles transformaciones ortogonales, tenemos una estructura algebraica bonita: un grupo. Este es el contenido del siguiente teorema.

Teorema. Sea $V$ un espacio euclideano y $O(V)$ el conjunto de transformaciones ortogonales de $V$. Se tiene que $O(V)$ es un grupo bajo composición. En otras palabras, la composición de dos transformaciones ortogonales es una transformación ortogonal y la inversa de una transformación ortogonal es una transformación ortogonal.

Demostración. Veamos la cerradura por composición. Sean $T_1,T_2$ transformaciones lineales ortogonales de $V$. Entonces $T_1\circ T_2$ es lineal y además
$$||(T_1\circ T_2)(x)||=||T_1(T_2(x))||=||T_2(x)||=||x||$$
para todo $x\in V$. Por lo tanto $T_1\circ T_2$ es una transformación lineal ortogonal.

Análogamente tenemos que si $T$ es ortogonal, entonces
$$||x||=||T(T^{-1}(x))||=||T^{-1}(x)||$$
para todo $x\in V$, lo que muestra que $T^{-1}$ es ortogonal.

$\square$

Definición. A $O(V)$ se le conoce como el grupo ortogonal de $V$.

Más adelante…

En esta entrada definimos y estudiamos las transformaciones ortogonales. También hablamos de las matrices ortogonales. Dimos algunas caracterizaciones para este tipo de transformaciones. Vimos que las transformaciones ortogonales de un espacio vectorial forman un grupo $O(V)$.

Las transformaciones que fijan el producto interior también fijan la norma y las distancias, de modo que geométricamente son muy importantes. En cierto sentido, entender quiénes son las transformaciones ortogonales de un espacio vectorial nos ayuda a entender «de qué maneras podemos cambiarlo linealmente, pero sin cambiar su métrica». En las siguientes entradas entenderemos con más profundidad al grupo $O(\mathbb{R}^n)$, el cual nos dará un excelente ejemplo de este fenómeno.

Tarea moral

Verifica que la matriz
$$A=\begin{pmatrix}
\frac{3}{5} & \frac{4}{5}\\
-\frac{4}{5} & \frac{3}{5}
\end{pmatrix}$$ es ortogonal.
Sea $\beta$ una base ortnormal de un espacio euclidiano $V$ y sea $\beta’$ otra base de $V$. Sea $P$ la matriz de cambio de base de $\beta$ a $\beta’$. Demuestra que $\beta’$ es ortonormal si y sólo si $P$ es ortogonal.
Termina las demostraciones de las caracterizaciones de matrices ortogonales y de transformaciones ortogonales.
Demuestra que el producto de matrices ortogonales es también una matriz ortogonal.
Encuentra todas las posibles transformaciones ortogonales de $\mathbb{R}$.

Entradas relacionadas

Ir a Álgebra Lineal II
Entrada anterior del curso: Transformaciones normales, simétricas y antisimétricas
Siguiente entrada del curso: El teorema de clasificación de transformaciones ortogonales

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Lineal II: Adjunta de una transformación lineal

Por Ayax Calderón

5 respuestas

Introducción

En esta tercera unidad estudiaremos algunos aspectos geométricos de transformaciones lineales. Para ello, lo primero que haremos será introducir la noción de la adjunta de una transformación lineal. Esto nos permitirá más adelante poder hablar de varias transformaciones especiales: normales, simétricas, antisimétricas, ortogonales. De entrada, las definiciones para cada uno de estos conceptos parecerán simplemente un juego algebraico. Sin embargo, poco a poco descubriremos que pidiendo a las transformaciones lineales cierta propiedad con respecto a su adjunta, podemos recuperar muchas propiedades geométricas bonitas que satisfacen.

Un ejemplo de esto serán las transformaciones ortogonales. Estas serán las transformaciones que, a grandes rasgos, no cambian la norma. Daremos un teorema de clasificación para este tipo de transformaciones: veremos que sólo son reflexiones o rotaciones en ciertos ejes. Después estudiaremos las transformaciones simétricas y veremos un resultado fantástico: el teorema espectral. Este teorema nos garantizará que toda transformación simétrica en $\mathbb{R}$ puede ser diagonalizada, y de hecho a través de una transformación ortogonal.

El párrafo anterior nos dice que las transformaciones ortogonales y las simétricas serán «fáciles de entender» en algún sentido. Esto parece limitado a unas familias muy particulares de transformaciones. Sin embargo, cerraremos la unidad con un teorema muy importante: el teorema de descomposición polar. Gracias a él lograremos entender lo que hace cualquier transformación lineal. Tenemos un camino muy interesante por recorrer. Comencemos entonces con la idea de la adjunta de una transformación lineal.

La adjunta de una transformación lineal

Sea $V$ un espacio euclidiano y producto interior $\langle \cdot, \cdot \rangle$. Tomemos una transformación lineal $T:V \to V$. Para cada $y\in V$, la transformación $x\mapsto \langle T(x),y\rangle$ es una forma lineal. Del teorema de representación de Riesz se sigue que existe un único vector $T^*(y)\in V$ tal que
$$\langle T(x),y\rangle=\langle T^*(y),x\rangle =\langle x, T^*(y)\rangle \hspace{2mm} \forall x\in V.$$

Esta asignación de este vector $T^\ast$ es lineal, ya que al vector $ry_1+y_2$ para $r$ escalar y $y_1,y_2$ en $V$ se le asigna la forma lineal $x\mapsto \langle T(x),ry_1+y_2\rangle=r\langle(T(x),y_1\rangle + \langle (T(x),y_2)$, que se puede verificar que le corresponde en la representación de Riesz el vector $rT^\ast(y_1)+T^\ast(y_2)$.

De esta manera, podemos correctamente enunciar la siguiente definición.

Definición. Sea $V$ un espacio euclidiano y producto interior $\langle \cdot, \cdot \rangle$. Sea $T:V\to V$ una transformación lineal. Definimos a la adjunta de $T$, como la única transformación lineal $T^\ast:V\to V$ que cumple la siguiente condición para todos $x,y$ en $V$:

$$\langle T(x),y\rangle =\langle x, T^*(y)\rangle$$

Notemos que para cualesquiera $x,y\in V$ tenemos que
$$\langle y,T(x)\rangle=\langle T(x),y\rangle=\langle x,T^* (y)\rangle=\langle T^*(y),x\rangle =\langle y, (T^*)^*(x)\rangle.$$

Restando el último término del primero, se sigue que $T(x)-(T^*)^*(x)=0$, de manera que $$(T^*)^*=T,$$ por lo cual simplemente escribiremos $$T^{**}=T.$$

Por lo tanto, la asignación $T\mapsto T^*$ es una transformación auto-inversa sobre $V$.

La matriz de la transformación adjunta

Tenemos que $T^{**}=T$. Esto debería recordarnos a la transposición de matrices. En efecto, en cierto sentido podemos pensar a la transformación $T^\ast$ algo así como la transpuesta de la transformación (por lo menos en el caso real, para espacios sobre $\mathbb{C}$ será algo ligeramente distinto).

La siguiente proposición nos ayudará a reforzar esta intuición.

Proposición. Sea $V$ un espacio euclidiano y producto interior $\langle \cdot, \cdot \rangle$ y $T:V\to V$ una transformación lineal. Sea $\mathcal{B}=(e_1,\dots, e_n)$ una base otronormal de $V$. Se tiene que $$\text{Mat}_{\mathcal{B}}(T^\ast)={}^t\text{Mat}_{\mathcal{B}}(T).$$

En palabras, bajo una base ortonormal, la adjunta de una transformación tiene como matriz a la transpuesta de la transformación original.

Solución. Sea $A=\text{Mat}_{\mathcal{B}}(T)$ y $B=[B_{ij}]$ la matriz asociada a $T^*$ con respecto a $\mathcal{B}$. Para cada $i\in\{1,\ldots,n\}$ se tiene
$$T^*(e_i)=\displaystyle\sum_{k=1}^n b_{ki}e_k.$$

En vista de que $$T(e_i)=\displaystyle\sum _{k=1}^n a_{ki}e_k$$ y de que la base $\mathcal{B}$ es ortonormal, se tiene que $$\langle T(e_i),e_j\rangle=\displaystyle\sum_{k=1}^n a_{ki}\langle e_k,e_j\rangle=a_{ji}$$ y
$$\langle e_i,T^*(e_j)\rangle=\displaystyle\sum_{k=1}^n b_{kj}\langle e_i,e_k \rangle = b_{ij}.$$

Como, por definición de transformación adjunta, se tiene que
$$\langle T(e_i),e_j\rangle =\langle e_i, T^*(e_j)\rangle,$$ entonces $b_{ij}=a_{ji}$ para cada $i,j$ en $\{1,\ldots, n\}$, que precisamente significa que $B= {}^tA$.

$\square$

Ejemplos de encontrar una adjunción

La proposición de la sección anterior nos da una manera práctica de encontrar la adjunción para transformaciones lineales.

Ejemplo. Encontraremos la transformación adjunta a la transformación lineal $T:\mathbb{R}^2\to \mathbb{R}^2$ dada por $T((x,y))=(y-x,y+2x)$. Por la proposición de la sección anterior, basta expresar a $T$ en una base ortonormal y transponer. Usemos la base canónica de $\mathbb{R}^2$. En esta base, la matriz que representa a $T$ es $\begin{pmatrix} -1 & 1 \\ 2 & 1 \end{pmatrix}$. Por ello, la matriz que representa a $T^\ast$ es la transpuesta, es decir $\begin{pmatrix} -1 & 2 \\ 1 & 1 \end{pmatrix}$. De este modo, concluimos que $T^\ast((x,y)) = (-x+2y,x+y)$.

Podemos verificar que en efecto esta transformación satisface la definición de adjunción. Por un lado,

$$\langle T((a,b)), (c,d) \rangle = (b-a,b+2a)\cdot (c,d)= bc-ac+bd+2ad,$$

y por otro

$$ \langle (a,b), T((c,d)) \rangle = (a,b) \cdot (-c+2d,c+d) = -ac +2ad + bc +bd.$$

Ambas expresiones en efecto son iguales.

$\triangle$

Problema. Demuestra que una transformación lineal $T$ en un espacio euclideano de dimensión finita y la adjunta $T^\ast$ de $T$ tienen el mismo determinante.

Solución. El determinante de una transformación es igual al determinante de cualquiera de las matrices que la represente. Así, si $A$ es la forma matricial de $T$ bajo una base ortonormal, se tiene que $\det(A)=\det(T)$. Por la proposición de la sección anterior, $^tA$ es la forma matricial de $T^\ast$ en esa misma base, de modo que $\det({}^tA)=\det(T^\ast)$. Pero una matriz y su transpuesta tienen el mismo determinante, de modo que $$\det(T^\ast)=\det({}^tA)=\det(A)=\det(T).$$

$\square$

Más adelante…

La noción de transformación adjunta es nuestra primera noción fundamental para poder definir más adelante transformaciones que cumplen propiedades geométricas especiales. Con ella, en la siguiente entrada hablaremos de transformaciones simétricas, antisimétricas y normales.

Toma en cuenta que las definiciones que hemos dado hasta ahora son para espacios euclideanos, es decir, para el caso real. Cuando hablamos de espacios hermitianos, es decir, del caso complejo, los resultados cambian un poco. La transformación adjunta se define igual. Pero, por ejemplo, si la matriz que representa a una transformación es $A$, entonces la que representará a su adjunta no será la transpuesta, sino más bien la transpuesta conjugada.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más a profundidad la teoría vista.

Encuentra la transformación adjunta para las siguientes tranformaciones lineales:
- $T:\mathbb{R}^2\to \mathbb{R}^2 $ dada por $T(x,y)=(2y-x,2x+y)$.
- $T:\mathbb{R}^3\to \mathbb{R}^3$ dada por $T(x,y,z)=(x+y+z,y+z,z)$.
- $T:\mathbb{R}^n \to \mathbb{R}^n$ tal que para la base canónica $e_1,\ldots,e_n$ cumple que $T(e_i)=e_{i+1}$ para $i=1,\ldots,n-1$ y $T(e_n)=0$.
Considera el espacio vectorial $M_n(\mathbb{R})$. En este espacio, la operación transponer es una transformación lineal. ¿Cuál es su transformación adjunta?
Completa los detalles de que $T^\ast$ es en efecto una transformación lineal.
Demuestra que si $T$ es una transformación lineal sobre un espacio euclidiano y $\lambda$ es un eigenvalor de $T$, entonces $\lambda$ también es un eigenvalor de $T^\ast$. De manera más general, demuestra que $T$ y $T^\ast$ tienen el mismo polinomio característico.
Sea $V$ un espacio euclidiano y $T:V\to V$. ¿Es cierto que para todo polinomio $p$ se cumple que $p(T)^\ast=p(T^\ast)$?

Entradas relacionadas

Ir a Álgebra Lineal II
Entrada anterior del curso: Proceso de Gram-Schmidt en espacios euclideanos
Siguiente entrada del curso: Transformaciones lineales normales, simétricas y antisimétricas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Seminario de Resolución de Problemas: El teorema espectral y matrices positivas

Por Leonardo Ignacio Martínez Sandoval

Deja un comentario

Introducción

En esta entrada hablaremos de matrices simétricas y de matrices positivas. Nos enfocaremos en el caso en el que sus entradas sean números reales. Ambos tipos de matrices son fundamentales en la teoría de álgebra lineal. Tanto para las matrices simétricas como para las positivas hay resultados de caracterización que podemos utilizar en varios problemas matemáticos.

El teorema espectral para matrices simétricas reales

Si $A$ es una matriz de $m\times n$, su transpuesta $^tA$ es la matriz de $n\times m$ que se obtiene de reflejar a las entradas de $A$ en su diagonal principal. Otra forma de decirlo es que si en términos de entradas tenemos $A=[a_{ij}]$, entonces $^tA=[a_{ji}]$. Una matriz y su transpuesta comparten muchas propiedades, como su determinante, su polinomio característico, su rango, sus eigenvalores, etc.

Decimos que una matriz es simétrica si es igual a su transpuesta. Una matriz es ortogonal si es invertible y $^tA = A^{-1}$. Las matrices simétricas y ortogonales con entradas reales son muy importantes y cumplen propiedades bonitas.

Teorema (teorema espectral). Si $A$ es una matriz de $n\times n$ con entradas reales y simétrica, entonces:

Sus eigenvalores $\lambda_1,\ldots,\lambda_n$ (contando multiplicidades), son todos reales.
Existe una matriz ortogonal $P$ de $n\times n$ y con entradas reales tal que si tomamos a $D$ la matriz diagonal de $n\times n$ cuyas entradas en la diagonal principal son $\lambda_1,\ldots,\lambda_n$, entonces $$A=P^{-1}DP.$$

No todas las matrices se pueden diagonalizar. Cuando una matriz sí se puede diagonalizar, entonces algunas operaciones se hacen más sencillas. Por ejemplo si $A=P^{-1}DP$ como en el teorema anterior, entonces
\begin{align*}
A^2&=(P^{-1}DP)(P^{-1}DP)\\
&=P^{-1}DDP\\
&=P^{-1}D^2P,
\end{align*}

y de manera inductiva se puede probar que $A^k=P^{-1}D^kP$. Elevar la matriz $D$ a la $k$-ésima potencia es sencillo, pues como es una matriz diagonal, su $k$-ésima potencia consiste simplemente en elevar cada una de las entradas en su diagonal a la $k$.

Problema. Sea $A$ una matriz de $n\times n$ simétrica y de entradas reales. Muestra que si $A^k = O_n$ para algún entero positivo $k$, entonces $A=O_n$.

Sugerencia pre-solución. La discusión anterior te permite enunciar la hipótesis en términos de los eigenvalores de $A$. Modifica el problema a demostrar que todos ellos son cero.

Solución. Como $A$ es simétrica y de entradas reales, entonces sus eigenvalores $\lambda_1,\ldots, \lambda_n$ son reales y es diagonalizable. Digamos que su diagonalización es $P^{-1} D P$. Tenemos que $$O_n = A^k = P^{-1} D^k P.$$ Multiplicando por la matriz $P$ a la izquierda, y la matriz $P^{-1}$ a la derecha, tenemos que $D^k=O_n$. Las entradas de $D^k$ son $\lambda_1^k,\ldots,\lambda_n^k$, y la igualdad anterior muestra que todos estos números son iguales a cero. De este modo, $$\lambda_1=\ldots=\lambda_n=0.$$

Concluimos que $D=O_n$, y que por lo tanto $A=P^{-1} O_n P = O_n$.

$\square$

Veamos ahora un bello problema que motiva una fórmula para los números de Fibonacci desde la teoría del álgebra lineal.

Problema. Toma la matriz $$A=\begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix}.$$ Calcula las primeras potencias de $A$ a mano. Conjetura y muestra cómo es $A^n$ en términos de la sucesión de Fibonacci. A partir de esto, encuentra una fórmula para el $n$-ésimo término de la sucesión de Fibonacci.

Sugerencia pre-solución. Para empezar, haz las primeras potencias y busca un patrón. Luego, para la demostración de esa parte, procede por inducción. Hay varias formas de escribir a la sucesión de Fibonacci, usa una notación que sea cómoda.

Solución. Al calcular las primeras potencias de la matriz $A$ obtenemos:

\begin{align*}
A&=\begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix},\\
A^2&=\begin{pmatrix} 1 & 1 \\ 1 & 2 \end{pmatrix},\\
A^3&=\begin{pmatrix} 1 & 2 \\ 2& 3 \end{pmatrix},\\
A^4&=\begin{pmatrix} 2 & 3 \\ 3 & 5 \end{pmatrix},\\
A^5&=\begin{pmatrix} 3 & 5 \\ 5 & 8 \end{pmatrix}.
\end{align*}

Al parecer, en las entradas de $A$ van apareciendo los números de Fibonacci. Seamos más concretos. Definimos $F_0=0$, $F_1=1$ y para $n\geq 0$ definimos $$F_{n+2}=F_{n}+F_{n+1}.$$ La conjetura es que para todo entero $n\geq 1$, se tiene que $$A^n=\begin{pmatrix} F_{n-1} & F_n \\ F_n & F_{n+1}\end{pmatrix}.$$

Esto se puede probar por inducción. Arriba ya hicimos el caso $n=1$. Supongamos la conjetura cierta hasta un entero $n$ dado, y consideremos la matriz $A^{n+1}$. Tenemos haciendo el producto de matrices, usando la hipótesis inductiva y la recursión de Fibonacci, que

\begin{align*}
A^{n+1}&=AA^n\\
& =\begin{pmatrix} 0 & 1 \\ 1 & 1 \end{pmatrix} \begin{pmatrix} F_{n-1} & F_n \\ F_n & F_{n+1} \end{pmatrix}\\
&= \begin{pmatrix} F_n & F_{n+1} \\ F_{n-1} + F_n & F_n + F_{n+1} \end{pmatrix}\\
&=\begin{pmatrix} F_n & F_{n+1} \\ F_{n+1} & F_{n+2} \end{pmatrix}.
\end{align*}

Esto termina el argumento inductivo y prueba la conjetura.

Para encontrar una fórmula para los Fibonaccis, lo que haremos ahora es usar el teorema espectral. Esto lo podemos hacer pues la matriz $A$ es de entradas reales y simétrica. Para encontrar la matriz diagonal de la factorización, necesitamos a los eigenvalores de $A$. Su polinomio característico es $$\begin{vmatrix} \lambda & -1 \\ – 1 & \lambda -1 \end{vmatrix}=\lambda^2-\lambda -1.$$

Usando la fórmula cuadrática, las raíces de este polinomio (y por tanto, los eigenvalores de $A$) son $$\frac{1\pm \sqrt{5}}{2}.$$ Por el momento, para simplificar la notación, llamemos $\alpha$ a la de signo más y $\beta$ a la raíz de signo menos. Por el teorema espectral, existe una matriz invertible $P$ de $2\times 2$ tal que $$A=P^{-1}\begin{pmatrix} \alpha & 0 \\ 0 & \beta \end{pmatrix} P.$$

De esta forma, $$A^n = P^{-1}\begin{pmatrix} \alpha^n & 0 \\ 0 & \beta^n \end{pmatrix} P.$$

Aquí no es tan importante determinar concretamente $P$ ni realizar las cuentas, sino darnos cuenta de que tras realizarlas cada entrada será una combinación lineal de $\alpha^n$ y $\beta^n$ y de que los coeficientes de esta combinación lineal ya no dependen de $n$, sino sólo de las entradas de $P$. En particular, la entrada superior derecha de $A^n$ por un lado es $F_n$, y por otro lado es $r\alpha^n + s\beta ^n$.

¿Cómo obtenemos los valores de $\alpha$ y $\beta$? Basta substituir $n=1$ y $n=2$ para obtener un sistema de ecuaciones en $\alpha$ y $\beta$. Aquí abajo usamos que como $\alpha$ y $\beta$ son raíces de $x^2-x-1$, entonces $\alpha^2=\alpha+1$, $\beta^2=\beta+1$ y $\alpha+\beta = 1$.

$$\begin{cases}
1= F_1 = r \alpha + s \beta \\
1= F_2 = r \alpha^2 + s \beta^2 = r + s + 1.
\end{cases}$$

De aquí, obtenemos la solución
\begin{align*}
r&=\frac{1}{\alpha-\beta} = \frac{1}{\sqrt{5}}\\
s&=-r = -\frac{1}{\sqrt{5}}.
\end{align*}

Finalmente, todo este trabajo se resume a que una fórmula para los números de Fibonacci es $$F_n=\frac{\left(\frac{1+\sqrt{5}}{2}\right)^n – \left(\frac{1-\sqrt{5}}{2}\right)^n}{\sqrt{5}}.$$

$\square$

Matrices positivas y positivas definidas

Por definición, una matriz simétrica $A$ de $n\times n$ con entradas reales es positiva si para cualquier vector (columna) $v$ en $\mathbb{R}^n$ se tiene que $$^t v A v \geq 0.$$ Aquí $^tv$ es la transposición de $v$, es decir, el mismo vector, pero como vector fila.

Si además la igualdad se da sólo para el vector $v=0$, entonces decimos que $A$ es positiva definida. Un ejemplo sencillo de matriz positiva es la matriz $A=\begin{pmatrix} 1 & -1 \\ -1 & 1\end{pmatrix},$ pues para cualquier vector $v=(x,y)$ se tiene que $$^t v A v = x^2-2xy+y^2=(x-y)^2\geq 0.$$ Sin embargo, esta matriz no es positiva definida pues la expresión anterior se anula en vectores no cero como $(1,1)$. Como puedes verificar, un ejemplo de matriz positiva definida es $$B=\begin{pmatrix} 3 & 0 \\ 0 & 4 \end{pmatrix}.$$

Las matrices reales que son positivas definidas son importantes pues caracterizan todos los productos interiores en $\mathbb{R}^n$. Una vez que se tiene un producto interior en un espacio vectorial de dimensión finita, se pueden aprovechar muchas de sus propiedades o consecuencias, por ejemplo, la desigualdad de Cauchy-Schwarz o la existencia de bases ortogonales para hacer descomposiciones de Fourier.

Para cuando se quieren resolver problemas, es muy útil conocer varias equivalencias de que una matriz sea positiva.

Equivalencias para matrices positivas

El siguiente resultado enuncia algunas de las equivalencias para que una matriz sea positiva

Teorema. Sea $A$ una matriz simétrica. Entonces todas las siguientes afirmaciones son equivalentes:

$A$ es positiva.
Todos los eigenvalores de $A$ son no negativos.
$A=B^2$ para alguna matriz simétrica $B$ en $M_n(\mathbb{R})$.
$A= {^tC} C$ para alguna matriz $C$ en $M_n(\mathbb{R})$.

Hay un resultado análogo para cuando se quiere determinar si una matriz $A$ es positiva definida. En ese caso, los eigenvalores tienen que ser todos positivos. Para los puntos $3$ y $4$ se necesita además que $B$ y $C$ sean invertibles.

Problema. Sea $A$ una matriz de $n\times n$ con entradas reales, simétrica y positiva. Muestra que si $$\text{tr}(A) = n \sqrt[n]{\det(A)},$$ entonces $A$ conmuta con cualquier matriz de $n\times n$.

Sugerencia pre-solución. Necesitarás usar que matrices similares tienen la misma traza y el mismo determinante, o una versión particular para este problema.

Solución. Las siguientes son propiedades de la traza y el determinante:

El determinante de una matriz diagonal es el producto de las entradas en su diagonal.
Si tenemos dos matrices similares, entonces tienen la misma traza.

En particular, las hipótesis implican, por el teorema espectral, que $A$ se puede diagonalizar con matrices $A=P^{-1} D P$, donde $D$ es la matriz diagonal que tiene en su diagonal principal a los eigenvalores $\lambda_1,\ldots,\lambda_n$ de $A$, y $P^{-1}$ es una matriz invertible. Como $A$ y $D$ son similares, se tiene que
\begin{align*}
\text{tr}(A)=\text{tr}(D)=\lambda_1+\ldots+\lambda_n\\
\det(A)=\det(D)=\lambda_1\cdot\ldots\cdot\lambda_n.
\end{align*}

Como $A$ es positiva, entonces todos sus eigenvalores son no negativos, así que satisfacen la desigualdad MA-MG:

$$\frac{\lambda_1+\ldots+\lambda_n}{n} \geq \sqrt[n]{\lambda_1\cdot\ldots\cdot\lambda_n}.$$

Por la última hipótesis del problema, esta desigualdad es de hecho una igualdad. Pero la igualdad en MA-MG se alcanza si y sólo si todos los números son iguales entre sí. Tenemos entonces que todos los eigenvalores son iguales a un cierto valor $\lambda$, y entonces $D=\lambda I_n$. Como cualquier múltiplo escalar de la matriz identidad conmuta con cualquier matriz de $n\times n$, tendríamos entonces que

\begin{align*}
A&=P^{-1}D P \\
&=P^{-1}(\lambda I_n) P\\
&=(\lambda I_n) (P^{-1}P)\\
&=\lambda I_n.
\end{align*}

Con esto probamos que $A$ es de hecho un múltiplo de la matriz identidad, y por lo tanto conmuta con cualquier matriz de $n\times n$.

$\square$

Más problemas

Puedes encontrar más problemas del teorema espectral, de formas y matrices positivas en la Sección 10.2 y la Sección 10.8 del libro Essential Linear Algebra de Titu Andreescu.

Seminario de Resolución de Problemas: Desigualdad de Cauchy-Schwarz

Por Leonardo Ignacio Martínez Sandoval

5 respuestas

Introducción

Seguimos con las entradas de temas de desigualdades. Con anterioridad ya hablamos de desigualdades básicas y de desigualdades con medias. En esta ocasión estudiaremos una desigualdad muy versátil: la desigualdad de Cauchy-Schwarz.

En su versión más simple, lo que dice la desigualdad de Cauchy-Schwarz es lo siguiente.

Desigualdad (de Cauchy-Schwarz). Para cualesquiera números reales $a_1,\ldots,a_n$ y $b_1,\ldots,b_n$ se tiene que $$|a_1b_1+\ldots+a_nb_n| \leq \sqrt{a_1^2+\ldots+a_n^2} \sqrt{b_1^2+\ldots+b_n^2}.$$

Primero, veremos cómo se demuestra esta desigualdad. Luego, veremos varios problemas en los que se puede aplicar. Finalmente, hablaremos un poco de sus extensiones a espacios vectoriales.

La demostración polinomial de la desigualdad de Cauchy-Schwarz

Una forma de demostrar la desigualdad de Cauchy-Schwarz es usando inducción sobre $n$. Hay otra demostración usando polinomios. Veamos esa demostración, pues tiene la idea útil de usar argumentos polinomiales para demostrar igualdades.

Consideremos la expresión $$p(t)=\sum_{i=1}^n (a_i+b_i t)^2.$$ Como es una suma de cuadrados, esta expresión es no negativa. Haciendo los cuadrados, y desarrollando la suma, podemos escribirla de la siguiente forma, que nos dice que es un polinomio cuadrático en $t$:

\begin{align*}
\sum_{i=1}^n (a_i+b_i t)^2&=\sum_{i=1}^n \left(a_i^2 + 2a_ib_i t + b_i^2 t^2\right)\\
&=\sum_{i=1}^n a_i^2 + \left(2\sum_{i=1}^n a_ib_i \right)t + \left(\sum_{i=1}^n b_i^2\right)t^2.
\end{align*}

De esta forma $p(t)$ es un polinomio cuadrático y siempre toma valores no negativos. Así, a lo más puede tener una raíz $t$, por lo que su discriminante es menor o igual a $0$:

$$ \left(2\sum_{i=1}^n a_ib_i \right)^2-4\left(\sum_{i=1}^n a_i^2\right)\left(\sum_{i=1}^n b_i^2\right)\leq 0$$

Al pasar el segundo término sumando al otro lado y dividir entre $4$ queda

$$\left(\sum_{i=1}^n a_ib_i \right)^2\leq \left(\sum_{i=1}^n a_i^2\right)\left(\sum_{i=1}^n b_i^2\right).$$

Al sacar raíz cuadrada de ambos lados hay que tener cuidado de poner un valor absoluto al lado izquierdo. Al hacer esto, se obtiene el resultado deseado: $$\left|\sum_{i=1}^n a_ib_i \right|\leq \sqrt{\sum_{i=1}^n a_i^2}\cdot \sqrt{\sum_{i=1}^n b_i^2}.$$

Observa que la igualdad se da si y sólo si el discriminante es $0$, lo cual sucede si y sólo si el polinomio tiene una raíz $t$. Cuando esto pasa, cada uno de los sumandos al cuadrado de $p(t)$ debe ser $0$. Así, existe un real $t$ tal que $a_i=-tb_i$ para todo $i=1,\ldots,n$. Esto lo podemos decir en términos vectoriales como que «la igualdad se da si y sólo si el vector $(a_1,\ldots,a_n)$ es un múltiplo escalar del vector $(b_1,\ldots,b_n)$ » .

Un problema sobre acotar el valor de una variable

Problema. Sean $a,b,c,d$ números reales tales que
\begin{align*}
a+b+c+d&=6\\
a^2+b^2+c^2+d^2&=12.
\end{align*}
¿Cuál es el máximo valor que puede tener $d$?

Sugerencia. Aplica la desigualdad de Cauchy-Schwarz a las ternas $(a,b,c)$ y $(1,1,1)$.

Solución. Aplicando la desigualdad a las ternas $(a,b,c)$ y $(1,1,1)$ obtenemos que $$|a+b+c|\leq \sqrt{a^2+b^2+c^2}\cdot{\sqrt{3}}.$$ Usando las hipótesis sobre $a,b,c,d$, tenemos que esta desigualdad es equivalente a $|6-d|\leq \sqrt{3}\cdot {\sqrt{12-d^2}$. Elevando al cuadrado de ambos lados, obtenemos las desigualdades equivalentes
\begin{align*}
36-12d+d^2&\leq 3(12-d^2)\\
36-12d+d^2&\leq 36-3d^2\\
4d^2-12d&\leq 0\\
4d(d-3)&\leq 0.
\end{align*}

Para que se satisfaga esta desigualdad, tiene que pasar o bien que simultáneamente $d\leq 0$ y $d\geq 3$ (lo cual es imposible), o bien que simultáneamente $d\geq 0$ y $d\leq 3$. En conclusión, esto acota el máximo valor posible de $d$ con $3$.

En efecto, existe una solución con $d=3$. De acuerdo al caso de igualdad de la desigualdad de Cauchy-Schwarz, debe pasar cuando $(a,b,c)$ es un múltiplo escalar de $(1,1,1)$, es decir, cuando $a=b=c$. Como $a+b+c+d=6$ y queremos $d=3$, esto forza a que $a=b=c=1$. Y en efecto, tenemos que con esta elección $$a^2+b^2+c^2+d^2=1+1+1+9=12.$$

$\square$

Aplicando Cauchy-Schwarz en un problema con el circunradio

A veces podemos aprovechar información implícita en un problema geométrico y combinarla con la desigualdad de Cauchy-Schwarz. Veamos un problema en el que sucede esto.

Problema. Sea $P$ un punto en el interior del triángulo $ABC$ y $p,q,r$ las distancias de $P$ a los lados $BC, CA, AB$ respectivamente, que tienen longitudes $a,b,c$, respectivamente. Sea $R$ el circunradio de $ABC$. Muestra que $$\sqrt{p}+\sqrt{q}+\sqrt{r} \leq \sqrt{\frac{a^2+b^2+c^2}{2R}}.$$

Sugerencia pre-solución. Necesitarás aplicar la desigualdad de Cauchy-Schwarz más de una vez. Haz una figura para entender la expresión $ap+bq+cr$. Necesitarás también la fórmula que dice que se puede calcular el área $T$ de un triángulo mediante la fórmula $$T=\frac{abc}{R}.$$

Solución. Lo primero que haremos es aplicar la desigualdad de Cauchy-Schwarz en las ternas $(\sqrt{ap},\sqrt{bq},\sqrt{cr})$ y $(1/\sqrt{a},1/\sqrt{b},1/\sqrt{c})$ para obtener $$\sqrt{p}+\sqrt{q}+\sqrt{r}\leq \sqrt{ap+bq+cr}\cdot\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}}.$$

Observa que $ap$ es dos veces el área de $\triangle BCP$. De manera similar, tenemos que $bq$ y $cr$ son las áreas de $\triangle CAP$ y $\triangle ABP$ respectivamente. Así, si llamamos $T$ al área de $\triangle ABC$ tenemos que $ap+bq+cr=2T$. Otra expresión para el área de $\triangle ABC$ en términos de su circunradio $R$ es $$T=\frac{abc}{4R}.$$ En otras palabras, $ap+bq+cr=\frac{abc}{2R}$.

Esto nos permite continuar con la desigualdad como sigue:
\begin{align*}
\sqrt{p}+\sqrt{q}+\sqrt{r} &\leq \sqrt{\frac{abc}{2R}}\cdot\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}}\\
&=\sqrt{\frac{abc}{2R}}\cdot\sqrt{\frac{ab+bc+ca}{abc}}\\
&=\sqrt{\frac{ab+bc+ca}{2R}}.
\end{align*}

Esto es casi la desigualdad que queremos. Para terminar, basta mostrar que $$ab+bc+ca\leq a^2+b^2+c^2.$$ Esto se puede hacer de varias formas (intenta hacerlo usando la desigualdad MA-MG). Pero para continuar viendo la versatilidad de la desigualdad de Cauchy-Schwarz, observa que se puede deducir de ella aplicándola a las ternas $(a,b,c)$ y $(b,c,a)$.

$\square$

En el problema anterior, ¿para qué puntos $P$ se alcanza la igualdad?

Cauchy-Schwarz más allá de los números reales

Lo que está detrás de la desiguadad de Cauchy-Schwarz es en realidad la noción de producto interior en álgebra lineal. En cualquier espacio vectorial sobre los reales que tenga un producto interior $\langle \cdot, \cdot \rangle$ se satisface una desigualdad del tipo de la de Cauchy-Schwarz. No entraremos en los detalles de la teoría que se necesita desarrollar, pues eso se estudia en un curso de álgebra lineal. Sin embargo, enunciaremos el teorema y veremos una forma de aplicarlo.

Teorema (desigualdad de Cauchy-Schwarz). Si $V$ es un espacio vectorial con producto interior $\langle \cdot, \cdot \rangle$ entonces para cualesquiera dos vectores $u$ y $v$ se satisface que $$|\langle u , v\rangle|\leq \sqrt{\langle u , u\rangle}\cdot \sqrt{\langle v , v\rangle}.$$

Se puede mostrar que bajo las hipótesis del teorema la función $\norm{u}:=\langle u , u\rangle$ es una norma. Como platicamos con anterioridad, una norma satisface la desigualdad del triángulo, que en espacios vectoriales tiene un nombre especial.

Teorema (desigualdad de Minkowski). Si $V$ es un espacio vectorial con producto interior $\langle \cdot, \cdot \rangle$ y $\norm{u}:=\langle u , u\rangle$, entonces para cualesquiera dos vectores $u$ y $v$ se satisface que $$\norm{u}+\norm{v}\geq \norm{u+v}.$$

Es relativamente sencillo ver que las desigualdades de Cauchy-Schwarz y de Minkowski son «equivalentes», en el sentido de que se puede mostrar una fácilmente suponiendo la otra y viceversa.

La desigualdad de Cauchy-Schwarz que usamos en las secciones anteriores es para el producto interior en $\mathbb{R}^n$ dado por $$\langle (a_1,\ldots,a_n),(b_1,\ldots,b_n) \rangle = a_1b_1+\ldots + a_nb_n,$$ al cual le llamamos el producto punto.

Si tenemos a $V$ el espacio vectorial de las funciones continuas reales en el intervalo $[0,1]$, entonces $$\langle f,g\rangle = \int_0^1 f(x)g(x) \, dx$$ es un producto interior para $V$. Esto nos puede ayudar a resolver algunos problemas.

Problema. Sea $f:[0,1]\to \mathbb{R}^+$ una función continua. Muestra que $$\left ( \int_0^1 f(x)\, dx \right) \left (\int_0^1 \frac{1}{f(x)}\, dt \right) \geq 1.$$

Sugerencia pre-solución. Aplica la desigualdad de Cauchy-Schwarz con el producto interior que discutimos antes de esta entrada.

Solución. Tomemos el producto interior $$\langle f,g\rangle = \int_0^1 f(x)g(x) \, dx$$ en el espacio vectorial de funciones reales y continuas en $[0,1]$. Como la imagen de $f$ está en los reales positivos, podemos definir la función $h:[0,1]\to \mathbb{R}^+$ dada por $h(x)=\sqrt{f(x)}$.

Tenemos que
\begin{align*}
\left \langle h, \frac{1}{h}\right \rangle &= \int_0^1 h(x)\cdot \frac{1}{h(x)}\, dx\\
&=\int_0^1 1\, dx\\
&=1.
\end{align*}

Por otro lado,

\begin{align*}
\langle h, h \rangle &= \int_0^1 h(x)\cdot h(x)\, dx\\
&=\int_0^1 f(x)\, dx.
\end{align*}

\begin{align*}
\left\langle \frac{1}{h}, \frac{1}{h} \right\rangle&= \int_0^1 \frac{1}{h(x)}\cdot \frac{1}{h(x)}\, dx\\
&=\int_0^1 \frac{1}{f(x)}\, dx
\end{align*}

La conclusión se sigue entonces de manera inmediata de la desigualdad de Cauchy-Schwarz para $\langle \cdot, \cdot \rangle$.

$\square$

Más problemas

Puedes encontrar más problemas que usan la desigualdad de Cauchy-Schwarz en la sección 7.1 del libro Problem Solving through Problems de Loren Larson. También puedes consultar más técnicas y problemas en el libro Desigualdades de la Olimpiada Mexicana de Matemáticas.