Álgebra Lineal II: El teorema espectral real

Por Ayax Calderón

Introducción

Por lo que estudiamos en la primera parte de este curso, ya sabemos cuándo una matriz arbitraria es diagonalizable. Lo que haremos ahora es enunciar y demostrar el teorema espectral en el caso real. Una de las cosas que nos dice es que las matrices simétricas reales son diagonalizables. Pero nos dice todavía más. También nos garantiza que la manera en la que se diagonalizan es a través de una matriz ortogonal. Esto combina mucho de la teoría que hemos cubierto. Además, gracias al teorema espectral podremos, posteriormente, demostrar el famoso teorema de descomposición polar que nos dice cómo son todas las matrices.

El lema de eigenvalores de matrices simétricas

Comencemos enunciando algunas propiedades que tienen las matrices y transformaciones simétricas. El primero habla de cómo son los eigenvalores de las matrices simétricas.

Lema. Sea $A\in M_n({\mathbb{R}})$ una matriz simétrica. Entonces todas las raíces del polinomio característico de $A$ son números reales.

Demostración. Tomemos $A\in M_n(\mathbb{R})$ y sea $\lambda$. Su polinomio característico está en $\mathbb{R}[x]$, así que por el teorema fundamental del álgebra todas sus raíces están en $\mathbb{C}$. Sea $t$ una raíz del polinomio característico de $A$.

Pensemos a $A$ como un elemento de $M_n(\mathbb{C})$. Como $\det (tI_n-A)=0$, entonces $t$ es eigenvalor y por lo tanto hay un eigenvector $X\in\mathbb{C}^n$ no nulo tal que $AX=tX$. Como el vector tiene entradas complejas, lo podemos escribir como $X=Y+iZ$ para dos vectores $Y,Z\in \mathbb{R}^n$. Así mismo, podemos escribir a $t$ como $t=a+ib$ con $a$ y $b$ números reales.

Con esta notación, de la igualdad $AX=tX$ se sigue que

\begin{align*}
AY+iAZ&=AX\\
&=(a+ib)(Y+iZ)\\
&=aY-bZ+i(aZ+bY).
\end{align*}

Igualando las partes imaginarias y las partes reales obtenemos que

\begin{equation}\label{1}
AY=aY-bZ, \hspace{4mm} AZ=aZ+bY.
\end{equation}

Usemos ahora que $A$ es simétrica. Tenemos que
\begin{equation}\label{2}
\langle AY,Z \rangle=\langle Y, AZ \rangle.
\end{equation}

Sustituyendo la primera igualdad de \eqref{1} en el lado izquierdo de \eqref{2}, y la segunda igualdad de \eqref{1} en el lado derecho de \eqref{2}, obtenemos que:

\begin{equation*}
\langle aY-bZ,Z \rangle=\langle Y, aZ+bY \rangle,
\end{equation*}

y usando la linealidad del producto interior, se obtiene que

\begin{equation*}
a\langle Y,Z \rangle – b\langle Z,Z\rangle =a\langle Y, Z \rangle + b \langle Y , Y \rangle.
\end{equation*}

Se sigue que
$$b(||Y||^2+||Z||^2)=0$$ y como $Y$ o $Z$ es distinto de cero (de lo contrario tendríamos que $X=0$), entonces concluimos que $b=0$ y con ello que $t$ es un número real.

$\square$

El lema de estabilidad de transformaciones simétricas

El segundo lema que veremos nos dice qué sucede cuando una transformación lineal es simétrica y tomamos un subespacio estable bajo ella. Recuerda que un subespacio $W$ de un espacio vectorial $V$ es estable bajo una transformación lineal $T:V\to V$ si $T(W)\subseteq W$.

Lema. Sea $V$ un espacio euclidiano y $T:V\to V$ una transformación lineal simétrica sobre $V$. Sea $W$ un subespacio de $V$ estable bajo $T$. Entonces

  1. $W^\bot$ también es estable bajo $T$.
  2. Las restricciones de $T$ a $W$ y $W^\bot$ son transformaciones lineales simétricas sobre estos espacios.

Demostración.

1. Tomemos $x\in W^\bot$. Nos gustaría ver que $T(x)\in W^\bot$. Para ello, tomemos $y\in W$. Como $W$ es estable bajo $T$, tenemos $T(y)\in W$. Como $x\in W^\bot$, tenemos que $\langle x,T(y) \rangle =0$. Usando esto y la simetría de $T$, obtenemos entonces
$$\langle T(x),y \rangle = \langle x,T(y) \rangle=0,$$
que es lo que queríamos probar.

2. Sea $T|_W$ la restricción de $T$ a$W$. Para $x,y\in W$ tenemos que
$$\langle T|_W(x),y \rangle=\langle T(x),y \rangle=\langle x,T(y) \rangle =\langle x,T|_W(y) \rangle ,$$ por lo tanto $T|_W$ es simétrica sobre $W$. Análogamente se ve que el resultado se cumple para $W^\bot$.

$\square$

El teorema espectral real

Con los dos lemas anteriores podemos ahora sí enfocarnos en demostrar el teorema principal de esta entrada.

Teorema (el teorema espectral real). Sea $V$ un espacio euclidiano y $T:V\to V$ una transformación lineal simétrica. Entonces existe una base ortonormal de $V$ conformada por eigenvectores de $T$.

Demostración. Procederemos por inducción fuerte sobre $n=\dim V$. Si $n=1$, entonces el polinomio característico de $T$ es de grado $1$ y tiene coeficientes reales, por lo que tiene una raíz real $t$. Si $v$ es un eigenvector de $T$ con eigenvalor $t$, entonces $\frac{v}{||v||}$ también es eigenvector de $T$ y forma una base ortonormal de $V$. Esto termina el caso $n=1$.

Ahora supongamos que el resultado se satisface hasta dimensión $n-1$ y tomemos $V$ de dimensión $n$. Sea $B=\{e_1,e_2,\dots e_n\}$ una base ortonormal de $V$. Sea $A$ la matriz asociada a $T$ con respecto a $B$. Como $T$ es simétrica, entonces $A$ también lo es. Su polinomio característico no es constante, de modo que por el teorema fundamental del álgebra tiene por lo menos una raíz $t$, y por el primer lema de la sección anterior, se tiene que $t$ es real y por lo tanto es un eigenvalor.

Sea $W=\ker (t\text{id} -T)$ el $t$-eigenespacio de $T$. Si $W=V$, entonces $T=t\text{id}$ y así $B$ es una base ortonormal de $V$ compuesta por eigenvectores de $T$. De otro modo, $W\neq V$ y por lo tanto $k:=\dim W<n$. Tenemos que $V=W\oplus W^\bot$ y sabemos que los eigenespacios son estables bajo la transformación correspondiente. Así, por el segundo lema de la sección anterior $W^\bot$ también es estable bajo $T$ y la restricción de $T$ a $W^\bot$ es simétrica.

Podemos entonces aplicar la hipótesis inductiva a $T_{|W^\bot}$ para encontrar una base ortonormal $C=\{f_1^\bot,f_2^\bot\dots,f_{n-k}^\bot\}$ de $W^\bot$ compuesta por eigenvectores de $T$. Escogiendo una base ortonormal $D=\{f_1,f_2,\dots,f_k\}$ de $W$ (que automaticamente está formada por eigenvectores de $T$). La base $C\cup D$ de $V$ es entonces la base de eigenvectores que buscábamos.

$\square$

El teorema espectral también puede enunciarse en términos de matrices. Hacemos esto a continuación.

Observación. Si $A\in M_n(\mathbb{R})$ es una matriz simétrica, entonces la transformación lineal $T:X\mapsto AX$ sobre $\mathbb{R}^n$ es simétrica. Aplicando el teorema anterior, podemos encontrar una base ortonormal de $V$ con respecto a la cual la matriz asociada a $T$ es diagonal. Como la base canónica de $V$ es ortonormal, y como la matriz de cambio de pase entre dos bases ortonormlaes es ortogonal, obtenemos el siguiente resultado fundamental.

Teorema (el teorema espectral para matrices reales). Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces $A$ es diagonalizable y, más específicamente, existen una matriz ortogonal $P\in M_n(\mathbb{R})$ y una matriz diagonal $D\in M_n(\mathbb{R})$ tales que $$A=P^{-1}DP.$$

Así, $A$ es simultáneamente, mediante una misma matriz $P$, tanto similar como congruente a una matriz diagonal.

Aplicación a caracterizar las matrices simétricas positivas

Ya hemos dado algunas caracterizaciones para las matrices simétricas positivas. Veamos algunas caracterizaciones adicionales.

Teorema. Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces las siguientes afirmaciones son equivalentes:

  1. $A$ es positiva.
  2. Todos los eigenvalores de $A$ son no negativos.
  3. $A=B^2$ para alguna matriz simétrica $B\in M_n(\mathbb{R})$.
  4. $A=\hspace{.5mm}^tCC$ para alguna matriz $C\in M_n(\mathbb{R})$.

Demostración. 1) implica 2). Supongamos que $A$ es positiva y que $t$ es un eigenvalor de $A$ con eigenvector $v$. Como $Av=tv$, obtenemos que

\begin{align*}
t||v||^2&= t\langle v,v \rangle\\
&= \langle v, tv \rangle\\
&= \langle v, Av \rangle\\
&= \hspace{.5mm}^tvAv\\
&\geq 0,
\end{align*}
por lo tanto $t\geq 0$.

2) implica 3). Sean $t_1,\dots, t_n$ todas las raíces del polinomio característico de $A$, escritos con su multiplicidad correspondiente. Por el primer lema de la sección anterior, todos ellos son reales, y estamos suponiendo que son no negativos. Por el teorema espectral podemos encontrar una matriz $P$ y una diagonal $D$ tal que $A=P^{-1}DP$, y por lo que vimos de teoría de diagonalización, $D$ precisamente tiene como entradas en su diagonal a $t_1,t_2,\dots,t_n$. Sea $D’$ la matriz diagonal con entradas $c_i=\sqrt{t_i}$ y sea $B=P^{-1}D’P$. Como $P$ es ortogonal, $B$ es simétrica

Y además, por construcción, $B^2=P^{-1}{D’}^2P=P^{-1}DP=A$, como queríamos.

3) implica 4). Basta con tomar la matriz $B$ de (3) y tomar $C=B$. Como $B$ es simétrica, $A=B^2=\hspace{.5mm}^tBB$.

4) implica 1). Esto ya lo habíamos demostrado en un resultado anterior de caracterización de matrices simétricas.

$\square$

Más adelante…

Hemos enunciado y demostrado el teorema espectral. Lo que nos dice es muy interesante: una matriz simétrica básicamente consiste en cambiar de base a una base muy sencilla $e_1,\ldots,e_n$ (ortonormal) a traves de la matriz $P$. Luego, en esa base pasa algo muy simple: en la dirección de $e_i$, simplemente alargamos de acuerdo al eigenvalor $\lambda_i$.

Como consecuencia, veremos en la siguiente entrada que esto nos permite entender no sólo a las matrices simétricas, sino a todas, todas las matrices. Al teorema que veremos a continuación se le conoce como el teorema de descomposición polar.

Tarea moral

  1. La matriz $\begin{pmatrix} \sin \theta & \cos \theta \\ \cos \theta & \sin\theta \end{pmatrix}$ es real y simétrica, de modo que es diagonalizable. ¿Cuál es su diagonalización?
  2. Da un ejemplo de una matriz simétrica con coeficientes complejos que no sea diagonalizable.
  3. Sea $T$ una transformación lineal sobre un espacio euclidiano $V$, y supón que $V$ tiene una base ortonormal conformada por eigenvectores de $T$. Demuestra que $T$ es simétrica (por lo que el recíproco del teorema espectral se satisface).
  4. Considera la matriz $$A=\begin{pmatrix}
    1 & -2 & -2\\
    -2 & 1 & -2\\
    -2 & -2 &1\end{pmatrix}.$$
    Explica por qué $A$ es diagonalizable en $M_n(\mathbb{R})$ y encuentra una matriz $P$ tal que $P^{-1}AP$ es diagonal.
  5. Adapta el teorema de caracterización de matrices positivas visto en esta entrada a una versión para matrices positivas definidas.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Probabilidad I-Videos: Continuidad de la probabilidad

Por Aurora Martínez Rivas

Introducción

En el video de axiomas de la probabilidad y sus propiedades se dio la definición de medida de probabilidad, así como algunas propiedades básicas que podíamos deducir de dicha definición. En esta ocasión abordaremos otra propiedad que nos será muy útil en los temas siguientes, esta, es conocida como la propiedad de continuidad de la probabilidad.

Continuidad de la probabilidad

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE 104721: “Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM”. Sitio web del proyecto: https://www.matematicasadistancia.com.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Demuestra que los incisos $a$ y $b$ de la proposición vista en el video son equivalentes, para esto solo te hace falta probar que el inciso $b$ también implica el inciso $a$.
  • Sea $A_r,\ r\geq 1$, eventos tales que, para toda $r$, $P\left(A_r\right)=1$. Demuestra que $P\left(\displaystyle\bigcap_{r=1}^{\infty}A_r\right)=1$.
  • Una moneda justa se lanza repetidamente. Demuestra que, con probabilidad uno, una cara se muestra tarde o temprano. Demuestra de manera similar que cualquier sucesión finita dada de caras y cruces ocurre eventualmente con probabilidad uno.
  • Teorema de probabilidad total. Demuestra que si $B_1,B_2,\ldots$ es una partición de $\Omega$, entonces para cualquier evento $A$ se cumple que

$P\left(A\right)=\displaystyle\sum_{i=1}^{\infty}{P\left(A\middle|\ B_i\right)P(B_i)}$.

  • Teorema de Bayes. Demuestra que si $B_1,B_2,\ldots$ es una partición de $\Omega$ y sea $A$ un evento tal que $P\left(A\right)\neq 0$ entonces para cada $j=1,2,\ldots$

$P\left(B_j\middle|A\right)=\frac{P\left(A\middle|B_j\right)P\left(B_j\right)}{\displaystyle\sum_{i=1}^{\infty}{P\left(A\middle|B_i\right)P\left(B_i\right)}}$.

Más adelante…

Este resultado proporciona una herramienta para tratar las propiedades correspondientes a la descripción de las probabilidades asociadas a cantidades que se rigen por la aleatoriedad, cuyas funciones están definidas en el espacio de probabilidad y que llamaremos variables aleatorias.

Te invito a ver el siguiente video para saber más sobre este tema.

Entradas relacionadas

Probabilidad I-Videos: Teorema de Bayes

Por Aurora Martínez Rivas

Introducción

En este video enunciaremos el teorema de Bayes, el cual hace uso del Teorema de probabilidad total, para brindarnos otra herramienta en la determinación de probabilidades de eventos en los que se busca condicionar al espacio muestral para un cálculo más sencillo.

Teorema de Bayes

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE 104721: “Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM”. Sitio web del proyecto: https://www.matematicasadistancia.com.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Demuestra directamente que

$\\ P(E|F)=P(E|FG)P(G|F)+P(E|FG^{c})P\left(G^{c}|F\right)$.

  •  Demuestra que, para cualquier evento $A$ y $B$,

$\\ P(A|A\cup B)\geq P(A|B)$.

  • Demuestra que si $A_{i}$, $i\geq 1$ son eventos mutuamente excluyentes de un experimento. entonces

$\\ P\left(A_j\middle|\displaystyle\bigcup_{i=1}^{\infty}A_i\right)=\frac{P\left(A_j\right)}{\displaystyle\sum_{i=1}^{\infty}A_i}$.

  • Tres jugadores lanzan monedas simultáneamente. La moneda lanzada por $A$ sale cara con probabilidad $P_{1}$, la moneda lanzada por $B$ sale cara con probabilidad $P_{2}$ y la moneda lanzada por $C$ sale cara con probabilidad $P_{3}$. Si una persona obtiene un resultado diferente al de las otras dos, entonces él es el extraño. Si no hay un hombre extraño, los jugadores lanzan de nuevo y continúan haciéndolo hasta que obtienen un hombre extraño. ¿Cuál es la probabilidad de que $A$ sea el extraño?.
  • Hay 3 monedas en una caja. Una es una moneda de dos caras, otra es una moneda justa y la tercera es una moneda sesgada que sale cara el 75% de las veces. Cuando una de las 3 monedas es selecciona al azar y lanzada, esta muestra cara. ¿Cuál es la probabilidad de que la monera seleccionada fuera la moneda de dos caras?

Más adelante…

El teorema de Bayes puede utilizarse para calcular fácilmente la probabilidad condicional de eventos en los que la intuición comúnmente falla, nos ayuda a describir la probabilidad de un evento basado en el conocimiento previo de las condiciones que podrían estar relacionadas con dicho evento.

Es momento, de comenzar a tratar ciertas funciones dentro de un espacio de probabilidad, para esto es necesario abordar otra propiedad importante que cumple una medida de probabilidad, esta es, la propiedad de continuidad.  

Entradas relacionadas

Álgebra Lineal II: Matrices de formas sesquilineales

Por Diego Ligani Rodríguez Trejo

Introducción

En la entrada anterior dimos una relación entre matrices y formas bilineales. Como hemos hecho anteriormente, extenderemos este conocimiento para el caso de espacios vectoriales complejos. En esta entrada daremos una relación entre formas sesquilineales, formas cuadráticas hermitianas y matrices. Daremos la definición y veremos sus propiedades.

Gran parte de la relación que había para el caso real se mantiene al pasar a los complejos. Las demostraciones en la mayoría de los casos son análogas, así que la mayoría de ellas quedarán como tarea moral. Sin embargo, haremos énfasis en las partes que hacen que el caso real y el complejo sean distintos. Te recomendamos tener a la mano las entradas sobre formas bilineales y matrices y formas sesquilineales.

Matriz asociada a una forma sesquilineal y una forma cuadrática hermitiana

A partir de aquí, en esta entrada, asumiremos que $V$ es un espacio vectorial sobre $\mathbb{C}$ de dimensión finita. Recordemos que $S(V)$ se definió como el espacio de formas sesquilineales de $V$.

Definición. Sea $u_1, \ldots, u_n$ una base de $V$ y $\varphi: V \times V \rightarrow \mathbb{C}$ una forma sesquilineal de $V$. La matriz de $\varphi$ con respecto a la base $u_1, \ldots, u_n$ es la matriz
\begin{align*} A=[a_{ij}] \qquad \text{con} \qquad a_{ij}=\varphi(u_i,u_j),\end{align*}
para todo $i,j$ tal que $1 \leq i,j \leq n$.

Veamos primero como escribir $\varphi(x,y)$ en su forma matricial. Así como en el caso real, también podemos definir la matriz de una forma cuadrática usando su forma polar.

Definición. Sea $u_1, \cdots , u_n$ una base de $V$ y $q$ una forma cuadrática hermitiana de $V$, la matriz de $q$ con respecto a la base $u_1, \ldots, u_n$ es la matriz de su forma polar en esa misma base.

Hasta ahora todo es muy parecido al caso real.

Evaluar la forma sesquilineal con su matriz

Como en el caso real, podemos la matriz de una forma sesquilineal para evaluarla. Sin embargo, hay que ser cuidadosos pues por la sesquilinealidad debemos conjugar el vector de coordenadas de la primer entrada de la forma sesquilineal.

Proposición. Sea $\varphi$ una forma sesquilineal de $V$ y $\mathcal{B}$ una base de $V$. Sea $A$ la matriz de $\varphi$ en la base $\mathcal{B}$. Sean $X$ y $Y$ los vectores de coordenadas de vectores $x$ y $y$ de $V$ en la base $\mathcal{B}$, respectivamente. Entonces: $$\varphi(x,y)=X^\ast AY.$$

Aquí $X^\ast$ es la matriz transpuesta conjugada, es decir, la que se obtiene al conjugar todas las entradas de $^tX$. La demostración es análoga al caso real, cuidando en que en la primer entrada de una forma sesquilineal los escalares salen conjugados. Por ello, queda como ejercicio.

Tenemos dos consecuencias importantes de la proposición anterior:

  • La matriz $A$ que hace $$\varphi(x,y)=X^\ast AY$$ para cualesquiera $x,y$, es única.
  • Se tiene que $\varphi$ es hermitiana si y sólo si su matriz $A$ cumple $A=A^\ast$.

En el caso real no vimos las demostraciones de las afirmaciones análogas, así que ahora sí veremos las demostraciones de estas.

Proposición. Con la notación de arriba, $A$ es la unica matriz que cumple
\begin{align*} \varphi(x,y)=X^ \ast AY.\end{align*}

Demostración. Supongamos que tenemos otra matriz $A’=[a’_{ij}]$ tal que \begin{align*} \varphi(x,y)=X^*A’Y.\end{align*} Tomando elementos $u_i$ y $u_j$ de la base $\mathcal{B}$, obtenemos que el vector de coordenadas $U_i$ (resp. $U_j$) de $u_i$ (resp. $u_j$) es el vector con $1$ en la entrada $i$ (resp. $j$) y cero en las demás. De este modo:

\begin{align*}
a’_{ij}&=U_i^*A’U_j\\
&=b(u_i,u_j)\\
&=a_{ij}.
\end{align*}

Esto muestra que las matrices $A$ y $A’$ son iguales entrada a entrada, de modo que $A$ es única.

$\square$

Proposición. Con la notación de arriba, $\varphi$ es hermitiana si y sólo si $A=A^*$.

Demostración. Supongamos primero que $\varphi$ es hermitiana. En particular, para $u_i$ y $u_j$ elementos de la base obtenemos que $\varphi(u_i,u_j)=\overline{\varphi(u_j,u_i)}.$ En términos de las entradas de la matriz $A$ obtenemos entonces que:

\begin{align*}
a_{ij}&=\varphi(u_i,u_j)\\
&= \overline{\varphi(u_j,u_i)}\\
&=\overline{a_{ji}}.
\end{align*}

Esto nos dice que $A=A^\ast$.

Ahora, suponiendo que $A=A^ \ast $ se tiene directamente que $\varphi(u_i,u_j)=\overline{\varphi(u_j,u_i)}$ para cualquier par de elementos $u_i$ y $u_j$ de la base. De este modo, la forma sesquilineal es hermitiana en parejas de elementos de la base. Si tenemos ahora cualesquiera dos vectores $x$ y $y$ en $V$, basta con escribirlos en términos de la base $x=\sum_{i=1}^n x_iu_i$, $y=\sum_{j=1}^n y_ju_j$ y usar la proposición de la entrada de formas sesquilineales para obtener

\begin{align*}
\varphi(x,y)&=\sum_{i=1}^n \sum_{j=1}^n \overline{x_i}y_j \varphi(u_i,u_j)\\
&= \sum_{i=1}^n \sum_{j=1}^n \overline{x_i \overline{y_j}\varphi(u_j,u_i)}\\
&=\overline{\varphi(y,x)},
\end{align*}

tal y como queríamos.

$\square$

Esta última equivalencia da pie a definir una matriz hermitiana.

Definición. Sea $A\in M_n(\mathbb{C})$. Diremos que $A$ es conjugada simétrica o hermitiana si $A=A^*.$

Cambios de base

En el caso real, dos matrices que representan a una misma matriz difieren en un producto dado por una matriz de cambio de base y su transpuesta. En el caso complejo sucede algo parecido, pero debemos usar una matriz de cambio de base y su transpuesta conjugada.

Proposición. Supongamos que una forma sesquilineal $\varphi$ tiene asociada una matriz $A$ con respecto a una base $\mathcal{B}$ y una matriz $A’$ con respecto a otra base $\mathcal{B}’$ . Sea $P$ la matriz de cambio de base de $\mathcal{B}$ a $\mathcal{B}’$ . Entonces

\begin{align*} A’=P^\ast AP.\end{align*}

La demostración es análoga al caso real, cuidando la conjugación de los escalares que salen de la primera entrada de una forma sesquilineal.

Más adelante…

Hasta ahora ya hemos hablado de formas bilineales, sesquilineales y sus formas matriciales. También platicamos de algunos conceptos que surgen de estas ideas, como las formas cuadráticas y las cuadráticas hermitianas. La importancia de estos conceptos es que nos permiten hacer geometría en espacios vectoriales reales o complejos.

En la siguiente entrada explicaremos esto más a detalle. Un poco más adelante veremos cómo en espacios «con geometría» podemos definir conceptos de dualidad y ortogonalidad.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso. Sin embargo, sirven de ayuda para repasar los conceptos vistos en esta entrada.

  1. Considera la matriz $\begin{pmatrix}1+i & 0 \\ 5 & 1+2i \end{pmatrix}$. ¿Con cuál forma sesquilineal de $\mathbb{C}^2$ está asociada bajo la base canónica? y ¿Con qué forma sesquilineal de $\mathbb{C}^2$ está asociada bajo la base $(1+i,1)$, $(1,2+i)$?
  2. Prueba la proposición que dice cómo evaluar una forma sesquilineal usando su forma matricial y los vectores coordenada de vectores en cierta base dada.
  3. Prueba la proposición de cambios de base para la forma matricial de una forma sesquilineal.
  4. Demuestra que para cualesquiera dos matrices $A,B \in M_n(\mathbb{C})$ se tiene que
    \begin{align*} (AB)^*=B^*A^*.\end{align*}
  5. Demuestra que para cualquier matriz $B \in M_n(\mathbb{C})$ se tiene que las matrices $B^*B$ y $BB^*$ son hermitianas.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Cálculo Diferencial e Integral I: Funciones acotadas y teorema del máximo-mínimo

Por Juan Manuel Naranjo Jurado

Introducción

En esta entrada revisaremos el teorema del máximo-mínimo que nos indica que para una función continua en un intervalo $[a, b]$, existe un punto $x_0$ tal que $f(x_0) \geq f(x)$ para todo valor de $x$ en el intervalo. Para llegar a la prueba de tal teorema, revisaremos antes la definición de función acotada y probaremos que toda función continua en un intervalo está acotada en tal intervalo.

Funciones acotadas

Comenzaremos dando la definición de función acotada.

Definición. Decimos que $f$ está acotada superiormente en $A$ si existe $M \in \mathbb{R}$ tal que para todo $x \in A$ se cumple que $f(x) \leq M$. De manera similar, decimos que $f$ está acotada inferiormente en $A$ si existe $m \in \mathbb{R}$ tal que para todo $x \in A$ se tiene que $m \leq f(x)$. Finalmente, diremos que $f$ está acotada si existen $m$, $M \in \mathbb{R}$ tales que para todo $x \in A$ se tiene que $m \leq f(x) \leq M$.

Revisaremos el siguiente ejemplo para aplicar esta nueva definición.

Ejemplo 1. Sea $f: \mathbb{R} \setminus \{0\} \to \mathbb{R}$ definida como $f(x) = \frac{1}{x}.$

Afirmación. $f$ está acotada en el intervalo $A = [1, \infty)$.

Demostración.

Sea $x \in [1, \infty)$. Como $1 \leq x$, entonces $\frac{1}{x} \leq 1$. Se sigue que
\begin{gather*}
& 0 < \frac{1}{x} \leq 1 \quad \forall x \in [1, \infty). \\ \\
& \therefore 0 \leq f(x) \leq 1 \quad \forall x \in [1, \infty).
\end{gather*}

Por tanto, $f$ está acotada en el intervalo $A = [1, \infty)$.

$\square$

Afirmación. $f$ no está acotada superiormente en $B = (0, 1].$

Demostración.

Supongamos que la función $f$ sí está acotada superiormente en $B$, entonces existe $M \in \mathbb{R}$ tal que para todo $x \in B$ se tiene que $f(x) = \frac{1}{x} \leq M$.

Para todo $n \in \mathbb{N}$, se tiene que $n \geq 1$, entonces $0 < \frac{1}{n} \leq 1$ y, por tanto, $\frac{1}{n} \in B$.

\begin{gather*}
& f \left( \frac{1}{n} \right) = \frac{1}{\frac{1}{n}} \leq M. \\ \\
\therefore & n \leq M \quad \forall n \in \mathbb{N}.
\end{gather*}

Lo cual es una contradicción pues el conjunto de los números naturales no está acotado superiormente, por lo tanto $f$ no está acotada superiormente.

De forma análoga, se puede probar que $f$ está acotada en el intervalo $(-\infty, 1]$ y que no está acotada inferiormente en $[-1,0)$.

$\square$

Ahora veremos dos proposiciones respecto a las funciones acotadas. La primera nos indica que si $f$ es una función acotada en $A$ y se tiene un subconjunto $B$ de $A$, entonces $f$ también está acotada en $B$; mientras que la segunda nos indica que si $B$ y $C$ son subconjuntos de $A$, entonces $f$ también estará acotada en la unión de $B$ y $C.$

Proposición. Si $f$ está acotada en $A$ y $B \subset A$, entonces también está acotada en $B.$

Demostración.

Dado que $f$ está acotada en $A$, existen $m$, $M \in \mathbb{R}$ tal que para todo $x \in A$ se tiene que $m \leq f(x) \leq M$. Como $B \subset A$, entonces para todo $x \in B$ se tiene que $x \in A$, así $f$ también está acotada en $B.$

$\square$

Proposición. Si $B \subset A$, $C \subset A$. Si $f$ está acotada en $B$ y en $C$, entonces $f$ está acotada en $B \cup C.$

El razonamiento detrás de la prueba de esta proposición es similar al anterior, por lo que se dejará como tarea moral.

Continuaremos revisando una equivalencia de la definición de función acotada donde, en lugar de tener dos reales $m$, $M$ que acoten inferior y superiormente, solo se considerará un real $T$ que cumpla que $|f(x)| \leq T.$

Proposición. Existen $m$, $M \in \mathbb{R}$ tales que para todo $x \in A$, $m \leq f(x) \leq M$ si y solo si existe $T \in \mathbb{R}$ tal que para todo $x \in A$, $|f(x)| \leq T.$

Demostración.

$\Rightarrow]$ Sabemos que existen $m$, $M$ en $\mathbb{R}$ tales que para todo $x \in A$, $m \leq f(x) \leq M.$

Consideremos $T = max\{ |m|, |M| \}.$

Sea $x \in A$, entonces

\begin{gather*}
& f(x) \leq M \leq |M| \leq T. \\
\Rightarrow & f(x) \leq T. \tag{1}
\end{gather*}

Por otro lado

\begin{gather*}
& m \leq f(x). \\
\Leftrightarrow & – m \geq -f(x).
\end{gather*}

De esta forma, se sigue que
\begin{gather*}
-f(x) \leq -m \leq |m| \leq T.
\end{gather*}

Es decir,
\begin{gather*}
& -f(x) \leq T. \\
\therefore & -T \leq f(x). \tag{2}
\end{gather*}

De $(1)$ y $(2)$ podemos concluir que $|f(x)| \leq T.$

$\Leftarrow]$ Supongamos que existe $T$ tal que para todo $x \in A$, $|f(x)| \leq T.$

Consideremos $m = -T$ y $M = T$, entonces $ m \leq f(x) \leq M.$

$\square$

Teorema de acotabilidad

La siguiente propiedad nos indica que si $f$ es continua en un punto, entonces existe un intervalo alrededor de dicho punto donde la función está acotada. Esta propiedad será ampliamente usada para probar el teorema del máximo-mínimo.

Proposición. Sea $a \in A$, si $f$ es continua en $a$, entonces existe $\delta > 0$ tal que $f$ está acotada en el intervalo $(a-\delta, a+\delta) \cap A.$

Demostración.

Como $f$ es continua en $a$, considerando particularmente $\varepsilon = 1$, existe $\delta > 0$ tal que si $|x-a| < \delta$, $x \in A$, entonces

$$|f(x)-f(a)|<1.$$

Es decir, si $x \in (a – \delta, a + \delta) \cap A$, entonces

\begin{gather*}
& |f(x)|- |f(a)| < |f(x)- f(a)| < 1. \\
\Rightarrow & |f(x)| < 1 + |f(a)|.
\end{gather*}

Por tanto, $f$ está acotada en el intervalo $(a – \delta, a + \delta) \cap A.$

$\square$

El último teorema que veremos antes del máximo-mínimo nos indica que toda función continua en un intervalo cerrado está acotada en tal intervalo. De forma ilustrativa, podemos observarlo en la siguiente gráfica.

Teorema de acotabilidad. Sea $f: [a,b] \to \mathbb{R}$ tal que $f$ es continua en $[a,b]$. Entonces $f$ está acotada en $[a,b].$

Demostración.

Sea $A = \{ t \in [a, b] \quad | \quad f \text{ sí está acotada en } [a, t] \}$.

Veamos que $A \neq \varnothing$.
Consideremos $a \in [a,b]$. Como $f$ es continua en $[a,b]$ y por la proposición anterior, existe $\delta_1 > 0$ tal que para todo $x \in (a-\delta_1, a+\delta_1) \cap [a, b]$ se tiene que $f$ está acotada.
Por lo tanto, para todo $x \in [a, a+\delta_1)$, $f$ sí está acotada.

Notemos que tenemos dos casos derivados de si $a+ \delta_1$ está o no en el intervalo $[a,b].$

  • Si $b > a + \delta_1$, entonces $a+\delta_1 \in A$.
  • Si $b \leq a + \delta_1$, entonces $b \in A$.

$$\therefore A \neq \varnothing.$$

Además, $A$ está acotado superiormente pues si $t \in A$, por definición del conjunto, $t \leq b$.

Como $A$ es no vacío y está acotado superiormente, entonces tiene supremo. Sea $\alpha = supA$, notemos que $\alpha \leq b$, pues $\alpha$ es el supremo y $b$ es una cota superior.

Probaremos que $\alpha = b$, es decir, veremos que el supremo del conjunto $A$ es justamente $b$ y, en consecuencia, $f$ está acotada en $[a,b].$

Supongamos que $\alpha \neq b$. Entonces $a < \alpha < b$. Como $f$ es continua en $[a,b]$, entonces $f$ es continua en $\alpha$. Por la proposición anterior, existe $\delta_2$ tal que $f$ está acotada en $(\alpha-\delta_2, \alpha + \delta_2) \cap [a, b].$

Como $\alpha – \delta_2 < \alpha$, existe $t \in A$ tal que $\alpha – \delta_2 \leq t \leq \alpha$. Tomemos $s$ tal que $\alpha < s < \alpha + \delta_2$ y $s < b$. De esta forma se tiene que $[t,s] \subset (a- \delta_2, a + \delta_2) \cap [a, b]$ y $f$ está acotada en $[a, t]$ pues $t \in A$. Por lo tanto $f$ está acotada en $[a,s] = [a,t] \cup [t,s].$

Así $s \in A$ y $\alpha < s$, lo cual es una contradicción al hecho de que $\alpha$ es el supremo del conjunto $A.$

Por tanto, concluimos que $\alpha = b$. Ahora solo falta probar que $b \in A$ y, en consecuencia, $f$ está acotada en $[a,b].$

Dado que $b \in [a, b]$, f es continua en b, entonces existe $\delta_3 > 0$ tal que $f$ está acotada en $(b- \delta_3, b + \delta_3) \cap [a,b] = (b- \delta_3, b]$. Como $b = supA$ y $b-\delta_3 < b$, entonces existe $t \in A$ tal que $b-\delta_3 < t \leq b$, entonces $f$ está acotada en $[a,t]$. Como $[t, b] \subset (b – \delta_3, b]$ entonces $f$ está acotada en $[a,b] = [a,t] \cup [t, b].$

$\square$

Teorema del máximo-mínimo

Estamos listos para demostrar que para toda función continua en un intervalo $[a,b]$ existen $x_0, x_1 \in [a,b]$ donde la función alcanza su máximo y su mínimo respectivamente.

Teorema. Sea $f: [a,b] \to \mathbb{R}$ y continua en $[a,b]$, entonces existe $x_0 \in [a,b]$ tal que para todo $x \in [a,b]$ se tiene que $f(x) \leq f(x_0).$

Demostración.

Sea $B = \{ y = f(x) | x \in [a,b] \}.$

Por el teorema anterior, sabemos que existe $M \in \mathbb{R}$ tal que para todo $x \in [a,b]$ se tiene que $y = f(x) \leq M$. Por lo tanto $B$ está acotado.

Además $a \in [a,b]$, entonces $f(a) \in B$, así $B \neq \varnothing$. Por tanto, sabemos que existe $\alpha \in \mathbb{R}$ tal que $\alpha = supB$. Notemos que para todo $y \in B$, $y \leq \alpha$. Es decir, para todo $x \in [a,b]$, se tiene que $f(x) \leq \alpha.$

Ahora probaremos que existe $x_0 \in [a,b]$ tal que $f(x_0) = \alpha$ y, por tanto, para todo $x \in [a,b]$, $f(x) \leq f(x_0).$

Supongamos que para todo $x \in [a, b]$, $f(x) \neq \alpha.$
Entonces para todo $x \in [a,b]$, se tiene que $f(x) < \alpha.$ Es decir,

$$0 < \alpha – f(x).$$

Consideremos la siguiente función auxiliar $g(x) = \frac{1}{\alpha – f(x)}$. Se tiene que

$$g(x) = \frac{1}{\alpha – f(x)} > 0 \quad \forall x \in [a,b]. \tag{1}$$

Además, $g$ es la división de dos funciones continuas y el denominador no se hace cero en $[a,b]$, entonces $g$ es continua en $[a,b]$, por lo tanto $g$ está acotada en $[a,b]$. Es decir, existe $T \in \mathbb{R}$ tal que para todo $x \in [a,b]$ se tiene

\begin{gather*}
&|g(x)|\leq T. \\
\Rightarrow & 0 < \frac{1}{\alpha – f(x)} \leq T \text{, por }(1).
\end{gather*}

Se sigue que
\begin{gather*}
& \alpha – f(x) \geq \frac{1}{T} \quad \forall x \in [a,b]. \\
\therefore & \alpha – \frac{1}{T} \geq f(x) \quad \forall x \in [a,b]. \\
\end{gather*}

Entonces se tiene que $\alpha – \frac{1}{T}$ es cota superior de $B$, pero como $\frac{1}{T} > 0$, entonces $\alpha – \frac{1}{T} < \alpha$ y esto es una contradicción al hecho de que $\alpha$ es el supremo.

Por lo tanto, podemos concluir que sí existe $x_0 \in [a,b]$ tal que $f(x_0) = \alpha.$
$$\therefore f(x) \leq f(x_0) \quad \forall x \in [a,b].$$

$\square$

Corolario. Sea $f: [a,b] \to \mathbb{R}$ continua en $[a,b]$. Entonces existe $x_1 \in [a,b]$ tal que para todo $x \in [a,b]$ se tiene que $f(x_1) \leq f(x)$.

Demostración.

Consideremos la función $g: [a,b] \to \mathbb{R}$, $g(x) = -f(x)$ continua en $[a,b]$.

Por el teorema anterior existe $x_1 \in [a,b]$ tal que

\begin{gather*}
& g(x) \leq g(x_1) \quad \forall x \in [a,b]. \\
\Rightarrow & -f(x) \leq -f(x_1) \quad \forall x \in [a,b]. \\
\end{gather*}

$$\therefore f(x_1) \leq f(x) \quad \forall x \in [a,b].$$

$\square$

Más adelante…

En la siguiente entrada estudiaremos resultados derivados del teorema del valor intermedio y del teorema del máximo-mínimo, razón por la cual será fundamental tenerlos presentes.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Sean $f$, $g: \mathbb{R} \to \mathbb{R}$. Prueba que si $f$ y $g$ están acotadas en $\mathbb{R}$, entonces la suma $f+g$ también está acotada en $\mathbb{R}$.
  • Si $B \subset A$, $C \subset A$. Si $f$ está acotada en $B$ y en $C$, entonces $f$ está acotada en $B \cup C$.
  • Prueba que si $f : \mathbb{R} \to \mathbb{R}$ está acotada en $\mathbb{R}$ y definimos $g: \mathbb{R} \to \mathbb{R}$ tal que $g(x)=xf(x)$, entonces $g$ es continua en $x_0=0.$
  • Si $f$ es una función continua en $[0,1]$, sea $||f||$ el valor máximo de $|f|$ en $[0,1]$. Prueba que $||c \cdot f|| = |c|\cdot||f||$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»