Archivo de la etiqueta: transformaciones

Geometría Analítica I: Introducción a resultados de clasificación

Por Leonardo Ignacio Martínez Sandoval

Introducción

En tu formación matemática muchas veces te encontrarás con resultados de clasificación. Pero, ¿qué es clasificar en este contexto? A grandes rasgos, consiste en poder decir de manera sencilla cómo son todos los objetos matemáticos que se estén estudiando en un contexto dado.

En esta entrada hablaremos un poco más del problema de clasificar ciertos objetos matemáticos. Iniciaremos con un ejemplo «de juguete» muy básico. Luego, hablaremos de cómo en las clasificaciones geométricas podemos usar transformaciones. Finalmente, daremos un ejemplo sencillo de cómo usar estas ideas en la clasificación de los segmentos del plano.

Ejemplo básico de clasificación

Cuando queremos hacer una clasificación, en el sentido matemático, lo que queremos hacer es tomar algunos objetos matemáticos y decir, bajo algún criterio cómo son todos los «tipos posibles» que existen para esos objetos. Esto puede ser respondido de muchas formas, así que es fundamental acordar dos cosas con precisión:

  1. ¿Cuáles son los objetos que queremos clasificar?
  2. ¿Bajo qué criterio diremos que dos de esos objetos son «del mismo tipo»?

Al final del proceso, nos gustaría tener una lista relativamente fácil de escribir de todas las posibilidades. Esto puede ayudar posteriormente a resolver otros problemas matemáticos o bien a desarrollar más teoría.

Comencemos con un ejemplo «de juguete». Será muy sencillo, pero nos permitirá hablar de algunas de las sutilezas que nos encontraremos en contextos más abstractos. Considera la siguiente figura en la que hay varias figuras geométricas.

Imagina que nos piden «clasificar todas las figuras que están aquí». Lo que nos gustaría obtener al final es una lista con la clasificación, es decir con «todas las posibilidades» de figuras que hay. Si sólo nos dan esta instrucción, entonces estaríamos en problemas: hay muchas formas de clasificar estos objetos.

Una posible clasificación es por forma. Si consideramos equivalentes a dos de estas figuras cuando tienen la misma forma, entonces nuestra lista de posibilidades se reduce a tres: triángulos, cuadrados y círculos. Nuestro teorema de clasificación se vería así:

Teorema. Cualquier figura de la imagen tiene alguna de las siguientes formas:

  1. Triángulo
  2. Cuadrado
  3. Círculo

Este teorema de clasificación está padre. Pero puede ser inútil en algunos contextos. Por ejemplo, imagina que las figuras son muestras que está regalando una tienda de pinturas para que puedas llevarlas a tu casa y usarlas para ver si te gustaría pintar una pared con el color dado. Para estos fines es (prácticamente) lo mismo que te den un cuadrado azul o un triángulo azul. Lo único que importa es el color.

Pensar de esta manera nos da otra manera de clasificar a las figuras: por color. Si usamos esta noción de equivalencia, entonces nuestro resultado de clasificación sería muy distinto.

Teorema. Cualquier figura de la imagen es de alguno de los siguientes colores:

  1. Rojo
  2. Naranja
  3. Amarillo
  4. Verde
  5. Azul

Pero podríamos querer ser mucho más estrictos y querer clasificar considerando ambos criterios: tanto la forma como el color. Quizás uno podría pensar que como hay tres figuras y cinco colores, entonces hay $3\cdot 5=15$ posibilidades en esta clasificación. Obtendríamos el siguiente resultado.

Teorema. Cualquier figura de la imagen es de alguno de los siguientes 15 tipos: triángulo rojo, triángulo naranja, triángulo amarillo, triángulo verde, triángulo azul, cuadrado rojo, cuadrado naranja, cuadrado amarillo, cuadrado verde, cuadrado azul, círculo rojo, círculo naranja, círculo amarillo, círculo verde, círculo azul.

Estrictamente hablando, este resultado es correcto: cualquier figura es de alguno de esos tipos. Pero el teorema tiene algo incómodo: nos está dando posibilidades que no suceden. Por ejemplo, no hay cuadrados amarillos, ni círculos azules.

Una clasificación con forma y color que nos dejaría más satisfecho sería la siguiente:

Teorema. Cualquier figura de la imagen es de alguno de los siguientes 11 tipos:

  1. Triángulo rojo
  2. Triángulo naranja
  3. Triángulo amarillo
  4. Triángulo azul
  5. Cuadrado rojo
  6. Cuadrado naranja
  7. Cuadrado azul
  8. Círculo rojo
  9. Círculo naranja
  10. Círculo amarillo
  11. Círculo verde

Más aún, cualquiera de estas posibilidades sucede.

Este resultado se siente mucho más satisfactorio. Por un lado, no está agregando a la lista «opciones de más». Por otro lado, a partir de él podemos demostrar proposiciones sin tener que volver a ver la figura. Algunos ejemplos son los siguientes:

  • Ningún círculo de nuestra figuras es azul.
  • Todas las figuras verdes son círculos.
  • Ninguna figura amarilla es un cuadrado.

Para mostrar cualquiera de estas, basta ver nuestra clasificación.

¿Podemos dar una clasificación mucho más estricta? Sí, por supuesto. Por ejemplo, podemos considerar dos figuras iguales sólo cuando tienen exactamente la misma figura, color y posición. En este caso nuestro teorema de clasificación tendría un tipo por cada una de las 19 figuras. Esta clasificación también se siente un poco insatisfactoria pues en realidad no estamos «agrupando» figuras, sino simplemente «poniendo a cada una en su propio grupo». Pero bueno, es una clasificación válida también.

Uso de relaciones de equivalencia y particiones

Una manera de formalizar una clasificación es a partir de relaciones de equivalencia y particiones. Recordemos las siguientes dos definiciones:

Definición. Una relación de equivalencia en un conjunto $X$ es una colección de parejas $(x,y)$ en $X\times X$ tales que:

  • (Reflexividad) Para cualquier $x$ en $X$ la pareja $(x,x)$ está en la colección.
  • (Simetría) Si para algunos $x,y$ en $X$ se cumple que la pareja $(x,y)$ está en la colección, entonces la pareja $(y,x)$ también está en la colección.
  • (Transitividad) Si para algunos $x,y,z$ en $X$ se cumple que tanto las parejas $(x,y)$ como $(y,z)$ están en la colección, entonces la pareja $(x,z)$ también está.

Las relaciones de equivalencia nos ayudan a decir cuándo dos objetos de $X$ «son iguales» o «son el mismo» bajo algún criterio usualmente más relajado que la igualdad.

Definición. Una partición de un conjunto $X$ es una colección de conjuntos $(A_i)_{i \in I}$ para algún conjunto de índices $I$ tal que ninguno de los $A_i$ es vacío, cualesquiera dos de ellos tienen intersección vacía y $X=\cup_{i\in I}A_i$.

Un resultado clásico de teoría de conjuntos dice que «una relación de equivalencia da una partición, y viceversa». Formalmente, dada una relación de equivalencia $R$ en un conjunto $X$, podemos crear la clase de equivalencia de un elemento $x$ en $X$ como sigue: $$\overline(x):=\{y \in X: (x,y)\in R\}.$$ El conjunto $\{\overline{x}:x\in X\}$ da una colección de conjuntos que es una partición de $X$. Y viceversa, si tenemos una partición $(A_i)_{i \in I}$, entonces podemos considerar las parejas $(x,y)$ de elementos tales que $x$ y $y$ están en un mismo $A_i$, de donde obtenemos una relación de equivalencia.

Regresando a la idea de clasificar, podemos realizar una clasificación a través de una relación de equivalencia o de una partición. Las clases de equivalencia son los «tipos» de objetos que tenemos. Podemos dar un representante «sencillo» dentro de cada clase de equivalencia para hacer nuestra lista de los posibles «tipos» que existen.

Ejemplo. En los números enteros podemos decir que dos enteros $x$ y $y$ están relacionados cuando $x-y$ es un número par. Es fácil mostrar que esto da una relación de equivalencia y que las clases de equivalencia en este caso son los conjuntos:

\begin{align*}
P&=\{\ldots,-4,-2,0,2,4,\ldots\},
Q&=\{\ldots,-3,-1,1,3,\ldots\}.
\end{align*}

Tenemos que $P$ y $Q$ forman una partición del conjunto $\mathbb{Z}$ de números enteros. Así, esta relación clasifica a los enteros en dos tipos: los pares y los impares. Otra forma de dar esta clasificación es diciendo que «Cualquier entero es equivalente al $0$ o al $1$», o más explícitamente, «Para cualquier entero $z$ se tiene que o bien $z$ es par, o bien $z-1$ es par».

$\triangle$

Clasificación de segmentos del plano con transformaciones

Hacia donde queremos ir es hacia una clasificación relacionada con la geometría. Por esta razón, las relaciones de equivalencia, particiones o «tipos» de objetos que obtendremos estarán relacionados con nociones geométricas. Una manera de hacer esto es mediante las transformaciones que estuvimos estudiando en la unidad anterior: transformaciones afines, traslaciones, isometrías, transformaciones ortogonales, etc.

Por ejemplo, pensemos en que estamos hablando de los segmentos cerrados y acotados en el plano cartesiano. Es decir, de acuerdo a lo que estudiamos en la primera unidad, para cualesquiera dos puntos distintos $P$ y $Q$ en el plano estamos considerando el conjunto $$\overline{PQ}=\{pP+qQ:0\leq p \leq 1, 0 \leq q \leq 1, p+q=1\}.$$ En la siguiente figura puedes ver algunos de los (muchos) segmentos que hay en el plano:

Familia de segmentos

¿Cómo podemos clasificar a todos los segmentos que hay en el plano? Antes de cualquier cosa, tenemos que ponernos de acuerdo en la clasificación. Una manera de hacer esto es mediante transformaciones del plano. Veamos un par de ejemplos.

Ejemplo. Una primer opción es que digamos que dos segmentos son del mismo tipo cuando podamos trasladar uno de ellos al otro. Si hacemos esto, casi todos los segmentos de la siguiente figura serían del mismo tipo.

Familia de segmentos

El único que no es del mismo tipo que los demás sería el segmento punteado que, aunque lo dibujamos intencionalmente de la misma longitud que los demás, no resulta ser equivalente pues es imposible trasladarlo a alguno de los otros segmentos. Con esta noción de segmentos equivalentes, ¿qué posibilidades tendríamos? Es más o menos fácil convencerse de que para que dos segmentos sean del mismo tipo con esta clasificación necesitamos que a) sean paralelos y b) tengan la misma longitud. Por ello mismo, no es tampoco difícil convencerse del siguiente teorema de clasificación.

Teorema. Cualquier segmento del plano es equivalente bajo traslaciones a un segmento tal que uno de sus extremos es el origen.

$\square$

Veamos otra manera de clasificar los segmentos del plano.

Ejemplo. Diremos que dos segmentos son del mismo tipo si podemos llevar uno al otro a través de una isometría. Si hacemos esto entonces ahora sí todos los segmentos de la siguiente figura son equivalentes (pensando en que el segmento punteado tiene la misma longitud que los otros).

De hecho, por lo que sabemos de las isometrías podemos afirmar que bajo este criterio dos segmentos son del mismo tipo si y sólo si tienen la misma longitud. Esto nos llevaría a un teorema de clasificación un poco distinto.

Teorema. Cualquier segmento se puede mediante isometrías a un segmento que sale del origen y termina en un punto del la forma $(x,0)$ con $x>0$. Más aún, todos estos segmentos son de distinto tipo.

$\square$

En los dos ejemplos anteriores hemos sido un poco informales, pues dejamos varias cosas sin demostrar. Seguramente podrás detectarlas e intentar completar los argumentos que faltan. Algunas de estas cosas faltantes están en los ejercicios.

Más adelante…

En esta entrada hablamos de la noción de «clasificar» de manera muy general, con el fin de entenderla y ver algunas de las sutilezas que nos encontraremos más adelante. A partir de ahora nos enfocaremos en probar resultados de clasificación muy específicos, relacionados con las cónicas.

Sin embargo, queremos ser muy precisos con respecto a la clasificación que daremos. Por esta razón, en las siguientes dos entradas hablaremos de los objetos específicos que queremos clasificar y de las nociones de equivalencia que permitiremos.

Tarea moral

  1. Verifica que en nuestro ejemplo de juguete la relación «tener el mismo color» es una relación de equivalencia.
  2. Para cada una de las clasificaciones que dimos en nuestro ejemplo de juguete encuentra cuántas de las figuras originales hay en cada una de las clases.
  3. Demuestra que la relación en $\mathbb{Z}$ en la cual tenemos a $(x,y)$ si y sólo si $x-y$ es un número par es una relación de equivalencia. Muestra que en este caso la partición consiste en el conjunto de los números pares, y el conjunto de los números impares.
  4. Sea $S$ el conjunto de segmentos en el plano. Diremos un elemento $s_1$ de $S$ es traslacionalmente equivalente a otro elemento $s_2$ de $S$ si existe una traslación $T$ de $\mathbb{R}^2$ tal que $T(s_1)=s_2$. Demuestra que «ser traslacionalmente equivalente a» es una relación de equivalencia en $S$.
  5. Da teoremas de clasificación de las rectas en $\mathbb{R}$ usando transformaciones para cada una de las siguientes posibilidades:
    1. Dos rectas son del mismo tipo si se puede llevar una a otra mediante una traslación.
    2. Dos rectas son del mismo tipo si se puede llevar una a la otra mediante una rotación.
    3. Dos rectas son del mismo tipo si se puede llevar una a la otra mediante una isometría.

Entradas relacionadas

Probabilidad I: Transformaciones de Variables Aleatorias

Por Octavio Daniel Ríos García

Introducción

En la entrada pasada vimos el último tipo importante de v.a. que veremos, por ahora: las v.a.’s mixtas. En particular, vimos una manera de construir v.a.’s mixtas siguiendo un método muy sencillo: evaluando el $\max$ y el $\min$ en alguna v.a. continua. Esto puede pensarse como «transformar» la v.a. continua dada mediante las funciones $\max$ y $\min$. No sólamente la transformación fue posible, sino que además la función resultante es una v.a., y obtuvimos su función de distribución. Este proceso puede generalizarse para obtener la distribución de muchas más funciones de v.a.’s continuas.

Composición de funciones y variables aleatorias

Una de las cosas que hicimos en la entrada pasada fue ver que, dada una v.a. continua $X$, podíamos obtener v.a.’s mixtas a partir de $X$. Vamos a refinar un poco lo que hicimos en la entrada pasada. Sea $c\in\RR$, y sea $\mathrm{max}_{c}\colon\RR\to\RR$ la función dada por

\begin{align*} \mathrm{max}_{c}(x) &= \max{\left\lbrace x, c \right\rbrace}, & \text{para cada $x\in\RR$.} \end{align*}

De este modo, definimos una v.a. nueva $U$ como $U = \mathrm{max}_{c}(X)$. Sin embargo, ¿qué es exactamente «$\mathrm{max}_{c}(X)$»? Sabemos que $X$ es una «variable aleatoria», lo que significa que $U$ es como «evaluar» una función en una variable aleatoria. No obstante, esto no es otra cosa que… ¡una composición de funciones! Como recordatorio de Álgebra Superior I, dadas funciones $f\colon A\to B$, $g\colon B\to C$, la composición $g \circ f \colon A \to C$, llamada $f$ seguida de $g$, se define como

\begin{align*} g \circ f (x) &= g(f(x)), & \text{para cada $x\in A$.} \end{align*}

Recordando la definición de variable aleatoria, cuando tenemos un espacio de probabilidad $(\Omega, \mathscr{F}, \mathbb{P})$ sabemos que una función $X\colon\Omega\to\RR$ es una variable aleatoria si satisface una condición de «medibilidad», que dimos hace unas entradas. De momento, lo que más nos importa es que una v.a. es una función. En consecuencia, la v.a. $U$ que definimos no es otra cosa que $\mathrm{max}_{c} \circ X\colon\Omega\to\RR$, dada por

\begin{align*} \mathrm{max}_{c} \circ X (\omega) &= \max{\{ X(\omega), c \}}, & \text{para cada $x \in \Omega$}, \end{align*}

que es justamente como la definimos en la entrada anterior a esta. Ahora bien, dadas una v.a. $X\colon\Omega\to\RR$ y una función $g\colon\RR\to\RR$, hay que tener cuidado con $g$ para que $g \circ X$ sea una v.a., pues puede pasar que la función resultante no es una variable aleatoria, de acuerdo con la definición. Nosotros nos abstendremos de presentar casos degenerados de ese estilo, pero expondremos las condiciones que se necesitan para que una transformación de una v.a. sea nuevamente una v.a.

¿Cuáles funciones sí dan como resultado variables aleatorias?

Comenzaremos con una definición general del tipo de funciones que nos serán útiles.


Definición. Si $g\colon\RR\to\RR$ es una función, diremos que $g$ es una función Borel-medible si para cada $B \in \mathscr{B}(\RR)$ se cumple que $g^{-1}(B) \in \mathscr{B}(\RR)$.

Es decir, $g$ es una función Borel-medible si la imagen inversa de cualquier elemento del σ-álgebra de Borel es también un elemento del σ-álgebra de Borel.


Si recuerdas la definición de variable aleatoria, podrás observar que… ¡Es casi la misma! En realidad, ambas son el mismo concepto en la teoría más general: son funciones medibles. En particular, las funciones Borel-medibles reciben su nombre por el σ-álgebra que preservan: el σ-álgebra de Borel. De hecho, observa que las funciones Borel-medibles son un caso particular de nuestra definición de variable aleatoria, usando $(\RR, \mathscr{B}(\RR), \mathbb{P})$ como espacio de probabilidad. Por ello, todos los resultamos que hemos visto hasta ahora para v.a.’s aplican para funciones Borel-medibles.

Resulta que esta clase de funciones son aquellas que, al componer con una v.a., nos devuelven otra variable aleatoria.


Proposición. Sean $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad, $X\colon\Omega\to\RR$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible. Entonces $g \circ X \colon\Omega\to\RR$ es una variable aleatoria.


Demostración. Queremos demostrar que $g \circ X$ es una variable aleatoria. Es decir, que para cada $A \in \mathscr{B}(\RR)$ se cumple que $(g \circ X)^{-1}[A] \in \mathscr{F}$. Ahora, $(g \circ X)^{-1}[A] = X^{-1}[g^{-1}[A]]$, por propiedades de la imagen inversa. En consecuencia, hay que ver que para cada $A \in \mathscr{B}(\RR)$ se cumple que $X^{-1}[g^{-1}[A]] \in \mathscr{F}$.

Sea $A \in \mathscr{B}(\RR)$. Como $g$ es una función Borel-medible, esto implica que $g^{-1}[A] \in \mathscr{B}(\RR)$. Ahora, como $X$ es una variable aleatoria, $g^{-1}[A] \in \mathscr{B}(\RR)$ implica $X^{-1}[g^{-1}[A]] \in \mathscr{F}$, que es justamente lo que queríamos demostrar.

$\square$

Así, si $g\colon\RR\to\RR$ es una función Borel-medible y $X\colon\Omega\to\RR$ es una variable aleatoria, entonces $g \circ X$ es también una variable aleatoria.

Pero entonces, ¿qué funciones podemos usar?

A pesar de que lo anterior nos da muchas funciones con las cuales transformar v.a.’s, de momento quizás no conozcas ninguna función Borel-medible. No temas, el siguiente teorema nos da una gran cantidad de funciones que son Borel-medibles, y con las cuales seguramente te has encontrado antes.


Proposición. Si $g\colon\RR\to\RR$ es una función continua, entonces es Borel-medible.


Demostración. Sea $g\colon\RR\to\RR$ una función continua. Queremos demostrar que $g$ es Borel-medible. Es decir, que para cada $x \in \RR$, $X^{-1}[(-\infty, x)] \in \mathscr{B}(\RR)$.

Sea $x\in\RR$. Como $(-\infty, x)$ es un intervalo abierto, es un subconjunto abierto (en la topología usual) de $\RR$. En consecuencia, como $g$ es continua, $g^{-1}[(-\infty, x)]$ también es un subconjunto abierto de $\RR$.

Ahora, como $g^{-1}[(-\infty, x)]$ es un abierto, esto implica que existe una familia numerable de intervalos abiertos $\{ I_{n} \}_{n=1}^{\infty}$ tales que

\[ g^{-1}[(-\infty, x)] = \bigcup_{n=1}^{\infty} I_{n}. \]

Nota que como $I_{n}$ es un intervalo abierto, para cada $n \in \mathbb{N}^{+}$, entonces $I_{n} \in \mathscr{B}(\RR)$. Por lo tanto, $\bigcup_{n=1}^{\infty} I_{n} \in \mathscr{B}(\RR)$, que implica $g^{-1}[(-\infty, x)] \in \mathscr{B}(\RR)$, que es justamente lo que queríamos demostrar.

$\square$

Es muy probable que estés cursando Cálculo Diferencial e Integral III al mismo tiempo que esta materia, por lo que quizás no hayas visto algunos detalles de la topología usual de $\RR$ que utilizamos en la demostración anterior. Puedes consultar nuestras notas de Cálculo Diferencial e Integral III sobre el tema si lo consideras necesario.

Con esta última proposición hemos encontrado una gran cantidad de funciones válidas para transformar v.a.’s. Seguramente conoces muchísimas funciones continuas: los polinomios, funciones lineales, algunas funciones trigonométricas (como $\sin$ y $\cos$), etcétera.

Un primer método para obtener la distribución de una transformación

Una vez que conocemos muchas funciones con las cuales podemos transformar v.a.’s, nuestro objetivo es encontrar la distribución de tales transformaciones. Si $g\colon\RR\to\RR$ es una función Borel-medible y $X\colon\Omega\to\RR$ es una v.a. (cuya función de distribución es conocida), queremos encontrar la distribución de $Y = g \circ X$. Para hacerlo, basta con encontrar la probabilidad de los eventos de la forma

\begin{align*} (Y \leq y) = (g \circ X \leq y) = \{ \, \omega \in \Omega \mid g(X(\omega)) \leq y \, \}. \end{align*}

Es común encontrar la notación $g(X) = g \circ X$, y de este modo, se usa $(g(X) \leq y)$ para referirse a los eventos $(g \circ X \leq y)$.

Sin embargo, el caso de las v.a.’s discretas puede ser más sencillo, ya que la función de masa de probabilidad caracteriza el comportamiento de ese tipo de v’a’s. Veamos cómo hacerlo mediante el siguiente ejemplo.

Ejemplo. Sea $Z$ una v.a. con función de masa de probabilidad $p_{Z}\colon\RR\to\RR$ dada por

\begin{align*} p_{Z}(z) = \begin{cases} \dfrac{1}{5} & \text{si $z \in \{-2, -1, 0, 1, 2 \}$}, \\[1em] 0 & \text{en otro caso}. \end{cases}\end{align*}

Figura. Gráfica de la función de masa de probabilidad de $Z$.

Ahora, sea $g\colon\RR\to\RR$ la función dada por

\begin{align*} g(x) &= x^{2} & \text{para cada $x \in \RR$.} \end{align*}

Defínase $Y = g (Z)$, es decir, $Y = Z^{2}$. Primero, el conjunto de posibles valores que puede tomar $Y$ es

\[ \{\, z^2 \mid z \in \textrm{Im}(Z) \,\} = \{ (-2)^{2}, (-1)^{2}, 0^{2}, 1^{2}, 2^{2} \} = \{ 4, 1, 0, 1, 4 \} = \{ 0, 1, 4 \}. \]

Observa que $Y$ puede tomar $3$ valores distintos, mientras que $Z$ puede tomar $5$. Ya desde este momento se nota que las probabilidades de los eventos que involucran a $Y$ van a ser distintas a los de $Z$.

Sea $y \in \RR$. Para obtener la función de masa de probabilidad de $Y$ tenemos que obtener la probabilidad de los eventos de la forma $(Y = y)$. Este evento es

\[ (Y = y) = \{\,\omega\in\Omega\mid Y(\omega) = y \,\}, \]

Es decir, $\omega\in (Y=y) \iff Y(\omega) = y$. Usando la definición de $Y$, se tiene que

\begin{align*} \omega\in (Y = y) &\iff Y(\omega) = y \\[1em] &\iff (g \circ Z)(\omega) = y \\[1em] &\iff g(Z(\omega)) = y \\[1em] &\iff (Z(\omega))^{2} = y \\[1em] &\iff {\left|Z(\omega)\right|} = \sqrt{y} \\[1em] &\iff (Z(\omega) = \sqrt{y} \lor Z(\omega) = -\sqrt{y}), \end{align*}

esto es, $\omega$ es un elemento de $(Y=y)$ si y sólamente si $Z(\omega) = \sqrt{y}$ o $Z(\omega) = -\sqrt{y}$. Esto es equivalente a que $\omega \in (Z = \sqrt{y}) \cup (Z = -\sqrt{y})$, por lo que podemos concluir que

\[ (Y = y) = (Z = \sqrt{y}) \cup (Z = -\sqrt{y}). \]

En consecuencia, $\Prob{Y = y} = \Prob{(Z = \sqrt{y}) \cup (Z = -\sqrt{y})}$, y así:

\[ \Prob{Y = y} = \Prob{Z = \sqrt{y}} + \Prob{Z = -\sqrt{y}}. \]

Para $y < 0$, observa que

\[ (Z = \sqrt{y}) = \{\,\omega\in\Omega\mid Z(\omega) = \sqrt{y} \,\} = \emptyset, \]

pues $Z$ toma valores en los reales, no en los complejos. Del mismo modo, cuando $y < 0$, $(Z = -\sqrt{y}) = \emptyset$; y así,

\begin{align*} \Prob{Y = y} &= \Prob{Z = \sqrt{y}} + \Prob{Z = -\sqrt{y}} = 0, & \text{para $y < 0$.} \end{align*}

Por otro lado, para $y \geq 0$, sólamente hay $3$ valores que importan: $0$, $1$ y $4$, como acordamos previamente. Para el caso de $y = 0$, observa que $(Z = \sqrt{0}) \cup (Z = -\sqrt{0}) = (Z = 0)$, pues

\begin{align*} \omega \in (Z = \sqrt{0}) \cup (Z = -\sqrt{0}) &\iff (Z(\omega) = \sqrt{0} \lor Z(\omega) = -\sqrt{0}) \\[1em] &\iff (Z(\omega) = 0 \lor Z(\omega) = 0) \\[1em] &\iff Z(\omega) = 0 \\[1em] &\iff \omega \in (Z = 0). \end{align*}

Por lo tanto, se tiene que

\begin{align*}
\Prob{Y = 0} &= \Prob{Z = 0} = \frac{1}{5}.
\end{align*}

Para $y = 1$ y $y = 4$ sí podemos aplicar la fórmula que obtuvimos:

\begin{align*} \Prob{Y = 1} &= \Prob{Z = \sqrt{1}} + \Prob{Z = -\sqrt{1}} = \Prob{Z = 1} + \Prob{Z = -1} = \frac{1}{5} + \frac{1}{5} = \frac{2}{5}, \\[1em] \Prob{Y = 4} &= \Prob{Z = \sqrt{4}} + \Prob{Z = -\sqrt{4}} = \Prob{Z = 2} + \Prob{Z = -2} = \frac{1}{5} + \frac{1}{5} = \frac{2}{5}. \end{align*}

En conclusión, la función de masa de probabilidad de $Y$ es la función $p_{Y}\colon\RR\to\RR$ dada por

\begin{align*} p_{Y}(y) &= \begin{cases} \dfrac{1}{5} & \text{si $y = 0$,} \\[1em] \dfrac{2}{5} & \text{si $y = 1$ o $y = 4$,} \\[1em] 0 &\text{en otro caso.} \end{cases} \end{align*}

Figura. Función de masa de probabilidad de $Y$.

El ejemplo anterior ilustra lo que se debe de hacer para obtener las probabilidades de la transformación de una v.a. discreta. Sea $X\colon\Omega\to\RR$ una v.a. y sea $g\colon\RR\to\RR$ una función Borel-medible. Para cada $A \in \mathscr{B}(\RR)$, sabemos que el evento $(X \in A)$ no es otra cosa que $X^{-1}[A]$. Definimos la v.a. $Y$ como $Y = g(X)$. Ahora, sabemos que para cada $\omega\in\Omega$ se cumple que

\[ \omega \in X^{-1}[A] \iff X(\omega) \in A, \]

por la definición de imagen inversa. En consecuencia, para $(Y \in A)$ tenemos que

\begin{align*} \omega \in (Y \in A) &\iff \omega \in (g(X) \in A) \\[1em] &\iff g(X(\omega)) \in A \\[1em] &\iff X(\omega) \in g^{-1}[A] \\[1em] &\iff \omega \in (X \in g^{-1}[A]). \end{align*}

Por lo que $(Y \in A) = (X \in g^{-1}[A])$. Por ello, $\Prob{Y \in A} = \Prob{X \in g^{-1}[A]}$. Esto tiene sentido: como $Y = g(X)$, entonces la probabilidad de que $g(X)$ tome algún valor en $A$ es la misma que la probabilidad de que $X$ tome algún valor en $g^{-1}[A]$, pues todos los elementos de $g^{-1}[A]$ son mandados a $A$ cuando se les aplica $g$.

Finalmente, utilizando que $X$ es una v.a. discreta, tendremos que

\begin{align}\label{transf:1} \Prob{Y \in A} = \sum_{x \in g^{-1}[A]} \Prob{X = x}. \end{align}

En el caso particular en el que existe $y \in \RR$ tal que $A = \{ y \}$, tendremos que

\begin{align}\label{transf:2} \Prob{Y = y} = \sum_{x \in g^{-1}[\{ y\}]} \Prob{X = x}, \end{align}

justamente como hicimos en el ejemplo anterior. A continuación presentamos otro ejemplo siguiendo la misma metodología.

Ejemplo. Sea $V$ una v.a. con función de masa de probabilidad $p_{V}\colon\RR\to\RR$ dada por

\begin{align*} p_{V}(v) = \begin{cases} \dfrac{1}{2^{|v|+1}} & \text{si $v \in \{-3,-2,-1,1,2,3\}$}, \\[1em] \dfrac{1}{16} & \text{si $v = 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Figura. Gráfica de la función de masa de probabilidad de $V$.

Nuevamente, considera la transformación $g\colon\RR\to\RR$ dada por $g(x) = x^{2}$ para cada $x \in \RR$. De este modo, defínase la v.a. $T$ como $T = g(V)$. Antes que nada, el conjunto de valores que puede tomar $T$ es el resultado de transformar el conjunto de los valores que puede tomar $V$. Si $\mathrm{Supp}(V) = \{-3,-2,-1,0,1,2,3\}$ es el conjunto de valores que puede tomar $V$, entonces el conjunto de valores que puede tomar $T$ es

\[ g{\left( \mathrm{Supp}(V) \right)} = \{ \, t \in \RR \mid \exists v \in \mathrm{Supp}(V)\colon g(v) = t \, \} = \{0, 1, 4, 9 \}. \]

Como $g$ es la misma transformación que en el ejemplo anterior, hay algunas cosas que ya sabemos. Primero,

\begin{align*} \Prob{T = t} &= 0, & \text{para cada $t < 0$},\end{align*}

mientras que para $t = 0$, se tiene que $\Prob{T = 0} = \Prob{V = 0} = \frac{1}{8}$. Para $t > 0$, vimos previamente que $g^{-1}[\{t\}] = \{ \sqrt{t}, -\sqrt{t} \}$. Así, tendremos que

\begin{align*} \Prob{T = t} = \sum_{v \in g^{-1}[\{ t \}]} \Prob{V = v} = \Prob{V = \sqrt{t}} + \Prob{V = -\sqrt{t}}. \end{align*}

En particular, la v.a. $V$ sólamente toma probabilidades mayores a $0$ en $\{-3, -2, -1, 0, 1, 2, 3 \}$, por lo que $\Prob{T = t} > 0$ para $t \in \{0, 1, 4, 9 \}$, y $\Prob{T = t} = 0$ en otro caso. Así, tenemos que

\begin{align*} \Prob{T = 1} &= \Prob{V = \sqrt{1}} + \Prob{V = -\sqrt{1}} = \frac{1}{2^{|1| + 1}} + \frac{1}{2^{|-1|+1}} = \frac{1}{2^2} + \frac{1}{2^{2}} = \frac{2}{4} = \frac{1}{2}, \\[1em] \Prob{T = 4} &= \Prob{V = \sqrt{4}} + \Prob{V = -\sqrt{4}} = \frac{1}{2^{|2| + 1}} + \frac{1}{2^{|-2|+1}} = \frac{1}{8} + \frac{1}{8} = \frac{1}{4}, \\[1em] \Prob{T = 9} &= \Prob{V = \sqrt{9}} + \Prob{V = -\sqrt{9}} = \frac{1}{2^{|3| + 1}} + \frac{1}{2^{|-3|+1}} = \frac{1}{16} + \frac{1}{16} = \frac{1}{8}. \end{align*}

Alternativamente, podemos obtener una fórmula cerrada para cada $t \in \{1, 4, 9 \}$, que queda así:

\begin{align*} \Prob{T = t} = \Prob{V = \sqrt{t}} + \Prob{V = -\sqrt{t}} &= \frac{1}{2^{{\left|\sqrt{t}\right|} + 1}} + \frac{1}{2^{{\left|-\sqrt{t}\right|} + 1}} \\[1em] &= \frac{1}{2^{\sqrt{t} + 1}} + \frac{1}{2^{\sqrt{t} + 1}} \\[1em] &= \frac{2}{2^{\sqrt{t} + 1}} \\[1em] &= \frac{1}{2^{\sqrt{t}}}.\end{align*}

Y así obtenemos una expresión para la función de masa de probabilidad de $T$:

\begin{align*} p_{T}(t) = \begin{cases} \dfrac{1}{2^{\sqrt{t}}} & \text{si $t \in \{1,4,9\}$}, \\[1em] \dfrac{1}{8} & \text{si $t = 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Figura. Gráfica de la función de masa de probabilidad de $T$.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la función de masa de probabilidad de la v.a. $Z$ del primer ejemplo satisface las propiedades de una función de masa de probabilidad.
  2. Haz lo mismo para la función de masa de probabilidad de la v.a. $V$ del segundo ejemplo.
  3. Retomando los dos ejemplos vistos en esta entrada y las v.a.’s $Z$ y $V$ de cada ejemplo, y tomando la transformación $f\colon\RR\to\RR$ dada por $f(x) = x^{3} − x^{2} − 4x + 4$:
    1. Encuentra la función de masa de probabilidad de $f(Z)$.
    2. Encuentra la función de masa de probabilidad de $f(V)$.

Más adelante…

El método expuesto en esta entrada funciona para cualquier variable aleatoria discreta. No hay fórmulas «cerradas» para la f.m.p. (función de masa de probabilidad) de la transformación de una v.a. discreta. Sin embargo, las fórmulas \eqref{transf:1} y \eqref{transf:2} son suficientes para encontrar las probabilidades de eventos que involucran a la transformación de la v.a. discreta conocida. No obstante, estas fórmulas sólamente funcionan para v.a.’s discretas. Por ello, en la siguiente entrada centraremos nuestra atención en el caso de las v.a.’s continuas.

Entradas relacionadas

Geometría Analítica I: Homotecias y semejanzas

Por Paola Lizeth Rojas Salazar

Introducción

En esta ocasión, vamos a estudiar dos transformaciones importantes en las matemáticas, que ya hemos mencionado en entradas anteriores, pero que no hemos definido. Estas transformaciones son las semejanzas y las homotecias.

Homotecias

Las homotecias son las transformaciones que hacen que una figura aumente o disminuya de tamaño (como si aplicáramos un «zoom» a la figura). El cuánto aumenta o disminuye esta figura, es lo que llamaremos «factor de expansión», que tendrá un centro que se va a mantener mientras la figura aumenta o disminuye de tamaño, a este centro lo llamaremos «centro de expansión».

Cuando el centro de expansión es el origen, tenemos una transformación lineal con la siguiente matriz asociada:

\begin{equation}kI=\begin{pmatrix} k & 0 \\ 0 & k\end{pmatrix}\end{equation}

Con $k>0$.

Si $k>1$, tenemos un aumento y, si $k<1$, tenemos una disminución.

Si ahora componemos esta matriz con una traslación por $b \in \mathbb R^2$, obtenemos una homotecia de factor $k$ con centro de expansión $c$ que es el punto fijo que se obtiene resolviendo la siguiente ecuación:

\begin{equation}kx+b=x \end{equation}

Semejanzas

Las semejanzas son transformaciones que preservan ángulos.

Observa que las homotecias y las isometrías son semejanzas. Lo anterior muestra que las tres transformaciones están relacionadas, a continuación hablaremos más a fondo de esta relación.

Teorema 3.25: Si $f:\mathbb R^2 \to \mathbb R^2$ es una semejanza, entonces existen $k>0$, $A\in O(2)$ y $b \in \mathbb R^2$ tales que:

\begin{equation} f(x)=kAx+b \end{equation}

Demostración

Considera la transformación lineal $g(x)=f(x)-b$, con $b:=f(0)$. Esta transformación es una traslación, por lo que preserva ángulos.

También considera a $B=(u,v)$, la matriz asociada a $g$, donde $u$ y $v$ son ortogonales con la misma norma $(*)$.

Finalmente, sean $k=|u|=|v|$ y $A=\frac{B}{k}$.

Observa que $A\in O(2)$ porque sus columnas son ortonormales y que, además:

\begin{equation} f(x)=g(x)+b=Bx+b=k Ax+b\end{equation}

Lo que concluye la demostración.

Tarea moral

  1. Demuestra, en $(*)$, que $u$ y $v$ son ortogonales con la misma norma.
  2. Encuentra la expresión de la homotecia de factor de expansión $k$ y centro $c$.
  3. Demuestra que una transformación $f:\mathbb R^2 \to \mathbb R^2$ es una semejanza si y solo si, existe $k>0$ tal que $d(f(x),f(y))=kd(x,y)$ para todo $x,y \in \mathbb R^2$.

Más adelante…

No te pierdas la siguiente entrada en la que hablaremos de un nuevo tema, la clasificación.

Geometría Analítica I: Grupos de transformaciones

Por Paola Berenice García Ramírez

Introducción

En la primera entrada de esta unidad [1a entrada] indicamos que serán muy importantes tanto las propiedades de los vectores como los lugares geométricos vistos en las primeras dos unidades, pues serán de vital apoyo para comprender los tipos de transformaciones que estaremos viendo.

En la entrada anterior [2a entrada] contemplamos los conceptos necesarios de las funciones que nos ayudaron a definir formalmente a una transformación. En ésta entrada vamos a comenzar por dos conjuntos: $\Delta_{2}$ y $\Delta_{3}$, las propiedades que cumplen y que nos ayudarán a comprender la definición de un grupo. Ambos conjuntos son los ejemplos más representativos de los grupos de transformaciones: los grupos simétricos de orden n. Pretendemos dar a conocer el tema en éste primer curso de Geometría Analítica de forma introductoria; pero puede profundizarse en asignaturas más avanzadas de la carrera universitaria, una de ellas es Álgebra Moderna en la Teoría de Grupos.

El conjunto $\Delta_{2}$

Antes que nada nos pondremos de acuerdo en la notación que vamos a usar: $x \mapsto y$ nos indicará que al elemento $x$ le corresponde el elemento $y$ bajo la función correspondiente.

El primero conjunto que conoceremos tiene dos elementos $\{ 0,1 \}$, a quien identificaremos por $\Delta_{2}$ y se lee «delta-dos». ¿Cuáles son las funciones de $\Delta_{2}$ en sí mismas? Primero tenemos a

\begin{align*}
0 & \xmapsto{id} 0\\
1 & \mapsto 1\\
\end{align*}

a quien llamaremos por $id$ (identidad de $\Delta_{2}$); porque al elemento $0$ le corresponde él mismo y al elemento $1$ le corresponde él mismo. La siguiente función es

\begin{align*}
0 & \xmapsto{\rho} 1\\
1 & \mapsto 0\\
\end{align*}

que denotamos por $\rho$. ¿Qué ocurre si recurrimos a la función composición $\rho \circ \rho$? Si comenzamos con $0$ sabemos bajo $\rho$ que $\rho (0) = 1$, por ello

\begin{align*}
(\rho \circ \rho)(0) &= \rho [\rho (0)]\\
& = \rho (1) = 0.\\
\end{align*}

Y si comenzamos con $\rho (1)$, en forma análoga obtendremos $(\rho \circ \rho)(1) = 1$. Podemos darnos cuenta que $\rho$ es su propio inverso, pues $(\rho \circ \rho = id)$.

Otra forma en que podemos trabajar la composición de funciones es siguiendo los elementos mediante una tablita. Vamos a ver que $\rho \circ \rho = id$ como sigue:

\begin{align*}
0 & \xmapsto{p} 1 \xmapsto{p} 0\\
1 & \mapsto 0 \mapsto 1\\
\end{align*}

donde colocamos la función correspondiente sobre cada flecha entre los elementos y nos damos cuenta que los elementos iniciales coinciden con las imágenes finales bajo la composición. Entonces concluimos que se cumple $\rho \circ \rho = id$.

Tenemos otras dos funciones:

\begin{align*}
0 & \xmapsto{C_{0}} 0 \hspace{0.2cm} & 0 \xmapsto{C_{1}} 1\\
1 & \mapsto 0 \hspace{0.18cm} &1 \mapsto 1\\
\end{align*}

e independientemente del elemento inicial, bajo $C_{0}$ corresponde el elemento $0$ y bajo $C_{1}$ corresponde el elemento $1$. Tanto $C_{0}$ como $C_{1}$ se consideran funciones constantes; mientras que las únicas transformaciones que contemplaremos de $\Delta_{2}$ son $ id $ y $ \rho $.

El conjunto $\Delta_{3}$

Ahora consideremos al conjunto $\Delta_{3} := \{ 0,1,2 \}$ e indicaremos las funciones de $\Delta_{3}$ en sí mismo bajo la notación

\begin{align*}
0 & \mapsto x\\
1 & \mapsto y\\
2 & \mapsto z
\end{align*}

donde $x, y, z \in \Delta_{3}$. Como $x, y, z \in \Delta_{3}$ son imágenes arbitrarias, habrán $3^3 = 27$ funciones, pero sólo 6 serán transformaciones. Vamos a explicar porqué sólo 6 transformaciones: puesto que queremos biyectividad, al elegir a $0$ y corresponderle su imagen, entonces al $1$ le podrán corresponder sólo $2$ opciones y a su vez, cuando llegamos al $2$, ya sólo le podrá corresponder $1$ opción. En resumen, en la primera posición hay $3$ opciones, en la segunda hay $2$ opciones y en la tercera sólo $1$ y el número de transformaciones será de $3 \times 2 \times 1 = 6$.

Las primeras 3 transformaciones que veremos son:

\begin{align*}
&0 \xmapsto{id} 0 &0 \xmapsto{\rho_{1}} 1& \hspace{0.2cm} &0 \xmapsto{\rho_{2}} 2\\
&1 \mapsto 1 &1 \mapsto 2 & \hspace{0.2cm} &1 \mapsto 0\\
&2 \mapsto 2 &2 \mapsto 0 & \hspace{0.2cm} &2 \mapsto 1
\end{align*}

De hecho a las 6 transformaciones las visualizaremos como las «simetrías» de un triángulo equilátero. Las primeras 3 corresponden a rotaciones (la identidad es quien rota $0$ grados). Diremos que $\rho_{1}$ y $\rho_{2}$ son inversas, pues $\rho_{1} \circ \rho_{2} = \rho_{2} \circ \rho_{1} = id$ (vamos a dejar esta relación como ejercicio de la tarea moral, para practicar). Es decir, con cualquier elemento inicial, la imagen de la composición será el mismo elemento inicial. Esto quiere decir que una rotación rotará $120°$ en una dirección y al aplicar la segunda rotación rota $120°$ pero en dirección contraria. Los triángulos correspondientes son:

También se cumple que $\rho_{1} \circ \rho_{1} = \rho_{2}$, pues

\begin{align*}
0 & \xmapsto{\rho_{1}} 1 \xmapsto{\rho_{1}} 2\\
1 & \mapsto 2 \mapsto 0 \\
2 & \mapsto 0 \mapsto 1
\end{align*}

Entonces decimos que cumple la siguiente definición:

Definición. Sea $f$ cualquier transformación, decimos que

\begin{equation*}
f^{n} = f \circ f \circ \cdots \circ f,
\end{equation*}

es decir, $f^{n}$ es $f$ compuesta consigo misma n veces.

En nuestro ejemplo, escribiremos que se cumple entonces la relación $\rho_{1}^{2} = \rho_{2}$. Por otro lado, para $\Delta_{3}$ tenemos otras 3 transformaciones llamadas transposiciones que geométricamente las visualizamos como reflexiones y son:

\begin{align*}
&0 \xmapsto{\alpha} 0 & 0 \xmapsto{\beta} 2 & \hspace{0.2cm} & 0 \xmapsto{\gamma} 1\\
&1 \mapsto 2 &1 \mapsto 1 & \hspace{0.2cm} &1 \mapsto 0\\
&2 \mapsto 1 &2 \mapsto 0 & \hspace{0.2cm} &2 \mapsto 2
\end{align*}

El triángulo que representa a estas transformaciones es:

Las direcciones de la flecha dependerán de cada transformación. Ahora vamos a probar una relación que cumple $ \alpha, $ la cual es:

Demostrar que se cumple $\alpha^{2} = id$.

Demostración. En efecto, recordemos que $ \alpha^{2} = \alpha \circ \alpha$, así que desarrollaremos el seguimiento de elementos a través de la composición $\alpha \circ \alpha$ como sigue:

\begin{align*}
0 & \xmapsto{\alpha} 0 \xmapsto{\alpha} 0\\
1 & \mapsto 2 \mapsto 1 \\
2 & \mapsto 1 \mapsto 2
\end{align*}

y observemos que al final de la composición obtuvimos $\alpha^2 (0)=0$, $\alpha^2 (1)=1$, $\alpha^2 (2)=2$ y con ello vemos que $\alpha^{2}=id.$

$\square$

En la sección de tarea moral dejaremos unos ejercicios de práctica sobre más relaciones que cumplen $\alpha$, $\beta$ y $\gamma$; como son $\alpha^2 = \beta^2 = \gamma^2 = id$, $\alpha \circ \beta = \rho_{1}$ y que $\alpha \circ \beta \circ \alpha = \beta \circ \alpha \circ \beta = \gamma$.

A continuación vamos a definir a un conjunto de transformaciones que cumplen ciertas propiedades interesantes y para ejemplificar a dicho conjunto retomaremos uno de los conjuntos vistos en esta entrada.

Grupos de transformaciones

Definición. A un conjunto $G$ de transformaciones de un conjunto $A$ le llamaremos un grupo de transformaciones de $A$ si cumple:

  1. $id_{A} \in G$
  2. $f,g \in G \longrightarrow g \circ f \in G$
  3. $f \in G \longrightarrow f^{-1} \in G$

Como ejemplos, tomemos a $A$ como $A = \Delta_{3}$. Sabemos que tiene 6 elementos, pero un grupo de transformaciones es el de las rotaciones ya que contiene a la identidad $(1)$, es cerrado bajo la composición $(2)$ y es cerrado bajo inversas $(3)$.

Otro grupo de transformaciones de $A=\Delta_{3}$ es el de las transposiciones (o reflexiones) junto con la identidad.

Definición. Dado un conjunto cualquiera de transformaciones de $A$, el grupo que genera es el grupo de transformaciones obtenido de todas las posibles composiciones con elementos de él o sus inversos.

Como ejemplo de un grupo que genera tenemos a $\alpha$ y $\beta$ ya que generan todas las transformaciones de $\Delta_{3}$.

También $\rho_{1}$ genera el grupo de rotaciones de $\Delta_{3}$ ( porque $\rho^{3} = id$, $\rho_{1}$ y $\rho^{2} = \rho_{2}$).

Para terminar con esta entrada daremos un concepto adicional. Si te llamaron la atención los conjuntos $\Delta_{2}$ y $\Delta_{3}$ y quieres saber más de ellos o si hay más conjuntos similares, la respuesta es sí. Pertenecen a un conjunto de transformaciones, el cual definiremos a continuación:

Definición. Al conjunto de todas las transformaciones de un conjunto con $n$ elementos $\Delta_{n} := \{ 0, 1, \cdots, n-1 \}$ se le llama grupo simétrico de orden $n$ y se le denota $S_{n}$. Dicho grupo tiene $n! = n \times (n-1) \times (n-2 ) \cdots \times 2 \times 1$ ($n$ factorial) elementos a los cuales se le llaman permutaciones.

Tarea moral

  • Considerando el conjunto $\Delta_{3}$ y sus transformaciones $id$, $\rho_{1}$ y $\rho_{2}$ que vimos en esta entrada, demostrar que $\rho_{1}$ y $\rho_{2}$ son inversas, es decir:
    1. $\rho_{1} \circ \rho_{2} = \rho_{2} \circ \rho_{1} = id$
  • Considerando el conjunto $\Delta_{3}$ y sus transformaciones $id$, $\alpha$, $\beta$ y $\gamma$ que vimos en esta entrada, demostrar que se cumplen las relaciones siguientes:
    1. $\alpha^2 = \beta^2 = \gamma^2 = id$. [Sugerencia: Hacer cada composición por separado].
    2. $\alpha \circ \beta = \rho_{1}$
    3. $\alpha \circ \beta \circ \alpha = \beta \circ \alpha \circ \beta = \gamma$.
  • Demuestren que $\rho_{1}$ genera el grupo de rotaciones de $\Delta_{3}$. [Sugerencia: Demuestren que se cumplen las relaciones $\rho^{3} = id$, y $\rho^{2} = \rho_{2}$), porque $\rho_{1}$ es un elemento de dicho grupo de rotaciones].

Más adelante

En esta entrada vimos que en el conjunto $\Delta_{3}$ hay dos posibles grupos de transformaciones: el de las rotaciones y el de las transposiciones junto con la identidad. Mediante triángulos pudimos visualizar el comportamiento que hay en los elementos iniciales y sus imágenes; con ello se comprende porque están en cada grupo.

En la siguiente entrada continuaremos con un primer grupo de transformaciones en los \mathbb{R}, que es de las transformaciones afines, que tiene una muy buena relación con un lugar geométrico que ya hemos visto: las rectas. La entrada [Rectas en forma paramétrica] de la Unidad 1 nos podrá ayudar como repaso si lo requerimos.

Enlaces

  • Página principal del curso:
  • Entrada anterior del curso:
  • Siguiente entrada del curso:

Álgebra Lineal II: El teorema de descomposición polar real

Por Ayax Calderón

Introducción

En la entrada anterior enunciamos y demostramos el teorema espectral para matrices simétricas reales. Una de las consecuencias de este teorema es el teorema de descomposición polar. Se puede pensar en el teorema de descomposición polar como al análogo a un resultado muy conocido de números complejos: cualquier número complejo se puede pensar de la forma $z=e^{i\theta}r$ con $r\geq 0$ real. Geométricamente, el complejo se obtiene «rotando tanto como el argumento y luego alargando de acuerdo a la norma».

Así mismo, veremos que toda matriz $A$ tendrá una expresión de la forma $A=US$ donde $U$ es una matriz ortogonal (que juega el papel de «la rotación») y $S$ es una matriz simétrica positiva (que por el teorema espectral recordemos que es básicamente «alargar en varias direcciones»). Este resultado es increíble: ¡nos dice cómo son todas, todas las matrices reales en términos de matrices muy sencillas: las ortogonales (que conocemos muy bien) y las simétricas (que por el teorema espectral también conocemos muy bien)!

Caso invertible del teorema de descomposición polar

Recordemos un resultado de la entrada anterior, que era una de las partes de nuestro teorema de clasificación de matrices positivas. Nos dice que las matrices simétricas positivas «tienen raíz cuadrada».

Proposición. Sea $A$ una matriz simétrica positiva. Entonces existe una matriz simétrica $B$ tal que $B^2=A$.

Como recordatorio, para obtener a $B$ lo que hicimos fue diagonalizar a $A$ de la forma $A=P^{-1}DP$ con $D$ matriz diagonal cuyas entradas eran $\lambda_1,\ldots,\lambda_n$ los eigenvalores de $A$. Como $A$ era positiva, sus eigenvalores eran no negativos, así que podíamos construir $D’$ con entradas $\sqrt{\lambda_1},\ldots,\sqrt{\lambda_n}$. Después, vimos que $B=P^{-1}D’P$ servía para que $B^2=A$. Observa que además $B$ es positiva pues sus eigenvalores son no negativos.

Como observación adicional, si $A$ fuera positiva definida entonces sus eigenvalores serían positivos, y entonces $B$ también tendría eigenvalores positivos. Así, $B$ sería positiva definida también. De hecho, se puede demostrar que en este caso la matriz $B$ es única (bajo la condición de ser simétrica positiva definida y raíz de $A$). Probar esto queda como parte de los ejercicios de la entrada.

Estamos listos para enunciar y demostrar el teorema de descomposición polar en el caso de matrices invertibles.

Teorema (De descomposición polar, caso invertible). Sea $A\in M_n(\mathbb{R})$ una matriz invertible. Entonces existe una única pareja $(U,S)$ con $U$ una matriz ortogonal y $S$ una matriz simétrica positiva definida para la que se cumple que $A=US$.

Demostración. Tomemos $A\in M_n(\mathbb{R})$ una matriz invertible. La matriz $^tAA$ es simétrica y positiva definida. Por la discusión anterior, existe una única matriz simétrica positiva definida $S$ tal que $^tAA=S^2$. Como $A$ es invertible, $S$ también lo es, así que definamos $$U=AS^{-1}.$$

Afirmamos que $(U,S)$ cumplen con lo requerido. Ya justificamos que $S$ es simétrica positiva definida. Además, de $U=AS^{-1}$ se obtiene inmediatamente $US=A$. Sólo falta verificar que $U$ es ortogonal. Para ello, al multiplicarla con su transpuesta obtenemos lo siguiente:
\begin{align*}
^tUU&=\hspace{.5mm}^tS^{-1}\hspace{.5mm}^tAAS^{-1}\\
&=S^{-1}S^2S^{-1}\\
&=I_n.
\end{align*}

Veamos ahora la unicidad. Supongamos que $A=U’S’$ con $U’$ ortogonal y $S’$ simétrica positiva definida, Entonces
$$^tAA=S’\hspace{.5mm}^tU’U’S’={S’}^2.$$

De esta manera, $S’$ es precisamente la raíz cuadrada de $^tAA$, que por la discusión anterior es única. Deducimos entonces que $S’=S$ y por lo tanto $U’=A{S’}^{-1}=AS^{-1}=U$.

$\square$

Caso general del teorema de descomposición polar

Es natural preguntarse qué sucede cuando la matriz $A$ no es invertible. Resulta que en ese caso aún podemos encontrar una descomposición, aunque perdemos un poco de las propiedades de las matrices y la unicidad. Por ejemplo, si $A=O_n$, entonces $A=UO_n$ para cualquier matriz ortogonal $U$ y entonces tenemos muchas posibles descomposiciones.

Teorema (De descomposición polar, caso general). Cualquier matriz $A\in M_n(\mathbb{R})$ se puede escribir de la forma $A=US$ con $U$ una matriz ortogonal y $S$ una matriz simétrica positiva.

¿Por qué falla nuestra demostración? Todavía tenemos que $^tAA$ es positiva, así que podríamos tomar una raíz cuadrada $S$. El problema es que como $A$ no es invertible, entonces $S$ tampoco lo es. Por ello, no podemos definir $U=AS^{-1}$ como lo hicimos con anterioridad. Sin embargo, podemos ser astutos y «cambiar tantito» a $A$ para que sí se vuelva invertible. De hecho, podemos tomar muchas matrices que se acercan a $A$ y sí son invertibles. Con ello podemos usar un «argumento al límite». Formalicemos estas ideas.

Demostración. Consideremos las matrices $A_k=A+\frac{1}{k}I_n$. Recordemos que $\det(A+\lambda I_n)$ es un polinomio de grado $n$ así que tiene a lo más $n$ raíces. Por ello, existe un $k_0$ tal que para toda $k>k_0$ la matriz $A_k$ es invertible. Al aplicar el teorema de descomposición polar a cada una de dichas $A_k$, obtenemos una matriz ortogonal $U_k$ y una simétrica positiva definida $S_k$ tales que

$$A_k=U_kS_k.$$

Las entradas de cada $U_k$ cumplen que están en el intervalo $[-1,1]$ (pues la suma de las entradas de cada fila es igual a $1$). Así, $U_k$ es una sucesión de matrices en el compacto de matrices con entradas $[-1,1]$. En un compacto toda sucesión tiene una subsucesión convergente, así que podemos elegir una subsucesión de estas matrices, digamos $U_{k_1}, U_{k_2},\ldots$ que converge a una matriz $U$.

Se puede ver que el producto de matrices es continúo y obtener inversas de matrices también es continuo (por ejemplo, por las fórmulas de inversa por matriz de adjuntos). De este modo, aplicando límite $j\to \infty$ a la igualdad $^tU_{k_j}U_{k_j}=I_n$ obtenemos que $^tU=I_n$, de modo que $U$ es ortogonal.

Del mismo modo, como trasponer es continuo, $S_{k_1}, S_{k_2},\ldots$ converge a una matriz simétrica $S$. Finalmente, usando nuevamente la continuidad del producto de matrices obtenemos

\begin{align*}
A&=\lim_{j\to \infty} A_{k_j}\\
&=\lim_{j\to \infty} U_{k_j} S_{k_j}\\
&=US.
\end{align*}

Sólo nos falta demostrar que $S$ es positiva, pero si tomamos $X\in\mathbb{R}^n$, entonces pasando al límite $j\to \infty$ en la desigualdad $^tXS_{k_j}X > 0$ obtenemos $^tXSX\geq 0$. Aquí es donde se podría perder que $S$ es positiva definida, pero seguimos teniendo que $S$ es positiva.

$\square$

Más adelante…

Tanto el teorema espectral como el teorema de descomposición polar son resultados de caracterización fundamentales en álgebra lineal y finalmente nos dan una respuesta a la pregunta de, geométricamente, cómo son todas las posibles transformaciones lineales. En las siguientes secciones se esbozarán los resultados análogos para el caso complejo.

Después de ello, en la cuarta unidad del curso cubriremos otro teorema que nos permitirá decir «cómo son todas las matrices». Quizás no todas las matrices sean directamente similares a una matriz diagonal. Pero enunciaremos y demostraremos el teorema de Jordan que dirá que cualquier matriz es similar a una «casi diagonal», a la que llamaremos diagonal por bloques.

Tarea moral

  1. Sean que $A$ y $B$ son matrices simétricas. Demuestra que $A$ y $B$ conmutan si y sólo si existe una misma matriz $P$ tal que $PAP^{-1}$ y $PBP^{-1}$ son diagonales (a esto se le conoce como que $A$ y $B$ sean «simultáneamente diagonalizables»)
  2. Usando el ejercicio anterior, demuestra que si $A$ es simétrica positiva definida, y se cumple $B^2=A=C^2$ con $B$ y $C$ matrices simétricas positivas definidas, entonces $B=C$.
  3. Sean $A,B\in M_n(\mathbb{R})$ matrices tales que $^tAA=^tBB$. Demuestra que existe una matriz ortogonal $U\in M_n(\mathbb{R})$ tal que $B=UA$.
  4. Encuentra la descomposición polar de $$\begin{pmatrix}
    11 & -5\\
    -2 & 10 \end{pmatrix}.$$
  5. Sea $A$ una matriz cuadrada con descomposición polar $A=WP$. Demuestra que $A$ es normal si y sólo si $WP^2=P^2W$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»