Archivo de la etiqueta: transformaciones

Cálculo Diferencial e Integral III: Polinomio característico

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior estudiamos las representaciones matriciales de una transformación lineal. Vimos cómo dadas ciertas bases del espacio dominio y codominio, existe un isomorfismo entre matrices y transformaciones lineales. Así mismo, planteamos la pregunta de cómo encontrar bases para que dicha forma matricial sea sencilla. Vimos que unos conceptos cruciales para entender esta pregunta son los de eigenvalor, eigenvector y eigenespacio. Lo que haremos ahora es introducir una nueva herramienta que nos permitirá encontrar los eigenvalores de una transformación: el polinomio característico.

A partir del polinomio característico daremos un método para encontrar también a los eigenvectores y, en algunos casos especiales, encontrar una representación de una transformación lineal como matriz diagonal. Todo lo que hacemos es una versión resumida de lo que se puede encontrar en un curso más completo de álgebra lineal. Dentro del blog, te recomendamos consultar las siguientes entradas:

Polinomio característico

Pensemos en el problema de hallar los eigenvalores de una transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$. Si $\lambda \in \mathbb{R}$ es uno de estos eigenvalores, queremos poder encontrar vectores $\bar{v}\neq \bar{0}$ tales que $T(\bar{v})=\lambda \bar{v}$. Esto sucede si y sólo si $\lambda \bar{v}-T(\bar{v})=\bar{0}$, lo cual sucede si y sólo si $(\lambda \text{Id}-T)(\bar{v})=\bar{0}$, en donde $\text{Id}:\mathbb{R}^n\to \mathbb{R}^n$ es la transformación identidad de $\mathbb{R}^n$ en $\mathbb{R}^n$. Tenemos de esta manera que $\bar{v}$ es un eigenvector si y sólo si $\bar{v}\in \ker(\lambda\text{Id}-T)$.

Si existe $\bar{v}\neq \bar{0}$ tal que $\bar{v}\in \ker(\lambda \text{Id}-T)$; entonces $\ker(\lambda \text{Id}-T)\neq \{ \bar{0}\}$ por lo cual la transformación $\lambda \text{Id}-T$ no es invertible, pues no es inyectiva. Así, en ninguna base $\text{Mat}_\beta(\lambda \text{Id}-T)$ es invertible, y por tanto su determinante es $0$. Estos pasos son reversibles. Concluimos entonces que $\lambda\in \mathbb{R}$ es un eigenvalor de $T$ si y sólo si en alguna base $\beta$ se cumple que $\det(\text{Mat}_\beta(\lambda \text{Id} – T))=0.$ Esto motiva la siguiente definición.

Definición. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal. Llamamos a $\det(\text{Mat}_\beta(\lambda \text{Id} – T))$ al polinomio característico de $T$ en la base $\beta$.

Por la discusión anterior, los escalares que cumplen $\det(\text{Mat}_\beta(\lambda \text{Id} – T))=0$ son los eigenvalores $T$. Para obtener los correspondientes eigenvectores, basta con resolver $\text{Mat}_\beta(T)X=\lambda X$, lo cual es un sistema de ecuaciones en el vector de variables $X$. Las soluciones $X$ nos darán las representaciones matriciales de vectores propios $\bar{v}\in \mathbb{R}^n$ en la base $\beta$.

Por el momento parece ser que tenemos mucha notación, pues debemos considerar la base en la que estamos trabajando. Un poco más adelante veremos que en realidad la base no importa mucho para determinar el polinomio característico. Pero por ahora, veamos un ejemplo concreto de las ideas platicadas hasta ahora.

Ejemplo: Consideremos $T:\mathbb{R}^{3}\rightarrow \mathbb{R}^{3}$ dada por $T(x,y,z)=(2x+z,y+x,-z)$. Calculemos su representación matricial con respecto a la base canónica $\beta$. Para ello, realizamos las siguientes evaluaciones:
\begin{align*}
T(1,0,0)&=(2,1,0)\\
T(0,1,0)&=(0,1,0)\\
T(0,0,1)&=(1,0,-1),
\end{align*}

de donde: $$\text{Mat}_\beta=\begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix}.$$

Calculando el polinomio característico obtenemos: \[ det\begin{pmatrix} \lambda-2 & 0 & -1 \\ -1 & \lambda-1 & 0 \\ 0 & 0 & \lambda+1 \end{pmatrix}= (\lambda-2)(\lambda-1)(\lambda+1). \]

Las raíces de $(\lambda-2)(\lambda-1)(\lambda+1)$ son $\lambda_{1}=2$, $\lambda_{2}=1$ y $\lambda_{3}=-1$. Pensemos ahora en quiénes son los eigenvectores asociados a cada eigenvalor. Tomemos como ejemplo el eigenvalor $\lambda=2$. Para que $(x,y,z)$ represente a un eigenvector en la base canónica, debe pasar que:

\[ \begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = 2\begin{pmatrix} x \\ y \\ z \end{pmatrix},\]

lo cual sucede si y sólo si:

\[\begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} – 2\begin{pmatrix} x \\ y \\ z \end{pmatrix}= \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix};\]

\[\left[ \begin{pmatrix} 2 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix} – 2\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}\right] \begin{pmatrix} x \\ y \\ z \end{pmatrix}= \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix};\]

\[\begin{pmatrix} 0 & 0 & 1 \\ 1 & -1& 0 \\ 0 & 0 & -3 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}.\]

De aquí, podemos llegar a la siguiente forma escalonada reducida del sistema de ecuaciones:

\[\begin{pmatrix} 1 & -1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}.\]

En esta forma es sencillo leer las soluciones. Tenemos que $z$ es variable pivote con $z=0$, que $y$ es variable libre, y que $x$ es variable pivote dada por $x=y$. Concluimos entonces que todos los posibles eigenvectores para el eigenvalor $2$ son de la forma $(y,y,0)$, es decir $E_2=\{(y,y,0): y \in \mathbb{R}\}$.

Queda como tarea moral que encuentres los eigenvectores correspondientes a los eigenvalores $1$ y $-1$.

$\triangle$

Matrices similares

En la sección anterior definimos el polinomio de una transformación lineal en términos de la base que elegimos para representarla. En realidad, la base elegida no es muy importante. Demostraremos un poco más abajo que dos representaciones matriciales cualesquiera de una misma transformación lineal tienen el mismo polinomio característico. Para ello, comencemos con la siguiente discusión.

Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal y sean $\beta_1=\{ \bar{e}_{1}, \dots , \bar{e}_{n}\}$, $\beta_2=\{ \bar{u}_{1}, \dots , \bar{u}_{n}\}$ dos bases (ordenadas) de $\mathbb{R}^n$. Supongamos que:

\begin{align*}
A&=\text{Mat}_{\beta_1}(T)=[a_{ij}]\\
B&=\text{Mat}_{\beta_2}(T)=[b_{ij}].
\end{align*}

Por cómo se construyen las matrices $A$ y $B$, tenemos que:

\begin{align*}
T(\bar{e}_j)&=\sum_{i=1}^n a_{ij} \bar{e}_i\quad\text{para $j=1,\ldots,n$}\\
T(\bar{u}_k)&=\sum_{j=1}^n b_{jk} \bar{u}_j\quad\text{para $k=1,\ldots,n$}.
\end{align*}

Como $\beta_{1}$ es base, podemos poner a cada un de los $\bar{u}_k$ de $\beta_{2}$ en términos de la base $\beta_{1}$ mediante combinaciones lineales, digamos:

\begin{equation}
\bar{u}_{k}=\sum_{j=1}^{n}c_{jk}\bar{e}_{j}
\label{eq:valor-u}
\end{equation}

en donde los $c_{jk}$ son escalares para $j=1,\ldots, n$ y $k=1,\ldots,n$. La matriz $C$ de $n\times n$, con entradas $c_{jk}$ representa a una transformación lineal invertible, ya que es una transformación que lleva uno a uno los vectores de una base a otra. Afirmamos que $CB=AC$. Para ello, tomaremos una $k$ en $[n]$ y expresaremos $T(\bar{u}_k)$ de dos formas distintas.

Por un lado, usando \eqref{eq:valor-u} y por como es cada $T(\bar{e}_k)$ en la base $\beta_{1}$ tenemos que:

\begin{align*}
T(\bar{u}_k)&=\sum_{j=1}^n c_{jk} T(\bar{e}_j)\\
&=\sum_{j=1}^n c_{jk} \sum_{i=1}^n a_{ij} \bar{e}_i\\
&=\sum_{j=1}^n \sum_{i=1}^n (c_{jk} a_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \sum_{j=1}^n (c_{jk} a_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \left(\sum_{j=1}^n a_{ij} c_{jk}\right) \bar{e}_i.
\end{align*}

Por otro lado, usando $\eqref{eq:valor-u}$ y por como es cada $T(\bar{u}_k)$ en la base $\beta_{2}$:

\begin{align*}
T(\bar{u}_k)&=\sum_{j=1}^nb_{jk} \bar{u}_j\\
&=\sum_{j=1}^n b_{jk} \sum_{i=1}^{n}c_{ji}\bar{e}_{j} \\
&=\sum_{j=1}^n \sum_{i=1}^n (b_{jk} c_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \sum_{j=1}^n (b_{jk} c_{ij} \bar{e}_i)\\
&=\sum_{i=1}^n \left(\sum_{j=1}^n c_{ij} b_{jk} \right) \bar{e}_i.
\end{align*}

Comparemos ambas expresiones para $T(\bar{u}_k)$. La primera es una combinación lineal de los $\bar{e}_i$ y la segunda también. Como $T(\bar{u}_k)$ tiene una única expresión como combinación lineal de los $\bar{e}_i$, entonces los coeficientes de la combinación lineal deben coincidir. Concluimos que para cada $i$ se cumple:

$$\sum_{j=1}^n a_{ij} c_{jk}=\sum_{j=1}^n c_{ij} b_{jk}.$$

Pero esto precisamente nos dice que la entrada $(i,k)$ de la matriz $AC$ es igual a la entrada $(i,k)$ de la matriz $CB$. Con esto concluimos que $AC=CB$, como queríamos.

En resumen, obtuvimos que para dos matrices $A$ y $B$ que representan a la misma transformación lineal, existe una matriz invertible $C$ tal que: $B=C^{-1}AC$. Además $C$ es la matriz con entradas dadas por \eqref{eq:valor-u}.

Introduciremos una definición que nos permitirá condensar en un enunciado corto el resultado que hemos obtenido.

Definición. Dos matrices $A$ y $B$ se llamarán similares (o semejantes), cuando existe otra matriz $C$ invertible tal que $B=C^{-1}AC$.

Sintetizamos nuestro resultado de la siguiente manera.

Proposición. Si dos matrices representan a la misma transformación lineal, entonces estas matrices son similares.

El recíproco de la proposición también se cumple, tal y como lo afirma el siguiente resultado.

Proposición. Sean $A$ y $B$ matrices similares. Entonces $A$ y $B$ representan a una misma transformación lineal $T$, quizás bajo distintas bases.

Demostración: Supongamos que las matrices $A$ y $B$ son similares con $B=C^{-1}AC$, donde las matrices $A$, $B$, $C$ están dadas por entradas $A=[a_{ij}]$ $B=[b_{ij}]$, $C=[c_{jk}]$. Tomemos una base ordenada $\beta=\{\bar{e}_{1}, \dots ,\bar{e}_{n}\}$ de $\mathbb{R}^n$. Consideremos la transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^n)$ dada por $$T(\bar{e}_j)=\sum_{i=1}^n a_{ij} \bar{e}_i.$$

De esta manera $T$ tiene forma matricial $A$ en la base $\beta$.

Construyamos ahora una nueva base ordenada de $\mathbb{R}^n$ dada por vectores $\bar{u}_k$ para $k=1,\ldots,n$ construidos como sigue:

$$\bar{u}_{k}=\sum_{j=1}^{n}c_{jk}\bar{e}_{j}.$$

Como $C$ es invertible, en efecto tenemos que $\beta’:=\{\bar{u}_1,\ldots,\bar{u}_n\}$ también es base de $\mathbb{R}^n$. Además, de acuerdo con las cuentas que hicimos anteriormente, tenemos que precisamente la forma matricial de $T$ en la base $\beta’$ será $B$.

Así, hemos exhibido una transformación $T$ que en una base tiene representación $A$ y en otra tiene representación $B$.

$\square$

Juntando ambos resultados en uno solo, llegamos a lo siguiente.

Teorema. Dos matrices $A$ y $B$ en $M_n(\mathbb{R})$ son similares si y sólo si representan a una misma transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$, quizás bajo distintas bases.

El polinomio característico no depende de la base

Si dos matrices son similares, entonces comparten varias propiedades relevantes para el álgebra lineal. Veamos un ejemplo de esto.

Teorema. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal en un espacio sobre $\mathbb{R}$ de dimensión finita. Sean $\beta$ y $\beta’$ bases de $\mathbb{R}^n$. Entonces se obtiene lo mismo calculando el polinomio característico de $T$ en la base $\beta$, que en la base $\beta’$.

Demostración. Tomemos $A=\text{Mat}_{\beta}(T)$ y $B=\text{Mat}_{\beta’}(T)$. Como $A$ y $B$ representan a la misma transformación lineal $T$, entonces son similares y por lo tanto existe $C$ invertible con $B=C^{-1}AC$.

Para encontrar el polinomio característico de $T$ en la base $\beta$, necesitamos $\Mat_{\beta}(\lambda\text{Id}-T)$, que justo es $\lambda I -A$. Así mismo, en la base $\beta’$ tenemos $\lambda I – B$. Debemos mostrar que el determinante de estas dos matrices es el mismo. Para ello, procedemos como sigue:

\begin{align*}
\det(\lambda I -B) &= \det (\lambda C^{-1}C – C^{-1} A C)\\
&=\det(C^{-1}(\lambda I – A) C)\\
&=\det(C^{-1})\det(\lambda I – A) \det(C)\\
&=\det(C^{-1})\det(C)\det(\lambda I-A)\\
&=\det(I)\det(\lambda I-A)\\
&=\det(\lambda I-A).
\end{align*}

Aquí estamos usando que el determinante es multiplicativo. Cuando reordenamos expresiones con $\det$, lo hicimos pues los determinantes son reales, cuyo producto es conmutativo.

$\square$

Este teorema nos permite hablar del polinomio característico de una transformación lineal.

Concluimos esta entrada con un resultado que relaciona al polinomio característico de una transformación lineal, con la posibilidad de que exista una base cuya representación matricial sea diagonal.

Teorema. Sea $T:\mathbb{R}^n\to \mathbb{R}^n$ una transformación lineal. Supongamos que el polinomio característico de $T$ tiene raíces distintas $\lambda_{1}, \dots ,\lambda_{n}$. Entonces se cumple lo siguiente:

  1. Si tomamos un eigenvector $\bar{u}_i$ para cada eigenvalor $\lambda_i$, entonces $\bar{u}_{1},\dots ,\bar{u}_{n}$ forman una base $\beta$ para $\mathbb{R}^n$.
  2. Con dicha base $\beta$, se cumple que $\text{Mat}_\beta(T)$ es una matriz diagonal con entradas $\lambda_{1},\dots ,\lambda_{n}$ en su diagonal.
  3. Si $\beta’$ es otra base de $\mathbb{R}^n$ y $A=\text{Mat}_{\beta’}(T)$, entonces $\text{Mat}_\beta(T) = C^{-1}AC$ para una matriz invertible $C$ con entradas dadas por \eqref{eq:valor-u}.

La demostración de este resultado queda como tarea moral.

Más adelante…

En la entrada planteamos entonces un método para encontrar los eigenvectores de una transformación $T$: 1) la transformamos en una matriz $A$, 2) encontramos el polinomio característico mediante $\det(\lambda I – A)$, 3) encontramos las raíces de este polinomio, 4) cada raíz es un eigenvalor y las soluciones al sistema lineal de ecuaciones $(\lambda I – A) X=0$ dan los vectores coordenada de los eigenvectores.

Como platicamos en la entrada, una condición suficiente para que una transformación de $\mathbb{R}^n$ a sí mismo sea diagonalizable es que tenga $n$ eigenvalores distintos. Otro resultado muy bonito de álgebra lineal es que si la transformación tiene alguna forma matricial simétrica, entonces también es diagonalizable. A esto se le conoce como el teorema espectral para matrices simétricas reales. En otros cursos de álgebra lineal se estudia la diagonalizabilidad con mucho detalle. Aquí en el blog puedes consultar el curso de Álgebra Lineal II.

Otra herramienta de álgebra lineal que usaremos en el estudio de la diferenciabilidad y continuidad de las funciones de $\mathbb{R}^{n}$ a $\mathbb{R}^{m}$ son las formas bilineales y las formas cuadráticas. En la siguiente entrada comenzaremos con estos temas.

Tarea moral

  1. Encuentra los eigenvectores faltantes del ejemplo de la sección de polinomio característico.
  2. Considera la transformación lineal $T(x,y,z)=(2x+z,y+x,-z)$ de $\mathbb{R}^3$ en $\mathbb{R}^3$. Nota que es la misma que la del ejemplo de la entrada. Encuentra su representación matricial con respecto a la base $\{(1,1,1),(1,2,3),(0,1,1)\}$ de $\mathbb{R}^3$. Verifica explícitamente que, en efecto, al calcular el polinomio característico con esta base se obtiene lo mismo que con la dada en el ejemplo.
  3. Demuestra que si $A$ y $B$ son dos representaciones matriciales de una misma transformación lineal $T$, entonces $\det(A)=\det(B)$.
  4. Sea $T:\mathbb{R}^{3}\to \mathbb{R}^{3}$ dada por $T(x,y,z)=(x+y+z,x,y)$. Encuentra los eigenvalores correspondientes a la transformación, y responde si es posible representarla con una matriz diagonal. En caso de que sí, encuentra explícitamente la base $\beta$ en la cual $\text{Mat}_{\beta}(T)$ es diagonal.
  5. Demuestra el último teorema de la entrada. Necesitarás usar resultados de la entrada anterior.

Entradas relacionadas

Cálculo Diferencial e Integral III: Representaciones matriciales, eigenvalores y eigenvectores

Por Alejandro Antonio Estrada Franco

Introducción

Como se ha mencionado anteriormente el objetivo de introducir ideas de álgebra lineal en cálculo diferencial es poder establecer una transformación lineal que sea la mejor aproximación lineal en un punto a una función dada. Esto nos ayudará a entender a la función dada en el punto en términos de otra función «más simple». Pero así mismo, las transformaciones lineales pueden ellas mismas pensarse en términos de transformaciones más sencillas. En esta entrada revisaremos esta idea y la conectaremos con la noción de eigenvectores.

Por un lado, recordaremos cómo es que una transformación lineal puede ser representada mediante una matriz una vez que se ha elegido una base del espacio vectorial. Luego, hablaremos de cómo elegir, de entre todas las bases, aquella que nos de una representación matricial lo más sencilla posible.

Representación matricial de las transformaciones lineales

Comencemos esta entrada repasando la importante relación entre transformaciones lineales y matrices. Denotaremos como $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ al espacio vectorial de transformaciones lineales de $\mathbb{R}^n$ a $\mathbb{R}^m$.

Si tomamos cualquier transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, entonces los valores de $T$ en cualquier vector de $\mathbb{R}^n$ quedan totalmente determinados por los valores de $T$ en los elementos de alguna base $\beta$ para $\mathbb{R}^n$. Tomemos $\gamma=\{\bar{w}_{1},\dots ,\bar{w}_{m}\}$ una base ordenada para $\mathbb{R}^m$, y $\beta=\{\bar{e}_{1},\dots ,\bar{e}_{n}\}$ una base ordenada para $\mathbb{R}^n$. Para cada $\bar{e}_{k}$ tenemos:

$$\begin{equation} T(\bar{e}_{k})=\sum_{i=1}^{m}t_{ik}\bar{w}_{i} \end{equation},$$

para algunos escalares $t_{1k},\dots ,t_{mk}$ que justo son las componentes de $T(\bar{e}_{k})$ en la base $\gamma$. Con estos escalares, podemos considerar la matriz: \[ \text{Mat}_{\gamma,\beta}(T)= \begin{pmatrix} t_{11} & \dots & t_{1n} \\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \]

Esta es llamada la representación matricial de la transformación $T$ con respecto a las bases $\beta$ y $\gamma$. Esta matriz ayuda a calcular $T$ en cualquier vector de $\mathbb{R}^n$ como explicamos a continuación.

Para cada $\bar{v}\in \mathbb{R}^n$, podemos expresarlo como combinación lineal de elementos de la base $\beta$ digamos que $\bar{v}=\sum_{i=1}^{n} v_{i}\bar{e}_{i}$. Mediante estos coeficientes, podemos entonces asociar a $\bar{v}$ al siguiente vector columna de $\mathbb{R}^n$ \[ [\bar{v}]_{\beta}=\begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}, \]

al que llamamos el vector de coordenadas de $\bar{v}$ con respecto a la base $\beta$.

Realicemos por un lado el siguiente cálculo:

\[ \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}=\begin{pmatrix} t_{11} & \dots & t_{1n}\\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}=\begin{pmatrix} \displaystyle\sum_{k=1}^{n}t_{1k}v_{k} \\ \vdots \\ \displaystyle\sum_{k=1}^{n}t_{mk}v_{k}.\end{pmatrix} \]

Por otro lado tenemos lo siguiente:

\begin{align*}
T(\bar{v})&=T \left( \sum_{k=1}^{n}v_{k}\bar{e}_{k} \right)\\&=\sum_{k=1}^{n}v_{k}T(\bar{e}_{k})\\&=\sum_{k=1}^{n}v_{k}T\left( \sum_{i=1}^{m}t_{ik}\bar{w}_{i} \right)\\&=\sum_{i=1}^{m}\left( \sum_{k=1}^{n}v_{k}t_{ik} \right)\bar{w}_{i}.
\end{align*}

Juntando ambos cálculos: \[ [T(\bar{v})]_{\gamma}=\begin{pmatrix} \sum_{k=1}^{n}v_{k}t_{1k} \\ \vdots \\ \sum_{k=1}^{n}v_{k}t_{mk} \end{pmatrix} = \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}.\]

En otras palabras, aplicar $T$ a un vector $\bar{v}$ equivale a multiplicar $\text{Mat}_{\gamma,\beta}$ por el vector columna asociado a $\bar{v}$ en la base $\beta$, en el sentido de que tras hacer este producto recuperamos el vector de coordenadas para $T(\bar{v})$ en la base $\gamma$.

Isomorfismo entre transformaciones lineales y matrices

Con las operaciones de suma y multiplicación por escalar que vimos en la entrada de Matrices, se tiene que $M_{m,n}\left( \mathbb{R} \right)$ es un espacio vectorial sobre $\mathbb{R}$. De igual manera $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ es un espacio vectorial sobre $\mathbb{R}$ con las siguientes operaciones:

  • Si $T$ y $U$ son dos transformaciones, la transformación $T+U$ es aquella que envía a todo vector $\bar{v}\in \mathbb{R}^n$ al vector $T(\bar{v})+U(\bar{v})$.
  • Si $r\in \mathbb{R}$ la transformación $rT$ es la que a todo $\bar{v}\in \mathbb{R}^n$ lo envía al vector $rT(\bar{v})$.

Queda como ejercicio que verifiques que esto dota efectivamente a $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ de la estructura de espacio vectorial.

A continuación veremos que estos dos espacios vectoriales son, prácticamente, el mismo. Lo que haremos es construir una función $$\Phi :M_{m,n}\left( \mathbb{R} \right) \to\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$$ que sea biyectiva y que preserve las operaciones de suma y de producto escalar.

Para ello, tomemos una base $\beta=\{\bar{e}_1,\ldots,\bar{e}_n\}$ de $\mathbb{R}^{n}$ y una base $\gamma=\{\bar{u}_1,\ldots,\bar{u}_m\}$ de $\mathbb{R}^m$. Tomemos una matriz $A\in M_{m,n}(\mathbb{R})$. Explicaremos a continuación cómo construir la transformación $\Phi(A)$, para lo cual diremos qué hace con cada elemento de la base $\beta$. Tomaremos aquella transformación lineal $T_A\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ tal que

$$T_A(\bar{e}_j)=\sum_{i=1}^n a_{ij} \bar{u}_i.$$

Tomamos entonces $\Phi(A)=T_A$. Veamos que $\Phi$ tiene todas las propiedades que queremos.

  • $\Phi$ es suprayectiva. Si tenemos una transformación $T:\mathbb{R}^n\to \mathbb{R}^m$, entonces por la construcción anterior se tiene que su forma matricial $A:=\text{Mat}_{\gamma,\beta}(T)$ justo cumple $T_A=T$, de modo que $\Phi(A)=T$.
  • $\Phi$ es inyectiva. Si $A$ y $B$ son matrices distintas, entonces difieren en alguna entrada, digamos $(i,j)$. Pero entonces $T_A$ y $T_B$ difieren ya que $T_A(\bar{e}_j)\neq T_B(\bar{e}_j)$ ya que en las combinaciones lineales creadas hay un coeficiente distinto. Así, $\Phi(A)\neq \Phi(B)$.
  • $\Phi $ es lineal. Para $r\in \mathbb{R}$, $A$ y $B$ matrices con entradas $a_{ij}$ y $b_{ij}$, respectivamente, se cumple que $\Phi \left( rA+B \right)=T_{(rA+B)}$ y entonces se satisface para cada $j=1,\dots ,n$ lo siguiente:
    \begin{align*}
    (rA+B)[\bar{e}_{j}]_{\beta}&=rA[\bar{e}_{j}]_{\beta}+B[\bar{e}_{j}]_{\beta}\\&=r[T_A(\bar{e}_{i})]_{\gamma}+[T_{B}(\bar{e}_{i})]_{\gamma}.
    \end{align*}
    Por tanto para cada $\bar{e}_{i}$ tenemos que $$T_{(rA+B)}(\bar{e}_{i})=rT_{A}(\bar{e}_{i})+T_{B}(\bar{e}_{i})$$ y en consecuencia $$T_{(rA+B)}=rT_{A}+T_{B}.$$ Así $$\Phi (rA+B)=r\Phi (A)+\Phi(B).$$

Todo lo anterior implica que $M_{m,n}\left( \mathbb{R} \right)\simeq \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, es decir, que ambos espacios vectoriales son isomorfos.

En búsqueda de una matriz sencilla

Por lo que hemos platicado hasta ahora, a cada transformación lineal le corresponde una matriz, y viceversa. De hecho, esta asociación respeta operaciones como la suma y el producto por escalar. Esta equivalencia está dada a partir de la función $\Phi$ encontrada en la sección anterior.

Si $\Phi $ es biyectiva, ¿por qué hablamos entonces de encontrar una representación matricial simple para una transformación lineal $T$? Esto parecería no tener sentido, pues a cada transformación le corresponde una y sólo una matriz. Sin embargo, esto es cierto únicamente tras haber fijado las bases $\beta$ y $\gamma$ para $\mathbb{R}^n$ y $\mathbb{R}^m$, respectivamente. Así, dependiendo de la elección de las bases las representaciones matriciales cambian y si tenemos una transformación lineal $T$, es posible que querramos encontrar bases $\beta$ y $\gamma$ en donde la representación matricial sea sencilla.

Nos enfocaremos únicamente en transformaciones lineales que van de un espacio vectorial a sí mismo. Tomemos entonces $T:\mathbb{R}^n\to \mathbb{R}^n$ y una base $\beta$ de $\mathbb{R}^n$. Por simplicidad, escribiremos $\text{Mat}_{\beta, \beta}(T)$ simplemente como $\text{Mat}_{\beta}(T)$. Hay propiedades de $T$ que podemos leer en su matriz $\text{Mat}_{\beta}(T)$ y que no dependen de la base $\beta$ que hayamos elegido. Si con una base $\beta$ especial resulta que $\text{Mat}_{\beta}(T)$ es muy sencilla, entonces podremos leer estas propiedades de $T$ muy fácilmente. Un ejemplo es la siguiente proposición, la cual queda como tarea moral.

Proposición. La transformación lineal $T:\mathbb{R}^n\to\mathbb{R}^n$ es invertible si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.

Si $A=\text{Mat}_{\beta}(T)$ fuera muy muy sencilla, por ejemplo, si fuera una matriz diagonal, entonces podríamos saber la invertibilidad de $T$ sabiendo la invertibilidad de $A$, y la de $A$ sería muy fácil de ver pues por ser matriz diagonal bastaría hacer el producto de las entradas de su diagonal para obtener su determinante y estudiar si es distinto de cero.

Motivados por el ejemplo anterior, estudiemos la siguiente pregunta: ¿toda transformación lineal se puede representar con una matriz diagonal? Si una transformación lineal se puede representar de esta manera, diremos que es diagonalizable.

Eigenvalores, eigenvectores y eigenespacios

En lo que sigue repasaremos el aparato conceptual que nos permitirá dar una respuesta parcial de cuándo una matriz es diagonalizable. Un tratamiento mucho más detallado se puede encontrar aquí en el blog, en el curso de Álgebra Lineal II, comenzando con la entrada Eigenvectores y eigenvalores.

Para nuestro repaso, debemos introducir algunos conceptos y estudiarlos.

Definición. Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal. Diremos que un escalar $r \in \mathbb{R}$ es un eigenvalor de $T$ si existe $\bar{v}\in \mathbb{R}^n\setminus\{ \bar{0} \}$ tal que $T(\bar{v})=r\bar{v}$. A dicho vector $\bar{v}$ le llamaremos un eigenvector de $T$ con eigenvalor asociado $r$.

Dado un eigenvector $\bar{v}\in \mathbb{R}^n$, sólo hay un eigenvalor correspondiente a éste. Si $T(\bar{v})=r\bar{v}$ y $T(\bar{v})=t\bar{v}$, entonces $r\bar{v}=t\bar{v}$ de donde $(r-t)\bar{v}=\bar{0}$. Como $\bar{v}\neq \bar{0}$, se sigue que $r=t$.

Por otro lado, para un eigenvalor $r$ puede haber más de un eigenvector con eigenvalor asociado $r$. Consideremos para un eigenvalor $r$ el conjunto $E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$. Notemos que $\bar{0}\in E(r)$ y también todos los eigenvectores de $r$ están en $E(r)$. Además, $E(r)$ es un subespacio de $\mathbb{R}^n$, pues si $\bar{u},\bar{v} \in E(r)$, y $a\in \mathbb{R}$, tenemos

\begin{align*}
T(a\bar{u}+\bar{v})&=aT(\bar{u})+T(\bar{v})\\
&=a(r\bar{u})+(r\bar{v})\\
&=r(a\bar{u}+\bar{v}),
\end{align*}

lo cual implica que $a\bar{u}+\bar{v} \in E(r)$.

Definición. Para una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ y un eigenvalor $r$ de $T$ llamaremos a

$$E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$$

el eigenespacio de $T$ correspondiente a $r$.

Cuando tenemos eigenvectores correspondientes a eigenvalores distintos, cumplen algo especial.

Proposición. Si $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son eigenvectores de una transformación lineal $T:\mathbb{R}^n \rightarrow \mathbb{R}^n$ con eigenvalores correspondientes $r_{1}, \dots ,r_{l}$ distintos entonces $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

Demostración. La ruta para establecer la demostración de este teorema será por inducción sobre $l$. Para un conjunto con sólo un eigenvector el resultado es evidente (¿por qué?). Supongamos cierto para cualquier subconjunto de $l-1$ eigenvectores que pertenecen a eigenespacios distintos. Sean $\bar{v}_{1}, \dots ,\bar{v}_{l}$ eigenvectores en distintos eigenespacios y consideremos $\alpha _{1}, \dots ,\alpha_{l}$ escalares tales que:

\begin{equation}
\label{eq:comb-cero}
\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}=\bar{0}.
\end{equation}

Aplicamos $T$ a la igualdad anterior. Usando que cada $\bar{v}_{k}$ es eigenvector correspondiente al eigenvalor $r_{k}$ obtenemos:

\begin{align*}
\bar{0}=T(\bar{0})&=T\left(\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k} \right)\\&=\sum_{k=1}^{l}\alpha _{k}T(\bar{v}_{k})\\&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}.
\end{align*}

Es decir,

\begin{equation}
\label{eq:aplicarT}
\textbf{0}=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}
\end{equation}

Multipliquemos \eqref{eq:comb-cero} por $r_{l}$ y restemos el resultado de \eqref{eq:aplicarT} para obtener que

\begin{align*}
\bar{0}=\bar{0}-\bar{0}&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}-r_{l}\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}\\&=\sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}.
\end{align*}

Tenemos entonces:

\[ \sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}=\bar{0}.\]

Ya que por hipótesis de inducción $\bar{v}_{1}, \dots ,\bar{v}_{l-1}$ son linealmente independientes entonces $\alpha _{k}(r_{k}-r_{l})=0$ para todo $k$, pero los eigenvalores son todos distintos entre sí por lo tanto para todo $k$ de $1$ a $l-1$ se tiene $r_{k}-r_{l}\neq 0$ y así $\alpha _{k}=0$. Finalmente, usando \eqref{eq:comb-cero} obtenemos $\alpha_l=0$. Por lo tanto $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

$\square$

Eigenvectores y transformaciones diagonalizables

Recuerda que dijimos que una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ es diagonalizable si existe una base $\beta$ de $\mathbb{R}^n$ tal que $\text{Mat}_{\beta}(T)$ es una matriz diagonal. El siguiente resultado conecta las dos ideas que hemos estado explorando: los eigenvectores y la representabilidad sencilla de $T$.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ transformación lineal. Una matriz $T$ es diagonalizable si y sólo si existe una base de $\mathbb{R}^n$ conformada por eigenvectores de $T$.

En realidad la demostración consiste únicamente en entender correctamente cómo se construyen las matrices para una base dada.

Demostración. $\Rightarrow )$ Supongamos que $T$ tiene una representación matricial que es una matriz diagonal $A:=\text{Mat}_{\beta}(T)=\text{diag}(r_{1}, \dots ,r_{n})$ con respecto a la base $\beta=\{\bar{v}_{1}, \dots ,\bar{v}_{n}\}$. Afirmamos que para cada $j=1,\ldots,n$ se tiene $\bar{v}_j$ es eigevector de eigenvalor $r_j$. En efecto, la forma en la que se construyó la matriz $A$ nos dice que

\begin{align*}
T(\bar{e}_j)&=\sum_{i=1}^n a_{ij} \bar{e}_i \\&= a_{jj} \bar{e}_j \\&= r_j \bar{e}_j,
\end{align*}

en donde estamos usando que las entradas $a_{ij}$ de la matriz son cero si $i\neq j$ (por ser diagonal), y son $r_j$ si $i=j$. Por supuesto, como $\bar{e}_j$ forma parte de una base, tampoco es el vector cero. Así, $\bar{e}_j$ es eigenvector de eigenvalor $\bar{e}_j$.

$\Leftarrow )$ Supongamos ahora que $\bar{v}_{1},\dots ,\bar{v}_{n}$ son una base $\beta$ de $\mathbb{R}^n$ conformada por eigenvectores de $T$ con eigenvalores asociados, digamos, $r_{1},\dots ,r_{n}$. Aquí se puede mostrar que $\text{Mat}_\beta(T)$ es diagonal. Queda como tarea moral hacer las cuentas.

$\square$

Hay una situación particular en la que podemos aprovechar el teorema anterior de manera inmediata: cuando la transformación tiene $n$ eigenvalores distintos. Esta consecuencia queda establecida en el siguiente resultado.

Corolario. Toda transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ tiene a lo más $n$ eigenvalores distintos. Si $T$ tiene exactamente $n$ eigenvalores distintos, entonces los eigenvectores correspondientes forman una base para $\mathbb{R}^n$ y la matriz de $T$ relativa a esa base es una matriz diagonal con los eigenvalores como elementos diagonales.

Demostración. Queda como tarea moral. Como sugerencia, recuerda que mostramos arriba que los eigenvectores de eigenvalores distintos son linealmente independientes.

$\square$

Al parecer los eigenvalores, eigenvectores y eigenespacios de una transformación lineal son cruciales para poder expresarla de manera sencilla. ¿Cómo los encontramos? Esto lo veremos en la siguiente entrada.

Antes de concluir, mencionamos que hay otro teorema crucial sobre diagonalización de matrices. Diremos que una matriz $P\in M_n(\mathbb{R})$ es ortogonal si $P^tP=I$.

Teorema (el teorema espectral). Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces, existe una matriz ortogonal $P$ tal que $PAP^t$ es una matriz diagonal.

El teorema anterior nos dice no únicamente que la matriz $A$ es diagonalizable, sino que además es diagonalizable mediante un tipo muy especial de matrices. Un estudio y demostración de este teorema queda fuera de los alcances de nuestro curso, pero puedes revisar, por ejemplo la entrada teorema espectral del curso de Álgebra Lineal I que tenemos en el blog.

Más adelante

Lo que haremos en la siguiente entrada es desarrollar un método para conocer los eigenvalores de una matriz. A partir de ellos podremos encontrar sus eigenvectores. Y en ciertos casos especiales, esto nos permitirá mostrar que la transformación es diagonalizable y, de hecho, nos dará la base para la cual la matriz asociada es diagonal.

Tarea moral

  1. Considera la transformación lineal de $\mathbb{R}^{3}$ en $\mathbb{R}^{2}$, dada como $T(x,y,z)=(x+y,z+y)$. Encuentra su representación matricial con las bases canónicas de $\mathbb{R}^3$ y $\mathbb{R}^2$. Luego, encuentra su representación matricial con las bases $\{(1,2,3),(1,0,1),(0,-1,0)\}$ de $\mathbb{R}^3$ y $\{(1,1),(1,-1)\}$ de $\mathbb{R}^2$.
  2. Considera la siguiente matriz: \[ \begin{pmatrix} 1 & 0 & 2 & 3 \\ 0 & -1 & 0 & 2 \\ \end{pmatrix}\] Da una transformación lineal $T:\mathbb{R}^4\to \mathbb{R}^2$ y ciertas bases $\beta$ de $\mathbb{R}^4$ y $\gamma$ de $\mathbb{R}^2$ para las cuales esta matriz sea la representación matricial de $T$ en las bases $\beta$ y $\gamma$.
  3. Fija bases $\beta$, $\gamma$ y $\delta$ para $\mathbb{R}^n$, $\mathbb{R}^m$ y $\mathbb{R}^l$. Considera dos transformaciones lineales $T:\mathbb{R}^n\to \mathbb{R}^m$ y $S:\mathbb{R}^m\to \mathbb{R}^l$. Demuestra que:
    $$\text{Mat}_{\delta, \beta} (S \circ T) = \text{Mat}_{\delta,\gamma}(S) \text{Mat}_{\gamma, \beta} (T).$$
    En otras palabras que la «composición de transformaciones corresponde al producto de sus matrices».
  4. Sea $T:\mathbb{R}^n\to\mathbb{R}^n$ una transformación lineal y $\beta$ una base de $\mathbb{R}^n$. Demuestra que $T$ es biyectiva si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.
  5. Verifica que los vectores $\bar{v}_1,\ldots,\bar{v}_n$ dados en el último teorema en efecto ayudan a dar una representación matricial diagonal para $T$.
  6. La demostración del último corolario es un conjunto de sencillas consecuencias de las definiciones y teoremas desarrollados en esta entrada con respecto a los eigenvalores y eigenvectores. Realiza esta demostración.

Entradas relacionadas

Cálculo Diferencial e Integral III: Sistemas de ecuaciones lineales

Por Alejandro Antonio Estrada Franco

Introducción

En esta entrada daremos un repaso a la teoría de sistemas de ecuaciones lineales. En caso de que quieras leer una versión detallada, puedes comenzar con la entrada de Sistemas de ecuaciones lineales y sistemas homogéneos asociados que forma parte del curso Álgebra Lineal I aquí en el blog.

Nuestra motivación para este repaso comienza como sigue. Supongamos que $T:\mathbb{R}^n \rightarrow \mathbb{R}^m$ es una transformación lineal. Tomemos un vector $\bar{w}\in \mathbb{R}^m$. Es muy natural preguntarse qué vectores $\bar{v}$ hay en $\mathbb{R}^n$ tales que $T(\bar{v})=\bar{w}$, en otras palabras, preguntarse cuál es la preimagen de $\bar{w}$.

Sistemas de ecuaciones lineales

Continuando con la situación planteada en la introducción, si $A$ es la representación matricial de $T$ en una cierta base $\beta$, podemos contestar la pregunta planteada resolviendo la ecuación matricial $AX=B$ donde $X$, $B$ son las representaciones de los vectores $\bar{v}$, $\bar{w}$ en la base $\beta$, respectivamente. Una vez llegado a este punto, la ecuación $AX=B$ nos conduce a que se deban cumplir varias igualdades. Veamos cuáles son en términos de las entradas de $A$, $X$ y $Y$. Pensemos que $$A=\begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn}\end{pmatrix}.$$

Pensemos también que $X$ es el vector columna con entradas (incógnitas) $x_1,\ldots,x_n$, y que $B$ es el vector columna con entradas $b_1,\ldots,b_m$.

Al realizar las operaciones, la igualdad $AX=B$ se traduce en que se deban cumplir todas las siguientes ecuaciones simultáneamente:

\begin{equation}\left\{
\begin{matrix} a_{11}x_{1} + & \dots & + a_{1n}x_{n} & = b_{1} \\
\vdots & \ddots & \vdots & \vdots \\
a_{m1}x_{1} + & \dots & + a_{mn}x_{n} & = b_{m}
\end{matrix}\right.
\label{eq:sistema}
\end{equation}

Definición. Un sistema de $m$ ecuaciones lineales con $n$ incógnitas es un sistema de ecuaciones de la forma \eqref{eq:sistema}. Como discutimos arriba, al sistema también lo podemos escribir de la forma $AX=B$. A la matriz $A$ le llamamos la matriz de coeficientes. Al vector $X$ le llamamos el vector de incógnitas.

Resolver el sistema \eqref{eq:sistema} se refiere a determinar todos los posibles valores que pueden tomar las incógnitas $x_1,\ldots,x_n$ de manera que se cumplan todas las ecuaciones dadas.

Definición. Diremos que dos sistemas de ecuaciones son equivalentes si tienen las mismas soluciones.

Un resultado importante que relaciona a los sistemas de ecuaciones con las operaciones elementales que discutimos con anterioridad es el siguiente.

Proposición. Sea $A\in M_{m,n}(\mathbb{R})$ y $e$ una operación elemental cualquiera (intercambio de renglones, reescalamiento de renglón, o transvección). Entonces el sistema de ecuaciones $AX=B$ es equivalente al sistema de ecuaciones $e(A)X=e(B)$.

En otras palabras, si comenzamos con un sistema de ecuaciones $AX=B$ y aplicamos la misma operación elemental a $A$ y a $B$, entonces obtenemos un sistema equivalente. Veamos como ejemplo un esbozo de la demostración en el caso del reescalamiento de vectores. Los detalles y las demostraciones para las otras operaciones elementales quedan como ejercicio.

Demostración. Consideremos el rescalamiento $e$ de la $j$-ésima columna de una matriz por un factor $r$. Veremos que $e(A)X=e(B)$. Tomemos

\[ A=\begin{pmatrix} a_{11} & \dots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \dots & a_{mn} \end{pmatrix}, B= \begin{pmatrix} b_{1} \\ \vdots \\ b_{m} \end{pmatrix}, X=\begin{pmatrix} x_{1} \\ \vdots \\ x_{n} \end{pmatrix} \]

Entonces la ecuación matricial $AX=B$ nos produce el siguiente sistema de ecuaciones lineales:
\[ \left\{\begin{matrix} a_{11}x_{1}+ & \dots & +a_{1n}x_{n}=b_{1} \\ \vdots & \ddots & \vdots \\ a_{m1}x_{1}+ & \dots & +a_{mn}x_{n}=b_{m}. \end{matrix} \right.\]

Tomemos una solución del sistema: \[ X’= \begin{pmatrix} x_{1}’\\ \vdots \\ x_{n}’ \end{pmatrix} \]

La ecuación matricial $e(A)X=e(B)$ nos produce el siguiente sistema de ecuaciones: \[ \left\{\begin{matrix} a_{11}x_{1}+ & \dots & +a_{1n}x_{n}=b_{1} \\ \vdots & \ddots & \vdots \\ ra_{j1}x_{1}+ & \dots & +ra_{jn}x_{n}=rb_{j} \\ \vdots & \ddots \ & \vdots \\ a_{m1}x_{1}+ & \dots & +a_{mn}x_{n}=b_{m}. \end{matrix}\right. \]

Ahora, de cada una de las $n$ ecuaciones, excepto la $j$-ésima, sabemos que se solucionan al sustituir $x_{1}’, \dots ,x_{m}’$, resta revisar la $j$-ésima ecuación. Lo que sí sabemos de que $X’$ sea solución es que $$a_{j1}x_{1}’+ \dots +a_{jn}x_{n}’=b_{j}.$$ Así, al multiplicar por $r$ de ambos lados $ra_{j1}x_{1}’+ \dots + ra_{jn}x_{n}’=rb_{j}$. Así obtenemos que $X’$ satisface también a $e(A)X=e(B)$. Inversamente si una solución satisface al sistema $e(A)X=e(B)$ también lo hace para $AX=Y$. Te recomendamos revisar los detalles por tu cuenta.

$\square$

Soluciones a sistemas de ecuaciones lineales

La teoría de sistemas de ecuaciones lineales nos dice que tenemos tres posibles situaciones que se pueden presentar cuando estamos resolviendo un sistema de ecuaciones lineales en $\mathbb{R}$: no hay solución, hay una única solución, o tenemos infinidad de soluciones. Por ejemplo, se puede descartar que haya exactamente dos soluciones. En cuanto sucede esto, la cantidad de soluciones se dispara a una infinidad

Haremos una discusión de cuándo se presenta cada caso. De acuerdo con la sección anterior, cualquier operación elemental pasa un sistema de ecuaciones a uno equivalente. Además, de acuerdo con el teorema de reducción gaussiana, cualquier matriz puede ser llevada a la forma escalonada reducida. Así, al aplicar tanto a $A$ como a $B$ las operaciones elementales que llevan $A$ a su forma escalonada reducida $A_{red}$, llegamos a un sistema equivalente $A_{red}X=C$. El comportamiento del conjunto solución de $AX=B$ se puede leer en este otro sistema equivalente como sigue:

  1. Sin solución. El sistema $AX=B$ no tiene solución si en $A_{red}X=C$ hay una igualdad lineal del estilo $0x_{j1}+\dots +0x_{jn}=c_j$, con $c_j\neq 0$. En otras palabras, si en $A_{red}$ hay una fila $j$ de ceros y la entrada $c_j$ es distinta de cero.
  2. Infinidad de soluciones. El sistema $AX=B$ tiene una infinidad de soluciones si tiene solución, y además hay por lo menos una columna $k$ de $A_{red}$ en la que no haya pivote de ninguna fila. Esta columna $k$ corresponde a una variable libre $x_k$ que puede tomar cualquier valor, y el sistema tiene soluciones sin importar el valor que se le de a esta variable.
  3. Solución única. Un sistema de ecuaciones con solución, pero sin variables libres tiene una única solución. Esto se puede leer en la matriz $A_{red}$, pues se necesita que todas las columnas tengan un pivote de alguna fila.

Pensemos un poco a qué se deben los comportamientos anteriores. Pensemos en que ya llegamos a $A_{red}X=C$. Iremos determinando los posibles valores de las entradas de $X$ de abajo hacia arriba, es decir, en el orden $x_n, x_{n-1},\ldots, x_1$. Si $x_k$ es variable libre, pongamos el valor que sea. Si $x_k$ tiene el pivote de, digamos, la fila $j$, entonces la ecuación $j$ nos dice \[0+\dots + 0 + x_{k}+\dots +a_{jn}x_{n}=b_{j}.\] Esto nos diría que \[x_{k}=b_{j}-a_{j(k+1)}x_{k+1}-\dots -a_{jn}x_{n},\] así que hemos logrado expresar a $x_k$ en términos de las variables ya determinadas $x_{k+1},\dots x_{n}$.

Matrices equivalentes por filas

Definición. Consideremos $I\in M_{m}(\mathbb{R})$ la matriz identidad de tamaño $m$. Una matriz elemental será una matriz que se obtenga de la identidad tras aplicar una operación elemental.

Definición. Sean $A, B\in M_{m,n}(\mathbb{R})$. Diremos que $A$ es equivalente por filas a $B$ si $A$ se puede obtener al aplicar una sucesión finita de operaciones elementales a $B$.

Se puede demostrar que «ser equivalente por filas» es una relación de equivalencia en $M_{m,n}(\mathbb{R})$. Así mismo, se puede demostrar en general que si $e$ es una operación elemental, entonces $e(A)$ es exactamente la misma matriz que multiplicar la matriz elemental $e(I)$ por la izquierda por $A$, es decir, $e(A)=e(I)A$. Como tarea moral, convéncete de ambas afirmaciones.

Para realizar la demostración, quizás quieras auxiliarte de la siguiente observación. Tomemos una matriz $B\in M_{m,n}(\mathbb{R})$ y pensemos en cada columna de $B$ como un vector columna:

\[ B_{1} =\begin{pmatrix} B_{11} \\ \vdots \\ B_{m1} \end{pmatrix} \hspace{1cm} \cdots \hspace{1cm} B_{n} =\begin{pmatrix} B_{1n} \\ \vdots \\ B_{mn} \end{pmatrix}. \]

Tomemos ahora una matriz $A\in M_{p,m}$. Tras realizar las operaciones, se puede verificar que la matriz $AB$ tiene como columnas a los vectores columna $AB_1, AB_2,\ldots,AB_n$.

El siguiente teorema nos da una manera alternativa de saber si dos matrices son equivalentes por filas.

Teorema. Sean $A, B\in M_{m\times n}(\mathbb{R})$. Se tiene que $B$ es equivalente por filas a $A$ si y sólo si $B=PA$, donde $P$ es una matriz en $M_m(\mathbb{R})$ obtenida como producto de matrices elementales.

Demostración. Por la discusión anterior, si $B$ es equivalente por filas a $A$, $A$ resulta de la aplicación de una sucesión finita de operaciones elementales a $B$ o, lo que es lo mismo, resulta de una aplicación finita de productos de matrices elementales por la izquierda. Por otro lado, si $B=PA$, con $P=E_{k}\cdot … \cdot E_{1}$ producto de matrices elementales, tenemos que $E_{1}A$ es equivalente por filas a $A$, que $E_{2}(E_{1}A)$ es equivalente por filas a $E_{1}A$, que $E_{3}(E_2(E_1(A)))$ equivalente por filas a $E_2(E_1(A))$, y así sucesivamente. Usando que ser equivalente por filas es transitivo (por ser relación de equivalencia), concluimos que $B$ es equivalente por filas a $A$.

$\square$

¿Qué sucede con los determinantes y las operaciones elementales? La siguiente proposición lo resume.

Proposición. Sea $A$ una matriz en $M_n(\mathbb{R})$ con determinante $\det(A)$.

  • Si se intercambian dos filas, el determinante se vuelve $-\det(A)$.
  • Si se reescala una fila por un real $r\neq 0$, el determinante se vuelve $r\det(A)$.
  • Si se hace una transvección, el determinante no cambia.

Observa que, en particular, si $\det(A)\neq 0$, entonces sigue siendo distinto de cero al aplicar operaciones elementales.

Matrices invertibles y sistemas de ecuaciones lineales

En muchas ocasiones nos encontramos en cálculo de varias variables con funciones que van de $\mathbb{R}^n$ a sí mismo. Si la función que estamos estudiando es una transformación lineal, entonces corresponde a una matriz cuadrada en $M_n(\mathbb{R})$. En estos casos hay otro concepto fundamental que ayuda, entre otras cosas, para resolver sistemas de ecuaciones lineales: el de matriz invertible. Veremos a continuación que esto interrelaciona a las matrices, las matrices elementales, los sistemas de ecuaciones lineales y a los determinantes.

Definición. Una matriz $A$ cuadrada es invertible por la izquierda (resp. derecha) si existe una matriz $B$ tal que $BA=I$ (resp. $AB=I$). A $B$ le llamamos la inversa izquierda (resp. derecha) de $A$. A una matriz invertible por la derecha y por la izquierda, donde la inversa izquierda sea igual a la derecha, simplemente se le llama invertible.

Se puede demostrar que, cuando existe, la matriz izquierda (o derecha) es única. Esto es sencillo. Se puede demostrar también que si $B$ es inversa izquierda y $B’$ es inversa derecha, entonces $B=B’$, lo cual no es tan sencillo. Además, se cumplen las siguientes propiedades de matrices invertibles.

Proposición. Sean $A, B\in M_n(\mathbb{R})$

  1. Si $A$ es invertible, también lo es $A^{-1}$ y $(A^{-1})^{-1}=A$.
  2. Si $A$ y $B$ son invertibles, también lo es $AB$ y $(AB)^{-1}=B^{-1} A^{-1}$.

Demostración. El inciso 1 es claro; para el inciso 2 tenemos \[ (AB)(B^{-1} A^{-1})=A(BB^{-1})A^{-1}=A(I)A^{-1}=AA^{-1}=I\] \[=B^{-1}(I)B=B^{-1}(A^{-1}A)B=(B^{-1}A^{-1})(AB) \].

$\square$

Veamos ahora cómo se conecta la noción de invertibilidad con la de matrices elementales. Como parte de la tarea moral, cerciórate de que cualquiera de las tres operaciones elementales para matrices son invertibles. Es decir, para cada operación elemental, piensa en otra operación elemental que aplicada sucesivamente a la primera nos de la matriz original. Con más detalle; si denotamos con $e$ a una operación elemental (puede ser cualquiera) denotamos como $e^{-1}$ a la segunda a la cual llamaremos inversa de $e$; y estas cumplen $e(e^{-1})(A)=A=e^{-1}(e(A))$ para cualquier matriz $A$ a la que se le pueda aplicar $e$.

Proposición. Toda matriz elemental es invertible.

Demostración. Supongamos que $E$ una matriz elemental correspondiente a la operación unitaria $e$. Si $e^{-1}$ es la operación inversa de $e$ y $E_{1}=e^{-1}(I)$ tenemos: \[ EE_{1}=e(E_{1})=e(e^{-1}(I))=I,\] y así mismo tenemos \[E_{1}E=e_{1}(E)=e_{1}(e(I))=I.\] De esta manera $E$ es invertible y su inversa es $E_{1}$.

$\square$

El resultado anterior habla sólo de la invertibilidad de matrices elementales, pero podemos usar a estas para caracterizar a las matrices invertibles.

Teorema. Sea $A\in M_n(\mathbb{R})$, los siguientes enunciados son equivalentes:

  1. $A$ es invertible
  2. $A$ es equivalente por filas a la matriz identidad
  3. $A$ es producto de matrices elementales

Demostración. $1\Rightarrow 2)$. Supongamos que $A$ invertible, y usemos el teorema de reducción Gaussiana para encontrar la forma escalonada reducida $A_{red}$ de $A$ mediante una sucesión de operaciones elementales. Por el teorema de la sección de matrices equivalentes por filas, tenemos que $R=E_{k}\cdots E_{1}A$, donde $E_{k},\dots ,E_{1}$ son matrices elementales. Cada $E_{i}$ es invertible, y $A$ es invertible. Por la proposición anterior, tenemos entonces que $A_{red}$ es invertible. Se puede mostrar que entonces ninguna fila de $A_{red}$ puede consistir de puros ceros (verifícalo de tarea moral), de modo que toda fila de $A$ tiene pivote (que es igual a $1$). Como hay $n$ filas y $n$ columnas, entonces hay exactamente un $1$ en cada fila y en cada columna. A $A_{red}$ no le queda otra opción que ser la matriz identidad.

$2\Rightarrow 3)$. Si $A$ es equivalente por filas a $I$, entonces hay operaciones elementales que la llevan a $I$. Como ser equivalente por filas es relación de equivalencia, existen entonces operaciones elementales que llevan $I$ a $A$. Pero entonces justo $A$ se obtiene de $I$ tras aplicar un producto (por la izquierda) de matrices elementales. Por supuesto, en este producto podemos ignorar a $I$ (o pensarla como un reescalamiento por $1$).

$3\Rightarrow 1)$. Finalmente como cada matriz elemental es invertible y todo producto de matrices invertibles es invertible tenemos que 3 implica 1.

$\square$

Ya que entendemos mejor la invertibilidad, la podemos conectar también con la existencia y unicidad de soluciones en sistemas de ecuaciones lineales.

Teorema. Sea $A\in M_{n}(\mathbb{R})$; las siguientes afirmaciones son equivalentes:

  1. $A$ es invertible.
  2. Para todo $Y$, el sistema $AX=Y$ tiene exactamente una solución $X$.
  3. Para todo $Y$, el sistema $AX=Y$ tiene al menos una solución $X$.

Demostración. $1\Rightarrow 2)$. Supongamos $A$ invertible. Tenemos que $X=A^{-1}Y$ es solución pues $AX=A(A^{-1})Y=IY=Y$. Veamos que la solución es única. Si $X$ y $X’$ son soluciones, tendríamos $AX=Y=AX’$. Multiplicando por $A^{-1}$ por la izquierda en ambos lados de la igualdad obtenemos $X=X’$.

$2\Rightarrow 3)$. Es claro pues la única solución es, en particular, una solución.

$3\Rightarrow 1)$. Tomemos los vectores canónicos $\hat{e}_1,\hat{e}_2,\ldots,\hat{e}_n$ de $\mathbb{R}^n$. Por $(3)$ tenemos que todos los sistemas $AX=\hat{e}_1, \ldots, AX=\hat{e}_n$ tienen solución. Tomemos soluciones $B_1,\ldots,B_n$ para cada uno de ellos y tomemos $B$ como la matriz con columnas $B_1,\ldots, B_n$. Por el truco de hacer el producto de matrices por columnas, se tiene que las columnas de $AB$ son $AB_1=\hat{e}_1,\ldots, AB_n=\hat{e}_n$, es decir, $AB$ es la matriz identidad.

$\square$

En la demostración anterior falta un detalle importante. ¿Puedes encontrar cuál es? Está en la demostración $3\Rightarrow 1)$. Si quieres saber cuál es y cómo arreglarlo, puedes consultar la entrada Mariposa de 7 equivalencias de matrices invertibles.

Terminamos la teoría de esta entrada con un resultado que conecta invertibilidad y determinantes.

Proposición. Sea $A\in M_{n}(\mathbb{R})$. $A$ es invertible, si y sólo si, $det(A)\neq 0$.

Demostración. Si $A$ es invertible, entonces se cumple la ecuación $I=AA^{-1}$. Aplicando determinante de ambos lados y usando que es multiplicativo: $$1=det(I)=det(AA^{-1})=det(A)det(A^{-1}).$$ Como al lado izquierdo tenemos un $1$, entonces $\det(A)\neq 0$.

Si $det(A)\neq 0$, llevemos $A$ a su forma escalonada reducida $A_{red}$. Por la observación hecha al final de la sección de matrices elementales, se tiene que $\det(A_{red})\neq 0$. Así, en cada fila tenemos por lo menos un elemento no cero. Como argumentamos anteriormente, esto implica $A_{red}=I$. Como $A$ es equivalente por filas a $I$, entonces es invertible.

$\square$

Mas adelante…

Continuaremos estableciendo herramientas de Álgebra lineal que usaremos en el desarrollo de los temas subsiguientes. En la siguiente entrada hablaremos de eigenvalores y eigenvectores. Con ellos, expondremos un método que proporciona una representación matricial sencilla simple para cierto tipos de transformaciones lineales.

Tarea moral

  1. Demuestra que la relación «es equivalente por filas» es una relación de equivalencia en $M_{m,n}(\mathbb{R})$.
  2. Sea $A\in M_{m,n}\mathbb{R}$. Verifica que para cualquier operación elemental $e$ de cualquiera de los tres tipos se cumple que $e(A)X=e(B)$ es equivalente a $AX=B$. Deberás ver que cualquier solución de uno es solución del otro y viceversa.
  3. Demuestra que si $A$ es invertible, también lo es $A^{-1}$ y que $(A^{-1})^{-1}=A$. Verifica la invertibilidad izquierda y derecha.
  4. Demuestra que cualquiera de las tres operaciones elementales para matrices son invertibles. Es decir, para cada operación elemental, hay otra que al aplicarla sucesivamente nos regresa a la matriz original.
  5. Prueba que una matriz invertible tiene por lo menos un elemento distinto de cero en cada fila, y por lo menos un elemento distinto de cero en cada columna.

Entradas relacionadas

Geometría Analítica I: Introducción a resultados de clasificación

Por Leonardo Ignacio Martínez Sandoval

Introducción

En tu formación matemática muchas veces te encontrarás con resultados de clasificación. Pero, ¿qué es clasificar en este contexto? A grandes rasgos, consiste en poder decir de manera sencilla cómo son todos los objetos matemáticos que se estén estudiando en un contexto dado.

En esta entrada hablaremos un poco más del problema de clasificar ciertos objetos matemáticos. Iniciaremos con un ejemplo «de juguete» muy básico. Luego, hablaremos de cómo en las clasificaciones geométricas podemos usar transformaciones. Finalmente, daremos un ejemplo sencillo de cómo usar estas ideas en la clasificación de los segmentos del plano.

Ejemplo básico de clasificación

Cuando queremos hacer una clasificación, en el sentido matemático, lo que queremos hacer es tomar algunos objetos matemáticos y decir, bajo algún criterio cómo son todos los «tipos posibles» que existen para esos objetos. Esto puede ser respondido de muchas formas, así que es fundamental acordar dos cosas con precisión:

  1. ¿Cuáles son los objetos que queremos clasificar?
  2. ¿Bajo qué criterio diremos que dos de esos objetos son «del mismo tipo»?

Al final del proceso, nos gustaría tener una lista relativamente fácil de escribir de todas las posibilidades. Esto puede ayudar posteriormente a resolver otros problemas matemáticos o bien a desarrollar más teoría.

Comencemos con un ejemplo «de juguete». Será muy sencillo, pero nos permitirá hablar de algunas de las sutilezas que nos encontraremos en contextos más abstractos. Considera la siguiente figura en la que hay varias figuras geométricas.

Imagina que nos piden «clasificar todas las figuras que están aquí». Lo que nos gustaría obtener al final es una lista con la clasificación, es decir con «todas las posibilidades» de figuras que hay. Si sólo nos dan esta instrucción, entonces estaríamos en problemas: hay muchas forms de clasificar estos objetos.

Una posible clasificación es por forma. Si consideramos equivalentes a dos de estas figuras cuando tienen la misma forma, entonces nuestra lista de posibilidades se reduce a tres: triángulos, cuadrados y círculos. Nuestro teorema de clasificación se vería así:

Teorema. Cualquier figura de la imagen tiene alguna de las siguientes formas:

  1. Triángulo
  2. Cuadrado
  3. Círculo

Este teorema de clasificación está padre. Pero puede ser inútil en algunos contextos. Por ejemplo, imagina que las figuras son muestras que está regalando una tienda de pinturas para que puedas llevarlas a tu casa y usarlas para ver si te gustaría pintar una pared con el color dado. Para estos fines es (prácticamente) lo mismo que te den un cuadrado azul o un triángulo azul. Lo único que importa es el color.

Pensar de esta manera nos da otra manera de clasificar a las figuras: por color. Si usamos esta noción de equivalencia, entonces nuestro resultado de clasificación sería muy distinto.

Teorema. Cualquier figura de la imagen es de alguno de los siguientes colores:

  1. Rojo
  2. Naranja
  3. Amarillo
  4. Verde
  5. Azul

Pero podríamos querer ser mucho más estrictos y querer clasificar considerando ambos criterios: tanto la forma como el color. Quizás uno podría pensar que como hay tres figuras y cinco colores, entonces hay $3\cdot 5=15$ posibilidades en esta clasificación. Obtendríamos el siguiente resultado.

Teorema. Cualquier figura de la imagen es de alguno de los siguientes 15 tipos: triángulo rojo, triángulo naranja, triángulo amarillo, triángulo verde, triángulo azul, cuadrado rojo, cuadrado naranja, cuadrado amarillo, cuadrado verde, cuadrado azul, círculo rojo, círculo naranja, círculo amarillo, círculo verde, círculo azul.

Estrictamente hablando, este resultado es correcto: cualquier figura es de alguno de esos tipos. Pero el teorema tiene algo incómodo: nos está dando posibilidades que no suceden. Por ejemplo, no hay cuadrados amarillos, ni círculos azules.

Una clasificación con forma y color que nos dejaría más satisfecho sería la siguiente:

Teorema. Cualquier figura de la imagen es de alguno de los siguientes 11 tipos:

  1. Triángulo rojo
  2. Triángulo naranja
  3. Triángulo amarillo
  4. Triángulo azul
  5. Cuadrado rojo
  6. Cuadrado naranja
  7. Cuadrado azul
  8. Círculo rojo
  9. Círculo naranja
  10. Círculo amarillo
  11. Círculo verde

Más aún, cualquiera de estas posibilidades sucede.

Este resultado se siente mucho más satisfactorio. Por un lado, no está agregando a la lista «opciones de más». Por otro lado, a partir de él podemos demostrar proposiciones sin tener que volver a ver la figura. Algunos ejemplos son los siguientes:

  • Ningún círculo de nuestra figuras es azul.
  • Todas las figuras verdes son círculos.
  • Ninguna figura amarilla es un cuadrado.

Para mostrar cualquiera de estas, basta ver nuestra clasificación.

¿Podemos dar una clasificación mucho más estricta? Sí, por supuesto. Por ejemplo, podemos considerar dos figuras iguales sólo cuando tienen exactamente la misma figura, color y posición. En este caso nuestro teorema de clasificación tendría un tipo por cada una de las 19 figuras. Esta clasificación también se siente un poco insatisfactoria pues en realidad no estamos «agrupando» figuras, sino simplemente «poniendo a cada una en su propio grupo». Pero bueno, es una clasificación válida también.

Uso de relaciones de equivalencia y particiones

Una manera de formalizar una clasificación es a partir de relaciones de equivalencia y particiones. Recordemos las siguientes dos definiciones:

Definición. Una relación de equivalencia en un conjunto $X$ es una colección de parejas $(x,y)$ en $X\times X$ tales que:

  • (Reflexividad) Para cualquier $x$ en $X$ la pareja $(x,x)$ está en la colección.
  • (Simetría) Si para algunos $x,y$ en $X$ se cumple que la pareja $(x,y)$ está en la colección, entonces la pareja $(y,x)$ también está en la colección.
  • (Transitividad) Si para algunos $x,y,z$ en $X$ se cumple que tanto las parejas $(x,y)$ como $(y,z)$ están en la colección, entonces la pareja $(x,z)$ también está.

Las relaciones de equivalencia nos ayudan a decir cuándo dos objetos de $X$ «son iguales» o «son el mismo» bajo algún criterio usualmente más relajado que la igualdad.

Definición. Una partición de un conjunto $X$ es una colección de conjuntos $(A_i)_{i \in I}$ para algún conjunto de índices $I$ tal que ninguno de los $A_i$ es vacío, cualesquiera dos de ellos tienen intersección vacía y $X=\cup_{i\in I}A_i$.

Un resultado clásico de teoría de conjuntos dice que «una relación de equivalencia da una partición, y viceversa». Formalmente, dada una relación de equivalencia $R$ en un conjunto $X$, podemos crear la clase de equivalencia de un elemento $x$ en $X$ como sigue: $$\overline(x):=\{y \in X: (x,y)\in R\}.$$ El conjunto $\{\overline{x}:x\in X\}$ da una colección de conjuntos que es una partición de $X$. Y viceversa, si tenemos una partición $(A_i)_{i \in I}$, entonces podemos considerar las parejas $(x,y)$ de elementos tales que $x$ y $y$ están en un mismo $A_i$, de donde obtenemos una relación de equivalencia.

Regresando a la idea de clasificar, podemos realizar una clasificación a través de una relación de equivalencia o de una partición. Las clases de equivalencia son los «tipos» de objetos que tenemos. Podemos dar un representante «sencillo» dentro de cada clase de equivalencia para hacer nuestra lista de los posibles «tipos» que existen.

Ejemplo. En los números enteros podemos decir que dos enteros $x$ y $y$ están relacionados cuando $x-y$ es un número par. Es fácil mostrar que esto da una relación de equivalencia y que las clases de equivalencia en este caso son los conjuntos:

\begin{align*}
P&=\{\ldots,-4,-2,0,2,4,\ldots\},
Q&=\{\ldots,-3,-1,1,3,\ldots\}.
\end{align*}

Tenemos que $P$ y $Q$ forman una partición del conjunto $\mathbb{Z}$ de números enteros. Así, esta relación clasifica a los enteros en dos tipos: los pares y los impares. Otra forma de dar esta clasificación es diciendo que «Cualquier entero es equivalente al $0$ o al $1$», o más explícitamente, «Para cualquier entero $z$ se tiene que o bien $z$ es par, o bien $z-1$ es par».

$\square$

Clasificación de segmentos del plano con transformaciones

Hacia donde queremos ir es hacia una clasificación relacionada con la geometría. Por esta razón, las relaciones de equivalencia, particiones o «tipos» de objetos que obtendremos estarán relacionados con nociones geométricas. Una manera de hacer esto es mediante las transformaciones que estuvimos estudiando en la unidad anterior: transformaciones afines, traslaciones, isometrías, transformaciones ortogonales, etc.

Por ejemplo, pensemos en que estamos hablando de los segmentos cerrados y acotados en el plano cartesiano. Es decir, de acuerdo a lo que estudiamos en la primera unidad, para cualesquiera dos puntos distintos $P$ y $Q$ en el plano estamos considerando el conjunto $$\overline{PQ}=\{pP+qQ:0\leq p \leq 1, 0 \leq q \leq 1, p+q=1\}.$$ En la siguiente figura puedes ver algunos de los (muchos) segmentos que hay en el plano:

Familia de segmentos

¿Cómo podemos clasificar a todos los segmentos que hay en el plano? Antes de cualquier cosa, tenemos que ponernos de acuerdo en la clasificación. Una manera de hacer esto es mediante transformaciones del plano. Veamos un par de ejemplos.

Ejemplo. Una primer opción es que digamos que dos segmentos son del mismo tipo cuando podamos trasladar uno de ellos al otro. Si hacemos esto, casi todos los segmentos de la siguiente figura serían del mismo tipo.

Familia de segmentos

El único que no es del mismo tipo que los demás sería el segmento punteado que, aunque lo dibujamos intencionalmente de la misma longitud que los demás, no resulta ser equivalente pues es imposible trasladarlo a alguno de los otros segmentos. Con esta noción de segmentos equivalentes, ¿qué posibilidades tendríamos? Es más o menos fácil convencerse de que para que dos segmentos sean del mismo tipo con esta clasificación necesitamos que a) sean paralelos y b) tengan la misma longitud. Por ello mismo, no es tampoco difícil convencerse del siguiente teorema de clasificación.

Teorema. Cualquier segmento del plano es equivalente bajo traslaciones a un segmento tal que uno de sus extremos es el origen.

$\square$

Veamos otra manera de clasificar los segmentos del plano.

Ejemplo. Diremos que dos segmentos son del mismo tipo si podemos llevar uno al otro a través de una isometría. Si hacemos esto entonces ahora sí todos los segmentos de la siguiente figura son equivalentes (pensando en que el segmento punteado tiene la misma longitud que los otros).

De hecho, por lo que sabemos de las isometrías podemos afirmar que bajo este criterio dos segmentos son del mismo tipo si y sólo si tienen la misma longitud. Esto nos llevaría a un teorema de clasificación un poco distinto.

Teorema. Cualquier segmento se puede mediante isometrías a un segmento que sale del origen y termina en un punto del la forma $(x,0)$ con $x>0$. Más aún, todos estos segmentos son de distinto tipo.

$\square$

En los dos ejemplos anteriores hemos sido un poco informales, pues dejamos varias cosas sin demostrar. Seguramente podrás detectarlas e intentar completar los argumentos que faltan. Algunas de estas cosas faltantes están en los ejercicios.

Más adelante…

En esta entrada hablamos de la noción de «clasificar» de manera muy general, con el fin de entenderla y ver algunas de las sutilezas que nos encontraremos más adelante. A partir de ahora nos enfocaremos en probar resultados de clasificación muy específicos, relacionados con las cónicas.

Sin embargo, queremos ser muy precisos con respecto a la clasificación que daremos. Por esta razón, en las siguientes dos entradas hablaremos de los objetos específicos que queremos clasificar y de las nociones de equivalencia que permitiremos.

Tarea moral

  1. Verifica que en nuestro ejemplo de juguete la relación «tener el mismo color» es una relación de equivalencia.
  2. Para cada una de las clasificaciones que dimos en nuestro ejemplo de juguete encuentra cuántas de las figuras originales hay en cada una de las clases.
  3. Demuestra que la relación en $\mathbb{Z}$ en la cual tenemos a $(x,y)$ si y sólo si $x-y$ es un número par es una relación de equivalencia. Muestra que en este caso la partición consiste en el conjunto de los números pares, y el conjunto de los números impares.
  4. Sea $S$ el conjunto de segmentos en el plano. Diremos un elemento $s_1$ de $S$ es traslacionalmente equivalente a otro elemento $s_2$ de $S$ si existe una traslación $T$ de $\mathbb{R}^2$ tal que $T(s_1)=s_2$. Demuestra que «ser traslacionalmente eqivalente a» es una relación de equivalencia en $S$.
  5. Da teoremas de clasificación de las rectas en $\mathbb{R}$ usando transformaciones para cada una de las siguientes posibilidades:
    1. Dos rectas son del mismo tipo si se puede llevar una a otra mediante una traslación.
    2. Dos rectas son del mismo tipo si se puede llevar una a la otra mediante una rotación.
    3. Dos rectas son del mismo tipo si se puede llevar una a la otra mediante una isometría.

Entradas relacionadas

Probabilidad I: Transformaciones de Variables Aleatorias

Por Octavio Daniel Ríos García

Introducción

En la entrada pasada vimos el último tipo importante de v.a. que veremos, por ahora: las v.a.’s mixtas. En particular, vimos una manera de construir v.a.’s mixtas siguiendo un método muy sencillo: evaluando el $\max$ y el $\min$ en alguna v.a. continua. Esto puede pensarse como «transformar» la v.a. continua dada mediante las funciones $\max$ y $\min$. No sólamente la transformación fue posible, sino que además la función resultante es una v.a., y obtuvimos su función de distribución. Este proceso puede generalizarse para obtener la distribución de muchas más funciones de v.a.’s continuas.

Composición de funciones y variables aleatorias

Una de las cosas que hicimos en la entrada pasada fue ver que, dada una v.a. continua $X$, podíamos obtener v.a.’s mixtas a partir de $X$. Vamos a refinar un poco lo que hicimos en la entrada pasada. Sea $c\in\RR$, y sea $\mathrm{max}_{c}\colon\RR\to\RR$ la función dada por

\begin{align*} \mathrm{max}_{c}(x) &= \max{\left\lbrace x, c \right\rbrace}, & \text{para cada $x\in\RR$.} \end{align*}

De este modo, definimos una v.a. nueva $U$ como $U = \mathrm{max}_{c}(X)$. Sin embargo, ¿qué es exactamente «$\mathrm{max}_{c}(X)$»? Sabemos que $X$ es una «variable aleatoria», lo que significa que $U$ es como «evaluar» una función en una variable aleatoria. No obstante, esto no es otra cosa que… ¡una composición de funciones! Como recordatorio de Álgebra Superior I, dadas funciones $f\colon A\to B$, $g\colon B\to C$, la composición $g \circ f \colon A \to C$, llamada $f$ seguida de $g$, se define como

\begin{align*} g \circ f (x) &= g(f(x)), & \text{para cada $x\in A$.} \end{align*}

Recordando la definición de variable aleatoria, cuando tenemos un espacio de probabilidad $(\Omega, \mathscr{F}, \mathbb{P})$ sabemos que una función $X\colon\Omega\to\RR$ es una variable aleatoria si satisface una condición de «medibilidad», que dimos hace unas entradas. De momento, lo que más nos importa es que una v.a. es una función. En consecuencia, la v.a. $U$ que definimos no es otra cosa que $\mathrm{max}_{c} \circ X\colon\Omega\to\RR$, dada por

\begin{align*} \mathrm{max}_{c} \circ X (\omega) &= \max{\{ X(\omega), c \}}, & \text{para cada $x \in \Omega$}, \end{align*}

que es justamente como la definimos en la entrada anterior a esta. Ahora bien, dadas una v.a. $X\colon\Omega\to\RR$ y una función $g\colon\RR\to\RR$, hay que tener cuidado con $g$ para que $g \circ X$ sea una v.a., pues puede pasar que la función resultante no es una variable aleatoria, de acuerdo con la definición. Nosotros nos abstendremos de presentar casos degenerados de ese estilo, pero expondremos las condiciones que se necesitan para que una transformación de una v.a. sea nuevamente una v.a.

¿Cuáles funciones sí dan como resultado variables aleatorias?

Comenzaremos con una definición general del tipo de funciones que nos serán útiles.


Definición. Si $g\colon\RR\to\RR$ es una función, diremos que $g$ es una función Borel-medible si para cada $B \in \mathscr{B}(\RR)$ se cumple que $g^{-1}(B) \in \mathscr{B}(\RR)$.

Es decir, $g$ es una función Borel-medible si la imagen inversa de cualquier elemento del σ-álgebra de Borel es también un elemento del σ-álgebra de Borel.


Si recuerdas la definición de variable aleatoria, podrás observar que… ¡Es casi la misma! En realidad, ambas son el mismo concepto en la teoría más general: son funciones medibles. En particular, las funciones Borel-medibles reciben su nombre por el σ-álgebra que preservan: el σ-álgebra de Borel. De hecho, observa que las funciones Borel-medibles son un caso particular de nuestra definición de variable aleatoria, usando $(\RR, \mathscr{B}(\RR), \mathbb{P})$ como espacio de probabilidad. Por ello, todos los resultamos que hemos visto hasta ahora para v.a.’s aplican para funciones Borel-medibles.

Resulta que esta clase de funciones son aquellas que, al componer con una v.a., nos devuelven otra variable aleatoria.


Proposición. Sean $(\Omega, \mathscr{F}, \mathbb{P})$ un espacio de probabilidad, $X\colon\Omega\to\RR$ una v.a. y $g\colon\RR\to\RR$ una función Borel-medible. Entonces $g \circ X \colon\Omega\to\RR$ es una variable aleatoria.


Demostración. Queremos demostrar que $g \circ X$ es una variable aleatoria. Es decir, que para cada $A \in \mathscr{B}(\RR)$ se cumple que $(g \circ X)^{-1}[A] \in \mathscr{F}$. Ahora, $(g \circ X)^{-1}[A] = X^{-1}[g^{-1}[A]]$, por propiedades de la imagen inversa. En consecuencia, hay que ver que para cada $A \in \mathscr{B}(\RR)$ se cumple que $X^{-1}[g^{-1}[A]] \in \mathscr{F}$.

Sea $A \in \mathscr{B}(\RR)$. Como $g$ es una función Borel-medible, esto implica que $g^{-1}[A] \in \mathscr{B}(\RR)$. Ahora, como $X$ es una variable aleatoria, $g^{-1}[A] \in \mathscr{B}(\RR)$ implica $X^{-1}[g^{-1}[A]] \in \mathscr{F}$, que es justamente lo que queríamos demostrar.

$\square$

Así, si $g\colon\RR\to\RR$ es una función Borel-medible y $X\colon\Omega\to\RR$ es una variable aleatoria, entonces $g \circ X$ es también una variable aleatoria.

Pero entonces, ¿qué funciones podemos usar?

A pesar de que lo anterior nos da muchas funciones con las cuales transformar v.a.’s, de momento quizás no conozcas ninguna función Borel-medible. No temas, el siguiente teorema nos da una gran cantidad de funciones que son Borel-medibles, y con las cuales seguramente te has encontrado antes.


Proposición. Si $g\colon\RR\to\RR$ es una función continua, entonces es Borel-medible.


Demostración. Sea $g\colon\RR\to\RR$ una función continua. Queremos demostrar que $g$ es Borel-medible. Es decir, que para cada $x \in \RR$, $X^{-1}[(-\infty, x)] \in \mathscr{B}(\RR)$.

Sea $x\in\RR$. Como $(-\infty, x)$ es un intervalo abierto, es un subconjunto abierto (en la topología usual) de $\RR$. En consecuencia, como $g$ es continua, $g^{-1}[(-\infty, x)]$ también es un subconjunto abierto de $\RR$.

Ahora, como $g^{-1}[(-\infty, x)]$ es un abierto, esto implica que existe una familia numerable de intervalos abiertos $\{ I_{n} \}_{n=1}^{\infty}$ tales que

\[ g^{-1}[(-\infty, x)] = \bigcup_{n=1}^{\infty} I_{n}. \]

Nota que como $I_{n}$ es un intervalo abierto, para cada $n \in \mathbb{N}^{+}$, entonces $I_{n} \in \mathscr{B}(\RR)$. Por lo tanto, $\bigcup_{n=1}^{\infty} I_{n} \in \mathscr{B}(\RR)$, que implica $g^{-1}[(-\infty, x)] \in \mathscr{B}(\RR)$, que es justamente lo que queríamos demostrar.

$\square$

Es muy probable que estés cursando Cálculo Diferencial e Integral III al mismo tiempo que esta materia, por lo que quizás no hayas visto algunos detalles de la topología usual de $\RR$ que utilizamos en la demostración anterior. Puedes consultar nuestras notas de Cálculo Diferencial e Integral III sobre el tema si lo consideras necesario.

Con esta última proposición hemos encontrado una gran cantidad de funciones válidas para transformar v.a.’s. Seguramente conoces muchísimas funciones continuas: los polinomios, funciones lineales, algunas funciones trigonométricas (como $\sin$ y $\cos$), etcétera.

Un primer método para obtener la distribución de una transformación

Una vez que conocemos muchas funciones con las cuales podemos transformar v.a.’s, nuestro objetivo es encontrar la distribución de tales transformaciones. Si $g\colon\RR\to\RR$ es una función Borel-medible y $X\colon\Omega\to\RR$ es una v.a. (cuya función de distribución es conocida), queremos encontrar la distribución de $Y = g \circ X$. Para hacerlo, basta con encontrar la probabilidad de los eventos de la forma

\begin{align*} (Y \leq y) = (g \circ X \leq y) = \{ \, \omega \in \Omega \mid g(X(\omega)) \leq y \, \}. \end{align*}

Es común encontrar la notación $g(X) = g \circ X$, y de este modo, se usa $(g(X) \leq y)$ para referirse a los eventos $(g \circ X \leq y)$.

Sin embargo, el caso de las v.a.’s discretas puede ser más sencillo, ya que la función de masa de probabilidad caracteriza el comportamiento de ese tipo de v’a’s. Veamos cómo hacerlo mediante el siguiente ejemplo.

Ejemplo. Sea $Z$ una v.a. con función de masa de probabilidad $p_{Z}\colon\RR\to\RR$ dada por

\begin{align*} p_{Z}(z) = \begin{cases} \dfrac{1}{5} & \text{si $z \in \{-2, -1, 0, 1, 2 \}$}, \\[1em] 0 & \text{en otro caso}. \end{cases}\end{align*}

Figura. Gráfica de la función de masa de probabilidad de $Z$.

Ahora, sea $g\colon\RR\to\RR$ la función dada por

\begin{align*} g(x) &= x^{2} & \text{para cada $x \in \RR$.} \end{align*}

Defínase $Y = g (Z)$, es decir, $Y = Z^{2}$. Primero, el conjunto de posibles valores que puede tomar $Y$ es

\[ \{\, z^2 \mid z \in \textrm{Im}(Z) \,\} = \{ (-2)^{2}, (-1)^{2}, 0^{2}, 1^{2}, 2^{2} \} = \{ 4, 1, 0, 1, 4 \} = \{ 0, 1, 4 \}. \]

Observa que $Y$ puede tomar $3$ valores distintos, mientras que $Z$ puede tomar $5$. Ya desde este momento se nota que las probabilidades de los eventos que involucran a $Y$ van a ser distintas a los de $Z$.

Sea $y \in \RR$. Para obtener la función de masa de probabilidad de $Y$ tenemos que obtener la probabilidad de los eventos de la forma $(Y = y)$. Este evento es

\[ (Y = y) = \{\,\omega\in\Omega\mid Y(\omega) = y \,\}, \]

Es decir, $\omega\in (Y=y) \iff Y(\omega) = y$. Usando la definición de $Y$, se tiene que

\begin{align*} \omega\in (Y = y) &\iff Y(\omega) = y \\[1em] &\iff (g \circ Z)(\omega) = y \\[1em] &\iff g(Z(\omega)) = y \\[1em] &\iff (Z(\omega))^{2} = y \\[1em] &\iff {\left|Z(\omega)\right|} = \sqrt{y} \\[1em] &\iff (Z(\omega) = \sqrt{y} \lor Z(\omega) = -\sqrt{y}), \end{align*}

esto es, $\omega$ es un elemento de $(Y=y)$ si y sólamente si $Z(\omega) = \sqrt{y}$ o $Z(\omega) = -\sqrt{y}$. Esto es equivalente a que $\omega \in (Z = \sqrt{y}) \cup (Z = -\sqrt{y})$, por lo que podemos concluir que

\[ (Y = y) = (Z = \sqrt{y}) \cup (Z = -\sqrt{y}). \]

En consecuencia, $\Prob{Y = y} = \Prob{(Z = \sqrt{y}) \cup (Z = -\sqrt{y})}$, y así:

\[ \Prob{Y = y} = \Prob{Z = \sqrt{y}} + \Prob{Z = -\sqrt{y}}. \]

Para $y < 0$, observa que

\[ (Z = \sqrt{y}) = \{\,\omega\in\Omega\mid Z(\omega) = \sqrt{y} \,\} = \emptyset, \]

pues $Z$ toma valores en los reales, no en los complejos. Del mismo modo, cuando $y < 0$, $(Z = -\sqrt{y}) = \emptyset$; y así,

\begin{align*} \Prob{Y = y} &= \Prob{Z = \sqrt{y}} + \Prob{Z = -\sqrt{y}} = 0, & \text{para $y < 0$.} \end{align*}

Por otro lado, para $y \geq 0$, sólamente hay $3$ valores que importan: $0$, $1$ y $4$, como acordamos previamente. Para el caso de $y = 0$, observa que $(Z = \sqrt{0}) \cup (Z = -\sqrt{0}) = (Z = 0)$, pues

\begin{align*} \omega \in (Z = \sqrt{0}) \cup (Z = -\sqrt{0}) &\iff (Z(\omega) = \sqrt{0} \lor Z(\omega) = -\sqrt{0}) \\[1em] &\iff (Z(\omega) = 0 \lor Z(\omega) = 0) \\[1em] &\iff Z(\omega) = 0 \\[1em] &\iff \omega \in (Z = 0). \end{align*}

Por lo tanto, se tiene que

\begin{align*}
\Prob{Y = 0} &= \Prob{Z = 0} = \frac{1}{5}.
\end{align*}

Para $y = 1$ y $y = 4$ sí podemos aplicar la fórmula que obtuvimos:

\begin{align*} \Prob{Y = 1} &= \Prob{Z = \sqrt{1}} + \Prob{Z = -\sqrt{1}} = \Prob{Z = 1} + \Prob{Z = -1} = \frac{1}{5} + \frac{1}{5} = \frac{2}{5}, \\[1em] \Prob{Y = 4} &= \Prob{Z = \sqrt{4}} + \Prob{Z = -\sqrt{4}} = \Prob{Z = 2} + \Prob{Z = -2} = \frac{1}{5} + \frac{1}{5} = \frac{2}{5}. \end{align*}

En conclusión, la función de masa de probabilidad de $Y$ es la función $p_{Y}\colon\RR\to\RR$ dada por

\begin{align*} p_{Y}(y) &= \begin{cases} \dfrac{1}{5} & \text{si $y = 0$,} \\[1em] \dfrac{2}{5} & \text{si $y = 1$ o $y = 4$,} \\[1em] 0 &\text{en otro caso.} \end{cases} \end{align*}

Figura. Función de masa de probabilidad de $Y$.

El ejemplo anterior ilustra lo que se debe de hacer para obtener las probabilidades de la transformación de una v.a. discreta. Sea $X\colon\Omega\to\RR$ una v.a. y sea $g\colon\RR\to\RR$ una función Borel-medible. Para cada $A \in \mathscr{B}(\RR)$, sabemos que el evento $(X \in A)$ no es otra cosa que $X^{-1}[A]$. Definimos la v.a. $Y$ como $Y = g(X)$. Ahora, sabemos que para cada $\omega\in\Omega$ se cumple que

\[ \omega \in X^{-1}[A] \iff X(\omega) \in A, \]

por la definición de imagen inversa. En consecuencia, para $(Y \in A)$ tenemos que

\begin{align*} \omega \in (Y \in A) &\iff \omega \in (g(X) \in A) \\[1em] &\iff g(X(\omega)) \in A \\[1em] &\iff X(\omega) \in g^{-1}[A] \\[1em] &\iff \omega \in (X \in g^{-1}[A]). \end{align*}

Por lo que $(Y \in A) = (X \in g^{-1}[A])$. Por ello, $\Prob{Y \in A} = \Prob{X \in g^{-1}[A]}$. Esto tiene sentido: como $Y = g(X)$, entonces la probabilidad de que $g(X)$ tome algún valor en $A$ es la misma que la probabilidad de que $X$ tome algún valor en $g^{-1}[A]$, pues todos los elementos de $g^{-1}[A]$ son mandados a $A$ cuando se les aplica $g$.

Finalmente, utilizando que $X$ es una v.a. discreta, tendremos que

\begin{align}\label{transf:1} \Prob{Y \in A} = \sum_{x \in g^{-1}[A]} \Prob{X = x}. \end{align}

En el caso particular en el que existe $y \in \RR$ tal que $A = \{ y \}$, tendremos que

\begin{align}\label{transf:2} \Prob{Y = y} = \sum_{x \in g^{-1}[\{ y\}]} \Prob{X = x}, \end{align}

justamente como hicimos en el ejemplo anterior. A continuación presentamos otro ejemplo siguiendo la misma metodología.

Ejemplo. Sea $V$ una v.a. con función de masa de probabilidad $p_{V}\colon\RR\to\RR$ dada por

\begin{align*} p_{V}(v) = \begin{cases} \dfrac{1}{2^{|v|+1}} & \text{si $v \in \{-3,-2,-1,1,2,3\}$}, \\[1em] \dfrac{1}{16} & \text{si $v = 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Figura. Gráfica de la función de masa de probabilidad de $V$.

Nuevamente, considera la transformación $g\colon\RR\to\RR$ dada por $g(x) = x^{2}$ para cada $x \in \RR$. De este modo, defínase la v.a. $T$ como $T = g(V)$. Antes que nada, el conjunto de valores que puede tomar $T$ es el resultado de transformar el conjunto de los valores que puede tomar $V$. Si $\mathrm{Supp}(V) = \{-3,-2,-1,0,1,2,3\}$ es el conjunto de valores que puede tomar $V$, entonces el conjunto de valores que puede tomar $T$ es

\[ g{\left( \mathrm{Supp}(V) \right)} = \{ \, t \in \RR \mid \exists v \in \mathrm{Supp}(V)\colon g(v) = t \, \} = \{0, 1, 4, 9 \}. \]

Como $g$ es la misma transformación que en el ejemplo anterior, hay algunas cosas que ya sabemos. Primero,

\begin{align*} \Prob{T = t} &= 0, & \text{para cada $t < 0$},\end{align*}

mientras que para $t = 0$, se tiene que $\Prob{T = 0} = \Prob{V = 0} = \frac{1}{8}$. Para $t > 0$, vimos previamente que $g^{-1}[\{t\}] = \{ \sqrt{t}, -\sqrt{t} \}$. Así, tendremos que

\begin{align*} \Prob{T = t} = \sum_{v \in g^{-1}[\{ t \}]} \Prob{V = v} = \Prob{V = \sqrt{t}} + \Prob{V = -\sqrt{t}}. \end{align*}

En particular, la v.a. $V$ sólamente toma probabilidades mayores a $0$ en $\{-3, -2, -1, 0, 1, 2, 3 \}$, por lo que $\Prob{T = t} > 0$ para $t \in \{0, 1, 4, 9 \}$, y $\Prob{T = t} = 0$ en otro caso. Así, tenemos que

\begin{align*} \Prob{T = 1} &= \Prob{V = \sqrt{1}} + \Prob{V = -\sqrt{1}} = \frac{1}{2^{|1| + 1}} + \frac{1}{2^{|-1|+1}} = \frac{1}{2^2} + \frac{1}{2^{2}} = \frac{2}{4} = \frac{1}{2}, \\[1em] \Prob{T = 4} &= \Prob{V = \sqrt{4}} + \Prob{V = -\sqrt{4}} = \frac{1}{2^{|2| + 1}} + \frac{1}{2^{|-2|+1}} = \frac{1}{8} + \frac{1}{8} = \frac{1}{4}, \\[1em] \Prob{T = 9} &= \Prob{V = \sqrt{9}} + \Prob{V = -\sqrt{9}} = \frac{1}{2^{|3| + 1}} + \frac{1}{2^{|-3|+1}} = \frac{1}{16} + \frac{1}{16} = \frac{1}{8}. \end{align*}

Alternativamente, podemos obtener una fórmula cerrada para cada $t \in \{1, 4, 9 \}$, que queda así:

\begin{align*} \Prob{T = t} = \Prob{V = \sqrt{t}} + \Prob{V = -\sqrt{t}} &= \frac{1}{2^{{\left|\sqrt{t}\right|} + 1}} + \frac{1}{2^{{\left|-\sqrt{t}\right|} + 1}} \\[1em] &= \frac{1}{2^{\sqrt{t} + 1}} + \frac{1}{2^{\sqrt{t} + 1}} \\[1em] &= \frac{2}{2^{\sqrt{t} + 1}} \\[1em] &= \frac{1}{2^{\sqrt{t}}}.\end{align*}

Y así obtenemos una expresión para la función de masa de probabilidad de $T$:

\begin{align*} p_{T}(t) = \begin{cases} \dfrac{1}{2^{\sqrt{t}}} & \text{si $t \in \{1,4,9\}$}, \\[1em] \dfrac{1}{8} & \text{si $t = 0$}, \\[1em] 0 & \text{en otro caso}. \end{cases} \end{align*}

Figura. Gráfica de la función de masa de probabilidad de $T$.

Tarea moral

Los siguientes ejercicios son opcionales. Es decir, no formarán parte de tu calificación. Sin embargo, te recomiendo resolverlos para que desarrolles tu dominio de los conceptos abordados en esta entrada.

  1. Verifica que la función de masa de probabilidad de la v.a. $Z$ del primer ejemplo satisface las propiedades de una función de masa de probabilidad.
  2. Haz lo mismo para la función de masa de probabilidad de la v.a. $V$ del segundo ejemplo.
  3. Retomando los dos ejemplos vistos en esta entrada y las v.a.’s $Z$ y $V$ de cada ejemplo, y tomando la transformación $f\colon\RR\to\RR$ dada por $f(x) = x^{3} − x^{2} − 4x + 4$:
    1. Encuentra la función de masa de probabilidad de $f(Z)$.
    2. Encuentra la función de masa de probabilidad de $f(V)$.

Más adelante…

El método expuesto en esta entrada funciona para cualquier variable aleatoria discreta. No hay fórmulas «cerradas» para la f.m.p. (función de masa de probabilidad) de la transformación de una v.a. discreta. Sin embargo, las fórmulas \eqref{transf:1} y \eqref{transf:2} son suficientes para encontrar las probabilidades de eventos que involucran a la transformación de la v.a. discreta conocida. No obstante, estas fórmulas sólamente funcionan para v.a.’s discretas. Por ello, en la siguiente entrada centraremos nuestra atención en el caso de las v.a.’s continuas.

Entradas relacionadas