Archivo de la categoría: Matemáticas

Posts de matemáticas, la ciencia más cercana a las artes.

Cálculo Diferencial e Integral III: Representaciones matriciales, eigenvalores y eigenvectores

Por Alejandro Antonio Estrada Franco

Introducción

Como se ha mencionado anteriormente el objetivo de introducir ideas de álgebra lineal en cálculo diferencial es poder establecer una transformación lineal que sea la mejor aproximación lineal en un punto a una función dada. Esto nos ayudará a entender a la función dada en el punto en términos de otra función «más simple». Pero así mismo, las transformaciones lineales pueden ellas mismas pensarse en términos de transformaciones más sencillas. En esta entrada revisaremos esta idea y la conectaremos con la noción de eigenvectores.

Por un lado, recordaremos cómo es que una transformación lineal puede ser representada mediante una matriz una vez que se ha elegido una base del espacio vectorial. Luego, hablaremos de cómo elegir, de entre todas las bases, aquella que nos de una representación matricial lo más sencilla posible.

Representación matricial de las transformaciones lineales

Comencemos esta entrada repasando la importante relación entre transformaciones lineales y matrices. Denotaremos como $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ al espacio vectorial de transformaciones lineales de $\mathbb{R}^n$ a $\mathbb{R}^m$.

Si tomamos cualquier transformación lineal $T\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, entonces los valores de $T$ en cualquier vector de $\mathbb{R}^n$ quedan totalmente determinados por los valores de $T$ en los elementos de alguna base $\beta$ para $\mathbb{R}^n$. Tomemos $\gamma=\{\bar{w}_{1},\dots ,\bar{w}_{m}\}$ una base ordenada para $\mathbb{R}^m$, y $\beta=\{\bar{e}_{1},\dots ,\bar{e}_{n}\}$ una base ordenada para $\mathbb{R}^n$. Para cada $\bar{e}_{k}$ tenemos:

$$\begin{equation} T(\bar{e}_{k})=\sum_{i=1}^{m}t_{ik}\bar{w}_{i} \end{equation},$$

para algunos escalares $t_{1k},\dots ,t_{mk}$ que justo son las componentes de $T(\bar{e}_{k})$ en la base $\gamma$. Con estos escalares, podemos considerar la matriz: \[ \text{Mat}_{\gamma,\beta}(T)= \begin{pmatrix} t_{11} & \dots & t_{1n} \\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \]

Esta es llamada la representación matricial de la transformación $T$ con respecto a las bases $\beta$ y $\gamma$. Esta matriz ayuda a calcular $T$ en cualquier vector de $\mathbb{R}^n$ como explicamos a continuación.

Para cada $\bar{v}\in \mathbb{R}^n$, podemos expresarlo como combinación lineal de elementos de la base $\beta$ digamos que $\bar{v}=\sum_{i=1}^{n} v_{i}\bar{e}_{i}$. Mediante estos coeficientes, podemos entonces asociar a $\bar{v}$ al siguiente vector columna de $\mathbb{R}^n$ \[ [\bar{v}]_{\beta}=\begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}, \]

al que llamamos el vector de coordenadas de $\bar{v}$ con respecto a la base $\beta$.

Realicemos por un lado el siguiente cálculo:

\[ \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}=\begin{pmatrix} t_{11} & \dots & t_{1n}\\ \vdots & \ddots & \vdots \\ t_{m1} & \dots & t_{mn} \end{pmatrix} \begin{pmatrix} v_{1} \\ \vdots \\ v_{n} \end{pmatrix}=\begin{pmatrix} \displaystyle\sum_{k=1}^{n}t_{1k}v_{k} \\ \vdots \\ \displaystyle\sum_{k=1}^{n}t_{mk}v_{k}.\end{pmatrix} \]

Por otro lado tenemos lo siguiente:

\begin{align*}
T(\bar{v})&=T \left( \sum_{k=1}^{n}v_{k}\bar{e}_{k} \right)\\&=\sum_{k=1}^{n}v_{k}T(\bar{e}_{k})\\&=\sum_{k=1}^{n}v_{k}T\left( \sum_{i=1}^{m}t_{ik}\bar{w}_{i} \right)\\&=\sum_{i=1}^{m}\left( \sum_{k=1}^{n}v_{k}t_{ik} \right)\bar{w}_{i}.
\end{align*}

Juntando ambos cálculos: \[ [T(\bar{v})]_{\gamma}=\begin{pmatrix} \sum_{k=1}^{n}v_{k}t_{1k} \\ \vdots \\ \sum_{k=1}^{n}v_{k}t_{mk} \end{pmatrix} = \text{Mat}_{\gamma,\beta}(T)[\bar{v}]_{\beta}.\]

En otras palabras, aplicar $T$ a un vector $\bar{v}$ equivale a multiplicar $\text{Mat}_{\gamma,\beta}$ por el vector columna asociado a $\bar{v}$ en la base $\beta$, en el sentido de que tras hacer este producto recuperamos el vector de coordenadas para $T(\bar{v})$ en la base $\gamma$.

Isomorfismo entre transformaciones lineales y matrices

Con las operaciones de suma y multiplicación por escalar que vimos en la entrada de Matrices, se tiene que $M_{m,n}\left( \mathbb{R} \right)$ es un espacio vectorial sobre $\mathbb{R}$. De igual manera $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ es un espacio vectorial sobre $\mathbb{R}$ con las siguientes operaciones:

  • Si $T$ y $U$ son dos transformaciones, la transformación $T+U$ es aquella que envía a todo vector $\bar{v}\in \mathbb{R}^n$ al vector $T(\bar{v})+U(\bar{v})$.
  • Si $r\in \mathbb{R}$ la transformación $rT$ es la que a todo $\bar{v}\in \mathbb{R}^n$ lo envía al vector $rT(\bar{v})$.

Queda como ejercicio que verifiques que esto dota efectivamente a $\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ de la estructura de espacio vectorial.

A continuación veremos que estos dos espacios vectoriales son, prácticamente, el mismo. Lo que haremos es construir una función $$\Phi :M_{m,n}\left( \mathbb{R} \right) \to\mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$$ que sea biyectiva y que preserve las operaciones de suma y de producto escalar.

Para ello, tomemos una base $\beta=\{\bar{e}_1,\ldots,\bar{e}_n\}$ de $\mathbb{R}^{n}$ y una base $\gamma=\{\bar{u}_1,\ldots,\bar{u}_m\}$ de $\mathbb{R}^m$. Tomemos una matriz $A\in M_{m,n}(\mathbb{R})$. Explicaremos a continuación cómo construir la transformación $\Phi(A)$, para lo cual diremos qué hace con cada elemento de la base $\beta$. Tomaremos aquella transformación lineal $T_A\in \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$ tal que

$$T_A(\bar{e}_j)=\sum_{i=1}^n a_{ij} \bar{u}_i.$$

Tomamos entonces $\Phi(A)=T_A$. Veamos que $\Phi$ tiene todas las propiedades que queremos.

  • $\Phi$ es suprayectiva. Si tenemos una transformación $T:\mathbb{R}^n\to \mathbb{R}^m$, entonces por la construcción anterior se tiene que su forma matricial $A:=\text{Mat}_{\gamma,\beta}(T)$ justo cumple $T_A=T$, de modo que $\Phi(A)=T$.
  • $\Phi$ es inyectiva. Si $A$ y $B$ son matrices distintas, entonces difieren en alguna entrada, digamos $(i,j)$. Pero entonces $T_A$ y $T_B$ difieren ya que $T_A(\bar{e}_j)\neq T_B(\bar{e}_j)$ ya que en las combinaciones lineales creadas hay un coeficiente distinto. Así, $\Phi(A)\neq \Phi(B)$.
  • $\Phi $ es lineal. Para $r\in \mathbb{R}$, $A$ y $B$ matrices con entradas $a_{ij}$ y $b_{ij}$, respectivamente, se cumple que $\Phi \left( rA+B \right)=T_{(rA+B)}$ y entonces se satisface para cada $j=1,\dots ,n$ lo siguiente:
    \begin{align*}
    (rA+B)[\bar{e}_{j}]_{\beta}&=rA[\bar{e}_{j}]_{\beta}+B[\bar{e}_{j}]_{\beta}\\&=r[T_A(\bar{e}_{i})]_{\gamma}+[T_{B}(\bar{e}_{i})]_{\gamma}.
    \end{align*}
    Por tanto para cada $\bar{e}_{i}$ tenemos que $$T_{(rA+B)}(\bar{e}_{i})=rT_{A}(\bar{e}_{i})+T_{B}(\bar{e}_{i})$$ y en consecuencia $$T_{(rA+B)}=rT_{A}+T_{B}.$$ Así $$\Phi (rA+B)=r\Phi (A)+\Phi(B).$$

Todo lo anterior implica que $M_{m,n}\left( \mathbb{R} \right)\simeq \mathcal{L}(\mathbb{R}^n,\mathbb{R}^m)$, es decir, que ambos espacios vectoriales son isomorfos.

En búsqueda de una matriz sencilla

Por lo que hemos platicado hasta ahora, a cada transformación lineal le corresponde una matriz, y viceversa. De hecho, esta asociación respeta operaciones como la suma y el producto por escalar. Esta equivalencia está dada a partir de la función $\Phi$ encontrada en la sección anterior.

Si $\Phi $ es biyectiva, ¿por qué hablamos entonces de encontrar una representación matricial simple para una transformación lineal $T$? Esto parecería no tener sentido, pues a cada transformación le corresponde una y sólo una matriz. Sin embargo, esto es cierto únicamente tras haber fijado las bases $\beta$ y $\gamma$ para $\mathbb{R}^n$ y $\mathbb{R}^m$, respectivamente. Así, dependiendo de la elección de las bases las representaciones matriciales cambian y si tenemos una transformación lineal $T$, es posible que querramos encontrar bases $\beta$ y $\gamma$ en donde la representación matricial sea sencilla.

Nos enfocaremos únicamente en transformaciones lineales que van de un espacio vectorial a sí mismo. Tomemos entonces $T:\mathbb{R}^n\to \mathbb{R}^n$ y una base $\beta$ de $\mathbb{R}^n$. Por simplicidad, escribiremos $\text{Mat}_{\beta, \beta}(T)$ simplemente como $\text{Mat}_{\beta}(T)$. Hay propiedades de $T$ que podemos leer en su matriz $\text{Mat}_{\beta}(T)$ y que no dependen de la base $\beta$ que hayamos elegido. Si con una base $\beta$ especial resulta que $\text{Mat}_{\beta}(T)$ es muy sencilla, entonces podremos leer estas propiedades de $T$ muy fácilmente. Un ejemplo es la siguiente proposición, la cual queda como tarea moral.

Proposición. La transformación lineal $T:\mathbb{R}^n\to\mathbb{R}^n$ es invertible si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.

Si $A=\text{Mat}_{\beta}(T)$ fuera muy muy sencilla, por ejemplo, si fuera una matriz diagonal, entonces podríamos saber la invertibilidad de $T$ sabiendo la invertibilidad de $A$, y la de $A$ sería muy fácil de ver pues por ser matriz diagonal bastaría hacer el producto de las entradas de su diagonal para obtener su determinante y estudiar si es distinto de cero.

Motivados por el ejemplo anterior, estudiemos la siguiente pregunta: ¿toda transformación lineal se puede representar con una matriz diagonal? Si una transformación lineal se puede representar de esta manera, diremos que es diagonalizable.

Eigenvalores, eigenvectores y eigenespacios

En lo que sigue repasaremos el aparato conceptual que nos permitirá dar una respuesta parcial de cuándo una matriz es diagonalizable. Un tratamiento mucho más detallado se puede encontrar aquí en el blog, en el curso de Álgebra Lineal II, comenzando con la entrada Eigenvectores y eigenvalores.

Para nuestro repaso, debemos introducir algunos conceptos y estudiarlos.

Definición. Sea $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ una transformación lineal. Diremos que un escalar $r \in \mathbb{R}$ es un eigenvalor de $T$ si existe $\bar{v}\in \mathbb{R}^n\setminus\{ \bar{0} \}$ tal que $T(\bar{v})=r\bar{v}$. A dicho vector $\bar{v}$ le llamaremos un eigenvector de $T$ con eigenvalor asociado $r$.

Dado un eigenvector $\bar{v}\in \mathbb{R}^n$, sólo hay un eigenvalor correspondiente a éste. Si $T(\bar{v})=r\bar{v}$ y $T(\bar{v})=t\bar{v}$, entonces $r\bar{v}=t\bar{v}$ de donde $(r-t)\bar{v}=\bar{0}$. Como $\bar{v}\neq \bar{0}$, se sigue que $r=t$.

Por otro lado, para un eigenvalor $r$ puede haber más de un eigenvector con eigenvalor asociado $r$. Consideremos para un eigenvalor $r$ el conjunto $E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$. Notemos que $\bar{0}\in E(r)$ y también todos los eigenvectores de $r$ están en $E(r)$. Además, $E(r)$ es un subespacio de $\mathbb{R}^n$, pues si $\bar{u},\bar{v} \in E(r)$, y $a\in \mathbb{R}$, tenemos

\begin{align*}
T(a\bar{u}+\bar{v})&=aT(\bar{u})+T(\bar{v})\\
&=a(r\bar{u})+(r\bar{v})\\
&=r(a\bar{u}+\bar{v}),
\end{align*}

lo cual implica que $a\bar{u}+\bar{v} \in E(r)$.

Definición. Para una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ y un eigenvalor $r$ de $T$ llamaremos a

$$E(r)=\{ \bar{v}\in V |T(\bar{v})=r\bar{v}\}$$

el eigenespacio de $T$ correspondiente a $r$.

Cuando tenemos eigenvectores correspondientes a eigenvalores distintos, cumplen algo especial.

Proposición. Si $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son eigenvectores de una transformación lineal $T:\mathbb{R}^n \rightarrow \mathbb{R}^n$ con eigenvalores correspondientes $r_{1}, \dots ,r_{l}$ distintos entonces $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

Demostración. La ruta para establecer la demostración de este teorema será por inducción sobre $l$. Para un conjunto con sólo un eigenvector el resultado es evidente (¿por qué?). Supongamos cierto para cualquier subconjunto de $l-1$ eigenvectores que pertenecen a eigenespacios distintos. Sean $\bar{v}_{1}, \dots ,\bar{v}_{l}$ eigenvectores en distintos eigenespacios y consideremos $\alpha _{1}, \dots ,\alpha_{l}$ escalares tales que:

\begin{equation}
\label{eq:comb-cero}
\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}=\bar{0}.
\end{equation}

Aplicamos $T$ a la igualdad anterior. Usando que cada $\bar{v}_{k}$ es eigenvector correspondiente al eigenvalor $r_{k}$ obtenemos:

\begin{align*}
\bar{0}=T(\bar{0})&=T\left(\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k} \right)\\&=\sum_{k=1}^{l}\alpha _{k}T(\bar{v}_{k})\\&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}.
\end{align*}

Es decir,

\begin{equation}
\label{eq:aplicarT}
\textbf{0}=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}
\end{equation}

Multipliquemos \eqref{eq:comb-cero} por $r_{l}$ y restemos el resultado de \eqref{eq:aplicarT} para obtener que

\begin{align*}
\bar{0}=\bar{0}-\bar{0}&=\sum_{k=1}^{l}\alpha _{k}r_{k}\bar{v}_{k}-r_{l}\sum_{k=1}^{l}\alpha _{k}\bar{v}_{k}\\&=\sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}.
\end{align*}

Tenemos entonces:

\[ \sum_{k=1}^{l-1}\alpha _{k}(r_{k}-r_{l})\bar{v}_{k}=\bar{0}.\]

Ya que por hipótesis de inducción $\bar{v}_{1}, \dots ,\bar{v}_{l-1}$ son linealmente independientes entonces $\alpha _{k}(r_{k}-r_{l})=0$ para todo $k$, pero los eigenvalores son todos distintos entre sí por lo tanto para todo $k$ de $1$ a $l-1$ se tiene $r_{k}-r_{l}\neq 0$ y así $\alpha _{k}=0$. Finalmente, usando \eqref{eq:comb-cero} obtenemos $\alpha_l=0$. Por lo tanto $\bar{v}_{1}, \dots ,\bar{v}_{l}$ son linealmente independientes.

$\square$

Eigenvectores y transformaciones diagonalizables

Recuerda que dijimos que una transformación lineal $T:\mathbb{R}^n\to \mathbb{R}^n$ es diagonalizable si existe una base $\beta$ de $\mathbb{R}^n$ tal que $\text{Mat}_{\beta}(T)$ es una matriz diagonal. El siguiente resultado conecta las dos ideas que hemos estado explorando: los eigenvectores y la representabilidad sencilla de $T$.

Teorema. Sea $T:\mathbb{R}^{n}\rightarrow \mathbb{R}^{n}$ transformación lineal. Una matriz $T$ es diagonalizable si y sólo si existe una base de $\mathbb{R}^n$ conformada por eigenvectores de $T$.

En realidad la demostración consiste únicamente en entender correctamente cómo se construyen las matrices para una base dada.

Demostración. $\Rightarrow )$ Supongamos que $T$ tiene una representación matricial que es una matriz diagonal $A:=\text{Mat}_{\beta}(T)=\text{diag}(r_{1}, \dots ,r_{n})$ con respecto a la base $\beta=\{\bar{v}_{1}, \dots ,\bar{v}_{n}\}$. Afirmamos que para cada $j=1,\ldots,n$ se tiene $\bar{v}_j$ es eigevector de eigenvalor $r_j$. En efecto, la forma en la que se construyó la matriz $A$ nos dice que

\begin{align*}
T(\bar{e}_j)&=\sum_{i=1}^n a_{ij} \bar{e}_i \\&= a_{jj} \bar{e}_j \\&= r_j \bar{e}_j,
\end{align*}

en donde estamos usando que las entradas $a_{ij}$ de la matriz son cero si $i\neq j$ (por ser diagonal), y son $r_j$ si $i=j$. Por supuesto, como $\bar{e}_j$ forma parte de una base, tampoco es el vector cero. Así, $\bar{e}_j$ es eigenvector de eigenvalor $\bar{e}_j$.

$\Leftarrow )$ Supongamos ahora que $\bar{v}_{1},\dots ,\bar{v}_{n}$ son una base $\beta$ de $\mathbb{R}^n$ conformada por eigenvectores de $T$ con eigenvalores asociados, digamos, $r_{1},\dots ,r_{n}$. Aquí se puede mostrar que $\text{Mat}_\beta(T)$ es diagonal. Queda como tarea moral hacer las cuentas.

$\square$

Hay una situación particular en la que podemos aprovechar el teorema anterior de manera inmediata: cuando la transformación tiene $n$ eigenvalores distintos. Esta consecuencia queda establecida en el siguiente resultado.

Corolario. Toda transformación lineal $T:\mathbb{R}^n\rightarrow \mathbb{R}^n$ tiene a lo más $n$ eigenvalores distintos. Si $T$ tiene exactamente $n$ eigenvalores distintos, entonces los eigenvectores correspondientes forman una base para $\mathbb{R}^n$ y la matriz de $T$ relativa a esa base es una matriz diagonal con los eigenvalores como elementos diagonales.

Demostración. Queda como tarea moral. Como sugerencia, recuerda que mostramos arriba que los eigenvectores de eigenvalores distintos son linealmente independientes.

$\square$

Al parecer los eigenvalores, eigenvectores y eigenespacios de una transformación lineal son cruciales para poder expresarla de manera sencilla. ¿Cómo los encontramos? Esto lo veremos en la siguiente entrada.

Antes de concluir, mencionamos que hay otro teorema crucial sobre diagonalización de matrices. Diremos que una matriz $P\in M_n(\mathbb{R})$ es ortogonal si $P^tP=I$.

Teorema (el teorema espectral). Sea $A\in M_n(\mathbb{R})$ una matriz simétrica. Entonces, existe una matriz ortogonal $P$ tal que $PAP^t$ es una matriz diagonal.

El teorema anterior nos dice no únicamente que la matriz $A$ es diagonalizable, sino que además es diagonalizable mediante un tipo muy especial de matrices. Un estudio y demostración de este teorema queda fuera de los alcances de nuestro curso, pero puedes revisar, por ejemplo la entrada teorema espectral del curso de Álgebra Lineal I que tenemos en el blog.

Más adelante

Lo que haremos en la siguiente entrada es desarrollar un método para conocer los eigenvalores de una matriz. A partir de ellos podremos encontrar sus eigenvectores. Y en ciertos casos especiales, esto nos permitirá mostrar que la transformación es diagonalizable y, de hecho, nos dará la base para la cual la matriz asociada es diagonal.

Tarea moral

  1. Considera la transformación lineal de $\mathbb{R}^{3}$ en $\mathbb{R}^{2}$, dada como $T(x,y,z)=(x+y,z+y)$. Encuentra su representación matricial con las bases canónicas de $\mathbb{R}^3$ y $\mathbb{R}^2$. Luego, encuentra su representación matricial con las bases $\{(1,2,3),(1,0,1),(0,-1,0)\}$ de $\mathbb{R}^3$ y $\{(1,1),(1,-1)\}$ de $\mathbb{R}^2$.
  2. Considera la siguiente matriz: \[ \begin{pmatrix} 1 & 0 & 2 & 3 \\ 0 & -1 & 0 & 2 \\ \end{pmatrix}\] Da una transformación lineal $T:\mathbb{R}^4\to \mathbb{R}^2$ y ciertas bases $\beta$ de $\mathbb{R}^4$ y $\gamma$ de $\mathbb{R}^2$ para las cuales esta matriz sea la representación matricial de $T$ en las bases $\beta$ y $\gamma$.
  3. Fija bases $\beta$, $\gamma$ y $\delta$ para $\mathbb{R}^n$, $\mathbb{R}^m$ y $\mathbb{R}^l$. Considera dos transformaciones lineales $T:\mathbb{R}^n\to \mathbb{R}^m$ y $S:\mathbb{R}^m\to \mathbb{R}^l$. Demuestra que:
    $$\text{Mat}_{\delta, \beta} (S \circ T) = \text{Mat}_{\delta,\gamma}(S) \text{Mat}_{\gamma, \beta} (T).$$
    En otras palabras que la «composición de transformaciones corresponde al producto de sus matrices».
  4. Sea $T:\mathbb{R}^n\to\mathbb{R}^n$ una transformación lineal y $\beta$ una base de $\mathbb{R}^n$. Demuestra que $T$ es biyectiva si y sólo si $\text{Mat}_{\beta}(T)$ es invertible.
  5. Verifica que los vectores $\bar{v}_1,\ldots,\bar{v}_n$ dados en el último teorema en efecto ayudan a dar una representación matricial diagonal para $T$.
  6. La demostración del último corolario es un conjunto de sencillas consecuencias de las definiciones y teoremas desarrollados en esta entrada con respecto a los eigenvalores y eigenvectores. Realiza esta demostración.

Entradas relacionadas

Teoría de los Conjuntos I: Bases para cualquier espacio vectorial

Por Gabriela Hernández Aguilar

Introducción

Lo que haremos en esta última entrada es utilizar el axioma de elección para probar un resultado muy conocido en álgebra lineal: que todo espacio vectorial tiene una base. Para comprender algunos de los términos que utilizaremos en esta sección puedes consultar el curso de Álgebra Lineal I disponible aquí en el blog.

Recordatorio de definiciones

Daremos un breve recordatorio sobre qué quiere decir que un subconjunto arbitrario (finito o no) de un espacio vectorial sea generador, linealmente independiente o base.

Definición. Sea $V$ un espacio vectorial sobre un campo $F$ y $S\subseteq V$. Decimos que $S$ es generador si para cualquier $v\in V$ existe una cantidad finita de vectores $v_1,\ldots,v_n$ en $V$ y de escalares $\alpha_1,\ldots,\alpha_n$ en $F$ tales que $$v=\alpha_1v_1+\ldots+\alpha_nv_n.$$

Definición. Sea $V$ un espacio vectorial sobre un campo $F$ y $L\subseteq V$. Decimos que $L$ es linealmente independiente si para cualquier elección finita de vectores distintos $v_1,\ldots,v_n$ en $L$ y escalares $\alpha_1,\ldots,\alpha_n$, la igualdad $$0=\alpha_1v_1+\ldots+\alpha_nv_n$$ implica que $\alpha_1=\ldots=\alpha_n=0$.

Definición. Sea $V$ un espacio vectorial sobre un campo $F$ y $B\subseteq V$. Decimos que $B$ es una base de $V$ si $B$ es generador y linealmente independiente.

Todo espacio vectorial tiene una base

Demostraremos el siguiente resultado

Teorema. Todo espacio vectorial tiene una base.

Demostración.

Sea $V$ un espacio vectorial sobre un campo $F$. Lo que queremos mostrar es que existe un subconjunto $B$ de $V$ que genera a $B$ y que es linealmente independiente.

Si $V=\set{0}$, entonces $\emptyset$ es una base para $V$. Supongamos ahora que $V$ tiene al menos dos vectores distintos. Sea $\mathcal{F}=\set{L\subseteq V:L\ \textnormal{es un conjunto linealmente independiente}}$. Notemos que $\mathcal{F}$ es no vacío. En efecto, sea $v\in V$ un elemento distinto del vector cero. Luego, $\set{v}$ es linealmente independiente, por lo que $\set{v}\in\mathcal{F}$.

Lo que haremos ahora es probar que $\mathcal{F}$ es una familia de conjuntos de carácter finito. Sea $L$ un conjunto tal que $L\in\mathcal{F}$. Luego, $L$ es linealmente independiente y, por tanto, cualquier subconjunto de $L$ es linealmente independiente, en particular todos los subconjuntos finitos de $L$ son linealmente independientes. En consecuencia, cualquier subconjunto finito de $L$ pertence a $\mathcal{F}$.

Ahora, sea $L$ un conjunto tal que todo subconjunto finito de $L$ pertenece a $\mathcal{F}$. Para cualquier elección de vectores distintos $v_1,\ldots,v_n$ tenemos entonces que $\{v_1,\ldots,v_n\}$ es linealmente independiente. Pero entonces cualquier elección de escalares $\alpha_1,\ldots,\alpha_n$ tales que $$0=\alpha_1v_1+\ldots+\alpha_nv_n$$ cumple que $\alpha_1=\ldots=\alpha_n=0$. Concluimos entonces que $L$ es linealmente independiente. Por tanto, $L\in\mathcal{F}$. Esto demuestra que $\mathcal{F}$ es una familia de conjuntos de carácter finito.

Ahora, por el axioma de elección (en la versión de lema de Tukey-Teichmüller) toda familia no vacía de carácter finito tiene un elemento $\subseteq$-maximal. Sea $B$ un elemento $\subseteq$-maximal en $\mathcal{F}$. Afirmamos que $B$ es una base para $V$. Como $B$ es linealmente independiente, sólo basta probar que $B$ genera a $V$.

Procedamos por contradicción y supongamos que $B$ no genera a $V$. Sea $v\in V$ que no esté en el espacio generado por $B$. Entonces $B\cup\set{v}$ sería un subconjunto de $V$ linealmente independiente que contiene propiamente a $B$ (ver, por ejemplo la última proposición en la entrada Conjuntos generadores e independencia lineal). ¡Esto contradice la maximalidad de $B$ con respecto a la contención en $\mathcal{F}$!

Así, $B$ es linealmente independiente y generador, y por lo tanto es una base de $V$.

$\square$

Tarea moral

Los siguientes resultados presentan algunos refinamientos del resultado mencionado. Por ejemplo, enuncian que «cualquier base parcial se puede completar» a una base, o que «de cualquier conjunto generador se puede extraer una base», etc.

  1. Sea $V$ un espacio vectorial sobre un campo $K$. Muestra que todo conjunto linealmente independiente está contenido en una base de $V$.
  2. Sea $V$ un espacio vectorial. Muestra que si $S$ es un subconjunto generador de $V$, entonces existe $\beta\subseteq S$ tal que $\beta$ es una base para $V$.
  3. Sea $V$ un espacio vectorial con base $\beta$. Si $S$ es un conjunto linealmente independiente, muestra que existe un subconjunto $S_1$ de $\beta$ tal que $S\cup S_1$ es una base para $V$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Teoría de los Conjuntos I: El lema de Zorn

Por Gabriela Hernández Aguilar

Introducción

En la entrada anterior vimos algunas equivalencias del axioma de elección. En esta nueva entrada veremos algunas otras equivalencias del mismo axioma, pero en términos de órdenes. Estas versiones no son tan evidentes e incluso resultan sorprendentes. En muchas ramas de las matemáticas se apela a las formas equivalentes del axioma de elección que veremos a continuación, por lo que es importante tratarlas.

Familias de caracter finito

Para llegar al lema de Zorn, necesitaremos desarrollar previamente algo de teoría. La siguiente definición jugará un papel clave a lo largo de esta entrada.

Definición. Sea $\mathcal{F}$ una familia de conjuntos. Decimos que $\mathcal{F}$ es de carácter finito si dado un conjunto $A$ se tiene que $A\in\mathcal{F}$ si y sólo si todo subconjunto finito de $A$ está en $\mathcal{F}$.

Veamos los siguientes ejemplos.

Ejemplo.

Sea $\mathcal{F}$ la familia vacía. Luego, por vacuidad, un conjunto $A\in\mathcal{F}$ si y sólo si todo subconjunto finito de $A$ está en $\mathcal{F}$.

$\square$

Ejemplo.

Sea $X$ un conjunto y $\mathcal{F}=\mathcal{P}(X)$ su conjunto potencia. Luego, si $A$ es un conjunto tal que $A\in\mathcal{F}$, entonces $A\subseteq X$ y, por tanto, todo subconjunto finito de $A$ es un subconjunto de $X$, por lo que todo subconjunto finito de $A$ está en $\mathcal{P}(X)$. Ahora, sea $A$ un conjunto tal que cualquiera de sus subconjuntos finitos está en $\mathcal{P}(X)$. Veamos que $A\in\mathcal{P}(X)$, es decir, que $A\subseteq X$. Sea pues $a\in A$ cualquier elemento. Luego, $\set{a}$ es un subconjunto finito de $A$ por lo que $\set{a}\in\mathcal{P}(X)$ y, en consecuencia, $\set{a}\subseteq X$, lo cual es equivalente a que $a\in X$. Por tanto, $A\subseteq X$, lo que muestra que $A\in\mathcal{P}(X)$. De modo que para todo conjunto $X$ su conjunto potencia $\mathcal{P}(X)$ es una familia de conjuntos de carácter finito.

$\square$

En el último ejemplo tenemos una familia de carácter finito no vacía que tiene al vacío como elemento, pues el conjunto potencia de cualquier conjunto siempre tiene al vacío Esto no sólo ocurre para este caso particular, si tenemos una familia no vacía de carácter finito, entonces el conjunto vacío es un elemento de dicha familia. En efecto, sea $\mathcal{F}$ cualquier familia no vacía de carácter finito. Luego, sea $A\in\mathcal{F}$. Dado que $\emptyset\subseteq A$ y $\emptyset$ es finito, entonces $\emptyset\in\mathcal{F}$.

Un poco más adelante necesitaremos del siguiente lema. En un conjunto parcialmente ordenado $(X,\leq)$, una cadena es un subconjunto $Y$ de $X$ tal que la restricción de $\leq$ a $Y$ es un orden total. Dicho de otra forma, en $Y$ cualesquiera dos elementos son $\leq$-comparables.

Lema. Sea $\mathcal{F}$ una familia de carácter finito y sea $\mathcal{B}$ una cadena en $\mathcal{F}$ con respecto a la contención, entonces $\bigcup\mathcal{B}\in\mathcal{F}$.

Demostración.

Dado que $\mathcal{F}$ es de carácter finito basta mostrar que cada subconjunto finito de $\bigcup\mathcal{B}$ está en $\mathcal{F}$. Sea $F$ un subconjunto finito de $\bigcup\mathcal{B}$. Luego, para cada $x\in F$ existe $B_x\in\mathcal{B}$ tal que $x\in B_x$. Dado que $F$ es finito existe un natural $n$ y una función biyectiva $f:n\to F$, por lo que podemos expresar a $F$ como el conjunto $\set{f(m):m\in n}$. Luego, $F\subseteq\cup_{m\in n}B_{f(m)}$. Ahora, como $\mathcal{B}$ es una cadena, entonces existe $m_0\in n$ tal que $B_{f(m)}\subseteq B_{f(m_0)}$ para todo $m\in n$, así que $F\subseteq B_{f(m_0)}$. Finalmente, como $B_{f(m_0)}\in\mathcal{F}$ y $F$ es un subconjunto finito de $B_{f(m_0)}$, entonces $F\in\mathcal{F}$. Esto muestra que $\bigcup\mathcal{B}\in\mathcal{F}$.

$\square$

El lema de Tukey-Teichmüller

Para probar el siguiente teorema debemos asumir que el axioma de elección se cumple. El resultado que enunciamos a continuación John W. Tukey lo enuncia y demuestra en su tesis doctoral en 1939.

Teorema. (Lema de Tukey-Teichmüller). Toda familia no vacía de carácter finito tiene un elemento $\subseteq$-maximal.

Demostración.

La prueba será por contradicción. Supongamos entonces que existe una familia no vacía $\mathcal{F}$ de carácter finito tal que no tiene elementos $\subseteq$-maximales. Luego, para cada $F\in\mathcal{F}$ definamos $\mathcal{A}_F=\set{E\in\mathcal{F}:F\subsetneq E}$, es decir, $\mathcal{A}_F$ es el conjunto de todos los elementos de $\mathcal{F}$ que contienen propiamente a $F$. Dado que $\mathcal{F}$ no tiene elementos $\subseteq$-maximales, para cada $F\in\mathcal{F}$ el conjunto $\mathcal{A}_F$ es no vacío.

Sea $\mathcal{E}=\set{\mathcal{A}_F:F\in\mathcal{F}}$, la cual es una famila no vacía de conjuntos no vacíos. Por el teorema de la entrada anterior sobre algunas de las equivalencias del axioma de elección, existe una función $f:\mathcal{F}\to\bigcup\mathcal{E}$ de tal forma que $f(F)\in\mathcal{A}_F$ para todo $F\in\mathcal{F}$. Luego, como $f(F)\in\mathcal{A}_F$ para cada $F\in\mathcal{F}$, entonces $F\subsetneq f(F)$ para todo $F\in\mathcal{F}$.

Utilizando esta función $f$ diremos que una subfamilia $\mathcal{G}$ de $\mathcal{F}$ es $f$-inductiva si tiene las siguientes propiedades:

  1. $\emptyset\in\mathcal{G}$.
  2. $A\in\mathcal{G}$ implica $f(A)\in\mathcal{G}$.
  3. Si $\mathcal{B}$ es una $\subseteq$-cadena contenida en $\mathcal{G}$, entonces $\bigcup\mathcal{B}\in\mathcal{G}$.

Dado que $\mathcal{F}$ es una familia de carácter finito no vacía tenemos que $\emptyset\in\mathcal{F}$. Ahora, si $F\in\mathcal{F}$, entonces $f(F)\in\mathcal{F}$ por la elección de la función $f$. Finalmente, si $\mathcal{B}$ es una $\subseteq$-cadena contenida en $\mathcal{F}$, entonces, por el lema previo, $\bigcup\mathcal{B}\in\mathcal{F}$. Así pues, $\mathcal{F}$ es una subfamilia de $\mathcal{F}$ que es $f$-inductiva. Consecuentemente, la familia de conjuntos $\set{\mathcal{G}\subseteq\mathcal{F}:\mathcal{G}\ \textnormal{es $f$-inductiva}}$ es no vacía. Podemos considerar así al conjunto $\mathcal{G}_0:=\bigcap\set{\mathcal{G}\subseteq\mathcal{F}:\mathcal{G}\ \textnormal{es $f$-inductiva}}$.

Veamos que $\mathcal{G}_0$ es $f$-inductiva. Primero, como $\emptyset\in\mathcal{G}$ para toda subfamilia $f$-inductiva de $\mathcal{F}$, entonces $\emptyset\in\mathcal{G}_0$. Ahora, si $A\in\mathcal{G}_0$, entonces $A\in\mathcal{G}$ para toda familia $f$-inductiva de $\mathcal{F}$, por lo que, por definición de subfamilia $f$-inductiva, $f(A)\in\mathcal{G}$ para toda familia $f$-inductiva de $\mathcal{F}$ y, por ende, $f(A)\in\mathcal{G}_0$. Por último, si $\mathcal{B}$ es un $\subseteq$-cadena contenida en $\mathcal{G_0}$, entonces $\mathcal{B}$ es una $\subseteq$-cadena contenida en cada subfamilia $f$-inductiva de $\mathcal{F}$, por lo que $\bigcup\mathcal{B}$ pertenece a cada una de estas subfamilias $f$-inductivas y, consecuentemente, $\bigcup\mathcal{B}\in\mathcal{G}_0$. Esto muestra que $\mathcal{G}_0$ es $f$-inductiva.

Por el párrafo anterior tenemos que toda subfamilia $f$-inductiva de $\mathcal{F}$ contiene a $\mathcal{G}_0$. Lo que haremos ahora es probar que $\mathcal{G}_0$ es una $\subseteq$-cadena, es decir, que para cualesquiera $A$ y $B$ elementos de $\mathcal{G}_0$ se tiene que $A\subseteq B$ o $B\subseteq A$.

Definamos el conjunto $$\mathcal{H}=\{A\in\mathcal{G}_0:\textnormal{si $B\in\mathcal{G}_0$ y $B\subsetneq A$, entonces $f(B)\subseteq A$}\}.$$

Notemos que $\mathcal{H}$ es no vacío. En efecto, si consideramos $A=\emptyset$, entonces $A\in\mathcal{H}$, ya que si $B\in\mathcal{G}_0$ es un subconjunto propio de $A$, entonces, por vacuidad, $f(B)\subseteq A$, pues $\emptyset$ no tiene subconjuntos propios.

Veamos ahora que para cualquier $A\in\mathcal{H}$ y cualquier $C\in\mathcal{G}_0$, se cumple que $C\subseteq A$ o $f(A)\subseteq C$. Sea pues $A\in\mathcal{H}$ cualquier elemento. Definamos $\mathcal{G}_A=\set{C\in\mathcal{G}_0:C\subseteq A\ o\ f(A)\subseteq C}$. Notemos que si $C\in\mathcal{G}_A$, entonces $C\subseteq A$ o bien, $f(A)\subseteq C$ por lo que $A\subseteq C$, ya que $A\subsetneq f(A)$. Así que para probar que $A\subseteq C$ o $C\subseteq A$ para cualquier $C\in\mathcal{G}_0$, basta probar que $\mathcal{G}_A=\mathcal{G}_0$.

Lo que haremos será mostrar que $\mathcal{G}_A$ es una subfamilia de $\mathcal{F}$ que es $f$-inductiva. Primero, como $\emptyset\in\mathcal{G}_0$ y $\emptyset\subseteq A$, entonces $\emptyset\in\mathcal{G}_A$. Luego, si $C\in\mathcal{G}_A$, entonces o bien $C\subsetneq A$ o $C=A$ o $f(A)\subseteq C$. Si $C\subsetneq A$, entonces $f(C)\subseteq A$ pues $A\in\mathcal{H}$. Si $C=A$, entonces $f(A)=f(C)$ y por tanto $A\subseteq f(A)=f(C)$. Si $f(A)\subseteq C$, entonces $A\subseteq C$ y, por ende, $A\subseteq f(C)$, ya que $C\subsetneq f(C)$. En cualquier posibilidad tenemos que $f(C)\subseteq A$ o $f(A)\subseteq f(C)$, lo que implica que $f(C)\in\mathcal{G}_A$. Sea ahora $\mathcal{B}$ una cadena en $\mathcal{G}_A$. Si $C\subseteq A$ para todo $C\in\mathcal{B}$, entonces $\bigcup\mathcal{B}\subseteq A$. Si existe $C\in\mathcal{B}$ tal que $f(A)\subseteq C$, entonces $f(A)\subseteq\bigcup\mathcal{B}$, pues $C\subseteq\bigcup\mathcal{B}$. Como estas son las únicas posibilidades, concluimos que o bien $\bigcup\mathcal{B}\subseteq A$ o $f(A)\subseteq\bigcup\mathcal{B}$ y, por tanto, $\bigcup\mathcal{B}\in\mathcal{G}_A$. Estas propiedades muestran que $\mathcal{G}_A$ es una subfamilia de $\mathcal{F}$ que es $f$-inductiva.

En consecuencia, $\mathcal{G}_0\subseteq\mathcal{G}_A$. Luego, por definición tenemos que $\mathcal{G}_A\subseteq\mathcal{G}_0$ y, por consiguiente, tenemos la igualdad $\mathcal{G}_0=\mathcal{G}_A$.

Así pues, para todo $A\in\mathcal{H}$ y cualquier $C\in\mathcal{G}_0$, o bien $C\subseteq A$ o $A\subseteq C$.

Para terminar de probar que $\mathcal{G}_0$ es una cadena basta probar que $\mathcal{H}$ es una subfamilia $f$-inductiva de $\mathcal{F}$. Primero, ya vimos que $\emptyset\in\mathcal{H}$. Ahora, sea $A\in\mathcal{H}$ y sea $B\in\mathcal{G}_0$ cualquier elemento tal que $B\subsetneq f(A)$. Dado que $B\in\mathcal{G}_A=\mathcal{G}_0$, entonces $B\subseteq A$ o $f(A)\subseteq B$, pero hemos supuesto que $B\subsetneq f(A)$, por lo que es imposible que $f(A)\subseteq B$ y, en consecuencia, $B\subseteq A$. Luego, si $B\subsetneq A$, entonces $f(B)\subseteq A$ pues $A\in\mathcal{H}$ y, por tanto, $f(B)\subseteq f(A)$. Si $B=A$, entonces $f(B)=f(A)\subseteq f(A)$. Por lo tanto, $f(B)\subseteq f(A)$. Esto muestra que $f(A)\in\mathcal{H}$. Para finalizar, sea $\mathcal{B}$ una $\subseteq$-cadena de $\mathcal{H}$. Sea $B\in\mathcal{G}_0$ cualquier elemento tal que $B\subsetneq\bigcup\mathcal{B}$. Si existe $C\in\mathcal{B}$ tal que $B\subseteq C$, entonces $B\subsetneq C$ o $B=C$, en el primer caso tendríamos que $f(B)\subseteq C$, porque $C\in\mathcal{H}$, y por ende que $f(B)\subseteq\bigcup\mathcal{B}$; supongamos ahora que $B=C$, entonces, $B\in\mathcal{H}$ (pues $C$ es un elemento de $\mathcal{H}$) y $\bigcup\mathcal{B}\in\mathcal{G}_0=\mathcal{G}_B$. Así, $\bigcup\mathcal{B}\subseteq B$ o $f(B)\subseteq\bigcup\mathcal{B}$, pero $\bigcup\mathcal{B}\subseteq B$ es imposible pues supusimos que $B\subsetneq\bigcup\mathcal{B}$, por lo que debe ocurrir necesariamente que $f(B)\subseteq\bigcup\mathcal{B}$. De modo que si existe $C\in\mathcal{B}$ tal que $B\subseteq C$, entonces $f(B)\subseteq\bigcup\mathcal{B}$. Supongamos ahora que $B\nsubseteq C$ para todo $C\in\mathcal{B}$. Ahora, como $B\in\mathcal{G}_0$ y $\mathcal{G}_0=\mathcal{G}_C$ para todo $C\in\mathcal{B}\subseteq\mathcal{H}$, entonces $B\in\mathcal{G}_C$ para todo $C\in\mathcal{B}$. Consecuentemente, $B\subseteq C$ o $f(C)\subseteq B$ para cada $C\in\mathcal{B}$, pero asumimos ahora que $B\nsubseteq C$ para todo $C\in\mathcal{B}$, por lo que $f(C)\subseteq B$ para todo $C\in\mathcal{B}$ y, por consiguiente, $C\subseteq B$ para todo $C\in\mathcal{B}$, lo cual implica que $\bigcup\mathcal{B}\subseteq B$ pero esto contradice el hecho de que $B\subsetneq\bigcup\mathcal{B}$. De modo que, necesariamente, debe existir $C\in\mathcal{B}$ tal que $B\subseteq C$, lo cual vimos implica que $f(B)\subseteq\bigcup\mathcal{B}$. Esto demuestra que $\bigcup\mathcal{B}\in\mathcal{H}$. Por lo tanto, $\mathcal{H}$ es una subfamilia de $\mathcal{F}$ que es $f$-inductiva.

Como consecuencia del párrafo anterior tenemos que $\mathcal{G}_0\subseteq\mathcal{H}$, pero por definición sabemos que $\mathcal{H}\subseteq\mathcal{G_0}$, lo cual implica $\mathcal{G}_0=\mathcal{H}$.

De esta serie de argumentos tenemos que si $A,B\in\mathcal{G}_0$, entonces $A\in\mathcal{H}$ y $B\in\mathcal{G}_A$, por lo que $B\subseteq A$ o bien $f(A)\subseteq B$, es decir, $B\subseteq A$ o $A\subseteq B$. Por lo tanto, cualesquiera dos elementos de $\mathcal{G}_0$ son $\subseteq$-comparables y, en consecuencia, $\mathcal{G}_0$ es una $\subseteq$-cadena.

Consideremos ahora $M=\bigcup\mathcal{G_0}$, el cual es un elemento de $\mathcal{G_0}$ por ser $\mathcal{G}_0$ $f$-inductiva y una subcadena de sí misma. Ahora para todo $A\in\mathcal{G}_0$ se tiene que $A\subseteq\bigcup\mathcal{G}_0=M$. Por otro lado, como $M\in\mathcal{G}_0$, entonces $f(M)\in\mathcal{G}_0$ y, por tanto, $f(M)\subseteq M$; sin embargo, como $M\in\mathcal{F}$, entonces $M\subsetneq f(M)$, pero esto es una contradicción.

Dado que esta contradicción viene de suponer que $\mathcal{F}$ no tiene un elemento $\subseteq$-maximal, concluimos que $\mathcal{F}$ sí tiene un elemento $\subseteq$-maximal.

$\square$

El principio maximal de Hausdorff

Pasemos ahora a un resultado muy cercano al lema de Zorn, demostrado por Felix Hausdorff en 1914. Se obtiene rápidamente al aplicar el lema de Tukey-Teichmüller.

Teorema. (Principio Maximal de Hausdorff). Cualquier conjunto no vacío y parcialmente ordenado tiene una cadena $\subseteq$-maximal.

Demostración.

Sea $A\neq \emptyset$ y $\leq$ un orden parcial para $A$. Sea $\mathcal{C}=\set{B\subseteq A:B\ \textnormal{es una cadena}}$. Recordemos que $B\subseteq A$ es una cadena en $A$ si cualesquiera dos elementos en $B$ son comparables con el orden de $A$.

Lo que queremos probar es que existe $C\in\mathcal{C}$ tal que ningún otro elemento de $\mathcal{C}$ contiene propiamente a $C$. Para ello probaremos que $\mathcal{C}$ es una familia no vacía de carácter finito y aplicaremos el lema de Tukey-Teichmüller para concluir que $\mathcal{C}$ tiene un elemento $\subseteq$-maximal.

Supongamos que $B\in\mathcal{C}$ es cualquier elemento. Luego, sea $B’\subseteq B$ un conjunto finito. Veamos que $B’$ es una cadena en $A$, es decir, que cualesquiera dos elementos de $B’$ son comparables con el orden de $A$. Si $B’=\emptyset$, por vacuidad $B’$ es una cadena en $A$. Asumamos ahora que $B’\not=\emptyset$ y sean $a,b\in B’$ cualesquiera elementos. Luego, como $a,b\in B’$, entonces $a,b\in B$ y como $B$ es una cadena en $A$, entonces $a$ y $b$ son comparables con el orden de $A$, y esto muestra que $B’$ es también una cadena en $A$, por lo que $B’\in\mathcal{C}$.

Supongamos ahora que $B$ es un conjunto tal que cualquiera de sus subconjuntos finitos está en $\mathcal{C}$. Ciertamente $B\subseteq A$, pues si $a\in B$, entonces $\set{a}\in\mathcal{C}$, es decir, $\set{a}$ es una cadena en $A$, por lo que $a\in A$. Ahora, si $a,b\in B$, entonces $\set{a,b}\in\mathcal{C}$ y, por tanto, $\set{a,b}$ es una cadena en $A$, es decir, $a$ y $b$ son comparables con el orden de $A$. Por tanto, $B$ es una cadena en $A$, ya que cualesquiera dos de sus elementos son comparables con el orden de $A$.

Esta serie de argumentos muestra que $\mathcal{C}$ es una familia de conjuntos de carácter finito. Por el lema de Tukey-Teichmüller, $\mathcal{C}$ tiene un elemento $\subseteq$-maximal, es decir, existe una cadena en $A$ que es $\subseteq$-maximal.

$\square$

El lema de Zorn

Finalmente enunciaremos y demostraremos una de las versiones más usadas del axioma de elección: el conocido lema de Zorn. Este resultado fue demostrado por Max Zorn en 1935 (y de manera independiente por Kazimierz Kuratowski en 1922). Para nuestra demostración usaremos el principio maximal de Hausdorff.

Teorema. (Lema de Kuratowski-Zorn). Cualquier conjunto parcialmente ordenado y no vacío en el cual toda cadena tiene una cota superior tiene un elemento maximal.

Demostración.

Sea $(A,\leq)$ un conjunto parcialmente ordenado no vacío en el que toda cadena tiene una cota superior. Por el principio maximal de Hausdorff el conjunto $A$ tiene una cadena $\subseteq$-maximal. Sea pues $C\subseteq A$ una cadena $\subseteq$-maximal de $A$. Luego, por hipótesis, existe $a\in A$ cota superior de $C$, es decir, $c\leq a$ para todo $c\in C$. Ahora, notemos que $a$ es maximal con respecto a $\leq$, ya que si existiera $x\in A$ tal que $a<x$, entonces $x\not=a$ y $x\notin C$, por lo que $C\cup\set{x}$ sería una cadena en $A$ que contiene propiamente a $C$ y esto contradice la maximalidad de $C$ con respecto a la contención en el conjunto de cadenas de $A$. Por lo tanto, $a$ es un elemento maximal en $A$. 1

$\square$

Tarea moral

  1. Prueba que la intersección de un sistema de familias $f$-inductivas es una familia $f$-inductiva.
  2. Sea $X$ un conjunto. Prueba que si $X$ puede ser bien ordenado, entonces $\mathcal{P}(X)$ puede ser linealmente ordenado. (Sugerencia: dados $A,B\in\mathcal{P}(X)$ considera al mínimo de $A\Delta B$).
  3. Demuestra que para cualesquiera dos conjuntos $A$ y $B$, o bien existe una función inyectiva $f:A\to B$, o bien existe una función inyectiva $g:B\to A$.
  4. Demuestra que la colección $\mathcal{F}$ de subconjuntos finitos de $\mathbb{N}$ no es de caracter finito.

Más adelante…

En la siguiente entrada comenzaremos probando un resultado algo antintuitivo: que cualquier conjunto puede ser bien ordenado. Por ejemplo, a $\mathbb{R}$ se le podrá dar un orden de manera que cualquier subconjunto no vacío tenga mínimo. ¡Esto es muy difícil de imaginar! Sobre todo si pensamos en el orden usual de $\mathbb{R}$. El resultado que probaremos será existencial (y no constructivo), así que aunque tengamos la garantía de que dicho buen orden existe, no podremos saber muy bien cuál es.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

  1. También puedes consultar las pruebas de los lemas que aparecen en esta entrada en: Hernández, F. (2019). Teoría de Conjuntos. Una introducción. (2.$^a$ ed.). México: Aportaciones Matemáticas No.13, SMM., pp. 169-171. ↩︎

Teoría de los Conjuntos I: Axioma de elección

Por Gabriela Hernández Aguilar

Introducción

En esta entrada abordaremos un axioma relevante no sólo en teoría de conjuntos sino en muchas ramas de las matemáticas. Distintas proposiciones aparentemente sencillas no podrían demostrarse sin su ayuda y algunas de sus consecuencias son tan poderosas que cuesta trabajo aceptarlas. Es por eso que el llamado axioma de elección ha sido controversial desde su formulación a manos de Ernst Zermelo en 1904.

Funciones de elección

Comenzaremos dando una definición para después enunciar el mencionado axioma.

Definición. Sea $A$ un conjunto. Una función de elección para $A$ es una función $f:\mathcal{P}(A)\setminus\{\emptyset\}\to A$ tal que, para todo $B\in\mathcal{P}(A)\setminus\{\emptyset\}$, se tiene que $f(B)\in B$.

Ejemplo.

Sea $A=\set{0,1}$. Luego, $\mathcal{P}(A)=\{\emptyset,\{0\},\{1\},\{0,1\}\}$. Si definimos $f:\mathcal{P}(A)\setminus\set{\emptyset}\to A$ por medio $f=\set{(\set{0},0),(\set{1},1),(\set{0,1},1)}$, entonces $f$ es una función de elección.

$\square$

El siguiente resultado muestra que existe una gran cantidad de conjuntos que tienen una función de elección.

Proposición. Si $X$ es un conjunto finito no vacío, entonces $X$ tiene una función de elección.

Demostración.

Sea $X$ un conjunto finito y no vacío. Luego, por ser finito, existe un número natural $n$ y una función biyectiva $f:n\to X$ y, además, $n\not=0$ ya que $X$ es no vacío. Ahora, para cada $A\subseteq X$ no vacío consideremos su imagen inversa, $f^{-1}[A]=\set{m\in n:f(m)\in A}$. Dado que $f^{-1}[A]\not=\emptyset$, entonces existe $\min(f^{-1}[A])$. Definamos $F:\mathcal{P}(X)\setminus\set{\emptyset}\to X$ por medio de $F(A)=f(\min(f^{-1}[A]))$. Luego, $F$ es una función de elección para $X$.

$\square$

Axioma de elección y equivalencias

Aunque todos los conjuntos finitos no vacíos tengan función de elección, resultará imposible demostrar lo mismo para todos los conjuntos. Es por ello que necesitaremos agregar un axioma a nuestra teoría.

Axioma de elección. Todo conjunto no vacío tiene una función de elección.

Vamos a discutir varios de los usos de este axioma, pero para ello es conveniente poder pensarlo de muchas maneras. En esta primera entrada enunciaremos una serie de equivalencias a este teorema muy relacionadas con «elegir». En la siguiente entrada enunciaremos equivalencias relacionadas con «ordenar».

Teorema.1 Las siguientes proposiciones son equivalentes:

  1. El axioma de elección.
  2. Si $\mathcal{A}$ es una familia no vacía de conjuntos no vacíos y ajenos dos a dos, entonces existe un conjunto $B$ tal que para todo $A\in\mathcal{A}$, se tiene que $A\cap B$ es un conjunto unitario.
  3. Toda función suprayectiva tiene al menos una inversa derecha.
  4. Si $\set{A_\alpha}_{\alpha\in\Gamma}$ es tal que $A_\alpha\not= \emptyset$ y $A_\alpha\cap A_\beta=\emptyset$ para cualesquiera $\alpha,\beta\in\Gamma$ con $\alpha\not=\beta$, entonces existe $B\subseteq\cup_{\alpha\in\Gamma}A_\alpha$ tal que $B\cap A_\alpha$ es unitario para cada $\alpha\in\Gamma$.
  5. Si $\set{A_\alpha}_{\alpha\in \Gamma}$ es una famila indizada no vacía de conjuntos no vacíos, entonces existe una función $f:\Gamma\to\cup_{\alpha\in\Gamma}A_\alpha$ tal que para cada $\alpha\in\Gamma$, se cumple que $f(\alpha)\in A_\alpha$.
  6. Si $F:X\to \mathcal{P}(Y)\setminus\set{\emptyset}$ es una función, entonces existe una función $f:X\to Y$ tal que $f(x)\in F(x)$ para todo $x\in X$.

La diferencia entre $2$ y $4$ es que en $5$ se pide que $B$ sea subconjunto de la unión de la familia.

Demostración.

$1)\Rightarrow 2)$ Supogamos que el axioma de elección es válido. Sea $\mathcal{A}$ una familia no vacía de conjuntos no vacíos ajenos dos a dos.

Sea $C=\bigcup\mathcal{A}$. Como $C$ es no vacío, podemos fijar $f:\mathcal{P}(C)\setminus\set{\emptyset}\to C$ una función de elección. Notemos que si $A\in\mathcal{A}$, entonces $A\subseteq C$, por lo que $A\in\mathcal{P}(C)\setminus\set{\emptyset}$. Definamos $B=\set{f(A):A\in\mathcal{A}}$. Veamos ahora que $B\cap A$ es un conjunto unitario para todo $A\in\mathcal{A}$.

Sea $A\in\mathcal{A}$ un elemento arbitrario. Notemos que $f(A)\in B$ por definición de $B$, pero también $f(A)\in A$ ya que $f$ es una función de elección en $C$. Por lo tanto, $\set{f(A)}\subseteq A\cap B$. Ahora, si $x\in A\cap B$, en particular, $x\in B$, por lo que $x=f(A’)\in A’$ para algún $A’\in\mathcal{A}$ y así $x\in A\cap A’$. En consecuencia, $A=A’$ pues elementos distintos de $\mathcal{A}$ son ajenos dos a dos. Tenemos entonces que $x=f(A’)=f(A)$, lo cual es suficiente para concluir que $A\cap B=\set{f(A)}$, es decir, $A\cap B$ es un conjunto unitario.

$2)\Rightarrow 3)$

Sean $A$ y $B$ conjuntos y $f:A\to B$ una función suprayectiva. Para cada $x\in B$ definamos $A_x=\set{a\in A:f(a)=x}$. Notemos que para cada $x\in B$, se tiene que $A_x\not=\emptyset$, pues $f$ es suprayectiva. Además, si $x\not=x’$, entonces $A_x\cap A_{x’}=\emptyset$, ya que si existiera un elemento $y\in A_x\cap A_{x’}$, tendríamos que $f(y)=x$ y $f(y)=x’$ y, por consiguiente, $x=x’$ ya que $f$ es una función, pero esto contradice que $x\not=x’$. Así pues, si $x\not=x’$, entonces $A_x\cap A_{x’}=\emptyset$.

Consideremos a la familia de conjuntos $\mathcal{A}=\set{A_x:x\in B}$ la cual consta de conjuntos no vacíos y ajenos dos a dos. Por hipótesis, existe un conjunto $C$ tal que $C\cap A_x$ es un conjunto unitario para cada $A_x\in\mathcal{A}$. Para $x\in B$, denotemos por $a_x$ al único elemento del conjunto $C\cap A_x$. Definamos $g:B\to A$ por medio de $g(x)=a_x$. Expresando a $g$ como un subconjunto de $B\times A$ tenemos que $g=\set{(x,a_x):x\in B}$. Notemos que $g$ es una función, ya que si $(w,v),(w,z)\in g$, entonces $(w,v)=(x,a_x)$ y $(w,z)=(y,a_y)$ para algunos $x,y\in B$. De las iguladades anteriores se sigue que $w=x=y$ y, por tanto, $v=a_x=a_y=z$. Por tanto, $g$ es función. Finalmente, veamos que $g$ es inversa derecha de $f$, es decir, que $f\circ g:B\to B$ es la función identidad; esto es, $f\circ g=Id_B$.

Sea pues $x\in B$ un elemento arbitrario. Luego, $(f\circ g)(x)=f(g(x))=f(a_x)=x$, pues $a_x\in A_x$. Por lo tanto, $f\circ g=Id_B$, lo que muestra que $g$ es inversa derecha de $f$.

$3)\Rightarrow 4)$ Supongamos que $\mathcal{A}=\set{A_\alpha:\alpha\in\Gamma}$ es una familia no vacía de conjuntos no vacíos tales que $A_\alpha\cap A_\beta=\emptyset$ si $\alpha\not=\beta$.

Definamos $f:\bigcup_{\alpha\in\Gamma}A_\alpha\to\Gamma$ por medio de $f(x)=\alpha$ si $x\in A_\alpha$. Podemos describir a $f$ como el siguiente conjunto $f:=\set{(x,\alpha):x\in A_\alpha,\alpha\in\Gamma}\subseteq(\bigcup_{\alpha\in\Gamma}A_\alpha)\times \Gamma$. Nuevamente, lo primero que hay que hacer es verificar que $f$ sea una función. Sean $(a,b),(a,c)\in f$. Luego, $(a,b)=(x,\alpha)$ y $(a,c)=(y,\beta)$ para algunos $x,y\in\bigcup_{\alpha\in \Gamma}A_\alpha$ y $\alpha,\beta\in\Gamma$, tales que $x\in A_\alpha$ y $y\in A_\beta$. Dado que $(a,b)=(x,\alpha)$ y $(a,c)=(y,\beta)$, entonces $a=x=y$ y, en consecuencia, $x\in A_\alpha\cap A_\beta$, lo que muestra que $A_\alpha\cap A_\beta\not=\emptyset$ y, por tanto, $\alpha=\beta$, es decir, $b=\alpha=\beta=c$, lo que muestra que $f$ es una función.

Ciertamente, $f$ es una función suprayectiva, pues si $\alpha\in\Gamma$ es cualquier elemento, entonces, existe $x\in A_\alpha$ pues $A_\alpha\not=\emptyset$, tal que $f(x)=\alpha$, por definición de $f$. Esto muestra que $\alpha$ es la imagen de un elemento en $\bigcup_{\alpha\in \Gamma}A_\alpha$ bajo la función $f$ y, por tanto, $f$ es suprayectiva. Luego, por hipótesis, existe $g:\Gamma\to\bigcup_{\alpha\in\Gamma}A_\alpha$ función inversa derecha de $f$, es decir, $f\circ g=Id_\Gamma$. Sea $B:=g[\Gamma]=\set{g(\alpha):\alpha\in\Gamma}\subseteq\bigcup_{\alpha\in\Gamma}A_\alpha$.

Notemos que para cada $\alpha\in\Gamma$, se tiene que $g(\alpha)\in A_\alpha$. En efecto, si $\alpha\in\Gamma$, entonces $f(g(\alpha))=Id_\Gamma(\alpha)=\alpha$, por lo que $g(\alpha)\in A_\alpha$. Por lo tanto, $\set{g(\alpha)}\subseteq A_\alpha\cap B$ para todo $\alpha\in\Gamma$.

Ahora, si $x\in A_\alpha\cap B$, entonces $x=g(\beta)$ para algún $\beta\in\Gamma$. Luego, $f(x)=f(g(\beta))=Id_\Gamma(\beta)=\beta$. Por otro lado, como $x\in A_\alpha$, también se tiene que $f(x)=\alpha$ y, por consiguiente, $\beta=\alpha$. Así, $x=g(\alpha)$, lo que demuestra que $A_\alpha\cap B=\set{g(\alpha)}$. Por lo tanto, $B$ es subconjunto de $\bigcup_{\alpha\in\Gamma}A_\alpha$ y cumple que $B\cap A_\alpha$ es un conjunto unitario para cada $\alpha\in\Gamma$.

$4)\Rightarrow 5)$ Sea $\set{A_\alpha}_{\alpha\in\Gamma}$ una familia de conjuntos no vacíos. Para cada $\alpha\in\Gamma$ definamos $B_\alpha:=\set{\alpha}\times A_\alpha$. Luego, $\set{B_\alpha:\alpha\in\Gamma}$ es una familia no vacía de conjuntos no vacíos tales que $B_\alpha\cap B_\beta=\emptyset$ si $\alpha\not=\beta$.

Luego, por hipótesis, existe $B\subseteq\bigcup_{\alpha\in\Gamma}B_\alpha$ tal que $B\cap B_{\alpha}$ es un conjunto unitario para cada $\alpha\in \Gamma$. Ahora bien, el único elemento de $B\cap B_\alpha$ es de la forma $(\alpha,a)$ con $a\in A_\alpha$, pues pertenece, en particular, al conjunto $B_\alpha=\set{\alpha}\times A_\alpha=\set{(\alpha,a):a\in A_\alpha}$. Denotemos por $a_\alpha$ al único elemento de $A_\alpha$ tal que $B\cap B_\alpha=\set{(\alpha,a_\alpha)}$. Definamos $f:\Gamma\to\bigcup_{\alpha\in \Gamma}A_\alpha$ por medio de $f(\alpha)=a_\alpha$. Notemos que $f$ puede ser descrita como el conjunto $\set{(\alpha,a_\alpha):\alpha\in\Gamma}$. Luego, para comprobar que $f$ es una función tomemos $(a,b),(a,c)\in f$. Entonces, $(a,b)=(\alpha,a_\alpha)$ y $(a,c)=(\beta,a_\beta)$ para algunos $\alpha,\beta\in\Gamma$ y $a_\alpha\in A_\alpha$ y $a_\beta\in A_\beta$ tales que $(\alpha,a_\alpha)$ y $(\beta,a_\beta)$ son los únicos elementos de $B\cap B_\alpha$ y $B\cap B_\beta$, respectivamente. A partir de las igualdades $(a,b)=(\alpha,a_\alpha)$ y $(a,c)=(\beta,a_\beta)$ se sigue que $a=\alpha=\beta$ y, por tanto, $b=a_\alpha=a_\beta=c$. Esto que muestra $f$ es una función. Finalmente, para cada $\alpha\in\Gamma$, se tiene que $f(\alpha)\in A_\alpha$.

$5)\Rightarrow 6)$ Sea $F:X\to\mathcal{P}(Y)\setminus\set{\emptyset}$ una función.

Consideremos a la familia de conjuntos no vacíos $\mathcal{F}=\set{F(x):x\in X}$. Luego, por hipótesis, existe una función $f:X\to\bigcup\mathcal{F}$ tal que $f(x)\in F(x)$ para cada $x\in X$. Notemos ahora que $\bigcup\mathcal{F}=\bigcup_{x\in X}F(x)\subseteq Y$. Así, $f$ es una función con dominio $X$ y codominio $Y$. Por lo tanto, existe $f:X\to Y$ tal que $f(x)\in F(x)$ para cada $x\in X$.

$6)\Rightarrow 1)$ Sea $X\not=\emptyset$ un conjunto. Definamos $F:\mathcal{P}(X)\setminus\set{\emptyset}\to\mathcal{P}(X)\setminus\set{\emptyset}$ por medio de $F(B)=B$. Luego, por hipótesis, existe una función $f:\mathcal{P}(X)\setminus\set{\emptyset}\to X$ tal que $f(B)\in F(B)=B$ para todo $B\in\mathcal{P}(X)\setminus\set{\emptyset}$. Por lo tanto, $X$ tiene una función de elección.

$\square$

Una aplicación del axioma de elección a cardinales numerables

Para finalizar esta entrada, enunciaremos y demostraremos algunos resultados relacionados a conjuntos numerables que puede deducirse con el uso del axioma de elección.

Teorema. Sea $\set{A_n:n\in\mathbb{N}}$ una familia de conjuntos ajenos dos a dos tal que $A_n$ es numerable para todo $n\in\mathbb{N}$. Entonces, $\bigcup_{n\in\mathbb{N}}A_n$ es numerable.

Demostración.

Para cada $n\in\mathbb{N}$ sea $B_n:=\set{f:\mathbb{N}\to A_n:f \ \text{es función biyectiva}}$. Dado que cada $A_n$ es numerable, entonces, por definición, existe una función $f_n:\mathbb{N}\to A_n$ biyectiva para todo $n\in\mathbb{N}$. Así pues, $B_n\not=\emptyset$ para cada $n\in\mathbb{N}$.

Consideremos la colección de conjuntos no vacíos $\set{B_n:n\in\mathbb{N}}$. Por el teorema anterior, el axioma de elección implica que existe una función $F:\mathbb{N}\to\bigcup_{n\in\mathbb{N}}B_n$ tal que $F(n)\in B_n$ para cada $n\in\mathbb{N}$. Definamos $g_n:=F(n)$ para cada $n\in\mathbb{N}$.

Definamos ahora $G:\mathbb{N}\times\mathbb{N}\to\bigcup_{n\in\mathbb{N}}A_n$ por medio de $G(r,s)=g_s(r)$. Veamos que $G$ es una función biyectiva. Sean $(r,s),(x,y)\in\mathbb{N}\times\mathbb{N}$ tales que $G(r,s)=G(x,y)$. Entonces, $g_s(r)=g_y(x)$. Como $g_s\in B_s$ y $g_y\in B_y$, entonces $g_s(r)\in A_s$ mientras que $g_y(x)\in A_y$ y, consecuentemente, $A_s\cap A_y\not=\emptyset$, lo cual puede ocurrir si y sólo si $A_s=A_y$, es decir, $s=y$. Dado que $g_s(r)=g_s(x)$ y $g_s$ es biyectiva, entonces $r=x$. Esto muestra que $(r,s)=(x,y)$ y, por lo tanto, $G$ es inyectiva.

Finalmente veamos que $G$ es suprayectiva. Sea $a\in\bigcup_{n\in\mathbb{N}}A_n$. Luego, $a\in A_m$ para algún $m\in\mathbb{N}$ y, por consiguiente, existe $b\in\mathbb{N}$ tal que $g_m(b)=a$, ya que $g_m$ es biyectiva. De modo que tomando al elemento $(b,m)\in\mathbb{N}\times\mathbb{N}$ se sigue que $G(b,m)=g_m(b)=a$, lo que muestra que $G$ es suprayectiva.

Por lo tanto, $G$ es una biyección y, en consecuencia, $\mathbb{N}\times\mathbb{N}$ es equipotente a $\bigcup_{n\in\mathbb{N}}A_n$. Luego, como $\mathbb{N}\times\mathbb{N}$ es equipotente a $\mathbb{N}$, se sigue que $\bigcup_{n\in\mathbb{N}}A_n$ es equipotente a $\mathbb{N}$, es decir, $\bigcup_{n\in\mathbb{N}}A_n$ es numerable.

$\square$

Otra aplicación relevante del axioma de elección relacionada a conjuntos numerables es la siguiente.

Teorema. Si $X$ es un conjunto infinito, entonces $X$ contiene un conjunto numerable.

Demostración.

Sea $X$ un conjunto infinito. Definamos $g:S=\cup_{n\in\mathbb{N}}X^n\to \mathcal{P}(X)$ por medio de $g(h)=X\setminus im(h)$ para cada $h\in\cup_{n\in\mathbb{N}}X^n$, donde $X^n$ denota al conjunto de funciones de $n$ en $X$. Observemos que $g(h)\not=\emptyset$ para cada $h\in \cup_{n\in\mathbb{N}}X^n$, pues $X$ es infinito. Sea $e:\mathcal{P}(X)\setminus\{\emptyset\}\to X$ una función de elección. En la entrada Teoría de los Conjuntos I: Teorema de recursión, se dejó como un ejercicio probar que dado un conjunto $A$ y una función $h:\cup_{n\in\mathbb{N}}A^n\to A$, existe una única función $f:\mathbb{N}\to A$ tal que $f(n)=h(f\upharpoonright_n)$ para cada $n\in\mathbb{N}$. De este modo, para la función $e\circ g:S\to X$ existe una única función $f:\mathbb{N}\to X$ tal que $f(n)=(e\circ g)(f\upharpoonright_n)$ para cada $n\in\mathbb{N}$.

Afirmación. $f$ es una función inyectiva.
En efecto, sea $n\in\mathbb{N}$. Luego, $f(n)=(e\circ g)(f\upharpoonright_{n})=e(g(f\upharpoonright_{n}))=e(X\setminus im(f\upharpoonright_{n}))\in X\setminus im(f\upharpoonright_{n})$. Así pues, $f(n)\notin im(f\upharpoonright_{n})$, es decir, $f(n)\not=f(m)$ para cada $m<n$. Lo anterior nos permite concluir que $f$ es inyectiva. Por lo tanto, $f[\mathbb{N}]\subseteq X$ es un subconjunto numerable.

$\square$

Este último resultado, el cual es una consecuencia del axioma de elección, nos permite responder a una pregunta que aparece en la entrada Teoría de los Conjuntos I: Conjuntos infinitos no numerables., la cual busca determinar si cualquier conjunto infinito es un conjunto infinito según Dedekind. La respuesta es afirmativa. Si $X$ es un conjunto infinito, por el resultado previo, $X$ contiene un conjunto numerable; luego, cualquier conjunto que contenga un conjunto numerable es infinito segun Dedekind.

Tarea moral

La siguiente lista de ejercicios te permitirá reforzar el contenido visto en esta entrada:

  1. Demuestra que la unión numerable de conjuntos finitos es un conjunto numerable.
  2. Otro de los pendientes que teníamos en entradas anteriores es la existencia de conjuntos de representantes para relaciones de equivalencia. Ahora lo podemos demostrar. Prueba que si $X$ es un conjunto y $R$ es una relación de equivalencia en $X$, entonces existe un conjunto completo de representantes de la relación $R$.
  3. Demuestra que el axioma de elección es equivalente a la siguiente proposición: para toda relación $R$ existe una función $f$ tal que $dom\ f$ es igual al dominio activo de $R$ y $f\subseteq R$.

Más adelante…

En la siguiente entrada veremos otras equivalencias del axioma de elección, ahora relacionadas con órdenes parciales. Posteriormente usaremos eso para mostrar que todo conjunto puede ser bien ordenado.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

  1. También puedes consultar la prueba de este teorema en: Hernández, F. (2019). Teoría de Conjuntos. Una introducción. (2.$^a$ ed.). México: Aportaciones Matemáticas No.13, SMM., pp. 166-167. ↩︎

Álgebra Moderna I: Núcleo e Imagen de un Homomorfismo

Por Cecilia del Carmen Villatoro Ramos

(Trabajo de titulación asesorado por la Dra. Diana Avella Alaminos)

Introducción

Estamos trabajando con homomorfismos, que son funciones entre dos grupos que respetan sus operaciones. Entre las propiedades que vimos, está que el neutro del dominio siempre va al neutro del codominio. Es decir, al menos hay un elemento que, bajo el homomorfismo, cae en el neutro del codominio.

Para esta entrada consideraremos a la colección de todos los elementos del dominio que van al neutro del codominio. A este subconjunto, lo llamamos el núcleo de $\varphi$. Por otro lado, podemos tomar todos los elementos del dominio, aplicarles $\varphi$ y tomar el subconjunto que resulta en el codominio, a esto le llamamos la imagen de $\varphi$. Estos dos subconjuntos van a ser importantes en el estudio de los homomorfismos.

La imagen muestra que para $\varphi: G\to \bar{G}$ un homomorfismo, el núcleo $\text{Núc }\varphi \subseteq G$ y la imagen $\text{Im }\varphi \subseteq \bar{G}$.

El núcleo y la imagen de un homomorfismo

Comencemos definiendo formalmente los subconjuntos.

Definición. Sean $G, \bar{G}$ grupos y $\varphi: G \to \bar{G}$ un homomorfismo. Definimos al núcleo de $\varphi$ como
\begin{align*}
\text{Núc } \varphi = \{g\in G | \varphi(g) = e_{\bar{G}}\}.
\end{align*}

Es decir, es el conjunto de todos los elementos de $G$ que, bajo $\varphi$ van a dar al neutro de $\bar{G}$.

Notación. Es común, por el nombre en alemán, denotar al $\text{Núc } \varphi$ como $\text{Ker }\varphi$, es llamado el Kernel de $\varphi$.

Definición. La imagen de $\varphi$ es
\begin{align*}
\text{Im } \varphi = \{\varphi(g) | g \in G\}.
\end{align*}

Notemos que $\text{Núc }\varphi \subseteq G$ y $\text{Im }\varphi \subseteq \bar{G}$.

Ejemplos.

Ejemplo 1. Tomemos el homomorfismo $\varphi: S_n \to \{+1,-1\}$ con $\varphi(\alpha) = sgn\, \alpha$ para toda $\alpha\in S_n$. Veamos quién es el núcleo de $\varphi$:
\begin{align*}
\text{Núc }\varphi &= \{\alpha\in S_n | \varphi(\alpha) = +1\} \\
&= \{\alpha\in S_n | sgn\in\alpha = +1\} = A_n.
\end{align*}
Si tomamos el caso no trivial, con $n>1$,
\begin{align*}
\text{Im }\varphi = \{+1,-1\}.
\end{align*}
Ya que $\varphi((1)) = 1$ y $\varphi((1\,2)) = -1$.

Ejemplo 2. Sea $n \in \z^+$. Consideremos el homomorfismo $\varphi: \z \to \mathbb{C}^*$ con
\begin{align*}
\varphi(m) = \left(e^{\frac{2\pi i}{n}}\right)^m \quad \forall m\in \z.
\end{align*}
Buscamos describir su núcleo y su imagen.
\begin{align*}
\text{Núc }\varphi &= \{m\in \z| \varphi(m) =1\}\\
&= \{m\in\z | \left(e^{\frac{2\pi i}{n}}\right)^m = 1\} = n\z.
\end{align*}
La última igualdad se da porque ya sabemos que $e^{2\pi i} = 1$, más aún $e^{\theta i} = 1$ si y sólo si $\theta$ es un múltiplo de $2\pi$, entonces $ \left(e^{\frac{2\pi i}{n}}\right)^m = 1$ si y sólo si $m$ es un múltiplo de $n$.

Ahora la imagen:
\begin{align*}
\text{Im }\varphi &= \{\varphi(m)| m \in \z\} \\
&= \{\left(e^{\frac{2\pi i}{n}}\right)^m | m\in \z\} = \left< e^{\frac{2\pi i}{n}}\right>.
\end{align*}

El núcleo y la imagen son subgrupos

Ahora, probaremos que el núcleo y la imagen de un homomorfismo no son sólo subconjuntos del dominio y codominio respectivamente, si no que son subgrupos.

Teorema. Sean $G, \bar{G}$ grupos y $\varphi:G\to\bar{G}$ un homomorfismo.

  1. $\text{Núc }\varphi \unlhd G$.
  2. $\text{Im }\varphi \leq \bar{G}$.
  3. $\varphi$ es un monomorfismo si y sólo si $\text{Núc }\varphi = \{e_G\}$.

Demostración.
Sean $G,\bar{G}$ grupos y $\varphi: G \to \bar{G}$ un homomorfismo.

  1. P.D. $\text{Núc }\varphi \unlhd G$.
    Primero probaremos que $\text{Núc }\varphi \leq G$.

    Como $\varphi$ es un homomorfismo, $\varphi(e_G) = e_{\bar{G}}$. Entonces $e_G \in \text{Núc }\varphi$.

    Sea $a,b\in\text{Núc }\varphi$. Entonces,
    \begin{align*}
    \varphi(ab^{-1}) &= \varphi(a) \varphi(b^{-1}) &\varphi \text{ es un homomorfismo}\\
    &=\varphi(a)(\varphi(b))^{-1} & \text{Proposición de homomorfismo} \\
    &= e_{\bar{G}}e_{\bar{G}}^{-1} = e_{\bar{G}} & a,b \in \text{Núc }\varphi.
    \end{align*}
    Entonces $ab^{-1} \in \text{Núc }\varphi$. Por lo tanto $\text{Núc }\varphi \leq G$.

    Además, si $a\in G$ y $n\in\text{Núc }\varphi$, se tiene que:
    \begin{align*}
    \varphi(ana^{-1}) &= \varphi(a)\varphi(n)\varphi(a^{-1}) &\varphi\text{ es un homomorfismo}\\
    &= \varphi(a)\varphi(n)(\varphi(a))^{-1} &\text{Proposición}\\
    & = \varphi(a) e_{\bar{G}}(\varphi(a))^{-1} &n \in \text{Núc }\varphi \\
    &= \varphi(a) (\varphi(a))^{-1} = e_{\bar{G}} .
    \end{align*}
    Así, $ana^{-1}\in \text{Núc }\varphi$. Esto nos dice que el núcleo de $\varphi$ es cerrado bajo conjugación. Por lo tanto $\text{Núc } \varphi \unlhd G$.
    $\newline$
  2. P.D. $\text{Im }\varphi \leq \bar{G}$.
    Primero veamos que el neutro de $\bar{G}$ está en $\text{Im }\varphi$. Esto pasa porque
    $$e_{\bar{G}} = \varphi(e_{G}) \in \text{Im }\varphi.$$

    Ahora, si $c,d\in \text{Im }\varphi$, entonces $c = \varphi(a), d = \varphi(b)$ para algunos $a,b\in G$.
    \begin{align*}
    ad^{-1} = \varphi(a)(\varphi(b))^{-1} &= \varphi(a)\varphi(b^{–1}) &\text{Proposición}\\
    &= \varphi(ab^{-1}) \in \text{Im }\varphi &\varphi\text{ es un homomorfismo.}
    \end{align*}
    Por lo tanto $\text{Im }\varphi \leq \bar{G}$.
    $\newline$
  3. P.D. $\varphi$ es un monomorfismo si y sólo si $\text{Núc }\varphi = \{e_G\}$.

    $|\Rightarrow]$ Supongamos que $\varphi$ es un monomorfismo (un homomorfismo inyectivo).
    Como $\text{Núc }\varphi \leq G$, entonces $\{e_G\}\subseteq \text{Núc }\varphi$.
    Ahora, si $g\in \text{Núc }\varphi$, por la proposición anterior,
    \begin{align*}
    \varphi(g) = e_{\bar{G}} = \varphi(e_G).
    \end{align*}
    Y como $\varphi$ es inyectiva, $g = e_G$. Por lo tanto, $\text{Núc }\varphi = \{e_G\}$.

    $[\Leftarrow|$ Supongamos que $\text{Núc }\varphi =\{e_G\} $.
    Sean $a,b\in G$ tales que $\varphi(a) = \varphi(b)$. Entonces,
    \begin{align*}
    e_{\bar{G}} &= \varphi(b)(\varphi(a))^{-1} \\
    &= \varphi(b)\varphi(a^{-1}) &\text{Proposición}\\
    &= \varphi(ba^{-1}) &\varphi\text{ es un homomorfismo.}
    \end{align*}
    Entonces $ba^{-1} \in \text{Núc }\varphi = \{e_G\}$, así $ba^{-1} = e_G$, esto implica que $b = a$.
    Por lo tanto $\varphi$ es un monomorfismo.

$\blacksquare$

Observemos que el inciso 3 del teorema nos da una herramienta para determinar si un homomorfismo es inyectivo o no usando el núcleo.

Proyección Canónica

Ahora, tomando un grupo y un subgrupo normal, definiremos un epimorfismo de un grupo al grupo cociente.

Proposición. Sean $G$ un grupo y $N$ un subgrupo normal de $G$. La función $\pi :G\to G/N$ con $\pi(a) = aN$ para toda $a\in G$, es un epimorfismo tal que $\text{Núc }\pi = N$.

Esta función se conoce como la proyección canónica.

Demostración.
Sean $G$ un grupo, $N\unlhd G$ y $\pi: G\to G/N$ con $\pi(a) = aN$ para cualquier $a\in G$.

Veamos que $\pi$ es un homomorfismo
Sean $a,b \in G$. Entonces
\begin{align*}
\pi(ab) = abN = (aN)(bN) = \pi(a)\pi(b).
\end{align*}

Ahora veamos que es suprayectivo. Esto es debido a que dado $aN\in G/N$, $$aN = \pi(a).$$

Por lo tanto $\pi$ es un epimorfismo.

Finalmente,
\begin{align*}
\text{Núc }\pi = \{a\in G| \pi(a) = e_{G/N}\} = \{a\in G| aN = N\} = N.
\end{align*}

$\blacksquare$

Ahora veamos un corolario que se desprende directamente de lo que acabamos de ver.

Corolario. Todo subgrupo normal es el núcleo de un homomorfismo. De hecho, es el núcleo de un epimorfismo.

Ejemplos

Para terminar veamos unos ejemplos

Ejemplo 1. Tomemos $\varphi:(\r,+) \to (\mathbb{C}^*, \cdot)$ con $\varphi(x) = e^{xi}$ para toda $x\in\r$. Toma 2 minutos para pensar porqué es un homomorfismo.

Veamos el núcleo y la imagen de $\varphi$:
\begin{align*}
\text{Núc }\varphi &= \{x\in\r | \varphi(x) = 1\} \\
&= \{x\in\r | e^{xi} = 1\} \\
&= \{2\pi n | n \in \z\} = \left< 2\pi\right>.\\\\
\text{Im }\varphi &= \{\varphi(x) | x \in \r\} \\
& =\{e^{xi} | x\in\r\} \\
&= \{z\in \mathbb{C} | |z| = 1\} = \s^1.
\end{align*}
¿Cómo es $\r/\left<2\pi\right>$?
Tomemos $a,b\in \r$. Entonces,
\begin{align*}
a + \left< 2\pi\right> = b + \left< 2\pi\right> &\Leftrightarrow a-b \in \left< 2\pi\right> \\
&\Leftrightarrow a-b= 2\pi n,\, n\in \z.
\end{align*}
Si lo anterior nos dice que dos números $a,b$ están en la misma clase si y sólo si difieren por un múltiplo de $2\pi$. Si lo pensamos en la recta numérica, nos dice que el $0$ y $2\pi$ quedan indentificados en la misma clase. Intuitivamente podríamos pensar que estamos doblando la recta numérica para obtener una circunferencia donde $0$ y $2\pi$ están en el mismo punto.

Así, $\r/\left< 2\pi\right> = \{a+\left< 2\pi\right> | a\in [0,2\pi)\}$.

Representación gráfica del ejemplo 1.

Ejemplo 2. Consideremos $\varphi: (\r^*,\cdot)\to (\r^*,\cdot)$ con $\varphi(x) = |x|$ para toda $x \in \r^*$ (recuerda que $\r^*=\r\setminus \{0\}$).
\begin{align*}
\text{Núc }\varphi &= \{x\in\r^* | \varphi(x) = 1\} \\
&= \{x\in\r^*| |x| = 1\} = \{+1,-1\}.\\\\
\text{Im }\varphi &= \{\varphi(x) | x \in \r^*\} \\
& =\{|x| | x\in\r^*\} = \r^+. \\
\end{align*}
¿Cómo es $\r^*/\{+1,-1\}$?
Tomemos $a,b\in \r^*$.
\begin{align*}
a\{+1,-1\}= b\{+1,-1\} &\Leftrightarrow a^{-1}b \in \{+1,-1\} \\
&\Leftrightarrow a^{–1}b=\pm 1 \Leftrightarrow b = \pm a.
\end{align*}
Entonces, dos clases laterales van a ser iguales si y sólo si sus representantes difieren a lo más sólo por el signo.

Lo que hicimos fue tomar a los reales sin el cero y estamos identificando a cada número real $a$ con su inverso aditivo. Entonces la imagen de $\varphi$ en realidad es como si dobláramos la recta por el 0 e identificamos a los reales negativos con su correspondiente positivo.

Así, $\r^*/ \{+1,-1\} = \{a \{+1,-1\} | a\in \r^+\}$.

Representación gráfica del ejemplo 2.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Sea $\varphi:GL(2,\r) \to \r^*$ el homomorfismo tal que $\varphi(A) = \text{det }A$. Encuentra el núcleo y la imagen de $\varphi$.
  2. Sean $G,\bar{G}$ grupos y $\varphi: G\to\bar{G}$ un homomorfismo. ¿Es $ \text{Im }\varphi$ normal en $\bar{G}$? Prueba o da un contraejemplo.
  3. Sean $G,\bar{G}$ grupos y $\varphi: G\to \bar{G}$ un homomorfismo. Sean también, $H\leq G, \bar{H}\leq \bar{G}$.
    • ¿Qué puedes decir de $\varphi[H] = \{\varphi(h) | h \in H\}$?¿Y si $H\unlhd G$?
    • ¿Qué puedes decir de $\varphi^{-1}[\bar{H}] = \{g\in G| \varphi(g) \in \bar{H}\}$? ¿Y si $\bar{H}\unlhd\bar{G}$?
  4. En cada inciso calcula $\text{Núc } \varphi, \text{Im }\varphi, G/\text{Núc}$ y analiza cómo se relacionan:
    • $G$ grupo, $\varphi: G \to G$, con $\varphi =\text{id}_G $.
    • $G$ grupo, $\varphi: G \to G$, con $\varphi(g) = e_G$ para toda $g\in G$.
    • $\varphi: (\mathbb{C}^*, \cdot) \to (\r^*, \cdot)$, con $\varphi(z) = |z|$ para toda $z\in\mathbb{C}^*$.
    • $\varphi: \z \times \z \to \z\times\z$, con $\varphi(x,y) = (x,0)$ para toda $(x,y)\in \z\times\z$.

Más adelante…

Ahora que ya tenemos muy claras las definiciones de núcleo e imagen de un homomorfismo, comenzaremos a ver teoremas que relacionan lo que vimos aquí con isomorfismos y grupo cociente.

Entradas relacionadas