Archivo de la etiqueta: reales

Teoría de los Conjuntos I: Conjuntos infinitos no numerables.

Por Gabriela Hernández Aguilar

Introducción

Al hablar de conjuntos infinitos, resulta natural pensar que entre cualesquiera dos de ellos debería existir una manera de «emparejar» sus elementos, es decir, establecer una biyección entre tales conjuntos, ya que, al fin y al cabo, ambos contienen infinitos elementos. Esta idea puede deberse a que, cuando uno piensa en conjuntos infinitos, lo primero que viene a la mente es el conjunto de los números naturales o el de los enteros, los cuales están ordenados de una manera bastante agradable y nos resulta «fácil» ubicarlos en una recta, como si fueran números colocados sobre una cinta métrica infinita.

Sin embargo, no todos los conjuntos infinitos poseen un orden tan agradable como el de estos dos conjuntos, y muchos de ellos presentan propiedades considerablemente diferentes. Por ejemplo, algunos conjuntos infinitos pueden no tener un buen orden como el de los naturales, o quizás exista tal orden pero nos resulte extremadamente difícil de identificar.

El teorema de Cantor demuestra que, efectivamente, la idea de que se pueden emparejar los elementos de cualesquiera dos conjuntos infinitos es incorrecta. Un ejemplo específico es el conjunto de los números naturales $\mathbb{N}$ y su conjunto potencia $\mathcal{P}(\mathbb{N})$; es imposible emparejar cada elemento de $\mathcal{P}(\mathbb{N})$ con uno y solo un elemento de $\mathbb{N}$. Este hecho muestra que existen conjunto infinitos más grandes que otros.

Esta entrada está dedicada precisamente a esta cuestión: exhibir conjuntos infinitos con «diferentes tamaños», específicamente, conjuntos que no sean numerables, es decir, que no sean equipotentes con $\mathbb{N}$. Como hemos venido haciendo, también emplearemos el muy importante teorema de Cantor-Schröder-Bernstein para probar ciertas equipotencias.

Conjuntos más grandes que $\mathbb{N}$

Por el teorema de Cantor sabemos que para cada conjunto $A$ se tiene $|A|<|\mathcal{P}(A)|$, es decir, que existe una función inyectiva de $A$ en $\mathcal{P}(A)$ pero no una función biyectiva. Así pues, por ejemplo, $\mathcal{P}(\mathbb{N})$ además de ser un conjunto infinito, tiene «más» elementos que $\mathbb{N}$, el cual es también infinito. Esto es una muestra de que existen conjuntos infinitos que no son equipotentes. En lo subsecuente exhibiremos algunos otros conjuntos infinitos que sí se pueden biyectar con $\mathcal{P}(\mathbb{N})$ y que por tanto no son numerables.

Comenzaremos proporcionando ejemplos que involucran conceptos que hemos visto en la entrada anterior.

Ejemplo.

El conjunto de sucesiones en $\mathbb{N}$, que denotaremos por $\mathbb{N}^{\mathbb{N}}$, es equipotente a $\mathcal{P}(\mathbb{N})$.

Demostración.

En la entrada anterior probamos que para cada $A\subseteq\mathbb{N}$ infinito, existe una única función biyectiva $F_A:\mathbb{N}\to A$ tal que $F_A(0)=\textnormal{min}(A)$ y que $F_A(n)<F_A(n+1)$ para cada $n\in\mathbb{N}$. Lo mismo mencionamos respecto a conjuntos finitos no vacíos, es decir, si $A\subseteq\mathbb{N}$ es un conjunto finito no vacío, digamos $|A|=n+1$ con $n\in\mathbb{N}$, existe una única función biyectiva $f_A:n+1\to A$ tal que $f_A(0)=\textnormal{min}(A)$ y que $f_A(m)<f_A(k)$ si y sólo si $m<k$ para cualesquiera $m,k\in n+1$.
Si $A\subseteq\mathbb{N}$ es finito, podemos extender la función $f_A$ a todo $\mathbb{N}$ de la siguiente manera: si $f_A:n+1\to A$ es la única función biyectiva que satisface $f_A(0)=\textnormal{min}(A)$ y $f_A(m)<f_A(k)$ si y sólo si $m<k$ para cualesquiera $m,k\in n+1$, definimos $F_A:\mathbb{N}\to A$ por medio de $$F_A(m)=\left\{\begin{array}{lcc}
f_A(m) & \textnormal{si}\ m\in n+1\\
\textnormal{min}(A) & \textnormal{si}\ m\notin n+1
\end{array}
\right.$$

Lo anterior nos permite asociar a cada elemento de $\mathcal{P}(\mathbb{N})\setminus\{\emptyset\}$ una única sucesión en $\mathbb{N}^{\mathbb{N}}$ por medio de la siguiente función: definamos $F:\mathcal{P}(\mathbb{N})\setminus\{\emptyset\}\to\mathbb{N}^{\mathbb{N}}$ como $F(A)=F_A$ para cada $A\in\mathcal{P}(\mathbb{N})$. Debido a la definición de las funciones $F_A$, en cualquier caso, ya sea que $A\subseteq\mathbb{N}$ es finito o infinito, se cumple que $F_A[\mathbb{N}]=A$; en consecuencia, si $A$ y $B$ son conjuntos no vacíos tales que $F(A)=F(B)$ tendríamos que para cada $k\in\mathbb{N}$, $F_A(k)=F_B(k)$ y, por ende, que $A=F_A[\mathbb{N}]=F_B[\mathbb{N}]=B$, lo cual muestra que $F$ es inyectiva.

Ahora bien, para cada $x\in\mathbb{N}^{\mathbb{N}}$ definamos $x+1:\mathbb{N}\to\mathbb{N}$ por medio de $(x+1)(n):=x(n)+1$ para cada $n\in\mathbb{N}$. La función $g:\mathbb{N}^{\mathbb{N}}\to\mathbb{N}^{\mathbb{N}}$ definida por medio de $g(x)=x+1$ es una función inyectiva, pues si $g(x)=g(y)$ para algunas $x,y\in\mathbb{N}^{\mathbb{N}}$, entonces, $x(n)+1=y(n)+1$ para cada $n\in\mathbb{N}$ y, por tanto, $x(n)=y(n)$ para cada $n\in\mathbb{N}$, es decir, $x=y$. Observemos además que $g(x)\not=x_0$ para cada $x\in\mathbb{N}^{\mathbb{N}}$, donde $x_0(n)=0$ para cada $n\in\mathbb{N}$; en efecto, si $x\in\mathbb{N}^{\mathbb{N}}$, entonces, $g(x)(n)=(x+1)(n)=x(n)+1\not=0$ para cada $n\in\mathbb{N}$ ya que $0$ no es sucesor de ningún número natural. Así, la función $g\circ F:\mathcal{P}(\mathbb{N})\setminus\set{\emptyset}\to\mathbb{N}^{\mathbb{N}}$ es inyectiva y $(g\circ F)(A)\not=x_0$ para cada $A\in\mathcal{P}(\mathbb{N})\setminus\{\emptyset\}$. Por tanto la función $h:\mathcal{P}(\mathbb{N})\to\mathbb{N}^{\mathbb{N}}$ definida como \[h(A)=\left\{\begin{array}{lcc}
(g\circ F)(A) & \textnormal{si}\ A\not=\emptyset\\
x_0 & \textnormal{si}\ A=\emptyset
\end{array}
\right.\] es inyectiva.

Para dar una función inyectiva de $\mathbb{N}^{\mathbb{N}}$ en $\mathcal{P}(\mathbb{N})$ retomaremos al conjunto de números primos $\mathbb{P}=\{p_n:n\in\mathbb{N}\}$ enumerado de tal forma que $p_n<p_{n+1}$ para cada $n\in\mathbb{N}$. Definamos ahora $T:\mathbb{N}^{\mathbb{N}}\to\mathcal{P}(\mathbb{N})$ por medio de $T(x)=\{p_n^{x(n)}:n\in\mathbb{N}\}$. Notemos que $T$ es una función inyectiva, pues si $T(x)=T(y)$, entonces, $\{p_n^{x(n)}:n\in\mathbb{N}\}=\{p_n^{y(n)}:n\in\mathbb{N}\}$ y así $p_n^{x(n)}=p_n^{y(n)}$ y $x(n)=y(n)$ para cada $n\in\mathbb{N}$, pues de otro modo se contradice al teorema fundamental de la aritmética. Por lo tanto, $x=y$ y $T$ es inyectiva.

Por el teorema de Cantor-Schröder-Bernstein concluimos que $|\mathcal{P}(\mathbb{N})|=|\mathbb{N}^{\mathbb{N}}|$.

$\square$

Al contrario de los conjuntos finitos, existen ejemplos de conjuntos infinitos que poseen subconjuntos propios equipotentes a ellos mismos, es decir, existe una biyección entre el subconjunto propio y el conjunto original. Un ejemplo de lo anterior es el conjunto de los números naturales, pues cualquier subconjunto propio de $\mathbb{N}$ que sea infinito resulta ser numerable. A continuación vamos a proporcionar otro de estos ejemplos, pero esta vez con un conjunto infinito no numerable.

Ejemplo.

El conjunto $2^{\mathbb{N}}:=\{f\in\mathbb{N}^{\mathbb{N}}:f(n)\in\{0,1\}\ \textnormal{para cada}\ n\in\mathbb{N}\}$ es equipotente a $\mathcal{P}(\mathbb{N})$.

Demostración.

Para demostrar la equipotencia de este ejemplo vamos a exhibir una biyección entre tales conjuntos. Para ello haremos lo siguiente, si $A\in\mathcal{P}(\mathbb{N})$ definimos $\chi_{A}:\mathbb{N}\to\mathbb{N}$ por medio de $\chi_{A}(n)=\left\{\begin{array}{lcc}
1 & \textnormal{si}\ n\in A\\
0 & \textnormal{si}\ n\in\mathbb{N}\setminus A
\end{array}
\right.$

Lo anterior nos permite establecer una función entre $\mathcal{P}(\mathbb{N})$ y $2^{\mathbb{N}}$, función que de hecho resulta ser biyectiva. Veamos primero la inyectividad. Si para $A,B\in\mathcal{P}(\mathbb{N})$ se cumple $\chi_A=\chi_B$, entonces $\chi_A(n)=\chi_B(n)$ para cada $n\in\mathbb{N}$. En consecuencia, si $n\in A$, $1=\chi_A(n)=\chi_B(n)$ y por ende $n\in B$; análogamente, si $n\in B$, $1=\chi_B(n)=\chi_A(n)$ y por tanto $n\in A$. Por consiguiente $A=B$, lo que demuestra la inyectividad de la función.
Resta probar la sobreyectividad. Consideremos $\chi\in 2^{\mathbb{N}}$ un elemento arbitrario. Definamos $A:=\{n\in\mathbb{N}:\chi(n)=1\}$ y veamos que $\chi_A=\chi$. Si $n\in A$, entonces $\chi(n)=1$ por definición del conjunto $A$ y, por otro lado, $\chi_A(n)=1$ por definición de la función $\chi_A$. Si ahora $n\in\mathbb{N}\setminus A$, $\chi(n)=0$ por definición del conjunto $A$ mientras que $\chi_A(n)=0$ por definición de la función $\chi_A$. Esto muestra que $\chi(n)=\chi_A(n)$ para cada $n\in\mathbb{N}$ y por ende que $\chi=\chi_A$. Así pues, la función $F:\mathcal{P}(\mathbb{N})\to2^{\mathbb{N}}$ definida por medio de $F(A)=\chi_A$ para cada $A\in\mathcal{P}(\mathbb{N})$ es una biyección y, por tanto, $|\mathcal{P}(\mathbb{N})|=|2^{\mathbb{N}}|$.

$\square$

Como lo mencionamos previamente, ahora contamos con un ejemplo de un conjunto infinito no numerable que posee un subconjunto propio equipotente a él, específicamente $\mathbb{N}^{\mathbb{N}}$ y $2^{\mathbb{N}}$ son equipotentes y $2^{\mathbb{N}}\subsetneq\mathbb{N}^{\mathbb{N}}$. Conjuntos de este tipo, es decir, conjuntos que poseen subconjuntos propios equipotentes a ellos, reciben un nombre particular que anotamos en la siguiente definición.

Definición. Un conjunto $X$ se llama infinito según Dedekind si existe una función inyectiva $f:X\to X$ tal que $f[X]\not=X$.

Que un conjunto sea infinito según Dedekind implica que dicho conjunto es infinito. Y ya que contamos con algunos ejemplos de conjuntos infinitos que también son infinitos según Dedekind, surge de manera natural la pregunta: ¿todo conjunto infinito es infinito según Dedekind? Dicha cuestión no la podemos responder con lo que hemos visto hasta ahora y es por eso que la dejaremos para más adelante.

Una consecuencia inmediata del último ejemplo es el siguiente corolario.

Corolario. Sean $a_0,a_1,\ldots,a_n\in\mathbb{N}$ naturales distintos con $n\geq1$. El conjunto $\{f\in\mathbb{N}^{\mathbb{N}}:f[\mathbb{N}]\subseteq\{a_0,a_1,\ldots,a_n\}\}$ es equipotente a $\mathbb{N}^{\mathbb{N}}$.

Demostración.

Dado que $j:\{f\in\mathbb{N}^{\mathbb{N}}:f[\mathbb{N}]\subseteq\{a_0,a_1,\ldots,a_n\}\}\to\mathbb{N}^{\mathbb{N}}$ definida por medio de $j(f)=f$ es una función inyectiva, basta exhibir una función inyectiva de $\mathbb{N}^{\mathbb{N}}$ en $\{f\in\mathbb{N}^{\mathbb{N}}:f[\mathbb{N}]\subseteq\{a_0,a_1,\ldots,a_n\}\}$.

Denotemos $A:=\{f\in\mathbb{N}^{\mathbb{N}}:f[\mathbb{N}]\subseteq\{a_0,a_1,\ldots,a_n\}\}$. Si denotamos $B:=\{f\in\mathbb{N}^{\mathbb{N}}:f[\mathbb{N}]\subseteq\{a_0,a_1\}\}$, entonces $B\subseteq A$. Para cada $\chi\in2^{\mathbb{N}}$ definamos $f_\chi:\mathbb{N}\to\mathbb{N}$ de la siguiente manera $f_\chi(n)=\left\{\begin{array}{lcc}
a_0 & \textnormal{si}\ \chi(n)=0\\
a_1 & \textnormal{si}\ \chi(n)=1
\end{array}
\right.$
A partir de la definición anterior tenemos que $f_{\chi}\in B$ para cada $\chi\in2^{\mathbb{N}}$, lo cual nos permite definir $F:2^{\mathbb{N}}\to B$ por medio de $F(\chi)=f_{\chi}$. Resulta que $F$ es una biyección. En efecto, por un lado es inyectiva ya que si $F(\chi)=F(\chi’)$, entonces $f_{\chi}(n)=f_{\chi’}(n)$ para cada $n\in\mathbb{N}$, de modo que si $\chi(n)=0$ se tiene que $a_0=f_{\chi}(n)=f_{\chi’}(n)$ y por tanto $\chi'(n)=0$; asimismo, si $\chi(n)=1$ se tiene que $a_1=f_{\chi}(n)=f_{\chi’}(n)$ por lo que $\chi'(n)=1$. Por tanto $\chi(n)=\chi'(n)$ para cada $n\in\mathbb{N}$ y así $\chi=\chi’$.
Ahora para mostrar que $F$ es sobreyectiva tomemos $f\in B$ elemento arbitrario y definamos $\chi:\mathbb{N}\to\mathbb{N}$ por medio de $\chi(n)=\left\{\begin{array}{lcc}
1 & \textnormal{si}\ f(n)=a_1\\
0 & \textnormal{si}\ f(n)=a_0
\end{array}
\right.$
Luego, $f_{\chi}=f$, pues si $n\in\mathbb{N}$ es tal que $f(n)=a_1$ se tiene que $\chi(n)=1$ por definición de $\chi$ y así $f_{\chi}(n)=a_1$; por otro lado, si $n\in\mathbb{N}$ es tal que $f(n)=a_0$ se tiene que $\chi(n)=0$ por definición de $\chi$ y por ende $f_{\chi}(n)=a_0$. Podemos concluir entonces que $F( \chi)=f_{\chi}=f$, lo que demuestra que $F$ es sobreyectiva. Por tanto $F$ es una biyección y $|2^{\mathbb{N}}|=|B|$.
Ahora, sean $h:\mathbb{N}^{\mathbb{N}}\to2^{\mathbb{N}}$ una función biyectiva (la cual sabemos que existe pues $|\mathbb{N}^{\mathbb{N}}|=|\mathcal{P}(\mathbb{N})|=|2^{\mathbb{N}}|$) y $\iota:B\to A$ la función inclusión, es decir, $\iota(f)=f$ para cada $f\in B$. Luego, $\iota\circ h:\mathbb{N}^{\mathbb{N}}\to A$ es una función inyectiva.
Por el teorema de Cantor-Schröder-Bernstein concluimos que $|\mathbb{N}^{\mathbb{N}}|=|A|$.

$\square$

Observemos que el corolario muestra que existen una infinidad de subcojuntos propios de $\mathbb{N}^{\mathbb{N}}$ equipotentes a él. Dado que $|\mathcal{P}(\mathbb{N})|=|\mathbb{N}^{\mathbb{N}}|$, entonces $\mathcal{P}(\mathbb{N})$ también posee una cantidad infinita de subconjuntos propios equipotentes a él. El siguiente ejemplo es uno de tales subconjuntos.

Ejemplo.

El conjunto $[\mathbb{N}]^{\mathbb{N}}:=\{A\subseteq\mathbb{N}:|A|=|\mathbb{N}|\}$ es equipotente a $\mathcal{P}(\mathbb{N})$.

Demostración.

Dado que $[\mathbb{N}]^{\mathbb{N}}\subseteq\mathcal{P}(\mathbb{N})$ lo único que hace falta es exhibir una función inyectiva de $\mathcal{P}(\mathbb{N})$ en $[\mathbb{N}]^{\mathbb{N}}$.

Consideremos al conjunto de números primos $\mathbb{P}=\{p_n:n\in\mathbb{N}\}$ donde $p_n<p_{n+1}$ para cada $n\in\mathbb{N}$. Definamos $g:\mathbb{N}^{\mathbb{N}}\to[\mathbb{N}]^{\mathbb{N}}$ como $g(x)=\{p_n^{x(n)+1}:n\in\mathbb{N}\}$. Dado que para cada $x\in\mathbb{N}^{\mathbb{N}}$, $x(n)+1\not=0$ para toda $n\in\mathbb{N}$, tenemos que $\{p_n^{x(n)+1}:n\in\mathbb{N}\}$ es un conjunto infinito, por lo que $g$ tiene el codominio adecuado. Por otro lado, $g$ es inyectiva ya que si $g(x)=g(y)$, entonces $p_n^{x(n)+1}=p_n^{y(n)+1}$ para cada $n\in\mathbb{N}$ por el teorema fundamental de la aritmética y, más aún, $x(n)+1=y(n)+1$ para cada $n\in\mathbb{N}$, lo que demuestra que $x=y$. Si $h:\mathcal{P}(\mathbb{N})\to\mathbb{N}^{\mathbb{N}}$ es una biyección se sigue que $g\circ h:\mathcal{P}(\mathbb{N})\to[\mathbb{N}]^{\mathbb{N}}$ es una función inyectiva. Por el teorema de Cantor-Schröder-Bernstein concluimos que $|\mathcal{P}(\mathbb{N})|=|[\mathbb{N}]^{\mathbb{N}}|$.

$\square$

Como un ejercicio para esta entrada dejaremos el siguiente ejemplo.

Ejemplo.

$\mathbb{N}^{\nearrow\mathbb{N}}:=\{f\in\mathbb{N}^{\mathbb{N}}:f(n)<f(n+1)\ \textnormal{para cada}\ n\in\mathbb{N}\}$ es equipotente a $[\mathbb{N}]^{\mathbb{N}}$, y por tanto equipotente a $\mathcal{P}(\mathbb{N})$.

Para finalizar con esta serie de ejemplos de conjuntos no numerables y equipotentes a $\mathcal{P}(\mathbb{N})$ hablaremos del conjunto de números reales.
Para lo que sigue vamos a suponer que ya conocemos todas las propiedades básicas del conjunto de números reales, y si no se conocen dichas propiedades o lo que es un número real, puedes consultar cualquier libro introductorio a la teoría de conjuntos como el de Hernández1, o también puedes consultarlo en un libro de cálculo como el de Spivak2.
Además de lo dicho en el párrafo precedente, estaremos haciendo un abuso de notación escribiendo las contenciones $\mathbb{N}\subseteq\mathbb{Z}\subseteq\mathbb{Q}\subseteq\mathbb{R}$.
Dicho lo anterior tenemos la siguiente proposición.

Proposición. El intervalo abierto $(0,1)=\{r\in\mathbb{R}:0<r<1\}$ es equipotente a $\mathbb{R}$.

Demostración.

Definamos $f:\mathbb{R}\to(0,1)$ por medio de $f(x)=\left\{\begin{array}{lcc}
\frac{4x+1}{4x+2} & \textnormal{si}\ x\geq0\\
\frac{1}{2(1-2x)} & \textnormal{si}\ x<0
\end{array}
\right.$
Lo primero que se debe observar es que la función $f$ tiene el codominio adecuado, es decir, $f(x)\in(0,1)$ para cada $x\in\mathbb{R}$. Si $x\geq0$, entonces, $0<4x+1<4x+2$ y por tanto $0<\frac{4x+1}{4x+2}<1$, es decir, $f(x)\in(0,1)$; por otro lado, si $x<0$, entonces $0<-2x$ y así $1<1-2x$, lo cual implica que $0<\frac{1}{1-2x}<1$ y que $0<\frac{1}{2(1-2x)}<\frac{1}{2}<1$, es decir, $f(x)\in(0,1)$. Por tanto, $f(x)\in(0,1)$ para cada $x\in\mathbb{R}$. Es importante notar que para $x<0$ vimos que no sólo se cumple $0<f(x)<1$, sino también que $0<f(x)<\frac{1}{2}$. Por otro lado, para $x\geq0$, tenemos que $0<1+2x\leq1+4x$ por lo que $1\leq\frac{4x+1}{2x+1}$ y por tanto $\frac{1}{2}\leq\frac{4x+1}{4x+2}$; de modo que para $x\geq0$ no sólo se cumple que $f(x)\in(0,1)$, sino también que $f(x)\in[\frac{1}{2},1)$.
Veamos ahora que $f$ es una función inyectiva. Sean $x,y\in\mathbb{R}$ con $x\not=y$. Debido a que $\mathbb{R}$ posee un orden lineal podemos suponer que $y<x$. Tenemos los siguientes casos.
Caso 1. $y<0\leq x$. En este caso se tiene que $f(y)\in(0,\frac{1}{2})$ mientras que $f(x)\in[\frac{1}{2},1)$, razón por la cual $f(x)\not=f(y)$.
Caso 2. $0\leq y<x$. En este caso se tiene que $f(y)=\frac{4y+1}{4y+2}$ y $f(x)=\frac{4x+1}{4x+2}$. Luego, si ocurriera que $\frac{4y+1}{4y+2}=\frac{4x+1}{4x+2}$, entonces $(4y+1)(4x+2)=(4x+1)(4y+2)$, lo cual implica $(4y+1)(2x+1)=(4x+1)(2y+1)$, es decir, $8xy+4y+2x+1=8xy+4x+2y+1$ y por ende $2y=2x$, lo cual contradice que $x\not=y$. Por tanto, $f(x)\not=f(y)$.
Caso 3. $y<x<0$. Si ocurriera que $f(x)=f(y)$, entonces $\frac{1}{2(1-2x)}=\frac{1}{2(1-2y)}$ y por ende, $1-2x=1-2y$, de donde $x=y$ y eso contradice la elección de $x$ y $y$. Por tanto $f$ es una función inyectiva.

Veamos ahora que $f$ es sobreyectiva. Sea $r\in(0,1)$. Si $r\in(0,\frac{1}{2})$, entonces $2<\frac{1}{r}$, lo cual implica $\frac{1}{2}<\frac{1}{4r}$ y así $x:=\frac{1}{2}-\frac{1}{4r}$ es un número real menor a $0$; luego, para tal $x$ tenemos que $f(x)=\frac{1}{2(1-2x)}=\frac{1}{2(1-(1-\frac{1}{2r}))}=\frac{1}{2\cdot\frac{1}{2r}}=r$. Si ahora $r\in[\frac{1}{2},1)$, entonces $2r-1\geq0$ y $1-r>0$, por lo que $x:=\frac{2r-1}{4(1-r)}$ es un número real mayor o igual a $0$ para el cual se cumple $f(x)=\frac{4x+1}{4x+2}=\frac{4(\frac{2r-1}{4(1-r)})+1}{4(\frac{2r-1}{4(1-r)})+2}=\frac{\frac{2r-1}{1-r}+1}{\frac{2r-1}{1-r}+2}=\frac{\frac{2r-1+1-r}{1-r}}{\frac{2r-1+2-2r}{1-r}}=\frac{r}{1}=r$. Lo anterior prueba que $f$ es sobreyectiva.

Por lo tanto $f$ es una biyección y $|\mathbb{R}|=|(0,1)|$.

$\square$

Una consecuencia de la proposición anterior es el siguiente corolario.

Corolario. El intervalo $[0,1]:=\{r\in\mathbb{R}:0\leq r\leq1\}$ es equipotente a $\mathbb{R}$.

Demostración.

Dado que $[0,1]\subseteq\mathbb{R}$, basta mostrar que existe una función inyectiva de $\mathbb{R}$ en $[0,1]$. Por la proposición anterior existe una función biyectiva $f:\mathbb{R}\to(0,1)$ y así la función $F:\mathbb{R}\to[0,1]$ definida como $F(x)=f(x)$ para cada $x\in\mathbb{R}$ es inyectiva. Por el teorema de Cantor-Schröder-Bernstein concluimos que $|\mathbb{R}|=|[0,1]|$.

$\square$

Si bien la demostración del corolario anterior fue muy rápida y utilizamos el importante teorema de Cantor-Schröder-Bernstein, siempre resulta interesante determinar una biyección explícita, y precisamente en el caso del corolario anterior lo podemos hacer.

Definamos $S:=\{\frac{1}{n}:n\in\mathbb{N}\setminus\set{0}\}\cup\{0\}$. Definamos $g:[0,1]\to(0,1)$ por medio de $g(x)=\left\{\begin{array}{lcc}
x & \textnormal{si}\ x\notin S\\
\frac{1}{n+2} & \textnormal{si}\ x=\frac{1}{n},\ n\in\mathbb{N}\setminus\{0\}\\
\frac{1}{2} & \textnormal{si}\ x=0
\end{array}
\right.$

La función anterior resulta ser una biyección entre $[0,1]$ y $(0,1)$. Primero veremos que $g$ es inyectiva. Sean $x,y\in[0,1]$ con $x\not=y$. Tenemos algunos casos.

Caso 1. $x,y\notin S$. En este caso $g(x)=x\not=y=g(y)$.
Caso 2. $x\in S$, $y\notin S$. Dado que para cada $z\in S$ se tiene $g(z)\in S$, entonces, $g(x)\in S$ mientras que $g(y)=y\notin S$. Por tanto $g(x)\not=g(y)$.
Caso 3. $x\notin S$, $y\in S$. Análogo al caso $2$.
Caso 4. $x,y\in S$. Si $x=0$ y $y=\frac{1}{n}$ con $n\in\mathbb{N}\setminus\{0\}$, entonces $g(x)=\frac{1}{2}$ y $g(y)=\frac{1}{n+2}$. Como $n\geq1$ se tiene que $n+2\geq3$ y por tanto $\frac{1}{2}\not=\frac{1}{n+2}$, es decir, $g(x)\not=g(y)$. Análogamente, si $y=0$ y $x=\frac{1}{n}$ con $n\in\mathbb{N}\setminus\{0\}$, $g(x)\not=g(y)$. Supongamos ahora que $x=\frac{1}{n}$ y $y=\frac{1}{m}$ con $n,m\in\mathbb{N}\setminus\{0\}$ con $n\not=m$.
Luego, $g(x)=\frac{1}{n+2}\not=\frac{1}{m+2}=g(y)$ pues de lo contrario tendríamos $n+2=m+2$ y $n=m$, lo cual contradice $n\not=m$.
Los cuatro casos anteriores muestran que $g$ es inyectiva.

Veamos ahora que $g$ es sobreyectiva. Sea $x\in(0,1)$. Si $x\in S$, entonces $x=\frac{1}{n}$ con $n\in\mathbb{N}$, $n\geq2$, por lo que existe $m\in\mathbb{N}$ tal que $m+2=n$; si $m=0$, entonces $x=\frac{1}{2}=g(0)$ y si $m>0$, entonces, $g(\frac{1}{m})=\frac{1}{m+2}=\frac{1}{n}=x$.
Si $x\notin S$, entonces $g(x)=x$. Por tanto, $g$ es sobreyectiva y en consecuencia una biyección. Esto muestra que $[0,1]$ y $(0,1)$ son equipotentes y, por tanto, $[0,1]$ y $\mathbb{R}$ son equipotentes. Más aún, contamos con una biyección explícita entre $[0,1]$ y $\mathbb{R}$.

Para exhibir la biyección entre $[0,1]$ y $(0,1)$ utilizamos el hecho de que $[0,1]$ contiene un conjunto numerable, específicamente el conjunto $S=\{\frac{1}{n}:n\in\mathbb{N}\setminus\{0\}\}\cup\{0\}$. Precisamente este hecho fue el que jugó un papel fundamental, pues como veremos en la siguiente proposición, si $X$ es un conjunto infinito que contiene un conjunto numerable, entonces, para cada $A\subseteq X$ conjunto finito, se cumple $|X\setminus A|=|X|$.

Proposición. Sea $X$ un conjunto infinito tal que existe una función inyectiva $f:\mathbb{N}\to X$. Entonces, para cada $A\subseteq X$ conjunto finito, $|X\setminus A|=|X|$.

Demostración.

Como lo mostrarás en los ejercicios de esta sección, basta mostrar que para cada $x\in X$, los conjuntos $X\setminus\{x\}$ y $X$ son equipotentes.

Sea pues $x\in X$. Sea $f:\mathbb{N}\to X$ una función inyectiva y denotemos por $N$ a la imagen de $f$, esto es $N:=im(f)=\{f(n):n\in\mathbb{N}\}$.

Si $x\notin N$, definamos $g:X\to X\setminus\{x\}$ por medio de $g(y)=\left\{\begin{array}{lcc}
y & \textnormal{si}\ y\notin N\cup\{x\}\\
f(0) & \textnormal{si}\ y=x\\
f(n+1) & \textnormal{si}\ y=f(n)
\end{array}
\right.$

Comprobar que esta función es biyectiva es análogo a como lo hicimos con la función biyectiva que exhibimos entre los intervalos $[0,1]$ y $(0,1)$, por lo que lo dejaremos como un ejercicio para esta entrada.

Supongamos ahora que $x\in N$ y sea $n\in\mathbb{N}$ tal que $x=f(n)$. Para este caso definamos $h:X\to X\setminus\{x\}$ por medio de $h(y)=\left\{\begin{array}{lcc}
y & \textnormal{si}\ y\notin N\setminus\{f(m):m<n\}\\
f(m+1) & \textnormal{si}\ y=f(m),\ m\geq n
\end{array}
\right.$

Nuevamente, comprobar que esta función es biyectiva es similar a lo que hemos hecho. Esto nos permite concluir que $|X\setminus\{x\}|=|X|$ para cada $x\in X$.

$\square$

La proposición precedente muestra además que todo conjunto que contenga un conjunto numerable es infinito segun Dedekind, pues si tomamos $x\in X$, entonces $X\setminus\{x\}\subsetneq X$ y $|X\setminus\{x\}|=|X|$.

Para culminar la entrada mostraremos que $(0,1)$ y $\mathcal{P}(\mathbb{N})$ son equipotentes y que por tanto $\mathbb{R}$ y $\mathcal{P}(\mathbb{N})$ lo son. Esto lo escribiremos como un teorema.

Teorema. $(0,1)$ y $\mathcal{P}(\mathbb{N})$ son equipotentes.

Demostración.

Primero vamos a mostrar la siguiente afirmación: para cada $r\in(0,1)$, existe una única función $\chi_r:\mathbb{N}\to\mathbb{N}$ que satisface $\chi_r(n)\in\{0,1,2,3,4,5,6,7,8,9\}$ para cada $n\in\mathbb{N}$ y tal que $0\leq x-\sum_{i=0}^{n}\frac{\chi_r(i)}{10^i}<\frac{1}{10^{n}}$.

Sea pues $r\in(0,1)$. Probaremos por inducción que para cada $n\in\mathbb{N}$ existe una única función $\chi^{(n)}_r:n+1\to\mathbb{N}$ tal que $\chi^{(n)}_{r}[n+1]\subseteq\{0,1,2,3,4,5,6,7,8,9\}$ y $0\leq x-\sum_{i=0}^{n}\frac{\chi^{(n)}_{r}(i)}{10^i}<\frac{1}{10^n}$.
Para $n=0$ definamos $\chi^{(0)}_r:1\to\mathbb{N}$ por medio de $\chi^{(0)}_r(0)=0$. Luego, $0\leq r=r-\frac{\chi^{(0)}_r(0)}{10^0}<1=\frac{1}{10^0}$. Si $y:1\to\mathbb{N}$ es otra función tal que $y(0)\in\{0,1,2,3,4,5,6,7,8,9\}$ y $0\leq r-\frac{y(0)}{10^0}<\frac{1}{10^0}$, entonces, $y(0)\leq r<1$ y por tanto $y(0)=0$, ya que el único natural menor a $1$ es $0$. Por tanto, $\chi^{(0)}_r=y$, lo que demuestra que para $n=0$ el enunciado es verdadero.
Supongamos que el resultado es válido para algún $n\geq0$. Sea $\chi^{(n)}_r:n+1\to\mathbb{N}$ la única función de la hipótesis. Primero vamos a demostrar la existencia de una función $\chi^{(n+1)}_r$ con las propiedades deseadas y luego probaremos su unicidad. Dado que $0\leq r-\sum_{i=0}^{n}\frac{\chi^{(n)}_r(i)}{10^i}<\frac{1}{10^{n}}$ se sigue que $0\leq10^n(r-\sum_{i=0}^{n}\frac{\chi^{(n)}_r(i)}{10^i})<1$. Si ocurriera que $ r-\sum_{i=0}^{n}\frac{\chi^{(n)}_r(i)}{10^i}=0$, definimos $\chi^{(n+1)}_r:n+2\to\mathbb{N}$ como $\chi^{(n+1)}_r(i)=\left\{\begin{array}{lcc}
\chi^{(n)}_r(i) & \textnormal{si}\ i\in n+1\\
0 & \textnormal{si}\ i=n+1
\end{array}
\right.$
Definida de esa manera la función $\chi^{(n+1)}_r$ se satisfacen las hipótesis deseadas. Supongamos ahora que $0<r-\sum_{i=0}^{n}\frac{\chi^{(n)}_r(i)}{10^i}$ y definamos $\hat{r}:=10^n(r-\sum_{i=0}^{n}\frac{\chi^{(n)}_r(i)}{10^i})$, número real que sabemos satisface $0<\hat{r}<1$. Consideremos el conjunto $A=\{m\in\mathbb{N}:m\leq 10\hat{r}\}$, el cual es no vacío ya que $0<\hat{r}$ y por tanto $0\leq 10\hat{r}$; además, $A$ es acotado superiormente ya que $\hat{r}<1$ y por tanto $10\hat{r}<10$, de modo que si $m\in A$, entonces $m<10$. Así, existe $a=\textnormal{max}(A)$, el cual es un natural dentro del conjunto $\{0,1,2,3,4,5,6,7,8,9\}$. Por la maximalidad de $a$ se tiene que $10\hat{r}<a+1$ y así $\frac{a}{10}\leq\hat{r}<\frac{a}{10}+\frac{1}{10}$, es decir, $0\leq\hat{r}-\frac{a}{10}<\frac{1}{10}$.
Luego, dado que $\hat{r}=10^n(r-\sum_{i=0}^{n}\frac{\chi^{(n)}_r(i)}{10^i})$ se sigue que $0\leq r-\sum_{i=0}^{n}\frac{\chi^{(n)}_r(i)}{10^i}-\frac{a}{10^{n+1}}<\frac{1}{10^{n+1}}$. Si definimos $\chi^{(n+1)}_r:n+2\to\mathbb{N}$ por medio de $\chi^{(n+1)}_r(i)=\left\{\begin{array}{lcc}
\chi^{(n)}_r(i) & \textnormal{si}\ i\in n+1\\
a & \textnormal{si}\ i=n+1
\end{array}
\right.$

entonces $\chi^{(n+1)}_r$ es una función que satisface las condiciones deseadas. Así, hemos demostrado la existencia de una función con las características requeridas. Veamos que ésta es única. Supongamos que $\eta:n+2\to\mathbb{N}$ es otra función que satisface las mismas propiedades que $\chi_r^{(n+1)}$.
Luego, en particular, $0\leq r-\sum_{i=0}^{n+1}\frac{\eta(i)}{10^i}<\frac{1}{10^{n+1}}$ y por tanto $0\leq r-\sum_{i=0}^{n}\frac{\eta(i)}{10^i}<\frac{1}{10^{n+1}}+\frac{\eta(n+1)}{10^{n+1}}\leq \frac{1}{10^{n+1}}+\frac{9}{10^{n+1}}=\frac{10}{10^{n+1}}=\frac{1}{10^n}$. De este modo, la función $\eta\upharpoonright_{n+1}:n+1\to\mathbb{N}$ satisface las mismas condiciones que la función $\chi^{(n)}_r$, y por la unicidad de esta última función se sigue que $\eta(i)=\chi^{(n)}_r(i)$ para cada $i\in n+1$. Así, la función $\eta$ coincide con la función $\chi^{(n+1)}_r$ en $n+1$, por lo que resta probar que $\eta(n+1)=\chi^{(n+1)}_r(n+1)=a$.
Sabemos que $0\leq r-\sum_{i=0}^{n}\frac{\chi^{(n+1)}_r(i)}{10^i}-\frac{\eta(n+1)}{10^{n+1}}<\frac{1}{10^{n+1}}$ y por tanto, $0\leq 10^{n+1}(r-\sum_{i=0}^{n}\frac{\chi^{(n+1)}(i)}{10^i})-\eta(n+1)<1$, es decir, $\eta(n+1)\leq10\hat{r}<\eta(n+1)+1$, de modo que $\eta(n+1)\in A$ y por tanto $\eta(n+1)\leq a=\chi^{(n+1)}_r(n+1)$. Podemos elegir $k\in\{0,1,2,3,4,5,6,7,8,9\}$ tal que $\eta(n+1)+k=a$ y tenemos $a=\eta(n+1)+k\leq10\hat{r}$, razón por la cual \[k\leq10\hat{r}-\eta(n+1)<(\eta(n+1)+1)-\eta(n+1)=1\] y en consecuencia, $k=0$. Por tanto, $\eta(n+1)=a=\chi^{(n+1)}_r(n+1)$. Esto demuestra la unicidad de $\chi^{(n+1)}_r$.

Por lo tanto, para cada $n\in\mathbb{N}$ existe una única función $\chi^{(n)}_r:n+1\to\mathbb{N}$ tal que $\chi^{(n)}_r[\mathbb{N}]\subseteq\{0,1,2,3,4,5,6,7,8,9\}$ y $0\leq r-\sum_{i=0}^{n}\frac{\chi^{(n)}_r(i)}{10^i}<\frac{1}{10^n}$. En el proceso de la demostración de la existencia y unicidad de tales funciones, mostramos además que si $\chi^{(n+1)}_r:n+2\to\mathbb{N}$ es la única función con tales propiedades, entonces, $\chi^{(n)}_r=\chi^{(n+1)}_r\upharpoonright_{n+1}$, lo que muestra que el conjunto de funciones $\mathcal{F}:=\{\chi^{(n)}_r:n\in\mathbb{N}\}$ es un sistema de funciones compatibles y, por tanto, $\chi_r=\bigcup\mathcal{F}:\mathbb{N}\to\mathbb{N}$ es la única función con las propieades que enunciamos en la afirmación.

Estamos entonces en condiciones de definir una función $F:(0,1)\to\{f\in\mathbb{N}^{\mathbb{N}}:f[\mathbb{N}]\subseteq\{0,1,2,3,4,5,6,7,8,9\}\}$ por medio de $F(r)=\chi_r$. Dicha función es inyectiva, ya que si $\chi_r=\chi_{r’}$, entonces, para cada $n\in\mathbb{N}$, \[|r-r’|=|r-\sum_{i=0}^{n}\frac{\chi_r(i)}{10^i}+\sum_{i=0}^{n}\frac{\chi_{r’}(i)}{10^i}-r’|\] \[\leq|r-\sum_{i=0}^{n}\frac{\chi_r(i)}{10^i}|+|\sum_{i=0}^{n}\frac{\chi_{r’}(i)}{10^i}-r’|\] \[<\frac{1}{10^n}+\frac{1}{10^n}=\frac{2}{10^n}\] lo cual muestra que $|r-r’|=0$, es decir, $r=r’$. Por tanto, existe una función inyectiva de $(0,1)$ en $\mathbb{N}^{\mathbb{N}}$, de modo que $|(0,1)|\leq|\mathbb{N}^{\mathbb{N}}|=|\mathcal{P}(\mathbb{N})|$.

Ahora vamos a definir una función inyectiva de $2^{\mathbb{N}}$ en $(0,1)$. Sea $f\in2^{\mathbb{N}}$ y veamos que la sucesión de números racionales $(\sum_{i=0}^{n}\frac{f(i)}{10^{i+1}})_{n\in\mathbb{N}}$ converge. Dado que $f(i)\in\{0,1\}$ para cada $i\in\mathbb{N}$, la sucesión $(\sum_{i=0}^{n}\frac{f(i)}{10^{i+1}})_{n\in\mathbb{N}}$ es no decreciente. Luego, para cada $n\in\mathbb{N}$, $0\leq\sum_{i=0}^{n}\frac{f(i)}{10^{i+1}}\leq\sum_{i=0}^{n}\frac{1}{10^{i+1}}=\sum_{i=1}^{n+1}\frac{1}{10^i}=\frac{1-\frac{1}{10^{n+2}}}{1-\frac{1}{10}}-1=\frac{1-\frac{1}{10^{n+2}}}{(\frac{9}{10})}-1<\frac{1}{(\frac{9}{10})}-1=\frac{10}{9}-1=\frac{1}{9}<1$, por lo que dicha sucesión está acotada inferiormente por $0$ y superiormente por $\frac{1}{9}$ y, por tanto, converge a algún número real en el intervalo $[0,\frac{1}{9}]$. Sea $r_f\in[0,\frac{1}{9}]$ el límite de dicha sucesión.
Si la función $f$ no es la constante cero, entonces, $r_f\in(0,\frac{1}{9}]$, ya que existe $N\in\mathbb{N}$ tal que $f(N)=1$ y por tanto, para cada $n\geq N$, $\frac{1}{10^{N+1}}\leq\sum_{i=0}^{n}\frac{f(i)}{10^{i+1}}\leq r_f$.
Dado que el número real $r_f$ es único para cada $f\in2^{\mathbb{N}}$, estamos en condiciones de definir la siguiente función: sea $G:2^{\mathbb{N}}\to[0,1)$ tal que $G(f)=\left\{\begin{array}{lcc}
r_f & \textnormal{si}\ f\not=0\\
0 & \textnormal{si}\ f=0
\end{array}
\right.$

Veamos que $G$ es inyectiva. Por la definición de $G$ sabemos que si $f\not=0$, entonces $G(f)\not=G(0)$. Ahora, sean $f,h\in2^{\mathbb{N}}$ funciones no cero tales que $r_f=G(f)=G(h)=r_h$. Veamos que $f(n)=h(n)$ para cada $n\in\mathbb{N}$.
Algo que será de utilidad para probar esto último es la desigualdad $\sum_{i=n+1}^{m}\frac{1}{10^i}<\frac{1}{2\cdot10^n}$, la cual es cierta para cualesquiera $n,m\in\mathbb{N}$ tales que $n<m$. En efecto, si $n,m\in\mathbb{N}$ con $n<m$, tenemos \[\sum_{i=n+1}^{m}\frac{1}{10^i}=\sum_{i=0}^{m}\frac{1}{10^i}-\sum_{i=0}^{n}\frac{1}{10^i}=\frac{1-\frac{1}{10^{m+1}}}{1-\frac{1}{10}}-\frac{1-\frac{1}{10^{n+1}}}{1-\frac{1}{10}}=\frac{\frac{1}{10^{n+1}}-\frac{1}{10^{m+1}}}{(\frac{9}{10})}=\frac{\frac{1}{10^n}-\frac{1}{10^m}}{9}\] y este número racional es menor que $\frac{1}{2\cdot10^n}$, pues $\frac{1}{10^n}-\frac{1}{10^m}<\frac{1}{10^n}<\frac{9}{2}\cdot\frac{1}{10^n}$, pues $1<\frac{9}{2}$. Por tanto, para cualesquiera $n,m\in\mathbb{N}$ con $n<m$, $\sum_{i=n+1}^{m}\frac{1}{10^i}<\frac{1}{2\cdot10^n}$.

Ahora sí, veamos que $f(n)=h(n)$ para cada $n\in\mathbb{N}$.
Dado que las sucesiones de números racionales $(\sum_{i=0}^{n}\frac{f(i)}{10^{i+1}})_{n\in\mathbb{N}}$ y $(\sum_{i=0}^{n}\frac{h(i)}{10^{i+1}})_{n\in\mathbb{N}}$ convergen al número real $r_f$, existe $m\in\mathbb{N}$ tal que para cada $n>m$, $0\leq r_f-\sum_{i=0}^{n}\frac{f(i)}{10^{i+1}}<\frac{1}{4\cdot10}$ y $0\leq r_f-\sum_{i=0}^{n}\frac{h(i)}{10^{i+1}}<\frac{1}{4\cdot10}$. Luego, $$|\sum_{i=0}^{m+1}\frac{f(i)}{10^{i+1}}-\sum_{i=0}^{m+1}\frac{h(i)}{10^{i+1}}|=|\sum_{i=0}^{m+1}\frac{f(i)}{10^{i+1}}-r_f+r_f-\sum_{i=0}^{m+1}\frac{h(i)}{10^{i+1}}|$$ $$\leq|\sum_{i=0}^{m+1}\frac{f(i)}{10^{i+1}}-r_f|+|r_f-\sum_{i=0}^{m+1}\frac{h(i)}{10^{i+1}}|<\frac{1}{4\cdot10}+\frac{1}{4\cdot10}=\frac{1}{2\cdot10}.$$ Por otro lado, $|\frac{f(0)-h(0)}{10}|-|\sum_{i=1}^{m+1}\frac{f(i)-h(i)}{10^{i+1}}|\leq|\sum_{i=0}^{m+1}\frac{f(i)-h(i)}{10^{i+1}}|<\frac{1}{2\cdot10}$ y así \[|\frac{f(0)-h(0)}{10}|<\frac{1}{2\cdot10}+|\sum_{i=1}^{m+1}\frac{f(i)-h(i)}{10^{i+1}}|\leq\frac{1}{2\cdot10}+\sum_{i=1}^{m+1}\frac{|f(i)-h(i)|}{10^{i+1}}.\] Dado que $|f(i)-h(i)|=\left\{\begin{array}{lcc}
1 & \textnormal{si}\ \{f(i),h(i)\}=\{0,1\}\\
0 & \textnormal{si}\ f(i)=h(i)=0\ \textnormal{o}\ f(i)=h(i)=1
\end{array}
\right.$ entonces, $|f(i)-h(i)|\leq1$ para cada $i\in\mathbb{N}$ y, como $\sum_{i=1}^{m+1}\frac{1}{10^{i+1}}=\sum_{i=2}^{m+2}\frac{1}{10^i}<\frac{1}{2\cdot10}$, se sigue que \[\frac{|f(0)-h(0)|}{10}\leq\frac{1}{2\cdot10}+\sum_{i=1}^{m+1}\frac{1}{10^{i+1}}<\frac{1}{10}\] lo cual implica que $|f(0)-h(0)|=0$, es decir, $f(0)=h(0)$. Supongamos que para algún $n\in\mathbb{N}$ hemos probado que $f(m)=h(m)$ para cada $m\leq n$ y veamos que $f(n+1)=h(n+1)$.
Sea $m\in\mathbb{N}$, $m\geq n+1$, tal que para cada $k>m$, $|r_f-\sum_{i=0}^{k}\frac{f(i)}{10^{i+1}}|<\frac{1}{4\cdot10^{n+2}}$ y $|r_f-\sum_{i=0}^{k}\frac{h(i)}{10^{i+1}}|<\frac{1}{4\cdot10^{n+2}}$.
Luego, $|\sum_{i=n+1}^{m+1}\frac{f(i)-h(i)}{10^{i+1}}|=|\sum_{i=0}^{m+1}\frac{f(i)-h(i)}{10^{i+1}}|\leq|r_f-\sum_{i=0}^{m+1}\frac{f(i)}{10^{i+1}}|+|r_f-\sum_{i=0}^{m+1}\frac{h(i)}{10^{i+1}}|<\frac{1}{2\cdot10^{n+2}}$. Por otro lado, \[\frac{|f(n+1)-h(n+1)|}{10^{n+2}}-|\sum_{i=n+2}^{m+1}\frac{f(i)-h(i)}{10^{i+1}}|\leq|\sum_{i=n+1}^{m+1}\frac{f(i)-h(i)}{10^{i+1}}|<\frac{1}{2\cdot10^{n+2}}\] por lo que $$\frac{|f(n+1)-h(n+1)|}{10^{n+2}}<\frac{1}{2\cdot10^{n+2}}+|\sum_{i=n+2}^{m+1}\frac{f(i)-h(i)}{10^{i+1}}|\leq\frac{1}{2\cdot10^{n+2}}+\sum_{i=n+2}^{m+1}\frac{|f(i)-h(i)|}{10^{i+1}}$$ \[\leq\frac{1}{2\cdot10^{n+2}}+\sum_{i=n+2}^{m+1}\frac{1}{10^{i+1}}=\frac{1}{2\cdot10^{n+2}}+\sum_{i=n+3}^{m+2}\frac{1}{10^i}<\frac{1}{2\cdot10^{n+2}}+\frac{1}{2\cdot10^{n+2}}=\frac{1}{10^{n+2}}\]
y en consecuencia, $|f(n+1)-h(n+1)|=0$, es decir, $f(n+1)=h(n+1)$. Por tanto, para cada $n\in\mathbb{N}$, $f(n)=h(n)$, lo que demuestra que $f=h$.
Así, la función $G$ es inyectiva y, por consiguiente, $|2^{\mathbb{N}}|\leq|[0,1)|$. Dado que $|[0,1)|=|(0,1)|$, se sigue que $|\mathcal{P}(\mathbb{N})|=|2^{\mathbb{N}}|\leq|(0,1)|$. Por el teorema de Cantor-Schröder-Bernstein concluimos que $|(0,1)|=|\mathcal{P}(\mathbb{N})|$.

$\square$

Concluimos la entrada con el siguiente corolario, cuya prueba es consecuencia del teorema anterior y el hecho que $|\mathbb{R}|=|(0,1)|$.

Corolario. $\mathbb{R}$ y $\mathcal{P}(\mathbb{N})$ son equipotentes.

$\square$

Tarea moral

  1. Demuestra que el conjunto $\mathbb{N}^{\nearrow\mathbb{N}}:=\{f\in\mathbb{N}^{\mathbb{N}}:f(n)<f(n+1)\ \textnormal{para cada}\ n\in\mathbb{N}\}$ es equipotente a $[\mathbb{N}]^{\mathbb{N}}$.
  2. Demuestra que para cualquier conjunto infinito $X$ que contenga un conjunto numerable se cumple que $|X\setminus A|=|X|$, para cada $A\subseteq X$ conjunto finito.
  3. Sean $a,b\in\mathbb{R}$ con $a<b$. Demuestra que $|(a,b)|=|(0,1)|$.
  4. Exhibe una biyección entre $\mathbb{R}$ y $[0,\infty):=\{r\in\mathbb{R}:r\geq0\}$.

Más adelante…

En la siguiente entrada introduciremos uno de los axiomas más relevantes de la teoría de conjuntos, el axioma de elección. Dicho axioma nos permitirá responder algunas de las interrogantes que quedaron abiertas en secciones anteriores y, además, veremos algunas de sus sorpredentes consuecuencias.

Entradas relacionadas

  1. Hernández, F., Teoría de Conjuntos, México: Aportaciones Matemáticas No.13,
    SMM, 1998 ↩︎
  2. Spivak, M., Cálculo Infinitesimal (2a ed). México: Reverté, 1998. ↩︎

Álgebra Lineal II: Aplicaciones de la forma canónica de Jordan

Por Leonardo Ignacio Martínez Sandoval

Introducción

En las entradas anteriores demostramos que cualquier matriz (o transformación lineal) tiene una y sólo una forma canónica de Jordan. Además, explicamos cómo se puede obtener siguiendo un procedimiento específico. Para terminar nuestro curso, platicaremos de algunas de las consecuencias del teorema de Jordan.

Clasificación de matrices por similaridad

Una pregunta que aún no hemos podido responder es la siguiente: si nos dan dos matrices $A$ y $B$ en $M_n(F)$, ¿son similares? Con la maquinaria desarrollada hasta ahora podemos dar una muy buena respuesta.

Proposición. Sean $A$ y $B$ matrices en $M_n(F)$ tales que el polinomio característico de $A$ se divide en $F$. Entonces, $A$ y $B$ son similares si y sólo si se cumplen las siguientes dos cosas:

  • El polinomio característico de $B$ también se divide en $M_n(F)$ y
  • $A$ y $B$ tienen la misma forma canónica de Jordan.

Demostración. Sea $J$ la forma canónica de Jordan de $A$.

Si $A$ y $B$ son similares, como $A$ es similar a $J$, se tiene que $B$ es similar a $J$. Entonces, $B$ tiene el mismo polinomio característico que $A$ y por lo tanto se divide en $F$. Además, como $J$ es similar a $B$, entonces por la unicidad de la forma canónica de Jordan, precisamente $J$ es la forma canónica de Jordan de $B$. Esto es un lado de nuestra proposición.

Supongamos ahora que el polinomio característico de $B$ también se divide en $M_n(F)$ y que la forma canónica de Jordan de $B$ también es $J$. Por transitividad de similaridad, $A$ es similar a $B$.

$\square$

Veamos un ejemplo de cómo usar esto en un problema específico.

Problema. Encuentra dos matrices en $M_2(\mathbb{R})$ que tengan como polinomio característico a $x^2-3x+2$, pero que no sean similares.

Solución. Las matrices $A=\begin{pmatrix} 1 & 0 \\ 0 & 2 \end{pmatrix}$ y $B=\begin{pmatrix} 1 & 1 \\ 0 & 2 \end{pmatrix}$ ya están en forma canónica de Jordan y son distintas, así que por la proposición anterior no pueden ser similares. Además, por ser triangulares superiores, en ambos casos el polinomio característico es $$(X-1)(X-2)=X^2-3X+2.$$

$\triangle$

El problema anterior fue sumamente sencillo. Piensa en lo difícil que sería argumentar con cuentas de producto de matrices que no hay ninguna matriz $P\in M_2(\mathbb{R})$ tal que $A=P^{-1}B P$.

Forma canónica de Jordan «para cualquier matriz»

Como en $\mathbb{C}[X]$ todos los polinomios se dividen, entonces tenemos el siguiente corolario del teorema de Jordan.

Corolario. Toda matriz en $M_n(\mathbb{C})$ tiene una única forma canónica de Jordan.

Aquí $\mathbb{C}$ es muy especial pues es un campo completo, es decir, en el cual cualquier polinomio no constante tiene por lo menos una raíz. En general esto no es cierto, y es muy fácil dar ejemplos: $x^2-2$ no tiene raíces en $\mathbb{Q}$ y $x^2+1$ no tiene raíces en $\mathbb{R}$.

Sin embargo, existe toda un área del álgebra llamada teoría de campos en donde se puede hablar de extensiones de campos. Un ejemplo de extensión de campo es que $\mathbb{C}$ es una extensión de $\mathbb{R}$ pues podemos encontrar «una copia de» $\mathbb{R}$ dentro de $\mathbb{C}$ (fijando la parte imaginaria igual a cero).

Un resultado importante de teoría de campos es el siguiente:

Teorema. Sea $F$ un campo y $P(X)$ un polinomio en $F[X]$. Existe una extensión de campo $G$ de $F$ tal que $P(X)$ se divide en $G$.

¿Puedes notar la consecuencia que esto trae para nuestra teoría de álgebra lineal? Para cualquier matriz en $M_n(F)$, podemos considerar a su polinomio característico y encontrar campo $G$ que extiende a $F$ en donde el polinomio se divide. Por el teorema de Jordan, tendríamos entonces lo siguiente.

Corolario. Sea $A$ una matriz en $M_n(F)$. Entonces, $A$ tiene una forma canónica de Jordan en un campo $G$ que extiende a $F$.

Por supuesto, la matriz $P$ invertible que lleva $A$ a su forma canónica quizás sea una matriz en $M_n(G)$.

Toda matriz compleja es similar a su transpuesta

Ya demostramos que para cualquier matriz $A$ en $M_n(F)$ se cumple que $\chi_A(X)=\chi_(A^T)(X)$. Esto implica que $A$ y su transpuesta $A^T$ tienen los mismos eigenvalores, traza y determinante. También vimos que $\mu_A(X)=\mu_{A^T}(X)$. Las matrices $A$ y $A^T$ comparten muchas propiedades. ¿Será que siempre son similares? A continuación desarrollamos un poco de teoría para resolver esto en el caso de los complejos.

Proposición. Sea $J_{\lambda,n}$ un bloque de Jordan en $M_n(F)$. Entonces, $J_{\lambda,n}$ y $J_{\lambda,n}^T$ son similares.

Demostración. Para bloques de Jordan, podemos dar explícitamente la matriz de similitud. Es la siguiente matriz, con unos en la diagonal no principal:

$$P=\begin{pmatrix} 0 & 0 & \ldots & 0 & 1 \\ 0 & 0 & \ldots & 1 & 0 \\ \vdots & & \ddots & \vdots & \\ 0 & 1 & \ldots & 0 & 0 \\ 1 & 0 & \ldots & 0 & 0 \end{pmatrix}.$$

Esta matriz es invertible, su inversa es ella misma y cumple lo siguiente (ver ejercicios). Si $A$ es una matriz en $M_n(F)$, entonces:

  • Si $A$ tiene columnas $C_1,\ldots, C_n$, entonces $AP$ tiene columnas $C_n, \ldots, C_1$.
  • Si $A$ tiene filas $R_1,\ldots, R_n$, entonces $PA$ tiene filas $R_n, \ldots, R_1$.

Para los bloques de Jordan, si revertimos el orden de las filas y luego el de las columnas, llegamos a la transpuesta. Así, $J_{\lambda,n}^T=PJ_{\lambda,n}P$ es la similitud entre las matrices dadas.

$\square$

La prueba anterior no funciona en general pues para matrices arbitrarias no pasa que $A^T=PAP$ (hay un contraejemplo en los ejercicios). Para probar lo que buscamos, hay que usar la forma canónica de Jordan.

Teorema. En $M_n(\mathbb{C})$, toda matriz es similar a su transpuesta.

Demostración. Sea $A$ una matriz en $M_n(\mathbb{C})$. Como en $\mathbb{C}$ todo polinomio se divide, tanto $A$ como $A^T$ tienen forma canónica de Jordan. Digamos que la forma canónica de Jordan es

\begin{equation}J=\begin{pmatrix} J_{\lambda_1,k_1} & 0 & 0 & \ldots & 0 \\ 0 & J_{\lambda_2,k_2} & 0 & \ldots & 0 \\ 0 & 0 & J_{\lambda_3,k_3} & \ldots & 0 \\ & \vdots & & \ddots & \vdots \\ 0 & 0 & 0 & \ldots & J_{\lambda_d,k_d}\end{pmatrix}.\end{equation}

Si $P$ es la matriz de similitud, tenemos que $A=P^{-1}JP$ y al transponer obtenemos que:

$$A^T=P^T\begin{pmatrix} J_{\lambda_1,k_1}^T & 0 & 0 & \ldots & 0 \\ 0 & J_{\lambda_2,k_2}^T & 0 & \ldots & 0 \\ 0 & 0 & J_{\lambda_3,k_3}^T & \ldots & 0 \\ & \vdots & & \ddots & \vdots \\ 0 & 0 & 0 & \ldots & J_{\lambda_d,k_d}^T\end{pmatrix}(P^T)^{-1}.$$

Como por la proposición anterior cada bloque de Jordan es similar a su transpuesta, existen matrices invertibles $Q_1,\ldots,Q_d$ tales $J_{\lambda_i,k_i}^T=Q_i^{-1}J_{\lambda_i,k_i}Q_i$ para todo $i\in\{1,\ldots,d\}$. Pero entonces al definir $Q$ como la matriz de bloques

$$Q=\begin{pmatrix} Q_1 & 0 & \ldots & 0 \\ 0 & Q_2 & \ldots & 0 \\ 0 & \vdots & \ddots & \vdots \\ 0 & 0 & \ldots & Q_d \end{pmatrix},$$

obtenemos la similaridad

$$A^T=P^TQ^{-1} \begin{pmatrix} J_{\lambda_1,k_1} & 0 & 0 & \ldots & 0 \\ 0 & J_{\lambda_2,k_2} & 0 & \ldots & 0 \\ 0 & 0 & J_{\lambda_3,k_3} & \ldots & 0 \\ & \vdots & & \ddots & \vdots \\ 0 & 0 & 0 & \ldots & J_{\lambda_d,k_d}\end{pmatrix} Q (P^T)^{-1}.$$

Así, $A$ y $A^T$ tienen la misma forma canónica de Jordan y por lo tanto son matrices similares.

$\square$

Más adelante…

¡Hemos terminado el curso de Álgebra Lineal II! Por supuesto, hay muchos temas de Álgebra Lineal adicionales que uno podría estudiar.

Un tema conectado con lo que hemos platicado es qué hacer con las matrices cuyo polinomio característico no se divide en el campo con el que estamos trabajando. Por ejemplo si tenemos una matriz $A$ en $M_n(\mathbb{R})$ cuyo polinomio característico no se divide, una opción es pensarla como matriz en $M_n(\mathbb{C})$ y ahí encontrar su forma canónica de Jordan. ¿Pero si queremos quedarnos en $\mathbb{R}$? Sí hay resultados que llevan una matriz a algo así como una «forma canónica» en $\mathbb{R}$ muy cercana a la forma canónica de Jordan.

Otro posible camino es profundizar en la pregunta de cuándo dos matrices en $M_n(F)$ son similares. Si tienen forma canónica de Jordan, ya dimos una buena caracterización en esta entrada. En los ejercicios encontrarás otra. Pero, ¿y si no tienen forma canónica de Jordan? Podríamos extender el campo a otro campo $G$ y comprar las formas canónicas ahí, pero en caso de existir la similaridad, sólo la tendremos en $M_n(G)$. Existe otra manera de expresar a una matriz en forma canónica, que se llama la forma canónica de Frobenius y precisamente está pensada para determinar si dos matrices son similares sin que sea necesario encontrar las raíces del polinomio característico, ni extender el campo.

Estos son sólo dos ejemplos de que la teoría de álgebra lineal es muy extensa. En caso de que estés interesado, hay mucho más por aprender.

Tarea moral

  1. Sea $A$ una matriz en $M_n(F)$ y tomemos $P$ en $M_n(F)$ la matriz
    $$P=\begin{pmatrix} 0 & 0 & \ldots & 0 & 1 \\ 0 & 0 & \ldots & 1 & 0 \\ \vdots & & \ddots & \vdots & \\ 0 & 1 & \ldots & 0 & 0 \\ 1 & 0 & \ldots & 0 & 0 \end{pmatrix}.$$
    • Demuestra que si $A$ tiene columnas $C_1,\ldots, C_n$, entonces $AP$ tiene columnas $C_n, \ldots, C_1$.
    • Demuestra que si $A$ tiene filas $R_1,\ldots,R_1$, entonces $PA$ tiene filas $R_n,\ldots,R_n$.
    • Concluye con cualquiera de los incisos anteriores que $P$ es invertible y su inversa es ella misma.
    • Tomemos explicitamente $n=2$ y $A=\begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}$. Encuentra explícitamente $PAP$. ¿Es $A^T$?
  2. ¿Cuál es la máxima cantidad de matrices que se pueden dar en $M_5(\mathbb{C})$ de manera que cada una de ellas tenga polinomio característico $x^2(x^2+1)(x+3)$ y tales que no haya dos de ellas que sean similares entre sí.
  3. Sea $A$ una matriz en $M_n(\mathbb{R})$ tal que su polinomio característico se divide en $\mathbb{R}$, con forma canónica de Jordan $J$. Sea $P(X)$ un polinomio en $\mathbb{R}[X]$.
    • Demuestra que el polinomio característico de $P(A)$ se divide en $\mathbb{R}$.
    • La forma canónica de Jordan de $P(A)$ no necesariamente será $P(J)$ pues puede que el polinomio altere el orden de los eigenvalores pero, ¿cómo se obtiene la forma canónica de $P(A)$ a partir de $J$?
  4. Sean $A$ y $B$ matrices en $M_n(F)$ cuyo polinomio característico se divide en $F$. Muestra que $A$ y $B$ son similares si y sólo si para cualquier polinomio $P(X)$ en $F[X]$ se tiene que $\text{rango}(P(A))=\text{rango}(P(B))$.
  5. Investiga sobre la forma canónica de Frobenius y sobre la variante a la forma canónica de Jordan restringida a $\mathbb{R}$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Superior I: Introducción a vectores y matrices con entradas reales

Por Eduardo García Caballero

Introducción

Los vectores y las matrices son algunos de los objetos matemáticos que nos encontraremos con mayor frecuencia durante nuestra formación matemática. Esto se debe a que nos permiten abordar con sencillez varios problemas de distintas áreas de las matemáticas, como lo son la geometría analítica y la teoría de gráficas. Además, nos ayudan a modelar con gran precisión fenómenos de otras disciplinas, como de la mecánica clásica, gráficos por computadora, circuitos eléctricos, robótica, entre otras.

A pesar de que el estudio a profundidad de los vectores y matrices lo realizaremos en los cursos de Álgebra Lineal I y Álgebra Lineal II, esto no es un impedimento para que nos familiaricemos con varios de los conceptos, técnicas y algoritmos que nos permitirán sacar provecho a esta maravillosa área de las matemáticas.

¿Qué son los vectores?

Dependiendo del área que estudiemos, nos podríamos encontrar con distintas definiciones de vectores. Por ejemplo, en la mecánica clásica se visualiza a los vectores como flechas en el plano o en el espacio, ancladas en un «origen» o en cualquier otro punto del plano. En ciencias de la computación, entenderemos que un vector consiste en un arreglo en el que todas sus entradas son datos del mismo tipo. Como veremos más adelante, las distintas formas de visualizar los vectores son equivalentes.

En este curso trabajaremos con un tipo específico de vectores: los vectores cuyas entradas son números reales. ¿Números reales? Sí. Aquí el temario de la asignatura de un brinco un poco grande. Hasta ahora, hemos intentado construir las matemáticas desde sus fundamentos: lógica, conjuntos, funciones, números naturales, etc. Sin embargo, ahora trabajaremos con el conjunto $\mathbb{R}$ de números reales.

Ya platicamos de que el conjunto de naturales $\mathbb{N}$ se puede pensar desde un sistema axiomático y que de hecho podemos «construir» a los naturales a partir de nociones de teoría de conjuntos. En el curso de Álgebra Superior 2 se platica de cómo construir al conjunto $\mathbb{Z}$ de enteros a partir de $\mathbb{N}$, al conjunto $\mathbb{Q}$ de racionales a partir de $\mathbb{Z}$ y finalmente de cómo construir a $\mathbb{R}$ desde $\mathbb{Q}$. Pero por ahora supondremos la existencia de $\mathbb{R}$ y que cumple todos los axiomas que se tratan por ejemplo en un curso de Cálculo Diferencial e Integral I.

Vectores con entradas reales

Un vector con entradas reales lo podemos entender como una lista ordenada de uno o más números (también conocida como tupla) en la que todos sus valores son números reales. Aquí «lista ordenada» lo pensamos no en el sentido de que sus entradas «van creciendo o decreciendo en orden», sino en el sentido «ordenado» como de parejas ordenadas de la segunda unidad de estas notas. Es decir, no nos importan no sólo los números usados, sino también en qué lugar quedaron.

Un ejemplo que seguramente ya has visto en tus clases de geometría analítica son los vectores en el plano o en el espacio. Recordemos que el vector $(5, \pi)$ determina una única posición en el plano, mientras que $\left(8, \sqrt{2}, \tfrac{4}{3}\right)$ determina una única posición en el espacio. Como ambas tuplas están formadas únicamente por números reales, podemos decir que son vectores con entradas reales. A cada uno de los números que aparecen en la lista le llamaremos entrada, y nos podemos referir a la posición de la entrada para decir cuál es su valor; por ejemplo, la primera entrada de $(5, \pi)$ es $5$, mientras que la tercera entrada de $\left(8, \sqrt{2}, \tfrac{4}{3}\right)$ es $\tfrac{4}{3}$.

Como recordarás, decimos que estos vectores se encuentran en $\mathbb{R}^2$ y $\mathbb{R}^3$, respectivamente. Analizando los ejemplos, te darás cuenta de que el número que acompaña a $\mathbb{R}$ se refiere a la cantidad de números reales que están enlistados en cada vector. Entonces, probablemente te preguntarás qué pasa con listas de más números. Aunque quizá sean más difíciles de visualizar (¡aunque no imposibles!), también existen vectores con cuatro, cinco o incluso más entradas. Esto nos lleva a la siguiente definición.

Definición. Para un número entero positivo $n$, un vector con $n$ entradas reales es una lista ordenada de $n$ elementos, el cual escribiremos $(x_1,x_2,\ldots,x_n)$. El conjunto $\mathbb{R}^n$ consiste de todos los vectores con $n$ entradas reales.

Así, podemos ver que tenemos que $(1,-3.5,e,1)$ es un vector en $\mathbb{R}^4$, mientras que $(1,1,2,3,5,7,13)$ es un vector en $\mathbb{R}^7$. En notación de conjuntos, $(1,-3.5,e,1)\in\mathbb{R}^4$ y $(1,1,2,3,5,7,13)\in\mathbb{R}^7$.

Una forma de empezar a ver cómo los vectores se relacionan entre ellos es preguntándonos cuándo estos son iguales. La primera condición que seguramente se nos vendrá a la mente es que los dos vectores deben tener la misma longitud; de este modo, podemos inmediatamente descartar que $(5, \pi)$ y $(8, \sqrt{2}, \tfrac{4}{3})$ sean iguales.

Otra condición que seguramente consideraremos es que todas sus entradas deben ser iguales. Así, podemos también descartar que $(5, \pi)$ y $(4, 8)$ sean iguales. Sin embargo, ¿son $(5,\pi)$ y $(\pi, 5)$ iguales? Como recordarás, los vectores son listas ordenadas, por lo que no sólo es importante que tengan las mismas entradas, sino que también aparezcan en el mismo orden. Así, podemos también descartar que $(5,\pi)$ y $(\pi, 5)$ sean iguales: basta ver con que la primera entrada del $(5,\pi)$ es $5$, mientras que la primera entrada de $(\pi,5)$ es $\pi$, y claramente $5\ne\pi$. Así mismo, $(1,5,8,1,3)$ es distinto de $(1,5,8,1,4)$ pues aunque compartan muchos elementos en varias de sus posiciones, en el primer vector la última entrada es $3$ y el el segundo la última entrada es $4$.

Definición. Diremos que dos vectores $(x_1,\ldots,x_n)$ y $(y_1,\ldots,y_n)$ de $\mathbb{R}^n$ son iguales si para toda $i=1,\ldots,n$ se tiene que $x_i=y_i$

Por otra parte, antes dijimos que los vectores tienen varias formas de ser representados. Como ejemplo de esto, podemos ver que el vector $(1,-3.5,e,1)$ puede ser representado como

\[
\begin{pmatrix}
1 \\
-3.5 \\
e \\
1
\end{pmatrix}
\qquad
\text{y}
\qquad
\begin{pmatrix}
1 & -3.5 & e & 1
\end{pmatrix}.
\]

Al formato de la izquierda se le conoce como vector vertical o vector columna, mientras que al formato de la derecha se le conoce como vector horizontal o vector fila. Dependiendo del contexto, en ocasiones nos encontraremos con estas representaciones en vez de la que mostramos inicialmente, aunque es importante recordar que siguen siendo vectores con entradas reales, pues son listas ordenadas de números reales.

Matrices con entradas reales

Otro objeto matemático en el que también se enlistan varios números reales se conoce como matriz, con la diferencia de que esta lista tiene forma de arreglo rectangular.

Definición. Una matriz con entradas reales es un arreglo rectangular en donde en cada una de sus posiciones se coloca un número real.

Por ejemplo, las siguientes son matrices con entradas reales:

\[
\begin{pmatrix}
0 & 8 & -4.5 \\
2 & 9 & 0 \\
1 & \pi & 5
\end{pmatrix},
\qquad
\begin{pmatrix}
0 & -3 & 9 & 4.25 \\
100 & 0.1 & -2 & \sqrt{2}
\end{pmatrix}.
\]
Como podrás ver, para poder identificar a una entrada de una matriz debemos de hacer referencia a dos propiedades: el número de fila y el número de columna en el que se encuentra. Las filas se cuentan de arriba hacia abajo, y las columnas de izquierda a derecha. Así, vemos que la entrada que se encuentra en la fila 3 y columna 2 de la primera matriz es $\pi$. A cada entrada le asignamos una coordenada $(i,j)$, donde $i$ es el número de fila y $j$ es el número de columna. Así, $\pi$ se encuentra en la posición $(3,2)$ de la primera matriz.

Por convención, cuando mencionamos el tamaño de una matriz, primero se especifica el número de filas y posteriormente el número de columnas. Así, la primera matriz es de tamaño $3\times 3$, mientras que la segunda es de tamaño $2 \times 4$. Ya que elegimos el tamaño de una matriz, podemos considerar a todas las matrices de ese tamaño.

Definición. El conjunto $M_{m,n}(\mathbb{R})$ consiste de todas las matrices de $m$ filas, $n$ columnas y en donde cada entrada es un número real.

En el caso de que la cantidad de filas y de columnas de la matriz sean el mismo, diremos que se trata de una matriz cuadrada. De nuestros ejemplos anteriores, la primera sí es una matriz cuadrada, pero la segunda no. Para simplificar un poco la notación, introducimos lo siguiente.

Definición. El conjunto $M_n(\mathbb{R})$ consiste de todas las matrices de $n$ filas, $n$ columnas y en donde cada entrada es un número real.

Es decir, simplemente $M_n(\mathbb{R})=M_{n,n}(\mathbb{R})$.

Al igual que pasa con los vectores, podemos comparar dos matrices para saber si estas son iguales. Como te podrás imaginar, hay algunas condiciones que dos matrices deben cumplir para ser iguales: en primera, ambas deben de tener el mismo tamaño; es decir, sus números de filas deben de ser iguales y sus números de columnas deben de ser iguales. Por lo tanto, vemos que las matrices mostradas anteriormente son diferentes. Además, sus correspondientes entradas deben de ser iguales. Podemos escribir esto en una definición como sigue.

Definición. Sean $A$ y $B$ matrices en $M_{m,n}(\mathbb{R})$. Diremos que estas matrices son iguales si para cada $i\in \{1,\ldots,m\}$ y cada $j\in \{1,\ldots,n\}$ se cumple que la entrada $(i,j)$ de $A$ es la misma que la entrada $(i,j)$ de $B$.

¿Puedes decir por qué las siguientes matrices son diferentes?
\[
\begin{pmatrix}
1 & 2 & 3 \\
4 & 5 & 6 \\
7 & 8 & 9
\end{pmatrix}
\ne
\begin{pmatrix}
1 & 4 & 7 \\
2 & 5 & 8 \\
3 & 6 & 9
\end{pmatrix}.
\]

Notación y algunos vectores y matrices especiales

En matemáticas, es usual que denotemos los vectores con letras minúsculas (siendo las más comunes la $u$, $v$ y $w$) aunque muchas veces te podrás encontrar con notaciones especiales que los hacen más fáciles de distinguir, por ejemplo, $\overrightarrow{a}$ o $\mathbf{a}$. Nosotros no haremos esta distinción y usaremos simplemente letras minúsculas. Por ejemplo podríamos tomar al vector $u=(1,2,3)$ de $\mathbb{R}^3$.

Por su parte, las matrices las solemos representar con letras mayúsculas (generalmente las primeras del abecedario: $A$, $B$, $C$). Si la entrada que se encuentra en la fila $i$ y colmuna $j$ de la matriz se le denota como con la correspondiente letra minúscula y con subíndices la posición de su entrada: $a_{ij}$. Así, tendríamos que en
\[
A=
\begin{pmatrix}
0 & 8 & -4.5 \\
2 & 9 & 0 \\
1 & \pi & 5
\end{pmatrix}
\]
la entrada $a_{13} = -4.5$ y la entrada $a_{31} = 1$. ¿Cuál es la entrada $a_{23}$?

Además, existen algunos vectores y matrices con entradas reales que nos encontraremos con bastante frecuencia, y por esta razón reciben nombres especiales:

  • El vector en el que todas sus entradas son el número cero se conoce como vector cero o vector nulo. Por ejemplo, el vector nulo en $\mathbb{R}^2$ es $ (0,0)$ mientras que el nulo en $\mathbb{R}^3$ es $(0,0,0)$. Generalmente, denotamos este vector como $0$ (o, en ocasiones, como $\overrightarrow{0}$ o $\mathbf{0}$) .Es importante observar que se usa el mismo símbolo para representar a los vectores nulos con números distintos de entradas (de modo que podremos encontrar que $0=(0,0)$, en el caso de $\mathbb{R}^2$, o que $0=(0,0,0)$, en el caso de $\mathbb{R}^3$). Esto es algo que debemos tener en cuenta, aunque no suele representar mayores complicaciones, pues el contexto nos dirá 1) Si el símbolo $0$ se usa para el real cero o el vector cero y 2) Con cuántas entradas estamos trabajando.
  • La matriz en el que todas sus entradas son cero se conoce como matriz cero o matriz nula. Ejemplos de matrices nulas son
    \[
    \begin{pmatrix}
    0 & 0 & 0 & 0 \\
    0 & 0 & 0 & 0 \\
    0 & 0 & 0 & 0
    \end{pmatrix}
    \qquad
    \text{y}
    \qquad
    \begin{pmatrix}
    0 & 0 \\
    0 & 0
    \end{pmatrix}.
    \]
    Estas matrices se suelen denotar con el símbolo $\mathcal{O}$, aunque en el caso de las matrices sí es común especificar las dimensiones de la matriz, de modo que la primera matriz escrita en este inciso se denota como $\mathcal{O}_{3\times 4}$ mientras que una matriz cuadrada, como la segunda de este inciso, se denota como $\mathcal{O}_2$.
  • El vector en $\mathbb{R}^n$ cuya $i$-ésima entrada es $1$ y el resto de sus entradas es $0$ se conoce como vector canónico, y se denota $\mathrm{e}_i$. Por ejemplo, el vector canónico $\mathrm{e}_3$ en $\mathbb{R}^4$ es $(0,0,1,0)$.
  • Además, al conjunto de todos los posibles vectores canónicos en $\mathbb{R}^n$ se conoce como la base canónica de $\mathbb{R}^n$; así, la base canónica de $\mathbb{R}^4$ es
    \[
    \{(1,0,0,0), \ (0,1,0,0), \ (0,0,1,0), (0,0,0,1)\} = \{\mathrm{e}_1, \mathrm{e}_2, \mathrm{e}_3, \mathrm{e}_4\}.
    \]
  • Llamamos diagonal de una matriz cuadrada a las componentes cuyos número de fila y número de columna coinciden. Además, diremos que una matriz es una matriz diagonal si es una matriz cuadrada en la que todas sus entradas que no están en la diagonal (es decir, que su número de fila es distinto a su número de columna) son cero. Ejemplos de matrices diagonales son
    \[
    \begin{pmatrix}
    5 & 0 & 0 \\
    0 & 8 & 0 \\
    0 & 0 & \pi
    \end{pmatrix}
    \qquad
    \text{y}
    \qquad
    \begin{pmatrix}
    6 & 0 & 0 & 0 \\
    0 & 7 & 0 & 0 \\
    0 & 0 & 0 & 0 \\
    0 & 0 & 0 & 9
    \end{pmatrix}
    \]
    (Observemos que aquellas entradas que se encuentran sobre su diagonal también pueden ser cero, aquí no tenemos ninguna restricción).
  • La matriz diagonal en la que todas sus entradas sobre la diagonal son 1 se conoce como matriz identidad. Ejemplos de matrices identidad son
    \[
    \begin{pmatrix}
    1 & 0 & 0\\
    0 & 1 & 0 \\
    0 & 0 & 1
    \end{pmatrix}
    \qquad
    \text{y} \\
    \qquad
    \begin{pmatrix}
    1
    \end{pmatrix}.
    \]
    A esta matriz la denotamos por $\mathcal{I}$ y especificamos su tamaño como subíndice. Así, las matrices anteriores son ${I}_3$ e $\mathcal{I}_1$.

Más adelante…

En esta entrada vimos las definiciones de vectores y matrices con entradas reales que usaremos para trabajar en este curso. También revisamos cuándo dos vectores (o matrices) son iguales. Además, vimos algunos ejemplos de vectores y matrices que nos encontraremos con bastante frecuencia en las matemáticas.

En las siguientes entradas veremos que también se pueden hacer operaciones entre vectores y matrices, aunque necesitaremos que se cumplan algunas condiciones especiales.

Tarea moral

  1. Basándonos en la definiciones, verifica las siguientes igualdades:
    • El vector $(4-4,1,3)$ es igual al vector $(0,2-1,2+1)$.
    • La matriz $A=\begin{pmatrix} 1 & 2 \\ 2 & 4\end{pmatrix}$ es igual a la matriz $B$ de $2\times 2$ cuyas entradas están dadas por $b_{ij}=i\cdot j$.
  2. Encuentra todos los posibles vectores que hay en $\mathbb{R}^3$ cuyas entradas sean únicamente los números $1$ y $2$. ¿Cuántos deben de ser?
  3. Seguramente algunos los nombres de los vectores y matrices especiales te recuerdan a algún tipo de operación. ¿Qué operaciones crees que podamos hacer con los vectores y/o matrices, y qué comportamiento tendrían aquellos que reciben un nombre especial?
  4. ¿Por qué podemos decir que una matriz nula cuadrada cumple con ser una matriz diagonal?
  5. Escribe todos los elementos de la base canónica de $\mathbb{R}^6$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Superior II: Raíces de polinomios de grados 3 y 4

Por Leonardo Ignacio Martínez Sandoval

Introducción

Esta es la entrada final de la unidad de polinomios y del curso. En ella hablaremos acerca de las fórmulas para encontrar las raíces de polinomios de grado $3$ y $4$. Además, en la parte final, hablaremos de polinomios de grados más altos y cómo ellos te pueden llevar a cursos muy interesantes que puedes tomar para continuar tu formación matemática.

Existen métodos generales para encontrar las raíces de polinomios de grado $3$ y $4$, ya sea en $\mathbb{R}[x]$ o en $\mathbb{C}[x]$. Para los polinomios de grado $3$, se usa el método de Cardano. Para los polinomios de grado $4$ se usa el método de Ferrari. Encontrar estas fórmulas tomó mucho tiempo. Ambas requieren de manipulaciones algebraicas muy creativas.

Raíces de polinomios de grado 3 y el método de Cardano

Tomemos un polinomio $f(x)$ en $\mathbb{R}[x]$ de grado $3$. Si $f(x)$ no es mónico, podemos multiplicarlo por el inverso de su coeficiente principal para obtener un polinomio con las mismas raíces. De esta forma, podemos suponer sin pérdida de generalidad que $f(x)$ es de la forma $$f(x)=x^3+ax^2+bx+c.$$

Consideremos al polinomio $$g(x)=f\left(x-\frac{a}{3}\right).$$ Observa que $r$ es una raíz de $g(x)$ si y sólo si $g(r)=0$, si y sólo si $f\left(r-\frac{a}{3}\right)=0$, si y sólo si $r-\frac{a}{3}$ es una raíz de $f$. De esta forma, si conocemos las raíces de $g(x)$, podemos encontrar las de $f(x)$, y viceversa.

Al hacer las cuentas (que quedan como tarea moral), se tiene que $g(x)$ se simplifica a
\begin{align*}
g(x)&=f\left(x-\frac{a}{3}\right)\\
&=x^3+\left(b-\frac{a^2}{3}\right)x+\left(-\frac{ba}{3}+c+\frac{2a^3}{27}\right),
\end{align*}

que tiene la ventaja de ya no tener término cuadrático. En otras palabras, para encontrar las raíces de polinomio cúbico, basta con poder encontrar las de los polinomios de la forma $$g(x)=x^3+px+q.$$

Tomando $x=u+v$ y haciendo las operaciones, se tiene que $$g(u+v)=u^3+v^3+(3uv+p)(u+v)+q.$$

Observa que si logramos encontrar $u$ y $v$ que satisfagan el sistema de ecuaciones
\begin{align*}
u^3+v^3&=-q\\
uv&=-\frac{p}{3},
\end{align*}

entonces tendríamos una raíz $x=u+v$.

La segunda ecuación implica $u^3v^3=-\frac{p^3}{27}$. Pero entonces conocemos la suma y el producto de las variables $u^3$ y $v^3$, con lo cual obtenemos que son las raíces del siguiente polinomio de grado $2$ en la variable $t$:
\begin{align*}
(t-u^3)(t-v^3)&=t^2-(u^3+v^3)t+u^3v^3\\
&=t^2+qt-\frac{p^3}{27}.
\end{align*}

El discriminante de esta ecuación cuadrática es $$\Delta = q^2 + \frac{4p^3}{27}.$$

Si $\Delta >0$, esta ecuación cuadrática tiene las siguientes soluciones reales:
\begin{align*}
\sqrt[3]{-\frac q2 + \sqrt {\frac {q^2}{4} +\frac {p^3}{27}}}\\
\sqrt[3]{-\frac q2 – \sqrt {\frac {q^2}{4} +\frac {p^3}{27}}}.
\end{align*}

Sin pérdida de generalidad, $u$ es la primera y $v$ la segunda. De esta forma, una raíz real para $g(x)$ es $$x= \sqrt[3]{-\frac q2 + \sqrt {\frac {q^2}{4} +\frac {p^3}{27}}} + \sqrt[3]{-\frac q2 – \sqrt {\frac {q^2}{4} +\frac {p^3}{27}}}.$$

Hasta aquí hay algunas cosas por notar:

  • Supusimos que el discriminante $\Delta$ es positivo.
  • Sólo hemos encontrado una de las $3$ raíces de $p(x)$ que garantiza el teorema fundamental del álgebra.

Cuando el discriminante es positivo, las otras dos soluciones son $\omega x$ y $\omega^2 x$, en donde $\omega$ es una raíz cúbica primitiva de la unidad.

Cuando la cuadrática tiene discriminante $\Delta<0$, tenemos que $u$ y $v$ son complejos, y entonces al sacar raíz cúbica podemos tener tres opciones para cada uno, algo que parecería dar un total de $9$ soluciones. Sin embargo, recordando que $uv=-\frac{p}{3}$, tenemos que $u$ queda totalmente determinado por $v$, así que de ahí se obtienen las tres soluciones.

Raíces de polinomios de grado 4 y el método de Ferrari

El método de Ferrari está explicado a detalle en el libro de Álgebra de Bravo, Rincón y Rincón. Ahí están las ideas principales para encontrar una fórmula general para encontrar las raíces de un polinomio de grado $4$, es decir, de la forma $$p(x)=ax^4+bx^3+cx^2+dx+e.$$ Recuerda que el libro está disponible para descarga gratuita.

Al igual que en el caso del método de Ferrari, los primeros pasos consisten en hacer simplificaciones algebraicas. Así como el método de Cardano usa la fórmula cuadrática, del mismo modo el método de Ferrari reduce el problema a encontrar soluciones a un polinomio de grado 3. Uno podría creer que este patrón se repite, y que se pueden encontrar métodos para polinomios de grado arbitrario. Esto no es así, y lo platicaremos en la siguiente sección.

Para otra derivación de la fórmula de Ferrari, compartimos el artículo «Identidades para la resolución de ecuaciones cúbicas y cuárticas» de José Leonardo Sáenz Cetina, que apareció en el número 24 de la revista Miscelánea Matemática de la Sociedad Matemática Mexicana:

Este documento también tiene otras dos formas de resolver ecuaciones cúbicas, así que es una lectura recomendada.

Finalmente, se recomienda también echarle un ojo a la página de Wikipedia acerca de la ecuación cuártica. La entrada en inglés es mucho mejor. Sobre todo la sección referente al método de Ferrari.

Raíces de polinomios de grado 5 y más

De acuerdo al teorema fundamental del álgebra, todo polinomio sobre los complejos tiene al menos una raíz. De hecho, se puede mostrar que si es de grado $n$, entonces tiene exactamente $n$ raíces, contando multiplicidades.

Cuando tenemos polinomios de grados $2$, $3$ y $4$ podemos usar la fórmula cuadrática, el método de Cardano y el método de Ferrari para encontrar una fórmula para las soluciones. ¿Hay algún método que tenga fórmulas similares para polinomios de grado más grande?

La respuesta es que no. Aunque el teorema fundamental del álgebra garantice la existencia de las raíces, hay un teorema de Abel y Ruffini que muestra que no es posible encontrar una fórmula general. Al menos no una que ayude a poner las raíces de cualquier polinomio de grado cinco (o más) usando únicamente sumas, restas, multiplicaciones, divisiones y raíces. Esto formalmente se enuncia como que hay ecuaciones de grado 5 y más que no son solubles por radicales.

Enunciar y demostrar este teorema formalmente requiere de herramientas que quedan fuera del alcance de este curso, sin embargo, se puede estudiar en un curso avanzado de álgebra, en donde se hable de extensiones de campo y teoría de Galois.

Por otro lado, podemos dejar de lado la exactitud y preguntarnos si, dado un polinomio, podemos acercarnos a sus raíces tanto como queramos. Hoy en día eso se hace mediante métodos computacionales. Aunque la computadora sea muy buena haciendo cuentas, hay que ser particularmente cuidadoso con los errores que comete al hacer aproximaciones.

Eso es otra de las cosas que quedan fuera del alcance de este curso, y que puedes estudiar en un buen curso de métodos numéricos. Si lo que buscas es saber cómo pedirle a la computados que haga los cálculos, eso lo puedes aprender en un buen curso de programación, en donde te enseñen a usar ambientes de computación científica.

Más adelante…

Antes de concluir el curso, en la siguiente entrada, repasamos lo aprendido en esta entrada y vemos como se puede realizar una ecuación de grado $3$ y de grado $4$ usando los métodos de Cardano y de Ferrari, sin embargo, es importante no olvidar que antes de estos métodos, tenemos otros teoremas importantes que en principio podrían ser más simples para obtener las soluciones a una cúbica o cualquier ecuación.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Completa las cuentas faltantes en la discusión del método de Cardano.
  2. Muestra que un polinomio de grado $3$ y coeficientes reales tiene exactamente cero o dos raíces complejas distintas.
  3. ¿Cuántas raíces complejas distintas puede tener un polinomio de grado $4$ con coeficientes reales? Encuentra un ejemplo para cada una de las respuestas.
  4. Encuentra las raíces del polinomio cuártico $$p(x)=x^4+2x^3-12x^2-10x+4.$$ Después, compara tu respuesta con el Ejemplo 216 del libro de Álgebra de Bravo, Rincón, Rincón.
  5. Lee las entradas en Wikipedia acerca de ecuaciones cúbicas y ecuaciones cuárticas.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Álgebra Lineal I: Matrices simétricas reales y sus eigenvalores

Por Leonardo Ignacio Martínez Sandoval

Introducción

Hemos llegado a la cima del curso. En estas últimas entradas probaremos uno de los teoremas más bellos en álgebra lineal: el teorema espectral para matrices simétricas reales. También hablaremos de varias de las consecuencias que tiene.

Hay dos formas equivalentes de enunciar el teorema.

Teorema. Sea $V$ un espacio euclideano y $T:V\to V$ una transformación simétrica. Entonces, existe una base ortonormal de $V$ que consiste de eigenvectores de $T$.

Teorema. Sea $A$ una matriz simétrica en $\mathbb{R}^n$. Entonces, existe una matriz ortogonal $P$ y una matriz diagonal $D$, ambas en $\mathbb{R}^n$, tales que $$A=P^{-1}DP.$$

Para hablar de la demostración y de las consecuencias del teorema espectral para matrices simétricas reales, necesitaremos usar teoría de todas las unidades del curso. En particular, usaremos las siguientes definiciones:

  • Una matriz $A$ en $M_n(F)$ es simétrica si es igual a su transpuesta.
  • Una matriz $A$ en $M_n(F)$ es ortogonal si es invertible y $A^{-1}= {^tA}$.
  • Si $T:V\to V$ es una transformación lineal de un espacio vectorial $V$ a sí mismo y $W$ es un subespacio de $V$, entonces decimos que $W$ es estable bajo $T$ si $T(W)\subseteq W$.
  • Un producto interior es una forma bilineal simétrica y positiva definida.
  • Un espacio Euclideano es un espacio vectorial de dimensión finita con un producto interior.
  • Si $W$ es un subespacio de un espacio Euclideano $V$, entonces $W^\bot$ es el conjunto de todos los vectores que de $V$ que son ortogonales a todos los vectores de $W$.
  • Una matriz $A$ en $M_n(F)$ es diagonalizable si existen matrices $P$ y $D$ en $M_n(F)$ con $P$ invertible, $D$ diagonal y tales que $A=P^{-1}DP$.

Y los siguientes resultados principales:

En esta entrada enunciaremos tres resultados auxiliares de interés propio. A partir de estos resultados, la demostración del teorema espectral para matrices simétricas reales y la equivalencia entre ambas versiones será mucho más limpia.

Los eigenvalores de matrices simétricas reales

El polinomio característico de una matriz $A$ en $M_n(\mathbb{R})$ tiene coeficientes reales. Por el teorema fundamental del álgebra, debe tener exactamente $n$ raíces en $\mathbb{C}$, contando multiplicidades. Si alguna de estas raíces $r$ no es real, entonces $A$ no puede ser diagonalizable en $M_n(\mathbb{R})$. La razón es que $A$ sería similar a una matriz diagonal $D$, y los eigenvalores de las matrices diagonales (incluso triangulares) son las entradas de la diagonal principal. Como $A$ y $D$ comparten eigenvalores (por ser similares), entonces $r$ tendría que ser una entrada de $D$, pero entonces $D$ ya no sería una matriz de entradas reales.

Lo primero que veremos es que las matrices simétricas reales «superan esta dificultad para poder diagonalizarse». Esta va a ser nuestra primer herramienta para demostrar el teorema espectral.

Teorema. Sea $A$ una matriz simétrica en $M_n(\mathbb{R})$ y $\lambda$ una raíz del polinomio característico de $A$. Entonces, $\lambda$ es un número real.

Demostración. El polinomio característico de $A$ es un polinomio con coeficientes reales, así que por el teorema fundamental del álgebra se tiene que $\lambda$ debe ser un número en $\mathbb{C}$. Así, podemos escribirlo de la forma $\lambda = a+ib$, con $a$ y $b$ números reales. Lo que mostraremos es que $b=0$.

Se tiene que $\lambda$ es un eigenvalor de $A$ vista como matriz en $M_n(\mathbb{C})$, y por lo tanto le corresponde un eigenvector $U$ en $\mathbb{C}^n$, es decir, un $U\neq 0$ tal que $$AU=\lambda U.$$ Este vector $U$ lo podemos separar en partes reales e imaginarias con vectores $V$ y $W$ en $\mathbb{R}^n$ tales que $$U=V+iW.$$

En estos términos,
\begin{align*}
AU&=A(V+iW)=AV+iAW \quad\text{y}\\
\lambda U &= (a+ib)(V+iW)\\
&=(aV-bW) + i (aW+bV),
\end{align*}

de modo que igualando partes reales e imaginarias en la expresión $AU=\lambda U$ tenemos que
\begin{align*}
AV&=aV-bW\quad\text{y}\\
AW&=aW+bV.
\end{align*}

Como $A$ es simétrica, tenemos que

\begin{equation}
\langle AV,W \rangle=\langle {^tA}V,W \rangle= \langle V, AW\rangle.
\end{equation}

Estudiemos las expresiones en los extremos, reemplazando los valores de $AV$ y $AW$ que encontramos arriba y usando la bilinealidad del producto interior. Se tiene que

\begin{align*}
\langle AV,W \rangle &= \langle aV-bW,W \rangle\\
&=a\langle V,W \rangle – b \langle W,W \rangle\\
&=a \langle V,W \rangle – b \norm{W}^2,
\end{align*}

y que

\begin{align*}
\langle V,AW \rangle &= \langle V,aW+bV \rangle\\
&=a\langle V,W \rangle + b \langle V,V \rangle\\
&=a \langle V,W \rangle + b \norm{V}^2.
\end{align*}

Substituyendo estos valores en la expresión (1), obtenemos la igualdad

$$a \langle V,W \rangle – b \norm{W}^2 = a \langle V,W \rangle + b \norm{V}^2,$$

que se simplifica a $$b(\norm{V}^2+\norm{W}^2)=0.$$

Estamos listos para dar el argumento final. Como $U=V+iW$ es un eigenvector, entonces no es nulo, de modo que no es posible que $V$ y $W$ sean ambos el vector $0$ de $\mathbb{R}^n$. Como el producto interior es positivo definido, entonces alguna de las normas $\norm{V}$ o $\norm{W}$ no es cero, de modo que $$\norm{V}^2+\norm{W}^2\neq 0.$$

Concluimos que $b=0$, y por lo tanto que $\lambda$ es un número real.

$\square$

La demostración anterior es ejemplo de un truco que se usa mucho en las matemáticas. Aunque un problema o un teorema no hablen de los números complejos en su enunciado, se puede introducir a $\mathbb{C}$ para usar sus propiedades y trabajar ahí. Luego, se regresa lo obtenido al contexto real. Aquí en el blog hay otra entrada en donde damos más ejemplos de «brincar a los complejos».

Un resultado auxiliar de transformaciones simétricas

A continuación damos la segunda herramienta que necesitaremos para probar el teorema espectral. Recuerda que si $V$ es un espacio Euclideano y $T:V\to V$ es una transformación lineal, entonces decimos que $T$ es simétrica si para todo par de vectores $u$ y $v$ en $V$ se tiene que $$\langle T(u),v\rangle = \langle u, T(v) \rangle.$$ Enunciamos el resultado en términos de transformaciones, pero también es válido para las matrices simétricas asociadas.

Teorema. Sea $V$ un espacio Eucideano y $T:V\to V$ una transformación lineal simétrica. Sea $W$ un subespacio de $V$ estable bajo $T$. Entonces:

  • $W^\bot$ también es estable bajo $T$ y
  • Las restricciones de $T$ a $W$ y a $W^\bot$ son transformaciones lineales simétricas en esos espacios.

Demostración. Para el primer punto, lo que tenemos que mostrar es que si $w$ pertenece a $W^\bot$, entonces $T(w)$ también, es decir, que $T(w)$ es ortogonal a todo vector $v$ en $W$.

Tomemos entonces un vector $v$ en $W$. Como $W$ es estable bajo $T$, tenemos que $T(v)$ está en $W$, de modo que $\langle w, T(v) \rangle =0$. Como $T$ es simétrica, tenemos entonces que $$\langle T(w),v \rangle = \langle w, T(v) \rangle = 0.$$ Esto es lo que queríamos probar.

Para la segunda parte, si $T_1$ es la restricción de $T_1$ a $W$ y tomamos vectores $u$ y $v$ en $W$, tenemos que
\begin{align*}
\langle T_1(u), v \rangle &= \langle T(u), v \rangle\\
&=\langle u, T(v) \rangle \\
&=\langle u, T_1(v) \rangle,
\end{align*}

lo cual muestra que $T_1$ es simétrica. La prueba para $W^\bot $ es análoga y queda como tarea moral.

$\square$

Matrices diagonalizables y bases ortonormales de eigenvectores

El tercer y último resultado enuncia una equivalencia entre que una matriz en $M_n(F)$ sea diagonalizable, y que exista una base especial para $F^n$. Es lo que usaremos para probar la equivalencia entre ambas formulaciones del teorema espectral para matrices simétricas reales.

Teorema. Sea $A$ una matriz en $M_n(F)$. Las siguientes dos afirmaciones son equivalentes:

  • $A$ es diagonalizable, es decir, existen matrices $P$ y $D$ en $M_n(F)$, con $P$ invertible y $D$ diagonal tales que $A=P^{-1}DP.$
  • Existe una base para $F^n$ que consiste de eigenvectores de $A$.

Demostración. Antes de comenzar la demostración, recordemos que si tenemos una matriz $B$ en $M_n(F)$ de vectores columna $$C_1,\ldots,C_n,$$ entonces los vectores columna del producto $AB$ son $$AC_1,\ldots AC_n.$$ Además, si $D$ es una matriz diagonal en $M_n(F)$ con entradas en la diagonal $d_1,\ldots,d_n$, entonces los vectores columna de $BD$ son $$d_1C_1,\ldots,d_nC_n.$$

Comencemos la prueba del teorema. Supongamos que $A$ es diagonalizable y tomemos matrices $P$ y $D$ en $M_n(F)$ con $P$ invertible y $D$ diagonal de entradas $d_1,\ldots,d_n$, tales que $A=P^{-1}DP$. Afirmamos que los vectores columna $C_1,\ldots,C_n$ de $P^{-1}$ forman una base de $F^n$ que consiste de eigenvectores de $A$.

Por un lado, como son los vectores columna de una matriz invertible, entonces son linealmente independientes. En total son $n$, como la dimensión de $F^n$. Esto prueba que son una base.

De $A=P^{-1}DP$ obtenemos la igualdad $AP^{-1}=P^{-1}D$. Por las observaciones al inicio de la prueba, tenemos al igualar columnas que para cada $j=1,\ldots,n$ se cumple $$AC_j = d_j C_j.$$ Como $C_j$ forma parte de un conjunto linealmente independiente, no es el vector $0$. Así, $C_j$ es un eigenvector de $A$ con eigenvalor $d_j$. Con esto terminamos una de las implicaciones.

Supongamos ahora que existe una base de $F^n$ que consiste de eigenvectores $C_1,\ldots,C_n$ de $A$. Para cada $j=1,\ldots,n$, llamemos $\lambda_j$ al eigenvalor correspondiente a $C_j$, y llamemos $D$ a la matriz diagonal con entradas $\lambda_1,\ldots,\lambda_n$.

Como $C_1,\ldots,C_n$ son vectores linealmente independientes, la matriz $B$ cuyas columnas son $C_1,\ldots, C_n$ es invertible. Además, por las observaciones al inicio de la prueba, se tiene que la columna $j$ de la matriz$AB$ es $AC_j$ y la columna $j$ de la matriz $BD$ es $\lambda_j C_j$. Entonces, por construcción, estas matrices son iguales columna a columna, y por lo tanto lo son iguales. De esta forma, tenemos que $AB=BD$, o bien, reescribiendo esta igualdad, que $$A=BDB^{-1}.$$ Así, la matriz invertible $P=B^{-1}$ y la matriz diagonal $D$ diagonalizan a $A$.

$\square$

Las matrices simétricas reales serán todavía más especiales que simplemente las matrices diagonalizables. Lo que asegura el teorema espectral es que podremos encontrar no sólo una base de eigenvectores, sino que además podemos garantizar que esta base sea ortonormal. En términos de diagonalización, la matriz $P$ no sólo será invertible, sino que además será ortogonal.

Más adelante…

En esta entrada enunciamos dos formas del teorema espectral y hablamos de algunas consecuencias que tiene. Además, repasamos un poco de la teoría que hemos visto a lo largo del curso y vimos cómo nos ayuda a entender mejor este teorema.

En la siguiente entrada, que es la última del curso, demostraremos las dos formas del teorema espectral que enunciamos en esta entrada y haremos un pequeño comentario sobre qué hay más allá del teorema espectral en el álgebra lineal.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Encuentra un ejemplo de una matriz simétrica en $M_n(\mathbb{C})$ cuyos eigenvalores no sean reales.
  • En el contexto del segundo teorema, muestra que la restricción de $T$ a $W^\bot$ es simétrica.
  • Realiza la demostración de que si $A$ y $B$ son matrices en $M_n(F)$ y los vectores columna de $B$ son $C_1,\ldots,C_n$, entonces los vectores columna de $AB$ son $AC_1,\ldots,AC_n$. También, prueba que si $D$ es diagonal de entradas $d_1,\ldots,d_n$, entonces las columnas de $BD$ son $d_1C_1,\ldots,d_nC_n$.
  • Encuentra una matriz $A$ con entradas reales similar a la matriz $$\begin{pmatrix} 1 & 0 & 0 \\ 0 & 5 & 0 \\ 0 & 0 & -3 \end{pmatrix},$$ tal que ninguna de sus entradas sea igual a $0$. Encuentra una base ortogonal de eigenvectores de $A$ para $\mathbb{R}^3$.
  • Diagonaliza la matriz $$\begin{pmatrix}-2 & 0 & 0 & 0\\0 & 2 & 0 & 0\\ \frac{19}{7} & \frac{30}{7} & \frac{65}{7} & \frac{24}{7}\\ \frac{6}{7} & – \frac{20}{7} & – \frac{48}{7} & – \frac{23}{7}\end{pmatrix}.$$

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»