Archivo del Autor: Leonardo Ignacio Martínez Sandoval

Acerca de Leonardo Ignacio Martínez Sandoval

Hola. Soy Leonardo Martínez. Soy Profesor de Tiempo Completo en la Facultad de Ciencias de la UNAM. Hice un doctorado en Matemáticas en la UNAM, un postdoc en Israel y uno en Francia. Además, me gusta colaborar con proyectos de difusión de las matemáticas como la Olimpiada Mexicana de Matemáticas.

Álgebra Lineal I: Ortogonalidad y espacio ortogonal

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores hablamos de formas lineales y del espacio dual. Vimos que las formas coordenadas correspondientes a una base forman bases del espacio dual. También hicimos ejemplos prácticos de cómo encontrar bases duales y cómo hacer cambios de base en el espacio dual. Usaremos la teoría que hemos desarrollado hasta el momento para estudiar los conceptos de ortogonalidad y espacio ortogonal.

Antes de comenzar, es importante dejar un consejo. Quizás a estas alturas asocias a la ortogonalidad con la perpendicularidad. Esta intuición puede ayudar un poco más adelante, pero por el momento es recomendable que dejes esa intuición de lado. El problema es que la «perpendicularidad» habla de parejas de segmentos, parejas de lineas, o parejas de vectores. Sin embargo, las nociones de ortogonalidad que estudiaremos ahora hablan de cuándo una forma lineal $l$ y un vector $v$ son ortogonales, por lo cual es mejor pensarlo por el momento en la ortogonalidad como un concepto nuevo.

Definiciones de ortogonalidad y espacio ortogonal

En esta sección, $V$ es un espacio vectorial sobre un campo $F$.

Definición. Tomemos una forma lineal $l$ de $V$ y $v$ un vector en $V$. Decimos que $l$ y $v$ son ortogonales si $$\langle l,v \rangle = 0.$$

De manera equivalente, $l$ y $v$ son ortogonales si $l(v)=0$, o si $v$ está en el kernel de $l$.

Ejemplo 1. Consideremos la forma lineal $l$ de los polinomios en $\mathbb{R}_2[x]$ que a un polinomio lo manda a su evaluación en $2$, es decir, tal que $l(p)=p(2)$. Consideremos al polinomio $p(x)=x^2-3x+2$. Tenemos que \begin{align*}l(p)&=p(2)\\&=2^2-3\cdot 2 +2\\&=4-6+2\\&=0,\end{align*} de modo que $\langle l, p\rangle =0,$ así que $l$ y $p$ son ortogonales. Por otro lado, si $q(x)=x+1$, tenemos que $\langle l,q\rangle = l(q)=3$, de modo que $l$ y $q$ no son ortogonales.

$\triangle$

Ejemplo 2. Consideremos la forma lineal $l(x,y,z)=2x+3y-z$ de $\mathbb{R}^3$. Un vector que es ortogonal con $l$ es el vector $v=(0,0,0)$. Un vector un poco más interesante es el vector $(1,1,5)$ pues $l(1,1,5)=2+3-5=0$.

El vector $(1,1,5)$ también es ortogonal a la forma lineal $m(x,y,z)=x+y-\frac{2z}{5}$, como puedes verificar.

$\triangle$

A partir de la noción anterior, nos podemos hacer dos preguntas. Dado un conjunto de vectores, ¿quiénes son todas las formas lineales ortogonales a todos ellos? Dado un conjunto de formas lineales, ¿quiénes son todos los vectores ortogonales a todas ellas? Esta noción queda capturada en la siguiente definición.

Definición. Para $S$ un subconjunto de $V$, definimos al ortogonal de $S$ como el conjunto de formas lineales de $V$ ortogonales a todos los elementos de $S$. En símbolos, $$S^\bot:= \{l\in V^\ast: \langle l,v \rangle = 0\, \forall v \in S\}.$$

Tenemos una definición dual para subconjuntos de $V^\ast$.

Definición. Para $S$ un subconjunto de $V^\ast$, el ortogonal de $S$ es el conjunto de vectores de $V$ ortogonales a todos los elementos de $S$. En símbolos, $$S^\bot=\{v\in V: \langle l, v \rangle = 0 \, \forall l\in S\}.$$

Observa que estamos definiendo al ortogonal para subconjuntos de $V$ (y de $V^\ast$), es decir, que $S$ no tiene por qué ser un subespacio vectorial de $V$. Por otro lado, sea o no $S$ un subespacio, siempre tenemos que $S^\bot$ es un subespacio. Por ejemplo, si $S$ es un subconjunto de $V$ y $l_1$, $l_2$ son formas lineales que se anulan en todos los elementos de $S$, entonces para cualquier escalar $c$ también tenemos que $l_1+cl_2$ se anula en todos los elementos de $S$.

Ejercicio. Tomemos $S$ al subconjunto de matrices diagonales con entradas enteras en $M_2(\mathbb{R})$. ¿Quién es $S^\bot$? Ojo: Aquí $S$ no es un subespacio.

Solución. Sabemos que para cualquier forma lineal $l$ de $M_2(\mathbb{R})$ existen reales $p$, $q$, $r$, $s$ tales que $$l\begin{pmatrix}a&b\\c&d\end{pmatrix}=pa+qb+rc+sd.$$

Si $l$ está en $S^\bot$, se tiene que anular en particular en las matrices $A=\begin{pmatrix} 1 & 0\\ 0 & 0\end{pmatrix}$ y $B=\begin{pmatrix} 0 & 0 \\ 0 & 1\end{pmatrix}$, pues ambas están en $S$. En otras palabras, $$0 = l(A) = p$$ y $$0 = l(B) = s.$$ Así, la forma lineal tiene que verse como sigue:

$$l\begin{pmatrix}a&b\\c&d\end{pmatrix}= qb+rc.$$

Y en efecto, todas las formas lineales de esta forma se anulan en cualquier matriz diagonal con entradas enteras, pues en esas matrices $b=c=0$.

$\triangle$

Encontrar el espacio ortogonal de manera práctica

Ya mencionamos que $S$ no necesariamente tiene que ser un subespacio para definir $S^\bot$. Sin embargo, usando la linealidad podemos mostrar que, para cualquiera de las dos definiciones, basta estudiar qué sucede con subespacios vectoriales. La demostración de la siguiente proposición es sencilla, y se deja como tarea moral.

Proposición 1. Para $S$ un subconjunto de $V$ (o de $V^\ast$), tenemos que $$S^\bot = \text{span}(S)^\bot.$$

Esta proposición es particularmente importante pues en espacios vectoriales de dimensión finita nos permite reducir el problema de encontrar ortogonales para subconjuntos de vectores (o de formas lineales), a simplemente resolver un sistema de ecuaciones. El procedimiento que hacemos es el siguiente (lo enunciamos para vectores, para formas lineales es análogo):

  • Tomamos una base $B=\{b_1,\ldots,b_n\}$ de $V$.
  • Tomamos un subconjunto $S$ de vectores de $V$.
  • Usamos la Proposición 1 para argumentar que $S^\bot=\text{span}(S) ^\bot$.
  • Consideramos una base $C=\{c_1,\ldots,c_m\}$ de $\text{span}(S)$ y notamos que una forma lineal $l$ se anula en todo $\text{span}(S)$ si y sólo si se anula en cada elemento de $C$.
  • Escribimos a cada $c_i$ como combinación lineal de elementos de $B$, digamos $$c_i=a_{i1}b_1+\ldots+a_{in}b_n.$$
  • Cada condición $l(c_i)=0$ se transforma en la ecuación lineal $$a_{i1}l(b_1)+\ldots+a_{in}l(b_n)=l(c_i)=0$$ en las variables $l(b_1), l(b_2),\ldots, l(b_n)$ igualada a $0$, de forma que las $m$ condiciones dan un sistema de ecuaciones homogéneo.
  • Podemos resolver este sistema con reducción gaussiana para encontrar todas las soluciones, aunque basta con encontrar a las soluciones fundamentales, pues justo forman la base de $\text{span}(S)^\bot=S^\bot$.

Veamos este método en acción.

Ejemplo de encontrar el espacio ortogonal de manera práctica

Ejercicio. Considera el subconjunto $S$ de $\mathbb{R}^3$ cuyos elementos son $(2,3,-5)$, $(-1,0,1)$, $(3,3,-6)$, $(-3,-2,5)$. Determina $S^\bot$.

Solución. Para encontrar $S^\bot$, basta encontrar $\text{span}(S)^\bot$.

Lo primero que notamos es que todos los vectores de $S$ satisfacen que la suma de sus entradas es $0$, así que todos los vectores en $\text{span}(S)$ también, de modo que $\text{span}(S)$ no es todo $\mathbb{R}^3$, así que es de dimensión a lo más $2$. Notamos también que $(-1,0,1)$ y $(2,3,-5)$ son linealmente independientes, así que $\text{span}(S)$ es de dimensión al menos $2$, de modo que es de dimensión exactamente $2$ y por lo tanto $(-1,0,1)$ y $(2,3,-5)$ es una base.

Para cualquier forma lineal $l$ en $\mathbb{R}^3$ existen reales $a$, $b$, $c$ tales que $l(x,y,z)=ax+by+cz$. Para encontrar aquellas formas lineales que se anulan en $\text{span}(S)$, basta encontrar aquellas que se anulan en la base, es decir, en $(-1,0,1)$ y $(2,3,-5)$. De esta forma, necesitamos resolver el sistema de ecuaciones homogéneo \begin{align*}-a+c&=0\\2a+3b-5c&=0.\end{align*}

Para resolver este sistema, aplicamos reducción gaussiana:

\begin{align*}
&\begin{pmatrix} -1 & 0 & 1\\ 2 & 3 & -5\end{pmatrix}\\
\to & \begin{pmatrix} 1 & 0 & -1\\ 0 & 3 & -3\end{pmatrix}\\
\to & \begin{pmatrix} 1 & 0 & -1\\ 0 & 1 & -1\end{pmatrix}
\end{align*}

La variable libre es $c$ y las pivote son $a$ y $b$. Obtenemos $a=c$ y $b=c$, de donde las soluciones se ven de la forma $(c,c,c)$. Concluimos entonces que $S^\bot$ son las formas lineales tales que $$l(x,y,z)=c(x+y+z)$$ para algún real $c$.

$\triangle$

En el ejemplo anterior, la dimensiones de $\text{span}(S)$ y de $\text{span}(S)^\bot$ suman $3$, que es la dimensión de $\mathbb{R}^3$. Esto no es una casualidad, como veremos en la siguiente sección.

El teorema de dualidad

Las dimensiones de un subespacio de un espacio vectorial de dimensión finita, y de su espacio ortogonal, están relacionadas con la dimensión del espacio. Este es uno de los teoremas más importantes de dualidad.

Teorema. Sea $V$ un espacio vectorial de dimensión finita sobre $F$ y $W$ un subespacio de $V$ (o de $V^\ast)$. Entonces $$\dim W + \dim W^\bot = \dim V.$$

Demostración. Hagamos primero el caso en el que $W$ es un subespacio de $V$. Supongamos que $\dim V = n$ y que $\dim W = m$. Como $W$ es subespacio, tenemos que $m\leq n$. Tenemos que mostrar que $\dim W^\bot = n-m$, así que basta exhibir una base de $\dim W^\bot$ con $n-m$ formas lineales.

Para ello, tomemos $e_1,e_2,\ldots, e_m$ una base de $W$ y tomemos elementos $e_{m+1},\ldots,e_{n}$ que la completan a una base de $V$. Afirmamos que la base de $W^\bot$ que estamos buscando consiste de las formas coordenadas $e_{m+1}^\ast,\ldots,e_{n}^\ast$ correspondientes a $e_{m+1},\ldots,e_n$.

Por un lado, estas formas coordenadas son linealmente independientes, pues son un subconjunto de la base $e_1^\ast,\ldots, e_n^\ast$ de $V^\ast$. Por otro lado, si tenemos a una forma lineal $l$ de $V$, habíamos mostrado que la podemos expresar de la forma $$l=\sum_{i=1}^n \langle l, e_i \rangle e_i^\ast,$$ de modo que si $l$ se anula en todo $W$, en particular se anula en los vectores $e_1,\ldots,e_m$, por lo que $$l=\sum_{i=m+1}^n \langle l, e_i\rangle e_i^\ast,$$ lo cual exhibe a $l$ como combinación lineal de los elementos $e_{m+1}^\ast,\ldots,e_n^\ast$. De esta forma, este subconjunto de formas lineales es linealmente independiente y genera a $W^\bot$, que era justo lo que necesitábamos probar.

Ahora hagamos el caso en el que $W$ es un subespacio de $V^\ast$. Podríamos hacer un argumento análogo al anterior, pero daremos una prueba alternativa que usa la bidualidad canónica $\iota: V\to {V^\ast} ^\ast$. La igualdad $\langle l,v \rangle = 0$ es equivalente a $\langle \iota(v),l \rangle =0$. De esta forma, $v$ está en $W^\bot$ si y sólo si $\iota(v)\in {V^\ast} ^\ast$ se anula en todo $W$. Como $\iota$ es isomorfismo y el espacio de los $g\in {V^\ast} ^\ast$ que se anulan en $W$ tiene dimensión $$\dim V^\ast-\dim W = \dim V – \dim W$$ (por la primer parte del teorema), concluimos entonces que $$\dim W^\bot = \dim V – \dim W,$$ lo cual prueba la otra parte del teorema.

$\square$

Problema. Sea $W$ el subespacio de matrices simétricas de $M_3(\mathbb{R})$ ¿Cuál es la dimensión de $W^\bot$?

Solución. Se puede mostrar que $E_{11}$, $E_{22}$, $E_{33}$, $E_{12}+E_{21}$, $E_{23}+E_{32}$, $E_{13}+E_{31}$ forman una base para $W$. De esta forma, $W$ tiene dimensión $6$. Por el Teorema 1, tenemos que $\dim W^\bot = \dim M_3(\mathbb{R})-6=9-6=3$.

$\triangle$

Aplicar dos veces ortogonalidad en subespacios

Una consecuencia importante del teorema anterior es que aplicarle la operación «espacio ortogonal» a un subespacio de un espacio de dimensión finita nos regresa al inicio. Más formalmente:

Corolario. Si $V$ es un espacio vectorial de dimensión finita sobre un campo $F$ y $W$ un subespacio de $V$ (o de $V^\ast$), entonces $(W^\bot)^\bot=W$.

Demostración. Haremos la prueba para cuando $W$ es subespacio de $V$. La otra es análoga y se deja como tarea moral. Lo primero que vamos a mostrar es que $W\subset (W^\bot)^\bot$. Tomemos $w$ en $W$. Tenemos que mostrar que $l(w)=0$ para cualquier $l$ en $W^\bot$. Por definición, un $l$ en $W^\bot$ se anula en todo elemento de $W$, así que se anula particularmente en $w$, como queremos.

Como $W$ y $(W^\bot)^\bot$ son espacios vectoriales, tenemos que $W$ es subespacio de $(W^\bot)^\bot$. Por el teorema de dualidad, tenemos que $$\dim W^\bot = \dim V – \dim W.$$ Usando esto y de nuevo el teorema de dualidad, tenemos que $$\dim (W^\bot)^\bot = \dim V – \dim W^\bot = \dim W.$$

De esta forma, $W$ es un subespacio de $\dim (W^\bot)^\bot$ de su misma dimensión, y por lo tanto $W= (W^\bot)^\bot$.

$\square$

Hay que tener particular cuidado en usar el corolario anterior. Solamente se puede garantizar su validez cuando $W$ es un subespacio de $V$, y cuando $V$ es de dimensión finita. En efecto, si $S$ es simplemente un subconjunto de $V$ y no es un subespacio, entonces la igualdad $S=(S^\bot)^\bot$ es imposible, pues al lado derecho tenemos un subespacio de $V$ y al izquierdo no.

Más adelante…

En esta entrada hablamos de ortogonalidad y de espacios ortogonales como si fueran un concepto nuevo, dejando de lado, al menos por el momento, nuestras ideas previas de asociar ortogonalidad con perpendicularidad. También vimos cómo encontrar un espacio ortogonal de manera práctica y hablamos de un teorema muy importante: el teorema de la dualidad.

Lo que sigue es hablar de cómo la noción de ortogonalidad nos permite estudiar sistemas de ecuaciones e hiperplanos. En la siguiente entrada estudiaremos estos conceptos.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Demuestra la proposición enunciada en la entrada.
  • Sea $S$ el subespacio de matrices diagonales en $M_n(\mathbb{R})$. ¿Cuál es la dimensión de $S^\bot$?
  • Considera $\mathbb{R}_3[x]$, el espacio vectorial de polinomios con coeficientes reales y grado a lo más $3$. Considera las formas lineales $\text{ev}_2$ y $\text{ev}_3$ que evalúan a un polinomio en $2$ y en $3$ respectivamente. ¿Quién es el espacio ortogonal de $\{\text{ev}_2,\text{ev}_3\}$?
  • Prueba la segunda parte del teorema de dualidad con un argumento análogo al que usamos para probar la primer parte.
  • Prueba el corolario para cuando $W$ es subespacio de $V^\ast$.
  • Verifica que las matrices propuestas en el último ejercicio en efecto forman una base para el subespacio de matrices simétricas.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Superior II: Construcción de números complejos

Por Leonardo Ignacio Martínez Sandoval

Introducción

En una entrada anterior esbozamos las construcciones de los números racionales y los números reales. Es hora de construir los números complejos. Para ello, definiremos primero el conjunto, $\mathbb{C}$, sobre el que trabajaremos, después definiremos sus operaciones.

Una forma intuitiva de visualizar a $\mathbb{C}$ es tomar el conjunto de los números reales ($\mathbb{R}$) y en ellos introducir un nuevo elemento, $i$, el cual satisface que $i^2=-1$. Este es, realmente, un nuevo elemento, pues en $\mathbb{R}$ siempre se tiene que $x^2\geq 0$.

Una vez que introducimos a $i$, queremos que las operaciones de suma y producto estén definidas en $\mathbb{C}$ y que, además este conjunto, sea cerrado bajo estas operaciones. Es decir, es necesario que para cualquier número real $b$ se tenga $bi\in \mathbb{C}$ y que para cualesquiera números reales $a$ y $b$ tengamos, también, $a+bi\in \mathbb{C}$. Resulta que esto «es suficiente», en el sentido de que ya no hay que meter más números para que las operaciones estén bien definidas. Veamos como es esto, si tenemos los números de la forma $a+bi$ y $c+di$ con $a,b,c,d\in \mathbb{R}$ y los sumamos y multiplicamos como sigue: $$(a+bi)+(c+di)=(a+c)+(b+d)i$$, vemos que, la suma, «tiene la misma forma» (ya que $a+c$ y $b+d$ son números reales) así como su producto:
\begin{align*}
(a+bi)(c+di)&=ac+bci+adi+bdi^2\\
&=(ac-bd)+(ad+bc)i.
\end{align*}
Desde luego que lo anterior es soló una discusión informal. En las siguientes secciones veremos cómo formalizar estas ideas.

Los números complejos se comportan muy bien en términos algebraicos y en términos de análisis. En términos algebraicos, esto se comenzará a notar en la última parte del curso en donde veremos que cualquier polinomio tiene por lo menos una raíz compleja. En cursos posteriores, como el de álgebra lineal, verás otras de las propiedades algebraicas de los polinomios. Más adelante, si llevas un curso de variable compleja verás las bellas propiedades analíticas que tienen los números complejos.

El campo de los números complejos

La construcción del conjunto de números complejos es bastante sencilla. Para hacerla, simplemente consideraremos las parejas de números reales $$\mathbb{C}=\{(a,b): a,b\in \mathbb{R}\}.$$

Por el momento a cada $(a,b)$ lo puedes pensar de manera informal como el complejo $a+bi$. Lo interesante del conjunto de los números complejos no son sus elementos en sí, sino las siguientes operaciones que están definidas en él.

Definición. Para $(a,b)$ y $(c,d)$ en $\mathbb{C}$, definimos su suma como $$(a,b)+(c,d)=(a+c,b+d).$$

Recordemos que dentro del paréntesis se usa la suma de $\mathbb{R}$ ya que $a$, $b$, $c$ y $d$ son números reales.

Definición. Para $(a,b)$ y $(c,d)$ en $\mathbb{C}$, definimos su producto como $$(a,b)(c,d)=(ac-bd,ad+bc).$$

Igualmente dentro del paréntesis se usan la suma y producto de $\mathbb{R}$. La definición de producto está motivada por la discusión que hicimos en la introducción.

Teorema. El conjunto $\mathbb{C}$, junto con las operaciones de suma y producto que definimos, es un campo.

Demostración. La suma es conmutativa y asociativa ya que cada entrada pertenece a $\mathbb{R}$ y en $\mathbb{R}$ la suma es conmutativa y asociativa. El neutro es $(0,0)$ pues $$(a,b)+(0,0)=(a+0,b+0)=(a,b)$$ y para $(a,b)$ su inverso aditivo es $(-a,-b)$.

Veamos ahora el producto. Probemos que es conmutativo. Para dos complejos $(a,b)$ y $(c,d)$ tenemos que $$(a,b)(c,d)=(ac-bd,ad+bc)$$ y que $$(c,d)(a,b)=(ca-db,cb+da).$$

Ambos resultados son iguales ya que cada entrada pertenece a $\mathbb{R}$ y la suma y el producto son conmutativos en $\mathbb{R}$.

Probemos que el producto es asociativo. Para ello tomemos tres complejos $(a,b)$, $(c,d)$ y $(e,f)$. Tenemos que
\begin{align*}
[(a,b)(c,d)](e,f)&=(ac-bd,ad+bc)(e,f)\\
&=(ace-bde-adf-bcf,acf-bdf+ade+bce),
\end{align*} y que
\begin{align*}
(a,b)[(c,d)(e,f)]&=(a,b)(ce-df,cf+de)\\
&=(ace-adf-bcf-bde,acf+ade+bce-bdf),
\end{align*}

Ambas expresiones son iguales ya que cada entrada pertenece a $\mathbb{R}$ y la suma es conmutativa en $\mathbb{R}$.

El complejo $(1,0)$ actúa como neutro multiplicativo, pues $$(a,b)(1,0)=(a\cdot 1 – b\cdot 0, a\cdot 0 + b\cdot 1)=(a,b).$$ Además, si tomamos un complejo $(a,b)\neq (0,0)$ y lo multiplicamos por $\left(\frac{a}{a^2+b^2},\frac{-b}{a^2+b^2}\right)$ obtenemos \begin{align*}
(a,b)\left(\frac{a}{a^2+b^2},\frac{-b}{a^2+b^2}\right)&= \left(\frac{a^2+b^2}{a^2+b^2}, \frac{-ab}{a^2+b^2}+\frac{ba}{a^2+b^2}\right)\\ &= (1,0),
\end{align*} lo cual muestra que tenemos inversos multiplicativos.

Sólo falta demostrar la propiedad distributiva. Su verificación se deja como tarea moral.

$\square$

La copia de los reales en los números complejos

Dentro de $\mathbb{C}$ hay una copia de los números reales. Esta consiste en asociarle, a cada número real $a$, el número complejo $\varphi(a)=(a,0)$. Esta asociación es claramente biyectiva. Además, si $a$ y $b$ son números reales, tenemos que $$(a,0)+(b,0)=(a+b,0)=\varphi(a+b)$$ y
\begin{align*}
(a,0)(b,0) &= (ab-0\cdot 0, a\cdot 0 + b\cdot 0)\\
&= (ab,0) = \varphi(ab).
\end{align*}
Además los neutros se van a neutros y los inversos a inversos. Esto muestra que $\varphi$ es una asociación biyectiva entre $\mathbb{R}$ y los complejos de la forma $(a,0)$ y que respeta la estructura de campo de $\mathbb{R}$.

Por otro lado, notemos que $$(0,1) (0,1)= (0\cdot 0 – 1\cdot 1, 0\cdot 1 + 1\cdot 0)= (-1, 0).$$

En otras palabras, al elevar el complejo $(0,1)$ al cuadrado obtenemos el número $(-1,0)$, que es precisamente $\varphi(-1)$.

Tras toda esta discusión, estamos justificados entonces en llamar simplemente $1$ al complejo $(1,0)$, en llamar $i$ al complejo $(0,1)$, y por lo tanto en llamar $a+bi$ al complejo $(a,b)$. A partir de aquí ya podemos olvidar la notación de parejas y tratar a los números complejos como lo discutimos en la introducción.

Operaciones en la notación $a+bi$

La notación $a+bi$ para números complejos es bastante práctica. Podemos trabajar con los complejos «igualito que en $\mathbb{R}$, pero, además, con la propiedad de que $i^2=-1$».

Como $i^4=(-1)^2=1$, tenemos que las potencias de $i$ se ciclan cada cuatro: $$1, i, i^2, i^3, i^4, i^5, i^6, \ldots$$ son $$1,i, -1, -i, 1, i,\ldots .$$ Ya mencionamos en la introducción que para complejos $a+bi$ y $c+di$ se tiene que $$(a+bi)+(c+di)=(a+c)+(b+d)i$$ y que $$(a+bi)(c+di)=(ac-bd)+(ad+bc)i,$$ de modo que cualquier composición de sumas y productos de números complejos se puede simplificar a la forma $x+yi$ con $x$ y $y$ reales.

Ejemplo. Simplifica la expresión $$(1+i)(1-i)+(2+i)(3-4i).$$ Solución. Haciendo el producto del primer sumando tenemos $(1+i)(1-i)=1^2-i^2=1-(-1)=2$. Haciendo el producto del segundo sumando tenemos \begin{align*}
(2+i)(3-4i)&=6+3i-8i-4i^2\\
&=6-5i+4\\
&=10-5i.
\end{align*}
De esta forma, el resultado de la operación es $$2+(10-5i)=12-5i.$$

$\triangle$

En complejos también podemos usar expresiones fraccionales, como $\frac{3+2i}{5-i}$. Si queremos pasar estas expresiones a la forma $x+yi$ con $x$ y $y$ reales, tenemos que pensar a $\frac{1}{5-i}$ como «el inverso multiplicativo de $5-i$», que como vimos en la demostración de que $\mathbb{C}$ es un campo, es $$\frac{5}{5^2+(-1)^2}+\frac{1}{5^2+(-1)^2}i=\frac{5}{26}+\frac{1}{26} i.$$ Una vez hecho esto, tenemos que \begin{align*}
\frac{3+2i}{5-i}&=(3+2i)\left( \frac{5}{26}+\frac{1}{26} i \right)\\
&=\frac{13}{26} + \frac{13}{26} i\\
&=\frac{1}{2}+\frac{1}{2} i.
\end{align*}

Otra forma de pensarlo es que a una expresión de la forma $\frac{a+bi}{c+di}$ la podemos simplificar «multiplicando arriba y abajo» por $c-di$. De esta forma, obtenemos
\begin{align*}
\frac{a+bi}{c+di} \cdot \frac{c-di}{c-di} = \left(\frac{ac+bd}{c^2+d^2}\right) + \left(\frac{bc-ad}{c^2+d^2}\right)i.
\end{align*}

Ambos métodos dan el mismo resultado.

Más adelante…

Al tomar un número complejo $z=a+bi$ y calcular su inverso, aparecen de manera natural las expresiones $a-bi$ y $a^2+b^2$. Estas expresiones son fundamentales.

  • A $a-bi$ se le conoce como el conjugado de $z$, y se denota por $\overline{z}$.
  • A $\sqrt{a^2+b^2}$ se le conoce como la norma de $z$ y se denota por $|z|$.

En la siguiente ocasión hablaremos de las propiedades de estas dos operaciones y cómo están relacionadas entre sí. Más adelante veremos su utilidad al resolver ecuaciones cuadráticas en los números complejos.

Si quieres, puedes revisar esta entrada sobre aplicaciones interesantes de los números complejos en la resolución de problemas. Tiene teoría que no hemos visto, pero te puede servir de motivación para aprender lo que veremos a continuación.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Demuestra que en los complejos se satisface la ley distributiva.
  2. Verifica que bajo la asociación $\varphi$ en efecto los neutros se van a los neutros y los inversos a inversos.
  3. Realiza la operación $(1+i)(2+i)(1+2i)(2+2i)$ y expresa el resultado de la forma $x+yi$ con $x$ y $y$ reales.
  4. Realiza la operación $$\frac{3+5i}{2+i}-\frac{1+2i}{4-3i}$$ y expresa el resultado de la forma $x+yi$ con $x$ y $y$ reales.
  5. Realiza la operación $$1+(1+i)+(1+i)^2+(1+i)^3+(1+i)^4$$ y expresa el resultado de la forma $x+yi$ con $x$ y $y$ reales.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Álgebra Lineal I: Bases duales, recetas y una matriz invertible

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la entrada anterior definimos el espacio dual de un espacio vectorial $V$. Así mismo, definimos las formas coordenadas, que son formas lineales asociadas a una base $B$ de $V$. Lo que hace la $i$-ésima forma coordenada en un vector $v$ es «leer» el $i$-ésimo coeficiente de $v$ expresado en la base $B$. Nos gustaría ver que estas formas coordenadas conforman bases del espacio dual.

Más concretamente, el objetivo de esta entrada es mostrar el teorema que enunciamos al final de la entrada anterior, hablar de problemas prácticos de bases duales y de mostrar un resultado interesante que relaciona bases, bases duales y la invertibilidad de una matriz.

Pequeño recordatorio

Como recordatorio, dada una base $B=\{e_1,\ldots,e_n\}$ de un espacio vectorial $V$ de dimensión finita $n$, podemos construir $n$ formas coordenadas $e_1^\ast,\ldots,e_n^\ast$ que quedan totalmente determinadas por lo que le hacen a los elementos de $B$ y esto es, por definición, lo siguiente:

$$
e_i^\ast(e_j)=
\begin{cases}
1\quad \text{ si $i=j$,}\\
0\quad \text{ si $i\neq j$.}
\end{cases}
$$

Recordemos también que dado un vector $v$ en $V$ podíamos construir a la forma lineal «evaluar en $v$», que era la forma $\text{ev}_v:V^\ast \to F$ dada por $\text{ev}_v(f)=f(v)$. Como manda elementos de $V^\ast$ a $F$, entonces pertenece a $V^{\ast \ast}$. A partir de esta definición, construimos la bidualidad canónica $\iota:V\to V^{\ast \ast}$ que manda $v$ a $\text{ev}_v$.

Finalmente, recordemos que dada una forma lineal $l$ y un vector $v$, usamos la notación $\langle l,v\rangle = l(v)$, y que esta notación es lineal en cada una de sus entradas. Todo esto lo puedes revisar a detalle en la entrada anterior.

El teorema de bases duales

El resultado que enunciamos previamente y que probaremos ahora es el siguiente.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$ y $B=\{e_1,\ldots,e_n\}$ una base de $V$. Entonces el conjunto de formas coordenadas $B^\ast=\{e_1^\ast, \ldots,e_n^\ast\}$ es una base de $V^\ast$. En particular, $V^\ast$ es de dimensión finita $n$. Además, la bidualidad canónica $\iota:V\to V^{\ast \ast}$ es un isomorfismo de espacios vectoriales.

Antes de comenzar, convéncete de que cada una de las $e_i^\ast$ son formas lineales, es decir, transformaciones lineales de $V$ a $F$.

Demostración. Veremos que $B^\ast=\{e_1^\ast,\ldots,e_n^\ast\}$ es un conjunto linealmente independiente y que genera a $V^\ast$. Veamos lo primero. Tomemos una combinación lineal igual a cero, $$z:=\alpha_1 e_1^\ast + \alpha_2 e_2^\ast+\ldots + \alpha_n e_n^\ast=0.$$ Para cada $i=1,2,\ldots,n$, podemos evaluar la forma lineal $z$ en $e_i$.

Por un lado, $z(e_i)=0$, pues estamos suponiendo que la combinación lineal de $e_i^\ast$’s es (la forma lineal) cero. Por otro lado, analizando término a término y usando que los $e_i^\ast$ son la base dual, tenemos que si $i\neq j$ entonces $e_j^\ast(e_i)$ es cero, y si $i=j$, es $1$.

Así que el único término que queda es $\alpha_i e_i^\ast(e_i)=\alpha_i$. Juntando ambas observaciones, $\alpha_i=z(e_i)=0$, de modo que todos los coeficientes de la combinación lineal son cero. Asi, $B^\ast$ es linealmente independiente.

Ahora veremos que $B^\ast$ genera a $V^\ast$. Tomemos una forma lineal arbitraria $l$, es decir, un elemento en $V^\ast$. Al evaluarla en $e_1,e_2,\ldots,e_n$ obtenemos escalares $$\langle l, e_1\rangle,\langle l, e_2\rangle,\ldots,\langle l, e_n\rangle. $$ Afirmamos que estos son los coeficientes que nos ayudarán a poner a $l$ como combinación lineal de elementos de $B^\ast$. En efecto, para cualquier vector $v$ tenemos que

\begin{align*}
\left(\sum_{i=1}^n\langle l, e_i \rangle e_i^\ast\right) (v)
&= \sum_{i=1}^{n} \langle l, e_i \rangle \langle e_i^\ast, v \rangle \\
&= \sum_{i=1}^{n} \langle l, \langle e_i^\ast, v \rangle e_i \rangle \\
&=\left \langle l, \sum_{i=1}^n \langle e_i^\ast, v\rangle e_i \right \rangle\\
&= \langle l, v \rangle\\
&= l(v).
\end{align*}

La primer igualdad es por la definición de suma de transformaciones lineales. En la segunda usamos la linealidad de la segunda entrada para meter el escalar $\langle e_i^\ast , v\rangle$. La siguiente es de nuevo por la linealidad de la segunda entrada. En la penúltima igualdad usamos que justo $\langle e_i^\ast , v\rangle$ es el coeficiente que acompaña a $e_i$ cuando escribimos a $v$ con la base $B$. Esto muestra que $B^\ast$ genera a $V^\ast$.

Así, $B^\ast$ es base de $V^\ast$. Como $B^\ast$ tiene $n$ elementos, entonces $V^\ast$ tiene dimensión $n$.

La última parte del teorema consiste en ver que $\iota:V\to V^{\ast \ast}$ es un isomorfismo de espacios vectoriales. Por lo que acabamos de demostrar, $$\dim V = \dim V^\ast = \dim V^{\ast \ast}.$$ Así que basta con mostrar que $\iota$ es inyectiva pues, de ser así, mandaría a una base de $V$ a un conjunto linealmente independiente de $V^{\ast \ast}$ con $n$ elementos, que sabemos que es suficiente para que sea base. Como $\iota$ es transformación lineal, basta mostrar que el único vector que se va a la forma lineal $0$ de $V^\ast$ es el $0$ de $V$.

Supongamos que $v$ es tal que $\text{ev}_v=0$. Vamos a mostrar que $v=0$. Si $\text{ev}_v=0$, en particular para las formas coordenadas $e_i^\ast$ tenemos que $ \text{ev}_v(e_i^\ast)=0$. En otras palabras, $e_i^\ast(v)=0$ para toda $i$. Es decir, todas las coordenadas de $v$ en la base $B$ son $0$. Así, $v=0$. Con esto terminamos la prueba.

$\square$

La demostración anterior muestra cómo encontrar las coordenadas de una forma lineal $l$ en términos de la base $B^\ast$: basta con evaluar $l$ en los elementos de la base $B$. Recopilamos esto y la igualdad dual como una proposición aparte, pues resulta ser útil en varios contextos.

Proposición. Sea $V$ un espacio vectorial de dimensión finita $n$, $B=\{e_1,\ldots, e_n\}$ una base de $V$ y $B^\ast=\{e_1^\ast,\ldots,e_n^\ast\}$ la base dual. Entonces, para todo vector $v$ en $V$ y para toda forma lineal $l:V\to F$, tenemos que
\begin{align*}
v&= \sum_{i=1}^n \langle e_i^\ast, v\rangle e_i \quad \text{ y }\\
l&= \sum_{i=1}^{n} \langle l, e_i \rangle e_i^\ast.
\end{align*}

La traza de una matriz en $M_n(F)$ es la suma de las entradas en su diagonal principal. Es sencillo verificar que la función $\text{tr}:M_n(F)\to F$ que manda a cada matriz a su traza es una forma lineal, es decir, un elemento de $M_n(F)^\ast$.

Ejemplo. Considera el espacio vectorial de matrices $M_3(\mathbb{R})$. Sea $B=\{E_{ij}\}$ su base canónica. Expresa a la forma lineal traza en términos de la base dual $B^\ast$.

Solución. Tenemos que $\text{tr}(E_{ii})=1$ y que si $i\neq j$, entonces $\text{tr}(E_{ij})=0$. De esta forma, usando la fórmula de la proposición anterior,
\begin{align*}
\text{tr}&=\sum_{i,j} \text{tr}(E_{ij}) E_{ij}^\ast\\
&=E_{11}^\ast + E_{22}^\ast + E_{33}^\ast.
\end{align*} Observa que, en efecto, esta igualdad es correcta. Lo que hace $E_{ii}^\ast$ por definición es obtener la entrada $a_{ii}$ de una matriz $A=[a_{ij}]$.

La igualdad que encontramos dice que «para obtener la traza hay que extraer las entradas $a_{11}$, $a_{22}$, $a_{33}$ de $A$ y sumarlas». En efecto, eso es justo lo que hace la traza.

$\triangle$

Algunos problemas prácticos de bases duales

Ya que introdujimos el concepto de espacio dual y de base dual, hay algunos problemas prácticos que puede que queramos resolver.

  • Dada una base $v_1,\ldots,v_n$ de $F^n$, ¿cómo podemos encontrar a la base dual $v_1^\ast, \ldots, v_n^\ast$ en términos de la base dual $e_1^\ast, \ldots, e_n^\ast$ de la base canónica?
  • Dada una base $L=\{l_1,\ldots, l_n\}$ de $V^\ast$, ¿es posible encontrar una base $B$ de $V$ tal que $B^\ast = L$? De ser así, ¿cómo encontramos esta base?

A continuación mencionamos cómo resolver ambos problemas. Las demostraciones se quedan como tarea moral. En la siguiente entrada veremos problemas ejemplo resueltos.

  • La receta para resolver el primer problema es poner a $v_1,\ldots, v_n$ como vectores columna de una matriz $A$. Las coordenadas de $v_1^\ast,\ldots, v_n^\ast$ en términos de la base $e_1^\ast,\ldots,e_n^\ast$ están dados por las filas de la matriz $A^{-1}$.
  • La receta para resolver el segundo problema es tomar una base $B’=\{e_1,\ldots, e_n\}$ cualquiera de $V$ y considerar la matriz $A$ con entradas $A=[l_i(e_j)]$. La matriz $A^{-1}$ tiene como columnas a los vectores de coordenadas de la base $B$ que buscamos con respecto a la base $B’$.

¿Por qué la matriz $A$ de la segunda receta es invertible? Esto lo mostramos en la siguiente sección.

Un teorema de bases, bases duales e invertibilidad de matrices

La demostración del siguiente teorema usa varias ideas que hemos estado desarrollando con anterioridad. Usamos que:

  • Si $V$ es de dimensión finita $n$ y $B$ es un conjunto de $n$ vectores de $V$, entonces basta con que $B$ sea linealmente independiente para ser base. Esto lo puedes repasar en la entrada del lema de intercambio de Steinitz.
  • Una matriz cuadrada $A$ es invertible si y sólo si el sistema de ecuaciones $AX=0$ sólo tiene la solución trivial $X=0$. Esto lo puedes repasar en la entrada de equivalencias de matrices invertibles.
  • Una matriz cuadrada $A$ es invertible si y sólo si su transpuesta lo es.
  • El hecho de que la bidualidad canónica $\iota$ es un isomorfismo entre $V$ y $V^{\ast \ast}$.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$ sobre el campo $F$. Sea $B=\{v_1,\ldots, v_n\}$ un conjunto de vectores en $V$ y $L=\{l_1,\ldots, l_n\}$ un conjunto de elementos de $V^\ast$, es decir, de formas lineales en $V$. Consideremos a la matriz $A$ en $M_n(F)$ dada por $$A=[l_i(v_j)].$$ La matriz $A$ es invertible si y sólo si $B$ es una base de $V$ y $L$ es una base de $V^\ast$.

Demostración. Mostraremos primero que si $B$ no es base, entonces $A$ no es invertible. Como $B$ tiene $n$ elementos y no es base, entonces no es linealmente independiente, así que existe una combinación lineal no trivial $$\alpha_1 v_1+\ldots+\alpha_n v_n=0.$$ De esta forma, si definimos $v=(\alpha_1,\ldots, \alpha_n)$, este es un vector no cero, y además, la $i$-ésima entrada de $Av$ es $$\alpha_1 l_i(v_1)+\ldots+\alpha_n l_i(v_n) = l_i(\alpha_1 v_1 + \ldots + \alpha_n v_n) = 0.$$ De este modo, $AX=0$ tiene una no solución trivial y por lo tanto no es invertible.

De manera similar, si $L$ no es base, entonces hay una combinación lineal no trivial $$\beta_1 L_1 + \ldots + \beta_n L_n =0$$ y entonces el vector $w=(\beta_1,\ldots,\beta_n)$ es una solución no trivial a la ecuación $^t A X=0$, por lo que $^t A$ no es invertible, y por lo tanto $A$ tampoco lo es.

Ahora veremos que si $L$ y $B$ son bases, entonces $A$ es invertible. Si $A$ no fuera invertible, entonces tendríamos una solución no trivial $(\alpha_1,\ldots,\alpha_n)$ a la ecuación $AX=0$. Como vimos arriba, esto quiere decir que para cada $i$ tenemos que $$ l_i(\alpha_1 v_1 + \ldots + \alpha_n v_n) = 0.$$ Como $l_i$ es base de $V^\ast$, esto implica que $l(\alpha_1 v_1 + \ldots + \alpha_n v_n)=0$ para toda forma lineal $l$, y como la bidualidad canónica es un isomorfismo, tenemos que $$\alpha_1 v_1 + \ldots + \alpha_n v_n=0.$$ Esto es imposible, pues es una combinación lineal no trivial de los elementos de $B$, que por ser base, son linealmente independientes.

$\square$

Más adelante…

Esta entrada es un poco abstracta, pues habla de bastantes transformaciones aplicadas a transformaciones, y eso puede resultar un poco confuso. Se verán problemas para aterrizar estas ideas. La importancia de entenderlas y manejarlas correctamente es que serán de utilidad más adelante, cuando hablemos de los espacios ortogonales, de transposición de transformaciones lineales y de hiperplanos.

La teoría de dualidad también tiene amplias aplicaciones en otras áreas de las matemáticas. En cierto sentido, la dualidad que vemos aquí es también la que aparece en espacios proyectivos. Está fuertemente relacionada con la dualidad que aparece en teoremas importantes de optimización lineal, que permiten en ocasiones reformular un problema difícil en términos de uno más fácil, pero con el mismo punto óptimo.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Usa la definición de linealidad para ver que las formas coordenadas $e_i^\ast$ en efecto son formas lineales.
  • Muestra que $\iota:V \to V^{\ast \ast}$, la bidualidad canónica, es una transformación lineal.
  • Justifica por qué la primer receta resuelve el primer problema práctico de bases duales.
  • Justifica por qué la segunda receta resuelve el segundo problema práctico de bases duales.
  • Sean $a_0,a_1,\ldots,a_n$ reales distintos. Considera el espacio vectorial $V=\mathbb{R}_n[x]$ de polinomios con coeficientes reales y grado a lo más $n$. Muestra que las funciones $\text{ev}_{a_i}:V\to \mathbb{R}$ tales que $\text{ev}_{a_i}(f)=f(a_i)$ son formas lineales linealmente independientes, y que por lo tanto son una base de $V^\ast$. Usa esta base, la base canónica de $V$ y el teorema de la última sección para mostrar que la matriz $$\begin{pmatrix} 1 & a_0 & a_0 ^2 & \ldots & a_0^n\\ 1 & a_1 & a_1^2 & \ldots & a_1^n\\ 1 & a_2 & a_2^2 & \ldots & a_2^n\\ & \vdots & & \ddots & \vdots \\ 1 & a_n & a_n^2 & \ldots & a_n^n\end{pmatrix}$$ es invertible.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Seminario de Resolución de Problemas: Funciones continuas

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores platicamos de propiedades aritméticas de los números enteros, del anillo de enteros módulo $n$ y de los números complejos. Vimos cómo pueden ser de utilidad para resolver problemas de matemáticas de distintos tipos. Ahora veremos temas de funciones continuas.

En esta entrada, y las subsecuentes, entraremos al mundo del cálculo y de la continuidad. En el transcurso de diez entradas veremos cómo aprovechar distintas herramientas de continuidad, cálculo diferencial e integral.

Seguiremos con la costumbre de no demostrar los teoremas principales que usemos, pero podemos recomendar al lector las siguientes fuentes para consultar los fundamentos

El orden de presentación de los temas viene del libro Problem Solving Strategies de Loren Larson.

Recordatorio de límites y continuidad

Sea $A$ un subconjunto de $\mathbb{R}$ y $f:A\to \mathbb{R}$ una función. Intuitivamente, el límite de $f(x)$ cuando $x$ tiende a $a$ es $c$ si al acercarnos a $x$ en $A$ tenemos que $f(x)$ se acerca a $c$.

De manera formal, tenemos que $$\lim_{x\to a} f(x) = c$$ si para todo $\epsilon>0$ tenemos que existe un $\delta >0$ tal que si $x\in A$ y $|x-a|<\delta$, entonces $|f(x)-c|<\epsilon$. Esta es la definición épsilon-delta. Otra forma de denotar lo mismo es decir que $f(x)\to c$ cuando $x\to a$. Los límites se comportan bien con las operaciones.

Proposición. Sean $f:A\to \mathbb{R}$ y $g:A\to \mathbb{R}$ funciones. Sea $a\in A$. Si $f(x)\to c$ y $g(x)\to d$ cuando $x\to a$, entonces

  • $f(x)+g(x)\to c+d$ cuando $x\to a$
  • $f(x)g(x)\to cd$ cuando $x\to a$
  • Si $d\neq 0$, $f(x)/g(x)\to c/d$ cuando $x\to a$

Definición. Sea $f:A\to \mathbb{R}$ una función real y $a\in A$. Decimos que $f$ es continua

  • en $a$ si $f(x)\to f(a)$ cuando $x\to a$.
  • en $S\subset A$ si es continua en todo $a\in S$.

Si $f$ es continua en $A$, simplemente decimos que es continua.

Como los límites se comportan bien con las operaciones, tenemos que las funciones continuas también se comportan bien con las operaciones.

Proposición. Sean $f:A\to \mathbb{R}$ y $g:A\to \mathbb{R}$ funciones. Sea $a\in A$. Si $f$ y $g$ son continuas en $a$, entonces

  • $f+g$ es continua en $a$
  • $fg$ es continua en $a$
  • Si $g(a)\neq 0$, $f/g$ es continua en $a$

Ejercicio. Muestra que $\frac{x^2+3x+1}{x+1}$ es continua para todo $x\neq -1$.

Sugerencia. No uses la definición épsilon-delta directamente en la función, pues será complicado. Demuestra que $f(x)=x$ es continua con la definición epsilon-delta y de ahí usa las demás propiedades enunciadas en las proposiciones.

Funciones continuas y sucesiones

Las funciones continuas y las sucesiones están cercanamente relacionadas. Recuerda que una sucesión de reales es un conjunto ordenado de reales, uno por cada entero positivo, al cual denotaremos así: $$\{x_n\}=\{x_1,x_2,x_3,x_4,\ldots\}.$$

Decimos que la sucesión $\{x_n\}$ converge a $c$, en símbolos $$\lim_{n\to \infty} x_n = c$$ si para cada $\epsilon >0$ existe un natural $N$ tal que si $n\geq N$, entonces $|x_n-c|<\epsilon$. También decimos esto como $x_n\to c$ cuando $n\to \infty$, o simplemente $x_n\to c$.

Teorema. La función $f:A\to \mathbb{R}$ es continua en $a\in A$ si y sólo si para toda sucesión de reales $\{x_n\}$ en $A$ tal que $\{x_n\}\to a$ se tiene que $f(x_n)\to f(a)$.

Este teorema tiene múltiples usos. Nos dice que para verificar que una sucesión sea continua en un punto $a$, nos basta ver qué le hace a todas las sucesiones que convergen a $a$. Si alguna de ellas no converge a $f(a)$, entonces la función no es continua. Si todas ellas convergen a $f(a)$, entonces la función sí es continua. Veamos un ejemplo de su aplicación

Problema. Considera la función $f:[0,1]\to \mathbb{R}$ la función tal que a cada irracional le asigna $0$ y a cada racional $p/q$ (expresado con $p$ y $q$ positivos y primos relativos) le asigna $1/q$. Estudia la continuidad de esta función.

Sugerencia pre-solución. La continuidad de la función se comporta distinto para los racionales y para los irracionales. Para ver qué sucede en los racionales, acércate con una sucesión de irracionales.

Solución. Demostraremos que $f$ es continua en los irracionales y no es continua en los racionales.

Tomemos un racional $r=p/q<1$. Observa que la sucesión $x_n=r+\frac{\sqrt{3}}{n}$ para $n$ suficientemente grande cae en $[0,1]$ y $x_n\to r$. Cada término de la sucesión es irracional. Así, $f(x_n)=0$ para todo término, de modo que $f(x_n)\to 0\neq 1/q = f(r)$. Esto muestra que $f$ no es continua en $r$. Para $r=1$ podemos hacer el mismo truco con $x_n=r-\frac{\sqrt{3}}{n}$ para ver que no es continua.

Tomemos ahora un número irracional $r\in[0,1]$. Tenemos que $f(r)=0$. Mostraremos que para toda sucesión $\{x_n\}$ tal que $x_n\to r$, tenemos que $f(x_n)\to 0$. Tomemos $M$ un entero positivo. Consideremos el conjunto $A_M$ de todos los números racionales en $[0,1]$ con denominador a lo más $M$.

Como $r$ es irracional, las distancias de $r$ a los números de $A_M$ son todas positivas, así que su mínimo es un real positivo $\epsilon$. Como $x_n\to r$, existe un $N$ tal que si $n\geq N$, entonces $|x_n-r|<\epsilon$. Así, para $n\geq N$, no se puede que $x_n$ esté en $A_M$. De este modo, para $n\geq N$ tenemos que $|f(x_n)|<1/M$. Esto muestra que $f(x_n)\to 0$. Así, $f$ es continua en los irracionales.

$\square$

Por supuesto, algunas veces es útil regresar a la definición epsilon-delta para funciones continuas.

Problema. Sea $f:\mathbb{R}\to\mathbb{R}$ una función inyectiva y continua tal que $f(2x-f(x))=x$ y tal que tiene por lo menos un punto fijo. Muestra que $f(x)=x$ para todo $x\in \mathbb{R}$.

Sugerencia pre-solución. Antes de intentar cualquier idea de cálculo, hay que demostrar que si se cumple $f(y)=y+r$, entonces $f(y+nr)=(y+nr)+r$. Para demostrar esto para $n$ negativa, usa inducción. Para $n$ positiva necesitarás jugar un poco con la hipótesis. Aplica la hipótesis $f(2x-f(x))=x$ para $x=f(z)$ y usa la inyectividad. De ahí obtendrás una igualdad que te servirá para encontrar $f(y+nr)$ para $n$ positivas.

Solución. La primera observación es que el conjunto de puntos fijos de una función continua es cerrado, pues si $\{x_n\}$ es una sucesión de puntos fijos que converge a un punto $c$, entonces por un lado $\{f(x_n)\}=\{x_n\}$ también converge a $c$, y por otro por continuidad converge a $f(c)$. Como los límites, cuando existen, son únicos, tenemos que $f(c)=c$.

Si $f(y)\neq y$ para alguna $y\in \mathbb{R}$, entonces tendremos $f(y)=y+r$ para alguna $r\neq 0$. Mostraremos que $f(y+nr)=(y+nr)+r$ para todo entero $n$. Aplicando la hipótesis $f(2x-f(x))=x$ para $x=y$, obtenemos que $f(y-r)=y=(y-r)+r$, de modo que inductivamente tenemos $f(y-nr)=(y-nr)+r$ para $n$ entero positivo.

Aplicando la hipótesis $f(2x-f(x))=x$ para $x=f(x)$ obtenemos $f(2f(z)-f(f(z)))=f(z)$, de modo que por inyectividad tenemos $2f(z)-f(f(z))=z$. Usando esta ecuación para $z=y$ obtenemos que $2f(y)-f(f(y))=y$, de donde $f(y+r)=2(y+r)-y=(y+r)+r$, y de aquí inductivamente $f(y+nr)=(y+nr)+r$ para $n$ enteros positivos. De esta forma, $f(y+nr)=(y+nr)+r$ para todo entero.

Ahora sí viene la parte en la que usamos la continuidad. Supongamos que $f(x)\neq x$. Sea $\epsilon=|f(x)-x|>0$. Como $f$ es continua en $x$, existe un $\delta>0$ que podemos suponer menor a $\frac{\epsilon}{4}$ tal que si $|z-x|<\delta$, entonces $|f(z)-f(x)|<\frac{\epsilon}{4}$.

Sea $x_0$ un punto frontera del conjunto de puntos fijos. Como $f$ es continua en $x_0$, podemos encontrar un $\alpha>0$ y $\alpha<\delta$ tal que si $|w-x_0|<\alpha$, entonces $|f(w)-f(x_0)|<\delta$. Como el conjunto de puntos fijos es cerrado, $x_0$ está en él. Ya que $x_0$ es punto frontera, existe un $y$ tal que $f(y)\neq y$ y $|x_0-y|\leq \alpha$. Para este $y$ tenemos por las cotas que hemos encontrado y la desigualdad del triángulo que $$|f(y)-y|\leq |f(y)-f(x_0)|+|x_0-y|\leq \delta +\alpha <2\delta.$$

Así, $r=f(y)-y$ es un número de norma entre $0$ y $2\delta$, de modo que existe una $n$ para la cual $y+nr \in (x-\delta,x+\delta)$. Por lo que probamos previamente, $f(y+nr)=(y+nr)+r$. A partir de todo esto concluimos que:

\begin{align*}
\epsilon&=|f(x)-x|\\
&\leq |f(x)-f(y+nr)|+|f(y+nr)-x|\\
&<\frac{\epsilon}{4}+|(y+nr)-x|+|r|\\
&<\frac{\epsilon}{4}+3\delta\\
&<\frac{\epsilon}{4}+\frac{3\epsilon}{4}=\epsilon.
\end{align*}

Esto es una contradicción, así que todos los reales deben ser puntos fijos de $f$.

$\square$

Dos teoremas importantes de continuidad

Las funciones continuas satisfacen dos propiedades muy importantes.

Teorema (teorema del valor intermedio). Sea $f:[a,b]\to \mathbb{R}$ una función continua. Entonces para todo $y$ entre $f(a)$ y $f(b)$ existe un real $c \in [a,b]$ tal que $f(c)=y$.

Aquí, si $f(a)\leq f(b)$ entonces «entre $f(a)$ y $f(b)$» quiere decir en el intervalo $[f(a),f(b)]$ y si $f(b)\leq f(a)$, quiere decir en el intervalo $[f(b),f(a)]$. Dicho en otras palabras, si una función continua toma dos valores, entonces toma todos los valores entre ellos.

Teorema (teorema del valor extremo). Sea $f:[a,b] \to \mathbb{R}$ una función continua. Entonces existen números $c$ y $d$ en $[a,b]$ para los cuales $f(c)\leq f(x) \leq f(d)$ para todos los $x$ en $[a,b]$.

Dicho de otra forma, una función continua definida en un intervalo cerrado «alcanza su máximo y su mínimo».

En siguientes entradas hablaremos de aplicaciones de estos teoremas. Por el momento sólo los enunciamos, y en la siguiente sección demostraremos uno de ellos.

El método de la bisección de intervalos

Una de las herramientas más útiles para trabajar con reales y con funciones continuas es el método de la bisección de intervalos. Se trata a grandes rasgos de lo siguiente:

  • Se comienza con un intervalo $[a,b]$. Definimos $a_0=a$ y $b_0=b$.
  • Partimos ese intervalo por su punto medio $m_0=m$ en dos intervalos $[a,m]$ y $[m,b]$. En alguno de esos dos pasa algo especial. Si es en el primero, definimos $a_1=a$, $b_1=m$. Si es en el segundo, definimos $a_1=m$, $b_1=b$, para conseguir un intervalo $[a_1,b_1]\subset [a_0,b_0]$ especial.
  • Continuamos recursivamente. Ya que definimos al intervalo $[a_n,b_n]$, consideramos a su punto medio $m_n$. De entre los intervalos $[a_n,m_n]$ y $[m_n,b_n]$ elegimos a uno de ellos que sea «especial» para definir $[a_{n+1},b_{n+1}]$.

Los $a_i$ forman una sucesión no decreciente acotada superiormente por $b$ y los $b_i$ una sucesión no creciente acotada inferiormente por $a$. De esta forma, ambas sucesiones tienen un límite. Además, notemos que $|b_n-a_n|=|b-a|/2^n$, de modo que $|b_n-a_n|\to 0$, por lo que ambas situaciones convergen al mismo límite $L$, y este límite está en todos los intervalos $[a_n,b_n]$. Si elegimos a los intervalos $[a_n,b_n]$ de manera correcta, podemos hacer que este límite $L$ tenga propiedades especiales.

Veamos cómo aplicar esta idea para demostrar el teorema del valor extremo.

Demostración (teorema del valor extremo). Comenzamos con una función contínua $f:[a,b]\to \mathbb{R}$. Basta con probar que $f$ alcanza su máximo, pues para ver que alcanza su mínimo basta aplicar las siguientes ideas a $-f$.

Usaremos el método de bisección de intervalos. Definimos $a_0=a$ y $b_0=b$. Suponiendo que ya definimos $a_n$ y $b_n$, consideremos el punto medio $m_n$ del intervalo $[a_n,b_n]$.

  • Si algún $x$ en $[a_n,m_n]$ cumple que $f(x)\geq f(y)$ para todo $y\in [m_n,b_n]$, elegimos $a_{n+1}=a_n$ y $b_{n+1}=m_n$.
  • En otro caso, para todo $x$ en $[a_n,m_n]$ tenemos algún $y\in [m_n,b_n]$ que cumple $f(x)<f(y)$ y elegimos $a_{n+1}=m_n$ y $b_{n+1}=b_n$.

En cualquier caso, notemos que se cumple que «para cualquier $x$ en el intervalo no elegido hay una $y$ en el intervalo sí elegido tal que $f(y)\geq f(x)$».

Como discutimos anteriormente, las sucesiones $\{a_n\}$ y $\{b_n\}$ convergen a un mismo límite $d$. Afirmamos que $f(d)\geq f(x)$ para todo $x$ en $[a,b]$. Si $x=d$, esto es claro. Si no, $x\neq d$ y definimos $x_0=x$.

Vamos a definir recursivamente una sucesión $\{x_n\}$ para la cual $$f(x_0)\leq f(x_1)\leq f(x_2)\leq f(x_3)\leq \ldots$$ mediante un proceso que haremos mientras $x_n\neq d$.

Ya que definimos $x_n$ tal que $x_n\neq d$, notemos que $d$ y $x_n$ están en el mismo intervalo $[a_0,b_0]$, pero como son distintos existe un primer $m\geq 1$ tal que en el intervalo $[a_m,b_m]$ está $d$ pero $x_n$ no. Como es la menor $m$, sí están ambos en el intervalo $[a_{m-1},b_{m-1}]$.

Por cómo definimos la elección de intervalos, hay un $y$ en el intervalo $[a_m,b_m]$ tal que $f(y)\geq f(x_n)$. Si $y=d$, terminamos (por la cadena de desigualdades). Si no, definimos $x_{n+1}$ como este $y$. Así, cuando el proceso se detiene, terminamos por la cadena de desigualdades. Si el proceso no se detiene, tenemos una sucesión infinita $\{x_n\}$ que converge a $d$, de modo que $f(d)=\lim{f(x_n)}\geq f(x_0)=f(x)$, pues cada término es mayor o igual a $f(x_0)$. Esto muestra la desigualdad $f(d)\geq f(x)$ que queríamos.

$\square$

Más problemas

Se pueden encontrar más problemas de este tema en la Sección 6.1 del libro Problem Solving through Problems de Loren Larson.

Álgebra Superior II: Esbozo de construcción de los números racionales y reales

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la unidad pasada vimos la construcción de los números enteros a partir de los números naturales. Lo que hicimos fue considerar parejas de números naturales $(a,b)$ para las que dimos la relación $\sim$ definida por $(a,b)\sim (c,d)$ si y sólo si $a+d=b+c$, vimos que esta relación es de equivalencia. Dijimos que, aunque era incorrecto formalmente, convenía pensar a la pareja $(a,b)$ como $a-b$ (es incorrecto ya que no siempre se puede restar en $\mathbb{N}$).

La relación $\sim$, así definida, genera las clases de equivalencia $$\overline{(a, b)}=\lbrace (c, d)\in \mathbb{N}\times\mathbb{N} : a+d=b+c\rbrace$$ en $\mathbb{N}\times\mathbb{N}$. El conjunto $\mathbb{Z}$ lo construimos como el conjunto de todas estas clases de equivalencia. En él definimos las operaciones:

  • Suma: $\overline{(a,b)}+\overline{(c,d)}=\overline{(a+c,b+d)}$.
  • Producto: $ \overline{(a,b)}\overline{(c,d)}=\overline{(ac+bd,ad+bc)}$.

Vimos que estas operaciones están bien definidas. La suma es bastante natural. El producto parece algo artificial, pero se vuelve natural si pensamos en «multiplicar $a-b$ con $c-d$», pues $(a-b)(c-d)=(ac+bd)-(ad+bc)$. Recordemos que es una justificación informal, pero ayuda a entender la intuición.

Después, nos dedicamos a probar que con estas operaciones, suma y producto, el conjunto $\mathbb{Z}$ es un anillo conmutativo con $1$ en donde se vale cancelar. A partir de ahí empezamos a ver a $\mathbb{Z}$ desde el punto de vista de la teoría de números. Estudiamos el máximo común divisor, la relación de divisibilidad, el anillo de enteros módulo $n$, congruencias, ecuaciones en congruencias, teorema chino del residuo y mencionamos un poco de ecuaciones diofantinas.

Con eso terminamos la unidad de enteros, correspondiente al segundo segundo parcial del curso.

Las siguientes dos unidades contempladas por el temario oficial son:

  • Números complejos.
  • Anillo de polinomios.

Vale la pena hacer una observación. Típicamente tenemos la siguiente cadena de contenciones entre sistemas numéricos $$\mathbb{N}\subset \mathbb{Z}\subset \mathbb{Q} \subset \mathbb{R}\subset \mathbb{C}.$$

En las primeras dos unidades del curso hablamos de $\mathbb{N}$ y de $\mathbb{Z}$. De acuerdo a las contenciones anteriores, lo siguiente sería tratar a detalle los racionales $\mathbb{Q}$ y los reales $\mathbb{R}$. Sin embargo el temario oficial «se los salta». Esto es un poco raro, pero podría estar justificado en que estos sistemas numéricos se estudian en otros cursos del plan de estudios. Por ejemplo, $\mathbb{R}$ se estudia con algo de profundidad en los cursos de cálculo.

De cualquier forma nos va a ser muy útil mencionar, por lo menos por «encima», cómo hacer la construcción de $\mathbb{Q}$ y $\mathbb{R}$. La construcción de los números racionales ayuda a repasar la construcción de los enteros. En la construcción de los números reales nos encontraremos con propiedades útiles que usaremos, de manera continua, cuando hablemos de la construcción de los números complejos $\mathbb{C}$. Por estas razones, aunque no vayamos a evaluar, las construcciones de $\mathbb{Q}$ y $\mathbb{R}$, en el curso, las ponemos aquí para que las conozcas o las repases.

Motivación de construcción de los racionales

Los naturales no son suficientes para resolver todas las ecuaciones de la forma $$x+a=b,$$ pues si $a>b$ la ecuación no tiene solución en $\mathbb{N}$ y esta fue nuestra motivación para construir los números enteros. En $\mathbb{Z}$ todas estas ecuaciones tienen solución. Sin embargo, en $\mathbb{Z}$ la ecuación $$ax=b$$ tiene solución si y sólo si $a$ divide a $b$ (por definición se tiene que $a$ divide a $b$ si y sólo si $b$ es un múltiplo de $a$), pero no siempre sucede esto. Por ejemplo, $3x=7$ no tiene solución en $\mathbb{Z}$.

Construcción de los racionales

Para la construcción de los racionales consideremos el conjunto $\mathbb{Z}\times \mathbb{Z}\setminus\{0\}$ y sobre él la relación $\sim$ definida por $(a,b)\sim (c,d)$ si y sólo si $ad=bc$. Resulta que $\sim$ es relación de equivalencia, así que, para cada pareja $(a,b)$ denotaremos como $\overline{(a,b)}$ a su clase de equivalencia. En este caso $$\overline{(a, b)}=\lbrace (m, n)\in \mathbb{Z}\times\mathbb{Z}\setminus\{0\} : an=bm\rbrace.$$

Observa que esta construcción se parece mucho a la que hicimos para $\mathbb{Z}$, aunque ahora nos basamos en el producto en $\mathbb{Z}$ (antes era la suma en $\mathbb{N}$). De nuevo, una forma de pensar bastante intuitiva (aunque formalmente incorrecta), es pensar a cada clase $\overline{(a,b)}$ «como $\frac{a}{b}$». Nota que estamos considerando sólo aquellas parejas $(a,b)$ tales que $b\neq 0$.

De esta forma $\mathbb{Q}$ es el conjunto de clases de equivalencia de las parejas $(a,b)$ tales que $b\neq 0$, en símbolos, $$\mathbb{Q}:=\{\overline{(a,b)}: a\in \mathbb{Z}, b\in \mathbb{Z}\setminus\{0\}\}.$$

Operaciones y orden en los racionales

Vamos a definir las operaciones en $\mathbb{Q}$. Ahora el producto es «intuitivo» y la suma no tanto.

  • Suma: $\overline{(a,b)} + \overline{(c,d)} = \overline{(ad+bc,bd)}$.
  • Producto: $\overline{(a,b)}\overline{(c,d)}=\overline{(ac,bd)}$.

La suma se vuelve mucho más intuitiva si primero pensamos en nuestra interpretación (informal) de $\overline{(a,b)}$ como $\frac{a}{b}$ y luego, por lo que aprendimos en educación primaria sobre la suma de fracciones, vemos que $$\frac{a}{b}+\frac{c}{d}=\frac{ad+bc}{bd}.$$

Ahora, para definir el orden en $\mathbb{Q}$, tomemos la pareja $(a,b)\in \mathbb{Z}\times\mathbb{Z}\setminus\{0\}$. Tenemos que la clase $\overline{(a,b)}$ es

  • Cero si $a=0$,
  • Positiva si ambos ($a$ y $b$) son negativos o ninguno es negativo con el orden definido en $\mathbb{Z}$ y
  • Negativa si exactamente alguno ($a$ o $b$) es negativo con el orden definido en $\mathbb{Z}$.

Diremos que $\overline{(a,b)}>\overline{(c,d)}$ si $\overline{(a,b)}-\overline{(c,d)}$ es positiva.

Se puede probar que estas operaciones suma y producto, así como el orden están bien definidas (es decir que no dependen del representante que se tome).

Antes, de continuar, consideremos lo siguiente: un campo se puede pensar como un conjunto en el que están definidas la «suma» y la «multiplicación» tales que:

  • La suma es asociativa, conmutativa, tiene un neutro (el $0$) e inversos aditivos.
  • La multiplicación es asociativa, conmutativa, tiene un neutro (el $1$) y todo elemento distinto de $0$ tiene un inverso multiplicativo.
  • Se tiene la distributividad del producto sobre la suma $a(b+c)=ab+bc$.

En vista de lo anterior queremos mencionar que se puede probar lo siguiente:

Teorema. El conjunto $\mathbb{Q}$ con sus operaciones de suma y producto es un campo ordenado.

Retomando lo que hablamos del neutro para la multiplicación, en un campo, veamos un ejemplo.

Ejemplo. La clase $\overline{(c,c)}$ es el neutro multiplicativo en $\mathbb{Q}$, veamos:

Se tiene que $$\overline{(a, b)(c, c)} = \overline{(ac,bc)}=\lbrace (m, n)\in\mathbb{Z}\times\mathbb{Z}\setminus\{0\}: acn=bcm\rbrace$$

y $\lbrace (m, n)\in\mathbb{Z}\times\mathbb{Z}\setminus\{0\}: acn=bcm\rbrace=\lbrace (m, n)\in \mathbb{Z}\times\mathbb{Z}\setminus\{0\}: anc=bmc\rbrace$, pero $\lbrace (m, n)\in\mathbb{Z}\times\mathbb{Z}\setminus\{0\}: anc=bmc\rbrace=\lbrace (m, n)\in\mathbb{Z}\times\mathbb{Z}\setminus\{0\}: an=bm\rbrace=\overline{(a, b)}$. Por lo tanto $\overline{(a, b)(c, c)}=\overline{(a, b)}$. Nota que aquí estamos usando que el producto en $\mathbb{Z}$ es asociativo, conmutativo y que se pueden cancelar factores distintos de cero.

En $\mathbb{Q}$, el inverso multiplicativo de la clase $\overline{(a,b)}$ es $\overline{(b,a)}$, veamos:

Su producto es $$\overline{(ab,ba)}=\lbrace (m, n)\in \mathbb{Z}\times\mathbb{Z}\setminus\{0\}: abn=bam\rbrace$$ y $\lbrace (m, n)\in \mathbb{Z}\times\mathbb{Z}\setminus\{0\}: abn=bam\rbrace=\lbrace (m, n)\in \mathbb{Z}\times\mathbb{Z}\setminus\{0\}: m=n\rbrace=\overline{(c, c)}$.

$\triangle$

Notación simple de racionales y ecuaciones aún sin solución

Vamos a denotar la clase de equivalencia $\overline{(a,b)}$ por $\frac{a}{b}$, a partir de lo cual nuestra interpretación de pensarlo así ya se vuelve formal. Se puede mostrar que todo lo que aprendimos de esta notación en la primaria se deduce de las propiedades de $\mathbb{Q}$.

La ecuación $$ax=b$$ tiene solución casi siempre, el único problema es si $a=0$. Pero si $a\neq 0$, la solución es única y es $x=\frac{b}{a}$.

El conjunto $\mathbb{Q}$ es bastante bueno algebraicamente, pero le falta todavía más para ser bueno para análisis y cálculo. Todavía tiene «bastantes hoyos»: en él no podemos probar, por ejemplo, el teorema del valor intermedio para funciones continuas. Así mismo, hay varias ecuaciones que todavía no tienen solución en $\mathbb{Q}$.

Ejercicio. La ecuación $x^2=3$ no tiene una solución en $\mathbb{Q}$.

Una forma de enunciar el resultado anterior es decir «$\sqrt{3}$ es irracional». Pero nota que es incorrecto enunciarlo así, pues para ponerle un nombre a $\sqrt{3}$, es necesario saber quién es, y justo el punto del ejercicio es que, tan sólo con $\mathbb{Q}$, no podemos definirlo.

Solución. Vamos a proceder por contradicción. Supongamos que la ecuación $x^2=3$ tiene una solución $p/q$ en los racionales. De esta forma,$(p/q)^2=3$. Multiplicando por $q^2$ en ambos lados, $p^2=3q^2$.

La factorización en primos del lado izquierdo tiene una cantidad par de $3$’s. La factorización en primos del lado derecho tiene una cantidad impar de $3$’s. Esto es una contradicción al teorema fundamental de la aritmética, por lo tanto, no existe $p/q$ solución racional de $x^2=3$.

$\triangle$

Reales y hoyos en los racionales

Para la construcción de los reales, ya no podemos proceder como le hemos estado haciendo, considerando simplemente parejas de números del sistema anterior y construyendo una relación de equivalencia sobre ellas. Lo que buscamos cuando damos el paso entre $\mathbb{Q}$ y $\mathbb{R}$ ya no es sólo que los números tengan «inversos aditivos» o «inversos multiplicativos», sino que «todos los conjuntos acotados por abajo tengan un mejor mínimo». Esto es lo que garantiza que se «llenen los hoyos» que tienen los racionales.

Entendamos el concepto de «hoyo»:

Definición. Sea $X$ un orden total $\le$ y $S$ un subconjunto de $X$, un ínfimo de $S$, en $X$, es un $r\in X$ tal que

  • $r\leq s$ para todo $s\in S$ y
  • si $t\leq s$ para todo $t\in S$, entonces $t\leq s$.

Definición. Un conjunto $X$ con un orden total $\le$ es completo si todo subconjunto $S$ de $X$, acotado inferiormente, tiene un ínfimo.

Ejemplo. El conjunto $\mathbb{Q}$ no es completo, pues el subconjunto $$S=\{x\in \mathbb{Q}: x^2\geq 3\}$$ está acotado inferiormente, pero no tiene un ínfimo en $\mathbb{Q}$ (su ínfimo es $\sqrt{3}$ y $\sqrt{3}$ no pertenece a $\mathbb{Q}$).

$\triangle$

Sucesiones de Cauchy y construcción de los reales

Hay varias formas de construir un sistema numérico que extienda a $\mathbb{Q}$ y que no tenga hoyos. Se puede hacer mediante cortaduras de Dedekind, mediante expansiones decimales o mediante sucesiones de Cauchy de números racionales. Todas estas construcciones son equivalentes. Daremos las ideas generales de la última.

Definición. Una sucesión $$\{x_n\}=\{x_1,x_2,x_3,\ldots\}$$ es de Cauchy si para todo $N$ existe un $M$ tal que si $m\geq M$ y $n\geq M$, entonces $|x_m-x_n|<\frac{1}{N}$. Denotaremos con $C(\mathbb{Q})$ al conjunto de todas las sucesiones de Cauchy de números racionales.

Construiremos una relación de equivalencia $\sim$ en $C(\mathbb{Q})$. Si tenemos dos de estas sucesiones:
\begin{align*}
\{x_n\}&=\{x_1,x_2,x_3,\ldots\} \quad \text{y}\\
\{y_n\}&=\{y_1,y_2,y_3,\ldots\},
\end{align*}

diremos que $\{x_n\}\sim \{y_n\}$ si para todo natural $N$ existe un natural $M$ tal que para $n\geq M$ tenemos que $$|x_n-y_n|<\frac{1}{N}.$$

Se puede probar que $\sim$ es una relación de equivalencia. Para cada sucesión $\{x_n\}$ de Cauchy usamos $\overline{\{x_n\}}$ para denotar a la clase de equivalencia de $\{x_n\}$. Por definición, el conjunto $\mathbb{R}$ es el conjunto de clases de equivalencia de $\sim$, en símbolos: $$\mathbb{R}:=\{\overline{\{x_n\}}: \{x_n\} \in C(\mathbb{Q})\}.$$

Operaciones y orden en los reales

En $\mathbb{R}$ podemos definir las siguientes operaciones:

  • Suma: $\overline{\{x_n\}} + \overline{\{y_n\}}= \overline{\{x_n + y_n\}}$ .
  • Producto: $\overline{\{x_n\}} \overline{\{y_n\}}= \overline{\{x_ny_n\}}$.

También podemos definir el orden en $\mathbb{R}$. Decimos que $\overline{\{x_n\}}$ es positivo si para $n$ suficientemente grande tenemos $x_n>0$. Decimos que $\overline{\{x_n\}}>\overline{\{y_n\}}$ si $\overline{\{x_n\}}- \overline{\{y_n\}}$ es positivo.

Se puede ver que las operaciones de suma y producto, así como el orden, están bien definidos. Más aún, se puede probar el siguiente resultado.

Teorema. El conjunto $\mathbb{R}$ con sus operaciones de suma y producto es un campo ordenado y completo.

Como antes, una vez que se prueba este teorema, se abandona la notación de sucesiones y de clases de equivalencia. En realidad se oculta, pues la construcción siempre está detrás, como un esqueleto que respalda las propiedades que encontramos.

El teorema nos dice que $\mathbb{R}$ ya no tiene hoyos, y esto es precisamente lo que necesitamos para resolver algunas ecuaciones como $x^2=3$. Un esbozo de por qué es el siguiente. Gracias a la existencia de ínfimos se puede probar el teorema del valor intermedio en $\mathbb{R}$. Se puede probar que la función $x^2$ es continua, que en $x=0$ vale $0$ y que en $x=2$ vale $4$, de modo que por el teorema del valor intermedio debe haber un real $x$ tal que $x^2=3$.

Más adelante…

Las muchas otras importantes consecuencias de que $\mathbb{R}$ sea un campo ordenado y completo se discuten a detalle en cursos de cálculo. Si bien este es un logro enorme, aún tenemos un pequeño problema: ¡todavía no podemos resolver todas las ecuaciones polinomiales! Consideremos la ecuación $$x^2+1=0.$$ Podemos mostrar que para cualquier real $x$ tenemos que $x^2\geq 0$, de modo que $x^2+1\geq 1>0$. ¡Esta ecuación no tiene solución en los números reales!

Para encontrar una solución vamos a construir los números complejos. Con ellos podremos, finalmente, resolver todas las ecuaciones polinomiales, es decir, aquellas de la forma

$$a_nx^n+a_{n-1}x^{n-1}+\ldots+a_1x+a_0=0.$$

Hablaremos de esto en el transcurso de las siguientes dos unidades: números complejos y polinomios.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. ¿Cuál de las clases de equivalencia sería el neutro aditivo en $\mathbb{Q}$?
  2. ¿Por qué la definición de orden en $\mathbb{Q}$ no depende del representante elegido?
  3. ¿Cómo construirías el inverso multiplicativo de la sucesión de Cauchy $\{x_n\}$? Ten cuidado, pues algunos de sus racionales pueden ser $0$.
  4. Aprovecha esta entrada de transición entre unidades para repasar las construcciones de $\mathbb{N}$ y de $\mathbb{Z}$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»