Archivo del Autor: Leonardo Ignacio Martínez Sandoval

Leonardo Ignacio Martínez Sandoval

Acerca de Leonardo Ignacio Martínez Sandoval

Hola. Soy Leonardo Martínez. Soy Profesor de Tiempo Completo en la Facultad de Ciencias de la UNAM. Hice un doctorado en Matemáticas en la UNAM, un postdoc en Israel y uno en Francia. Además, me gusta colaborar con proyectos de difusión de las matemáticas como la Olimpiada Mexicana de Matemáticas.

Álgebra Lineal I: Bases duales, recetas y una matriz invertible

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la entrada anterior definimos el espacio dual de un espacio vectorial $V$. Así mismo, definimos las formas coordenadas, que son formas lineales asociadas a una base $B$ de $V$. Lo que hace la $i$-ésima forma coordenada en un vector $v$ es «leer» el $i$-ésimo coeficiente de $v$ expresado en la base $B$. Nos gustaría ver que estas formas coordenadas conforman bases del espacio dual.

Más concretamente, el objetivo de esta entrada es mostrar el teorema que enunciamos al final de la entrada anterior, hablar de problemas prácticos de bases duales y de mostrar un resultado interesante que relaciona bases, bases duales y la invertibilidad de una matriz.

Pequeño recordatorio

Como recordatorio, dada una base $B=\{e_1,\ldots,e_n\}$ de un espacio vectorial $V$ de dimensión finita $n$, podemos construir $n$ formas coordenadas $e_1^\ast,\ldots,e_n^\ast$ que quedan totalmente determinadas por lo que le hacen a los elementos de $B$ y esto es, por definición, lo siguiente:

$$
e_i^\ast(e_j)=
\begin{cases}
1\quad \text{ si $i=j$,}\\
0\quad \text{ si $i\neq j$.}
\end{cases}
$$

Recordemos también que dado un vector $v$ en $V$ podíamos construir a la forma lineal «evaluar en $v$», que era la forma $\text{ev}_v:V^\ast \to F$ dada por $\text{ev}_v(f)=f(v)$. Como manda elementos de $V^\ast$ a $F$, entonces pertenece a $V^{\ast \ast}$. A partir de esta definición, construimos la bidualidad canónica $\iota:V\to V^{\ast \ast}$ que manda $v$ a $\text{ev}_v$.

Finalmente, recordemos que dada una forma lineal $l$ y un vector $v$, usamos la notación $\langle l,v\rangle = l(v)$, y que esta notación es lineal en cada una de sus entradas. Todo esto lo puedes revisar a detalle en la entrada anterior.

El teorema de bases duales

El resultado que enunciamos previamente y que probaremos ahora es el siguiente.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$ y $B=\{e_1,\ldots,e_n\}$ una base de $V$. Entonces el conjunto de formas coordenadas $B^\ast=\{e_1^\ast, \ldots,e_n^\ast\}$ es una base de $V^\ast$. En particular, $V^\ast$ es de dimensión finita $n$. Además, la bidualidad canónica $\iota:V\to V^{\ast \ast}$ es un isomorfismo de espacios vectoriales.

Antes de comenzar, convéncete de que cada una de las $e_i^\ast$ son formas lineales, es decir, transformaciones lineales de $V$ a $F$.

Demostración. Veremos que $B^\ast=\{e_1^\ast,\ldots,e_n^\ast\}$ es un conjunto linealmente independiente y que genera a $V^\ast$. Veamos lo primero. Tomemos una combinación lineal igual a cero, $$z:=\alpha_1 e_1^\ast + \alpha_2 e_2^\ast+\ldots + \alpha_n e_n^\ast=0.$$ Para cada $i=1,2,\ldots,n$, podemos evaluar la forma lineal $z$ en $e_i$.

Por un lado, $z(e_i)=0$, pues estamos suponiendo que la combinación lineal de $e_i^\ast$’s es (la forma lineal) cero. Por otro lado, analizando término a término y usando que los $e_i^\ast$ son la base dual, tenemos que si $i\neq j$ entonces $e_j^\ast(e_i)$ es cero, y si $i=j$, es $1$.

Así que el único término que queda es $\alpha_i e_i^\ast(e_i)=\alpha_i$. Juntando ambas observaciones, $\alpha_i=z(e_i)=0$, de modo que todos los coeficientes de la combinación lineal son cero. Asi, $B^\ast$ es linealmente independiente.

Ahora veremos que $B^\ast$ genera a $V^\ast$. Tomemos una forma lineal arbitraria $l$, es decir, un elemento en $V^\ast$. Al evaluarla en $e_1,e_2,\ldots,e_n$ obtenemos escalares $$\langle l, e_1\rangle,\langle l, e_2\rangle,\ldots,\langle l, e_n\rangle. $$ Afirmamos que estos son los coeficientes que nos ayudarán a poner a $l$ como combinación lineal de elementos de $B^\ast$. En efecto, para cualquier vector $v$ tenemos que

\begin{align*}
\left(\sum_{i=1}^n\langle l, e_i \rangle e_i^\ast\right) (v)
&= \sum_{i=1}^{n} \langle l, e_i \rangle \langle e_i^\ast, v \rangle \\
&= \sum_{i=1}^{n} \langle l, \langle e_i^\ast, v \rangle e_i \rangle \\
&=\left \langle l, \sum_{i=1}^n \langle e_i^\ast, v\rangle e_i \right \rangle\\
&= \langle l, v \rangle\\
&= l(v).
\end{align*}

La primer igualdad es por la definición de suma de transformaciones lineales. En la segunda usamos la linealidad de la segunda entrada para meter el escalar $\langle e_i^\ast , v\rangle$. La siguiente es de nuevo por la linealidad de la segunda entrada. En la penúltima igualdad usamos que justo $\langle e_i^\ast , v\rangle$ es el coeficiente que acompaña a $e_i$ cuando escribimos a $v$ con la base $B$. Esto muestra que $B^\ast$ genera a $V^\ast$.

Así, $B^\ast$ es base de $V^\ast$. Como $B^\ast$ tiene $n$ elementos, entonces $V^\ast$ tiene dimensión $n$.

La última parte del teorema consiste en ver que $\iota:V\to V^{\ast \ast}$ es un isomorfismo de espacios vectoriales. Por lo que acabamos de demostrar, $$\dim V = \dim V^\ast = \dim V^{\ast \ast}.$$ Así que basta con mostrar que $\iota$ es inyectiva pues, de ser así, mandaría a una base de $V$ a un conjunto linealmente independiente de $V^{\ast \ast}$ con $n$ elementos, que sabemos que es suficiente para que sea base. Como $\iota$ es transformación lineal, basta mostrar que el único vector que se va a la forma lineal $0$ de $V^\ast$ es el $0$ de $V$.

Supongamos que $v$ es tal que $\text{ev}_v=0$. Vamos a mostrar que $v=0$. Si $\text{ev}_v=0$, en particular para las formas coordenadas $e_i^\ast$ tenemos que $ \text{ev}_v(e_i^\ast)=0$. En otras palabras, $e_i^\ast(v)=0$ para toda $i$. Es decir, todas las coordenadas de $v$ en la base $B$ son $0$. Así, $v=0$. Con esto terminamos la prueba.

$\square$

La demostración anterior muestra cómo encontrar las coordenadas de una forma lineal $l$ en términos de la base $B^\ast$: basta con evaluar $l$ en los elementos de la base $B$. Recopilamos esto y la igualdad dual como una proposición aparte, pues resulta ser útil en varios contextos.

Proposición. Sea $V$ un espacio vectorial de dimensión finita $n$, $B=\{e_1,\ldots, e_n\}$ una base de $V$ y $B^\ast=\{e_1^\ast,\ldots,e_n^\ast\}$ la base dual. Entonces, para todo vector $v$ en $V$ y para toda forma lineal $l:V\to F$, tenemos que
\begin{align*}
v&= \sum_{i=1}^n \langle e_i^\ast, v\rangle e_i \quad \text{ y }\\
l&= \sum_{i=1}^{n} \langle l, e_i \rangle e_i^\ast.
\end{align*}

La traza de una matriz en $M_n(F)$ es la suma de las entradas en su diagonal principal. Es sencillo verificar que la función $\text{tr}:M_n(F)\to F$ que manda a cada matriz a su traza es una forma lineal, es decir, un elemento de $M_n(F)^\ast$.

Ejemplo. Considera el espacio vectorial de matrices $M_3(\mathbb{R})$. Sea $B=\{E_{ij}\}$ su base canónica. Expresa a la forma lineal traza en términos de la base dual $B^\ast$.

Solución. Tenemos que $\text{tr}(E_{ii})=1$ y que si $i\neq j$, entonces $\text{tr}(E_{ij})=0$. De esta forma, usando la fórmula de la proposición anterior,
\begin{align*}
\text{tr}&=\sum_{i,j} \text{tr}(E_{ij}) E_{ij}^\ast\\
&=E_{11}^\ast + E_{22}^\ast + E_{33}^\ast.
\end{align*} Observa que, en efecto, esta igualdad es correcta. Lo que hace $E_{ii}^\ast$ por definición es obtener la entrada $a_{ii}$ de una matriz $A=[a_{ij}]$.

La igualdad que encontramos dice que «para obtener la traza hay que extraer las entradas $a_{11}$, $a_{22}$, $a_{33}$ de $A$ y sumarlas». En efecto, eso es justo lo que hace la traza.

$\triangle$

Algunos problemas prácticos de bases duales

Ya que introdujimos el concepto de espacio dual y de base dual, hay algunos problemas prácticos que puede que queramos resolver.

  • Dada una base $v_1,\ldots,v_n$ de $F^n$, ¿cómo podemos encontrar a la base dual $v_1^\ast, \ldots, v_n^\ast$ en términos de la base dual $e_1^\ast, \ldots, e_n^\ast$ de la base canónica?
  • Dada una base $L=\{l_1,\ldots, l_n\}$ de $V^\ast$, ¿es posible encontrar una base $B$ de $V$ tal que $B^\ast = L$? De ser así, ¿cómo encontramos esta base?

A continuación mencionamos cómo resolver ambos problemas. Las demostraciones se quedan como tarea moral. En la siguiente entrada veremos problemas ejemplo resueltos.

  • La receta para resolver el primer problema es poner a $v_1,\ldots, v_n$ como vectores columna de una matriz $A$. Las coordenadas de $v_1^\ast,\ldots, v_n^\ast$ en términos de la base $e_1^\ast,\ldots,e_n^\ast$ están dados por las filas de la matriz $A^{-1}$.
  • La receta para resolver el segundo problema es tomar una base $B’=\{e_1,\ldots, e_n\}$ cualquiera de $V$ y considerar la matriz $A$ con entradas $A=[l_i(e_j)]$. La matriz $A^{-1}$ tiene como columnas a los vectores de coordenadas de la base $B$ que buscamos con respecto a la base $B’$.

¿Por qué la matriz $A$ de la segunda receta es invertible? Esto lo mostramos en la siguiente sección.

Un teorema de bases, bases duales e invertibilidad de matrices

La demostración del siguiente teorema usa varias ideas que hemos estado desarrollando con anterioridad. Usamos que:

  • Si $V$ es de dimensión finita $n$ y $B$ es un conjunto de $n$ vectores de $V$, entonces basta con que $B$ sea linealmente independiente para ser base. Esto lo puedes repasar en la entrada del lema de intercambio de Steinitz.
  • Una matriz cuadrada $A$ es invertible si y sólo si el sistema de ecuaciones $AX=0$ sólo tiene la solución trivial $X=0$. Esto lo puedes repasar en la entrada de equivalencias de matrices invertibles.
  • Una matriz cuadrada $A$ es invertible si y sólo si su transpuesta lo es.
  • El hecho de que la bidualidad canónica $\iota$ es un isomorfismo entre $V$ y $V^{\ast \ast}$.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$ sobre el campo $F$. Sea $B=\{v_1,\ldots, v_n\}$ un conjunto de vectores en $V$ y $L=\{l_1,\ldots, l_n\}$ un conjunto de elementos de $V^\ast$, es decir, de formas lineales en $V$. Consideremos a la matriz $A$ en $M_n(F)$ dada por $$A=[l_i(v_j)].$$ La matriz $A$ es invertible si y sólo si $B$ es una base de $V$ y $L$ es una base de $V^\ast$.

Demostración. Mostraremos primero que si $B$ no es base, entonces $A$ no es invertible. Como $B$ tiene $n$ elementos y no es base, entonces no es linealmente independiente, así que existe una combinación lineal no trivial $$\alpha_1 v_1+\ldots+\alpha_n v_n=0.$$ De esta forma, si definimos $v=(\alpha_1,\ldots, \alpha_n)$, este es un vector no cero, y además, la $i$-ésima entrada de $Av$ es $$\alpha_1 l_i(v_1)+\ldots+\alpha_n l_i(v_n) = l_i(\alpha_1 v_1 + \ldots + \alpha_n v_n) = 0.$$ De este modo, $AX=0$ tiene una no solución trivial y por lo tanto no es invertible.

De manera similar, si $L$ no es base, entonces hay una combinación lineal no trivial $$\beta_1 L_1 + \ldots + \beta_n L_n =0$$ y entonces el vector $w=(\beta_1,\ldots,\beta_n)$ es una solución no trivial a la ecuación $^t A X=0$, por lo que $^t A$ no es invertible, y por lo tanto $A$ tampoco lo es.

Ahora veremos que si $L$ y $B$ son bases, entonces $A$ es invertible. Si $A$ no fuera invertible, entonces tendríamos una solución no trivial $(\alpha_1,\ldots,\alpha_n)$ a la ecuación $AX=0$. Como vimos arriba, esto quiere decir que para cada $i$ tenemos que $$ l_i(\alpha_1 v_1 + \ldots + \alpha_n v_n) = 0.$$ Como $l_i$ es base de $V^\ast$, esto implica que $l(\alpha_1 v_1 + \ldots + \alpha_n v_n)=0$ para toda forma lineal $l$, y como la bidualidad canónica es un isomorfismo, tenemos que $$\alpha_1 v_1 + \ldots + \alpha_n v_n=0.$$ Esto es imposible, pues es una combinación lineal no trivial de los elementos de $B$, que por ser base, son linealmente independientes.

$\square$

Más adelante…

Esta entrada es un poco abstracta, pues habla de bastantes transformaciones aplicadas a transformaciones, y eso puede resultar un poco confuso. Se verán problemas para aterrizar estas ideas. La importancia de entenderlas y manejarlas correctamente es que serán de utilidad más adelante, cuando hablemos de los espacios ortogonales, de transposición de transformaciones lineales y de hiperplanos.

La teoría de dualidad también tiene amplias aplicaciones en otras áreas de las matemáticas. En cierto sentido, la dualidad que vemos aquí es también la que aparece en espacios proyectivos. Está fuertemente relacionada con la dualidad que aparece en teoremas importantes de optimización lineal, que permiten en ocasiones reformular un problema difícil en términos de uno más fácil, pero con el mismo punto óptimo.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Usa la definición de linealidad para ver que las formas coordenadas $e_i^\ast$ en efecto son formas lineales.
  • Muestra que $\iota:V \to V^{\ast \ast}$, la bidualidad canónica, es una transformación lineal.
  • Justifica por qué la primer receta resuelve el primer problema práctico de bases duales.
  • Justifica por qué la segunda receta resuelve el segundo problema práctico de bases duales.
  • Sean $a_0,a_1,\ldots,a_n$ reales distintos. Considera el espacio vectorial $V=\mathbb{R}_n[x]$ de polinomios con coeficientes reales y grado a lo más $n$. Muestra que las funciones $\text{ev}_{a_i}:V\to \mathbb{R}$ tales que $\text{ev}_{a_i}(f)=f(a_i)$ son formas lineales linealmente independientes, y que por lo tanto son una base de $V^\ast$. Usa esta base, la base canónica de $V$ y el teorema de la última sección para mostrar que la matriz $$\begin{pmatrix} 1 & a_0 & a_0 ^2 & \ldots & a_0^n\\ 1 & a_1 & a_1^2 & \ldots & a_1^n\\ 1 & a_2 & a_2^2 & \ldots & a_2^n\\ & \vdots & & \ddots & \vdots \\ 1 & a_n & a_n^2 & \ldots & a_n^n\end{pmatrix}$$ es invertible.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Seminario de Resolución de Problemas: Funciones continuas

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores platicamos de propiedades aritméticas de los números enteros, del anillo de enteros módulo $n$ y de los números complejos. Vimos cómo pueden ser de utilidad para resolver problemas de matemáticas de distintos tipos. Ahora veremos temas de funciones continuas.

En esta entrada, y las subsecuentes, entraremos al mundo del cálculo y de la continuidad. En el transcurso de diez entradas veremos cómo aprovechar distintas herramientas de continuidad, cálculo diferencial e integral.

Seguiremos con la costumbre de no demostrar los teoremas principales que usemos, pero podemos recomendar al lector las siguientes fuentes para consultar los fundamentos

El orden de presentación de los temas viene del libro Problem Solving Strategies de Loren Larson.

Recordatorio de límites y continuidad

Sea $A$ un subconjunto de $\mathbb{R}$ y $f:A\to \mathbb{R}$ una función. Intuitivamente, el límite de $f(x)$ cuando $x$ tiende a $a$ es $c$ si al acercarnos a $x$ en $A$ tenemos que $f(x)$ se acerca a $c$.

De manera formal, tenemos que $$\lim_{x\to a} f(x) = c$$ si para todo $\epsilon>0$ tenemos que existe un $\delta >0$ tal que si $x\in A$ y $|x-a|<\delta$, entonces $|f(x)-c|<\epsilon$. Esta es la definición épsilon-delta. Otra forma de denotar lo mismo es decir que $f(x)\to c$ cuando $x\to a$. Los límites se comportan bien con las operaciones.

Proposición. Sean $f:A\to \mathbb{R}$ y $g:A\to \mathbb{R}$ funciones. Sea $a\in A$. Si $f(x)\to c$ y $g(x)\to d$ cuando $x\to a$, entonces

  • $f(x)+g(x)\to c+d$ cuando $x\to a$
  • $f(x)g(x)\to cd$ cuando $x\to a$
  • Si $d\neq 0$, $f(x)/g(x)\to c/d$ cuando $x\to a$

Definición. Sea $f:A\to \mathbb{R}$ una función real y $a\in A$. Decimos que $f$ es continua

  • en $a$ si $f(x)\to f(a)$ cuando $x\to a$.
  • en $S\subset A$ si es continua en todo $a\in S$.

Si $f$ es continua en $A$, simplemente decimos que es continua.

Como los límites se comportan bien con las operaciones, tenemos que las funciones continuas también se comportan bien con las operaciones.

Proposición. Sean $f:A\to \mathbb{R}$ y $g:A\to \mathbb{R}$ funciones. Sea $a\in A$. Si $f$ y $g$ son continuas en $a$, entonces

  • $f+g$ es continua en $a$
  • $fg$ es continua en $a$
  • Si $g(a)\neq 0$, $f/g$ es continua en $a$

Ejercicio. Muestra que $\frac{x^2+3x+1}{x+1}$ es continua para todo $x\neq -1$.

Sugerencia. No uses la definición épsilon-delta directamente en la función, pues será complicado. Demuestra que $f(x)=x$ es continua con la definición epsilon-delta y de ahí usa las demás propiedades enunciadas en las proposiciones.

Funciones continuas y sucesiones

Las funciones continuas y las sucesiones están cercanamente relacionadas. Recuerda que una sucesión de reales es un conjunto ordenado de reales, uno por cada entero positivo, al cual denotaremos así: $$\{x_n\}=\{x_1,x_2,x_3,x_4,\ldots\}.$$

Decimos que la sucesión $\{x_n\}$ converge a $c$, en símbolos $$\lim_{n\to \infty} x_n = c$$ si para cada $\epsilon >0$ existe un natural $N$ tal que si $n\geq N$, entonces $|x_n-c|<\epsilon$. También decimos esto como $x_n\to c$ cuando $n\to \infty$, o simplemente $x_n\to c$.

Teorema. La función $f:A\to \mathbb{R}$ es continua en $a\in A$ si y sólo si para toda sucesión de reales $\{x_n\}$ en $A$ tal que $\{x_n\}\to a$ se tiene que $f(x_n)\to f(a)$.

Este teorema tiene múltiples usos. Nos dice que para verificar que una sucesión sea continua en un punto $a$, nos basta ver qué le hace a todas las sucesiones que convergen a $a$. Si alguna de ellas no converge a $f(a)$, entonces la función no es continua. Si todas ellas convergen a $f(a)$, entonces la función sí es continua. Veamos un ejemplo de su aplicación

Problema. Considera la función $f:[0,1]\to \mathbb{R}$ la función tal que a cada irracional le asigna $0$ y a cada racional $p/q$ (expresado con $p$ y $q$ positivos y primos relativos) le asigna $1/q$. Estudia la continuidad de esta función.

Sugerencia pre-solución. La continuidad de la función se comporta distinto para los racionales y para los irracionales. Para ver qué sucede en los racionales, acércate con una sucesión de irracionales.

Solución. Demostraremos que $f$ es continua en los irracionales y no es continua en los racionales.

Tomemos un racional $r=p/q<1$. Observa que la sucesión $x_n=r+\frac{\sqrt{3}}{n}$ para $n$ suficientemente grande cae en $[0,1]$ y $x_n\to r$. Cada término de la sucesión es irracional. Así, $f(x_n)=0$ para todo término, de modo que $f(x_n)\to 0\neq 1/q = f(r)$. Esto muestra que $f$ no es continua en $r$. Para $r=1$ podemos hacer el mismo truco con $x_n=r-\frac{\sqrt{3}}{n}$ para ver que no es continua.

Tomemos ahora un número irracional $r\in[0,1]$. Tenemos que $f(r)=0$. Mostraremos que para toda sucesión $\{x_n\}$ tal que $x_n\to r$, tenemos que $f(x_n)\to 0$. Tomemos $M$ un entero positivo. Consideremos el conjunto $A_M$ de todos los números racionales en $[0,1]$ con denominador a lo más $M$.

Como $r$ es irracional, las distancias de $r$ a los números de $A_M$ son todas positivas, así que su mínimo es un real positivo $\epsilon$. Como $x_n\to r$, existe un $N$ tal que si $n\geq N$, entonces $|x_n-r|<\epsilon$. Así, para $n\geq N$, no se puede que $x_n$ esté en $A_M$. De este modo, para $n\geq N$ tenemos que $|f(x_n)|<1/M$. Esto muestra que $f(x_n)\to 0$. Así, $f$ es continua en los irracionales.

$\square$

Por supuesto, algunas veces es útil regresar a la definición epsilon-delta para funciones continuas.

Problema. Sea $f:\mathbb{R}\to\mathbb{R}$ una función inyectiva y continua tal que $f(2x-f(x))=x$ y tal que tiene por lo menos un punto fijo. Muestra que $f(x)=x$ para todo $x\in \mathbb{R}$.

Sugerencia pre-solución. Antes de intentar cualquier idea de cálculo, hay que demostrar que si se cumple $f(y)=y+r$, entonces $f(y+nr)=(y+nr)+r$. Para demostrar esto para $n$ negativa, usa inducción. Para $n$ positiva necesitarás jugar un poco con la hipótesis. Aplica la hipótesis $f(2x-f(x))=x$ para $x=f(z)$ y usa la inyectividad. De ahí obtendrás una igualdad que te servirá para encontrar $f(y+nr)$ para $n$ positivas.

Solución. La primera observación es que el conjunto de puntos fijos de una función continua es cerrado, pues si $\{x_n\}$ es una sucesión de puntos fijos que converge a un punto $c$, entonces por un lado $\{f(x_n)\}=\{x_n\}$ también converge a $c$, y por otro por continuidad converge a $f(c)$. Como los límites, cuando existen, son únicos, tenemos que $f(c)=c$.

Si $f(y)\neq y$ para alguna $y\in \mathbb{R}$, entonces tendremos $f(y)=y+r$ para alguna $r\neq 0$. Mostraremos que $f(y+nr)=(y+nr)+r$ para todo entero $n$. Aplicando la hipótesis $f(2x-f(x))=x$ para $x=y$, obtenemos que $f(y-r)=y=(y-r)+r$, de modo que inductivamente tenemos $f(y-nr)=(y-nr)+r$ para $n$ entero positivo.

Aplicando la hipótesis $f(2x-f(x))=x$ para $x=f(x)$ obtenemos $f(2f(z)-f(f(z)))=f(z)$, de modo que por inyectividad tenemos $2f(z)-f(f(z))=z$. Usando esta ecuación para $z=y$ obtenemos que $2f(y)-f(f(y))=y$, de donde $f(y+r)=2(y+r)-y=(y+r)+r$, y de aquí inductivamente $f(y+nr)=(y+nr)+r$ para $n$ enteros positivos. De esta forma, $f(y+nr)=(y+nr)+r$ para todo entero.

Ahora sí viene la parte en la que usamos la continuidad. Supongamos que $f(x)\neq x$. Sea $\epsilon=|f(x)-x|>0$. Como $f$ es continua en $x$, existe un $\delta>0$ que podemos suponer menor a $\frac{\epsilon}{4}$ tal que si $|z-x|<\delta$, entonces $|f(z)-f(x)|<\frac{\epsilon}{4}$.

Sea $x_0$ un punto frontera del conjunto de puntos fijos. Como $f$ es continua en $x_0$, podemos encontrar un $\alpha>0$ y $\alpha<\delta$ tal que si $|w-x_0|<\alpha$, entonces $|f(w)-f(x_0)|<\delta$. Como el conjunto de puntos fijos es cerrado, $x_0$ está en él. Ya que $x_0$ es punto frontera, existe un $y$ tal que $f(y)\neq y$ y $|x_0-y|\leq \alpha$. Para este $y$ tenemos por las cotas que hemos encontrado y la desigualdad del triángulo que $$|f(y)-y|\leq |f(y)-f(x_0)|+|x_0-y|\leq \delta +\alpha <2\delta.$$

Así, $r=f(y)-y$ es un número de norma entre $0$ y $2\delta$, de modo que existe una $n$ para la cual $y+nr \in (x-\delta,x+\delta)$. Por lo que probamos previamente, $f(y+nr)=(y+nr)+r$. A partir de todo esto concluimos que:

\begin{align*}
\epsilon&=|f(x)-x|\\
&\leq |f(x)-f(y+nr)|+|f(y+nr)-x|\\
&<\frac{\epsilon}{4}+|(y+nr)-x|+|r|\\
&<\frac{\epsilon}{4}+3\delta\\
&<\frac{\epsilon}{4}+\frac{3\epsilon}{4}=\epsilon.
\end{align*}

Esto es una contradicción, así que todos los reales deben ser puntos fijos de $f$.

$\square$

Dos teoremas importantes de continuidad

Las funciones continuas satisfacen dos propiedades muy importantes.

Teorema (teorema del valor intermedio). Sea $f:[a,b]\to \mathbb{R}$ una función continua. Entonces para todo $y$ entre $f(a)$ y $f(b)$ existe un real $c \in [a,b]$ tal que $f(c)=y$.

Aquí, si $f(a)\leq f(b)$ entonces «entre $f(a)$ y $f(b)$» quiere decir en el intervalo $[f(a),f(b)]$ y si $f(b)\leq f(a)$, quiere decir en el intervalo $[f(b),f(a)]$. Dicho en otras palabras, si una función continua toma dos valores, entonces toma todos los valores entre ellos.

Teorema (teorema del valor extremo). Sea $f:[a,b] \to \mathbb{R}$ una función continua. Entonces existen números $c$ y $d$ en $[a,b]$ para los cuales $f(c)\leq f(x) \leq f(d)$ para todos los $x$ en $[a,b]$.

Dicho de otra forma, una función continua definida en un intervalo cerrado «alcanza su máximo y su mínimo».

En siguientes entradas hablaremos de aplicaciones de estos teoremas. Por el momento sólo los enunciamos, y en la siguiente sección demostraremos uno de ellos.

El método de la bisección de intervalos

Una de las herramientas más útiles para trabajar con reales y con funciones continuas es el método de la bisección de intervalos. Se trata a grandes rasgos de lo siguiente:

  • Se comienza con un intervalo $[a,b]$. Definimos $a_0=a$ y $b_0=b$.
  • Partimos ese intervalo por su punto medio $m_0=m$ en dos intervalos $[a,m]$ y $[m,b]$. En alguno de esos dos pasa algo especial. Si es en el primero, definimos $a_1=a$, $b_1=m$. Si es en el segundo, definimos $a_1=m$, $b_1=b$, para conseguir un intervalo $[a_1,b_1]\subset [a_0,b_0]$ especial.
  • Continuamos recursivamente. Ya que definimos al intervalo $[a_n,b_n]$, consideramos a su punto medio $m_n$. De entre los intervalos $[a_n,m_n]$ y $[m_n,b_n]$ elegimos a uno de ellos que sea «especial» para definir $[a_{n+1},b_{n+1}]$.

Los $a_i$ forman una sucesión no decreciente acotada superiormente por $b$ y los $b_i$ una sucesión no creciente acotada inferiormente por $a$. De esta forma, ambas sucesiones tienen un límite. Además, notemos que $|b_n-a_n|=|b-a|/2^n$, de modo que $|b_n-a_n|\to 0$, por lo que ambas situaciones convergen al mismo límite $L$, y este límite está en todos los intervalos $[a_n,b_n]$. Si elegimos a los intervalos $[a_n,b_n]$ de manera correcta, podemos hacer que este límite $L$ tenga propiedades especiales.

Veamos cómo aplicar esta idea para demostrar el teorema del valor extremo.

Demostración (teorema del valor extremo). Comenzamos con una función contínua $f:[a,b]\to \mathbb{R}$. Basta con probar que $f$ alcanza su máximo, pues para ver que alcanza su mínimo basta aplicar las siguientes ideas a $-f$.

Usaremos el método de bisección de intervalos. Definimos $a_0=a$ y $b_0=b$. Suponiendo que ya definimos $a_n$ y $b_n$, consideremos el punto medio $m_n$ del intervalo $[a_n,b_n]$.

  • Si algún $x$ en $[a_n,m_n]$ cumple que $f(x)\geq f(y)$ para todo $y\in [m_n,b_n]$, elegimos $a_{n+1}=a_n$ y $b_{n+1}=m_n$.
  • En otro caso, para todo $x$ en $[a_n,m_n]$ tenemos algún $y\in [m_n,b_n]$ que cumple $f(x)<f(y)$ y elegimos $a_{n+1}=m_n$ y $b_{n+1}=b_n$.

En cualquier caso, notemos que se cumple que «para cualquier $x$ en el intervalo no elegido hay una $y$ en el intervalo sí elegido tal que $f(y)\geq f(x)$».

Como discutimos anteriormente, las sucesiones $\{a_n\}$ y $\{b_n\}$ convergen a un mismo límite $d$. Afirmamos que $f(d)\geq f(x)$ para todo $x$ en $[a,b]$. Si $x=d$, esto es claro. Si no, $x\neq d$ y definimos $x_0=x$.

Vamos a definir recursivamente una sucesión $\{x_n\}$ para la cual $$f(x_0)\leq f(x_1)\leq f(x_2)\leq f(x_3)\leq \ldots$$ mediante un proceso que haremos mientras $x_n\neq d$.

Ya que definimos $x_n$ tal que $x_n\neq d$, notemos que $d$ y $x_n$ están en el mismo intervalo $[a_0,b_0]$, pero como son distintos existe un primer $m\geq 1$ tal que en el intervalo $[a_m,b_m]$ está $d$ pero $x_n$ no. Como es la menor $m$, sí están ambos en el intervalo $[a_{m-1},b_{m-1}]$.

Por cómo definimos la elección de intervalos, hay un $y$ en el intervalo $[a_m,b_m]$ tal que $f(y)\geq f(x_n)$. Si $y=d$, terminamos (por la cadena de desigualdades). Si no, definimos $x_{n+1}$ como este $y$. Así, cuando el proceso se detiene, terminamos por la cadena de desigualdades. Si el proceso no se detiene, tenemos una sucesión infinita $\{x_n\}$ que converge a $d$, de modo que $f(d)=\lim{f(x_n)}\geq f(x_0)=f(x)$, pues cada término es mayor o igual a $f(x_0)$. Esto muestra la desigualdad $f(d)\geq f(x)$ que queríamos.

$\square$

Más problemas

Se pueden encontrar más problemas de este tema en la Sección 6.1 del libro Problem Solving through Problems de Loren Larson.

Álgebra Superior II: Esbozo de construcción de los números racionales y reales

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la unidad pasada vimos la construcción de los números enteros a partir de los números naturales. Lo que hicimos fue considerar parejas de números naturales $(a,b)$ para las que dimos la relación $\sim$ definida por $(a,b)\sim (c,d)$ si y sólo si $a+d=b+c$, vimos que esta relación es de equivalencia. Dijimos que, aunque era incorrecto formalmente, convenía pensar a la pareja $(a,b)$ como $a-b$ (es incorrecto ya que no siempre se puede restar en $\mathbb{N}$).

La relación $\sim$, así definida, genera las clases de equivalencia $$\overline{(a, b)}=\lbrace (c, d)\in \mathbb{N}\times\mathbb{N} : a+d=b+c\rbrace$$ en $\mathbb{N}\times\mathbb{N}$. El conjunto $\mathbb{Z}$ lo construimos como el conjunto de todas estas clases de equivalencia. En él definimos las operaciones:

  • Suma: $\overline{(a,b)}+\overline{(c,d)}=\overline{(a+c,b+d)}$.
  • Producto: $ \overline{(a,b)}\overline{(c,d)}=\overline{(ac+bd,ad+bc)}$.

Vimos que estas operaciones están bien definidas. La suma es bastante natural. El producto parece algo artificial, pero se vuelve natural si pensamos en «multiplicar $a-b$ con $c-d$», pues $(a-b)(c-d)=(ac+bd)-(ad+bc)$. Recordemos que es una justificación informal, pero ayuda a entender la intuición.

Después, nos dedicamos a probar que con estas operaciones, suma y producto, el conjunto $\mathbb{Z}$ es un anillo conmutativo con $1$ en donde se vale cancelar. A partir de ahí empezamos a ver a $\mathbb{Z}$ desde el punto de vista de la teoría de números. Estudiamos el máximo común divisor, la relación de divisibilidad, el anillo de enteros módulo $n$, congruencias, ecuaciones en congruencias, teorema chino del residuo y mencionamos un poco de ecuaciones diofantinas.

Con eso terminamos la unidad de enteros, correspondiente al segundo segundo parcial del curso.

Las siguientes dos unidades contempladas por el temario oficial son:

  • Números complejos.
  • Anillo de polinomios.

Vale la pena hacer una observación. Típicamente tenemos la siguiente cadena de contenciones entre sistemas numéricos $$\mathbb{N}\subset \mathbb{Z}\subset \mathbb{Q} \subset \mathbb{R}\subset \mathbb{C}.$$

En las primeras dos unidades del curso hablamos de $\mathbb{N}$ y de $\mathbb{Z}$. De acuerdo a las contenciones anteriores, lo siguiente sería tratar a detalle los racionales $\mathbb{Q}$ y los reales $\mathbb{R}$. Sin embargo el temario oficial «se los salta». Esto es un poco raro, pero podría estar justificado en que estos sistemas numéricos se estudian en otros cursos del plan de estudios. Por ejemplo, $\mathbb{R}$ se estudia con algo de profundidad en los cursos de cálculo.

De cualquier forma nos va a ser muy útil mencionar, por lo menos por «encima», cómo hacer la construcción de $\mathbb{Q}$ y $\mathbb{R}$. La construcción de los números racionales ayuda a repasar la construcción de los enteros. En la construcción de los números reales nos encontraremos con propiedades útiles que usaremos, de manera continua, cuando hablemos de la construcción de los números complejos $\mathbb{C}$. Por estas razones, aunque no vayamos a evaluar, las construcciones de $\mathbb{Q}$ y $\mathbb{R}$, en el curso, las ponemos aquí para que las conozcas o las repases.

Motivación de construcción de los racionales

Los naturales no son suficientes para resolver todas las ecuaciones de la forma $$x+a=b,$$ pues si $a>b$ la ecuación no tiene solución en $\mathbb{N}$ y esta fue nuestra motivación para construir los números enteros. En $\mathbb{Z}$ todas estas ecuaciones tienen solución. Sin embargo, en $\mathbb{Z}$ la ecuación $$ax=b$$ tiene solución si y sólo si $a$ divide a $b$ (por definición se tiene que $a$ divide a $b$ si y sólo si $b$ es un múltiplo de $a$), pero no siempre sucede esto. Por ejemplo, $3x=7$ no tiene solución en $\mathbb{Z}$.

Construcción de los racionales

Para la construcción de los racionales consideremos el conjunto $\mathbb{Z}\times \mathbb{Z}\setminus\{0\}$ y sobre él la relación $\sim$ definida por $(a,b)\sim (c,d)$ si y sólo si $ad=bc$. Resulta que $\sim$ es relación de equivalencia, así que, para cada pareja $(a,b)$ denotaremos como $\overline{(a,b)}$ a su clase de equivalencia. En este caso $$\overline{(a, b)}=\lbrace (m, n)\in \mathbb{Z}\times\mathbb{Z}\setminus\{0\} : an=bm\rbrace.$$

Observa que esta construcción se parece mucho a la que hicimos para $\mathbb{Z}$, aunque ahora nos basamos en el producto en $\mathbb{Z}$ (antes era la suma en $\mathbb{N}$). De nuevo, una forma de pensar bastante intuitiva (aunque formalmente incorrecta), es pensar a cada clase $\overline{(a,b)}$ «como $\frac{a}{b}$». Nota que estamos considerando sólo aquellas parejas $(a,b)$ tales que $b\neq 0$.

De esta forma $\mathbb{Q}$ es el conjunto de clases de equivalencia de las parejas $(a,b)$ tales que $b\neq 0$, en símbolos, $$\mathbb{Q}:=\{\overline{(a,b)}: a\in \mathbb{Z}, b\in \mathbb{Z}\setminus\{0\}\}.$$

Operaciones y orden en los racionales

Vamos a definir las operaciones en $\mathbb{Q}$. Ahora el producto es «intuitivo» y la suma no tanto.

  • Suma: $\overline{(a,b)} + \overline{(c,d)} = \overline{(ad+bc,bd)}$.
  • Producto: $\overline{(a,b)}\overline{(c,d)}=\overline{(ac,bd)}$.

La suma se vuelve mucho más intuitiva si primero pensamos en nuestra interpretación (informal) de $\overline{(a,b)}$ como $\frac{a}{b}$ y luego, por lo que aprendimos en educación primaria sobre la suma de fracciones, vemos que $$\frac{a}{b}+\frac{c}{d}=\frac{ad+bc}{bd}.$$

Ahora, para definir el orden en $\mathbb{Q}$, tomemos la pareja $(a,b)\in \mathbb{Z}\times\mathbb{Z}\setminus\{0\}$. Tenemos que la clase $\overline{(a,b)}$ es

  • Cero si $a=0$,
  • Positiva si ambos ($a$ y $b$) son negativos o ninguno es negativo con el orden definido en $\mathbb{Z}$ y
  • Negativa si exactamente alguno ($a$ o $b$) es negativo con el orden definido en $\mathbb{Z}$.

Diremos que $\overline{(a,b)}>\overline{(c,d)}$ si $\overline{(a,b)}-\overline{(c,d)}$ es positiva.

Se puede probar que estas operaciones suma y producto, así como el orden están bien definidas (es decir que no dependen del representante que se tome).

Antes, de continuar, consideremos lo siguiente: un campo se puede pensar como un conjunto en el que están definidas la «suma» y la «multiplicación» tales que:

  • La suma es asociativa, conmutativa, tiene un neutro (el $0$) e inversos aditivos.
  • La multiplicación es asociativa, conmutativa, tiene un neutro (el $1$) y todo elemento distinto de $0$ tiene un inverso multiplicativo.
  • Se tiene la distributividad del producto sobre la suma $a(b+c)=ab+bc$.

En vista de lo anterior queremos mencionar que se puede probar lo siguiente:

Teorema. El conjunto $\mathbb{Q}$ con sus operaciones de suma y producto es un campo ordenado.

Retomando lo que hablamos del neutro para la multiplicación, en un campo, veamos un ejemplo.

Ejemplo. La clase $\overline{(c,c)}$ es el neutro multiplicativo en $\mathbb{Q}$, veamos:

Se tiene que $$\overline{(a, b)(c, c)} = \overline{(ac,bc)}=\lbrace (m, n)\in\mathbb{Z}\times\mathbb{Z}\setminus\{0\}: acn=bcm\rbrace$$

y $\lbrace (m, n)\in\mathbb{Z}\times\mathbb{Z}\setminus\{0\}: acn=bcm\rbrace=\lbrace (m, n)\in \mathbb{Z}\times\mathbb{Z}\setminus\{0\}: anc=bmc\rbrace$, pero $\lbrace (m, n)\in\mathbb{Z}\times\mathbb{Z}\setminus\{0\}: anc=bmc\rbrace=\lbrace (m, n)\in\mathbb{Z}\times\mathbb{Z}\setminus\{0\}: an=bm\rbrace=\overline{(a, b)}$. Por lo tanto $\overline{(a, b)(c, c)}=\overline{(a, b)}$. Nota que aquí estamos usando que el producto en $\mathbb{Z}$ es asociativo, conmutativo y que se pueden cancelar factores distintos de cero.

En $\mathbb{Q}$, el inverso multiplicativo de la clase $\overline{(a,b)}$ es $\overline{(b,a)}$, veamos:

Su producto es $$\overline{(ab,ba)}=\lbrace (m, n)\in \mathbb{Z}\times\mathbb{Z}\setminus\{0\}: abn=bam\rbrace$$ y $\lbrace (m, n)\in \mathbb{Z}\times\mathbb{Z}\setminus\{0\}: abn=bam\rbrace=\lbrace (m, n)\in \mathbb{Z}\times\mathbb{Z}\setminus\{0\}: m=n\rbrace=\overline{(c, c)}$.

$\triangle$

Notación simple de racionales y ecuaciones aún sin solución

Vamos a denotar la clase de equivalencia $\overline{(a,b)}$ por $\frac{a}{b}$, a partir de lo cual nuestra interpretación de pensarlo así ya se vuelve formal. Se puede mostrar que todo lo que aprendimos de esta notación en la primaria se deduce de las propiedades de $\mathbb{Q}$.

La ecuación $$ax=b$$ tiene solución casi siempre, el único problema es si $a=0$. Pero si $a\neq 0$, la solución es única y es $x=\frac{b}{a}$.

El conjunto $\mathbb{Q}$ es bastante bueno algebraicamente, pero le falta todavía más para ser bueno para análisis y cálculo. Todavía tiene «bastantes hoyos»: en él no podemos probar, por ejemplo, el teorema del valor intermedio para funciones continuas. Así mismo, hay varias ecuaciones que todavía no tienen solución en $\mathbb{Q}$.

Ejercicio. La ecuación $x^2=3$ no tiene una solución en $\mathbb{Q}$.

Una forma de enunciar el resultado anterior es decir «$\sqrt{3}$ es irracional». Pero nota que es incorrecto enunciarlo así, pues para ponerle un nombre a $\sqrt{3}$, es necesario saber quién es, y justo el punto del ejercicio es que, tan sólo con $\mathbb{Q}$, no podemos definirlo.

Solución. Vamos a proceder por contradicción. Supongamos que la ecuación $x^2=3$ tiene una solución $p/q$ en los racionales. De esta forma,$(p/q)^2=3$. Multiplicando por $q^2$ en ambos lados, $p^2=3q^2$.

La factorización en primos del lado izquierdo tiene una cantidad par de $3$’s. La factorización en primos del lado derecho tiene una cantidad impar de $3$’s. Esto es una contradicción al teorema fundamental de la aritmética, por lo tanto, no existe $p/q$ solución racional de $x^2=3$.

$\triangle$

Reales y hoyos en los racionales

Para la construcción de los reales, ya no podemos proceder como le hemos estado haciendo, considerando simplemente parejas de números del sistema anterior y construyendo una relación de equivalencia sobre ellas. Lo que buscamos cuando damos el paso entre $\mathbb{Q}$ y $\mathbb{R}$ ya no es sólo que los números tengan «inversos aditivos» o «inversos multiplicativos», sino que «todos los conjuntos acotados por abajo tengan un mejor mínimo». Esto es lo que garantiza que se «llenen los hoyos» que tienen los racionales.

Entendamos el concepto de «hoyo»:

Definición. Sea $X$ un orden total $\le$ y $S$ un subconjunto de $X$, un ínfimo de $S$, en $X$, es un $r\in X$ tal que

  • $r\leq s$ para todo $s\in S$ y
  • si $t\leq s$ para todo $t\in S$, entonces $t\leq s$.

Definición. Un conjunto $X$ con un orden total $\le$ es completo si todo subconjunto $S$ de $X$, acotado inferiormente, tiene un ínfimo.

Ejemplo. El conjunto $\mathbb{Q}$ no es completo, pues el subconjunto $$S=\{x\in \mathbb{Q}: x^2\geq 3\}$$ está acotado inferiormente, pero no tiene un ínfimo en $\mathbb{Q}$ (su ínfimo es $\sqrt{3}$ y $\sqrt{3}$ no pertenece a $\mathbb{Q}$).

$\triangle$

Sucesiones de Cauchy y construcción de los reales

Hay varias formas de construir un sistema numérico que extienda a $\mathbb{Q}$ y que no tenga hoyos. Se puede hacer mediante cortaduras de Dedekind, mediante expansiones decimales o mediante sucesiones de Cauchy de números racionales. Todas estas construcciones son equivalentes. Daremos las ideas generales de la última.

Definición. Una sucesión $$\{x_n\}=\{x_1,x_2,x_3,\ldots\}$$ es de Cauchy si para todo $N$ existe un $M$ tal que si $m\geq M$ y $n\geq M$, entonces $|x_m-x_n|<\frac{1}{N}$. Denotaremos con $C(\mathbb{Q})$ al conjunto de todas las sucesiones de Cauchy de números racionales.

Construiremos una relación de equivalencia $\sim$ en $C(\mathbb{Q})$. Si tenemos dos de estas sucesiones:
\begin{align*}
\{x_n\}&=\{x_1,x_2,x_3,\ldots\} \quad \text{y}\\
\{y_n\}&=\{y_1,y_2,y_3,\ldots\},
\end{align*}

diremos que $\{x_n\}\sim \{y_n\}$ si para todo natural $N$ existe un natural $M$ tal que para $n\geq M$ tenemos que $$|x_n-y_n|<\frac{1}{N}.$$

Se puede probar que $\sim$ es una relación de equivalencia. Para cada sucesión $\{x_n\}$ de Cauchy usamos $\overline{\{x_n\}}$ para denotar a la clase de equivalencia de $\{x_n\}$. Por definición, el conjunto $\mathbb{R}$ es el conjunto de clases de equivalencia de $\sim$, en símbolos: $$\mathbb{R}:=\{\overline{\{x_n\}}: \{x_n\} \in C(\mathbb{Q})\}.$$

Operaciones y orden en los reales

En $\mathbb{R}$ podemos definir las siguientes operaciones:

  • Suma: $\overline{\{x_n\}} + \overline{\{y_n\}}= \overline{\{x_n + y_n\}}$ .
  • Producto: $\overline{\{x_n\}} \overline{\{y_n\}}= \overline{\{x_ny_n\}}$.

También podemos definir el orden en $\mathbb{R}$. Decimos que $\overline{\{x_n\}}$ es positivo si para $n$ suficientemente grande tenemos $x_n>0$. Decimos que $\overline{\{x_n\}}>\overline{\{y_n\}}$ si $\overline{\{x_n\}}- \overline{\{y_n\}}$ es positivo.

Se puede ver que las operaciones de suma y producto, así como el orden, están bien definidos. Más aún, se puede probar el siguiente resultado.

Teorema. El conjunto $\mathbb{R}$ con sus operaciones de suma y producto es un campo ordenado y completo.

Como antes, una vez que se prueba este teorema, se abandona la notación de sucesiones y de clases de equivalencia. En realidad se oculta, pues la construcción siempre está detrás, como un esqueleto que respalda las propiedades que encontramos.

El teorema nos dice que $\mathbb{R}$ ya no tiene hoyos, y esto es precisamente lo que necesitamos para resolver algunas ecuaciones como $x^2=3$. Un esbozo de por qué es el siguiente. Gracias a la existencia de ínfimos se puede probar el teorema del valor intermedio en $\mathbb{R}$. Se puede probar que la función $x^2$ es continua, que en $x=0$ vale $0$ y que en $x=2$ vale $4$, de modo que por el teorema del valor intermedio debe haber un real $x$ tal que $x^2=3$.

Más adelante…

Las muchas otras importantes consecuencias de que $\mathbb{R}$ sea un campo ordenado y completo se discuten a detalle en cursos de cálculo. Si bien este es un logro enorme, aún tenemos un pequeño problema: ¡todavía no podemos resolver todas las ecuaciones polinomiales! Consideremos la ecuación $$x^2+1=0.$$ Podemos mostrar que para cualquier real $x$ tenemos que $x^2\geq 0$, de modo que $x^2+1\geq 1>0$. ¡Esta ecuación no tiene solución en los números reales!

Para encontrar una solución vamos a construir los números complejos. Con ellos podremos, finalmente, resolver todas las ecuaciones polinomiales, es decir, aquellas de la forma

$$a_nx^n+a_{n-1}x^{n-1}+\ldots+a_1x+a_0=0.$$

Hablaremos de esto en el transcurso de las siguientes dos unidades: números complejos y polinomios.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. ¿Cuál de las clases de equivalencia sería el neutro aditivo en $\mathbb{Q}$?
  2. ¿Por qué la definición de orden en $\mathbb{Q}$ no depende del representante elegido?
  3. ¿Cómo construirías el inverso multiplicativo de la sucesión de Cauchy $\{x_n\}$? Ten cuidado, pues algunos de sus racionales pueden ser $0$.
  4. Aprovecha esta entrada de transición entre unidades para repasar las construcciones de $\mathbb{N}$ y de $\mathbb{Z}$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Álgebra Lineal I: Introducción a espacio dual

Por Leonardo Ignacio Martínez Sandoval

Introducción

En esta entrada empezamos la tercera unidad del curso de Álgebra Lineal I. Los conceptos fundamentales de esta nueva unidad son el de espacio dual y el de formas bilineales.

Hagamos un pequeño recordatorio, que será útil para entender los temas que vendrán. Ya definimos qué es un espacio vectorial y qué son las transformaciones lineales.

Para los espacios vectoriales, hablamos de subespacios, de conjuntos generadores, independientes y bases. A partir de ellos definimos qué quiere decir que un espacio sea de dimensión finita y, en ese caso, dijimos cómo definir la dimensión. Un lema fundamental para hacer esto fue el lema del intercambio de Steinitz.

Dijimos que las transformaciones lineales son funciones «bonitas» entre espacios vectoriales que «abren sumas» y «sacan escalares». Dimos como ejemplos a las proyecciones y las simetrías. Vimos lo que le hacen a generadores, linealmente independientes y bases. También, vimos que podemos expresarlas a través de matrices.

Un tipo de matrices de trasformaciones lineales muy importante son las matrices de cambios de base, que permiten conocer las coordenadas de vectores en distintas bases y pasar matrices de transformaciones lineales entre distintas bases. Finalmente, hablamos del rango para matrices y transformaciones lineales.

Es muy bueno entender estos temas lo mejor posible antes de continuar. Aunque no te queden 100% claras todas las demostraciones, por lo menos intenta sí conocer las hipótesis y los enunciados de los resultados principales.

Los temas que vendrán están basados en los capítulos 6 y 10 del libro de Titu Andreescu.

Dualidad y espacio dual

Antes de continuar, el siguiente ejemplo te debe de quedar clarísimo. Dice que hay una forma de hacer un espacio vectorial cuyos elementos son transformaciones lineales. Así es, cada vector de este espacio es una transformación lineal. Esto no debería de ser tan raro pues ya estudiamos algunos espacios vectoriales de funciones.

De ser necesario, verifica que en efecto se satisfacen los axiomas de espacio vectorial, para entender todavía mejor el ejemplo.

Ejemplo 1. Si $V$ y $W$ son espacios vectoriales sobre un mismo campo $F$, entonces el conjunto de transformaciones lineales de $V$ a $W$ es un espacio vectorial con las operaciones de suma de funciones y multiplicación por escalar.

Recordemos que la suma de funciones manda a las funciones $S:V\to W$ y $T:V\to W$ a la función $S+T:V\to W$ para la cual $$(S+T)(v)=S(v)+T(v)$$ y que la multiplicación por escalar manda al escalar $c\in F$ y a la función $T:V\to W$ a la función $cT:V\to W$ para la cual $$(cT)(v)=cT(v).$$

La razón por la cual este es un espacio vectorial es que es un subconjunto del espacio vectorial de todas las funciones de $V$ a $W$, y además es cerrado bajo sumas y multiplicaciones por escalar, de modo que es un subespacio.

A este espacio vectorial le llamamos $\text{Hom}(V,W)$.

$\triangle$

En esta unidad vamos a estudiar $\text{Hom}(V,W)$, pero para un caso particular muy concreto: para cuando $W$ es $F$, el campo sobre el cual está $V$. Podemos hacer esto, pues recuerda que podemos pensar al campo $F$ como un espacio vectorial sobre sí mismo.

A partir de ahora fijaremos el campo $F$. Si quieres, puedes pensarlo como $\mathbb{R}$ o $\mathbb{C}$ pero lo que digamos funcionará para campos arbitrarios.

Definición. Sea $V$ un espacio vectorial sobre un campo $F$. El espacio dual $V^\ast$ de $V$ es el conjunto de transformaciones lineales $l:V\to F$ dotado con las operaciones suma dada por $$(l_1+l_2)(v)=l_1(v)+l_2(v)$$ y producto por escalar dado por $$(cl)(v)=c(l(v))$$ para $l_1,l_2, l$ en $V^\ast$, $v$ en $V$ y $c$ en $F$.

A cada elemento de $V^\ast$ le llamamos una forma lineal en $V$. Usamos la palabra «forma» para insistir en que es una transformación que va hacia el campo $F$ sobre el cual está $V$.

Ejemplo 2. Consideremos al espacio vectorial $\mathbb{R}^3$. Está sobre el campo $\mathbb{R}$. Una forma lineal aquí es simplemente una transformación lineal $S_1:\mathbb{R}^3\to \mathbb{R}$, por ejemplo $$S_1(x,y,z)=x+y-z.$$ Otra forma lineal es $S_2:\mathbb{R}^3\to \mathbb{R}$ dada por $$S_2(x,y,z)=y+z-x.$$ Si sumamos ambas formas lineales, obtenemos la forma lineal $S_1+S_2$, la cual cumple $$(S_1+S_2)(x,y,z)=(x+y-z)+(y+z-x)=2y.$$

Estas son sólo dos formas lineales de las que nos interesan. Si queremos construir todo el espacio dual $(\mathbb{R}^3)^\ast$, necesitamos a todas las transformaciones lineales de $\mathbb{R}^3$ a $\mathbb{R}$.

Recordemos que cada transformación lineal $T$ de estas está representada de manera única por una matriz en $M_{1,3}(\mathbb{R})$ de la forma, digamos, $\begin{pmatrix} a & b & c\end{pmatrix}$. Así, toda transformación lineal de $\mathbb{R}^3$ a $\mathbb{R}$ lo que hace es enviar a $(x,y,z)$ a $$\begin{pmatrix} a& b & c \end{pmatrix}\begin{pmatrix}x\\ y\\ z\end{pmatrix}=ax+by+cz.$$ Se puede verificar que la suma de matrices y el producto escalar corresponden precisamente con la suma de sus transformaciones lineales asociadas, y su producto escalar.

Dicho de otra forma, $(\mathbb{R}^3)^\ast$ se puede pensar como el espacio vectorial de matrices $M_{1,3}(\mathbb{R})$. Observa que $\mathbb{R}^3$ y $(\mathbb{R}^3)^\ast$ tienen ambos dimensión $3$.

$\triangle$

Ejemplo 3. Consideremos el espacio vectorial $V$ de funciones continuas del intervalo $[0,1]$ a $\mathbb{R}$. Una forma lineal es una transformación lineal que a cada vector de $V$ (cada función) lo manda a un real en $\mathbb{R}$. Un ejemplo es la forma lineal $T:V\to \mathbb{R}$ tal que $$T(f)=\int_0^1 f(t)\,dt.$$ Otro ejemplo es la forma lineal $\text{ev}_0:V\to \mathbb{R}$ que manda a cada función a lo que vale en $0$, es decir, $$\text{ev}_0(f)=f(0).$$ Aquí dimos dos formas lineales, pero hay muchas más. De hecho, en este ejemplo no está tan sencillo decir quienes son todos los elementos de $V^\ast$.

$\triangle$

Espacio dual de un espacio de dimensión finita

Sea $V$ un espacio de dimensión finita $n$ y $B=\{e_1,e_2,\ldots,e_n\}$ una base de $V$. Como ya vimos antes, una transformación lineal queda totalmente definida por lo que le hace a los elementos de una base. Más concretamente, si $v=x_1e_1+\ldots+x_ne_n$, entonces lo que hace una forma lineal $l$ en $v$ es $$l(x_1e_1+\ldots+x_ne_n)=x_1a_1+\ldots+x_na_n,$$ en donde $a_i=l(e_i)$ son elementos en $F$.

Hay una manera canónica de combinar a un elemento $l$ de $V^\ast$ y a un elemento $v$ de $V$: evaluando $l$ en $v$. Así, definimos al emparejamiento canónico entre $V$ y $V^\ast$ como la función $$\langle\cdot, \cdot \rangle: V^\ast \times V$$ definida para $l$ en $V^\ast$ y $v$ en $V$ como $$\langle l,v\rangle = l(v).$$

Observa que $\langle\cdot, \cdot \rangle$ es lineal en cada una de sus entradas por separado, es decir para $c$ en $F$, para $l_1,l_2,l$ en $V^\ast$ y para $v_1,v_2,v$ en $V$ se tiene que $$\langle cl_1+l_2,v\rangle = c\langle l_1,v\rangle + \langle l_2,v\rangle$$ y que $$\langle l,cv_1+v_2\rangle = c\langle l,v_1\rangle +\langle l,v_2\rangle.$$ Esto es un ejemplo de una forma bilineal. Estudiaremos estas formas a detalle más adelante.

Vamos a hacer una pequeña pausa. Hasta ahora, para un espacio vectorial $V$ definimos:

  • Su espacio dual $V^\ast$.
  • El emparejamiento canónico entre $V$ y $V^\ast$.

Si a $V^\ast$ le estamos llamando «el dual» es porque esperamos que sea «muy parecido» a $V$. También, en una operación de dualidad nos gustaría que al aplicar dualidad dos veces «regresemos» al espacio original.

Por esta razón, nos gustaría a cada elemento $v$ de $V$ asociarle un elemento de $V^ {\ast \ast} $, el espacio dual del espacio dual. Afortunadamente, hay una forma muy natural de hacerlo. Para cada $v$ en $V$ podemos considerar la forma lineal $\text{ev}_v:V^\ast \to F$ que a cada forma lineal $l$ en $V^\ast$ le asigna $l(v)$.

Ejemplo. Considera el espacio vectorial de matrices $M_{2}(\mathbb{R})$. El espacio dual $M_{2}(\mathbb{R})^\ast$ consiste de todas las transformaciones lineales $T: M_{2}(\mathbb{R}) \to \mathbb{R}$. Un ejemplo de estas transformaciones es la transformación $T$ que a cada matriz la manda a la suma de sus entradas, $T\begin{pmatrix}a& b\\c & d\end{pmatrix}=a+b+c+d$. Otro ejemplo es la transformación $S$ que a cada matriz la manda a su traza, es decir, $S\begin{pmatrix}a& b\\c & d\end{pmatrix}=a+d$.

Consideremos ahora a la matriz $A=\begin{pmatrix} 5 & 2\\ 1 & 1\end{pmatrix}$.

A esta matriz le podemos asociar la transformación $\text{ev}_A:M_{2}(\mathbb{R})^\ast\to F$ tal que a cualquier transformación lineal $L$ de $ M_{2}(\mathbb{R})$ a $\mathbb{R}$ la manda a $L(A)$. Por ejemplo, a las $T$ y $S$ de arriba les hace lo siguiente $$\text{ev}_A(T)=T(A)=5+2+1+1=9$$ y $$\text{ev}_A(S)=S(A)=5+1=6.$$

$\triangle$

La discusión anterior nos permite dar una transformación lineal $\iota: V \to V {\ast \ast}$ tal que a cada $v$ la manda a $\text{ev}_v$, a la cual le llamamos la bidualidad canónica entre $V$ y $V^ {\ast \ast} $. Nota que $$\langle \iota(v), l\rangle=\langle l, v\rangle.$$ Un teorema importante que no probaremos en general, sino sólo para espacios vectoriales de dimensión finita, es el siguiente.

Teorema. Para cualquier espacio vectorial $V$, la bidualidad canónica es inyectiva.

De hecho, para espacios vectoriales de dimensión finita veremos que es inyectiva y suprayectiva, es decir, que es un isomorfismo entre $V$ y $V^{\ast \ast}$.

Formas coordenadas

En esta sección hablaremos de cómo encontrar una base para el espacio dual de un espacio vectorial $V$ de dimensión finita.

Supongamos que $V$ es de dimensión finita $n$ y sea $B=\{e_1,\ldots,e_n\}$ una base de $V$. A partir de la base $B$ podemos obtener $n$ formas lineales $e_i^\ast:V\to F$ como sigue. Para obtener el valor de $e_i^\ast$ en un vector $v$, expresamos a $v$ en términos de la base $$v=x_1e_1+x_2e_2+\ldots+x_n e_n$$ y definimos $e_i^\ast(v)=x_i$. A $e_i^\ast$ le llamamos la $i$-ésima forma coordenada para la base $B$ de $V$.

Directamente de las definiciones que hemos dado, tenemos que $$v=\sum_{i=1}^n e_i^\ast(v) e_i = \sum_{i=1}^n \langle e_i^\ast, v\rangle e_i.$$

Otra relación importante es que $e_i^\ast(e_j)=0$ si $i\neq j$ y $e_i^\ast(e_j)=1$ si $i=j$. De hecho, muchas veces tomaremos esta como la definición de la base dual.

Ejemplo. Si estamos trabajando en $F^n$ y tomamos la base canónica $e_i$, entonces la forma canónica $e_i^\ast$ manda al vector $(x_1,\ldots,x_n)$ a $x_i$, que es precisamente la $i$-ésima coordenada. De aquí el nombre de formas coordenadas. En efecto, tenemos que $$v=x_1e_1+x_2e_2+\ldots+x_ne_n.$$

$\triangle$

Estamos listos para enunciar el teorema principal de esta entrada introductoria a dualidad lineal.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$ y $B=\{e_1,\ldots,e_n\}$ una base de $V$. Entonces el conjunto de formas coordenadas $B^\ast=\{e_1^\ast, \ldots,e_n^\ast\}$ es una base de $V^\ast$. En particular, $V^\ast$ es de dimensión finita $n$. Además, la bidualidad canónica $\iota:V\to V^{\ast \ast}$ es un isomorfismo de espacios vectoriales.

Más adelante…

Esta primera entrada introduce los conceptos de espacio dual. Estos conceptos son bastante útiles más adelante. Veremos que gracias a ellos, podemos dar una interpretación en términos de transformaciones lineales de la matriz transpuesta. En esta primer entrada también hablamos de formas lineales. Más adelante, veremos como éstas nos llevan de manera natural al concepto de «hiperplanos» en cualquier espacio vectorial. Uno de los resultados clave que demostraremos con la teoría de dualidad es que cualquier subespacio de un espacio vectorial de dimensión finita se puede pensar como intersección de hiperplanos. Gracias a esto encontraremos una fuerte relación entre subespacios y sistemas de ecuaciones lineales.

Antes de poder hacer estas cosas bien, necesitamos desarrollar bases sólidas. Por ello, en la siguiente entrada demostraremos el último teorema enunciado. También, veremos algunas recetas para resolver problemas de bases duales.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Revisa por definición que si $V$ y $W$ son espacios vectoriales sobre $F$, entonces $\text{Hom}(V,W)$ es un espacio vectorial sobre $F$.
  • Encuentra más formas lineales en el espacio de funciones continuas del intervalo $[0,1]$ a $\mathbb{R}$.
  • Justifica por qué $\iota:V\to V^{\ast \ast}$ es una transformación lineal y argumenta por qué $\langle \iota (v),l\rangle = \langle l,v\rangle$.
  • En el espacio de polinomios $\mathbb{R}_n[x]$ con coeficientes reales y grado a lo más $n$, ¿quienes son las formas coordenadas para la base ordenada $(1,x,x^2,\ldots,x^{n-1},x^n)$?, ¿quiénes son las formas coordenadas para la base ordenada $(1,1+x,\ldots,1+\ldots+x^{n-1},1+\ldots+x^n)$?
  • Aplica el último teorema a la base canónica $E_{ij}$ de $M_2(\mathbb{R})$ para encontrar una base de $M_2(\mathbb{R})^\ast$
  • Considera el espacio vectorial $V$ de matrices en $M_2(\mathbb{R})$. ¿Quién es el kernel de la forma lineal en $V$ que a cada matriz la manda a su traza? ¿Quién es el kernel de la forma lineal $\text{ev}_A$ en $V^\ast$, donde $A=\begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}$?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Seminario de Resolución de Problemas: Aritmética de números complejos

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores de esta sección hablamos de propiedades aritméticas de números enteros. En esta entrada veremos varias de las propiedades aritméticas de los números complejos y cómo se pueden usar para resolver problemas, incluso aquellos en los que los números complejos no están mencionados de manera explícita en el enunciado.

Distintas formas de los números complejos

La forma más común en la que pensamos en números complejos es en su forma rectangular, en donde un complejo se escribe de la forma $z=a+bi$, en donde $a$ y $b$ son números reales y pensamos a $i$ como un número tal que $i^2=-1$. A $a$ le llamamos la parte real y a $b$ la parte imaginaria.

Podemos colocar al complejo $z=a+ib$ en el plano cartesiano, identificándolo con el punto $(a,b)$. De aquí, la forma polar del complejo es $z=r(\cos \theta + i \sin \theta)$, en donde $r$ es la norma $|z|:=\sqrt{a^2+b^2}$ y si $z\neq 0$, $\theta$ es el argumento, que es el ángulo en el sentido antihorario desde el origen entre el eje horizontal y el punto $(a,b)$. Si $z=0+i0=0$, no definimos el argumento.

Forma polar y rectangular de un complejo
Forma polar y rectangular de un complejo.

Así como le hacíamos en el caso de trabajar con módulos, a veces conviene pensar que el argumento es el único ángulo en $[0,2\pi)$ que cumple lo anterior. En otras ocasiones, conviene pensar al argumento como a veces que es la clase de todos los ángulos módulo $2\pi$.

Cuando tenemos a complejos $w=a+ib$ y $z=c+id$ en forma rectangular, su suma $w+z=(a+c) + i(b+d)$ corresponde geométricamente a encontrar la diagonal del paralelogramo definido por $(a,b)$, $(c,d)$ y el origen, pues corresponde justo al punto $(a+c,b+d)$.

Suma de números complejos
Suma de números complejos.

Su multiplicación $wz$ en forma rectangular es $(ac-bd)+(ad+bc)i$, que geométricamente no es tan claro que sea.

La forma exponencial $z=re^{i\theta}$ es simplemente una forma de abreviar a la forma polar, pues por definición $e^{i\theta}=\cos \theta + i \sin \theta$. En forma exponencial, el producto es más sencillo de entender.

Ejercicio. Demuestra lo siguiente:

  • Muestra que la norma es multiplicativa, es decir, que para complejos $r$ y $s$ se tiene que $|rs|=|r||s|$.
  • Muestra que $e^{i\alpha}e^{i\beta}=e^{i(\alpha+\beta)}$.

Sugerencia. Para el primer punto, haz las cuentas usando la forma rectangular. Para el segundo punto, escribe las definiciones de todos los términos en forma polar. Haz las multiplicaciones en el lado izquierdo y usa las fórmulas trigonométricas para sumas de ángulos.

Por el ejercicio anterior, si tenemos a los complejos en forma polar $w=re^{i\alpha}$, $z=se^{i\beta}$, entonces el producto es $wz=rse^{i(\alpha+\beta)}$, de modo que el producto corresponde al complejo con el producto de normas y suma de argumentos. En ocasiones esto nos permite plantear algunos problemas geométricos en términos de números complejos.

Producto de números complejos.
Multiplicación de números complejos.


Aplicaciones de aritmética de complejos

Veamos dos aplicaciones de la teoría anterior a problemas que no mencionan en el enunciado a los números complejos.

Problema. Sean $a$ y $b$ enteros. Muestra que el número $(a^2+b^2)^n$ se puede expresar como la suma de los cuadrados de dos números enteros.

Podría ser tentador usar el binomio de Newton para elevar el binomio a la $n$-ésima potencia. Sugerimos que intentes esto para darte cuenta de las dificultades que presenta.

Sugerencia pre-solución. Escribe a $a^2+b^2$ como el cuadrado de la norma de un complejo y usa que es multiplicativa.

Solución. El número $r=a^2+b^2$ es la norma al cuadrado del número complejo $z=a+ib$. Entonces, el número $r^n=(a^2+b^2)^n$ es la norma al cuadrado del número complejo $z^n=(a+ib)^n$. Pero al desarrollar $(a+ib)^n$ obtenemos únicamente a $i$, potencias de $a$ y de $b$, y coeficientes binomiales. De modo que $z^n=(a+ib)^n=c+id$ con $c$ y $d$ enteros (aquí estamos usando notación adecuada: no es necesario saber quienes son, sólo que son enteros). Así, $r^n=c^2+d^2$ con $c$ y $d$ enteros.

$\square$

Veamos ahora un ejemplo de geometría. Este problema es posible resolverlo de muchas formas, pero notemos que los números complejos nos dan una forma de hacerlo de manera algebraica de manera inmediata.

Problema. En la siguiente figura hay tres cuadrados de lado $1$ pegados uno tras otro. Determina la suma de los ángulos marcados con $\alpha$ y $\beta$.

Problema de suma de ángulos
Determinar el valor de la suma $\alpha+\beta$.

Sugerencia pre-solución. El problema pide determinar una suma de ángulos, así que conviene pensar esta suma de ángulos como el ángulo del producto de dos complejos. Haz tu propia figura, pero ahora sobre el plano complejo.

Solución. El ángulo $\alpha$ es igual al argumento del complejo $2+i$ y el ángulo $\beta$ es igual al argumento del complejo $3+i$. De esta forma, $\alpha+\beta$ es igual al argumento del complejo $(2+i)(3+i)=(6-1)+(2+3)i=5+5i$. Este complejo cae sobre la recta $\text{Re}(z)=\text{Im}(z)$, de modo que su argumento es $\pi / 4$.

$\square$

Este problema también se puede resolver de (numerosas) maneras geométricas, que puedes consultar en este video.

Fórmula de De Moivre

El siguiente teorema se puede demostrar por inducción sobre $n$.

Teorema (fórmula de De Moivre). Para cualquier entero $n$ y ángulo $\theta$ se tiene que $$(\cos \theta + i \sin \theta)^n=\cos (n\theta) + i \sin (n\theta).$$ Dicho de otra forma, en términos de la forma exponencial, se vale usar la siguiente ley de los exponentes $$(e^{\theta i})^n=e^{(n\theta) i}.$$

La fórmula de De Moivre es otra herramienta que ayuda a resolver problemas de números reales enunciándolos en términos trigonométricos. El truco consiste en:

  1. Tomar una expresión real que queramos entender.
  2. Identificarla como la parte real o imaginaria de una expresión compleja.
  3. Usar la aritmética de números complejos para entender la expresión compleja.
  4. Regresar lo que entendamos a los reales.

Veamos un par de ejemplos, relacionados con funciones trigonométricas. Comenzamos con una fórma de encontrar la fórmula para el coseno de cinco veces un ángulo.

Problema. Sea $\theta\in [0,2\pi)$. Expresa a $\cos 5\theta$ en términos de $\cos \theta$.

Sugerencia pre-solución. Identifica a $\cos 5\theta$ como la parte real de un número complejo. Inspírate en la fórmula de De Moivre. Usa binomio de Newton.

Solución. Por la fórmula de De Moivre, $\cos 5\theta$ es la parte real del complejo $(\cos \theta + i \sin \theta)^5$, así que calculemos quién es exactamente este número usando binomio de Newton. Para simplificar la notación, definimos $a=\cos \theta$ y $b=\sin \theta$. Tenemos que

\begin{align*}
(a+ib)^5&=a^5+5a^4(bi)+10a^3(ib)^2+10a^2(ib)^3+5a(ib)^4+(ib)^5\\
&=(a^5-10a^3b^2+5ab^4) + (5a^4b-10a^2b^3+b^5) i.
\end{align*}

Además, por la identidad pitagórica recordemos que $a^2+b^2=1$, de donde $b^2=1-a^2$, de modo que la parte real de la expresión anterior es $$a^5-10a^3(1-a^2)+5a(1-2a^2+a^4),$$ que agrupando es $$16a^5-20a^3+5a.$$ Recordando que $a$ es $\cos \theta$, obtenemos la fórmula final $$\cos 5\theta = 16\cos^5 \theta – 20 \cos^3 \theta + 5\cos \theta.$$

$\square$

Raíces de la unidad

En muchos problemas se utilizan las raíces de la ecuación $x^n=1$.

Teorema. Sea $n\geq 1$ un entero. Las ecuación $x^n=1$ tiene $n$ soluciones complejas, que en el plano complejo forman los vértices del $n$-ágono regular con centro en $0$ y tal que uno de sus vértices es $1$. Si $\omega$ es la raíz de menor argumento positivo, entonces estas soluciones son $1,\omega, \omega^2,\ldots,\omega^{n-1}$.

Raíces de la unidad en los números complejos
Raíces $n$-ésimas de la unidad para $n=5$.

A estas soluciones les llamamos las raíces $n$-ésimas de la unidad. Notemos que $\omega^{n}=1$, y que en general si escribimos a un entero $m$ usando el algoritmo de la división como $m=qn+r$, entonces $\omega^m=\omega^r$. ¡Los productos de raíces de la unidad se comportan como los elementos de $\mathbb{Z}_n$ bajo suma módulo $n$!

Proposición. Sea $n\geq 2$ un entero. La suma de las $n$ raíces $n$-ésimas de la unidad es $0$ y su producto es $1$.

La proposición anterior nos permite, en ocasiones, «filtrar» ciertas expresiones algebraicas. A continuación presentamos un ejemplo, que retomamos de los primeros ejemplos que vimos, cuando estábamos aprendiendo la heurística de encontrar un patrón.

Problema. Determina el valor de la suma $$\binom{100}{0}+\binom{100}{3}+\binom{100}{6}+\ldots+\binom{100}{99}.$$

Sugerencia pre-solución. Si no recuerdas lo que debería salir, vuelve a experimentar con los primeros valores, para cuando en vez de usar $100$ se usan números más chiquitos. Para entender mejor el patron, generaliza el problema, y en vez de sólo tener múltiplos de $3$ abajo, explora también qué sucede cuando tienes los números que dejan residuo $0$, $1$ o $2$ módulo $3$.

Ya que recuerdes la fórmula que queremos, considera una raíz cúbica $\omega$ de la unidad distinta de $1$. Calcula $(1+1)^{100}$, $(1+\omega)^{100}$ y $(1+\omega^2)^{100}$ usando el binomio de Newton y aprovechando que toda potencia de $\omega$ es $1$, $\omega$ u $\omega^2$ para simplificar la notación.

Solución. Sea $\omega$ una raíz cúbica de la unidad distinta de $1$. Tenemos que $\omega^3=1$ y que $1+\omega+\omega^2=0$. De este modo, podemos usar $\omega$ y el binomio de Newton para calcular las siguientes expresiones

\begin{align*}
(1+1)^{100}&=\binom{100}{0}+\binom{100}{1}+\binom{100}{2}+ \binom{100}{3}+ \ldots\\
(1+\omega)^{100}&= \binom{100}{0}+\binom{100}{1}\omega+\binom{100}{2}\omega^2+\binom{100}{3}+\ldots\\
(1+\omega^2)^{100}&= \binom{100}{0}+\binom{100}{1}\omega^2+\binom{100}{2}\omega+ \binom{100}{3}+\ldots
\end{align*}

¿Qué sucede al sumar las tres expresiones? En el lado derecho, cada vez que $m$ es un múltiplo de $3$, tenemos $3\binom{100}{m}$, y cada vez que $m$ no es un múltiplo de $3$, tenemos $$(1+\omega+\omega^2)\binom{100}{m}=0.$$ ¡Se filtran exactamente los coeficientes binomiales con parte inferior múltiplo de $3$! Así, tres veces la suma que buscamos es igual a $$2^{100}+(1+\omega)^{100}+(1+\omega^2)^{100}.$$

Esta ya es una expresión suficientemente cerrada, pero podemos simplificar todavía más:

\begin{align*}
(1+\omega)^{100}&=(-\omega^2)^{100}=\omega^{200}=\omega^2\\
(1+\omega^2)^{100}&=(-\omega)^{100}=\omega\\
(1+\omega)^{100}+(1+\omega^2)^{100}&=\omega^2+\omega=-1.
\end{align*}

Así, la expresión que queremos es $\frac{2^{100}-1}{3}$.

$\square$

Más ejemplos

Puedes ver más ejemplos del uso de esta teoría en la Sección 3.5 del libro Problem Solving through Problems de Loren Larson.