Archivo de la etiqueta: algebra

Álgebra Superior II: Principio de inducción y teoremas de recursión

Introducción

Inducción y recursión son dos conceptos similares con los que seguramente te has topado en tu formación matemática, e incluso tal vez antes. Muchas veces se llegan a confundir ambos conceptos, ya que ambos tienen una fuerte relación con el 5° axioma de Peano.

Aunque lo detallaremos a lo largo de la entrada, el principio de Inducción es una propiedad de los números naturales, que nos sirve para demostrar que todos los naturales satisfacen una propiedad. Es decir, es una estrategia de demostración. En contraste, la recursión es un resultado que justifica el hecho de poder dar una definición para todos los naturales, basándonos en la definición de su antecesor. En otras palabras, es una estrategia de definición.

Al final de la entrada demostraremos el teorema de recursión débil, en cuya prueba, podremos apreciar cómo es que depende directamente del Principio de inducción.

Pruebas por inducción

Recordemos el 5° axioma de Peano, el cual probamos en la entrada pasada que se satisface en nuestro modelo:

Si $S\subset \mathbb{N}$ satisface que

  • $0\in S$ y
  • si $n\in S$, implica que $\sigma(s)\in S$,

entonces $S=\mathbb{N}$.

Como hemos mencionado en entradas anteriores, esta proposición es muy similar al principio de Inducción que probablemente hayas ocupado desde el curso de Álgebra Superior I. Más aún, en la entrada pasada, seguimos la misma estrategia que en otros cursos, a la hora de ocupar el 5° axioma. Efectivamente, la equivalencia entre ambos resultados es casi inmediata, y como ejemplo ilustrativo, probaremos el Principio de Inducción a partir del 5° axioma de Peano.

Proposición (Principio de Inducción): Sea $P(n)$ una propiedad, es decir, una proposición matemática que depende de un entero $n$. Si se tiene que:

  1. $P(0)$ es verdadera y
  2. cada vez que $P(n)$ es cierto, también lo es $P(n+1)$,

entonces P(n) es cierta para todos los números naturales.

Demostración. Sea $P(n)$ una propiedad que satisface 1. y 2. y consideremos el conjunto $S:=\{n\in\mathbb{N}: P(n)\text{es verdadera}\}$.

Como $P(0)$ es verdadera, entonces $0\in S$.

Tomemos $n\in S$, entonces $P(n)$ es verdadera, y por 2., tenemos que $P(n+1)$ es verdadera; es decir, $n+1\in S$. Por el 5° Axioma de Peano, se tiene que $S=\mathbb{N}$, por lo que por la definición de $S$, se tiene que $P(n)$ es cierta para cada $n\in \mathbb{N}$

$\square$

Definiciones por recursión

Una de nuestras primeras ideas para poder construir a $\mathbb{N}$, fue intentar construir a mano cada elemento. Para esto, dimos una definición de lo que significaba el $0$ y el sucesor de un número. Después empezamos a iterar una y otra vez la función sucesor para obtener el sucesor del último número encontrado. Discutimos por qué es que esta idea no sería el mejor camino (sólo nos permite llegar hasta una cantidad finita de naturales), por lo tuvimos que introducir el Axioma del Infinito para resolver el problema. Veamos la analogía entre esta idea y el siguiente ejemplo intuitivo.

Ejemplo: Definamos la función factorial de un número natural, como:

  • $0!=1$
  • $(n+1)!=(n!)(n+1)$

Entonces, $3!:=(2!)(3)=(1!)(2)(3)=(0!)(1)(2)(3)=(1)(1)(2)(3)=6$.

Recordemos que al definir a los naturales, necesitábamos conocer un número para poder definir su sucesor. Aquí sucede lo mismo: en la definición de factorial necesitamos conocer quién es el factorial de un número para poder definir el factorial de su sucesor. A este tipo de definiciones se les conoce como definiciones recursivas, ya que para definir algo para un número, necesitamos tener conocimiento del valor de la función en los números anteriores.

Queda una pregunta muy importante. Si a los naturales no los pudimos definir de manera recursiva, ¿por qué podemos afirmar que la función factorial sí existe? A continuación enunciaremos algunos teoremas que nos garantizarán que sí podemos hacer este tipo de definiciones recursivas en nuestro modelo. Daremos una versión fuerte y una versión débil. Demostraremos la versión débil, pues basta para mucho de lo que queremos definir en los naturales (sumas, productos, potencias).

Las siguientes secciones son un poquito técnicas. Si las puedes seguir por completo, es fantástico. Pero incluso si no es así, basta con que en el fondo te quedes con la idea importante detrás: sí se vale definir de manera recursiva. Más adelante podrás regresar a este tema y entenderlo por completo.

Los teoremas de la recursión

Antes de la demostración principal de esta entrada, enunciaremos los teoremas que nos importan y hablaremos de manera intuitiva de lo que dicen. Hay dos versiones que veremos: una fuerte y una débil. Aunque parece que dicen cosas diferentes, en realidad son equivalentes. Será muy claro que la versión fuerte «implica» a la débil. Pero luego, en los problemas de tarea moral, se esbozará cómo ver que la versión débil se puede utilizar para demostrar la fuerte.

Teorema (Recursión Fuerte): Sea $X$ un conjunto y $x_{0}\in X$. Supongamos que tenemos varias funciones (una por cada natural $i$) $$\{f_{i}:X\to X\}_{i\in\mathbb{N}\setminus \{0\}.$$ Entonces existe una única función $g:\mathbb{N}\to X$ tal que:

  • $g(0)=x_{0}$
  • $g(\sigma(n))=f_{\sigma(n)}(g(n))$.

¿Qué es lo que quiere decir este teorema? Para responder esta pregunta veamos el siguiente diagrama:

Nuestro diagrama empieza en $0$, el cual queremos que sea mandado a algún $x_{0}\in X$, para la definición de los demás números, ocupamos la segunda característica que esperamos que $g$ satisfaga. Por ejemplo $g(1)=g(\sigma(0))=f_{1}(g(0))=f_{1}(x_{0})$. Este análisis coincide con lo que nos presenta el primer cuadro de flechas del diagrama anterior, que nos presenta los dos caminos que debe satisfacer $g$, para que sea la función que queremos. Como da lo mismo si «primero aplicamos $\sigma$ y luego $g$», a que si «primero aplicamos $g$ y luego $f_1$», decimos que el primer cuadrado del diagrama conmuta.

Análogamente, ya que conocemos la definición de $g(1)$ podemos fijarnos en el segundo cuadro, para poder definir $g(2)$ (de nuevo, conmuta) y seguir «recursivamente» para cualquier número natural.

Ejemplo: ¿Qué conjunto, y qué funciones necesitamos para definir el factorial?

Consideremos $X=\mathbb{N}$, definiremos intuitivamente (ya que aún no lo hemos definido formalmente), $f_{i}:\mathbb{N}\longrightarrow \mathbb{N}$, como $f_{i}(n)=i\cdot n$, es decir, el producto por $i$.

El teorema de Recursión Fuerte, nos dice que existe una única función $g$ tal que

  • $g(0)=1$
  • $g(\sigma(n))=f_{\sigma(n)}(g(n))=\sigma(n)\cdot g(n)$

Denotemos $n!:=g(n)$. Entonces tenemos que $\sigma(n)!=n!\cdot \sigma(n)$, justo como queremos.

$\square$

El teorema de Recursión Débil y su demostración

El teorema de Recursión Débil tiene un enunciado parecido al teorema de recursión fuerte y puede ser visto como una consecuencia directa del teorema anterior pues se obtiene de la versión fuerte tomando $f_{1}=f_{2}=\ldots=f_{n}=\ldots$

Teorema (Recursión Débil): Sea $X$ un conjunto y $x_{0}\in X$. Supongamos que tenemos una función $f:X\to X$. Entonces existe una única función $g:\mathbb{N}\to X$ tal que:

  • $g(0)=x_{0}$
  • $g(\sigma(n))=f(g(n))$.

Para concluir con esta entrada, probaremos el teorema de Recursión Débil. Antes de hacer esto introducimos un concepto auxiliar y una propiedad de los naturales.

Recordemos que como conjunto, $m=\{0,1,…,m-1\}$, lo que sugiere la siguiente definición.

Definición: Si $n,m\in \mathbb{N}$, decimos que $n<m$ si $n\in m$.

Puede probarse que esta relación en $\mathbb{N}$ es un orden total, y que sastisface la siguiente propiedad.

Teorema (Principio el Buen Orden): Sea $S\subset\mathbb{N}$ un conjunto no vacío, es decir $S\neq \emptyset$. Entonces $S$ tiene un elemento mínimo. Es decir, existe $n\in S$ tal que $n<m$ para todo $m\in S\setminus\{n\}$.

La prueba del Principio del Buen Orden y más propiedades de $<$ serán estudiadas con mayor detalle en entradas posteriores. Con esto en mente demostramos el teorema de Recursión Débil.

Demostración. Recordemos que por definición, toda función con dominio $A$ y codominio $B$, es un subconjunto de $A\times B$, por lo que una buena idea es analizar el conjunto $\wp(\mathbb{N}\times X)$, definamos

\[\Re:=\{R\in\wp(\mathbb{N}\times X)\mid (0,x_{0})\in R \text{ y si }(n,x)\in R\text{, entonces }(\sigma(n),f(x))\in R\}\]

Esta definición se ve terriblemente complicada. Pero la intuición es clara: $\Re$ tiene a todas las posibles colecciones de parejas de $\mathbb{N}\times X$ que cumplen lo que queremos. El problema es que muchas de ellas no son funciones y tenemos que «arreglar esto».

Probablemente, notarás alguna similitud entre el conjunto $\Re$ y el conjunto de los subconjuntos inductivos (que se menciona en La construcción de los naturales). Siguiendo esta analogía, definiremos $g:=\bigcap \Re$ (podemos hacer esta intersección ya que $\Re$ no es vacío pues $\mathbb{N}\times X$ está en $\Re$).

  • Demostremos que $g\in \Re$:

Por las propiedades de la intersección, tenemos que $g\subset\mathbb{N}\times X$, por lo que $g\in \wp(\mathbb{N}\times X)$. Veamos que $(0,x_{0})\in g$. Sea $R\in\Re$ arbitrario, entonces $(0,x_{0})\in R$, por lo que $(0,x_{0})\in\bigcap \Re=g$. Por último, si $(n,x)\in g$, demostremos que $(\sigma(n),f(x))\in g$, para esto, sea $R\in \Re$ arbitrario, como $(n,x)\in g$, entonces $(n,x)\in R$, por lo que $(\sigma(n),f(x))\in R$. Es decir, $(\sigma(n), f(x))\in\bigcap \Re=g$. Por todo lo anterior, $g\in\Re$.

  • Veamos ahora que $Dom(g)=\mathbb{N}$:

Usemos el quinto axioma de Peano, como $(0,x_{0})\in g$, entonces $0\in Dom(g)$. Supongamos ahora que $n\in Dom(g)$ y demostremos que $\sigma(n)\in Dom(g)$, por la hipótesis de inducción, existe $x\in X$ tal que $(n,x)\in g$, y como $g\in\Re$, tenemos que $(\sigma(n),f(x))\in g$, pero esto quiere decir que $\sigma(n)\in Dom(g)$. Entonces $Dom(g)$ es inductivo, entonces $Dom(g)=\mathbb{N}$.

  • Demostremos ahora que $g$ sí es función. Para esto, tenemos ver que «cada natural se va a un sólo elemento», en símbolos, si $(n,x),(n,y)\in g$ entonces $n=m$

Aquí es donde ocuparemos el Principio del Buen Orden. Consideremos $S:=\{n\in\mathbb{N}\mid (n,x),(n,y)\in g \text{ y } x\neq y \}$. Procedamos por contradicción, supongamos que $S\neq\emptyset$, entonces, $S$ tiene un elemento mínimo, denotémoslo por $n$.

Si $n=0$, entonces existe $x\in X$ tal que $(0,x)\in X$ y $x\neq x_{0}$. Entonces consideremos $g’=g\setminus\{(0,x)\}$. Notemos que $g’\in\Re$, ya que $(0,x_{0})\in g’$, ya que $(0,x_{0})\neq (0,x)$. Además si $(k,a)\in g’$, entonces $(k,a)\in g$, por lo que $(\sigma(k),f(a))\in g$, y como $0$ nunca es el sucesor de otro número, tenemos que $(\sigma(k),f(a))\neq(0,x)$, por lo tanto $(\sigma(k),f(a))\in g’$, es decir, $g’\in \Re$, lo que implica que $g=\bigcap \Re\subset g’=g\setminus\{(0,x)\}$ lo cual es absurdo, por lo que $n\neq 0$.

Como $n\neq 0$, debemos tener que existe $m$ tal que $\sigma(m)=n$ ¿Por qué?. Y como $n$ es el mínimo en $S$, tenemos que $m\not\in S$, es decir, existe un único $x\in X$ tal que $(m,x)\in g$, esto implica que $(\sigma(m),f(x))=(n,f(x))\in g$, y como $n\in S$, debe existir $y\in X$, $y\neq f(x)$ tal que $(n,y)\in g$. Análogamente a como lo hicimos antes, consideremos $g’=g\setminus (n,y)$ y veamos que $g’\in \Re$. Como $(n,y)\neq(0,x_{0})$, tenemos que $(0,x_{0})\in g’$. Más aún, si $(k,a)\in g’$, demostremos que $(\sigma(k),f(a))\in g’$, para esto supongamos que no.

Como $(k,a)\in g’$, tenemos que $(k,a)\in g$, por lo que $(\sigma(k),f(a))\in g$, esto implica que $(\sigma(k),f(a))=(n,y)$ ya que este es el único elemento de $g$ que no está en $g’$. Como $\sigma(k)=n=\sigma(m)$, concluimos, por la inyectividad de $\sigma$, que $k=m$. Esto quiere decir que $(k,a)=(m,a)\in g$, pero recordando que $x$ es el único elemento relacionado con $m$, concluimos que $x=a$, en síntesis, $(k,a)=(m,x)$, por lo que $(\sigma(k),f(a))=(\sigma(m),f(x))=(n,f(x))\neq(n,y)$. Esto implica que $(\sigma(k), f(a))\in g’$, contradiciendo nuestra suposición de que no lo estaba.

Entonces hemos probado que $(0,x_{0})\in g’$ y que cada vez que $(k,a)\in g’$, también lo está $(\sigma(k), f(a))$. Esto quiere decir que $g’\in\Re$, y como lo hicimos anteriormente, tendremos que $g=\bigcap \Re\subset g’=g\setminus\{(n,y)\}$, lo cual es una contradicción. Esto quiere decir, que suponer que $S$ tiene un elemento mínimo, es absurdo, por lo que $S=\emptyset$. Lo que traducido quiere decir que para todo $n\in\mathbb{N}$, existe un único $x\in X$ tal que $(n,x)\in g$. Es decir, que $g$ sí es una función.

  • Demostremos que $g$ satisface las dos propiedades del Teorema.

Ya vimos que $g\in \Re$, por lo que $g(0)=x_{0}$. Sea ahora $n\in \mathbb{N}$ y $x=g(n)$, de nuevo, como $g\in\Re$, tenemos que $g(\sigma(n))=f(x)=f(g(n))$.

  • Por último, demostremos la unicidad de $g$

Si $h:\mathbb{N}\longrightarrow X$ es otra función que satisface las características del Teorema, consideremos $A=\{n\in\mathbb{N}\mid h(n)=g(n)\}$, como $h(0)=x_{0}=g(0)$. Tenemos que $0\in A$. Supongamos que $n\in A$. Tendríamos entonces que $h(\sigma(n))=f(h(n))=f(g(n))=g(\sigma(n))$, es decir que $\sigma(n)\in\A$, por lo que $A$ es inductivo, y por consiguiente, $A=\mathbb{N}$. En resumen, $h$ y $g$, coinciden en dominio, codominio y regla de correspondencia, entonces $h=g$, como debíamos probar.

$\square$

La demostración del teorema de Recursión Fuerte requiere de algunos detalles adicionales, pero puede deducirse del teorema de Recursión Débil. Dejamos esto como uno de los problemas de la tarea moral.

Tarea Moral

  1. Demuestra el 5° Axioma de Peano a partir del Principio de Inducción
  2. Demuestra que si $n\neq 0$ entonces existe $m$ tal que $\sigma(m)=n$.
  3. ¿Qué función $g$, satisface que $g(0)=1$ y $g(\sigma(n))=2\cdot g(n)$? ¿Qué función $f$ estamos ocupando?
  4. ¿Qué conjunto y que función nos permitiría definir la sucesión de Fibonacci $a_{n+2}=a_{n+1}+a_{n}$ usando el Teorema de Recursión?
  5. Demuestra el Teorema de Recursión Fuerte, usando el Débil. Sugerencia: Considera, $F(n,x):\mathbb{N}\times X\longrightarrow \mathbb{N}\times X$, como $F(n,x)=(\sigma(n),f_{\sigma(n)}(x))$

Más adelante…

El teorema de Recursión será la mayor herramienta que tendremos para poder darle una forma más familiar a los números naturales, ya que las operaciones de suma y multiplicación, que veremos en la siguiente entrada, tendrán una definición recursiva.

Y así como el teorema de la Recursión nos permitirá definir, usaremos continuamente el principio de Inducción para poder demostrar las numerosas propiedades que estas operaciones tienen.

Entradas Relacionadas

Álgebra Superior II: La construcción de los naturales

Introducción

En la entrada pasada presentamos los axiomas de Peano como una forma de abordar el problema de por qué los naturales se comportan como nuestra intuición nos indica. Sin embargo, también vimos que esta solución no respondía la pregunta de por qué existen los naturales dentro de la formalización matemática con la que estamos trabajando. Por esta razón, introdujimos la definición del sucesor de un conjunto arbitrario y empezamos a iterarla en el conjunto vacío para generar una lista de conjuntos, que relacionamos con los números naturales que conocemos.

Por último, notamos que ocupar esta idea, al menos de forma directa, nos llevaría al problema de nunca acabar de definir a todos los números naturales y, por lo tanto, no poder definir en sí el conjunto de los naturales.  Es por eso que en esta entrada acabaremos, de una vez por todas, con el problema de definir con precisión el conjunto de números naturales y ver que, en efecto, esta construcción que haremos se apega a no sólo a nuestra intuición, sino también a los axiomas de Peano.

Conjuntos inductivos

Antes de empezar con la tarea de definir a los números naturales, recordamos la definición del sucesor de un conjunto.

Definición: Si $A$ es un conjunto, definimos el sucesor de $A$, como $\sigma(A):=A\cup \{A\}$.

Como mencionamos en las notas pasadas, buscamos que \[\mathbb{N}=\{\emptyset,\sigma(\emptyset),\sigma(\sigma(\emptyset)),…\},\] por lo que $\mathbb{N}$, satisfaría dos propiedades que englobamos en la siguiente definición.

Definición: Diremos que un conjunto $S$ es inductivo si cumple que:

  1. $\emptyset\in\mathbb{N}$ y
  2. si $X\in S$, entonces $\sigma(X)\in S$.

Notemos que estas dos propiedades son muy similares a los dos primeros axiomas de Peano.

Hay que remarcar que aunque no sabemos que exista un conjunto tal que sus elementos son $\emptyset,\sigma(\emptyset),\sigma(\sigma(\emptyset)),…$, en caso de que sí existiera, sería un hecho que tal conjunto sería inductivo.

Otro posible ejemplo de un conjunto inductivo podría verse como \[\{…\sigma(\sigma(\{\{\emptyset\}\})), \sigma(\{\{\emptyset\}\}), \{\{\emptyset\}\},\emptyset,\sigma(\emptyset),\sigma(\sigma(\emptyset)),…\}.\] Intuitivamente podemos notar que si $S$ es un conjunto inductivo, entonces, $\mathbb{N}\subset S$, por lo que uno podría aventurarse y definir a los naturales como $\{x:  x \text{ está en todo conjunto inductivo}\}$. Sin embargo, los axiomas que de teoría de conjuntos que tenemos hasta ahora no nos permiten saber si existe un conjunto así.

A pesar de que como se dijo, el hacer esto no es correcto, la idea es muy interesante y útil, ya que motiva la siguiente proposición acerca de la intersección de conjuntos inductivos.

Proposición: Si $B\neq\emptyset$ es un conjunto tal que todos sus elementos son inductivos, entonces $\bigcap {B}$ es también un conjunto inductivo.

Demostración. Como $B\neq\emptyset$, sabemos que la intersección sí es un conjunto. Veamos que este conjunto es inductivo.

Antes de hacer esto recordemos que por definición, los elementos de $\bigcap{B}$ son precisamente, todos los $x$ tales que $x\in Y$ para todo $Y\in B$.

Para ver que $\bigcap B$ es inductivo, necesitamos verificar que cumpla las dos características de la definición:

  1. $\emptyset\in\bigcap B$: Sea $Y\in B$ arbitrario, como los elementos de $B$ son inductivos, $\emptyset\in Y$, y como $Y$ es arbitrario, podemos concluir que $\emptyset$ está en todos los elementos de $B$, pero esta es la definición de que $\emptyset\in \bigcap B$.
  2. $x\in \bigcap B \Rightarrow \sigma(x)\in \bigcap B$: Sea $x\in \bigcap B$, veamos que $\sigma(x)\in \bigcap B$. Sea $Y\in B$, como $x\in\bigcap B$, entonces $x\in Y$ y como $Y$ es inductivo, $\sigma(x)\in Y$. De nuevo, como $Y$ es arbitrario, se sigue que $\sigma(x)$ está en todos los elementos de B, por lo que $\sigma(x)\in\bigcap B$.

Con esto demostramos que $\bigcap B$ es inductivo.

$\square$

En otras palabras, «la intersección arbitraria de conjuntos inductivos es un conjunto inductivo».

El axioma del infinito

Por todo lo escrito anteriormente, y meditando el hecho de que si partimos de los primeros axiomas de la teoría de conjuntos, sólo podemos crear conjuntos con una cantidad finita de elementos, parece ser que la existencia de un conjunto como los naturales, no podrá ser deducida con las herramientas que tenemos. Esto en efecto es así. Por ello, debemos introducir un nuevo axioma de la teoría de conjuntos.

Axioma del infinito: Existe un conjunto inductivo.

El axioma del infinito no nos garantiza inmediatamente la existencia de $\mathbb{N}$, ya que como se vio en el ejemplo, $\mathbb{N}$ no es el único conjunto inductivo. Sin embargo, esta es la última pieza que necesitamos para poder construir a los naturales. Hacemos esto a continuación.

Sea $A$ algún conjunto inductivo (que nos garantiza el axioma del infinito), y consideremos $B=\{X\subset A \mid X \text{ es inductivo}\}$ (¿por qué B es un conjunto?). Notemos que $A\in B$ por lo que $B$ es no vacío, por lo tanto, podemos pensar en su intersección, $\bigcap B$. Como los elementos de $B$ son conjuntos inductivos, por la proposición anterior concluimos que $\bigcap B$ es inductivo. A esta intersección la denotaremos como $\mathbb{N}_{A}$. ¡Ya apareció por primera vez el símbolo de números naturales! Pero tiene algo adicional: usamos un subíndice $A$ ya que a primera vista, su construcción depende del conjunto inductivo $A$ con el que empezamos. Sin embargo, justamente, el paso siguiente será ver que $\mathbb{N}_{A}$ no depende de $A$.

Para ello, primero hacemos la observación de que si $Y\subset A$ es inductivo, entonces $\mathbb{N}_{A}\subset Y$, la cual te dejamos corroborar usando las propiedades de la intersección. Dicho esto, probamos lo siguiente.

Proposición: Si $C$ es otro conjunto inductivo, entonces $\mathbb{N}_{A}= \mathbb{N}_{C} $.

Demostración. Consideremos $\mathbb{N}_{A} \cap \mathbb{N}_{C} $, el cual sabemos que es un conjunto inductivo. Como $\mathbb{N}_{A} \cap \mathbb{N}_{C} \subset A$, por la observación anterior, concluimos que $\mathbb{N}_{A} \subset \mathbb{N}_{A} \cap \mathbb{N}_{C} $. Como la intersección está contenida en cada intersecando, $\mathbb{N}_{A} \subset \mathbb{N}_{A} \cap \mathbb{N}_{C}\subset\mathbb{N}_{A} $, por lo que $\mathbb{N}_{A} = \mathbb{N}_{A} \cap \mathbb{N}_{C} $. Haciendo las mismas observaciones para $\mathbb{N}_{C}$, concluimos que $\mathbb{N}_{A} = \mathbb{N}_{A} \cap \mathbb{N}_{C}= \mathbb{N}_{C} $, con lo que concluimos la prueba.

$\square$

Como sabemos ahora que el conjunto $\mathbb{N}_{A}$ no depende del conjunto $A$ inductivo con el que empecemos, finalmente podemos definir al conjunto de números naturales.

Definición: Si $A$ es algún conjunto inductivo, definimos $\mathbb{N}:=\mathbb{N}_{A}$, definimos $0:=\emptyset$ y la función sucesor como $\sigma:\mathbb{N}\to \mathbb{N}$ tal que $\sigma(n)=n\cup \{n\}$.

Un modelo para los axiomas de Peano

Para concluir esta entrada veremos que los números naturales que hemos construido en la sección anterior se comportan justo como dicen nuestra intuición y los axiomas de Peano. En realidad, la construcción de la función sucesor y del conjunto $\mathbb{N}$ fue siempre motivada por estas ideas, por lo que no deberá ser difícil probar que en verdad todo funciona como queremos.

Teorema: El conjunto $\mathbb{N}$ junto con $0$ y $\sigma$, satisfacen los cinco axiomas de Peano.

Demostración. Veamos que se verifican los cinco axiomas de Peano.

$0\in\mathbb{N}$: como $\mathbb{N}$ es inductivo, $0=\emptyset\in\mathbb{N}$.

Si $n\in \mathbb{N}$, entonces $\sigma(n)\in\mathbb{N}$: Si $n\in\mathbb{N}$, como $\mathbb{N}$ es inductivo, se sigue que $\sigma(n)\in\mathbb{N}$.

Para toda $n\in\mathbb{N}$ se tiene que $\sigma(n)\neq 0$: Como $\sigma(n)=n\cup\{n\}$, tenemos que $n\in\sigma(n)$ por lo que $\sigma(n)\neq\emptyset=0$.

Si $\sigma(n)=\sigma(m)$, entonces $n=m$: Como $\sigma(n)=\sigma(m)$ y $n\in\sigma(n)$, $n\in\sigma(m)= m\cup\{m\}$, de donde $n\in\{m\}$ o $n\in m$. Si $n\in \{m\}$, entonces $n=m$ y concluimos.

Si $n\in m$, veamos que podemos decir de m, procediendo análogamente, podemos notar que $m=n$ o $m\in n$, en el primer caso, llegamos a lo que queremos, si se da el segundo caso habremos demostrado que $n\in m\in n$ lo cual contradice el axioma de Regularidad.

Si $S\subset\mathbb{N}$ tal que $0\in S$ y $n\in S \Rightarrow \sigma(n)\in S$, entonces $S=\mthbb{N}$: Notemos que las hipótesis de $S$, implican que este es un conjunto inductivo, por lo que $\mathbb{N}=\mathbb{N}_{S}\subset S\subset \mathbb{N}$ por lo que en efecto, ambos conjuntos son iguales.

$\square$

Notemos que todos los axiomas salieron de forma casi inmediata de la definición de $\mathbb{N}$ o de la definición de $\sigma$, justo como esperábamos.

Tarea moral

  • Completa los detalles sobre por qué el conjunto $B$, de los conjuntos inductivos de $A$, sí existe. Necesitarás usar un axioma muy específico de la teoría de conjuntos.
  • Demuestra que si $x\subset y\subset\sigma(x) $, entonces $y=x$ o $y=\sigma(x)$.
  • Si aún no estás tan acostumbrado a las intersecciones arbitrarias, considera la definición de $\mathbb{N}’:=\{x\in A:  x \text{ está en todo conjunto inductivo}\}$ ¿Cómo se relaciona el axioma del Infinito, con el hecho de que esto sí es un conjunto?
  • Esboza una demostración de que $\mathbb{N}’=\mathbb{A}$.
  • Usa el Principio de Inducción para demostrar que si $n\neq 0$, entonces $n=\{0, 1, 2, …, n-1\}$.

Más adelante…

Ya que construimos a los números naturales, y vimos que en verdad funcionan como esperábamos, nuestro siguiente objetivo, será definir una suma, un producto y un orden en este conjunto. Así como lo hicimos con los axiomas de Peano, veremos que nuestras definiciones coincidirán con las propiedades que conocemos.

Para hacer esto seguiremos pensando en la definición conjuntista que hemos dado de los naturales y no sólo en los axiomas de Peano. Aunque sí nos basaremos fuertemente en ellos, sobre todo en el quinto axioma. A este lo conocemos como principio de inducción y tendrá su mayor aplicación a la hora de demostrar el teorema de la recursión, el cual a su vez la herramienta que tendremos para definir la suma y producto en los naturales.

Entradas relacionadas

Álgebra Lineal II: Polinomio mínimo de transformaciones lineales y matrices

Introducción

Anteriormente definimos qué quiere decir evaluar un polinomio en una matriz o en una transformación lineal. En esta entrada definiremos uno de los objetos más importantes del álgebra lineal: el polinomio mínimo. Si bien al principio nos va a costar un poco calcularlo, esto se compensa por la cantidad de propiedades teóricas que cumple. Comenzaremos dando su definición, y mostrando su existencia y unicidad. Luego exploraremos algunas propiedades y veremos ejemplos, seguido de un pequeño teorema de cambio de campos. Finalmente introduciremos un objeto similar (el polinomio mínimo puntual) y haremos unos ejercicios para cerrar.

El concepto de polinomio mínimo podría resultarle familiar a los más algebraicos de mente: ¡todo se debe a que trabajamos con dominios de ideales principales, o incluso euclidianos! Si has trabajado anteriormente con conceptos como el mínimo común múltiplo en enteros, puede que varios de los argumentos de esta entrada te suenen conocidos.

Existencia y unicidad

Comenzamos con un espacio vectorial $V$ de dimensión $n$ sobre un campo $F$. Fijando una transformación lineal $T:V\to V$, queremos entender para qué polinomios se cumple que $P(T)=0$. Nota como podríamos haber cambiado la pregunta: si fijamos un polinomio $P$, podríamos buscar todas las transformaciones $T$ tales que $P(T)=0$. Ésta pregunta la estudiaremos más adelante.

Definimos el conjunto

\begin{align*}
I(T)=\lbrace P\in F[X]\mid P(T)=0\rbrace.
\end{align*}

El polinomio cero pertenece a $I(T)$ de manera trivial. Una cosa importante es que este conjunto $I(T)$ que vamos a estudiar en verdad es «interesante», en el sentido de que debemos ver que hay más polinomios adentro y no es únicamente el conjunto $\lbrace 0\rbrace$. Una manera de ver esto es sabiendo que el espacio de transformaciones lineales de $V$ en $V$ tiene dimensión $n^2$ (lo puedes pensar como el espacio de matrices). Entonces, las $n^2+1$ transformaciones $\operatorname{Id}, T, T^2, \dots, T^{n^2}$ no pueden ser todas linealmente independientes: uno de los corolarios del lema de Steinitz es que en un espacio de dimensión $n$ a lo más se pueden tener $n$ vectores linealmente independientes. Entonces existe una combinación lineal no trivial y nula

\begin{align*}
a_0 \operatorname{Id}+a_1 T+\dots + a_{n^2} T^{n^2}=0.
\end{align*}

Luego $a_0+a_1X+\dots+a_{n^2}X^{n^2}$ es un polinomio no cero tal que $P(T)=0$, es decir $P\in I(T)$.

Con el argumento de arriba vimos que $I(T)$ es «interesante» en el sentido de que tiene polinomios no cero. El siguiente teorema se puede entender como que $I(T)$ se puede describir muy fácilmente.

Teorema. Existe un único polinomio mónico, distinto de cero $\mu_T$ tal que $I(T)$ es precisamente el conjunto de múltiplos de $\mu_T$. Es decir

\begin{align*}
I(T)=\mu_T \cdot F[X]=\lbrace \mu_T \cdot P(X)\mid P(X)\in F[X]\rbrace.
\end{align*}

La demostración hará uso del algoritmo de la división para polinomios. Te lo compartimos aquí, sin demostración, por si no lo conoces o no lo recuerdas.

Teorema (algoritmo de la división en $\mathbb{F}[x]$). Sean $f(x)$ y $g(x)$ polinomios en $F[x]$, donde $g(x)$ no es el polinomio cero. Entonces, existen únicos polinomios $q(x)$ y $r(x)$ en $F[x]$ tales que $$f(x)=q(x)g(x)+r(x),$$ en donde $r(x)$ es el polinomio cero, o $\deg(r(x))<\deg(g(x))$.

Si te interesa saber cómo se demuestra, puedes seguir la teoría de polinomios disponible en la Unidad 4 del curso de Álgebra Superior II.

Demostración. Una de las proposiciones de la entrada pasada nos dice que $I(T)$ es un subespacio de $F[X]$. Por otro lado si $P\in I(T)$ y $Q\in F[X]$ entonces

\begin{align*}
(PQ)(T)= P(T)\circ Q(T)=0\circ Q(T)=0.
\end{align*}

Lo que discutimos antes de enunciar el teorema nos dice que $I(T)\neq\{0\}$. Escogemos entonces $P\in I(T)$ un polinomio no cero de grado mínimo. Podemos suponer sin perdida de generalidad que $P$ es mónico, de no serlo, podemos dividir a $P$ por su coeficiente principal sin cambiar el grado.

La ecuación previa nos indica que todos los múltiplos de $P$ también están en $I(T)$. Veamos que todo elemento de $I(T)$ es de hecho un múltiplo de $P$. Si $S\in I(T)$, usamos el algoritmo de la división polinomial para escribir $S=QP+R$ con $Q,R\in F[X]$. Aquí hay dos casos, que $R$ sea el polinomio cero, o bien que no lo sea y entonces $\deg R <\deg P$. Nota que $R=S-QP\in I(T)$ dado que $I(T)$ es un subespacio de $F[X]$ y $S,QP\in I(T)$. Si $R\neq 0$, entonces como $\deg R<\deg P$ llegamos a una contradicción de la minimalidad del grado de $P$. Luego $R=0$ y por tanto $S=QP$. Entonces $I(T)$ es precisamente el conjunto de todos los múltiplos de $P$ y así podemos tomar $\mu_T=P$.

Para verificar la unicidad de $\mu_T$, si otro polinomio $S$ tuviera las mismas propiedades, entonces $S$ dividiría a $\mu_T$ y $\mu_T$ dividiría a $S$. Sin embargo, como ambos son mónicos se sigue que deben ser iguales: en efecto, si $\mu_T=S\cdot Q$ y $S=\mu_T \cdot R$ entonces $\deg Q=\deg R=0$, porlo tanto son constantes, y como el coeficiente principal de ambos es $1$, se sigue que ambos son la constante $1$ y así $\mu_T=S$. Esto completa la demostración.

$\square$

Definición. Al polinomio $\mu_T$ se le conoce como el polinomio mínimo de $T$.

Primeras propiedades y ejemplos

Debido a su importancia, recalcamos las propiedades esenciales del polinomio mínimo $\mu_T$:

  • Es mónico y cumple $\mu_T(T)=0$.
  • Para cualquier otro polinomio $P\in F[X]$, sucede que $P(T)=0$ si y sólo si $\mu_T$ divide a $P$.

Toda la teoría que hemos trabajado hasta ahora se traduce directamente a matrices usando exactamente los mismos argumentos. Lo enunciamos de todas maneras: si $A\in M_n(F)$ es una matriz cuadrada, entonces existe un único polinomio mónico $\mu_A\in F[X]$ con las siguientes propiedades:

  • $\mu_A(A)=O_n$,
  • si $P\in F[X]$, entonces $P(A)=O_n$ si y sólo si $\mu_A$ divide a $P$.

Como jerga, a veces diremos que un polinomio «anula $T$» si $P(T)=0$. En este sentido los polinomios que anulan a $T$ son precisamente los múltiplos de $\mu_T$.

Vimos antes de enunciar el teorema que podemos encontrar un polinomio $P$ no cero de grado menor o igual a $n^2$ tal que $P(T)=0$. Como $\mu_T$ divide a $P$ se sigue que $\deg \mu_T\leq n^2$. Esta cota resulta ser débil, y de hecho un objeto que hemos estudiado previamente nos ayudará a mejorarla: el polinomio característico. Este también va a anular a $T$ y con ello obtendremos una mejor cota: $\deg \mu_T\leq n$.

Ejemplo. Si $A=O_n$, entonces $\mu_A=X$. En efecto, $\mu_A(A)=0$ y además es el polinomio de menor grado que cumple esto, pues ningún polinomio constante y no cero anula a $O_n$ (¿por qué?). Nota como además $I(A)$ es precisamente el conjunto de polinomios sin término constante.

$\square$

Ejemplo. Considera la matriz $A\in M_2(\mathbb{R})$ dada por

\begin{align*}
A= \begin{pmatrix}
0 & -1\\
1 & 0
\end{pmatrix}.
\end{align*}

Nos proponemos calcular $\mu_A$. Nota que $A$ satisface $A^2=-I_2$. Por tanto el polinomio $P(X)=X^2+1$ cumple $P(A)=0$. Así, $\mu_A$ tiene que dividir a este polinomio ¡pero este es irreducible sobre los números reales! En efecto, si existiese un factor propio de $P$ sobre $\mathbb{R}$, tendríamos que la ecuación $X^2=-1$ tiene solución, y sabemos que este no es el caso. Entonces $\mu_A$ tiene que ser $X^2+1$.

$\square$

Ejemplo. Sean $d_1,\dots, d_n\in F$ escalares y $A$ una matriz diagonal tal que $[a_{ii}]=d_i$. Los elementos pueden no ser distintos entre sí, así que escogemos una colección máxima $d_{i_1},\dots, d_{i_k}$ de elementos distintos. Para cualquier polinomio $P$, tenemos que $P(A)$ es simplemente la matriz diagonal con entradas $P(d_i)$ (esto porque el producto $A^n$ tiene como entradas a $d_i^n$). Entonces para que $P(A)=0$ se tiene que cumplir que $P(d_i)=0$, y para que esto pase es suficiente que $P(d_{i_k})=0$. Eso quiere decir que $P$ tiene al menos a los $d_{i_k}$ como raíces, y entonces $(X-d_{i_1})(X-d_{i_2})\cdots (X-d_{i_k})$ divide a $P$.

Nota como esto es suficiente: encontramos un polinomio mónico, $(X-d_{i_1})(X-d_{i_2})\cdots (X-d_{i_k))$ que divide a cualquier $P$ tal que $P(A)=0$. Así

\begin{align*}
\mu_A(X)=(X-d_{i_1})\cdots (X-d_{i_k}).
\end{align*}

$\square$

Cambio de campos

En uno de los ejemplos argumentamos que el polinomio mínimo era $X^2+1$ porque este es irreducible sobre $\mathbb{R}$. Pero, ¿qué pasaría si cambiáramos nuestro campo a $\mathbb{C}$? La situación puede ser incluso más delicada: a una matriz con entradas racionales la podemos considerar como una instancia particular de una matriz con entradas reales, que a su vez podemos considerar como una matriz compleja. ¿Hay tres polinomios mínimos distintos? El siguiente teorema nos da una respuesta tranquilizante.

Teorema. Sean $F_1\subset F_2$ dos campos y $A\in M_n(F_1)$ una matriz, entonces el polinomio mínimo de $A$ vista como elemento de $M_n(F_1)$ y el polinomio mínimo de $A$ vista como elemento de $M_n(F_2)$ son iguales.

Demostración. Sea $\mu_1$ el polinomio de $A\in M_n(F_1)$ y $\mu_2$ el polinomio mínimo de $A\in M_n(F_2)$. Puesto que $F_1[X]\subset F_2[X]$, se tiene que $\mu_1\in F_2[X]$ y además $\mu_1(A)=0$ por definición. Luego $\mu_2$ necesariamente divide a $\mu_1$. Sean $d_1=\deg \mu_1$ y $d_2=\deg \mu_2$, basta verificar que $d_2\geq d_1$ y para que esto se cumpla basta con encontrar $P\in F_1[X]$ de grado a lo más $d_2$ tal que $P(A)=0$ (entonces $\mu_1$ dividiría a este polinomio y se sigue la desigualdad).

Desarrollando que $\mu_2(A)=0$ en todas sus letras (o mejor dicho, en todos sus coeficientes) se tiene

\begin{align*}
a_0 I_n+ a_1 A+\dots + a_{d_2} A^{d_2}=O_n.
\end{align*}

Esto es equivalente a tener $n^2$ ecuaciones homogéneas en las variables $a_0,\dots, a_{d_2}$. Como $A$ tiene entradas en $F_1$ los coeficientes de estas ecuaciones todos pertenecen a $F_1$. Tenemos un sistema de ecuaciones con coeficientes en $F_1$ que tiene una solución no trivial en $F_2$: tiene automáticamente una solución no trivial en $F_1$ por un ejercicio de la entrada de Álgebra Lineal I de resolver sistemas de ecuaciones usando determinantes. Esto nos da el polinomio buscado.

$\square$

Mínimos puntuales

Ahora hablaremos (principalmente a través de problemas resueltos) de otro objeto muy parecido al polinomio mínimo: el polinomio mínimo puntual. Este es, esencialmente un «polinomio mínimo en un punto». Más específicamente si $T:V\to V$ es lineal con polinomio mínimo $\mu_T$ y $x\in V$ definimos

\begin{align*}
I_x=\lbrace P\in F[X]\mid P(T)(x)=0\rbrace.
\end{align*}

Nota que la suma y diferencia de dos elementos en $I_x$ también está en $I_x$.

Problema. Demuestra que existe un único polinomio mónico $\mu_x\in F[X]$ tal que $I_x$ es el conjunto de múltiplos de $\mu_x$ en $F[X]$. Más aún, demuestra que $\mu_x$ divide a $\mu_T$.

Solución. El caso $x=0$ se queda como ejercicio. Asumamos entonces que $x\neq 0$. Nota que $\mu_T\in I_x$ puesto que $\mu_T(T)=0$. Sea $\mu_x$ el polinomio mónico de menor grado en $I_x$. Demostraremos que $I_x=\mu_x\cdot F[X]$.

Primero si $P\in \mu_x \cdot F[X]$ entonces por definición $P=\mu_x Q$ para algún $Q\in F[X]$ y entonces

\begin{align*}
P(T)(x)=Q(T)(\mu_x(T)(x))=Q(T)(0)=0.
\end{align*}

Así $P\in I_x$, y queda demostrado que $\mu_x \cdot F[X]\subset I_x$.

Conversamente, si $P\in I_x$ podemos usar el algoritmo de la división para llegar a una expresión de la forma $P=Q\mu_x+R$ para algunos polinomios $Q,R$ con $\deg R<\deg \mu_x$. Supongamos que $R\neq 0$. Similarmente a como procedimos antes, se cumple que $R= P-Q\mu_x\in I_x$ dado que $I_x$ es cerrado bajo sumas y diferencias. Dividiendo por el coeficiente principal de $R$, podemos asumir que $R$ es mónico. Entonces $R$ es un polinomio mónico de grado estrictamente menor que el grado de $\mu_x$, una contradicción a nuestra suposición: $\mu_x$ es el polinomio de grado menor con esta propiedad. Luego $R=0$ y $\mu_x$ divide a $P$.

Así queda probado que si $P\in I_x$ entonces $P\in \mu_x\cdot F[X]$, lo que concluye la primera parte del problema. Para la segunda, vimos que $\mu_T\in I_x$ y por tanto $\mu_x$ divide a $\mu_T$.

$\square$

Problema. Sea $V_x$ el subespacio generado por $x, T(x), T^2(x), \dots$. Demuestra que $V_x$ es un subespacio de $V$ de dimensión $\deg \mu_x$, estable bajo $T$.

Solución. Es claro que $V_x$ es un subespacio de $V$. Además, dado que $T$ manda a generadores en generadores, también es estable bajo $T$. Sea $d=\deg\mu_x$. Demostraremos que $x, T(x),\dots, T^{d-1}(x)$ forman una base de $V_x$, lo que concluiría el ejercicio.

Veamos que son linealmente independientes. Si $$a_0x+a_1T(x)+a_2T^2(x)+\dots+a_{d-1}T^{d-1}(x)=0$$ para algunos escalares $a_i$ no todos cero, entonces el polinomio

\begin{align*}
P=a_0+a_1X+\dots+a_{d-1}X^{d-1}
\end{align*}

es un elemento de $I_x$, pues $P(T)(x)=0$. Luego $\mu_x$ necesariamente divide a $P$, pero esto es imposible puesto que el grado de $P$ es $d-1$, estrictamente menor que el grado de $\mu_x$. Luego los $a_i$ deben ser todos nulos, lo que muestra que $x,T(x),T^2(x),\dots,T^{d-1}(x)$ es una colección linealmente independiente.

Sea $W$ el espacio generado por $x,T(x),\dots, T^{d-1}(x)$. Afirmamos que $W$ es invariante bajo $T$. Es claro que $T(x)\in W$, similarmente $T(T(x))=T^2(x)\in W$ y así sucesivamente. El único elemento «sospechoso» es $T^{d-1}(x)$, para el cual basta verificar que $T(T^{d-1}(x))=T^d(x)\in W$. Dado que $\mu_x(T)(x)=0$ y $\mu_x$ es mónico de grado $d$, existen escalares $b_i$ (más precisamente, los coeficientes de $\mu_x$) no todos cero tales que

\begin{align*}
T^{d}(x)+b_{d-1}T^{d-1}(x)+\dots+b_0 x=0.
\end{align*}

Esto nos muestra que podemos expresar a $T^d(x)$ en términos de $x, T(x),\dots, T^{d-1}(x)$ y por tanto $T^d(x)$ pertenece a $W$.

Ahora, dado que $W$ es estable bajo $T$ y contiene a $x$, se cumple que $T^{k}(x)\in W$ para todo $k\geq 0$. En particular $V_x\leq W$. Luego $V_x=W$ (la otra contención es clara) y $x,T(x),\dots, T^{d-1}(x)$ genera a $W$, o sea a $V_x$.

Mostramos entonces que $x,T(x),\dots, T^{d-1}(x)$ es una base para $V_x$ y así $\dim V_x=d$.

$\square$

Unos ejercicios para terminar

Presentamos unos últimos ejercicios para calcular polinomios mínimos.

Problema. Calcula el polinomio mínimo de $A$ donde

\begin{align*}
A= \begin{pmatrix}
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\end{pmatrix}.
\end{align*}

Solución. A estas alturas no tenemos muchas herramientas que usar. Comenzamos con calcular $A^2$:

\begin{align*}
A^2= \begin{pmatrix}
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\end{pmatrix}\cdot \begin{pmatrix}
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\end{pmatrix}= \begin{pmatrix} 1 & 0 & 0\\ 0 &1 & 0 \\ 0 & 0 & 1\end{pmatrix}.
\end{align*}

Entonces en particular $A^2=I_3$. Así, el polinomio mínimo $\mu_A$ tiene que dividir a $X^2-1$. Este último se factoriza como $(X-1)(X+1)$, pero es claro que $A$ no satisface ni $A-I_3=0$ ni $A+I_3=0$. Entonces $\mu_A$ no puede dividir propiamente a $X^2-1$, y por tanto tienen que ser iguales.

$\square$

Problema. Calcula el polinomio mínimo de la matriz $A$ con

\begin{align*}
A=\begin{pmatrix}
1 & 2\\
0 & 1
\end{pmatrix}.
\end{align*}

Solución. Nota como

\begin{align*}
A-I_2=\begin{pmatrix} 0 & 2\\ 0 & 0\end{pmatrix}
\end{align*}

y es fácil verificar que el cuadrado de la matriz de la derecha es cero. Así $(A-I_2)^2=0$, o sea, el polinomio $P(X)=(X-1)^2$ anula a $A$. Similarmente al problema anterior, $\mu_A$ tiene que dividir a $P$, pero $P$ sólo tiene un factor: $X-1$. Dado que $A$ no satisface $A-I_2=0$ se tiene que $\mu_A$ no puede dividir propiamente a $P$, y entonces tienen que ser iguales. Luego $\mu_A=(X-1)^2=X^2-2X+1$.

$\square$

Más adelante

En las entradas subsecuentes repasaremos los eigenvalores y eigenvectores de una matriz, y (como mencionamos) ligaremos el polinomio característico de una matriz con su polinomio mínimo para entender mejor a ambos.

Tarea moral

Aquí unos ejercicios para practicar lo que vimos.

  1. Encuentra una matriz $A$ cuyo polinomio mínimo sea $X^2$. Para cada $n$, ¿puedes encontrar una matriz cuyo polinomio mínimo sea $X^n$?
  2. Encuentra una matriz $A$ cuyo polinomio mínimo sea $X^2-1$. Para cada $n$, ¿puedes encontrar una matriz cuyo polinomio mínimo sea $X^n-1$?
  3. Encuentra el polinomio de la matriz $A$ en $M_n(F)$ cuyas entradas son todas $1$.
  4. Si $T:M_n(\mathbb{R})\to M_n(\mathbb{R})$ es la transformación que manda a cada matriz en su transpuesta, encuentra el polinomio mínimo de $T$.
  5. Sea $V$ un espacio vectorial y $x,y$ vectores linealmente independientes. Sea $T:V\to V$ una transformación lineal. ¿Cómo son los polinomios $P$ tales que $P(T)$ se anula en todo el subespacio generado por $x$ y $y$? ¿Cómo se relacionan con los polinomios mínimos puntuales de $T$ para $x$ y $y$?

Geometría Analítica I: Introducción al curso

Introducción

Bienvenido al curso de Geometría Analítica I. A través de esta serie de entradas cubriremos el temario oficial del programa de la materia tal y como se requiere en la Facultad de Ciencias de la UNAM. Esto incluye desarrollar no sólo habilidades para ejecutar procedimientos («hacer cuentitas»), sino también aquellas que nos permitan deducir los resultados que obtendremos a través de razonamientos lógicos («demostrar»).

Pre-requisitos del curso

En la mayoría de las entradas seguiremos un flujo matemático, en el cual escribiremos definiciones, proposiciones, ejemplos, teoremas y otro tipo de enunciados matemáticos. Siempre que digamos que algo sucede, es importante argumentar o justificar por qué es esto, es decir, que demos una demostración. Las demostraciones nos ayudarán a justificar que ciertos procedimientos (para encontrar distancias, ángulos, etc.) son válidos.

Para entender un poco más al respecto, te recomendamos leer las siguientes dos entradas, o incluso llevar a la par un curso de Álgebra Superior I:

Además de estos pre-requisitos de pensamiento lógico, también es importante que recuerdes algunos de los conceptos fundamentales de geometría (punto, línea, segmento, triángulo, distancia, etc.). Si bien todo lo construiremos «desde cero», el recordar estos conceptos te ayudará mucho en la intuición de por qué ciertas cosas las definimos como lo haremos, y por qué ciertos enunciados que planteamos «deben ser ciertos».

Finalmente, también supondremos que sabes manejar a buen nivel las operaciones y propiedades en $\mathbb{R}$, los números reales. Por ejemplo, que la suma es conmutativa ($a+b=b+a$), que se distribuye con el producto ($a(b+c)=ab+ac$), etc. Si bien en otros cursos se definen a los reales con toda formalidad, para este curso sólo será importante que sepas hacer estas operaciones.

La idea fundamental

La geometría se trata de figuras, de ver, de medir. El álgebra se trata de sumar, de operar, de comparar. La idea clave que subyace a la geometría analítica, como la veremos en este curso, es la siguiente:

La geometría y el álgebra son complementarias e inseparables, ninguna con más importancia sobre la otra. Podemos entender al álgebra a partir de la geometría, y viceversa.

Un ejemplo muy sencillo que se ve desde la educación básica es que la suma de reales se corresponde con «pegar segmentos». Si en la recta real tenemos un segmento de longitud $a$ y le pegamos un segmento de longitud $b$, entonces el segmento que se obtiene tiene longitud $a+b$. Si bien es obvio, cuando estemos estableciendo los fundamentos tendremos que preguntarnos, ¿por qué pasa? ¿qué es pegar segmentos?

Nuestro objetivo será entender a profundidad muchas de estas equivalencias.

Interactivos

En este curso procuraremos incluir interactivos para que explores las ideas que vayamos introduciendo. Si bien un interactivo no reemplaza a una demostración, lo cierto es que sí ayuda muchísimo a ver más casos en los cuales una proposición o teorema se cumple. Nuestros interactivos están hechos en GeoGebra y necesitarás tener activado JavaScript en tu navegador.

En el siguiente interactivo puedes mover los puntos $A$, $B$ y $C$. Observa como la suma de dos segmentos siempre es igual al tercero. ¿Qué pasa si $B$ «se pasa de $C$»? ¿Cuál segmento es la suma de los otros dos?

Te recomendamos fuertemente que dediques por lo menos un rato a jugar con los interactivos: intenta ver qué se puede mover, qué no, qué cosas piensas que suceden siempre y para cuales crees que haya ejemplos que fallen.

Tarea moral

  1. Escribe en una hoja de papel o en un documento digital qué significan para ti los siguientes términos: punto, línea, círculo, plano, semiplano, elipse, intersección, alineado, longitud, ángulo, dirección, vector. ¿En cuáles de estas palabras tuviste que usar las otras? ¿En cuáles no? Más adelante formalizaremos cada una de estas.
  2. Explora el inicio del siguiente libro digital: Euclides de Byrne
  3. Si aprendes a manejar GeoGebra por tu cuenta, podrás hacer interactivos tú mismo. Si te interesa esto, revisa el siguiente curso de GeoGebra.
  4. ¿Cómo le harías para a cada punto del plano asociarle una pareja de números reales? ¿Cómo le harías para a cada pareja de números reales asociarle un punto en el plano?
  5. Si la suma de números corresponde a pegar segmentos, ¿a qué corresponde la multiplicación de números?

Más adelante…

En esta entrada platicamos de cómo son las notas del curso en general. Platicamos de pre-requisitos y de la idea fundamental que subyace al curso. A partir de la siguiente entrada comenzaremos con el tratamiento teórico de la materia. Hablaremos de dos visiones de geometría: la sintética y la analítica. Veremos un primer resultado que nos dice que, en realidad, ambas están muy relacionadas entre sí.

Entradas relacionadas

Álgebra Lineal II: Aplicar polinomios a transformaciones lineales y matrices

Introducción

Varios de los resultados fundamentales de Álgebra Lineal se obtienen al combinar las idea de transformaciones lineales con la de polinomios. El objetivo de esta entrada es introducir el concepto de «aplicar polinomios a matrices» o equivalentemente «aplicar polinomios a transformaciones lineales». La idea fundamental es simple: las potencias en los polinomios se convierten en repetidas aplicaciones de la transformación y las constantes en múltiplos de la identidad. Si bien esta idea es simple, más adelante veremos aplicaciones importantes y con un gran alcance. Uno de los resultados cruciales que surge de esta idea es el conocido teorema de Cayley-Hamilton.

Primeras construcciones

Sea $V$ un espacio vectorial sobre un campo $F$, y sea $T:V\to V$ una transformación lineal. Definimos a la transformación $T^n:V\to V$ para cualquier $n\in \mathbb{N}$ inductivamente a través de

\begin{align*}
T^0=\operatorname{Id}, \hspace{5mm} T^{i+1}= T\circ T^{i},
\end{align*}

donde, recordamos, $\operatorname{Id}$ es la transformación identidad. Intuitivamente, $T^n$ es la «$n$-ésima composición» de $T$. Por ejemplo, $T^3(v)$ no es más que $T(T(T(v)))$ y $T^0(v)$ es simplemente «no usar $T$ para nada», es decir, $\operatorname{Id}(v)=v$. Al componer iteradamente $T$, sigue siendo una transformación lineal de $V$ a $V$, así que $T^n$ es transformación lineal de $V$ a $V$ para todo entero $n\geq 0$.

Ya que hablamos de «potencias» de una transformación lineal, podemos rápidamente hacer sentido de un «polinomio evaluado en una transformación lineal». Si $$P(X)=a_0+a_1X+a_2X^2+\dots + a_n X^n\in F[X]$$ es un polinomio, definimos $P(T):V\to V$ como

\begin{align*}
P(T):= a_0 T^{0}+ a_1 T^1+ a_2 T^2+\dots +a_n T^n.
\end{align*}

Como las transformaciones lineales de $V$ a $V$ son cerradas bajo combinaciones lineales, entonces $P(T)$ también es una transformación lineal de $V$ a $V$.

Ejemplo. Tomemos a la transformación $T:\mathbb{R}^2\to \mathbb{R}^2$ dada por $T(x,y)=(2x-2y,x+y)$. Tomemos al polinomio $P(x)=x^3-2x+4$. ¿Quién es la transformación $P(T)$? Calculemos primero las «potencias» de $T$:

\begin{align*}
T^0(x,y)&=(x,y)\\
T^1(x,y)&=T(x,y)\\
&=(2x-2y,x+y)\\
T^2(x,y)&=T(T(x,y))\\
&=T(2x-2y,x+y)\\
&=(2(2x-2y)-2(x+y),(2x-2y)+(x+y))\\
&=(2x-6y,3x-y)\\
T^3(x,y)&=T(2x-6y,3x-y)\\
&=(-2x-10y,5x-7y).
\end{align*}

Ahora sí, ya podemos saber qué hace $P(T)$. Tenemos:

\begin{align*}
P(T)(x,y)&=(T^3-2T+4\text{Id})(x,y)\\
&=(-2x-10y,5x-7y)-2(2x-2y,x+y)+4(x,y)\\
&=(-2x-6y,3x-5y).
\end{align*}

$\square$

Sumas y productos de polinomios

Las operaciones suma y producto de polinomios se traducen, respectivamente, a suma y composición de las evaluaciones en transformaciones lineales. Esta es una linda propiedad que podemos hacer precisa gracias a la siguiente proposición.

Proposición. Si $P_1, P_2\in F[X]$ son dos polinomios y $T:V\to V$ es una transformación lineal, entonces

  1. $ (P_1+P_2)(T)=P_1(T)+P_2(T)$,
  2. $(P_1P_2)(T)=P_1(T)\circ P_2(T)$.

Te invitamos a demostrar esta proposición. Advertimos que, sin embargo, no se cumplen identidades como $$P(T_1+T_2)=P(T_1)+P(T_2)$$ o bien $$P(T_1\circ T_2)=P(T_1)\circ P(T_2).$$ Un contraejemplo para la primera identidad podría ser tomar$P(X)=X^2$ y $T_1=T_2=\operatorname{Id}$. En este caso

\begin{align*}
P(T_1+T_2)&=(T_1+T_2)^2\\&= 4\operatorname{Id}\\&\neq 2\operatorname{Id}\\&=P(T_1)+P(T_2).
\end{align*}

Dejamos como ejercicio el verificar que la segunda identidad tampoco es cierta en general. Fijando $T$, podemos juntar a todas las transformaciones de la forma $P(T)$ para algún $P$ en la siguiente estructura.

Definición. La $F$-álgebra generada por la transformación $T$ es el conjunto

\begin{align*}
F[T]=\lbrace P(T)\mid P\in F[X]\rbrace.
\end{align*}

Una consecuencia de la proposición anterior (es más, ¡una mera traducción!) es la siguiente.

Proposición. Para cualesquiera $x,y\in F[T]$ y $c\in F$ se cumple que $x+cy\in F[T]$ y $x\circ y\in F[T].$ Es decir, $F[T]$ es un subespacio del espacio de todas las transformaciones lineales de $V$ en $V$ que además es estable bajo composición.

También puedes verificar que $F[T]$ es el subespacio más chico (en el sentido de contención) del espacio de transformaciones lineales en $V$ que contiene a $T$, a $\operatorname{Id}$ y que es cerrado bajo composiciones.

Lo mismo pero con matrices

Desde Álgebra Lineal I sabemos que una transformación lineal se corresponde de manera biunívoca (fijando una base) con una matriz. Nuestra discusión previa se puede adaptar a este vocabulario, y eso es lo que haremos ahora.

Si $A\in M_n(F)$ es una matriz cuadrada de orden $n$ con coeficientes en $F$, podemos entender a $A^n$ simplemente como el $n$-ésimo producto de $A$ consigo misma. Luego si $$P(X)=a_0+a_1X+a_2 X^2+\dots +a_n X^n\in F[X]$$ es un polinomio, definimos

\begin{align*}
P(A):= a_0 I_n +a_1 A+ a_2 A^2+\dots+ a_n A^n.
\end{align*}

Se cumple que $(PQ)(A)=P(A)\cdot Q(A)$ para cualesquiera polinomios $P,Q$ y cualquier matriz $A$. Similarmente el álgebra generada por $A$ se define como

\begin{align*}
F[A]=\lbrace P(A)\mid P\in F[X]\rbrace,
\end{align*}

y es un subespacio de $M_n(F)$ que es cerrado bajo producto de matrices.

Ejemplo. Consideremos la matriz $A=\begin{pmatrix}2&-2\\1&1\end{pmatrix}$. Consideremos el polinomio $P(x)=x^3-2x+4$. ¿Quién es la matriz $P(A)$? Usando la definición, primero nos enfocaremos en encontrar las potencias de $A$. Puedes verificar por tu cuenta que:

\begin{align*}
A^0&=\begin{pmatrix}1&0\\0&1\end{pmatrix}\\
A^1&=\begin{pmatrix}2&-2\\1&1\end{pmatrix}\\
A^2&=\begin{pmatrix}2&-6\\3&-1\end{pmatrix}\\
A^3&=\begin{pmatrix}-2&-10\\5&-7\end{pmatrix}
\end{align*}

De esta manera,

\begin{align*}
P(A)&=A^3-2A+4I_2\\
&=\begin{pmatrix}-2&-10\\5&-7\end{pmatrix} – 2 \begin{pmatrix}2&-2\\1&1\end{pmatrix} + 4 \begin{pmatrix}1&0\\0&1\end{pmatrix}\\
&=\begin{pmatrix}-2&-6 \\ 3 & -5 \end{pmatrix}.
\end{align*}

$\square$

Este ejemplo se parece mucho al ejemplo que hicimos cuando evaluamos un polinomio en una transformación $T$. Esto no es casualidad, y se puede resumir en la siguiente observación.

Observación. Si $A$ es la matriz asociada a $T$ en alguna base, entonces $P(A)$ es la matriz asociada a $P(T)$ en dicha base.

Unos problemas para calentar

A continuación veremos algunos unos cuantos problemas resueltos para que te familiarices con los conceptos que acabamos de ver de manera un poco más teórica.

Problema.

  1. Si $A,B\in M_n(F)$ son matrices con $B$ invertible, demuestra que para cualquier $P\in F[X]$ se cumple
    \begin{align*}
    P(BAB^{-1})=BP(A)B^{-1}.
    \end{align*}
  2. Demuestra que si $A,B\in M_n(F)$ son similares, entonces $P(A)$ y $P(B)$ son similares para cualquier $P\in F[X]$.

Solución.

  1. Primero supongamos que $P(X)=X^k$ para alguna $k\geq 1$. Necesitamos demostrar que $\left(BAB^{-1}\right)^{k}= BA^{k}B^{-1}$, y esto lo podemos verificar sencillamente pues
    \begin{align*}
    (BAB^{-1})\cdot (BAB^{-1})\cdots (BAB^{-1})&= BA(B^{-1} B) A \cdots (B^{-1}B)AB^{-1}\\
    &= BA^{k}B^{-1},
    \end{align*}
    donde usamos que $BB^{-1}=I_n$. Más generalmente, si $P(X)=a_0+a_1 X+a_2X^2+\dots +a_n X^n$ entonces
    \begin{align*}
    P(BAB^{-1})&= \sum_{i=0}^{n} a_i (BAB^{-1})^{i}\\
    &= \sum_{i=0}^{n}a_i BA^{i}B^{-1}\\
    &= B\left(\sum_{i=0}^{n} a_i A^{i}\right)B^{-1}\\
    &= BP(A)B^{-1}
    \end{align*}
    que es lo que queríamos demostrar.
  2. Como $A$ y $B$ son similares, existe $C$ invertible tal que $A=CBC^{-1}$. Por el inciso anterior tenemos
    \begin{align*}
    P(A)=P(CBC^{-1})=CP(B)C^{-1}.
    \end{align*}
    Así, $P(A)$ y $P(B)$ son similares.

$\square$

Problema. Considera la matriz

\begin{align*}
A=\begin{pmatrix}
0 & 1 & -1\\
-2 & 0 & 3\\
0 & 0 & 4
\end{pmatrix}
\end{align*}

así como el polinomio $P(X)=X^2+2X-1$. Calcula $P(A)$.

Solución. Es cuestión de hacer los cálculos. Vemos que

\begin{align*}
A^2= \begin{pmatrix}
-2 & 0 & -1\\
0 & -2 & 14\\
0 & 0 & 16
\end{pmatrix}
\end{align*}

y así

\begin{align*}
P(A)&=A^2+2A-I_3\\&=\begin{pmatrix}
-2 & 0 & -1\\
0 & -2 & 14\\
0 & 0 & 16
\end{pmatrix} + 2\begin{pmatrix}
0 & 1 & -1\\
-2 & 0 & 3\\
0 & 0 & 4
\end{pmatrix} -\begin{pmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1
\end{pmatrix}\\
&=\begin{pmatrix}
-3 & 2 & -3\\
-4 & -3 & 20\\
0 & 0 & 23
\end{pmatrix}.
\end{align*}

$\square$

Problema. Si $A$ es simétrica, demuestra que $P(A)$ es simétrica para cualquier polinomio $P$.

Solución. La demostración se basa en los siguientes hechos:

  1. Si $A=(a_{ij})$ y $B=(b_{ij})$ son matrices simétricas y $c\in F$ es un escalar, entonces $A+cB$ es simétrica, puesto que
    \begin{align*}
    (A+cB)_{ij}= a_{ij}+cb_{ij}= a_{ji}+cb_{ji}= (A+cB)_{ji}.
    \end{align*}
  2. Si $A,B$ son simétricas, su producto es una matriz simétrica. De nuevo, basta con hacer el cálculo
    \begin{align*}
    (AB)_{ij}=\sum_{k=1}^{n} a_{ik}b_{kj}=\sum_{k=1}^{n} b_{jk}a_{ki}= (AB)_{ji} .
    \end{align*}
  3. Usando el inciso anterior, se sigue que si $A$ es simétrica, entonces $A^{k}$ es simétrica para toda $k\geq 1$. Además, $I_n$ es simétrica y por el primer punto tenemos que toda combinación lineal de matrices simétricas es simétrica. En particular $P(A)$ es simétrica.

$\square$

Problema. Sea $V$ el espacio vectorial de todas las funciones $f:\mathbb{R}\to \mathbb{R}$ infinitamente diferenciables. Sea $T:V\to V$ dada por $T:f\mapsto f’$. ¿Puedes encontrar un polinomio $P\in \mathbb{R}(X)$ distinto de cero tal que $P(T)=0$?

Solución. No es posible encontrar dicho polinomio. Suponiendo que sí, tendríamos que $P(T)$ es una ecuación diferencial polinomial de orden $n$, es decir, a cada función la evaluamos en una combinación

\begin{align*}
a_0f+a_1f’+a_2f»+\dots + a_n f^{n}
\end{align*}

donde $f^n$ es la $n$-ésima derivada. Si $P(T)$ es idénticamente cero, tenemos que toda función suave $f$ satisface esta ecuación. En particular tenemos que la constante $g(x)=1$ la satisface. Así $g’=g»=\dots=g^{n}=0$ y entonces

\begin{align*}
P(T)(g)= a_0 g+a_1g+\dots +a_ng^{n}=a_0=0.
\end{align*}

Concluimos que $a_0=0$. Luego, si consideramos a la función identidad $h(x)=x$ entonces también se tiene que cumplir la ecuación (recordamos que ya eliminamos el término $a_0$). Así

\begin{align*}
P(T)(h)= a_1h’+a_2h»+\dots +a_nh^{n}= a_1=0,
\end{align*}

donde usamos que $h'(x)=1$ y todas las derivadas de orden superior son cero. Continuando con este proceso (evaluando en $x^2,x^3,\ldots$) llegamos a que todos los coeficientes $a_i$ son cero. Esto quiere decir que el polinomio era nulo en primer lugar.

$\square$

Más adelante

En entradas subsecuentes estudiaremos polinomios de matrices con propiedades especiales, como por ejemplo el polinomio mínimo, que se distinguen por sus deseables propiedades algebraicas. Este es el primer paso hacia el teorema de Cayley-Hamilton.

Tarea moral

Aquí hay unos ejercicios para que practiques lo visto en esta entrada.

  1. Compara el ejemplo que se dio de evaluar un polinomio en una transformación $T$ con el de evaluar un polinomio en una matriz $A$. ¿Por qué se parecen tanto?
  2. Considera $V$ el espacio vectorial de funciones $C^\infty$ en el intervalo $[0,2\pi]$ y $D:V\to V$ a la transformación que manda una función a su derivada, es decir $D(f)=f’$. Encuentra un polinomio $P$ tal que $P(D)(\sin(x)+\cos(x))$ sea la función cero.
  3. Demuestra que si $A$ es una matriz diagonal, $P(A)$ también es diagonal.
  4. Si
    \begin{align*}
    A=\begin{pmatrix}
    1 & 2\\
    0 &-1\end{pmatrix}
    \end{align*}
    y $P(X)=X^3-X^2+X-1$, calcula $P(A)$.
  5. Generaliza el último problema de la entrada como sigue: Si $V$ es un espacio vectorial y $T:V\to V$ es tal que existen elementos $v_i$ con $i\in \mathbb{N}$ que cumplen $T^{i}(v_i)\neq 0$ y $T^{j}(v_i)=0$ para $j>i$, entonces no existe $P$ no nulo tal que $P(T)$ sea cero.