Archivo de la etiqueta: reales

Teoría de los Conjuntos I: Conjuntos infinitos no numerables.

Por Gabriela Hernández Aguilar

Introducción

Al hablar de conjuntos infinitos, resulta natural pensar que entre cualesquiera dos de ellos debería existir una manera de «emparejar» sus elementos, es decir, establecer una biyección entre tales conjuntos, ya que, al fin y al cabo, ambos contienen infinitos elementos. Esta idea puede deberse a que, cuando uno piensa en conjuntos infinitos, lo primero que viene a la mente es el conjunto de los números naturales o el de los enteros, los cuales están ordenados de una manera bastante agradable y nos resulta «fácil» ubicarlos en una recta, como si fueran números colocados sobre una cinta métrica infinita.

Sin embargo, no todos los conjuntos infinitos poseen un orden tan agradable como el de estos dos conjuntos, y muchos de ellos presentan propiedades considerablemente diferentes. Por ejemplo, algunos conjuntos infinitos pueden no tener un buen orden como el de los naturales, o quizás exista tal orden pero nos resulte extremadamente difícil de identificar.

El teorema de Cantor demuestra que, efectivamente, la idea de que se pueden emparejar los elementos de cualesquiera dos conjuntos infinitos es incorrecta. Un ejemplo específico es el conjunto de los números naturales N y su conjunto potencia P(N); es imposible emparejar cada elemento de P(N) con uno y solo un elemento de N. Este hecho muestra que existen conjunto infinitos más grandes que otros.

Esta entrada está dedicada precisamente a esta cuestión: exhibir conjuntos infinitos con «diferentes tamaños», específicamente, conjuntos que no sean numerables, es decir, que no sean equipotentes con N. Como hemos venido haciendo, también emplearemos el muy importante teorema de Cantor-Schröder-Bernstein para probar ciertas equipotencias.

Conjuntos más grandes que N

Por el teorema de Cantor sabemos que para cada conjunto A se tiene |A|<|P(A)|, es decir, que existe una función inyectiva de A en P(A) pero no una función biyectiva. Así pues, por ejemplo, P(N) además de ser un conjunto infinito, tiene «más» elementos que N, el cual es también infinito. Esto es una muestra de que existen conjuntos infinitos que no son equipotentes. En lo subsecuente exhibiremos algunos otros conjuntos infinitos que sí se pueden biyectar con P(N) y que por tanto no son numerables.

Comenzaremos proporcionando ejemplos que involucran conceptos que hemos visto en la entrada anterior.

Ejemplo.

El conjunto de sucesiones en N, que denotaremos por NN, es equipotente a P(N).

Demostración.

En la entrada anterior probamos que para cada AN infinito, existe una única función biyectiva FA:NA tal que FA(0)=min(A) y que FA(n)<FA(n+1) para cada nN. Lo mismo mencionamos respecto a conjuntos finitos no vacíos, es decir, si AN es un conjunto finito no vacío, digamos |A|=n+1 con nN, existe una única función biyectiva fA:n+1A tal que fA(0)=min(A) y que fA(m)<fA(k) si y sólo si m<k para cualesquiera m,kn+1.
Si AN es finito, podemos extender la función fA a todo N de la siguiente manera: si fA:n+1A es la única función biyectiva que satisface fA(0)=min(A) y fA(m)<fA(k) si y sólo si m<k para cualesquiera m,kn+1, definimos FA:NA por medio de FA(m)={fA(m)si mn+1min(A)si mn+1

Lo anterior nos permite asociar a cada elemento de P(N){} una única sucesión en NN por medio de la siguiente función: definamos F:P(N){}NN como F(A)=FA para cada AP(N). Debido a la definición de las funciones FA, en cualquier caso, ya sea que AN es finito o infinito, se cumple que FA[N]=A; en consecuencia, si A y B son conjuntos no vacíos tales que F(A)=F(B) tendríamos que para cada kN, FA(k)=FB(k) y, por ende, que A=FA[N]=FB[N]=B, lo cual muestra que F es inyectiva.

Ahora bien, para cada xNN definamos x+1:NN por medio de (x+1)(n):=x(n)+1 para cada nN. La función g:NNNN definida por medio de g(x)=x+1 es una función inyectiva, pues si g(x)=g(y) para algunas x,yNN, entonces, x(n)+1=y(n)+1 para cada nN y, por tanto, x(n)=y(n) para cada nN, es decir, x=y. Observemos además que g(x)x0 para cada xNN, donde x0(n)=0 para cada nN; en efecto, si xNN, entonces, g(x)(n)=(x+1)(n)=x(n)+10 para cada nN ya que 0 no es sucesor de ningún número natural. Así, la función gF:P(N){}NN es inyectiva y (gF)(A)x0 para cada AP(N){}. Por tanto la función h:P(N)NN definida como h(A)={(gF)(A)si Ax0si A= es inyectiva.

Para dar una función inyectiva de NN en P(N) retomaremos al conjunto de números primos P={pn:nN} enumerado de tal forma que pn<pn+1 para cada nN. Definamos ahora T:NNP(N) por medio de T(x)={pnx(n):nN}. Notemos que T es una función inyectiva, pues si T(x)=T(y), entonces, {pnx(n):nN}={pny(n):nN} y así pnx(n)=pny(n) y x(n)=y(n) para cada nN, pues de otro modo se contradice al teorema fundamental de la aritmética. Por lo tanto, x=y y T es inyectiva.

Por el teorema de Cantor-Schröder-Bernstein concluimos que |P(N)|=|NN|.

◻

Al contrario de los conjuntos finitos, existen ejemplos de conjuntos infinitos que poseen subconjuntos propios equipotentes a ellos mismos, es decir, existe una biyección entre el subconjunto propio y el conjunto original. Un ejemplo de lo anterior es el conjunto de los números naturales, pues cualquier subconjunto propio de N que sea infinito resulta ser numerable. A continuación vamos a proporcionar otro de estos ejemplos, pero esta vez con un conjunto infinito no numerable.

Ejemplo.

El conjunto 2N:={fNN:f(n){0,1} para cada nN} es equipotente a P(N).

Demostración.

Para demostrar la equipotencia de este ejemplo vamos a exhibir una biyección entre tales conjuntos. Para ello haremos lo siguiente, si AP(N) definimos χA:NN por medio de χA(n)={1si nA0si nNA

Lo anterior nos permite establecer una función entre P(N) y 2N, función que de hecho resulta ser biyectiva. Veamos primero la inyectividad. Si para A,BP(N) se cumple χA=χB, entonces χA(n)=χB(n) para cada nN. En consecuencia, si nA, 1=χA(n)=χB(n) y por ende nB; análogamente, si nB, 1=χB(n)=χA(n) y por tanto nA. Por consiguiente A=B, lo que demuestra la inyectividad de la función.
Resta probar la sobreyectividad. Consideremos χ2N un elemento arbitrario. Definamos A:={nN:χ(n)=1} y veamos que χA=χ. Si nA, entonces χ(n)=1 por definición del conjunto A y, por otro lado, χA(n)=1 por definición de la función χA. Si ahora nNA, χ(n)=0 por definición del conjunto A mientras que χA(n)=0 por definición de la función χA. Esto muestra que χ(n)=χA(n) para cada nN y por ende que χ=χA. Así pues, la función F:P(N)2N definida por medio de F(A)=χA para cada AP(N) es una biyección y, por tanto, |P(N)|=|2N|.

◻

Como lo mencionamos previamente, ahora contamos con un ejemplo de un conjunto infinito no numerable que posee un subconjunto propio equipotente a él, específicamente NN y 2N son equipotentes y 2NNN. Conjuntos de este tipo, es decir, conjuntos que poseen subconjuntos propios equipotentes a ellos, reciben un nombre particular que anotamos en la siguiente definición.

Definición. Un conjunto X se llama infinito según Dedekind si existe una función inyectiva f:XX tal que f[X]X.

Que un conjunto sea infinito según Dedekind implica que dicho conjunto es infinito. Y ya que contamos con algunos ejemplos de conjuntos infinitos que también son infinitos según Dedekind, surge de manera natural la pregunta: ¿todo conjunto infinito es infinito según Dedekind? Dicha cuestión no la podemos responder con lo que hemos visto hasta ahora y es por eso que la dejaremos para más adelante.

Una consecuencia inmediata del último ejemplo es el siguiente corolario.

Corolario. Sean a0,a1,,anN naturales distintos con n1. El conjunto {fNN:f[N]{a0,a1,,an}} es equipotente a NN.

Demostración.

Dado que j:{fNN:f[N]{a0,a1,,an}}NN definida por medio de j(f)=f es una función inyectiva, basta exhibir una función inyectiva de NN en {fNN:f[N]{a0,a1,,an}}.

Denotemos A:={fNN:f[N]{a0,a1,,an}}. Si denotamos B:={fNN:f[N]{a0,a1}}, entonces BA. Para cada χ2N definamos fχ:NN de la siguiente manera fχ(n)={a0si χ(n)=0a1si χ(n)=1
A partir de la definición anterior tenemos que fχB para cada χ2N, lo cual nos permite definir F:2NB por medio de F(χ)=fχ. Resulta que F es una biyección. En efecto, por un lado es inyectiva ya que si F(χ)=F(χ), entonces fχ(n)=fχ(n) para cada nN, de modo que si χ(n)=0 se tiene que a0=fχ(n)=fχ(n) y por tanto χ(n)=0; asimismo, si χ(n)=1 se tiene que a1=fχ(n)=fχ(n) por lo que χ(n)=1. Por tanto χ(n)=χ(n) para cada nN y así χ=χ.
Ahora para mostrar que F es sobreyectiva tomemos fB elemento arbitrario y definamos χ:NN por medio de χ(n)={1si f(n)=a10si f(n)=a0
Luego, fχ=f, pues si nN es tal que f(n)=a1 se tiene que χ(n)=1 por definición de χ y así fχ(n)=a1; por otro lado, si nN es tal que f(n)=a0 se tiene que χ(n)=0 por definición de χ y por ende fχ(n)=a0. Podemos concluir entonces que F(χ)=fχ=f, lo que demuestra que F es sobreyectiva. Por tanto F es una biyección y |2N|=|B|.
Ahora, sean h:NN2N una función biyectiva (la cual sabemos que existe pues |NN|=|P(N)|=|2N|) y ι:BA la función inclusión, es decir, ι(f)=f para cada fB. Luego, ιh:NNA es una función inyectiva.
Por el teorema de Cantor-Schröder-Bernstein concluimos que |NN|=|A|.

◻

Observemos que el corolario muestra que existen una infinidad de subcojuntos propios de NN equipotentes a él. Dado que |P(N)|=|NN|, entonces P(N) también posee una cantidad infinita de subconjuntos propios equipotentes a él. El siguiente ejemplo es uno de tales subconjuntos.

Ejemplo.

El conjunto [N]N:={AN:|A|=|N|} es equipotente a P(N).

Demostración.

Dado que [N]NP(N) lo único que hace falta es exhibir una función inyectiva de P(N) en [N]N.

Consideremos al conjunto de números primos P={pn:nN} donde pn<pn+1 para cada nN. Definamos g:NN[N]N como g(x)={pnx(n)+1:nN}. Dado que para cada xNN, x(n)+10 para toda nN, tenemos que {pnx(n)+1:nN} es un conjunto infinito, por lo que g tiene el codominio adecuado. Por otro lado, g es inyectiva ya que si g(x)=g(y), entonces pnx(n)+1=pny(n)+1 para cada nN por el teorema fundamental de la aritmética y, más aún, x(n)+1=y(n)+1 para cada nN, lo que demuestra que x=y. Si h:P(N)NN es una biyección se sigue que gh:P(N)[N]N es una función inyectiva. Por el teorema de Cantor-Schröder-Bernstein concluimos que |P(N)|=|[N]N|.

◻

Como un ejercicio para esta entrada dejaremos el siguiente ejemplo.

Ejemplo.

N↗N:={fNN:f(n)<f(n+1) para cada nN} es equipotente a [N]N, y por tanto equipotente a P(N).

Para finalizar con esta serie de ejemplos de conjuntos no numerables y equipotentes a P(N) hablaremos del conjunto de números reales.
Para lo que sigue vamos a suponer que ya conocemos todas las propiedades básicas del conjunto de números reales, y si no se conocen dichas propiedades o lo que es un número real, puedes consultar cualquier libro introductorio a la teoría de conjuntos como el de Hernández1, o también puedes consultarlo en un libro de cálculo como el de Spivak2.
Además de lo dicho en el párrafo precedente, estaremos haciendo un abuso de notación escribiendo las contenciones NZQR.
Dicho lo anterior tenemos la siguiente proposición.

Proposición. El intervalo abierto (0,1)={rR:0<r<1} es equipotente a R.

Demostración.

Definamos f:R(0,1) por medio de f(x)={4x+14x+2si x012(12x)si x<0
Lo primero que se debe observar es que la función f tiene el codominio adecuado, es decir, f(x)(0,1) para cada xR. Si x0, entonces, 0<4x+1<4x+2 y por tanto 0<4x+14x+2<1, es decir, f(x)(0,1); por otro lado, si x<0, entonces 0<2x y así 1<12x, lo cual implica que 0<112x<1 y que 0<12(12x)<12<1, es decir, f(x)(0,1). Por tanto, f(x)(0,1) para cada xR. Es importante notar que para x<0 vimos que no sólo se cumple 0<f(x)<1, sino también que 0<f(x)<12. Por otro lado, para x0, tenemos que 0<1+2x1+4x por lo que 14x+12x+1 y por tanto 124x+14x+2; de modo que para x0 no sólo se cumple que f(x)(0,1), sino también que f(x)[12,1).
Veamos ahora que f es una función inyectiva. Sean x,yR con xy. Debido a que R posee un orden lineal podemos suponer que y<x. Tenemos los siguientes casos.
Caso 1. y<0x. En este caso se tiene que f(y)(0,12) mientras que f(x)[12,1), razón por la cual f(x)f(y).
Caso 2. 0y<x. En este caso se tiene que f(y)=4y+14y+2 y f(x)=4x+14x+2. Luego, si ocurriera que 4y+14y+2=4x+14x+2, entonces (4y+1)(4x+2)=(4x+1)(4y+2), lo cual implica (4y+1)(2x+1)=(4x+1)(2y+1), es decir, 8xy+4y+2x+1=8xy+4x+2y+1 y por ende 2y=2x, lo cual contradice que xy. Por tanto, f(x)f(y).
Caso 3. y<x<0. Si ocurriera que f(x)=f(y), entonces 12(12x)=12(12y) y por ende, 12x=12y, de donde x=y y eso contradice la elección de x y y. Por tanto f es una función inyectiva.

Veamos ahora que f es sobreyectiva. Sea r(0,1). Si r(0,12), entonces 2<1r, lo cual implica 12<14r y así x:=1214r es un número real menor a 0; luego, para tal x tenemos que f(x)=12(12x)=12(1(112r))=1212r=r. Si ahora r[12,1), entonces 2r10 y 1r>0, por lo que x:=2r14(1r) es un número real mayor o igual a 0 para el cual se cumple f(x)=4x+14x+2=4(2r14(1r))+14(2r14(1r))+2=2r11r+12r11r+2=2r1+1r1r2r1+22r1r=r1=r. Lo anterior prueba que f es sobreyectiva.

Por lo tanto f es una biyección y |R|=|(0,1)|.

◻

Una consecuencia de la proposición anterior es el siguiente corolario.

Corolario. El intervalo [0,1]:={rR:0r1} es equipotente a R.

Demostración.

Dado que [0,1]R, basta mostrar que existe una función inyectiva de R en [0,1]. Por la proposición anterior existe una función biyectiva f:R(0,1) y así la función F:R[0,1] definida como F(x)=f(x) para cada xR es inyectiva. Por el teorema de Cantor-Schröder-Bernstein concluimos que |R|=|[0,1]|.

◻

Si bien la demostración del corolario anterior fue muy rápida y utilizamos el importante teorema de Cantor-Schröder-Bernstein, siempre resulta interesante determinar una biyección explícita, y precisamente en el caso del corolario anterior lo podemos hacer.

Definamos S:={1n:nN{0}}{0}. Definamos g:[0,1](0,1) por medio de g(x)={xsi xS1n+2si x=1n, nN{0}12si x=0

La función anterior resulta ser una biyección entre [0,1] y (0,1). Primero veremos que g es inyectiva. Sean x,y[0,1] con xy. Tenemos algunos casos.

Caso 1. x,yS. En este caso g(x)=xy=g(y).
Caso 2. xS, yS. Dado que para cada zS se tiene g(z)S, entonces, g(x)S mientras que g(y)=yS. Por tanto g(x)g(y).
Caso 3. xS, yS. Análogo al caso 2.
Caso 4. x,yS. Si x=0 y y=1n con nN{0}, entonces g(x)=12 y g(y)=1n+2. Como n1 se tiene que n+23 y por tanto 121n+2, es decir, g(x)g(y). Análogamente, si y=0 y x=1n con nN{0}, g(x)g(y). Supongamos ahora que x=1n y y=1m con n,mN{0} con nm.
Luego, g(x)=1n+21m+2=g(y) pues de lo contrario tendríamos n+2=m+2 y n=m, lo cual contradice nm.
Los cuatro casos anteriores muestran que g es inyectiva.

Veamos ahora que g es sobreyectiva. Sea x(0,1). Si xS, entonces x=1n con nN, n2, por lo que existe mN tal que m+2=n; si m=0, entonces x=12=g(0) y si m>0, entonces, g(1m)=1m+2=1n=x.
Si xS, entonces g(x)=x. Por tanto, g es sobreyectiva y en consecuencia una biyección. Esto muestra que [0,1] y (0,1) son equipotentes y, por tanto, [0,1] y R son equipotentes. Más aún, contamos con una biyección explícita entre [0,1] y R.

Para exhibir la biyección entre [0,1] y (0,1) utilizamos el hecho de que [0,1] contiene un conjunto numerable, específicamente el conjunto S={1n:nN{0}}{0}. Precisamente este hecho fue el que jugó un papel fundamental, pues como veremos en la siguiente proposición, si X es un conjunto infinito que contiene un conjunto numerable, entonces, para cada AX conjunto finito, se cumple |XA|=|X|.

Proposición. Sea X un conjunto infinito tal que existe una función inyectiva f:NX. Entonces, para cada AX conjunto finito, |XA|=|X|.

Demostración.

Como lo mostrarás en los ejercicios de esta sección, basta mostrar que para cada xX, los conjuntos X{x} y X son equipotentes.

Sea pues xX. Sea f:NX una función inyectiva y denotemos por N a la imagen de f, esto es N:=im(f)={f(n):nN}.

Si xN, definamos g:XX{x} por medio de g(y)={ysi yN{x}f(0)si y=xf(n+1)si y=f(n)

Comprobar que esta función es biyectiva es análogo a como lo hicimos con la función biyectiva que exhibimos entre los intervalos [0,1] y (0,1), por lo que lo dejaremos como un ejercicio para esta entrada.

Supongamos ahora que xN y sea nN tal que x=f(n). Para este caso definamos h:XX{x} por medio de h(y)={ysi yN{f(m):m<n}f(m+1)si y=f(m), mn

Nuevamente, comprobar que esta función es biyectiva es similar a lo que hemos hecho. Esto nos permite concluir que |X{x}|=|X| para cada xX.

◻

La proposición precedente muestra además que todo conjunto que contenga un conjunto numerable es infinito segun Dedekind, pues si tomamos xX, entonces X{x}X y |X{x}|=|X|.

Para culminar la entrada mostraremos que (0,1) y P(N) son equipotentes y que por tanto R y P(N) lo son. Esto lo escribiremos como un teorema.

Teorema. (0,1) y P(N) son equipotentes.

Demostración.

Primero vamos a mostrar la siguiente afirmación: para cada r(0,1), existe una única función χr:NN que satisface χr(n){0,1,2,3,4,5,6,7,8,9} para cada nN y tal que 0xi=0nχr(i)10i<110n.

Sea pues r(0,1). Probaremos por inducción que para cada nN existe una única función χr(n):n+1N tal que χr(n)[n+1]{0,1,2,3,4,5,6,7,8,9} y 0xi=0nχr(n)(i)10i<110n.
Para n=0 definamos χr(0):1N por medio de χr(0)(0)=0. Luego, 0r=rχr(0)(0)100<1=1100. Si y:1N es otra función tal que y(0){0,1,2,3,4,5,6,7,8,9} y 0ry(0)100<1100, entonces, y(0)r<1 y por tanto y(0)=0, ya que el único natural menor a 1 es 0. Por tanto, χr(0)=y, lo que demuestra que para n=0 el enunciado es verdadero.
Supongamos que el resultado es válido para algún n0. Sea χr(n):n+1N la única función de la hipótesis. Primero vamos a demostrar la existencia de una función χr(n+1) con las propiedades deseadas y luego probaremos su unicidad. Dado que 0ri=0nχr(n)(i)10i<110n se sigue que 010n(ri=0nχr(n)(i)10i)<1. Si ocurriera que ri=0nχr(n)(i)10i=0, definimos χr(n+1):n+2N como χr(n+1)(i)={χr(n)(i)si in+10si i=n+1
Definida de esa manera la función χr(n+1) se satisfacen las hipótesis deseadas. Supongamos ahora que 0<ri=0nχr(n)(i)10i y definamos r^:=10n(ri=0nχr(n)(i)10i), número real que sabemos satisface 0<r^<1. Consideremos el conjunto A={mN:m10r^}, el cual es no vacío ya que 0<r^ y por tanto 010r^; además, A es acotado superiormente ya que r^<1 y por tanto 10r^<10, de modo que si mA, entonces m<10. Así, existe a=max(A), el cual es un natural dentro del conjunto {0,1,2,3,4,5,6,7,8,9}. Por la maximalidad de a se tiene que 10r^<a+1 y así a10r^<a10+110, es decir, 0r^a10<110.
Luego, dado que r^=10n(ri=0nχr(n)(i)10i) se sigue que 0ri=0nχr(n)(i)10ia10n+1<110n+1. Si definimos χr(n+1):n+2N por medio de χr(n+1)(i)={χr(n)(i)si in+1asi i=n+1

entonces χr(n+1) es una función que satisface las condiciones deseadas. Así, hemos demostrado la existencia de una función con las características requeridas. Veamos que ésta es única. Supongamos que η:n+2N es otra función que satisface las mismas propiedades que χr(n+1).
Luego, en particular, 0ri=0n+1η(i)10i<110n+1 y por tanto 0ri=0nη(i)10i<110n+1+η(n+1)10n+1110n+1+910n+1=1010n+1=110n. De este modo, la función ηn+1:n+1N satisface las mismas condiciones que la función χr(n), y por la unicidad de esta última función se sigue que η(i)=χr(n)(i) para cada in+1. Así, la función η coincide con la función χr(n+1) en n+1, por lo que resta probar que η(n+1)=χr(n+1)(n+1)=a.
Sabemos que 0ri=0nχr(n+1)(i)10iη(n+1)10n+1<110n+1 y por tanto, 010n+1(ri=0nχ(n+1)(i)10i)η(n+1)<1, es decir, η(n+1)10r^<η(n+1)+1, de modo que η(n+1)A y por tanto η(n+1)a=χr(n+1)(n+1). Podemos elegir k{0,1,2,3,4,5,6,7,8,9} tal que η(n+1)+k=a y tenemos a=η(n+1)+k10r^, razón por la cual k10r^η(n+1)<(η(n+1)+1)η(n+1)=1 y en consecuencia, k=0. Por tanto, η(n+1)=a=χr(n+1)(n+1). Esto demuestra la unicidad de χr(n+1).

Por lo tanto, para cada nN existe una única función χr(n):n+1N tal que χr(n)[N]{0,1,2,3,4,5,6,7,8,9} y 0ri=0nχr(n)(i)10i<110n. En el proceso de la demostración de la existencia y unicidad de tales funciones, mostramos además que si χr(n+1):n+2N es la única función con tales propiedades, entonces, χr(n)=χr(n+1)n+1, lo que muestra que el conjunto de funciones F:={χr(n):nN} es un sistema de funciones compatibles y, por tanto, χr=F:NN es la única función con las propieades que enunciamos en la afirmación.

Estamos entonces en condiciones de definir una función F:(0,1){fNN:f[N]{0,1,2,3,4,5,6,7,8,9}} por medio de F(r)=χr. Dicha función es inyectiva, ya que si χr=χr, entonces, para cada nN, |rr|=|ri=0nχr(i)10i+i=0nχr(i)10ir| |ri=0nχr(i)10i|+|i=0nχr(i)10ir| <110n+110n=210n lo cual muestra que |rr|=0, es decir, r=r. Por tanto, existe una función inyectiva de (0,1) en NN, de modo que |(0,1)||NN|=|P(N)|.

Ahora vamos a definir una función inyectiva de 2N en (0,1). Sea f2N y veamos que la sucesión de números racionales (i=0nf(i)10i+1)nN converge. Dado que f(i){0,1} para cada iN, la sucesión (i=0nf(i)10i+1)nN es no decreciente. Luego, para cada nN, 0i=0nf(i)10i+1i=0n110i+1=i=1n+1110i=1110n+211101=1110n+2(910)1<1(910)1=1091=19<1, por lo que dicha sucesión está acotada inferiormente por 0 y superiormente por 19 y, por tanto, converge a algún número real en el intervalo [0,19]. Sea rf[0,19] el límite de dicha sucesión.
Si la función f no es la constante cero, entonces, rf(0,19], ya que existe NN tal que f(N)=1 y por tanto, para cada nN, 110N+1i=0nf(i)10i+1rf.
Dado que el número real rf es único para cada f2N, estamos en condiciones de definir la siguiente función: sea G:2N[0,1) tal que G(f)={rfsi f00si f=0

Veamos que G es inyectiva. Por la definición de G sabemos que si f0, entonces G(f)G(0). Ahora, sean f,h2N funciones no cero tales que rf=G(f)=G(h)=rh. Veamos que f(n)=h(n) para cada nN.
Algo que será de utilidad para probar esto último es la desigualdad i=n+1m110i<1210n, la cual es cierta para cualesquiera n,mN tales que n<m. En efecto, si n,mN con n<m, tenemos i=n+1m110i=i=0m110ii=0n110i=1110m+111101110n+11110=110n+1110m+1(910)=110n110m9 y este número racional es menor que 1210n, pues 110n110m<110n<92110n, pues 1<92. Por tanto, para cualesquiera n,mN con n<m, i=n+1m110i<1210n.

Ahora sí, veamos que f(n)=h(n) para cada nN.
Dado que las sucesiones de números racionales (i=0nf(i)10i+1)nN y (i=0nh(i)10i+1)nN convergen al número real rf, existe mN tal que para cada n>m, 0rfi=0nf(i)10i+1<1410 y 0rfi=0nh(i)10i+1<1410. Luego, |i=0m+1f(i)10i+1i=0m+1h(i)10i+1|=|i=0m+1f(i)10i+1rf+rfi=0m+1h(i)10i+1| |i=0m+1f(i)10i+1rf|+|rfi=0m+1h(i)10i+1|<1410+1410=1210. Por otro lado, |f(0)h(0)10||i=1m+1f(i)h(i)10i+1||i=0m+1f(i)h(i)10i+1|<1210 y así |f(0)h(0)10|<1210+|i=1m+1f(i)h(i)10i+1|1210+i=1m+1|f(i)h(i)|10i+1. Dado que |f(i)h(i)|={1si {f(i),h(i)}={0,1}0si f(i)=h(i)=0 o f(i)=h(i)=1 entonces, |f(i)h(i)|1 para cada iN y, como i=1m+1110i+1=i=2m+2110i<1210, se sigue que |f(0)h(0)|101210+i=1m+1110i+1<110 lo cual implica que |f(0)h(0)|=0, es decir, f(0)=h(0). Supongamos que para algún nN hemos probado que f(m)=h(m) para cada mn y veamos que f(n+1)=h(n+1).
Sea mN, mn+1, tal que para cada k>m, |rfi=0kf(i)10i+1|<1410n+2 y |rfi=0kh(i)10i+1|<1410n+2.
Luego, |i=n+1m+1f(i)h(i)10i+1|=|i=0m+1f(i)h(i)10i+1||rfi=0m+1f(i)10i+1|+|rfi=0m+1h(i)10i+1|<1210n+2. Por otro lado, |f(n+1)h(n+1)|10n+2|i=n+2m+1f(i)h(i)10i+1||i=n+1m+1f(i)h(i)10i+1|<1210n+2 por lo que |f(n+1)h(n+1)|10n+2<1210n+2+|i=n+2m+1f(i)h(i)10i+1|1210n+2+i=n+2m+1|f(i)h(i)|10i+1 1210n+2+i=n+2m+1110i+1=1210n+2+i=n+3m+2110i<1210n+2+1210n+2=110n+2
y en consecuencia, |f(n+1)h(n+1)|=0, es decir, f(n+1)=h(n+1). Por tanto, para cada nN, f(n)=h(n), lo que demuestra que f=h.
Así, la función G es inyectiva y, por consiguiente, |2N||[0,1)|. Dado que |[0,1)|=|(0,1)|, se sigue que |P(N)|=|2N||(0,1)|. Por el teorema de Cantor-Schröder-Bernstein concluimos que |(0,1)|=|P(N)|.

◻

Concluimos la entrada con el siguiente corolario, cuya prueba es consecuencia del teorema anterior y el hecho que |R|=|(0,1)|.

Corolario. R y P(N) son equipotentes.

◻

Tarea moral

  1. Demuestra que el conjunto N↗N:={fNN:f(n)<f(n+1) para cada nN} es equipotente a [N]N.
  2. Demuestra que para cualquier conjunto infinito X que contenga un conjunto numerable se cumple que |XA|=|X|, para cada AX conjunto finito.
  3. Sean a,bR con a<b. Demuestra que |(a,b)|=|(0,1)|.
  4. Exhibe una biyección entre R y [0,):={rR:r0}.

Más adelante…

En la siguiente entrada introduciremos uno de los axiomas más relevantes de la teoría de conjuntos, el axioma de elección. Dicho axioma nos permitirá responder algunas de las interrogantes que quedaron abiertas en secciones anteriores y, además, veremos algunas de sus sorpredentes consuecuencias.

Entradas relacionadas

  1. Hernández, F., Teoría de Conjuntos, México: Aportaciones Matemáticas No.13,
    SMM, 1998 ↩︎
  2. Spivak, M., Cálculo Infinitesimal (2a ed). México: Reverté, 1998. ↩︎

Álgebra Lineal II: Aplicaciones de la forma canónica de Jordan

Por Leonardo Ignacio Martínez Sandoval

Introducción

En las entradas anteriores demostramos que cualquier matriz (o transformación lineal) tiene una y sólo una forma canónica de Jordan. Además, explicamos cómo se puede obtener siguiendo un procedimiento específico. Para terminar nuestro curso, platicaremos de algunas de las consecuencias del teorema de Jordan.

Clasificación de matrices por similaridad

Una pregunta que aún no hemos podido responder es la siguiente: si nos dan dos matrices A y B en Mn(F), ¿son similares? Con la maquinaria desarrollada hasta ahora podemos dar una muy buena respuesta.

Proposición. Sean A y B matrices en Mn(F) tales que el polinomio característico de A se divide en F. Entonces, A y B son similares si y sólo si se cumplen las siguientes dos cosas:

  • El polinomio característico de B también se divide en Mn(F) y
  • A y B tienen la misma forma canónica de Jordan.

Demostración. Sea J la forma canónica de Jordan de A.

Si A y B son similares, como A es similar a J, se tiene que B es similar a J. Entonces, B tiene el mismo polinomio característico que A y por lo tanto se divide en F. Además, como J es similar a B, entonces por la unicidad de la forma canónica de Jordan, precisamente J es la forma canónica de Jordan de B. Esto es un lado de nuestra proposición.

Supongamos ahora que el polinomio característico de B también se divide en Mn(F) y que la forma canónica de Jordan de B también es J. Por transitividad de similaridad, A es similar a B.

◻

Veamos un ejemplo de cómo usar esto en un problema específico.

Problema. Encuentra dos matrices en M2(R) que tengan como polinomio característico a x23x+2, pero que no sean similares.

Solución. Las matrices A=(1002) y B=(1102) ya están en forma canónica de Jordan y son distintas, así que por la proposición anterior no pueden ser similares. Además, por ser triangulares superiores, en ambos casos el polinomio característico es (X1)(X2)=X23X+2.

El problema anterior fue sumamente sencillo. Piensa en lo difícil que sería argumentar con cuentas de producto de matrices que no hay ninguna matriz PM2(R) tal que A=P1BP.

Forma canónica de Jordan «para cualquier matriz»

Como en C[X] todos los polinomios se dividen, entonces tenemos el siguiente corolario del teorema de Jordan.

Corolario. Toda matriz en Mn(C) tiene una única forma canónica de Jordan.

Aquí C es muy especial pues es un campo completo, es decir, en el cual cualquier polinomio no constante tiene por lo menos una raíz. En general esto no es cierto, y es muy fácil dar ejemplos: x22 no tiene raíces en Q y x2+1 no tiene raíces en R.

Sin embargo, existe toda un área del álgebra llamada teoría de campos en donde se puede hablar de extensiones de campos. Un ejemplo de extensión de campo es que C es una extensión de R pues podemos encontrar «una copia de» R dentro de C (fijando la parte imaginaria igual a cero).

Un resultado importante de teoría de campos es el siguiente:

Teorema. Sea F un campo y P(X) un polinomio en F[X]. Existe una extensión de campo G de F tal que P(X) se divide en G.

¿Puedes notar la consecuencia que esto trae para nuestra teoría de álgebra lineal? Para cualquier matriz en Mn(F), podemos considerar a su polinomio característico y encontrar campo G que extiende a F en donde el polinomio se divide. Por el teorema de Jordan, tendríamos entonces lo siguiente.

Corolario. Sea A una matriz en Mn(F). Entonces, A tiene una forma canónica de Jordan en un campo G que extiende a F.

Por supuesto, la matriz P invertible que lleva A a su forma canónica quizás sea una matriz en Mn(G).

Toda matriz compleja es similar a su transpuesta

Ya demostramos que para cualquier matriz A en Mn(F) se cumple que χA(X)=χ(AT)(X). Esto implica que A y su transpuesta AT tienen los mismos eigenvalores, traza y determinante. También vimos que μA(X)=μAT(X). Las matrices A y AT comparten muchas propiedades. ¿Será que siempre son similares? A continuación desarrollamos un poco de teoría para resolver esto en el caso de los complejos.

Proposición. Sea Jλ,n un bloque de Jordan en Mn(F). Entonces, Jλ,n y Jλ,nT son similares.

Demostración. Para bloques de Jordan, podemos dar explícitamente la matriz de similitud. Es la siguiente matriz, con unos en la diagonal no principal:

P=(0001001001001000).

Esta matriz es invertible, su inversa es ella misma y cumple lo siguiente (ver ejercicios). Si A es una matriz en Mn(F), entonces:

  • Si A tiene columnas C1,,Cn, entonces AP tiene columnas Cn,,C1.
  • Si A tiene filas R1,,Rn, entonces PA tiene filas Rn,,R1.

Para los bloques de Jordan, si revertimos el orden de las filas y luego el de las columnas, llegamos a la transpuesta. Así, Jλ,nT=PJλ,nP es la similitud entre las matrices dadas.

◻

La prueba anterior no funciona en general pues para matrices arbitrarias no pasa que AT=PAP (hay un contraejemplo en los ejercicios). Para probar lo que buscamos, hay que usar la forma canónica de Jordan.

Teorema. En Mn(C), toda matriz es similar a su transpuesta.

Demostración. Sea A una matriz en Mn(C). Como en C todo polinomio se divide, tanto A como AT tienen forma canónica de Jordan. Digamos que la forma canónica de Jordan es

(1)J=(Jλ1,k10000Jλ2,k20000Jλ3,k30000Jλd,kd).

Si P es la matriz de similitud, tenemos que A=P1JP y al transponer obtenemos que:

AT=PT(Jλ1,k1T0000Jλ2,k2T0000Jλ3,k3T0000Jλd,kdT)(PT)1.

Como por la proposición anterior cada bloque de Jordan es similar a su transpuesta, existen matrices invertibles Q1,,Qd tales Jλi,kiT=Qi1Jλi,kiQi para todo i{1,,d}. Pero entonces al definir Q como la matriz de bloques

Q=(Q1000Q20000Qd),

obtenemos la similaridad

AT=PTQ1(Jλ1,k10000Jλ2,k20000Jλ3,k30000Jλd,kd)Q(PT)1.

Así, A y AT tienen la misma forma canónica de Jordan y por lo tanto son matrices similares.

◻

Más adelante…

¡Hemos terminado el curso de Álgebra Lineal II! Por supuesto, hay muchos temas de Álgebra Lineal adicionales que uno podría estudiar.

Un tema conectado con lo que hemos platicado es qué hacer con las matrices cuyo polinomio característico no se divide en el campo con el que estamos trabajando. Por ejemplo si tenemos una matriz A en Mn(R) cuyo polinomio característico no se divide, una opción es pensarla como matriz en Mn(C) y ahí encontrar su forma canónica de Jordan. ¿Pero si queremos quedarnos en R? Sí hay resultados que llevan una matriz a algo así como una «forma canónica» en R muy cercana a la forma canónica de Jordan.

Otro posible camino es profundizar en la pregunta de cuándo dos matrices en Mn(F) son similares. Si tienen forma canónica de Jordan, ya dimos una buena caracterización en esta entrada. En los ejercicios encontrarás otra. Pero, ¿y si no tienen forma canónica de Jordan? Podríamos extender el campo a otro campo G y comprar las formas canónicas ahí, pero en caso de existir la similaridad, sólo la tendremos en Mn(G). Existe otra manera de expresar a una matriz en forma canónica, que se llama la forma canónica de Frobenius y precisamente está pensada para determinar si dos matrices son similares sin que sea necesario encontrar las raíces del polinomio característico, ni extender el campo.

Estos son sólo dos ejemplos de que la teoría de álgebra lineal es muy extensa. En caso de que estés interesado, hay mucho más por aprender.

Tarea moral

  1. Sea A una matriz en Mn(F) y tomemos P en Mn(F) la matriz
    P=(0001001001001000).
    • Demuestra que si A tiene columnas C1,,Cn, entonces AP tiene columnas Cn,,C1.
    • Demuestra que si A tiene filas R1,,R1, entonces PA tiene filas Rn,,Rn.
    • Concluye con cualquiera de los incisos anteriores que P es invertible y su inversa es ella misma.
    • Tomemos explicitamente n=2 y A=(1234). Encuentra explícitamente PAP. ¿Es AT?
  2. ¿Cuál es la máxima cantidad de matrices que se pueden dar en M5(C) de manera que cada una de ellas tenga polinomio característico x2(x2+1)(x+3) y tales que no haya dos de ellas que sean similares entre sí.
  3. Sea A una matriz en Mn(R) tal que su polinomio característico se divide en R, con forma canónica de Jordan J. Sea P(X) un polinomio en R[X].
    • Demuestra que el polinomio característico de P(A) se divide en R.
    • La forma canónica de Jordan de P(A) no necesariamente será P(J) pues puede que el polinomio altere el orden de los eigenvalores pero, ¿cómo se obtiene la forma canónica de P(A) a partir de J?
  4. Sean A y B matrices en Mn(F) cuyo polinomio característico se divide en F. Muestra que A y B son similares si y sólo si para cualquier polinomio P(X) en F[X] se tiene que rango(P(A))=rango(P(B)).
  5. Investiga sobre la forma canónica de Frobenius y sobre la variante a la forma canónica de Jordan restringida a R.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Superior I: Introducción a vectores y matrices con entradas reales

Por Eduardo García Caballero

Introducción

Los vectores y las matrices son algunos de los objetos matemáticos que nos encontraremos con mayor frecuencia durante nuestra formación matemática. Esto se debe a que nos permiten abordar con sencillez varios problemas de distintas áreas de las matemáticas, como lo son la geometría analítica y la teoría de gráficas. Además, nos ayudan a modelar con gran precisión fenómenos de otras disciplinas, como de la mecánica clásica, gráficos por computadora, circuitos eléctricos, robótica, entre otras.

A pesar de que el estudio a profundidad de los vectores y matrices lo realizaremos en los cursos de Álgebra Lineal I y Álgebra Lineal II, esto no es un impedimento para que nos familiaricemos con varios de los conceptos, técnicas y algoritmos que nos permitirán sacar provecho a esta maravillosa área de las matemáticas.

¿Qué son los vectores?

Dependiendo del área que estudiemos, nos podríamos encontrar con distintas definiciones de vectores. Por ejemplo, en la mecánica clásica se visualiza a los vectores como flechas en el plano o en el espacio, ancladas en un «origen» o en cualquier otro punto del plano. En ciencias de la computación, entenderemos que un vector consiste en un arreglo en el que todas sus entradas son datos del mismo tipo. Como veremos más adelante, las distintas formas de visualizar los vectores son equivalentes.

En este curso trabajaremos con un tipo específico de vectores: los vectores cuyas entradas son números reales. ¿Números reales? Sí. Aquí el temario de la asignatura de un brinco un poco grande. Hasta ahora, hemos intentado construir las matemáticas desde sus fundamentos: lógica, conjuntos, funciones, números naturales, etc. Sin embargo, ahora trabajaremos con el conjunto R de números reales.

Ya platicamos de que el conjunto de naturales N se puede pensar desde un sistema axiomático y que de hecho podemos «construir» a los naturales a partir de nociones de teoría de conjuntos. En el curso de Álgebra Superior 2 se platica de cómo construir al conjunto Z de enteros a partir de N, al conjunto Q de racionales a partir de Z y finalmente de cómo construir a R desde Q. Pero por ahora supondremos la existencia de R y que cumple todos los axiomas que se tratan por ejemplo en un curso de Cálculo Diferencial e Integral I.

Vectores con entradas reales

Un vector con entradas reales lo podemos entender como una lista ordenada de uno o más números (también conocida como tupla) en la que todos sus valores son números reales. Aquí «lista ordenada» lo pensamos no en el sentido de que sus entradas «van creciendo o decreciendo en orden», sino en el sentido «ordenado» como de parejas ordenadas de la segunda unidad de estas notas. Es decir, no nos importan no sólo los números usados, sino también en qué lugar quedaron.

Un ejemplo que seguramente ya has visto en tus clases de geometría analítica son los vectores en el plano o en el espacio. Recordemos que el vector (5,π) determina una única posición en el plano, mientras que (8,2,43) determina una única posición en el espacio. Como ambas tuplas están formadas únicamente por números reales, podemos decir que son vectores con entradas reales. A cada uno de los números que aparecen en la lista le llamaremos entrada, y nos podemos referir a la posición de la entrada para decir cuál es su valor; por ejemplo, la primera entrada de (5,π) es 5, mientras que la tercera entrada de (8,2,43) es 43.

Como recordarás, decimos que estos vectores se encuentran en R2 y R3, respectivamente. Analizando los ejemplos, te darás cuenta de que el número que acompaña a R se refiere a la cantidad de números reales que están enlistados en cada vector. Entonces, probablemente te preguntarás qué pasa con listas de más números. Aunque quizá sean más difíciles de visualizar (¡aunque no imposibles!), también existen vectores con cuatro, cinco o incluso más entradas. Esto nos lleva a la siguiente definición.

Definición. Para un número entero positivo n, un vector con n entradas reales es una lista ordenada de n elementos, el cual escribiremos (x1,x2,,xn). El conjunto Rn consiste de todos los vectores con n entradas reales.

Así, podemos ver que tenemos que (1,3.5,e,1) es un vector en R4, mientras que (1,1,2,3,5,7,13) es un vector en R7. En notación de conjuntos, (1,3.5,e,1)R4 y (1,1,2,3,5,7,13)R7.

Una forma de empezar a ver cómo los vectores se relacionan entre ellos es preguntándonos cuándo estos son iguales. La primera condición que seguramente se nos vendrá a la mente es que los dos vectores deben tener la misma longitud; de este modo, podemos inmediatamente descartar que (5,π) y (8,2,43) sean iguales.

Otra condición que seguramente consideraremos es que todas sus entradas deben ser iguales. Así, podemos también descartar que (5,π) y (4,8) sean iguales. Sin embargo, ¿son (5,π) y (π,5) iguales? Como recordarás, los vectores son listas ordenadas, por lo que no sólo es importante que tengan las mismas entradas, sino que también aparezcan en el mismo orden. Así, podemos también descartar que (5,π) y (π,5) sean iguales: basta ver con que la primera entrada del (5,π) es 5, mientras que la primera entrada de (π,5) es π, y claramente 5π. Así mismo, (1,5,8,1,3) es distinto de (1,5,8,1,4) pues aunque compartan muchos elementos en varias de sus posiciones, en el primer vector la última entrada es 3 y el el segundo la última entrada es 4.

Definición. Diremos que dos vectores (x1,,xn) y (y1,,yn) de Rn son iguales si para toda i=1,,n se tiene que xi=yi

Por otra parte, antes dijimos que los vectores tienen varias formas de ser representados. Como ejemplo de esto, podemos ver que el vector (1,3.5,e,1) puede ser representado como

(13.5e1)y(13.5e1).

Al formato de la izquierda se le conoce como vector vertical o vector columna, mientras que al formato de la derecha se le conoce como vector horizontal o vector fila. Dependiendo del contexto, en ocasiones nos encontraremos con estas representaciones en vez de la que mostramos inicialmente, aunque es importante recordar que siguen siendo vectores con entradas reales, pues son listas ordenadas de números reales.

Matrices con entradas reales

Otro objeto matemático en el que también se enlistan varios números reales se conoce como matriz, con la diferencia de que esta lista tiene forma de arreglo rectangular.

Definición. Una matriz con entradas reales es un arreglo rectangular en donde en cada una de sus posiciones se coloca un número real.

Por ejemplo, las siguientes son matrices con entradas reales:

(084.52901π5),(0394.251000.122).
Como podrás ver, para poder identificar a una entrada de una matriz debemos de hacer referencia a dos propiedades: el número de fila y el número de columna en el que se encuentra. Las filas se cuentan de arriba hacia abajo, y las columnas de izquierda a derecha. Así, vemos que la entrada que se encuentra en la fila 3 y columna 2 de la primera matriz es π. A cada entrada le asignamos una coordenada (i,j), donde i es el número de fila y j es el número de columna. Así, π se encuentra en la posición (3,2) de la primera matriz.

Por convención, cuando mencionamos el tamaño de una matriz, primero se especifica el número de filas y posteriormente el número de columnas. Así, la primera matriz es de tamaño 3×3, mientras que la segunda es de tamaño 2×4. Ya que elegimos el tamaño de una matriz, podemos considerar a todas las matrices de ese tamaño.

Definición. El conjunto Mm,n(R) consiste de todas las matrices de m filas, n columnas y en donde cada entrada es un número real.

En el caso de que la cantidad de filas y de columnas de la matriz sean el mismo, diremos que se trata de una matriz cuadrada. De nuestros ejemplos anteriores, la primera sí es una matriz cuadrada, pero la segunda no. Para simplificar un poco la notación, introducimos lo siguiente.

Definición. El conjunto Mn(R) consiste de todas las matrices de n filas, n columnas y en donde cada entrada es un número real.

Es decir, simplemente Mn(R)=Mn,n(R).

Al igual que pasa con los vectores, podemos comparar dos matrices para saber si estas son iguales. Como te podrás imaginar, hay algunas condiciones que dos matrices deben cumplir para ser iguales: en primera, ambas deben de tener el mismo tamaño; es decir, sus números de filas deben de ser iguales y sus números de columnas deben de ser iguales. Por lo tanto, vemos que las matrices mostradas anteriormente son diferentes. Además, sus correspondientes entradas deben de ser iguales. Podemos escribir esto en una definición como sigue.

Definición. Sean A y B matrices en Mm,n(R). Diremos que estas matrices son iguales si para cada i{1,,m} y cada j{1,,n} se cumple que la entrada (i,j) de A es la misma que la entrada (i,j) de B.

¿Puedes decir por qué las siguientes matrices son diferentes?
(123456789)(147258369).

Notación y algunos vectores y matrices especiales

En matemáticas, es usual que denotemos los vectores con letras minúsculas (siendo las más comunes la u, v y w) aunque muchas veces te podrás encontrar con notaciones especiales que los hacen más fáciles de distinguir, por ejemplo, a o a. Nosotros no haremos esta distinción y usaremos simplemente letras minúsculas. Por ejemplo podríamos tomar al vector u=(1,2,3) de R3.

Por su parte, las matrices las solemos representar con letras mayúsculas (generalmente las primeras del abecedario: A, B, C). Si la entrada que se encuentra en la fila i y colmuna j de la matriz se le denota como con la correspondiente letra minúscula y con subíndices la posición de su entrada: aij. Así, tendríamos que en
A=(084.52901π5)
la entrada a13=4.5 y la entrada a31=1. ¿Cuál es la entrada a23?

Además, existen algunos vectores y matrices con entradas reales que nos encontraremos con bastante frecuencia, y por esta razón reciben nombres especiales:

  • El vector en el que todas sus entradas son el número cero se conoce como vector cero o vector nulo. Por ejemplo, el vector nulo en R2 es (0,0) mientras que el nulo en R3 es (0,0,0). Generalmente, denotamos este vector como 0 (o, en ocasiones, como 0 o 0) .Es importante observar que se usa el mismo símbolo para representar a los vectores nulos con números distintos de entradas (de modo que podremos encontrar que 0=(0,0), en el caso de R2, o que 0=(0,0,0), en el caso de R3). Esto es algo que debemos tener en cuenta, aunque no suele representar mayores complicaciones, pues el contexto nos dirá 1) Si el símbolo 0 se usa para el real cero o el vector cero y 2) Con cuántas entradas estamos trabajando.
  • La matriz en el que todas sus entradas son cero se conoce como matriz cero o matriz nula. Ejemplos de matrices nulas son
    (000000000000)y(0000).
    Estas matrices se suelen denotar con el símbolo O, aunque en el caso de las matrices sí es común especificar las dimensiones de la matriz, de modo que la primera matriz escrita en este inciso se denota como O3×4 mientras que una matriz cuadrada, como la segunda de este inciso, se denota como O2.
  • El vector en Rn cuya i-ésima entrada es 1 y el resto de sus entradas es 0 se conoce como vector canónico, y se denota ei. Por ejemplo, el vector canónico e3 en R4 es (0,0,1,0).
  • Además, al conjunto de todos los posibles vectores canónicos en Rn se conoce como la base canónica de Rn; así, la base canónica de R4 es
    {(1,0,0,0), (0,1,0,0), (0,0,1,0),(0,0,0,1)}={e1,e2,e3,e4}.
  • Llamamos diagonal de una matriz cuadrada a las componentes cuyos número de fila y número de columna coinciden. Además, diremos que una matriz es una matriz diagonal si es una matriz cuadrada en la que todas sus entradas que no están en la diagonal (es decir, que su número de fila es distinto a su número de columna) son cero. Ejemplos de matrices diagonales son
    (50008000π)y(6000070000000009)
    (Observemos que aquellas entradas que se encuentran sobre su diagonal también pueden ser cero, aquí no tenemos ninguna restricción).
  • La matriz diagonal en la que todas sus entradas sobre la diagonal son 1 se conoce como matriz identidad. Ejemplos de matrices identidad son
    (100010001)y(1).
    A esta matriz la denotamos por I y especificamos su tamaño como subíndice. Así, las matrices anteriores son I3 e I1.

Más adelante…

En esta entrada vimos las definiciones de vectores y matrices con entradas reales que usaremos para trabajar en este curso. También revisamos cuándo dos vectores (o matrices) son iguales. Además, vimos algunos ejemplos de vectores y matrices que nos encontraremos con bastante frecuencia en las matemáticas.

En las siguientes entradas veremos que también se pueden hacer operaciones entre vectores y matrices, aunque necesitaremos que se cumplan algunas condiciones especiales.

Tarea moral

  1. Basándonos en la definiciones, verifica las siguientes igualdades:
    • El vector (44,1,3) es igual al vector (0,21,2+1).
    • La matriz A=(1224) es igual a la matriz B de 2×2 cuyas entradas están dadas por bij=ij.
  2. Encuentra todos los posibles vectores que hay en R3 cuyas entradas sean únicamente los números 1 y 2. ¿Cuántos deben de ser?
  3. Seguramente algunos los nombres de los vectores y matrices especiales te recuerdan a algún tipo de operación. ¿Qué operaciones crees que podamos hacer con los vectores y/o matrices, y qué comportamiento tendrían aquellos que reciben un nombre especial?
  4. ¿Por qué podemos decir que una matriz nula cuadrada cumple con ser una matriz diagonal?
  5. Escribe todos los elementos de la base canónica de R6.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE109323 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 3»

Álgebra Superior II: Raíces de polinomios de grados 3 y 4

Por Leonardo Ignacio Martínez Sandoval

Introducción

Esta es la entrada final de la unidad de polinomios y del curso. En ella hablaremos acerca de las fórmulas para encontrar las raíces de polinomios de grado 3 y 4. Además, en la parte final, hablaremos de polinomios de grados más altos y cómo ellos te pueden llevar a cursos muy interesantes que puedes tomar para continuar tu formación matemática.

Existen métodos generales para encontrar las raíces de polinomios de grado 3 y 4, ya sea en R[x] o en C[x]. Para los polinomios de grado 3, se usa el método de Cardano. Para los polinomios de grado 4 se usa el método de Ferrari. Encontrar estas fórmulas tomó mucho tiempo. Ambas requieren de manipulaciones algebraicas muy creativas.

Raíces de polinomios de grado 3 y el método de Cardano

Tomemos un polinomio f(x) en R[x] de grado 3. Si f(x) no es mónico, podemos multiplicarlo por el inverso de su coeficiente principal para obtener un polinomio con las mismas raíces. De esta forma, podemos suponer sin pérdida de generalidad que f(x) es de la forma f(x)=x3+ax2+bx+c.

Consideremos al polinomio g(x)=f(xa3). Observa que r es una raíz de g(x) si y sólo si g(r)=0, si y sólo si f(ra3)=0, si y sólo si ra3 es una raíz de f. De esta forma, si conocemos las raíces de g(x), podemos encontrar las de f(x), y viceversa.

Al hacer las cuentas (que quedan como tarea moral), se tiene que g(x) se simplifica a
g(x)=f(xa3)=x3+(ba23)x+(ba3+c+2a327),

que tiene la ventaja de ya no tener término cuadrático. En otras palabras, para encontrar las raíces de polinomio cúbico, basta con poder encontrar las de los polinomios de la forma g(x)=x3+px+q.

Tomando x=u+v y haciendo las operaciones, se tiene que g(u+v)=u3+v3+(3uv+p)(u+v)+q.

Observa que si logramos encontrar u y v que satisfagan el sistema de ecuaciones
u3+v3=quv=p3,

entonces tendríamos una raíz x=u+v.

La segunda ecuación implica u3v3=p327. Pero entonces conocemos la suma y el producto de las variables u3 y v3, con lo cual obtenemos que son las raíces del siguiente polinomio de grado 2 en la variable t:
(tu3)(tv3)=t2(u3+v3)t+u3v3=t2+qtp327.

El discriminante de esta ecuación cuadrática es Δ=q2+4p327.

Si Δ>0, esta ecuación cuadrática tiene las siguientes soluciones reales:
q2+q24+p3273q2q24+p3273.

Sin pérdida de generalidad, u es la primera y v la segunda. De esta forma, una raíz real para g(x) es x=q2+q24+p3273+q2q24+p3273.

Hasta aquí hay algunas cosas por notar:

  • Supusimos que el discriminante Δ es positivo.
  • Sólo hemos encontrado una de las 3 raíces de p(x) que garantiza el teorema fundamental del álgebra.

Cuando el discriminante es positivo, las otras dos soluciones son ωx y ω2x, en donde ω es una raíz cúbica primitiva de la unidad.

Cuando la cuadrática tiene discriminante Δ<0, tenemos que u y v son complejos, y entonces al sacar raíz cúbica podemos tener tres opciones para cada uno, algo que parecería dar un total de 9 soluciones. Sin embargo, recordando que uv=p3, tenemos que u queda totalmente determinado por v, así que de ahí se obtienen las tres soluciones.

Raíces de polinomios de grado 4 y el método de Ferrari

El método de Ferrari está explicado a detalle en el libro de Álgebra de Bravo, Rincón y Rincón. Ahí están las ideas principales para encontrar una fórmula general para encontrar las raíces de un polinomio de grado 4, es decir, de la forma p(x)=ax4+bx3+cx2+dx+e. Recuerda que el libro está disponible para descarga gratuita.

Al igual que en el caso del método de Ferrari, los primeros pasos consisten en hacer simplificaciones algebraicas. Así como el método de Cardano usa la fórmula cuadrática, del mismo modo el método de Ferrari reduce el problema a encontrar soluciones a un polinomio de grado 3. Uno podría creer que este patrón se repite, y que se pueden encontrar métodos para polinomios de grado arbitrario. Esto no es así, y lo platicaremos en la siguiente sección.

Para otra derivación de la fórmula de Ferrari, compartimos el artículo «Identidades para la resolución de ecuaciones cúbicas y cuárticas» de José Leonardo Sáenz Cetina, que apareció en el número 24 de la revista Miscelánea Matemática de la Sociedad Matemática Mexicana:

Este documento también tiene otras dos formas de resolver ecuaciones cúbicas, así que es una lectura recomendada.

Finalmente, se recomienda también echarle un ojo a la página de Wikipedia acerca de la ecuación cuártica. La entrada en inglés es mucho mejor. Sobre todo la sección referente al método de Ferrari.

Raíces de polinomios de grado 5 y más

De acuerdo al teorema fundamental del álgebra, todo polinomio sobre los complejos tiene al menos una raíz. De hecho, se puede mostrar que si es de grado n, entonces tiene exactamente n raíces, contando multiplicidades.

Cuando tenemos polinomios de grados 2, 3 y 4 podemos usar la fórmula cuadrática, el método de Cardano y el método de Ferrari para encontrar una fórmula para las soluciones. ¿Hay algún método que tenga fórmulas similares para polinomios de grado más grande?

La respuesta es que no. Aunque el teorema fundamental del álgebra garantice la existencia de las raíces, hay un teorema de Abel y Ruffini que muestra que no es posible encontrar una fórmula general. Al menos no una que ayude a poner las raíces de cualquier polinomio de grado cinco (o más) usando únicamente sumas, restas, multiplicaciones, divisiones y raíces. Esto formalmente se enuncia como que hay ecuaciones de grado 5 y más que no son solubles por radicales.

Enunciar y demostrar este teorema formalmente requiere de herramientas que quedan fuera del alcance de este curso, sin embargo, se puede estudiar en un curso avanzado de álgebra, en donde se hable de extensiones de campo y teoría de Galois.

Por otro lado, podemos dejar de lado la exactitud y preguntarnos si, dado un polinomio, podemos acercarnos a sus raíces tanto como queramos. Hoy en día eso se hace mediante métodos computacionales. Aunque la computadora sea muy buena haciendo cuentas, hay que ser particularmente cuidadoso con los errores que comete al hacer aproximaciones.

Eso es otra de las cosas que quedan fuera del alcance de este curso, y que puedes estudiar en un buen curso de métodos numéricos. Si lo que buscas es saber cómo pedirle a la computados que haga los cálculos, eso lo puedes aprender en un buen curso de programación, en donde te enseñen a usar ambientes de computación científica.

Más adelante…

Antes de concluir el curso, en la siguiente entrada, repasamos lo aprendido en esta entrada y vemos como se puede realizar una ecuación de grado 3 y de grado 4 usando los métodos de Cardano y de Ferrari, sin embargo, es importante no olvidar que antes de estos métodos, tenemos otros teoremas importantes que en principio podrían ser más simples para obtener las soluciones a una cúbica o cualquier ecuación.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Completa las cuentas faltantes en la discusión del método de Cardano.
  2. Muestra que un polinomio de grado 3 y coeficientes reales tiene exactamente cero o dos raíces complejas distintas.
  3. ¿Cuántas raíces complejas distintas puede tener un polinomio de grado 4 con coeficientes reales? Encuentra un ejemplo para cada una de las respuestas.
  4. Encuentra las raíces del polinomio cuártico p(x)=x4+2x312x210x+4. Después, compara tu respuesta con el Ejemplo 216 del libro de Álgebra de Bravo, Rincón, Rincón.
  5. Lee las entradas en Wikipedia acerca de ecuaciones cúbicas y ecuaciones cuárticas.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Álgebra Lineal I: Matrices simétricas reales y sus eigenvalores

Por Leonardo Ignacio Martínez Sandoval

Introducción

Hemos llegado a la cima del curso. En estas últimas entradas probaremos uno de los teoremas más bellos en álgebra lineal: el teorema espectral para matrices simétricas reales. También hablaremos de varias de las consecuencias que tiene.

Hay dos formas equivalentes de enunciar el teorema.

Teorema. Sea V un espacio euclideano y T:VV una transformación simétrica. Entonces, existe una base ortonormal de V que consiste de eigenvectores de T.

Teorema. Sea A una matriz simétrica en Rn. Entonces, existe una matriz ortogonal P y una matriz diagonal D, ambas en Rn, tales que A=P1DP.

Para hablar de la demostración y de las consecuencias del teorema espectral para matrices simétricas reales, necesitaremos usar teoría de todas las unidades del curso. En particular, usaremos las siguientes definiciones:

  • Una matriz A en Mn(F) es simétrica si es igual a su transpuesta.
  • Una matriz A en Mn(F) es ortogonal si es invertible y A1=tA.
  • Si T:VV es una transformación lineal de un espacio vectorial V a sí mismo y W es un subespacio de V, entonces decimos que W es estable bajo T si T(W)W.
  • Un producto interior es una forma bilineal simétrica y positiva definida.
  • Un espacio Euclideano es un espacio vectorial de dimensión finita con un producto interior.
  • Si W es un subespacio de un espacio Euclideano V, entonces W es el conjunto de todos los vectores que de V que son ortogonales a todos los vectores de W.
  • Una matriz A en Mn(F) es diagonalizable si existen matrices P y D en Mn(F) con P invertible, D diagonal y tales que A=P1DP.

Y los siguientes resultados principales:

En esta entrada enunciaremos tres resultados auxiliares de interés propio. A partir de estos resultados, la demostración del teorema espectral para matrices simétricas reales y la equivalencia entre ambas versiones será mucho más limpia.

Los eigenvalores de matrices simétricas reales

El polinomio característico de una matriz A en Mn(R) tiene coeficientes reales. Por el teorema fundamental del álgebra, debe tener exactamente n raíces en C, contando multiplicidades. Si alguna de estas raíces r no es real, entonces A no puede ser diagonalizable en Mn(R). La razón es que A sería similar a una matriz diagonal D, y los eigenvalores de las matrices diagonales (incluso triangulares) son las entradas de la diagonal principal. Como A y D comparten eigenvalores (por ser similares), entonces r tendría que ser una entrada de D, pero entonces D ya no sería una matriz de entradas reales.

Lo primero que veremos es que las matrices simétricas reales «superan esta dificultad para poder diagonalizarse». Esta va a ser nuestra primer herramienta para demostrar el teorema espectral.

Teorema. Sea A una matriz simétrica en Mn(R) y λ una raíz del polinomio característico de A. Entonces, λ es un número real.

Demostración. El polinomio característico de A es un polinomio con coeficientes reales, así que por el teorema fundamental del álgebra se tiene que λ debe ser un número en C. Así, podemos escribirlo de la forma λ=a+ib, con a y b números reales. Lo que mostraremos es que b=0.

Se tiene que λ es un eigenvalor de A vista como matriz en Mn(C), y por lo tanto le corresponde un eigenvector U en Cn, es decir, un U0 tal que AU=λU. Este vector U lo podemos separar en partes reales e imaginarias con vectores V y W en Rn tales que U=V+iW.

En estos términos,
AU=A(V+iW)=AV+iAWyλU=(a+ib)(V+iW)=(aVbW)+i(aW+bV),

de modo que igualando partes reales e imaginarias en la expresión AU=λU tenemos que
AV=aVbWyAW=aW+bV.

Como A es simétrica, tenemos que

(2)AV,W=tAV,W=V,AW.

Estudiemos las expresiones en los extremos, reemplazando los valores de AV y AW que encontramos arriba y usando la bilinealidad del producto interior. Se tiene que

AV,W=aVbW,W=aV,WbW,W=aV,WbW2,

y que

V,AW=V,aW+bV=aV,W+bV,V=aV,W+bV2.

Substituyendo estos valores en la expresión (1), obtenemos la igualdad

aV,WbW2=aV,W+bV2,

que se simplifica a b(V2+W2)=0.

Estamos listos para dar el argumento final. Como U=V+iW es un eigenvector, entonces no es nulo, de modo que no es posible que V y W sean ambos el vector 0 de Rn. Como el producto interior es positivo definido, entonces alguna de las normas V o W no es cero, de modo que V2+W20.

Concluimos que b=0, y por lo tanto que λ es un número real.

◻

La demostración anterior es ejemplo de un truco que se usa mucho en las matemáticas. Aunque un problema o un teorema no hablen de los números complejos en su enunciado, se puede introducir a C para usar sus propiedades y trabajar ahí. Luego, se regresa lo obtenido al contexto real. Aquí en el blog hay otra entrada en donde damos más ejemplos de «brincar a los complejos».

Un resultado auxiliar de transformaciones simétricas

A continuación damos la segunda herramienta que necesitaremos para probar el teorema espectral. Recuerda que si V es un espacio Euclideano y T:VV es una transformación lineal, entonces decimos que T es simétrica si para todo par de vectores u y v en V se tiene que T(u),v=u,T(v). Enunciamos el resultado en términos de transformaciones, pero también es válido para las matrices simétricas asociadas.

Teorema. Sea V un espacio Eucideano y T:VV una transformación lineal simétrica. Sea W un subespacio de V estable bajo T. Entonces:

  • W también es estable bajo T y
  • Las restricciones de T a W y a W son transformaciones lineales simétricas en esos espacios.

Demostración. Para el primer punto, lo que tenemos que mostrar es que si w pertenece a W, entonces T(w) también, es decir, que T(w) es ortogonal a todo vector v en W.

Tomemos entonces un vector v en W. Como W es estable bajo T, tenemos que T(v) está en W, de modo que w,T(v)=0. Como T es simétrica, tenemos entonces que T(w),v=w,T(v)=0. Esto es lo que queríamos probar.

Para la segunda parte, si T1 es la restricción de T1 a W y tomamos vectores u y v en W, tenemos que
T1(u),v=T(u),v=u,T(v)=u,T1(v),

lo cual muestra que T1 es simétrica. La prueba para W es análoga y queda como tarea moral.

◻

Matrices diagonalizables y bases ortonormales de eigenvectores

El tercer y último resultado enuncia una equivalencia entre que una matriz en Mn(F) sea diagonalizable, y que exista una base especial para Fn. Es lo que usaremos para probar la equivalencia entre ambas formulaciones del teorema espectral para matrices simétricas reales.

Teorema. Sea A una matriz en Mn(F). Las siguientes dos afirmaciones son equivalentes:

  • A es diagonalizable, es decir, existen matrices P y D en Mn(F), con P invertible y D diagonal tales que A=P1DP.
  • Existe una base para Fn que consiste de eigenvectores de A.

Demostración. Antes de comenzar la demostración, recordemos que si tenemos una matriz B en Mn(F) de vectores columna C1,,Cn, entonces los vectores columna del producto AB son AC1,ACn. Además, si D es una matriz diagonal en Mn(F) con entradas en la diagonal d1,,dn, entonces los vectores columna de BD son d1C1,,dnCn.

Comencemos la prueba del teorema. Supongamos que A es diagonalizable y tomemos matrices P y D en Mn(F) con P invertible y D diagonal de entradas d1,,dn, tales que A=P1DP. Afirmamos que los vectores columna C1,,Cn de P1 forman una base de Fn que consiste de eigenvectores de A.

Por un lado, como son los vectores columna de una matriz invertible, entonces son linealmente independientes. En total son n, como la dimensión de Fn. Esto prueba que son una base.

De A=P1DP obtenemos la igualdad AP1=P1D. Por las observaciones al inicio de la prueba, tenemos al igualar columnas que para cada j=1,,n se cumple ACj=djCj. Como Cj forma parte de un conjunto linealmente independiente, no es el vector 0. Así, Cj es un eigenvector de A con eigenvalor dj. Con esto terminamos una de las implicaciones.

Supongamos ahora que existe una base de Fn que consiste de eigenvectores C1,,Cn de A. Para cada j=1,,n, llamemos λj al eigenvalor correspondiente a Cj, y llamemos D a la matriz diagonal con entradas λ1,,λn.

Como C1,,Cn son vectores linealmente independientes, la matriz B cuyas columnas son C1,,Cn es invertible. Además, por las observaciones al inicio de la prueba, se tiene que la columna j de la matrizAB es ACj y la columna j de la matriz BD es λjCj. Entonces, por construcción, estas matrices son iguales columna a columna, y por lo tanto lo son iguales. De esta forma, tenemos que AB=BD, o bien, reescribiendo esta igualdad, que A=BDB1. Así, la matriz invertible P=B1 y la matriz diagonal D diagonalizan a A.

◻

Las matrices simétricas reales serán todavía más especiales que simplemente las matrices diagonalizables. Lo que asegura el teorema espectral es que podremos encontrar no sólo una base de eigenvectores, sino que además podemos garantizar que esta base sea ortonormal. En términos de diagonalización, la matriz P no sólo será invertible, sino que además será ortogonal.

Más adelante…

En esta entrada enunciamos dos formas del teorema espectral y hablamos de algunas consecuencias que tiene. Además, repasamos un poco de la teoría que hemos visto a lo largo del curso y vimos cómo nos ayuda a entender mejor este teorema.

En la siguiente entrada, que es la última del curso, demostraremos las dos formas del teorema espectral que enunciamos en esta entrada y haremos un pequeño comentario sobre qué hay más allá del teorema espectral en el álgebra lineal.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Encuentra un ejemplo de una matriz simétrica en Mn(C) cuyos eigenvalores no sean reales.
  • En el contexto del segundo teorema, muestra que la restricción de T a W es simétrica.
  • Realiza la demostración de que si A y B son matrices en Mn(F) y los vectores columna de B son C1,,Cn, entonces los vectores columna de AB son AC1,,ACn. También, prueba que si D es diagonal de entradas d1,,dn, entonces las columnas de BD son d1C1,,dnCn.
  • Encuentra una matriz A con entradas reales similar a la matriz (100050003), tal que ninguna de sus entradas sea igual a 0. Encuentra una base ortogonal de eigenvectores de A para R3.
  • Diagonaliza la matriz (2000020019730765724767207487237).

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»