Archivo de la etiqueta: polinomios

Álgebra Lineal I: Problemas de combinaciones lineales, generadores e independientes

Introducción

En entradas anteriores ya hablamos de combinaciones lineales, de conjuntos generadores y de conjuntos independientes. Lo que haremos aquí es resolver problemas para reforzar el contenido de estos temas.

Problemas resueltos

Problema. Demuestra que el polinomio p(x)=x^2+x+1 no puede ser escrito en el espacio vectorial \mathbb{R}[x] como una combinación lineal de los polinomios

    \begin{align*} p_1(x)=x^2-x\\ p_2(x) = x^2-1\\ p_3(x) = x-1.\end{align*}

Solución. Para resolver este problema, podemos plantearlo en términos de sistemas de ecuaciones. Supongamos que existen reales a, b y c tales que

    \[p(x)=ap_1(x)+bp_2(x)+cp_3(x).\]

Desarrollando la expresión, tendríamos que

    \begin{align*}x^2+x+1 &= a(x^2-x)+b(x^2-1)+c(x-1)\\&= (a+b)x^2+(-a+c)x+(-b-c),\end{align*}

de donde igualando coeficientes de términos del mismo grado, obtenemos el siguiente sistema de ecuaciones:

    \[\begin{cases}a+b & = 1\\ -a + c &= 1 \\ -b-c &= 1.\end{cases}\]

Para mostrar que este sistema de ecuaciones no tiene solución, le aplicaremos reducción gaussiana a la siguiente matriz extendida:

    \[\begin{pmatrix} 1 & 1 & 0 & 1 \\ -1 & 0 & 1 & 1 \\ 0 & -1 & -1 & 1 \end{pmatrix}.\]

Tras la transvección R_2+R_1, obtenemos

    \[\begin{pmatrix} 1 & 1 & 0 & 1 \\ 0 & 1 & 1 & 2 \\ 0 & -1 & -1 & 1 \end{pmatrix}.\]

Tras la transvección R_3+R_2, obtenemos

    \[\begin{pmatrix} 1 & 1 & 0 & 1 \\ 0 & 1 & 1 & 2 \\ 0 & 0 & 0 & 3 \end{pmatrix}.\]

De aquí se ve que la forma escalonada reducida tendrá un pivote en la última columna. Por el teorema de existencia y unicidad el sistema original no tiene solución.

\square

En el problema anterior usamos un argumento de reducción gaussiana para mostrar que el sistema no tiene solución. Este es un método general que funciona en muchas ocasiones. Una solución más sencilla para ver que el sistema del problema no tiene solución es que al sumar las tres ecuaciones se obtiene 0=3.

Problema. Sea n un entero positivo. Sea W el subconjunto de vectores en \mathbb{R}^n cuya suma de entradas es igual a 0. Sea Z el espacio generado por el vector (1,1,\ldots,1) de \mathbb{R}^n. Determina si es cierto que

    \[\mathbb{R}^n=W\oplus Z.\]

Solución. El espacio Z está generado por todas las combinaciones lineales que se pueden hacer con el vector v=(1,1,\ldots,1). Como sólo es un vector, las combinaciones lineales son de la forma av con a en \mathbb{R}, de modo que Z es precisamente

    \[Z=\{(a,a,\ldots,a): a\in\mathbb{R}\}.\]

Para obtener la igualdad

    \[\mathbb{R}^n=W\oplus Z,\]

tienen que pasar las siguientes dos cosas (aquí estamos usando un resultado de la entrada de suma y suma directa de subespacios):

  • W\cap Z = \{0\}
  • W+Z=\mathbb{R}^n

Veamos qué sucede con un vector v en W\cap Z. Como está en Z, debe ser de la forma v=(a,a,\ldots,a). Como está en W, la suma de sus entradas debe ser igual a 0. En otras palabras, 0=a+a+\ldots+a=na. Como n es un entero positivo, esta igualdad implica que a=0. De aquí obtenemos que v=(0,0,\ldots,0), y por lo tanto W\cap Z = \{0\}.

Veamos ahora si se cumple la igualdad \mathbb{R}^n=W+Z. Por supuesto, se tiene que W+Z\subseteq \mathbb{R}^n, pues los elementos de W y Z son vectores en \mathbb{R}^n. Para que la igualdad \mathbb{R}^n\subseteq W+Z se cumpla, tiene que pasar que cualquier vector v=(x_1,\ldots,x_n) en \mathbb{R}^n se pueda escribir como suma de un vector w uno con suma de entradas 0 y un vector z con todas sus entradas iguales. Veamos que esto siempre se puede hacer.

Para hacerlo, sea S=x_1+\ldots+x_n la suma de las entradas del vector v. Consideremos al vector w=\left(x_1-\frac{S}{n},\ldots, x_n-\frac{S}{n} \right) y al vector z=\left(\frac{S}{n},\ldots,\frac{S}{n}).

Por un lado, z está en Z, pues todas sus entradas son iguales. Por otro lado, la suma de las entradas de w es

    \begin{align*}\left(x_1-\frac{S}{n}\right)+\ldots + \left(x_n-\frac{S}{n}\right)&=(x_1+\ldots+x_n)-n\cdot \frac{S}{n}\\ &= S-S=0,\end{align*}

lo cual muestra que w está en W. Finalmente, notemos que la igualdad w+z=v se puede comprobar haciendo la suma entrada a entrada. Con esto mostramos que cualquier vector de V es suma de vectores en W y Z y por lo tanto concluimos la igualdad \mathbb{R}^n=W\oplus Z.

\square

En el problema anterior puede parecer algo mágico la propuesta de vectores w y z. ¿Qué es lo que motiva la elección de \frac{S}{n}? Una forma de enfrentar los problemas de este estilo es utilizar la heurística de trabajar hacia atrás. Sabemos que el vector w debe tener todas sus entradas iguales a cierto número a y queremos que z=v-w tenga suma de entradas igual a 0. La suma de las entradas de v-w es

    \[(x_1-a)+\ldots+(x_n-a)= S -na.\]

La elección de a=\frac{S}{n} está motivada en que queremos que esto sea cero.

Problema. Considera las siguientes tres matrices en M_2(\mathbb{C}):

    \begin{align*} A&= \begin{pmatrix} -i & -3 \\ 2 & 3 \end{pmatrix}\\B&= \begin{pmatrix} 2i& 1 \\ 3 & -1 \end{pmatrix}\\C&= \begin{pmatrix} i & -7  \\ 12 & 7 \end{pmatrix}.\end{align*}

Demuestra que A, B y C son matrices linealmente dependientes. Da una combinación lineal no trivial de ellas que sea igual a 0.

Solución. Para mostrar que son linealmente dependientes, basta dar la combinación lineal no trivial buscada. Buscamos entonces a,b,c números complejos no cero tales que aA+bB+cC=O_2, la matriz cero en M_2(\mathbb{C}). Para que se de esta igualdad, es necesario que suceda entrada a entrada. Tenemos entonces el siguiente sistema de ecuaciones:

    \[\begin{cases}-i a + 2i b + ic &= 0\\-3a + b -7c &=0\\2a + 3b + 12c &= 0\\3a -b +7c &=0.\end{cases}\]

En este sistema de ecuaciones tenemos números complejos, pero se resuelve exactamente de la misma manera que en el caso real. Para ello, llevamos la matriz correspondiente al sistema a su forma escalonada reducida. Comenzamos dividiendo el primer renglón por -i y aplicando transvecciones para hacer el resto de las entradas de la columna iguales a 0. Luego intercambiamos la tercera y cuarta filas.

    \begin{align*}&\begin{pmatrix}-i & 2i & i \\-3 & 1 & -7 \\2 & 3 & 12 \\3 & -1 & 7\end{pmatrix}\\\to&\begin{pmatrix}1 & -2 & -1 \\0 & -5 & -10 \\0 & 7 & 14 \\0 & 5 & 10\end{pmatrix}\end{align*}

Ahora reescalamos con factor -\frac{1}{5} la segunda fila y hacemos transvecciones para hacer igual a cero el resto de entradas de la columna 2:

    \begin{align*}&\begin{pmatrix}1 & 0& 3 \\0 & 1 & 2 \\0 & 0 & 0 \\0 & 0 & 0\end{pmatrix}\end{align*}

Con esto llegamos a la forma escalonada reducida de la matriz. De acuerdo al procedimiento que discutimos en la entrada de sistemas lineales homogéneos, concluimos que las variables a y b son pivote y la variable c es libre. Para poner a a y b en términos de c, usamos la primera y segunda ecuaciones. Nos queda

    \begin{align*} a &= -3c \\ b &= -2c. \end{align*}

En resumen, concluimos que para cualqueir número complejo c en \mathbb{C} se tiene la combinación lineal

    \[-3c\begin{pmatrix} -i & -3 \\ 2 & 3 \end{pmatrix} - 2c \begin{pmatrix} 2i& 1 \\ 3 & -1 \end{pmatrix}  + c\begin{pmatrix} i & -7 \\ 12 & 7 \end{pmatrix} = \begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}.\]

Una posible combinación lineal no trivial se obtiene tomando c=1.

\square

En el problema anterior bastaba encontrar una combinación lineal no trivial para acabar el ejercicio. Por supuesto, esto también se puede hacer por prueba y error. Sin embargo, la solución que dimos da una manera sistemática de resolver problemas de este estilo.

Problema. Consideremos el espacio vectorial V de funciones f:\mathbb{R}\to \mathbb{R}. Para cada real a en (0,\infty), definimos a la función f_a\in V dada por

    \[f_a(x)=e^{ax}.\]

Tomemos reales distintos 0<a_1<a_2<\ldots<a_n. Supongamos que existe una combinación lineal de las funciones f_{a_1},\ldots,f_{a_n} que es igual a 0, es decir, que existen reales \alpha_1,\ldots,\alpha_n tales que

    \[\alpha_1 e^{a_1x} + \alpha_2e^{a_2x} + \ldots + \alpha_n e^{a_nx} = 0\]

para todo real x\geq 0.

Muestra que \alpha_1=\ldots=\alpha_n=0. Concluye que la familia (f_a)_{a\in \mathbb{R}} es linealmente independiente en V.

Solución. Procedemos por inducción sobre n. Para n=1, si tenemos la igualdad \alpha e^{ax}=0 para toda x, entonces \alpha=0, pues e^{ax} siempre es un número positivo. Supongamos ahora que sabemos el resultado para cada que elijamos n-1 reales cualesquiera. Probaremos el resultado para n reales cualesquiera.

Supongamos que tenemos la combinación lineal

    \[\alpha_1 e^{a_1x} + \alpha_2e^{a_2x} + \ldots + \alpha_n e^{a_nx} = 0\]

para todo real x\geq 0.

Dividamos esta igualdad que tenemos entre e^{a_nx}:

    \[\alpha_1 e^{(a_1-a_n)x} + \alpha_2e^{(a_2-a_n)x} + \ldots + \alpha_{n-1}e^{(a_{n-1}-a_n)x}+\alpha_n = 0.\]

¿Qué sucede cuando hacemos x\to \infty? Cada uno de los sumandos de la forma \alpha_i e^{(a_i-a_n)x} se hace cero, pues a_i<a_n y entonces el exponente es negativo y se va a -\infty. De esta forma, queda la igualdad \alpha_n=0. Así, nuestra combinación lineal se ve ahora de la forma

    \[\alpha_1 e^{a_1x} + \alpha_2e^{a_2x} + \ldots + \alpha_{n-1} e^{a_{n-1}x} = 0.\]

Por la hipótesis inductiva, \alpha_1=\ldots=\alpha_{n-1}=0. Como también ya demostramos \alpha_n=0, hemos terminado el paso inductivo.

Concluimos que la familia (infinita) (f_a)_{a\in \mathbb{R}} es linealmente independiente en V pues cualquier subconjunto finito de ella es linealmente independiente.

\square

El problema anterior muestra que la razón por la cual ciertos objetos son linealmente independientes puede deberse a una propiedad analítica o de cálculo. A veces dependiendo del contexto en el que estemos, hay que usar herramientas de ese contexto para probar afirmaciones de álgebra lineal.

Entradas relacionadas

Álgebra Lineal I: Subespacios vectoriales

Introducción

En la entrada anterior dimos la definición de espacio vectorial y vimos varios ejemplos de espacios vectoriales. Ahora hablaremos de subespacios vectoriales o simplemente, subespacios. A grandes rasgos, podemos pensar a un subespacio como un subconjunto de un espacio vectorial V que también es un espacio vectorial con las mismas operaciones de V.

Definición de subespacios vectoriales y primeras consecuencias

Definición. Sea V un espacio vectorial sobre un campo F. Un subespacio vectorial de V, o simplemente un subespacio de V, es un subconjunto no vacío W de V cerrado bajo las operaciones de suma vectorial y multiplicación escalar de V. En otras palabras, W es un subespacio de V si se cumplen las siguientes dos propiedades:

  1. (Cerradura de la suma vectorial) Para cualesquiera u y v elementos de W, se cumple que u+v está en W.
  2. (Cerradura de la multiplicación por escalar) Para cualquier escalar c en F y vector v en W se cumple que cv está en W.

En la entrada anterior ya vimos un ejemplo. Si tenemos un campo F y nos fijamos el espacio vectorial F[x] de polinomios, entonces para cualquier entero n el subconjunto F_n[x] de F[x] de polinomios de grado a lo más n es cerrado bajo la suma de polinomios y bajo el producto escalar. De esta forma, F_n[x] es un subespacio de F[x]. Más abajo veremos muchos ejemplos de subespacios, pero primero nos enfocaremos en algunas consecuencias de la definición.

Observación. Se cumple todo lo siguiente:

  1. Si W es un subespacio de un espacio vectorial V, entonces W debe tener al vector 0 de V (es decir, la identidad aditiva de la suma vectorial). Esto se debe a que W es no vacío, así que tiene por lo menos un elemento v. Si tomamos al 0 de F y usamos la propiedad (2) de subespacio con 0 y v obtenemos que 0v=0 está en W.
  2. Si W es un subespacio de un espacio vectorial V y v está en W, entonces -v también. Esto se debe a que por la propiedad (2) de subespacio tenemos que (-1)v=-v está en W.
  3. Si V es un espacio vectorial sobre F y W es un subespacio de V, entonces W también es un espacio vectorial sobre F con las mismas operaciones que V. Por un lado, el neutro e inversos aditivos existen por los dos incisos anteriores. Para el resto de las propiedades, se usa que se cumplen para elementos de V y por lo tanto también para los de W (pues es un subconjunto).
  4. Si W_1 y W_2 son dos subespacios de un espacio vectorial V, entonces la intersección W_1\cap W_2 también lo es.

\square

La primera propiedad nos puede ayudar en algunas ocasiones (no siempre) a darnos cuenta rápidamente si un subconjunto no es subespacio vectorial: si no tiene al vector 0, entonces no es subespacio.

La tercera propiedad tiene una consecuencia práctica muy importante: para mostrar que algo es un espacio vectorial, basta con mostrar que es un subespacio de algo que ya sabemos que es un espacio vectorial.

Problema. Muestra que \mathcal{C}[0,1], el conjunto de funciones continuas de [0,1] a \mathbb{R}, es un espacio vectorial sobre \mathbb{R} con las operaciones de suma de funciones y multiplicación por escalar.

Solución. En la entrada anterior vimos que el conjunto V de funciones de [0,1] a los reales es un espacio vectorial sobre \mathbb{R} con las operaciones de suma de funciones y multiplicación escalar. El conjunto \mathcal{C}[0,1] es un subconjunto de V.

Por argumentos de cálculo, la suma de dos funciones continuas es una función continua. Así mismo, al multiplicar una función continua por un real obtenemos de nuevo una función continua. De esta forma, \mathcal{C}[0,1] es un subespacio de V.

Por la observación (3) de la discusión previa, obtenemos que \mathcal{C}[0,1] es un espacio vectorial sobre \mathbb{R} con las operaciones de suma de funciones y multiplicación por escalar.

\square

Definiciones alternativas de subespacios vectoriales

Algunos textos manejan definiciones ligeramente distintas a la que nosotros dimos. Sin embargo, todas ellas son equivalentes.

Proposición. Sea V un espacio vectorial sobre el campo F y W un subconjunto de V. Los siguientes enunciados son equivalentes.

  1. W es un subespacio de V de acuerdo a nuestra definición.
  2. Para cualesquiera vectores u y v en W y escalares a y b en F, se tiene que au+bv está en W.
  3. Para cualesquiera vectores u y v en W y cualquier escalar c en F se tiene que cu+v está en W.

Demostración. (1) implica (2). Supongamos que W es un subespacio de V. Tomemos vectores u,v en W y escalares a,b en F. Como W es cerrado bajo producto escalar, se tiene que au está en W. De manera similar, bv está en W. Como W es cerrado bajo sumas, se tiene que au+bv está en W.

(2) implica (3). Supontamos que W satisface (2) y tomemos u,v en W y cualquier escalar c en F. Tomando a=c y b=1 en (2), tenemos que cu+1v=cu+v está en W.

(3) implica (1). Supongamos que W satisface (3). Hay que ver que W es cerrado bajo sumas y producto escalar. Si tomamos u y v en W y al escalar c=1 de F, por (3) obtenemos que cu+v=1u+v=u+v está en W, lo cual muestra la cerradura de la suma. Si tomamos cualquier escalar c y al vector w=0, entonces por (3) se tiene que cu+w=cu+0=cu está en W. Esto muestra la cerradura bajo producto escalar.

\square

La consecuencia práctica de la proposición anterior es que basta verificar (2) o (3) para garantizar que W es un subespacio.

Problema. Considera V el espacio vectorial de matrices en M_n(F). Muestra que el subconjunto W de matrices simétricas forman un subespacio de V.

Solución. Lo demostraremos probando el punto (3) de la proposición. Sea c un escalar en F y sean A y B matrices en W, es decir, tales que ^tA=A y ^tB = B. Debemos mostrar que cA+B está en W, es decir, que ^t(cA+B)=cA+B. Usando propiedades de la transpuesta y la hipótesis sobre A y B tenemos que:

    \[^t(cA+B) = c \ ^tA+ \ ^tB = cA + B.\]

Con esto termina la demostración.

\square

Más ejemplos de subespacios vectoriales

A continuación presentamos más ejemplos de subespacios vectoriales. En cada ejemplo damos un espacio vectorial y un subconjunto W. Para cada uno de los casos, piensa por qué la suma de dos elementos de W es de nuevo un elemento de W y por qué el producto de un escalar por un elemento de W es un elemento de W. También puedes usar la última proposición para probar ambas cosas simultáneamente.

  • Si tomamos M_2(\mathbb{R}), el subconjunto W de matrices que cumplen que la suma de entradas en su diagonal principal es igual a 0 es un subespacio.
  • En el espacio vectorial F^4, el subconjunto W de vectores cuya primera y tercer entrada son iguales a 0 forman un subespacio.
  • Las funciones acotadas del intervalo [-3, 3] a \mathbb{R} forman un subconjunto W que es un subespacio de las funciones del intervalo [-3,3] a \mathbb{R}.
  • El subconjunto W de vectores (x,y,z) de \mathbb{R}^3 tales que

        \[\begin{cases}x+y+z &= 0\\ x+ 2y + 3z &= 0 \end{cases}\]

    es un subespacio de \mathbb{R}^3.
  • Si tomamos W=\mathbb{R}_3[x], entonces este es un subespacio de \mathbb{R}_4[x].
  • Si tomamos W=\mathbb{R}_4[x], entonces este es un subespacio de \mathbb{R}_5[x].
  • El subconjunto W de funciones diferenciables de [0,10] a \mathbb{R} tales que su derivada evaluada en 7 es igual a 0 es un subespacio del espacio de funciones continuas de [0,10] a \mathbb{R}.
  • Las matrices triangulares superiores de M_n(F) forman un subespacio W del espacio M_n(F). Las matrices triangulares inferiores también. Como la intersección de estos subespacios es el conjunto de matrices diagonales, obtenemos que las matrices diagonales también son un subespacio (aunque claro, esto también se puede probar directamente de la definición).

Ejemplos de subconjuntos que no son subespacios vectoriales

Aunque ya vimos muchos ejemplos de subespacios, resulta que en realidad es un poco raro que un subconjunto de un espacio vectorial sea un subespacio. Los ejemplos de subconjuntos que no son subespacios vectoriales abundan. Veamos algunos y qué tipo de cosas pueden salir mal.

  • El subconjunto W=\{(x,y,z): x^2+y^2+z^2=1\} no es un subespacio de \mathbb{R}^3. Podemos dar el siguiente argumento: ya demostramos que un subespacio debe tener al vector cero. En este caso, W debería tener a (0,0,0) para ser subespacio. Pero 0^2+0^2+0^2=0\neq 1. Así, (0,0,0) no está en W y por lo tanto W no es subespacio.
  • Alternativamente, en el ejemplo anterior podemos ver que (1,0,0) está en W, pero 2(1,0,0)=(2,0,0) no.
  • El subconjunto W=\{(0,0), (1,2), (-1,2)\} de \mathbb{R}^2 no es un subespacio, pues (1,2) está en W. Tomando u=(1,2) y v=(1,2), vemos que W no es cerrado bajo sumas pues (1,2)+(1,2)=(2,4) no está en W.
  • Las matrices del subconjunto GL_n(F) de M_n(F), es decir, las matrices invertibles, no conforman un subespacio. Por un lado, ya vimos que el neutro aditivo de la suma debe estar en un subespacio, pero la matriz O_n no es invertible, así que no está en GL_n(F).
  • El subconjunto W de funciones f:[-3,3]\to \mathbb{R} diferenciables tales que su derivada en 0 es igual a 2 no es un subespacio de las funciones continuas de [-3,3] a \mathbb{R}. Hay muchas formas de verlo. Podemos darnos cuenta que f(x)=x^2+2x es una de las funciones en W pues f'(x)=2x+2 y f'(0)=2. Sin embargo, 3f no está en W.
  • El subconjunto W de polinomios de \mathbb{R}[x] con coeficientes no negativos no es un subespacio de \mathbb{R}[x]. El polinomio 0 sí está en W y la suma de cualesquiera dos elementos de W está en W. Sin embargo, falla la multiplicación escalar pues x está en W, pero (-1)x=-x no.
  • La unión del eje X, el eje Y y el eje Z de \mathbb{R}^3 es un subconjunto W de \mathbb{R}^3 que no es un subespacio. Cualquier producto escalar queda dentro de W, pero la suma no es cerrada.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Demuestra que los siguientes conjuntos W son subespacios del espacio vectorial indicado.
    • El subconjunto W de vectores (w,x,y,z) de \mathbb{C}^4 tales que w+x+y+z=0.
    • La colección W de funciones continuas f:[0,1]\to \mathbb{R} tales que \int_0^1 f(x) \, dx = 0 es un subespacio del espacio de funciones de [0,1] a \mathbb{R}.
    • W=\left\{\begin{pmatrix} a+b & b\\ -b & c+b \end{pmatrix}: a,b,c \in \mathbb{R} \right\} es un subespacio de las matrices en M_2(\mathbb{R}).
  • Demuestra que los siguientes conjuntos W no son subespacios del espacio vectorial indicado.
    • El subconjunto W de vectores (x,y) de \mathbb{R}^2 tales que xy\geq 0 no es un subespacio de \mathbb{R}^2.
    • El subconjunto W de matrices en M_{3,2}(F) cuyo producto de todas las entradas es igual a 0 no es un subespacio de M_{3,2}
    • Cuando W es un subconjunto finito y con al menos dos polinomios con coeficientes complejos y de grado a lo más 3, es imposible que sea un subespacio de \mathbb{C}_3[x].
  • Sea V un espacio vectorial y n un entero positivo. Demuestra que si W_1, W_2, \ldots, W_n son subespacios de V, entonces la intersección

        \[W_1 \cap W_2 \cap \ldots \cap W_n\]

    también lo es.
  • Escribe por completo la demostración de que cualquier subespacio de un espacio vectorial es también un espacio vectorial con las mismas operaciones.
  • Demuestra que si V es un espacio vectorial, W es un subespacio de V y U es un subespacio de W, entonces U es un subespacio de V.

Más adelante…

En esta entrada definimos el concepto de subespacio de un espacio vectorial. En la siguiente hablaremos de algunas operaciones que se les puede hacer a los subespacios vectoriales para “combinarlos” y obtener más subespacios. Una operación muy imporante es la de suma de subespacios, que puede tener dos o más sumandos. La operación de suma de subespacios es particularmente especial cuando los subespacios están en posición de suma directa. Para irte dando una idea de qué quiere decir esto, dos subespacios están en posición de suma directa si su único elemento en común es el vector 0. El caso general de más subespacios se enuncia de forma distinta y también lo veremos en la siguiente entrada.

Entradas relacionadas

Álgebra Lineal I: Espacios vectoriales

Introducción

En la primer unidad de este curso de álgebra lineal estudiamos a profundidad al conjunto F^n con sus operaciones de suma y multiplicación por escalar. Luego, hablamos de las matrices en M_{m,n}(F) y vimos cómo pensarlas como transformaciones lineales. Les dimos una operación de producto que en términos de transformaciones lineales se puede pensar como la composición. Luego, hablamos de la forma escalonada reducida de una matriz y cómo llevar cualquier matriz a esta forma usando reducción gaussiana. Esto nos permitió resolver sistemas de ecuaciones lineales homogéneos y no homogeneos, así como encontrar inversas de matrices. Las habilidades desarrolladas en la primer parte del curso serán de mucha utilidad para la segunda, en donde hablaremos de espacios vectoriales.

En esta entrada definiremos el concepto de espacio vectorial y vectores. Para hacer esto, tomaremos como motivación el espacio F^n, que ya conocemos bien. Sin embargo, hay muchos otros ejemplos de objetos matemáticos que satisfacen la definición que daremos. Hablaremos de algunos de ellos.

En el transcurso de la unidad también hablaremos de otros conceptós básicos, como la de subespacio. Hablaremos de conjuntos linealmente independientes, de generadores y de bases. Esto nos llevará a establecer una teoría de la dimensión de un espacio vectorial. Las bases son de fundamental importancia pues en el caso de dimensión finita, nos permitirán pensar a cualquier espacio vectorial “como si fuera F^n “. Más adelante precisaremos en qué sentido es esto.

Después, veremos cómo pasar de un espacio vectorial a otro mediante transformaciones lineales. Veremos que las transformaciones entre espacios vectoriales de dimensión finita las podemos pensar prácticamente como matrices, siempre y cuando hayamos elegido una base para cada espacio involucrado. Para ver que estamos haciendo todo bien, debemos verificar que hay una forma sencilla de cambiar esta matriz si usamos una base distinta, y por ello estudiaremos a las matrices de cambio de base.

Esta fuerte relación que existe entre transformaciones lineales y y matrices nos permitirá llevar información de un contexto a otro. Además, nos permitirá definir el concepto de rango para una matriz (y transformación vectorial). Hasta ahora, sólo hemos distinguido entre matrices invertibles y no invertibles. Las matrices invertibles corresponden a transformaciones lineales que “guardan toda la información”. El concepto de rango nos permitirá entender de manera más precisa cuánta información guardan las transformaciones lineales no invertibles.

Recordando a F^n

Antes de definir el concepto de espacio vectorial en toda su generalidad, recordemos algunas de las cosas que suceden con F^n. De hecho, puedes pensar en algo mucho más concreto como \mathbb{R}^4.

Como recordatorio, comenzamos tomando un campo F y dijimos que, para fines prácticos, podemos pensar que se trata de \mathbb{R} y \mathbb{C}. A los elementos de F les llamamos escalares.

Luego, consideramos todas las n-adas de elementos de F y a cada una de ellas le llamamos un vector. A F^n le pusimos una operación de suma, que tomaba dos vectores en F^n y nos daba otro. Además, le pusimos una operación de producto por escalar, la cual tomaba un escalar en F y un vector en F^n y nos daba como resultado un vector. Para hacer estas operaciones procedíamos entrada a entrada.

Sin embargo, hay varias propiedades que demostramos para la suma y producto por escalar, para las cuales ya no es necesario hablar de las entradas de los vectores. Mostramos que todo lo siguiente pasa:

  1. (Asociatividad de la suma) Para cualesquiera vectores u,v,w en F^n se cumple que (u+v)+w=u+(v+w).
  2. (Conmutatividad de la suma) Para cualesquiera vectores u,v en F^n se cumple que u+v=v+u.
  3. (Identidad para la suma) Existe un vector 0 en F^n tal que u+0=u=0+u.
  4. (Inversos para la suma) Para cualquier vector u en F^n existe un vector v en F^n tal que u+v=0=v+u.
  5. (Distributividad para la suma escalar) Para cualesquiera escalares a,b en F y cualquier vector v en F^n se cumple que (a+b)v=av+bv.
  6. (Distributividad para la suma vectorial) Para cualquier escalar a en F y cualesquiera vectores v,w en F^n se cumple que a(v+w)=av+aw.
  7. (Identidad de producto escalar) Para la identidad multiplicativa 1 del campo F y cualquier vector v en F^n se cumple que 1v=v.
  8. (Compatibilidad de producto escalar) Para cualesquiera dos escalares a,b en F y cualquier vector v en F^n se cumple que (ab)v=a(bv).

Los primeros cuatro puntos son equivalentes a decir que la operación suma en F^n es un grupo conmutativo. Resulta que hay varios objetos matemáticos que satisfacen todas estas ocho propiedades o axiomas de espacio vectorial, y cuando esto pasa hay muchas consecuencias útiles que podemos deducir. La esencia del álgebra lineal precisamente consiste en deducir todo lo posible en estructuras que tienen las ocho propiedades anteriores. Estas estructuras son tan especiales, que tienen su propio nombre: espacio vectorial.

Definición de espacio vectorial

Estamos listos para la definición crucial del curso.

Definición. Sea F un campo. Un espacio vectorial sobre el campo F es un conjunto V con operaciones de suma y producto por escalar, que denotaremos por

    \begin{align*}+:& V\times V \to V \quad \text{y}\\\cdot:& F\times V \to V,\end{align*}

para las cuales se cumplen las ocho propiedades de la sección anterior. En otras palabras:

  • El conjunto V es un grupo conmutativo con la suma
  • Se tiene asociatividad para la suma escalar y la suma vectorial
  • Se tiene identidad y compatibilidad de la mulltiplicación escalar.

A los elementos de F les llamamos escalares. A los elementos de F^n les llamamos vectores. Para hacer restas, las definimos como u-v=u+(-v), donde -v es el inverso aditivo de v con la suma vectorial. Usualmente omitiremos el signo de producto escalar, así que escribiremos av en vez de a\cdot v para a escalar y v vector.

La definición da la impresión de que hay que verificar muchas cosas. De manera estricta, esto es cierto. Sin embargo, de manera intuitiva hay que pensar que a grandes rasgos los espacios vectoriales son estructuras en donde podemos sumar elementos entre sí y multiplicar vectores por escalares (externos) sin que sea muy complicado.

Como ya mencionamos, el conjunto F^n con las operaciones de suma y multiplicación por escalar que se hacen entrada por entrada es un espacio vectorial sobre F. En lo que resta de la entrada, hablaremos de otros ejemplos de espacios vectoriales que nos encontraremos frecuentemente.

Espacios vectoriales de matrices

Otros ejemplos de espacios vectoriales con los que ya nos encontramos son los espacios de matrices. Dado un campo F y enteros positivos m y n, el conjunto de matrices en M_{m,n}(F) es un espacio vectorial en donde la suma se hace entrada a entrada y la multiplicación escalar también.

¿Qué es lo que tenemos que hacer para mostrar que en efecto esto es un espacio vectorial? Se tendrían que verificar las 8 condiciones en la definición de espacio vectorial. Esto lo hicimos desde la primer entrada del curso, en el primer teorema de la sección “Operaciones de vectores y matrices”. Vuelve a leer ese teorema y verifica que en efecto se enuncian todas las propiedades necesarias.

Aquí hay que tener cuidado entonces con los términos que se usan. Si estamos hablando del espacio vectorial F^n, las matrices no forman parte de él, y las matrices no son vectores. Sin embargo, si estamos hablando del espacio vectorial M_{m,n}(F), entonces las matrices son sus elementos, y en este contexto las matrices sí serían vectores.

Ejemplo. Sea \mathbb{F}_2 el campo con 2 elementos. Consideremos M_{2}(\mathbb{F}_2). Este es un espacio vectorial. Tiene 16 vectores de la forma \begin{pmatrix} a & b \\ c & d \end{pmatrix}, en donde cada entrada es 0 o 1. La suma y la multiplicación por escalar se hacen entrada a entrada y con las reglas de \mathbb{F}_2. Por ejemplo, tenemos

    \[\begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} + \begin{pmatrix} 0 & 1 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}.\]

\square

Espacios vectoriales de funciones

Ahora veremos algunos ejemplos de espacios vectoriales cuyos elementos son funciones. Esto puede parecer algo abstracto, pero en unos momentos veremos algunos ejemplos concretos que nos pueden ayudar a entender mejor.

Sea F un campo y consideremos cualquier conjunto X. Consideremos el conjunto V de todas las posibles funciones de X a F. A este conjunto queremos ponerle operaciones de suma y de multiplicación por escalar.

Para definir la suma, tomemos dos funciones que van de X a F, digamos f:X\to F y g:X\to F. Definiremos a la función f+g como la función que a cada x en X lo manda a f(x)+g(x). Aquí estamos usando la suma del campo F. En símbolos, (f+g):X\to F tiene regla de asignación

    \[(f+g)(x)=f(x)+g(x).\]

Para definir el producto por escalar, tomamos una función f:X\to F y un escalar c en el campo F. La función cf será la función cf:X\to F con regla de asignación

    \[(cf)(x)=cf(x)\]

para todo x en X.

Resulta que el conjunto V de funciones de X a F con estas operaciones de suma y producto, es un espacio vectorial. Podemos probar, por ejemplo, la asociatividad de la suma. Para ello, la primer cosa que necesitamos mostrar es la asociatividad de la suma. Es decir, que si tenemos f:X\to F, g:X\to F y h:X\to F, entonces

    \[(f+g)+h = f+ (g+h).\]

Esta es una igualdad de funciones. Para que sea cierta, tenemos que verificarla en todo el dominio, así que debemos mostrar que para todo x en X tenemos que

    \[((f+g)+h)(x)=(f+(g+h))(x).\]

Para demostrar esto, usemos la definición de suma de funciones y la asociatividad de la suma del campo F. Con ello, podemos realizar la siguiente cadena de igualdades:

    \begin{align*}((f+g)+h)(x)&=(f+g)(x)+h(x)\\&=(f(x)+g(x)) + h(x) \\&=f(x) + (g(x)+h(x)) \\&=f(x) + (g+h)(x)\\&=(f+(g+h))(x).\end{align*}

Así, la suma en V es asociativa. El resto de las propiedades se pueden demostrar con la misma receta:

  • Se enuncia la igualdad de funciones que se quiere mostrar.
  • Para que dicha igualdad sea cierta, se tiene que dar en cada elemento del dominio, así que se evalúa en cierta x.
  • Se prueba la igualdad usando las definiciones de suma y producto por escalar, y las propiedades de campo de F.

Ejemplo. El ejemplo anterior es muy abstracto, pues X puede ser cualquier cosa. Sin embargo, hay muchos espacios de funciones con los cuales se trabaja constantemente. Por ejemplo, si el campo es el conjunto \mathbb{R} de reales y X es el intervalo [0,1], entonces simplemente estamos hablando de las funciones que van de [0,1] a los reales.

Si tomamos f:[0,1]\to \mathbb{R} y g:[0,1]\to \mathbb{R} dadas por

    \begin{align*}f(x)&= \sin x - \cos x\\ g(x) &= \cos x + x^2,\end{align*}

entonces su suma simplemente es la función f+g:[0,1]\to \mathbb{R} definida por (f+g)(x)=\sin x + x^2. Si tomamos, por ejemplo, el escalar 2, entonces la función 2f:[0,1]\to \mathbb{R} no es nada más que aquella dada por

    \[(2f)(x)= 2\sin x - 2\cos x.\]

Así como usamos el intervalo [0,1], pudimos también haber usado al intervalo [-2,2), al (-5,\infty], o a cualquier otro.

\square

Espacios vectoriales de polinomios

Otro ejemplo de espacios vectoriales que nos encontraremos frecuentemente son los espacios de polinomios. Si no recuerdas con precisión cómo se construyen los polinomios y sus operaciones, te recomendamos repasar este tema con material disponible aquí en el blog.

Dado un campo F y un entero positivo n usaremos F[x] para referirnos a todos los polinomios con coeficientes en F y usaremos F_n[x] para referirnos a aquellos polinomios con coeficientes en F y grado a lo más n. Aunque el polinomio cero no tiene grado, también lo incluiremos en F_n[x].

Ejemplo. Si F es \mathbb{C}, el campo de los números complejos, entonces todos los siguientes son polinomios en \mathbb{C}[x]:

    \begin{align*}p(x)&=(2+i)x^6 + (1+i),\\ q(x)&=3x^2+2x+1,\\ r(x)&=5x^7+(1-3i)x^5-1.\end{align*}

Tanto p(x) como q(x) están en \mathbb{C}_6[x], pues su grado es a lo más 6. Sin embargo, r(x) no está en \mathbb{C}_6[x] pues su grado es 7.

El polinomio q(x) también es un elemento de \mathbb{R}[x], pues tiene coeficientes reales. Pero no es un elemento de \mathbb{R}_1[x] pues su grado es demasiado grande.

\square

Recuerda que para sumar polinomios se tienen que sumar los coeficientes de grados correspondientes. Al hacer multiplicación por escalar se tienen que multiplicar cada uno de los coeficientes. De esta forma, si f(x)=x^2+1 y g(x)=x^3+\frac{x^2}{2}-3x-1, entonces

    \[(f+g)(x)=x^3+\frac{3x^2}{2}-3x,\]

y

    \[(6g)(x)=6x^3+3x^2-18x-6.\]

Resulta que F[x] con la suma de polinomios y con el producto escalar es un espacio vectorial. Puedes verificar cada uno de los axiomas por tu cuenta.

Observa que la suma de dos polinomios de grado a lo más n tiene grado a lo más n, pues no se introducen términos con grado mayor que n. Del mismo modo, si tenemos un polinomio con grado a lo más n y lo multiplicamos por un escalar, entonces su grado no aumenta. De esta forma, podemos pensar a estas operaciones como sigue:

    \begin{align*}+:& F_n[x] \times F_n[x] \to F_n[x]\\\cdot: & F\times F_n[x] \to F_n[x].\end{align*}

De esta forma, F_n[x] con la suma de polinomios y producto escalar de polinomios también es un espacio vectorial.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • A partir de los axiomas de espacio vectorial, muestra lo siguiente para un espacio vectorial V:
    • La identidad de la suma vectorial es única, es decir, que si existe otro elemento e en V tal que u+e=u=e+u para todo u en V, entonces e=0.
    • Que si 0 es la identidad aditiva del campo F y v es cualquier vector en V, entonces 0v es la identidad de la suma vectorial. En símbolos, 0v=0, donde el primer 0 es el de F y el segundo el de V.
    • Se vale la regla de cancelación para la suma vectorial, es decir, que si u,v,w son vectores en V y u+v=u+w, entonces v=w.
    • Se vale la regla de cancelación para el producto escalar, es decir, que si a es un escalar no cero del campo F y u,v son vectores de V para los cuales au=av, entonces u=v.
    • Que el inverso aditivo de un vector v para la suma vectorial en V es precisamente (-1)v, es decir, el resultado de hacer la multiplicación escalar de v con el inverso aditivo del 1 del campo F.
  • Sea V un espacio vectorial sobre \mathbb{R}. Sean u, v y w vectores en V. Justifica la siguiente igualdad enunciando de manera explícita todos los axiomas de espacio vectorial que uses

        \[u+5v-3w+2u-8v= -3(w+v-u).\]

  • Termina de demostrar que en efecto los espacios de funciones con la suma y producto escalar que dimos son espacios de funciones.
  • Enlista todos los polinomios de (\mathbb{F}_2)_3[x]. A continuación hay algunos:

        \[0, x+1, x^2+x, x^3+1.\]

    Para cada uno de ellos, encuentra quien es su inverso aditivo para la suma vectorial de (\mathbb{F}_2)_3[x].

Más adelante…

Ya dimos la definición de espacio vectorial y vimos varios ejemplos. Dentro de algunas entradas veremos como conseguir muchos más espacios vectoriales.

En el último ejemplo pasa algo curioso: el espacio F_n[x] es un subconjunto del espacio F[x] y además es un espacio vectorial con las mismas operaciones que F[x]. Este es un fenómeno muy importante en álgebra lineal. Decimos que F_n[x] es un subespacio de F[x]. En la siguiente entrada definiremos en general qué es un subespacio de un espacio vectorial y veremos algunas propiedades que tienen los subespacios.

Entradas relacionadas

Seminario de Resolución de Problemas: Polinomios asociados a matrices y el teorema de Cayley-Hamilton

Introducción

Para terminar esta serie de entradas de álgebra lineal, y con ello el curso de resolución de problemas, hablaremos de polinomios especiales asociados a una matriz: el polinomio mínimo y el polinomio característico. Después, hablaremos del teorema de Cayley-Hamilton, que a grandes rasgos dice que una matriz se anula en su polinomio característico.

Estos resultados forman parte fundamental de la teoría que se aprende en un curso de álgebra lineal. En resolución de problemas, ayudan mucho para entender a los eigenvalores de una matriz, y expresiones polinomiales de matrices.

Polinomio mínimo de una matriz

Podemos evaluar un polinomio en una matriz cuadrada de acuerdo a la siguiente definición.

Definición. Si A es una matriz de n\times n con entradas reales y p(x) es un polinomio en \mathbb{R}[x] de la forma

    \[p(x)=a_0+a_1x+a_2x^2+\ldots+a_nx^n,\]

definimos a la matriz p(A) como la matriz

    \[a_0I_n+a_1A+a_2A^2+\ldots+a_nA^n.\]

De manera análoga se puede dar una definición cuando las entradas de la matriz, o los coeficientes del polinomio, son números complejos.

Cuando una matriz está diagonalizada, digamos A=P^{-1}DP con P invertible y D diagonal, entonces evaluar polinomios en A es sencillo. Se tiene que p(A)=P^{-1} p(D) P, y si las entradas en la diagonal principal de D son d_1,\ldots,d_n, entonces p(D) es diagonal con entradas en la diagonal principal iguales a p(d_1),\ldots,p(d_n).

Dada una matriz A, habrá algunos polinomios p(x) en \mathbb{R}[x] para los cuales p(A)=0. Si p(x) es uno de estos, entonces cualquier eigenvalor de A debe ser raíz de p(x). Veamos un problema de la International Mathematics Competition de 2011 que usa esto. Es el Problema 2 del día 1.

Problema. Determina si existe una matriz A de 3\times 3 con entradas reales tal que su traza es cero y A^2+ {^tA} = I_3.

Sugerencia pre-solución. Busca un polinomio p(x) tal que p(A)=0.

Solución. La respuesta es que no existe dicha matriz. Procedamos por contradicción. Si existiera, podríamos transponer la identidad dada para obtener que

    \begin{align*}A&=I _3- {^t(A^2)}\\&=I_3-({^tA})^2\\&=I_3-(I_3 - A^2)^2\\&=2A^2 - A^4.\end{align*}

De aquí, tendríamos que A^4-2A^2+A = 0, de modo que cualquier eigenvalor de A debe ser una raíz del polinomio

    \[p(x)=x^4-2x^2+x=x(x-1)(x^2+x-1),\]

es decir, debe ser alguno de los números

    \[0,1,\frac{-1+\sqrt{5}}{2}, \frac{-1-\sqrt{5}}{2}.\]

Los eigenvalores de A^2 son los cuadrados de los eigenvalores de A, así que son algunos de los números

    \[0,1,\frac{3+\sqrt{5}}{2}, \frac{3-\sqrt{5}}{2}.\]

Como la traza de A es 0, la suma de sus tres eigenvalores (con multiplicidades), debe ser 0. Como la traza de A^2 es la de I_3-{ ^tA}, que es 3, entonces la suma de los eigenvalores de A al cuadrado (con multiplicidades), debe ser 0. Un sencillo análisis de casos muestra que esto no es posible.

\square

De entre los polinomios que se anulan en A, hay uno especial. El polinomio mínimo de una matriz A con entradas reales es el polinomio mónico \mu_A(x) de menor grado tal que \mu_A(A)=O_n, donde O_n es la matriz de n\times n con puros ceros. Este polinomio siempre es de grado menor o igual a n.

Una propiedad fundamental del polinomio mínimo de una matriz es que es mínimo no sólo en un sentido de grado, sino también de divisibilidad.

Teorema. Sea A una matriz de n\times n con entradas reales. Entonces para cualquier polinomio p(x) en \mathbb{R}[x] tal que p(A)=O_n, se tiene que \mu_A(x) divide a p(x) en \mathbb{R}[x].

Veamos cómo se puede usar este resultado.

Problema. La matriz A de 2\times 2 con entradas reales cumple que

    \[A^3-A^2+A=O_2.\]

Determina los posibles valores que puede tener A^2-A.

Sugerencia pre-solución. Encuentra las posibles opciones que puede tener el polinomio mínimo de A y haz un análisis de casos con respecto a esto.

Solución. La matriz A se anula en el polinomio

    \[p(x)=x^3-x^2+x=x(x^2-x+1),\]

en donde x^2-x+1 tiene discriminante negativo y por lo tanto es irreducible.

El polinomio mínimo \mu_A(x) debe ser un divisor de p(x). Además, es de grado a lo más 2. Esto nos deja con las siguientes opciones:

  • \mu_A(x)=x, de donde A=O_2, y por lo tanto A^2=O_2. De aquí, A^2-A=O_2.
  • \mu_A(x)=x^2-x+1. En este caso, tenemos que A^2-A+I_2=0. Así, A^2-A=-I_2.

Para mostrar que ambas opciones son posibles, en el primer caso usamos A=O_2 y en el segundo caso usamos

    \[A=\begin{pmatrix} 0 & -1 \\ 1 & 1 \end{pmatrix}.\]

\square

Polinomio característico de una matriz

El polinomio característico de una matriz A de n\times n se define como

    \[\chi_A(x)=\det(xI_n - A).\]

Teorema. El polinomio característico de una matriz A cumple que:

  • Es un polinomio mónico en x de grado n.
  • El coeficiente del término de grado n-1 es la traza de A.
  • El coeficiente libre es \chi_A(0)=(-1)^n\det(A).
  • Es igual al polinomio característico de cualquier matriz similar a A.

Para ver ejemplos de cómo obtener el polinomio característico y cómo usar sus propiedades, hacemos referencia a la siguiente entrada:

Propiedades del polinomio característico

En particular, para fines de este curso, es importante leer los ejemplos y problemas resueltos de esa entrada.

El teorema de Cayley-Hamilton y una demostración con densidad

Finalmente, hablaremos de uno de los resultados fundamentales en álgebra lineal.

Teorema (Cayley-Hamilton). Si A es una matriz de n\times n con entradas en \mathbb{C} y \chi_A(x) es su polinomio característico, entonces

    \[\chi_A(A)=O_n.\]

En realidad el teorema de Cayley-Hamilton es válido para matrices más generales. Daremos un esbozo de demostración sólo para matrices con entradas complejas pues eso nos permite introducir una técnica de perturbaciones.

Esbozo de demostración. Vamos a hacer la técnica de la bola de nieve, construyendo familias poco a poco más grandes de matrices que satisfacen el teorema.

Si A es una matriz diagonal, las entradas en su diagonal son sus eigenvalores \lambda_1,\ldots, \lambda_n. Por la discusión al inicio de esta entrada, \chi_A(A) es diagonal con entradas \chi_A(\lambda_1),\ldots,\chi_A(\lambda_n), y como los eigenvalores son raíces del polinomio característico, entonces todos estos valores son 0, y por lo tanto \chi_A(A)=0.

Si A es diagonalizable, digamos, de la forma A=P^{-1} D P, entonces A y D tienen el mismo polinomio característico. Por la discusión al inicio de la entrada, y por el caso anterior:

    \begin{align*}\chi_A(A) &= \chi_D(A)\\&= \chi_D(P^{-1} D P)\\&=P^{-1}\chi_D(D) P\\&=P^{-1}O_n P \\&=O_n.\end{align*}

Si A tiene todos sus eigenvalores distintos, se puede mostrar que A es diagonalizable. Ahora viene la idea clave del argumento de continuidad.

Pensemos al espacio métrico de matrices de n\times n. Afirmamos que las matrices con eigenvalores todos distintos son densas en este espacio métrico. Para ello, tomemos una matriz A. En efecto, como estamos trabajando en \mathbb{C}, existe una matriz invertible P tal que P^{-1}A P es triangular. Como P es invertible, define una transformación continua. Los eigenvalores de P^{-1} A P son sus entradas en la diagonal, y podemos perturbarlos tan poquito como queramos para hacer que todos sean distintos.

De esta forma, existe una sucesión de matrices A_k, todas ellas diagonalizables, tales que A_k \to A conforme k\to \infty. El resultado se sigue entonces de las siguientes observaciones:

  • Los coeficientes del polinomio característico de una matriz dependen continuamente de sus entradas.
  • Las entradas de potencias de una matriz dependen continuamente de sus entradas.
  • Así, la función \chi_{M}(M) es continua en la matriz variable M.

Concluimos como sigue \chi_{A_k}(A_k)=0, por ser cada una de las matrices A_k diagonalizables. Por la continuidad de \chi_{M}(M), tenemos que

    \begin{align*}\chi_A(A)&=\lim_{k\to \infty} \chi_{A_k}(A_k)\\&= \lim_{k\to \infty} O_n \\&= O_n.\end{align*}

\square

Terminamos esta entrada con un problema que usa el teorema de Cayley-Hamilton.

Problema. Muestra que para cualesquiera matrices X,Y,Z de 2\times 2 con entradas reales se cumple que

    \begin{align*}   &ZXYXY + ZYXYX + XYYXZ + YXXYZ\\= &XYXYZ + YXYXZ + ZXYYX + ZYXXY.\end{align*}

Sugerencia pre-solución. Muestra que las matrices reales de 2\times 2 de traza cero conmutan con cualquier matriz de 2\times 2.

Solución. Si A es una matriz de 2\times 2 de traza cero, su polinomio característico es

    \begin{align*}\chi_A(x)&=x^2 - \text{tr}(A) x + \det(A)\\&=x^2 + \det(A).\end{align*}

Por el teorema de Cayley-Hamilton, se satisface entonces que A^2=-\det(A) I_2, así que A^2 es un múltiplo de la identidad, y por lo tanto conmuta con cualquier matriz de 2\times 2.

La identidad que queremos mostrar se puede reescribir como

    \[Z(XY-YX)^2 = (XY-YX)^2Z.\]

La traza de XY es igual a la traza de YX, y como la traza es una transformación lineal, tenemos que

    \[\text{tr}(XY-YX)= \text{tr}(XY)-\text{tr}(YX)=0.\]

El problema se termina aplicando la discusión de arriba a la matriz

    \[A=XY-YX.\]

\square

Más problemas

Puedes encontrar más problemas relacionados con el polinomio mínimo, el polinomio característico y el teorema de Cayley-Hamilton en la Sección 8.2, 8.4 y 8.5 del libro Essential Linear Algebra de Titu Andreescu. También hay más problemas relacionados con el teorema de Cayley-Hamilton en el Capítulo 4 del libro Mathematical Bridges de Andreescu, Mortici y Tetiva.

Álgebra Superior II: Raíces de polinomios de grados 3 y 4

Introducción

Esta es la entrada final de la unidad de polinomios y del curso. En ella hablaremos acerca de las fórmulas para encontrar las raíces de polinomios de grado 3 y 4. Además, en la parte final, hablaremos de polinomios de grados más altos y cómo ellos te pueden llevar a cursos muy interesantes que puedes tomar para continuar tu formación matemática.

Existen métodos generales para encontrar las raíces de polinomios de grado 3 y 4, ya sea en \mathbb{R}[x] o en \mathbb{C}[x]. Para los polinomios de grado 3, se usa el método de Cardano. Para los polinomios de grado 4 se usa el método de Ferrari. Encontrar estas fórmulas tomó mucho tiempo. Ambas requieren de manipulaciones algebraicas muy creativas.

Raíces de polinomios de grado 3 y el método de Cardano

Tomemos un polinomio f(x) en \mathbb{R}[x] de grado 3. Si f(x) no es mónico, podemos multiplicarlo por el inverso de su coeficiente principal para obtener un polinomio con las mismas raíces. De esta forma, podemos suponer sin pérdida de generalidad que f(x) es de la forma

    \[f(x)=x^3+ax^2+bx+c.\]

Consideremos al polinomio

    \[g(x)=f\left(x-\frac{a}{3}\right).\]

Observa que r es una raíz de g(x) si y sólo si g(r)=0, si y sólo si f\left(r-\frac{a}{3}\right)=0, si y sólo si r-\frac{a}{3} es una raíz de f. De esta forma, si conocemos las raíces de g(x), podemos encontrar las de f(x), y viceversa.

Al hacer las cuentas (que quedan como tarea moral), se tiene que g(x) se simplifica a

    \begin{align*}g(x)&=f\left(x-\frac{a}{3}\right)\\&=x^3+\left(b-\frac{a^2}{3}\right)x+\left(-\frac{ba}{3}+c+\frac{2a^3}{27}\right),\end{align*}

que tiene la ventaja de ya no tener término cuadrático. En otras palabras, para encontrar las raíces de polinomio cúbico, basta con poder encontrar las de los polinomios de la forma

    \[g(x)=x^3+px+q.\]

Tomando x=u+v y haciendo las operaciones, se tiene que

    \[g(u+v)=u^3+v^3+(3uv+p)(u+v)+q.\]

Observa que si logramos encontrar u y v que satisfagan el sistema de ecuaciones

    \begin{align*}u^3+v^3&=-q\\uv&=-\frac{p}{3},\end{align*}

entonces tendríamos una raíz x=u+v.

La segunda ecuación implica u^3v^3=-\frac{p^3}{27}. Pero entonces conocemos la suma y el producto de las variables u^3 y v^3, con lo cual obtenemos que son las raíces del siguiente polinomio de grado 2 en la variable t:

    \begin{align*}(t-u^3)(t-v^3)&=t^2-(u^3+v^3)t+u^3v^3\\&=t^2+qt-\frac{p^3}{27}.\end{align*}

El discriminante de esta ecuación cuadrática es

    \[\Delta = q^2 + \frac{4p^3}{27}.\]

Si \Delta >0, esta ecuación cuadrática tiene las siguientes soluciones reales:

    \begin{align*}\sqrt[3]{-\frac q2 + \sqrt {\frac {q^2}{4} +\frac {p^3}{27}}}\\\sqrt[3]{-\frac q2 - \sqrt {\frac {q^2}{4} +\frac {p^3}{27}}}.\end{align*}

Sin pérdida de generalidad, u es la primera y v la segunda. De esta forma, una raíz real para g(x) es

    \[x= \sqrt[3]{-\frac q2 + \sqrt {\frac {q^2}{4} +\frac {p^3}{27}}} + \sqrt[3]{-\frac q2 - \sqrt {\frac {q^2}{4} +\frac {p^3}{27}}}.\]

Hasta aquí hay algunas cosas por notar:

  • Supusimos que el discriminante \Delta es positivo.
  • Sólo hemos encontrado una de las 3 raíces de p(x) que garantiza el teorema fundamental del álgebra.

Cuando el discriminante es positivo, las otras dos soluciones son \omega x y \omega^2 x, en donde \omega es una raíz cúbica primitiva de la unidad.

Cuando la cuadrática tiene discriminante \Delta<0, tenemos que u y v son complejos, y entonces al sacar raíz cúbica podemos tener tres opciones para cada uno, algo que parecería dar un total de 9 soluciones. Sin embargo, recordando que uv=-\frac{p}{3}, tenemos que u queda totalmente determinado por v, así que de ahí se obtienen las tres soluciones.

Raíces de polinomios de grado 4 y el método de Ferrari

El método de Ferrari está explicado a detalle en el libro de Álgebra de Bravo, Rincón y Rincón. Ahí están las ideas principales para encontrar una fórmula general para encontrar las raíces de un polinomio de grado 4, es decir, de la forma

    \[p(x)=ax^4+bx^3+cx^2+dx+e.\]

Recuerda que el libro está disponible para descarga gratuita.

Al igual que en el caso del método de Ferrari, los primeros pasos consisten en hacer simplificaciones algebraicas. Así como el método de Cardano usa la fórmula cuadrática, del mismo modo el método de Ferrari reduce el problema a encontrar soluciones a un polinomio de grado 3. Uno podría creer que este patrón se repite, y que se pueden encontrar métodos para polinomios de grado arbitrario. Esto no es así, y lo platicaremos en la siguiente sección.

Para otra derivación de la fórmula de Ferrari, compartimos el artículo “Identidades para la resolución de ecuaciones cúbicas y cuárticas” de José Leonardo Sáenz Cetina, que apareció en el número 24 de la revista Miscelánea Matemática de la Sociedad Matemática Mexicana:

Este documento también tiene otras dos formas de resolver ecuaciones cúbicas, así que es una lectura recomendada.

Finalmente, se recomienda también echarle un ojo a la página de Wikipedia acerca de la ecuación cuártica. La entrada en inglés es mucho mejor. Sobre todo la sección referente al método de Ferrari.

Raíces de polinomios de grado 5 y más

De acuerdo al teorema fundamental del álgebra, todo polinomio sobre los complejos tiene al menos una raíz. De hecho, se puede mostrar que si es de grado n, entonces tiene exactamente n raíces, contando multiplicidades.

Cuando tenemos polinomios de grados 2, 3 y 4 podemos usar la fórmula cuadrática, el método de Cardano y el método de Ferrari para encontrar una fórmula para las soluciones. ¿Hay algún método que tenga fórmulas similares para polinomios de grado más grande?

La respuesta es que no. Aunque el teorema fundamental del álgebra garantice la existencia de las raíces, hay un teorema de Abel y Ruffini que muestra que no es posible encontrar una fórmula general. Al menos no una que ayude a poner las raíces de cualquier polinomio de grado cinco (o más) usando únicamente sumas, restas, multiplicaciones, divisiones y raíces. Esto formalmente se enuncia como que hay ecuaciones de grado 5 y más que no son solubles por radicales.

Enunciar y demostrar este teorema formalmente requiere de herramientas que quedan fuera del alcance de este curso, sin embargo, se puede estudiar en un curso avanzado de álgebra, en donde se hable de extensiones de campo y teoría de Galois.

Por otro lado, podemos dejar de lado la exactitud y preguntarnos si, dado un polinomio, podemos acercarnos a sus raíces tanto como queramos. Hoy en día eso se hace mediante métodos computacionales. Aunque la computadora sea muy buena haciendo cuentas, hay que ser particularmente cuidadoso con los errores que comete al hacer aproximaciones.

Eso es otra de las cosas que quedan fuera del alcance de este curso, y que puedes estudiar en un buen curso de métodos numéricos. Si lo que buscar es saber cómo pedirle a la computados que haga los cálculos, eso lo puedes aprender en un buen curso de programación, en donde te enseñen a usar ambientes de computación científica.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Completa las cuentas faltantes en la discusión del método de Cardano.
  • Muestra que un polinomio de grado 3 y coeficientes reales tiene exactamente cero o dos raíces complejas distintas.
  • ¿Cuántas raíces complejas distintas puede tener un polinomio de grado 4 con coeficientes reales? Encuentra un ejemplo para cada una de las respuestas.
  • Encuentra las raíces del polinomio cuártico

        \[p(x)=x^4+2x^3-12x^2-10x+4.\]

    Después, compara tu respuesta con el Ejemplo 216 del libro de Álgebra de Bravo, Rincón, Rincón.
  • Lee las entradas en Wikipedia acerca de ecuaciones cúbicas y ecuaciones cuárticas.