Archivo de la etiqueta: diagonalización

Álgebra Lineal I: Propiedades del polinomio característico

Introducción

En esta entrada continuamos con el estudio de eigenvalores y eigenvectores de matrices y trasformaciones lineales. Para ello, estudiaremos más a profundidad el polinomio característico.

Como recordatorio, en una entrada pasada demostramos que si A es una matriz en M_n(F), entonces la expresión \det (\lambda I_n - A) es un polinomio en \lambda de grado n con coeficientes en F. A partir de ello, definimos el polinomio característico de A como

    \[\chi_A(\lambda)=\det(\lambda I_n - A).\]

En esta entrada probaremos algunas propiedades importantes del polinomio característico de matrices. Además, hablaremos de la multiplicidad algebraica de los eigenvalores. Finalmente enunciaremos sin demostración dos teoremas fundamentales en álgebra lineal: el teorema de caracterización de matrices diagonalizables y el teorema de Cayley-Hamilton.

Las raíces del polinomio característico son los eigenvalores

Ya vimos que las raíces del polinomio característico son los eigenvalores. Pero hay que tener cuidado. Deben ser las raíces que estén en el campo en el cual la matriz esté definida. Veamos un ejemplo más.

Problema. Encuentra el polinomio característico y los eigenvalores de la matriz

    \begin{align*}\begin{pmatrix}0&1&0&0\\2&0&-1&0\\0& 7 & 0 & 6\\0 & 0 & 3 & 0\end{pmatrix}.\end{align*}

Solución. Debemos encontrar las raíces del polinomio dado por el siguiente determinante:

    \begin{align*}\begin{vmatrix}\lambda&-1&0&0\\-2&\lambda&1&0\\0& -7 & \lambda & -6\\0 & 0 & -3 & \lambda\end{vmatrix}.\end{align*}

Haciendo expansión de Laplace en la primer columna, tenemos que este determinante es igual a

    \begin{align*}\lambda\begin{vmatrix}\lambda&1&0\\ -7 & \lambda & -6\\ 0 & -3 & \lambda\end{vmatrix}+2\begin{vmatrix}-1&0&0\\-7 & \lambda & -6\\0 & -3 & \lambda\end{vmatrix}.\end{align*}

Para calcular los determinantes de cada una de las matrices de 3\times 3 podemos aplicar la fórmula por diagonales para obtener:

    \begin{align*}\lambda\begin{vmatrix}\lambda&1&0\\-7 & \lambda & -6\\0 & -3 & \lambda\end{vmatrix}&=\lambda(\lambda^3-18\lambda+7\lambda)\\&=\lambda(\lambda^3-11\lambda)\\&=\lambda^4-11\lambda^2\end{align*}

y

    \begin{align*}2\begin{vmatrix}-1&0&0\\-7 & \lambda & -6\\0 & -3 & \lambda\end{vmatrix}&=2(-\lambda^2+18)\\&=-2\lambda^2+36.\end{align*}

Concluimos que el polinomio característico es

    \begin{align*}\lambda^4-13\lambda^2+36&=(\lambda^2-4)(\lambda^2-9)\\&=(\lambda+2)(\lambda-2)(\lambda+3)(\lambda-3).\end{align*}

De esta factorización, las raíces del polinomio (y por lo tanto los eigenvalores que buscamos) son -2,2,-3,3.

Si quisiéramos encontrar un eigenvector para, por ejemplo, el eigenvalor -2, tenemos que encontrar una solución no trivial al sistema lineal de ecuaciones homogéneo

    \[(-2I_n-A)X=0.\]

\square

Propiedades del polinomio característico

Veamos ahora algunas propiedades importantes del polinomio característico. El primer resultado habla del polinomio característico de matrices triangulares superiores. Un resultado análogo se cumple para matrices inferiores, y su enunciado y demostración quedan como tarea moral.

Proposición. Si A=[a_{ij}] es una matriz triangular superior en M_n(F), entonces su polinomio característico es

    \[\chi_A(\lambda)=\prod_{i=1}^n (\lambda-a_{ii}).\]

Demostración. Como A es triangular superior, entonces \lambda I_n -A también, y sus entradas diagonales son precisamente \lambda-a_{ii} para i=1,\ldots,n. Como el determinante de una matriz diagonal es el producto de sus entradas en la diagonal, tenemos que

    \[\chi_A(\lambda)=\prod_{i=1}^n (\lambda-a_{ii}).\]

\square

Como el polinomio característico es un determinante, podemos aprovechar otras propiedades de determinantes para obtener otros resultados.

Proposición. Una matriz y su transpuesta tienen el mismo polinomio característico.

Demostración. Sea A una matriz en M_n(F). Una matriz y su transpuesta tienen el mismo determinante. Además, transponer es una transformación lineal. De este modo:

    \begin{align*}\chi_A(\lambda)&=\det(\lambda I_n - A)\\&=\det({^t(\lambda I_n-A)})\\&=\det(\lambda({^tI_n})-{^tA})\\&=\det(\lambda I_n - {^tA})\\&=\chi_{^tA}(\lambda).\end{align*}

\square

Ya antes habíamos mostrado que matrices similares tienen los mismos eigenvalores, pero que dos polinomios tengan las mismas raíces no necesariamente implica que sean iguales. Por ejemplo, los polinomios

    \[(x-1)^2(x+1) \quad \text{y} \quad (x+1)^2(x-1)\]

tienen las mismas raíces, pero no son iguales.

De esta forma, el siguiente resultado es más fuerte de lo que ya habíamos demostrado antes.

Proposición. Sean A y P matrices en M_n(F) con P invertible. Entonces A y P^{-1}AP tienen el mismo polinomio característico.

Demostración. El resultado se sigue de la siguiente cadena de igualdades, en donde usamos que \det(P)\det(P^{-1})=1 y que el determinante es multiplicativo:

    \begin{align*}\chi_{P^{-1}AP}(\lambda) &= \det(P) \chi_{P^{-1}AP}(\lambda) \det(P)^{-1}\\&=\det(P) \det(\lambda I_n - P^{-1}AP) \det(P^{-1})\\&=\det(P(\lambda I_n - P^{-1}AP)P^{-1})\\&=\det(\lambda PP^{-1}-PP^{-1}APP^{-1})\\&=\det(\lambda I_n - A)\\&=\chi_{A}(\lambda)\end{align*}

\square

Ten cuidado. El determinante es multiplicativo, pero el polinomio característico no es multiplicativo. Esto es evidente por el siguiente argumento. Si A y B son matrices en M_n(F), entonces \chi_A(\lambda) y \chi_B(\lambda) son cada uno polinomios de grado n, así que su producto es un polinomio de grado 2n, que por lo tanto no puede ser igual al polinomio característico \chi_{AB}(\lambda) pues este es de grado n. Así mismo, \chi_{A^2}(\lambda) no es \chi_{A}(\lambda)^2.

Una última propiedad que nos interesa es mostrar que el determinante de una matriz y su traza aparecen en los coeficientes del polinomio característico.

Teorema. Sea A una matriz en M_n(F) y \chi_A(\lambda) su polinomio característico. Entonces \chi_{A}(\lambda) es de la forma

    \[\lambda^n-(\text{tr} A) \lambda^{n-1}+\ldots+(-1)^n \det A.\]

Demostración. Tenemos que mostrar tres cosas:

  • El polinomio \chi_{A} es mónico, es decir, tiene coeficiente principal 1,
  • que el coeficiente del término de grado n-1 es \text{tr} A y
  • el coeficiente libre es (-1)^n \det A.

El coeficiente libre de un polinomio es su evaluación en cero. Usando la homogeneidad del determinante, dicho coeficiente es:

    \begin{align*}\chi_A(0)&=\det(0\cdot I_n-A)\\&=\det(-A)\\&=(-1)^n\det(A).\end{align*}

Esto muestra el tercer punto.

Para el coeficiente del término de grado n-1 y el coeficiente principal analicemos con más detalle la fórmula del determinante

    \begin{align*}\begin{vmatrix}\lambda - a_{11} & -a_{12} & \ldots & -a_{1n}\\-a_{21} & \lambda - a_{22} & \ldots & -a_{1n}\\\vdots & & \ddots & \\-a_{n1} & -a_{n2} & \ldots & \lambda - a_{nn}\end{vmatrix}\end{align*}


en términos de permutaciones.

Como discutimos anteriormente, la única forma de obtener un término de grado n es cuando elegimos a la permutación identidad. Pero esto también es cierto para términos de grado n-1, pues si no elegimos a la identidad, entonces la permutación elige por lo menos dos entradas fuera de la diagonal, y entonces el grado del producto de entradas correspondiente es a lo más n-2.

De este modo, los únicos términos de grado n y n-1 vienen del producto

    \[(\lambda-a_{11})\cdot\ldots\cdot(\lambda-a_{nn}).\]

El único término de grado n viene de elegir \lambda en todos los factores, y se obtiene el sumando \lambda^n, lo cual muestra que el polinomio es mónico.

Los únicos términos de grado n-1 se obtienen de elegir \lambda en n-1 factores y un término del estilo -a_{ii}. Al considerar todas las opciones, el término de grado n-1 es

    \[-(a_{11}+a_{22}+\ldots+a_{nn})\lambda^{n-1}=-(\text{tr} A) \lambda^{n-1},\]

que era lo último que debíamos mostrar.

\square

Ejemplo. El teorema anterior muestra que si A es una matriz en M_2(F), es decir, de 2\times 2, entonces

    \[\chi_A(\lambda)=\lambda^2 - (\text{tr}A) \lambda +\det A.\]

De manera explícita en términos de las entradas tendríamos entonces que si A=\begin{pmatrix} a & b \\ c & d \end{pmatrix}, entonces su polinomio característico es

    \[\lambda^2-(a+d)\lambda+(ad-bc).\]

Como ejemplo, si A=\begin{pmatrix} 5 & 2 \\ -8 & -3 \end{pmatrix}, entonces su polinomio característico es

    \[\lambda^2 -2\lambda +1=(\lambda-1)^2.\]

Su único eigenvalor sería entonces 1.

\square

Suma y producto de eigenvalores de matrices complejas

A veces queremos referirnos al conjunto de todos los eigenvalores de una matriz.

Definición. Para A una matriz en M_n(F), el espectro de A es el conjunto de eigenvalores de A. Lo denotamos por \text{spec} (A)

Tenemos una definición análoga para el espectro de una transformación lineal. Esa definición da un poco de intuición de por qué los teoremas de diagonalización de matrices se llaman teoremas espectrales. La siguiente definición habla de un sentido en el cual un eigenvalor «se repite».

Definición. Sea A una matriz en M_n(F) y \lambda un eigenvalor de A. La multiplicidad algebraica de \lambda es el mayor entero m_{\lambda} tal que (x-\lambda)^{m_\lambda} divide a \chi_A(x).

Cuando estamos en \mathbb{C}, por el teorema fundamental del álgebra todo polinomio de grado n se puede factorizar en exactamente n términos lineales. Además, los polinomios característicos son mónicos. De este modo, si tenemos una matriz A en M_n(\mathbb{C}), su polinomio característico se puede factorizar como sigue:

    \[\chi_A(\lambda) = \prod_{j=1}^n (\lambda-\lambda_j),\]

en donde \lambda_1,\ldots,\lambda_n son eigenvalores de A, no necesariamente distintos, pero en donde cada eigenvalor aparece en tantos términos como su multiplicidad algebraica.

Desarrollando parcialmente el producto del lado derecho, tenemos que el coeficiente de \lambda^{n-1} es

    \[-(\lambda_1+\ldots+\lambda_n)\]

y que el coeficiente libre es

    \[(-1)^n\lambda_1\cdot\ldots\cdot\lambda_n.\]

Combinando este resultado con el de la sección anterior y agrupando eigenvalores por multiplicidad, se demuestra el siguiente resultado importante. Los detalles de la demostración quedan como tarea moral.

Teorema. Sea A una matriz en M_n(\mathbb{C})

  • La traza A es igual a la suma de los eigenvalores, contando multiplicidades algebraicas, es decir:

        \[\text{tr} A = \sum_{\lambda \in \text{spec}(A)} m_{\lambda} \lambda.\]

  • El determinante de A es igual al producto de los eigenvalores, contando multiplicidades algebraicas, es decir:

        \[\det A = \prod_{\lambda \in \text{spec} (A)} \lambda^{m_{\lambda}}.\]

Veamos un problema en donde se usa este teorema.

Problema. Sea A una matriz en M_n(\mathbb{C}) tal que A^2-4A+3I_n=0. Muestra que el determinante de A es una potencia de 3.

Solución. Sea \lambda un eigenvalor de A y v un eigenvector para \lambda. Tenemos que

    \[A^2v=A(\lambda v) = \lambda(Av)=\lambda^2 v.\]

De esta forma, tendríamos que

    \begin{align*}0&=(A^2-4A+3I_n)v\\&=(\lambda^2 v - 4\lambda v + 3 v)\\&=(\lambda^2-4\lambda+3) v.\end{align*}

Como v no es el vector 0, debe suceder que \lambda^2-4\lambda+3=0. Como \lambda^2-4\lambda+3 = (\lambda-3)(\lambda-1), entonces \lambda=1 ó \lambda=3. Con esto concluimos que los únicos posibles eigenvectores de A son 1 y 3.

Como A es una matriz en \mathbb{C}, tenemos entonces que su polinomio característico es de la forma (x-1)^a(x-3)^b con a y b enteros no negativos tales que a+b=n. Pero entonces por el teorema de producto de eigenvalores, tenemos que el determinante es 1^a\cdot 3^b=3^b, con lo que queda demostrado que es una potencia de 3.

\square

Dos teoremas fundamentales de álgebra lineal (opcional)

Tenemos todo lo necesario para enunciar dos resultados de álgebra lineal. Sin embargo, las demostraciones de estos resultados requieren de más teoría, y se ven en un siguiente curso. No los demostraremos ni los usaremos en el resto de este curso, pero te pueden servir para anticipar el tipo de resultados que verás al continuar tu formación en álgebra lineal.

El primer resultado fundamental es una caracterización de las matrices que pueden diagonalizarse. Para ello necesitamos una definición adicional. Hay otro sentido en el cual un eigenvalor \lambda de una matriz A puede repetirse.

Definición. Sea A una matriz en M_n(F) y \lambda un eigenvalor de A. La multiplicidad geométrica de \lambda es la dimensión del kernel de la matriz \lambda I_n -A pensada como transformación lineal.

En estos términos, el primer teorema al que nos referimos queda enunciado como sigue.

Teorema. Una matriz A en M_n(F) es diagonalizable si y sólo si su polinomio característico \chi_A(\lambda) se puede factorizar en términos lineales en F[\lambda] y además, para cada eigenvalor, su multiplicidad algebraica es igual a su multiplicidad geométrica.

Ejemplo. La matriz

    \[A=\begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}\]

tiene como polinomio característico a \chi_A(\lambda)=\lambda^2+1. Este polinomio no se puede factorizar en \mathbb{R}[x], así que A no es diagonalizable con matrices de entradas reales.

Sin embargo, en \mathbb{C} tenemos la factorización en términos lineales \lambda^2+1=(\lambda+i)(\lambda-i), que dice que i y -i son eigenvalores de multiplicidad algebraica 1. Se puede mostrar que la multiplicidad geométrica también es 1. Así, A sí es diagonalizable con matrices de entradas complejas.

\square

El segundo resultado fundamental dice que «cualquier matriz se anula en su polinomio característico». Para definir correctamente esto, tenemos que decir qué quiere decir evaluar un polinomio en una matriz. La definición es más o menos natural.

Definición. Si A es una matriz en M_n(F) y p es un polinomio en F[\lambda] de la forma

    \[p(\lambda)=a_0+a_1\lambda+a_2\lambda^2+\ldots+a_n\lambda^n,\]

definimos a la matriz p(A) como la matriz

    \[a_0I_n+a_1A+a_2A^2+\ldots+a_nA^n.\]

En estos términos, el resultado queda enunciado como sigue.

Teorema (Cayley-Hamilton). Si A es una matriz en M_n(F) y \chi_A(x) es su polinomio característico, entonces

    \[\chi_A(A)=O_n.\]

Ejemplo. Tomemos de nuevo a la matriz

    \[A=\begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}\]

del ejemplo anterior. Su polinomio característico es x^2+1. En efecto, verificamos que se cumple el teorema de Cayley-Hamilton pues:

    \begin{align*}A^2+I_2 &= \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix} \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix} + \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}\\&=\begin{pmatrix} -1 & 0 \\ 0 & -1 \end{pmatrix}+\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}\\&=\begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}.\end{align*}

\square

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Enuncia y demuestra cómo es el polinomio característico de una matriz triangular inferior.
  • Completa los detalles de la demostración del teorema de suma y producto de eigenvalores. Úsalo para encontrar la suma y producto (con multiplicidades) de los eigenvalores de la matriz

        \[\begin{pmatrix}5 & 0 & -1 & 2 \\ 3 & -2 & 1 & -2 \\ 0 & 0 & 0 & 5\\ 0 & 2 & 4 & 0 \end{pmatrix}.\]

  • Sea A una matriz en M_n(F). ¿Cómo es el polinomio característico de -A en términos del polinomio característico de A?
  • Tomemos A una matriz en M_n(F) y k un entero positivo. Muestra que si \lambda es un eigenvalor de la matriz A, entonces \lambda^k es un eigenvalor de la matriz A^k.

De la sección opcional:

  • Demuestra, haciendo todas las cuentas, el caso particular del teorema de Cayley-Hamilton para matrices de 2\times 2.
  • Ya sabemos calcular el polinomio característico de matrices diagonales. Muestra el teorema de Cayley-Hamilton en este caso particular.
  • Las matrices diagonales trivialmente son diagonalizables. Muestra que la multiplicidad algebraica de sus eigenvalores en efecto coincide con la multiplicidad geométrica.

Álgebra Lineal I: Transformaciones multilineales

Introducción

Con esta entrada empieza el cuarto y último bloque del curso de Lineal I. En este último bloque hablaremos de determinantes de matrices, de eigenvectores, eigenvalores y de polinomios característicos. Además, probaremos el teorema espectral para matrices simétricas reales. Nuestro cimiento teórico para definir a los determinantes y probar sus propiedades fácilmente serán las transformaciones multilineales, que generalizan a las formas bilineales de las que ya hemos hablado.

Antes de empezar, vale la pena recapitular lo que hemos aprendido en los bloques anteriores:

  • Bloque 1: Primero, hablamos de vectores y matrices con entradas reales, y sus operaciones básicas. Luego, vimos que nos ayudan a plantear y resolver sistemas de ecuaciones lineales. Aquí hablamos de varias equivalencias de matrices invertibles. Al final de este bloque, definimos espacios vectoriales en general. En ellos hablamos de conjuntos generadores, independientes y bases. Mediante el lema de Steinitz definimos y probamos propiedades de espacios de dimensión finita.
  • Bloque 2: Vimos la teoría básica de transformaciones lineales. Hablamos de imágenes y kernels de transformaciones. Vimos cómo se comportan con independientes y bases. Luego hablamos de cómo representar transformaciones lineales entre espacios de dimensión finita usando matrices, y en particular cómo hacer cambios de base.
  • Bloque 3: Este bloque fue más «geométrico». Primero, vimos formas lineales y la teoría de dualidad y la aplicamos para ver que todo subespacio es intersección de hiperplanos. Luego, definimos formas bilineales y cuadráticas. De ahí salió la noción de producto interior, que nos permite «hacer geometría» en espacios vectoriales. Hablamos de desigualdades vectoriales, de bases ortogonales, para qué sirven y cómo encontrarlas.

La intuición que obtuvimos de formas bilineales nos ayudará a entender formas multilineales. Pero antes de entrar en este tema, que es un poco técnico, veamos un ejemplo que nos ayudará a entender lo que nos espera en este bloque.

Elevando una matriz a la 100

Considera la matriz

    \[A=\begin{pmatrix}-4&-10\\3&7\end{pmatrix}.\]

Imagina que para alguna aplicación queremos elevarla a la 100. Esto probablemente lo puedas hacer a mano, y mejor aún, a computadora. Pero en aplicaciones en la vida real, puede que hacer los cálculos matriciales sea mucho incluso para una computadora. ¿Habrá una forma de que sea más fácil hacer A^{100}?

Resulta que para este caso en particular, sí. Considera las matrices

    \[B=\begin{pmatrix}3 & 5\\ 1& 2\end{pmatrix}\]

y

    \[D=\begin{pmatrix}1&0\\0&2\end{pmatrix}.\]

La matriz B es invertible, con inversa

    \[B^{-1}=\begin{pmatrix}2&-5 \\-1&3\end{pmatrix},\]

como puedes verificar. Además, la matriz A se puede «factorizar» así:

    \[A=B^{-1}DB.\]

Esto es muy útil para nuestros fines. Nota que

    \begin{align*}A^2&=(B^{-1}DB)(B^{-1}DB)\\&=B^{-1}D^2B,\end{align*}

y que de hecho inductivamente A^n=B^{-1}D^n B para cualquier entero positivo n.

Por otro lado, como la matriz D es diagonal, sus potencias son muy sencillas, de hecho, se puede probar inductivamente que D^n=\begin{pmatrix}1&0\\0&2^{n}\end{pmatrix} para cualquier entero positivo n. De esta forma, podemos hacer A^n con tan solo dos multiplicaciones de matrices:

    \begin{align*}A^n&=B^{-1}D^nB\\&=\begin{pmatrix}2&-5 \\ -1&3\end{pmatrix}\begin{pmatrix}1&0\\ 0&2^{n}\end{pmatrix}\begin{pmatrix}3 & 5\\ 1& 2\end{pmatrix}\\&=\begin{pmatrix}2&-5 \\ -1&3\end{pmatrix}\begin{pmatrix}3&5 \\ 2^n&2^{n+1}\end{pmatrix}\\&=\begin{pmatrix}6-5\cdot 2^n& 10-5\cdot 2^{n+1}\\ -3+3\cdot 2^n & -5+3\cdot 2^{n+1}\end{pmatrix}\end{align*}

Así, el problema que queremos resolver es sencillo ahora. Basta tomar n=100 para obtener

    \[A^{100}=\begin{pmatrix}6-5\cdot 2^{100} & 10-5\cdot 2^{101}\\ -3+3\cdot 2^{100} & -5+3\cdot 2^{101}\end{pmatrix}.\]

Si podemos escribir una matriz A como B^{-1}DB con B invertible y D diagonal, decimos que es diagonalizable. La conclusión anterior es que una matriz diagonalizable se puede elevar fácilmente a potencias.

Todo esto está muy bien pero, ¿de dónde salen las matrices B y D? ¿toda matriz es diagonalizable? ¿qué otras ventajas tiene diagonalizar una matriz? Este tipo de preguntas son las que estudiaremos en este bloque.

Diagonalizar matrices de 2×2

El determinante de una matriz A=\begin{pmatrix}a&b\\c&d\end{pmatrix} en M_2(\mathbb{R}), como quizás hayas visto antes, está dado por ad-bc. Resulta que una forma sistemática para encontrar matrices B y D como las del ejemplo de arriba es la siguiente:

  • Tomar una matriz A.
  • Considerar el polinomio P(\lambda)=\det(A-\lambda I). A este polinomio se le conoce como el polinomio característico de A.
  • Encontrar las raíces \lambda_1 y \lambda_2 de P(\lambda). A estos valores se les llama los eigenvalores de A.
  • Encontrar vectores v_1 y v_2 no cero tales que Av_1=\lambda_1 v_1 y Av_2 = \lambda_2 v_2. A estos vectores se les llama eigenvectores de A.
  • Usar a \lambda_1 y \lambda_2 como las entradas de la matriz diagonal D.
  • Usar a v_1 y v_2 como columnas de la matriz B^{-1}.

¿Cómo se hace en dimensiones más altas? ¿Siempre podemos seguir este proceso esto? ¿Hay algunos tipos de matrices para los que siempre funcione? Estas son otras preguntas que responderemos en el transcurso de estas semanas.

Mientras tanto, veamos qué sucede si aplicamos este método para la matriz A=\begin{pmatrix}-4&-10\\3&7\end{pmatrix} del ejemplo. Tenemos que el determinante de A-\lambda I = \begin{pmatrix}-4-\lambda&-10\\3&7-\lambda\end{pmatrix} es el polinomio

    \begin{align*}P(\lambda)&= (-4-\lambda)(7-\lambda)+30\\ &=-28-3\lambda+\lambda^2+30\\ &=\lambda^2-3\lambda+2,\end{align*}

cuyas raíces son 1 y 2. De aquí construimos

    \[D=\begin{pmatrix}1&0\\0&2\end{pmatrix}.\]

Busquemos los eigenvectores. Por un lado, si queremos que suceda que Av=v para un vector v=(x,y), necesitamos que

    \[(-4x-10y, 3x+7y)=(x,y),\]

y una de las soluciones es (x,y)=(2,-1). Por otro lado, si queremos que suceda que Av=2v para un vector v=(x,y), necesitamos que

    \[(-4x-10y,3x+7y)=(2x,2y),\]

y una de las soluciones es (x,y)=(-5,3). De aquí construimos

    \[B^{-1}=\begin{pmatrix}2&-5 \\-1&3\end{pmatrix},\]

y podemos hacer reducción gaussiana para encontrar B. Observa que obtenemos exactamente las mismas matrices que propusimos en el ejemplo.

Nos gustaría poder hacer esto mismo en dimensiones más altas y entender cuándo y por qué funciona. Para ello, lo primero que necesitamos hacer es entender muy bien el concepto de determinante y aprender a manejar hábilmente sus propiedades principales.

Hay varias formas de definir determinante y quizás ya hayas visto algunas en cursos anteriores. En este curso definiremos determinante mediante transformaciones multilineales. Es un poco más abstracto, pero ayuda a que sea más fácil probar técnicas para trabajar con determinantes y entender por qué funcionan.

Transformaciones multilineales

En el bloque anterior ya hablamos de formas bilineales. Como recordatorio, tomábamos un espacio vectorial real V y una forma bilineal era una función b:V\times V\to \mathbb{R} tal que cada que fijábamos una entrada, la función era lineal en la otra. La palabra «forma» la usábamos porque la imagen caía en el campo.

Generalizaremos esta idea para más entradas, y para cuando la imagen cae en cualquier espacio vectorial. Trabajaremos en espacios vectoriales sobre un campo F, que puedes pensar que es \mathbb{R} o \mathbb{C}.

Definición. Sean V_1,\ldots, V_d y W espacios vectoriales sobre F. Una función f:V_1\times \ldots \times V_d\to W es multilineal si cada que fijamos una i y para cada j\neq i fijamos vectores v_j en V_j, la transformación

    \[V_i\to W\]

dada por

    \[v_i\mapsto f(v_1,v_2,\ldots,v_d)\]

es lineal.

Aclaración. De nuevo, es muy importante no confundir una transformación multilineal con una transformación lineal del espacio vectorial V_1\times \ldots \times V_d a W.

Ejemplo. Consideremos \mathbb{R}^3=\mathbb{R}\times \mathbb{R} \times \mathbb{R} y consideramos la transformación T:\mathbb{R}^3\to \mathbb{R} dada por T(x,y,z)=xyz. Afirmamos que esta es una transformación multilineal.

Si fijamos y y z, tenemos que mostrar que la transformación x\mapsto xyz es lineal, lo cual es cierto pues para x_1,x_2 reales y r real se cumple que

    \begin{align*}T(x_1+rx_2,y,z)&=(x_1+rx_2)yz\\&=x_1yz + rx_2yz\\&=T(x_1,y,z)+rT(x_2,y,z).\end{align*}

De manera similar se prueba para las otras entradas.

Sin embargo, T no es una transformación lineal. Por ejemplo, no saca escalares ya que T(1,1,1)=1\cdot 1\cdot 1=1 y

    \[T(2,2,2)=8\neq 2 = 2T(1,1,1).\]

\square

Las transformaciones multilineales son muy generales, y ayudan a crear algo que se llama el producto tensorial. Sin embargo, para los fines que necesitamos ahora, no hace falta tanta generalidad. Sólo nos enfocaremos en las transformaciones multilineales cuando V_1=V_2=\ldots=V_d, es decir, en transformaciones f:V^d\to W.

Definición. Para d un entero positivo y V, W espacios vectoriales, una transformación d-lineal es una transformación multilineal de V^d a W.

Ejemplo. Si V es un espacio vectorial real y W=\mathbb{R}, entonces toda forma bilineal b:V\times V\to \mathbb{R} es una transformación 2-lineal.

Ejemplo. Tomemos V=\mathbb{R}^3 y d=4. Tomemos las siguientes formas lineales en V:

    \begin{align*}l_1(x,y,z)&=x+y+z\\l_2(x,y,z)&=3x-2y+z\\l_3(x,y,z)&=y\\l_4(x,y,z)&=x+z.\end{align*}

Consideremos la transformación T:V^4\to \mathbb{R} dada por

    \[T(v_1,v_2,v_3,v_4)=l_1(v_1)l_2(v_2)l_3(v_3)l_4(v_4),\]

por ejemplo, si v_1=(1,0,0), v_2=(0,1,0), v_3=(0,1,1) y v_4=(1,1,1), tenemos que

    \begin{align*}l_1(v_1)&=l_1(1,0,0)=1+0+0=1\\l_2(v_2)&=l_2(0,1,0)=0-2+0=-2\\l_3(v_3)&=l_3(0,1,1)=1\\l_4(v_4)&=l_4(1,1,1)=1+1=2,\end{align*}

y por lo tanto

    \[T(v_1,v_2,v_3,v_4)=(1)(-2)(1)(2)=-4.\]

Tenemos que T es 4-lineal pues para cada i, al fijar las tres entradas v_j con j\neq i tenemos que T(v_1,v_2,v_3,v_4) es de la forma cl_i(v_i) con c un escalar. Como l_i es una forma lineal, cl_i también.

\square

Nos interesan un tipo todavía más restringido de transformaciones multilineales. Para definirlas, tenemos que hacer una pequeña desviación hacia el tema de permutaciones.

Permutaciones y signos

Tomemos un entero positivo y usemos [n] para hablar del conjunto de los enteros de 1 a n, es decir, [n]:=\{1,2,\ldots,n\}.

Definicion. Una permutación de [n] es una función biyectiva \sigma: [n]\to [n].

En otras palabras, una permutación básicamente «revuelve los elementos» de [n]. Usualmente expresamos a la permutación con la notación

    \[\begin{pmatrix} 1 & 2 & \ldots & n\\ \sigma(1) & \sigma(2) & \ldots & \sigma(n)\end{pmatrix}\]

Ejemplo. La función \sigma:[3]\to [3] tal que \sigma(1)=2, \sigma(2)=3 y \sigma(3)=1 es una permutación que manda al conjunto ordenado (1,2,3) al conjunto ordenado (2,3,1). La expresamos como

    \[\begin{pmatrix} 1& 2 & 3\\ 2 & 3 & 1\end{pmatrix}.\]

\square

Como las permutaciones son funciones, entonces podemos componerlas. Para evitar complicar la notación, no pondremos el signo de composición \circ, sino simplemente permutaciones adyacentes. La composición usualmente no es conmutativa.

Ejemplo. Tomemos la permutación \sigma_1:[4]\to [4] representada por

    \[\begin{pmatrix}1& 2 & 3 & 4 \\ 3 & 2 & 1 & 4\end{pmatrix}\]

y la permutación \sigma_2:[4]\to [4] representada por

    \[\begin{pmatrix}1& 2 & 3 & 4 \\ 4 & 2 & 3 & 1\end{pmatrix}.\]

¿Qué hace la función \sigma_1 \sigma_2? Es una función de [4] a [4] y cumple lo siguiente:

    \begin{align*}\sigma_1(\sigma_2(1))&=\sigma_1(4)=4,\\\sigma_1(\sigma_2(2))&=\sigma_1(2)=2,\\\sigma_1(\sigma_2(3))&=\sigma_1(3)=1,\\\sigma_1(\sigma_2(4))&=\sigma_1(1)=3,\end{align*}

es decir, la composición es la permutación representada por

    \[\begin{pmatrix}1& 2 & 3 & 4 \\ 4 & 2 & 1 & 3\end{pmatrix}.\]

Por otro lado, la función \sigma_2\sigma_1 hace algo un poco diferente. También es una función de [4] a [4] y cumple lo siguiente:

    \begin{align*}\sigma_2(\sigma_1(1))&=\sigma_1(3)=3,\\\sigma_2(\sigma_1(2))&=\sigma_1(2)=2,\\\sigma_2(\sigma_1(3))&=\sigma_1(1)=4,\\\sigma_2(\sigma_1(4))&=\sigma_1(4)=1,\end{align*}

así que es la permutación representada por

    \[\begin{pmatrix}1& 2 & 3 & 4 \\ 3 & 2 & 1 & 4\end{pmatrix}.\]

\square

Al conjunto de permutaciones de [n] le llamamos S_n. Tomemos una permutación \sigma en S_n. Para dos elementos i<j en [n], decimos que \sigma los invierte si \sigma(i)>\sigma(j).

Definición. Sea \sigma un elemento de S_n. Decimos que el signo de \sigma es 1 si invierte una cantidad par de parejas, y es -1 si invierte una cantidad impar de parejas. Al signo de \sigma lo denotamos \text{sign}(\sigma).

Ejemplo. La permutación

    \[\begin{pmatrix}1& 2 & 3 & 4 & 5\\ 5 & 2 & 1 & 4 & 3\end{pmatrix}\]

invierte a la pareja (1,2) pues \sigma(1)=5>2=\sigma(2). Todas las parejas que invierte son (1,2), (1,3), (1,4), (1,5), (2,3), (4,5). Estas son 6 parejas, que son una cantidad par, así que la permutación tiene signo 1.

La permutación identidad en S_n no invierte ninguna pareja, así que tiene signo 1.

\square

En la siguiente entrada combinaremos estas nociones de permutaciones y de transformaciones multilineales para hablar de antisimetría y alternancia. Por el momento, reflexiona en lo siguiente: si \sigma es una permutación en S_n y f:V^n\to W es una transformación n-lineal, entonces la transformación \sigma f:V^n \to W definida por

    \[(\sigma f)(x_1,x_2,\ldots,x_n) = f(x_{\sigma(1)},x_{\sigma(2)},\ldots,x_{\sigma(n)})\]

también es una transformación n-lineal.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Toma T:V^d\to W una transformación d-lineal. Muestra que si de entre x_1,\ldots,x_d elementos de V alguno de ellos es el vector 0, entonces T(x_1,\ldots,x_d)=0.
  • Muestra que la transformación del ejemplo de transformaciones multilineales también es lineal en la segunda y tercera entradas.
  • Supón que f_1,\ldots,f_d son formas lineales de V al campo F. Muestra que f:V^d\to F dada por

        \[f(x_1,\ldots,x_d)=l_1(x_1)\ldots l_d(x_d)\]

    es una transformación d-lineal.
  • Encuentra una transformación lineal T:\mathbb{R}^3\to \mathbb{R} que no sea una transformación multilineal.
  • Muestra que la composición de dos permutaciones siempre es una permutación.
  • Muestra que para dos permutaciones \sigma_1 y \sigma_2 se tiene que

        \[\text{sign}(\sigma_1\sigma_2)=\text{sign}(\sigma_1)\text{sign}(\sigma_2).\]