Archivo de la etiqueta: independientes

Álgebra Lineal I: Problemas de determinantes y ecuaciones lineales

Introducción

En esta entrada, realizaremos problemas que nos ayudarán a repasar el tema visto el pasado lunes, sobre soluciones de sistemas lineales, Teorema de Rouché-Capelli y la regla de Cramer.

Problemas de ecuaciones lineales

Una de las maneras más usuales para demostrar que un conjunto de vectores es linealmente independientes es probar que tomamos una combinación lineal de éstos tal que es igual a 0, sólo es posible si todos los coeficientes son igual a cero. Pero como ya lo hemos visto anteriormente en diversos problemas, algunas veces ésto nos genera un sistema de ecuaciones que puede ser difícil y/o tardado resolver.

Por ello, otra manera de demostrar independencia lineal es ilustrada con el siguiente problema.

Problema. Considera los vectores

v_1=(1,x,0,1), \quad v_2=(0,1,2,1), \quad v_3=(1,1,1,1)

en \mathbb{R}^4. Prueba que para cualquier elección de x\in\mathbb{R}, los vectores v_1,v_2,v_3 son linealmente independientes.

Solución. Sea A la matriz cuyas columnas son v_1,v_2,v_3, es decir,

A=\begin{pmatrix} 1 & 0 & 1 \\ x & 1 & 1 \\ 0 & 2 & 1 \\ 1 & 1 & 1 \end{pmatrix}.

Sabemos que v_1,v_2,v_3 son linealmente independiente si y sólo si \text{dim(span}(v_1,v_2,v_3))=3, ya que \text{rank}(A)=3, y eso es equivalente (por la clase del lunes) a demostrar que A tiene una submatriz de 3\times 3 invertible.

Notemos que si borramos el segundo renglón, obtenemos la submatriz cuyo determinante es

\begin{vmatrix} 1 & 0 & 1 \\ 0 & 2 & 1 \\ 1 & 1 & 1 \end{vmatrix}=-1,

lo que implica que es invertible, y por lo tanto v_1,v_2, v_3 son vectores linealmente independientes.

\square

En este curso, los ejemplos usualmente utilizan espacios vectoriales sobre \mathbb{R} o sobre \mathbb{C}. Como \mathbb{R}\subset \mathbb{C}, es natural preguntarnos si los resultados obtenidos en los problemas trabajados en \mathbb{R} se cumplen en \mathbb{C}. En este caso particular, si las soluciones de una matriz en M_{m,n}(\mathbb{R}) son soluciones de la misma matriz pero vista como elemento en M_{m,n}(\mathbb{C}). El siguiente teorema nos da el resultado a esta pregunta.

Teorema. Sea A\in M_{m,n}(F) y sea F_1 un campo contenido en F. Consideremos el sistema lineal AX=0. Si el sistema tiene una solución no trivial en F_1^n, entonces tiene una solución no trivial en F^n.

Demostración. Dado que el sistema tiene una solución no trivial en F_1^n, r:=\text{rank}(A) < n vista como elemento en M_{m,n}(F_1). Por el primer teorema visto en la clase del lunes, el rango es el tamaño de la submatriz cuadrada más grande que sea invertible, y eso es independiente si se ve a A como elemento de M_{m,n}(F_1) o de M_{m,n}(F). Y por el teorema de Rouché-Capelli, el conjunto de soluciones al sistema es un subespacio de F^n de dimensión n-r>0. Por lo tanto, el sistema AX=0 tiene una solución no trivial en F^n.

\square

A continuación, se mostrarán dos ejemplos de la búsqueda de soluciones a sistemas lineales donde usaremos todas las técnicas aprendidas a lo largo de esta semana.

Problema. Sea S_a el siguiente sistema lineal:

\begin{matrix} x-2y+z=1 \\ 3x+2y-2z=2 \\ 2x-y+az=3 \end{matrix}.

Encuentra los valores de a para los cuales el sistema no tiene solución, tiene exactamente una solución y tiene un número infinito de soluciones.

Solución. El sistema lo podemos escribir como AX=b donde

A=\begin{pmatrix} 1 & -2 & 1 \\ 3 & 2 & -2 \\ 2 & -1 & a \end{pmatrix} \quad \text{y} \quad b=\begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix}.

Notemos que

\begin{vmatrix} 1 & -2 & 1 \\ 3 & 2 & -2 \\ 2 & -1 & a \end{vmatrix}=8a-1,

entonces si a\neq 1/8, A es invertible, y por lo tanto \text{rank}(A)=3, mientras que si a=1/8, A no es invertible y \text{rank}(A)=2 ya que la submatriz es invertible

\begin{vmatrix} 1 & -2 \\ 3 & 2 \end{vmatrix}=8.

Además, si la matriz (A,b) es igual a

\begin{pmatrix} 1 & -2 & 1 & 1 \\ 3 & 2 & -2 & 2 \\ 2 & -1 & a & 3 \end{pmatrix},

quitando la tercera columna, obtenemos una submatriz invertible (ejercicio). Por lo tanto, \text{rank}(A,b)=3.

Aplicando el Teorema de Rouché-Capelli, para a=1/8, el sistema AX=b no tiene soluciones. También podemos concluir que como \text{rank}(A)=3 para todo a\neq 1/8, el sistema tiene exactamente una solución. (Y AX=b nunca tiene infinitas soluciones).

\square

Problema. Sean a,b,c números reales dados. Resuelve el sistema lineal

\begin{matrix} (b+c)x+by+cz=1 \\ ax+ (a+c)y+cz=1 \\ ax+by+(a+b)z=1 \end{matrix}.

Solución. La matriz del sistema es

A=\begin{pmatrix} b+c & b & c \\ a & a+c & c \\ a & b & a+b \end{pmatrix}.

No es difícil ver que \text{det}(A)=4abc. Si abc\neq 0, usando la regla de Cramer, la única solución al sistema está dada por

x=\frac{\begin{vmatrix} 1 & b & c \\ 1 & a+c & c \\ 1 & b & a+b \end{vmatrix}}{4abc}, \quad y=\frac{\begin{vmatrix} b+c & 1 & c \\ a & 1 & c \\ a & 1 & a+b \end{vmatrix}}{4abc}

y=\frac{\begin{vmatrix} b+c & b & 1 \\ a & a+c & 1 \\ a & b & 1 \end{vmatrix}}{4abc},

resolviendo los determinantes obtenemos que

x=\frac{a^2 -(b-c)^2}{4abc}, \quad y=\frac{b^2 -(a-c)^2}{4abc}, \quad z=\frac{c^2-(a-b)^2}{4abc}.

Ahora, si abc=0, entonces A no es invertible (\text{rank}(A)<3). El sistema es consistente si y sólo si \text{rank}(A)=\text{rank}(A,b).

Sin pérdida de generalidad, decimos que a=0 (pues abc=0). Esto reduce el sistema a

\begin{matrix} (b+c)x+by+cz=1 \\ c(y+z)=1 \\ b(y+z)=1 \end{matrix}.

El sistema es consistente si b=c y distintos de cero. En este caso, tenemos que b(2x+y+z)=1 y b(y+z)=1, implicando x=0, y+z=1/b. De manera similar, obtenemos las posibles soluciones si b=0 o si c=0.

Resumiendo:

  • Si abc\neq 0, el sistema tiene una solución única dada por la regla de Cramer.
  • Si tenemos alguno de los siguientes tres casos: caso 1) a=0 y b=c \neq 0; caso 2) b=0 y a=c\neq 0; caso 3) c=0 y a=b\neq 0, tenemos infinitas soluciones descritas como, para todo w\in \mathbb{R}: caso 1) (0,w,1/b-w); caso 2) (w,0,1/a-w); caso 3) (w,1/a-w,0).
  • Si no se cumplen ninguno de las cuatro condiciones anteriores para a,b,c, el sistema no es consistente.

\square

Álgebra Lineal I: Eigenvalores y eigenvectores de transformaciones y matrices

Introducción

En entradas anteriores ya establecimos los fundamentos para hablar de determinantes. Dimos su definición para el caso de vectores y el caso de matrices/transformaciones lineales. Enunciamos y demostramos varias de sus propiedades. Luego dedicamos toda una entrada a ver formas de calcularlos. Finalmente, vimos que nos pueden ayudar para entender mucho mejor a los sistemas de ecuaciones lineales. Entender bien estos conceptos te será de gran utilidad en tu formación matemática.

Además, los determinantes son un paso natural en uno de nuestros objetivos del curso: entender por qué las matrices simétricas reales son diagonalizables. Recuerda que una matriz A en M_n(F) es diagonalizable si existe una matriz diagonal D y una matriz invertible P, ambas en M_n(F), de modo que

    \[A=P^{-1}DP.\]

Lo que haremos en esta entrada es hablar de esos valores que aparecen en la matriz diagonal D en el caso de que A sea diagonalizable. Resulta que estos valores están relacionados con una pregunta muy natural en términos de lo que le hace la matriz a ciertos vectores. Y mejor aún, como veremos, hay un método para encontrar estos valores por medio de un determinante. Vamos poco a poco.

Eigenvalores y eigenvectores para transformaciones lineales

Sea V un espacio vectorial sobre un campo F y sea T:V\to V una transformación lineal. Para fijar ideas, pensemos en \mathbb{R}^n por el momento. A veces, T simplemente la cambia la magnitud a un vector, sin cambiarle la dirección. Es decir, hay algunos vectores para los cuales T se comporta simplemente como la multiplicación por un escalar. En símbolos, hay vectores v tales que existe un valor \lambda tal que T(v)=\lambda v.

Por supuesto, al vector 0 siempre le pasa esto, pues como T es lineal, se tiene que T(0)=0=\lambda\cdot 0 para cualquier escalar \lambda. Resulta que cuando se estudian estos vectores y escalares especiales, lo más conveniente es quitar al vector 0 de la discusión. Estas ideas llevan a la siguiente definición.

Definición. Un eigenvalor de una transformación lineal T:V\to V es un escalar \lambda tal que \lambda \text{id} - T no es invertible. En otras palabras, \lambda es un escalar tal que existe un vector no cero en el kernel de \lambda \text{id} - T. A un vector v\neq 0 en V tal que

    \[(\lambda \text{id} - T)v=0,\]

se le conoce como un eigenvector de T.

En otras palabras, v es un eigenvector correspondiente a T si v no es cero y T(v)=\lambda v. A los eigenvalores y eigenvectores de T también se les conoce en la bibliografía como valores propios y vectores propios de T.

Observa que si al conjunto de eigenvectores para un eigenvalor \lambda le agregamos el vector 0, entonces obtenemos el kernel de una transformación lineal, que sabemos que es un subespacio vectorial.

Veamos un par de ejemplos para que queden más claras las ideas.

Ejemplo. Consideremos a la transformación lineal T:\mathbb{R}^3\to \mathbb{R}^3 dada por

    \[T(x,y,z)=(-2x+15y+18z,3y+10z,z).\]

Observa que

    \begin{align*}T(1,0,0)&=(-2,0,0)\\&=-2(1,0,0),\end{align*}

que

    \begin{align*}T(-19,-5,1)&=((-2)(-19)+15(-5)+18,3(-5)+10, 1)\\&=(28+75-18,-15+10,1)\\&=(-19,-5,1),\end{align*}

y que

    \begin{align*}T(3,1,0)&=(-6+15,3,0)\\&=(9,3,0)\\&=3(3,1,0).\end{align*}

Estas igualdades muestran que (1,0,0) es un eigenvector de T con eigenvalor -2, que (-19,-5,1) es un eigenvector de T con eigenvalor 1 y (3,1,0) es un eigenvector de T con eigenvalor 3.

\square

Ejemplo. Consideremos al espacio vectorial \mathbb{R}[x] de polinomios con coeficientes reales. Tomemos la transformación lineal T que manda a un polinomio a su segunda derivada. ¿Quiénes son los eigenvalores y eigenvectores de T?

Para que p sea un eigenvector con eigenvalor \lambda, tiene que suceder que

    \[p''=T(p)=\lambda p.\]

Como p no es el vector cero, tiene un cierto grado. Si \lambda \neq 0, entonces la igualdad anterior no puede suceder, pues si p es de grado mayor o igual a 2, entonces el grado de p'' es menor al de \lambda p, y si el grado de p es 0 ó 1, su segunda derivada es 0, y no puede pasar \lambda p = 0. Así, el único eigenvalor que puede tener T es \lambda = 0. Observa que sí es válido que los eigenvalores sean cero (los eigenvectores no).

Cuando \lambda = 0, tiene que pasar que p'' sea 0\cdot p, es decir, el polinomio cero. Los únicos polinomios tales que su derivada es cero son los constantes y los lineales. Pero el polinomio cero por definición no es eigenvector.

Así, la respuesta final es que el único eigenvalor de T es 0, y sus eigenvectores correspondientes son los polinomios constantes distintos de cero, y los polinomios lineales.

\square

Eigenvalores y eigenvectores para matrices

Tenemos una definición similar para matrices. Sea A una matriz en M_n(F).

Definición. Un escalar \lambda en F es un eigenvalor de A si la matriz \lambda I_n - A no es invertible. En otras palabras, si existe un vector no cero X en F^n tal que AX=\lambda X. A un tal vector X se le conoce como un eigenvector correspondiente al eigenvalor \lambda.

En otras palabras, los eigenvalores y eigenvectores de A son exactamente los eigenvalores y eigenvectores de la transformación T_A:\mathbb{F}^n\to \mathbb{F}^n dada por T_A(v)=Av.

Además, si elegimos cualquier base B de un espacio de dimensión finita V y A es la matriz de T con respecto a la base B, entonces para cualquier escalar \lambda se tiene que \lambda I_n - A es la matriz de \lambda \text{id} - T con respecto a esta misma base. De aquí se deduce que los eigenvalores de T son los mismos que los eigenvalores de A. Dos matrices que representan a T difieren sólo en un cambio de base, así que obtenemos el siguiente resultado fundamental.

Proposición. Si A es una matriz en M_n(F) y P es una matriz invertible, entonces A y P^{-1}AP tienen los mismos eigenvalores. En otras palabras, matrices similares tienen los mismos eigenvalores.

En el primer ejemplo tomamos la transformación lineal T:\mathbb{R}^3\to \mathbb{R}^3 tal que

    \[T(x,y,z)=(-2x+15y+18z,3y+10z,z).\]

Su matriz en la base canónica de \mathbb{R}^3 es

    \[A=\begin{pmatrix} -2 & 15 & 18\\ 0 & 3 & 10\\ 0 & 0 & 1 \end{pmatrix}.\]

En el ejemplo vimos que los eigenvalores eran -2, 1 y 3, que precisamente conciden con las entradas en la diagonal de A. Esto no es casualidad. El siguiente resultado muestra esto, y es una primer evidencia de la importancia de los determinantes para encontrar los eigenvalores de una matriz.

Proposición. Si A es una matriz triangular (superior o inferior) en M_n(F), entonces sus eigenvalores son exactamente las entradas en su diagonal principal.

Demostración. Haremos el caso para cuando A es triangular superior. El otro caso queda de tarea moral.

Queremos encontrar los valores \lambda para los cuales la matriz \lambda I_n - A no sea invertible. La matriz A es triangular superior, así que la matriz \lambda I_n - A también, pues las entradas de A se vuelven negativas, y luego sólo se altera la diagonal principal.

Si las entradas diagonales de A son a_{11},\ldots,a_{nn}, entonces las entradas diagonales de \lambda I_n -A son

    \[\lambda - a_{11},\ldots,\lambda-a_{nn}.\]

La matriz \lambda I_n - A no es invertible si y sólo si su determinante es igual a cero. Como es una matriz triangular superior, su determinante es el producto de sus entradas diagonales, es decir,

    \[\det(\lambda I_n - A) = (\lambda - a_{11})\cdot\ldots\cdot(\lambda - a_{nn}).\]

Este producto es 0 si y sólo si \lambda es igual a alguna entrada a_{ii}. De esta forma, los únicos eigenvalores de A son las entradas en su diagonal.

\square

Si A es una matriz diagonalizable, entonces es semejante a una matriz diagonal D. Por la proposición anterior, los eigenvalores de A serían entonces las entradas en la diagonal principal de D. Esto nos da una intuición muy importante: si acaso pudiéramos encontrar todos los eigenvalores de A, entonces eso podría ser un paso parcial hacia diagonalizarla.

Encontrar eigenvalores es encontrar las raíces de un polinomio

La siguiente proposición conecta eigenvalores, polinomios y determinantes.

Proposición. Sea A una matriz en M_n(F). Entonces la expresión

    \[\det(\lambda I_n - A)\]

está en F[\lambda], es decir, es un polinomio en la variable \lambda con coeficientes en F. Además, es de grado exactamente n.

Demostración. La fórmula para el determinante

    \begin{align*}\begin{vmatrix}\lambda - a_{11} & -a_{12} & \ldots & -a_{1n}\\-a_{21} & \lambda - a_{22} & \ldots & -a_{1n}\\\vdots & & \ddots & \\-a_{n1} & -a_{n2} & \ldots & \lambda - a_{nn}\end{vmatrix}\end{align*}

en términos de permutaciones nos dice que el determinante es sumas de productos de entradas de A. Cada una de las entradas es un polinomio en F[\lambda], ya sea constante, o lineal. Como F[\lambda] es cerrado bajo sumas y productos, esto prueba la primer parte de la afirmación.

Para probar que el grado es exactamente n, notemos que cada sumando de la expresión multiplica exactamente n entradas. Como las entradas a lo mucho son de grado uno en F[\lambda], entonces cada sumando es un polinomio de grado a lo más n. Hay una única forma que el grado sea n: cuando se elige la permutación identidad y entonces se obtiene el sumando

    \[(\lambda-a_{11})\cdot\ldots\cdot(\lambda-a_{nn}).\]

Esto termina la prueba.

\square

La proposición anterior nos asegura entonces que la siguiente definición tiene sentido.

Definición. Para A una matriz en M_n(F), el polinomio característico de A es el polinomio \chi_A(\lambda) en F[\lambda] dado por

    \[\chi_A(\lambda) = \det(\lambda I_n - A).\]

De esta forma, \lambda es un eigenvalor de A si y sólo si es una raíz del polinomio \chi_A(\lambda). Esto son buenas y malas noticias. Por un lado, nos cambia un problema de álgebra lineal a uno de polinomios, en donde a veces tenemos herramientas algebraicas que nos ayudan a encontrar raíces. Sin embargo, como se ve en cursos anteriores, también hay otros polinomios para los cuales es muy difícil encontrar sus raíces de manera exacta. Lo que salva un poco esa situación es que sí existen métodos para aproximar raíces numéricamente de manera computacional.

A pesar de la dificultad de encontrar raíces, sin duda tenemos consecuencias interesantes de esta conexión. Consideremos como ejemplo el siguiente resultado.

Proposición. Una matriz A en M_n(F) tiene a lo más n eigenvalores distintos. Lo mismo es cierto para una transformación lineal T:V\to V para V un espacio vectorial de dimensión n.

Demostración. La matriz A tiene tantos eigenvalores como raíces en F tiene su polinomio característico. Como el polinomio característico es de grado exactamente n, tiene a lo más n raíces en F.

La parte de transformaciones queda de tarea moral.

\square

Ya que encontramos los eigenvalores de una matriz o transformación, es posible que queramos encontrar uno o más eigenvectores correspondientes a ese eigenvalor. Observa que eso corresponde a encontrar una solución no trivial al sistema lineal de ecuaciones homogéneo de la forma

    \[(I_n-A) X = 0.\]

Para ello ya tenemos muchas herramientas, como hacer reducción Gaussiana.

Terminamos esta entrada con un ejemplo de cómo encontrar los valores propios y vectores propios en un caso concreto.

Problema. Encuentra los eigenvalores de la matriz

    \[A=\begin{pmatrix}1 & 0 & 0\\ 0 & 0 & -1 \\ 0 & 1 & 0 \end{pmatrix}\]

considerándola como:

  • Una matriz en M_3(\mathbb{R})
  • Una matriz en M_3(\mathbb{C}).

En el caso de M_n(\mathbb{R}), encuentra un eigenvector para cada eigenvalor.

Solución. Para encontrar los eigenvalores, tenemos que encontrar el determinante

    \[\begin{vmatrix}\lambda - 1 & 0 & 0\\ 0 & \lambda & 1 \\ 0 & -1 & \lambda \end{vmatrix}.\]

Usando expansión de Laplace en la primer columna y haciendo las operaciones, obtenemos que el determinante de \lambda I_3 - A es el polinomio

    \[(\lambda-1)(\lambda^2+1).\]

Aquí es importante la distinción de saber en qué campo estamos trabajando. Si estamos en M_3(\mathbb{R}), la única raíz del polinomio es 1. Si estamos en M_3(\mathbb{C}), obtenemos otras dos raíces: i y -i.

Ahora, para cuando A es matriz en M_3(\mathbb{R}), necesitamos encontrar un eigenvector para el eigenvalor 1. Esto equivale a encontrar una solución al sistema de ecuaciones

    \[(I_3-A)X=0,\]

es decir, a

    \[\begin{pmatrix}0 & 0 & 0\\ 0 & 1 & 1 \\ 0 & -1 & 1\end{pmatrix}X=0.\]

Una solución para este sistema es X=(1,0,0). Y en efecto, (1,0,0) es eigenvector de A para el eigenvalor 1 pues no es el vector cero y

    \[\begin{pmatrix}1 & 0 & 0\\ 0 & 0 & -1 \\ 0 & 1 & 0 \end{pmatrix}\begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix} = \begin{pmatrix} 1 + 0 + 0 \\ 0 + 0 + 0 \\ 0 + 0 + 0 \end{pmatrix} = \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix}.\]

\square

Observa que la matriz anterior no es diagonalizable en M_n(\mathbb{R}), pues si lo fuera tendría que ser semejante a una matriz diagonal D con entradas i y -i en la diagonal, pero entonces D no sería una matriz en M_n(\mathbb{R}). Esto nos da otra intuición con respecto a la diagonalización de una matriz: si acaso una matriz en M_n(F) es diagonalizable, entonces su polinomio característico debe tener puras raíces en F. Esta es una condición necesaria, pero aún no es suficiente.

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • En la entrada vimos que los eigenvalores de una transformación T son los eigenvalores de cualquier matriz que la represente. ¿Es cierto que los eigenvectores de T son los eigenvectores de cualquier matriz que lo represente?
  • Muestra que una transformación lineal T:V\to V para V un espacio vectorial de dimensión n tiene a lo más n eigenvalores distintos.
  • Encuentra los eigenvalores de las matrices de permutación.
  • Para un real \theta\in[0,2\pi) se define la matriz

        \[A(\theta):=\begin{pmatrix} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{pmatrix}.\]

    Muestra que A(\theta) tiene eigenvalores reales si y sólo si \theta=0 \o \theta=\pi. Sugerencia: Encuentra el polinomio característico (que es cuadrático) y calcula su discrimintante. Si es negativo, no tiene soluciones reales.
  • Sea A una matriz en M_n(F). Muestra que la matriz transpuesta ^t A tiene los mismos eigenvalores que A, y de hecho, el mismo polinomio característico que A. Sugerencia. Recuerda que una matriz y su transpuesta tienen el mismo determinante.

Álgebra Lineal I: Bases ortogonales

Introducción

Como ya discutimos en las entradas anteriores, si tenemos un espacio vectorial V con producto interior, entonces podemos definir varias nociones geométricas en V, como ángulos, norma y distancia. Ahora vamos a definir una noción muy útil en álgebra lineal: la de bases ortogonales. Para ello, combinaremos las nociones de bases y producto interior.

Las bases ortogonales no sólo tienen aplicaciones en álgebra lineal. También son el punto de partida de muchos conceptos matemáticos avanzados. Un primer ejemplo es el análisis de Fourier, que estudia cómo aproximar funciones mediante funciones trigonométricas y que tiene aplicaciones en el mundo real en análisis de señales. Otro ejemplo es la vasta teoría de polinomios ortogonales, con aplicaciones en el mundo real en aproximación e integración numérica.

En estas entradas de bases ortogonales tomaremos espacios vectoriales sobre \mathbb{R} con un producto interior \langle \cdot,\cdot \rangle.

Conjuntos ortogonales y ortonormales

Comenzamos con la siguiente definición. Recuerda que V es un espacio vectorial sobre \mathbb{R} con producto interior, así que induce una norma \Vert \cdot \Vert.

Definición. Sea S un conjunto de vectores en V. Decimos que S es

  • Ortogonal si cualquier par de vectores distintos de S es ortogonal, es decir, si para todo v,w en S, con v\neq w se tiene que

        \[\langle v, w \rangle = 0.\]

  • Ortonormal si es ortogonal, y además todo vector de S tiene norma 1.

En otras palabras, S es ortonormal si para todo v en S se tiene \langle v, v\rangle =1 y para v y w en S distintos se tiene \langle v, w\rangle =0.

Ejemplo. Si tomamos a \mathbb{R}^n con el producto punto, entonces la base canónica es un conjunto ortonormal pues, en efecto, e_i\cdot e_i = 1 y para i\neq j se tiene e_i\cdot e_j = 0.

Todo conjunto de un sólo elemento es ortogonal, pues no hay nada que probar. Otro conjunto ortonormal en \mathbb{R}^2 es el conjunto que sólo tiene al vector \left(\frac{3}{5},\frac{4}{5}\right), pues este es un vector de norma 1.

Los vectores (1,1,0), (1,-1,0) y (0,0,1) forman otro conjunto ortogonal en \mathbb{R}^3, pues en efecto

    \begin{align*}(1,1,0)\cdot (1,-1,0)&=1-1=0\\(1,-1,0)\cdot (0,0,1)&=0\\(0,0,1)\cdot (1,1,0)&=0.\end{align*}

Sin embargo, este no es un conjunto ortonormal, pues la norma de (1,1,0) es \sqrt{2}\neq 1. Si normalizamos a cada vector, es decir, si lo dividimos entre su norma, entonces obtenemos los vectores ortonormales \left(1/\sqrt{2},1/\sqrt{2},0\right), \left(1/\sqrt{2},-1/\sqrt{2},0\right) y (0,0,1).

\square

Propiedades de conjuntos ortogonales y ortonormales

Todo conjunto ortogonal de vectores no nulos se puede normalizar como en el ejemplo de la sección anterior para obtener un conjunto ortonormal. Es decir, si S es un conjunto de vectores distintos de 0, entonces

    \[S'=\left\{\frac{v}{\Vert v \Vert}: v\in S\right\}\]

es un conjunto ortonormal.

Una propiedad fundamental de los conjuntos ortonormales de vectores es que son linealmente independientes. Se puede probar algo un poco más general.

Proposición. Si S es un conjunto ortogonal de vectores no nulos, entonces los elementos de V son linealmente independientes.

Demostración. Tomemos v_1,\ldots,v_n elementos de S y supongamos que existen \alpha_1,\ldots,\alpha_n escalares tales que

    \[v:=\sum_{i=1}^n \alpha_i v_i =0.\]

Tomemos un índice j en 1,\ldots,n y hagamos el producto interior \langle v, v_j\rangle. Por un lado, como v=0, este produto es 0. Por otro lado, por linealidad es

    \[\sum_{i=1}^n \alpha_i \langle v_i,v_j\rangle.\]

Cuando i\neq j, el sumando correspondiente es igual a 0. De este modo, el único sumando no cero es cuando i=j, el cual es \alpha_j \langle v_j,v_j\rangle. De estos argumentos, deducimos que

    \[\alpha_j\langle v_j,v_j\rangle =0.\]

Como los vectores son no nulos, se tiene que \langle v_j,v_j\rangle \neq 0. Así, \alpha_j=0 para todo j=1,\ldots,n, lo cual muestra que los vectores son linealmente independientes.

\square

Como cada elemento de un conjunto ortonormal tiene norma 1, entonces no puede ser nulo, así que como corolario de la proposición anterior, todo conjunto ortonormal es linealmente independiente. Otro corolario es el siguiente.

Corolario. En un espacio Euclideano de dimensión d, los conjuntos ortogonales sin vectores nulos tienen a lo más d elementos.

Bases ortogonales y ortonormales

Cuando una base de un espacio vectorial es ortogonal (o bien, ortonormal), pasan varias cosas buenas. Esto amerita una definición por separado.

Definición. Sea S un conjunto de vectores en V. Decimos que S es

  • Una base ortogonal si S es una base de V y es un conjunto ortogonal.
  • Una base ortonormal si S una base de V y es un conjunto ortonormal.

Ejemplo. En \mathbb{R}^n la base canónica es una base ortonormal.

En \mathbb{R}^2 el conjunto S=\{(2,3),(9,-6)\} es un conjunto ortogonal. Además, se puede verificar fácilmente que son dos vectores linealmente independientes. De este modo, S es una base ortogonal.

Sin embargo, S no es una base ortonormal pues el primero de ellos tiene norma \sqrt{2^2+3^2}=\sqrt{13}. Si quisiéramos convertir a S en una base ortonormal, podemos normalizar a cada uno de sus elementos.

\square

En la sección anterior vimos que los conjuntos ortonormales son linealmente independientes. Otro corolario de este resultado es lo siguiente.

Corolario. En un espacio Euclideano de dimensión n, un conjunto ortonormal de n vectores es una base ortonormal.

La importancia de las bases ortogonales yace en que dada una base ortonormal B y un vector v, podemos encontrar varias propiedades de v en términos de B fácilmente. Por ejemplo, veremos más adelante que:

  • Las coordenadas de v con respecto a la base B son sencillas.
  • Hay una fórmula simple para la norma de v en términos de sus coordenadas en la base B.
  • Si B es una base de un subespacio W de V, entonces es fácil encontrar la distancia de v a W.

Mejor aún, las bases ortonormales siempre existen.

Teorema. Todo espacio Euclideano tiene una base ortonormal.

Es decir, sin importar qué espacio vectorial real de dimensión finita tomemos, y sin importar qué producto punto le pongamos, podemos dar una base ortogonal. De hecho, veremos un resultado un poco más fuerte, que nos dará un procedimiento para encontrar dicha base, incluso imponiendo restricciones adicionales.

Ejemplo de bases ortogonales en polinomios

Ejemplo. Tomemos \mathbb{R}_n[x] el espacio de polinomios de grado a lo más n con coeficientes reales. Además, tomemos números reales distintos x_0,\ldots,x_n. A partir de estos reales podemos definir la operación

    \[\langle P, Q \rangle = \sum_{j=0}^n P(x_j)Q(x_j),\]

la cual es claramente bilineal y simétrica.

Tenemos que \langle P,P\rangle es una suma de cuadrados, y por lo tanto es no negativa. Además, si \langle P, P\rangle =0, es porque

    \[\sum_{j=0}^n P(x_j)^2=0,\]

y como estamos trabajando en \mathbb{R} esto implica que cada sumando debe ser cero. Pero las igualdades

    \[P(x_0)=\ldots=P(x_n)=0\]

dicen que los n+1 reales distintos x_i son raíces de P, y como P es de grado a lo más n, tenemos que P es el polinomio 0. En resumen, \langle \cdot, \cdot \rangle es un producto interior en \mathbb{R}_n[x]. Vamos a dar una base ortogonal con respecto a este producto interior.

Para i=0,\ldots,n, consideremos los polinomios

    \[L_i(x)=\prod_{0\leq k \leq n, k\neq i} \frac{x-x_k}{x_i-x_k}.\]

Observa que L_j(x_j)=1 y si j\neq i, tenemos L_i(x_j)=0. Afirmamos que

    \[B=\{L_j:j=0,\ldots,n+1\}\]

es una base ortonormal de \mathbb{R}_n[x] con el producto interior que definimos. Como consiste de n+1 polinomios y \dim(\mathbb{R}_n[x])=n+1, basta con que veamos que es un conjunto ortonormal.

Primero, notemos que

    \begin{align*}\langle L_i,L_i \rangle = \sum_{j=0}^n L_i(x_j)^2 = L_i(x_i)^2=1,\end{align*}

de modo que cada L_i tiene norma 1.

Luego, notemos que si i\neq j, entonces L_i(x_k)L_j(x_k)=0 pues x_k no puede ser simultáneamente x_i y x_j. De este modo,

    \begin{align*}\langle L_i,L_j \rangle = \sum_{k=0}^n L_i(x_k)L_j(x_k)=0.\end{align*}

Con esto mostramos que cada par de polinomios distintos es ortogonal. Esto termina la demostración de que B es base ortonormal.

\square

Ejemplo de conjuntos ortogonales en funciones periódicas

Ejemplo. Consideremos V el conjunto de funciones f:\mathbb{R}\to \mathbb{R} continuas y periódicas de periodo 2\pi. Definimos

    \[\langle f,g \rangle = \int_{-\pi}^\pi f(x)g(x)\, dx.\]

Se puede mostrar que \langle \cdot, \cdot \rangle así definido es un producto interior en V.

Para cada entero positivo n, definimos

    \begin{align*}C_n(x)&=\frac{\cos(nx)}{\sqrt{\pi}}\\ S_n(x)&=\frac{\sin(nx)}{\sqrt{\pi}}.\end{align*}

Además, definimos C_0(x)=\frac{1}{\sqrt{2\pi}}. Afirmamos que

    \[\mathcal{F}:=\{C_n:n\geq 0\}\cup \{S_n:n\geq 1\}\]

es un conjunto ortonormal de vectores. Mostremos esto.

Para empezar, notamos que

    \[\Vert C_0\Vert = \int_{-\pi}^{\pi} \frac{1}{2\pi}\, dx =1.\]

Luego, tenemos que para n\geq 1 que

    \begin{align*}\Vert C_n\Vert &= \int_{-\pi}^\pi \frac{1}{\pi} \cos^2(nx)\, dx\\&= \int_{-\pi}^\pi \frac{1+\cos(2nx)}{2\pi}\, dx\\&= 1,\end{align*}

ya que para todo entero m\neq 0 se tiene que

    \[\int_{-\pi}^\pi \cos(mx) \, dx=0.\]

De manera similar, usando la identidad

    \[\sin^2(nx)=\frac{1-\cos(nx)}{2},\]

se puede ver que la norma de S_n es 1.

Para ver que las parejas de elementos distintas son ortogonales, tenemos varios casos. Si tomamos n\geq 1, el resultado para \langle C_0,C_n\rangle ó \langle C_0,S_n\rangle se deduce de que

    \[\int_{-\pi}^\pi \cos(mx)\, dx=\int_{-\pi}^\pi \sin(mx)\, dx=0\]

para todo entero m\neq 0.

Si tomamos dos C_i‘s distintos, dos S_i's distintos o un C_i y un S_i, el resultado se deduce de las fórmulas «producto a suma» de las funciones trigonométricas.

\square

Tarea moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Encuentra un conjunto ortogonal de vectores en \mathbb{R}^4 tal que ninguna de las entradas de ninguno de sus vectores sea igual a 0.
  • Escribe las demostraciones de los corolarios enunciados en esta entrada.
  • Muestra que \langle \cdot, \cdot \rangle definido en el ejemplo de funciones periódicas es un producto interior.
  • Termina de mostrar que la familia \mathcal{F} del ejemplo de funciones periódicas es ortonormal. Sugerencia: Usa identidades de suma y resta de ángulos para poner el producto de senos (o cosenos o mixto) como una suma de senos y/o cosenos.

Álgebra Lineal I: Rango de transformaciones lineales y matrices

Introducción

En entradas anteriores hablamos de transformaciones lineales, cómo actúan en conjuntos especiales de vectores y de cómo se pueden representar con matrices. Hablamos también de cómo cambiar de una base a otra y cómo usar esto para entender transformaciones en varias bases. Estamos listos para introducir un concepto fundamental de álgebra lineal, el de rango de una transformación lineal y de una matriz.

Antes de entrar en las definiciones formales, vale la pena hablar un poco de rango de manera intuitiva. Supongamos que V es un espacio vectorial de dimensión n y que W es un espacio vectorial sobre el mismo campo que V. Una transformación lineal T:V\to W puede «guardar mucha independencia lineal» o «muy poquita». Si T es inyectiva, ya vimos antes que T manda linealmente independientes a linealmente independientes. Si T es la transformación 0, entonces se «pierde toda la independencia».

El rango mide algo intermedio entre estos dos extremos. Mientras mayor sea el rango, más independencia lineal se preserva y viceversa. Si mantienes esta intuición en mente, varias de las proposiciones te resultarán más naturales.

Otro buen ejemplo para tener en mente es tomar una transformación lineal T:\mathbb{R}^3\to \mathbb{R}^3. Si es la transformación identidad, la base canónica se preserva. Si es la proyección al plano xy, entonces «perdemos» al vector (0,0,1), pues se va al (0,0,0). Si es la proyección al eje x, «perdemos» al (0,1,0) y al (0,0,1) pues ambos se van a (0,0,0). Y si es la transformación 0, perdemos a todos. El rango precisamente va a medir esto, y para estos ejemplos tendremos rango 3, 2, 1 y 0 respectivamente.

Rango para transformaciones lineales

Como en otras ocasiones, cuando hablemos de transformaciones lineales entre espacios vectoriales, serán sobre un mismo campo F.

Definición. Sean V y W espacios de dimensión finita. El rango de una transformación lineal T:V\to W es la dimensión de la imagen de T, es decir,

    \[\rank(T)=\dim\Ima T.\]

Si B es una base de V, entonces genera a V. La transformación T es suprayectiva de V a \Ima T, de modo que T(B) es generador de \Ima T. De esta forma, para encontrar el rango de una transformación lineal T:V\to W basta:

  • Tomar una base B de V
  • Aplicar T a cada elemento de B
  • Determinar un conjunto linealmente independiente máximo en T(B)

Para hacer este último paso, podemos poner a los vectores coordenada de T(B) con respecto a una base de W como los vectores fila de una matriz A y usar reducción gaussiana. Las operaciones elementales no cambian el espacio generado por las filas, así que el rango de T es el número de vectores fila no cero en la forma escalonada reducida A_{\text{red}} de A.

Ejemplo. Encuentra el rango de la transformación lineal T:\mathbb{R}^3\to M_{2}(\mathbb{R}) que manda (x,y,z) a

    \[\begin{pmatrix}x+y-z & 2x \\ 2y-2z & x+z-y\end{pmatrix}.\]

Solución. Tomemos e_1,e_2,e_3 la base canónica de \mathbb{R}^3. Tenemos que T(e_1)=\begin{pmatrix}1 & 2\\ 0 & 1\end{pmatrix}, T(e_2)=\begin{pmatrix} 1 & 0 \\ 2 & -1\end{pmatrix} y T(e_3)=\begin{pmatrix}-1 & 0\\ -2 & 1\end{pmatrix}.

Tomando la base canónica E_{11},E_{12},E_{21},E_{22} de M_2(\mathbb{R}), podemos entonces poner a las coordenadas de T(e_1),T(e_2),T(e_2) como vectores columna de una matriz

    \[\begin{pmatrix}1 & 2 & 0 & 1\\ 1 & 0 & 2 & -1\\ -1& 0 & -2 & 1\end{pmatrix}.\]

Sumando la segunda fila a la tercera, y después restando la primera a la segunda,obtenemos la matriz

    \[\begin{pmatrix}1 & 2 & 0 & 1\\ 0 & -2 & 2 & -2\\ 0& 0 & 0 & 0\end{pmatrix}.\]

De aquí, sin necesidad de terminar la reducción gaussiana, podemos ver que habrá exactamente dos filas no cero. De este modo, el rango de la transformación es 2.

\square

Propiedades del rango

Demostremos ahora algunas propiedades teóricas importantes acerca del rango de una transfromación lineal.

Proposición. Sean U, V y W espacios de dimensión finita. Sean S:U\to V, T:V\to W, T':V\to W transformaciones lineales. Entonces:

  1. \rank(T)\leq \dim V
  2. \rank(T)\leq \dim W
  3. \rank(T\circ S)\leq \rank(T)
  4. \rank(T\circ S)\leq \rank(S)
  5. \rank(T+T')\leq \rank(T) + \rank(T')

Demostración. (1) Pensemos a T como una transformación T:V\to \Ima(T). Haciendo esto, T resulta ser suprayectiva, y por un resultado anterior tenemos que \dim V\geq \dim \Ima T = \rank (T).

(2) Sabemos que \Ima (T) es un subespacio de W, así que \rank(T)=\dim \Ima T \leq \dim W.

(3) La imagen de T contiene a la imagen de T\circ S, pues cada vector de la forma T(S(v)) es de la forma T(w) (para w=S(v)). Así,

    \[\rank(T) =\dim \Ima T \geq \dim \ima T\circ S = \rank (T\circ S).\]

(4) La función T\circ S coincide con la restricción T_{\Ima S} de T a \Ima S. Por el inciso (1), \rank(T_{\Ima S})\leq \dim \Ima S = \rank(S), así que \rank (T\circ S) \leq \rank(S).

(5) Tenemos que \Ima (T+T') \subseteq \Ima T + \Ima T'. Además, por un corolario de la fórmula de Grassman, sabemos que

    \begin{align*}\dim (\Ima T + \Ima T')&\leq \dim \Ima T + \dim \Ima T'\\&= \rank(T) + \rank(T').\end{align*}

Así,

    \begin{align*}\rank(T+T')&\leq \rank(\Ima T + \Ima T')\\&\leq \rank(T)+\rank(T').\end{align*}

\square

Proposición. Sean R:U\to V, T:V\to W y S:W\to Z transformaciones lineales con R suprayectiva y S inyectiva. Entonces

    \[\rank(S\circ T\circ R)=\rank (T).\]

Dicho de otra forma «composición por la izquierda con transformaciones inyectivas no cambia el rango» y «composición por la derecha con transformaciones suprayectivas no cambia el rango». Un corolario es «composición con transformaciones invertibles no cambia el rango».

Demostración. De la proposición anterior, tenemos que \rank(S\circ T)\leq \rank (T). La restricción S_{\Ima T} de S a la imagen de T es una transformación lineal de \Ima T a \Ima (S\circ T) que es inyectiva, de modo que \dim \Ima T \leq \dim \Ima (S\circ T), que es justo \rank(T)\leq \rank(S\circ T), de modo que tenemos la igualdad \rank(S\circ T)=\rank (T).

Como R es suprayectiva, \Ima R= V, de modo que \Ima(S\circ T \circ R)=\Ima(S\circ T). Así,

    \[\rank (S\circ T \circ R) = \rank (S\circ T)=\rank(T).\]

\square

Teorema de rango-nulidad

Una transformación lineal T:V\to W determina automáticamente dos subespacios de manera natural: el kernel \ker T y la imagen \Ima T. Resulta que las dimensiones de \ker T, de \Ima T y de V están fuertemente relacionadas entre sí.

Teorema. Sean V y W espacios de dimensión finita. Sea T:V\to W una transformación lineal. Entonces

    \[\dim\ker T + \rank(T) = \dim V.\]

Demostración. Supongamos que \dim V=n y \dim \ker T = k. Queremos mostrar que \rank(T)=n-k. Para ello, tomemos una base B de \ker T y tomemos B'=\{v_1,\ldots,v_{n-k}\} tal que B\cup B' sea base de V. Basta mostrar que T(B')=\{T(v_1),\ldots,T(v_{n-k})\}\subset \Ima T es base de \Ima T. Sea U el generado por B', de modo que V=U \oplus \ker T.

Veamos que T(B') es generador de \Ima T. Tomemos T(v) en \Ima T. Podemos escribir v=z+u con z\in \ker T y u\in U. Así, T(v)=T(z)+T(u)=T(u)\in T(B').

Ahora veamos que T(B') es linealmente independiente. Si

    \[\alpha_1T(v_1)+\ldots+\alpha_{n-k}T(v_{n-k})=0,\]

entonces T(\alpha_1v_1+\ldots+\alpha_{n-k}v_{n-k})=0, de modo que \alpha_1v_1+\ldots+\alpha_{n-k}v_{n-k} está en U y en \ker T, pero la intersección de estos espacios es \{0\}. Como esta combinación lineal es 0 y B' es linealmente independiente, \alpha_1=\ldots=\alpha_n=0.

De esta forma, T(B') es linealmente independiente y genera a \Ima T, de modo que \rank(T) =|B'|=n-k.

\square

Ejemplo. Consideremos de nuevo la transformación lineal T:\mathbb{R}^3\to M_{2}(\mathbb{R}) que manda (x,y,z) a

    \[\begin{pmatrix}x+y-z & 2x \\ 2y-2z & x+z-y\end{pmatrix}.\]

Muestra que T no es inyectiva.

Solución. Ya determinamos previamente que esta transformación tiene rango 2. Por el teorema de rango-nulidad, su kernel tiene dimensión 1. Así, hay un vector v\neq (0,0,0) en el kernel, para el cual T(v)=0=T(0), de modo que T no es inyectiva.

\square

Problema. Demuestra que para cualquier entero n existe una terna (a,b,c)\neq (0,0,0) con a+b+c=0 y tal que

    \[\int_0^1 at^{2n}+bt^n+c \,dt = 0.\]

Solución. Podríamos hacer la integral y plantear dos ecuaciones lineales. Sin embargo, daremos argumentos dimensionales para evitar la integral. Consideremos las transformaciones lineales T:\mathbb{R}^3\to \mathbb{R} y S:\mathbb{R}^3\to \mathbb{R} dadas por

    \begin{align*}T(x,y,z)&=\int_0^1 xt^{2n}+yt^n+z \,dt\\S(x,y,z)&=x+y+z.\end{align*}


Notemos que T(0,0,1)=\int_0^1 1\, dt = 1=S(0,0,1), de modo que ni T ni S son la transformación 0. Como su rango puede ser a lo más \dim\mathbb{R}=1, entonces su rango es 1. Por el teorema de rango-nulidad, \dim \ker S= \dim \ker T = 2. Como ambos son subespacios de \mathbb{R}^3, es imposible que \ker S \cap \ker T=\{0\}, de modo que existe (a,b,c) no cero tal que T(a,b,c)=S(a,b,c)=0. Esto es justo lo que buscábamos.

\square

Rango para matrices

Definición. El rango de una matriz A en M_{m,n}(F) es el rango de la transformación lineal asociada de F^n a F^m dada por X\mapsto AX. Lo denotamos por \rank(A).

A partir de esta definición y de las propiedades de rango para transformaciones lineales obtenemos directamente las siguientes propiedades para rango de matrices.

Proposición. Sean m, n y p enteros. Sea B una matriz en M_{n,p}(F) y A, A' matrices en M_{m,n}. Sea P una matriz en M_{n,p} cuya transformación lineal asociada es suprayectiva y Q una matriz en M_{r,m} cuya transformación lineal asociada es inyectiva. Entonces:

  1. \rank(A)\leq \min(m,n)
  2. \rank(AB)\leq \min(\rank(A),\rank(B))
  3. \rank(A+A')\leq \rank(A) + \rank(A')
  4. \rank(QAP) = \rank(A)

Como discutimos anteriormente, el rango de una transformación se puede obtener aplicando la transformación a una base y viendo cuál es el máximo subconjunto de imágenes de elementos de la base que sea linealmente independiente. Si tomamos una matriz A en M_{m,n}(F), podemos aplicar esta idea con los vectores e_1,\ldots,e_n de la base canónica de F^{n}. Como hemos visto con anterioridad, para cada i=1,\ldots, n tenemos que el vector Ae_i es exactamente la i-ésima columna de A. Esto nos permite determinar el rango de una matriz en términos de sus vectores columna.

Proposición. El rango de una matriz en M_{m,n}(F) es igual a la dimensión del subespacio de F^m generado por sus vectores columna.

Problema. Determina el rango de la matriz

    \[\begin{pmatrix} 3 & 1 & 0 & 5 & 0\\ 0 & 8 & 2 & -9 & 0\\ 0 & -1 & 0 & 4 & -2\end{pmatrix}.\]

Solución. Como es una matriz con 3 filas, el rango es a lo más 3. Notemos que entre las columnas están los vectores (3,0,0), (0,2,0) y (0,0,-2), que son linealmente independientes. De esta forma, el rango de la matriz es 3.

\square

A veces queremos ver que el rango de un producto de matrices es grande. Una herramienta que puede servir en estos casos es la desigualdad de Sylvester.

Problema (Desigualdad de Sylvester). Muestra que para todas las matrices A, B en M_n(F) se tiene que

    \[\rank(AB)\geq \rank(A)+\rank(B)-n.\]

Solución. Tomemos T_1:F^n\to F^n y T_2:F^n\to F^n tales que T_1(X)=AX y T_2(X)=BX. Lo que tenemos que probar es que

    \[\rank(T_1\circ T_2) \geq \rank(T_1) + \rank(T_2) - n.\]

Consideremos S_1 como la restricción de T_1 a \Ima T_2. Tenemos que \ker S_1 \subset \ker T_1, así que \dim \ker S_1 \leq \dim \ker T_1. Por el teorema de rango-nulidad en S_1, tenemos que

    \begin{align*}rank(T_2) &= \dim \Ima T_2 \\&= \dim \ker S_1 + \rank(S_1) \\&= \dim \ker S_1 + \rank(T_1\circ T_2)\\&\leq \dim \ker T_1 + \rank(T_1\circ T_2),\end{align*}

así que

    \[\rank(T_2)\leq \dim \ker T_1 + \rank(T_1\circ T_2).\]

Por el teorema de rango-nulidad en T_1 tenemos que

    \[\dim \ker T_1 + \rank(T_1)=n.\]

Sumando la desigualdad anterior con esta igualdad obtenemos el resultado.

\square

El teorema PJQ (opcional)

El siguiente resultado no se encuentra en el temario usual de Álgebra Lineal I. Si bien no formará parte de la evaluación del curso, recomendamos fuertemente conocerlo y acostumbrarse a usarlo pues tiene amplias aplicaciones a través del álgebra lineal.

Teorema (Teorema PJQ). Sea A una matriz en M_{m,n}(F) y r un entero en \{0,\ldots,\min(m,n)\}. El rango de A es igual a r si y sólo si existen matrices invertibles P\in M_m(F) y Q\in M_n(F) tales que A=PJ_rQ, en donde J_r es la matriz en M_{m,n} cuyas primeras r entradas de su diagonal principal son 1 y todas las demás entradas son cero, es decir, en términos de matrices de bloque,

    \[J_r=\begin{pmatrix}I_r & 0 \\0 & 0\end{pmatrix}.\]

No damos la demostración aquí. Se puede encontrar en el libro de Titu Andreescu, Teorema 5.68. Veamos algunas aplicaciones de este teorema.

Problema. Muestra que una matriz tiene el mismo rango que su transpuesta.

Solución. Llamemos r al rango de A. Escribimos A=PJ_rQ usando el teorema PJQ, con P y Q matrices invertibles. Tenemos que ^tA=^tQ\, ^tJ_r \,^tP, con ^tQ y ^tP matrices invertibles. Además, ^t J_r es de nuevo de la forma de J_r. Así, por el teorema PJQ, tenemos que ^t A es de rango r.

Combinando el problema anterior con el resultado del rango de una matriz en términos de sus vectores columna obtenemos lo siguiente.

Proposición. El rango de una matriz en M_{m,n}(F) es igual a la dimensión del subespacio de F^n generado por sus vectores renglón.

Terminamos esta entrada con una aplicación más del teorema PJQ.

Problema. Muestra que una matriz A de rango r se puede escribir como suma de r matrices de rango 1. Muestra que es imposible hacerlo con menos matrices.

Solución. Expresamos A=PJ_rQ usando el teorema PJQ. Si definimos A_i=PE_{ii}Q para i=1,\ldots,r, donde E_{ii} es la matriz cuya entrada (i,i) es uno y las demás cero, claramente tenemos que J_r=E_{11}+E_{22}+\ldots+E_{rr}, por lo que

    \[A=PJ_rQ=A_1+A_2+\ldots+A_r.\]

Además, como E_{ii} es de rango 1, por el teorema PJQ cada matriz A_i es de rango 1.

Veamos que es imposible con menos. Si B_1,\ldots,B_s son matrices de rango 1, como el rango es subaditivo tenemos que \rank (B_1+\ldots+B_s)\leq s. Así, si sumamos menos de r matrices, no podemos obtener a A.

\square

Tarea Moral

Los siguientes ejercicios no forman parte de la evaluación del curso, pero te servirán para entender mucho mejor los conceptos vistos en esta entrada, así como temas posteriores.

  • Termina de hacer la reducción gaussiana del primer ejemplo.
  • Sea T una transformación de un espacio vectorial V de dimensión finita a si mismo. Usa el teorema de rango-nulidad para mostrar que si T es inyectiva o suprayectiva, entonces es biyectiva.
  • Determina el rango de la matriz

        \[\begin{pmatrix} 0 & 0 & 0 & 8 & 3\\ 7 & 8 & -1 & -2 & 0\\ 3 & -1 & 4 & 4 & -9\end{pmatrix}.\]

  • Demuestra que aplicar operaciones elementales a una matriz no cambia su rango.
  • Demuestra que matrices similares tienen el mismo rango.
  • Demuestra por inducción que para matrices A_1,\ldots, A_n del mismo tamaño tenemos que

        \[\rank (A_1+\ldots+A_n)\leq \sum_{i=1}^n \rank(A_i).\]

  • Escribe la demostración de la última proposición de la sección del teorema PJQ
  • Revisa la demostración del teorema de descomposición PJQ en el libro de Titu Andreescu.

Álgebra Lineal I: Problemas de transformaciones lineales, vectores independientes y forma matricial

El objetivo de esta entrada es mostrar algunos problemas resueltos sobre los temas vistos el jueves y viernes de la semana pasada.

Problema 1. Sean

v_1=(1,0,0), v_2=(1,1,0), v_3=(1,1,1)

y sea T:\mathbb{R}^3\longrightarrow \mathbb{R}^2 una transformación lineal tal que

T(v_1)=(3,2), T(v_2)=(-1,2), T(v_3)=(0,1)

Calcula el valor de T(5,3,1).

 

Solución. Primero observemos que {(1,0,0), (1,1,0), (1,1,1)} es una base de \mathbb{R}^3, entonces existen a,b,c\in \mathbb{R} tales que

    \[(5,3,1)=a(1,0,0)+b(1,1,0)+c(1,1,1).\]


Si logramos expresar a (5,3,1) de esta forma, después podremos usar que T es lineal para encontrar el valor que queremos. Encontrar los valores de a,b,c que satisfacen la ecuación anterior lo podemos ver como el sistema de ecuaciones:

    \[\begin{pmatrix}1 & 1 & 1\\0 & 1 & 1\\0 & 0 & 1\end{pmatrix} \begin{pmatrix}a\\b\\c\end{pmatrix} = \begin{pmatrix}5\\3\\1\end{pmatrix}.\]

Ahora consideramos la matriz extendida del sistema y la reducimos

    \[\begin{pmatrix}1 & 1 & 1 & 5\\0 & 1 & 1 & 3\\0 & 0 & 1 & 1\end{pmatrix} \longrightarrow \begin{pmatrix}1 & 0 & 0 & 2\\0 & 1 & 1 & 3\\0 & 0 & 1 & 1\end{pmatrix} \longrightarrow \begin{pmatrix}1 & 0 & 0 & 2\\0 & 1 & 0 & 2\\0 & 0 & 1 & 1\end{pmatrix}\]


Así, a=2, b=2, c=1.

Finalmente, usando que T es transformación lineal,

    \begin{align*}T(5,3,1)&=T(2(1,0,0)+2(1,1,0)+(1,1,1))\\&=2T(1,0,0)+2T(1,1,0)+T(1,1,1)\\&=2(3,2)+2(-1,2)+(0,1)\\&=(6,4)+(-2,4)+(0,1)\\&=(4,9).\end{align*}

\square

Problema 2. Sea P_n(\mathbb{R}) el espacio de los polinomios de grado a los más n con coeficientes reales.

Considera la transformación lineal T:P_3(\mathbb{R})\longrightarrow P_2(\mathbb{R}) dada por T(p(x))=p'(x).

Sean \beta=\{1,x,x^2,x^3\} y \gamma=\{1,x,x^2\} las bases canónicas de P_3(\mathbb{R}) y P_2(\mathbb{R}), respectivamente. Encuentra la representación matricial de la transformación T.

Solución. Primero le aplicamos T a cada uno de los elementos de \beta

T(1)=0\cdot 1 + 0\cdot x + 0\cdot x^2
T(x)=1\cdot 1 + 0\cdot x + 0\cdot x^2
T(x^2)=0\cdot 1 + 2\cdot x + 0\cdot x^2
T(x^3)=0\cdot 1 + 0\cdot x + 3\cdot x^2

Así,

    \[\begin{pmatrix}0 & 1 & 0 & 0\\0 & 0 & 2 & 0\\0 & 0 & 0 & 3\end{pmatrix}\]


es la representación matricial de T con respecto a las bases canónicas.

\square

Problema 3. Sea V=P_2(\mathbb{R}). Considera las transformaciones

T:\mathbb{R}^3\longrightarrow V, T(a,b,c)=a+2bx+3cx^2

y

S:V\longrightarrow M_2(\mathbb{R}), S(a+bx+cx^2)=\begin{pmatrix}a & a+b\\a-c & b\end{pmatrix}.

Consideramos las bases B_1=\{1,x,x^2\} de V, B_2 la base canónica de \mathbb{R}^3 y B_3=\{E_{11}, E_{12}, E_{21}, E_{22}\} de M_2(\mathbb{R}).

  1. Verifica que T y S son transformaciones lineales.
  2. Escribe las matrices asociadas a T y S con respecto a las bases anteriores.
  3. Encuentra la matriz asociada a la composición S\circ T con respecto a las bases anteriores.
  4. Calcula explícitamente S\circ T, después encuentra directamente su matriz asociada con respecto a las bases anteriores y verifica que el resultado obtenido aquí es el mismo que en el inciso anterior.

Solucion. 1. Sea u\in \mathbb{R} y (a,b,c), (a',b',c')\in \mathbb{R}^3.
Entonces

T(u(a,b,c)+(a',b',c'))=T(au+a',bu+b',cu+c')

=(au+a')+2(bu+b')x+3(cu+c')x^2
=u(a+2bx+3cx^2)+(a'+2b'x+3c'x^2)=uT(a,b,c)+T(a',b',c')

Así, T es lineal.

Ahora, sea u\in \mathbb{R} y a+bx+cx^2, a'+b'x+c'x^2\in V.
Entonces

S(u(a+bx+cx^2)+(a'+b'x+c'x^2))=S(ua+a'+(ub+b')x+(uc+c')x^2)
=\begin{pmatrix}ua+a' & (ua+a')+(ub+b')\\ua+a'-(uc+c') & ub+b'\end{pmatrix}
=u\begin{pmatrix}a & a+b\\a-c & b\end{pmatrix} + \begin{pmatrix}a' & a'+b'\\a'-c' & b'\end{pmatrix}
=uS(a+bx+cx^2)+S(a'+b'x+c'x^2)

Así, S es lineal.

2. Empezamos calculando la matrix Mat_{B_1,B_2}(T) de T con respecto de B_1 y B_2.
Sea B_2=\{e_1,e_2,e_3\} la base canónica de \mathbb{R}^3, entonces

T(e_1)=T(1,0,0)=1=1\cdot 1 + 0\cdot x + 0\cdot x^2,
T(e_2)=T(0,1,0)=2x= 0\cdot 1 + 2\cdot x + 0 \cdot x^2,
T(e_3)=T(0,0,1)=3x^2= 0\cdot 1 + 0\cdot x + 3 \cdot x^2,

Así,

Mat_{B_1,B_2}(T)=\begin{pmatrix}1 & 0 & 0\\0 & 2 & 0\\0& 0 & 3\end{pmatrix}.

De manera análoga, calculamos

S(1)=\begin{pmatrix}1 & 1\\1 & 0\end{pmatrix} = 1 \cdot E_{11} + 1 \cdot E_{12} + 1 \cdot E_{21} + 0\cdot E_{22},
S(x)=\begin{pmatrix}0 & 1\\0 & 1\end{pmatrix} = 0 \cdot E_{11} + 1 \cdot E_{12} + 0 \cdot E_{21} + 1\cdot E_{22},
S(x^2)=\begin{pmatrix}0 & 0\\-1 & 0\end{pmatrix} = 0 \cdot E_{11} + 0 \cdot E_{12} + (-1) \cdot E_{21} + 0\cdot E_{22},

Por lo tanto

Mat_{B_3,B_1}(S)=\begin{pmatrix}1 & 0 & 0\\1 & 1 & 0\\1 & 0 & -1\\0 & 1 & 0\end{pmatrix}.

3. Usando el teorema visto en la entrada del viernes pasado 

Mat_{B_3,B_2}(S\circ T)=Mat_{B_3,B_1}(S)\cdot Mat_{B_1,B_2}(T)


=\begin{pmatrix}1 & 0 & 0\\1 & 1 & 0\\1 & 0 & -1\\0 & 1 & 0\end{pmatrix} \begin{pmatrix}1 & 0 & 0\\0 & 2 & 0\\0 & 0 & 3\end{pmatrix} = \begin{pmatrix}1 & 0 & 0\\1 & 2 & 0\\1 & 0 & -3\\0 & 2 & 0\end{pmatrix}.

4. Calculamos

(S\circ T)(a,b,c)=S(T(a,b,c))= S(a+2bx+3cx^2)=\begin{pmatrix}a & a+2b\\a-3c & 2b\end{pmatrix}.

Luego,

(S\circ T)(e_1)=\begin{pmatrix}1 & 1\\1 & 0\end{pmatrix} = 1\cdot E_{11} + 1 \cdot E_{12} + 1 \cdot E_{21} + 0 \cdot E_{22}
(S\circ T)(e_2)=\begin{pmatrix}0 & 2\\0 & 2\end{pmatrix} = 0\cdot E_{11} + 2 \cdot E_{12} + 0 \cdot E_{21} + 2 \cdot E_{22}

y

(S\circ T)(e_2)=\begin{pmatrix}0 & 0\\-3 & 0\end{pmatrix} = 0 \cdot E_{11} + 0 \cdot E_{12} + -3 \cdot E_{21} + 0 \cdot E_{22}

Así, la matriz asociada a S\circ T es

Mat_{B_3,B_2}(S\circ T)= \begin{pmatrix}1 & 0 & 0\\1 & 2 & 0\\1 & 0 & -3\\0 & 2 & 0\end{pmatrix}

Que es justo lo que se obtuvo en el inciso 3.

\square