Archivo de la etiqueta: independencia

Probabilidad I-Videos: Independencia de eventos

Introducción

La noción de independencia de los eventos juega un papel importante en la teoría de la probabilidad y sus aplicaciones.  Generalmente, saber que algún evento B ha ocurrido cambia la probabilidad de que otro evento A ocurra. Si la probabilidad permanece sin cambios entonces llamamos a A y B independientes.

Independencia de eventos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE 104721: “Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM”. Sitio web del proyecto: https://www.matematicasadistancia.com.

Tarea moral

  • Sean $A$ y $B$ eventos independientes, muestra que
    • $A^c,\ B$
    • $A,\ B^c$
    • $A^c,\ B^c$

Son independientes.

  • Demuestra que los eventos $A$ y $B$ son independientes si y sólo si $P\left(A\middle|\ B\right)=P\left(A\middle|\ B^c\right)$.
  • Sea $\Omega=${$1,2,\ldots,p$} donde $p$ es primo, $\mathcal{F}$ es el conjunto de todos los subconjuntos de $\Omega$ y para todo evento $A\in\mathcal{F}$, $P(A)=\frac{\left|A\right|}{p}$. Muestra que, si $A$ y $B$ son eventos independientes, entonces al menos uno de los eventos $A$ y $B$ son cualquiera $\emptyset$ o $\Omega$.
  • Considera que se lanza un dado n veces. Sea $A_{ij}$ el evento tal que el $i-ésimo$ y $j-ésimo$ resultado producen el mismo número. Muestra que los eventos {$A_{ij}:1\le\ i\le\ j\le\ n$} son independientes dos a dos, pero no son independientes.
  • Prueba que si $A_1,A_2,\ldots,A_n$ son eventos independientes entonces $P\left(A_1\cup A_2\cup\ldots\cup A_n\right)=1-\displaystyle\prod_{i=1}^{n}\left[1-P\left(A_i\right)\right]$.

Más adelante…

En los siguientes videos veremos dos aplicaciones útiles e importantes de la probabilidad condicional: el teorema de probabilidad total y el teorema de Bayes, que nos permiten a través de una partición correcta del espacio muestral, encontrar probabilidades de una manera conveniente.

Entradas relacionadas

Álgebra Lineal I: Problemas de combinaciones lineales, generadores e independientes

Introducción

En entradas anteriores ya hablamos de combinaciones lineales, de conjuntos generadores y de conjuntos independientes. Lo que haremos aquí es resolver problemas para reforzar el contenido de estos temas.

Problemas resueltos

Problema. Demuestra que el polinomio $p(x)=x^2+x+1$ no puede ser escrito en el espacio vectorial $\mathbb{R}[x]$ como una combinación lineal de los polinomios \begin{align*} p_1(x)=x^2-x\\ p_2(x) = x^2-1\\ p_3(x) = x-1.\end{align*}

Solución. Para resolver este problema, podemos plantearlo en términos de sistemas de ecuaciones. Supongamos que existen reales $a$, $b$ y $c$ tales que $$p(x)=ap_1(x)+bp_2(x)+cp_3(x).$$

Desarrollando la expresión, tendríamos que
\begin{align*}
x^2+x+1 &= a(x^2-x)+b(x^2-1)+c(x-1)\\
&= (a+b)x^2+(-a+c)x+(-b-c),
\end{align*}

de donde igualando coeficientes de términos del mismo grado, obtenemos el siguiente sistema de ecuaciones: $$\begin{cases}a+b & = 1\\ -a + c &= 1 \\ -b-c &= 1.\end{cases}$$

Para mostrar que este sistema de ecuaciones no tiene solución, le aplicaremos reducción gaussiana a la siguiente matriz extendida: $$\begin{pmatrix} 1 & 1 & 0 & 1 \\ -1 & 0 & 1 & 1 \\ 0 & -1 & -1 & 1 \end{pmatrix}.$$

Tras la transvección $R_2+R_1$, obtenemos $$\begin{pmatrix} 1 & 1 & 0 & 1 \\ 0 & 1 & 1 & 2 \\ 0 & -1 & -1 & 1 \end{pmatrix}.$$

Tras la transvección $R_3+R_2$, obtenemos $$\begin{pmatrix} 1 & 1 & 0 & 1 \\ 0 & 1 & 1 & 2 \\ 0 & 0 & 0 & 3 \end{pmatrix}.$$

De aquí se ve que la forma escalonada reducida tendrá un pivote en la última columna. Por el teorema de existencia y unicidad el sistema original no tiene solución.

$\square$

En el problema anterior usamos un argumento de reducción gaussiana para mostrar que el sistema no tiene solución. Este es un método general que funciona en muchas ocasiones. Una solución más sencilla para ver que el sistema del problema no tiene solución es que al sumar las tres ecuaciones se obtiene $0=3$.

Problema. Sea $n$ un entero positivo. Sea $W$ el subconjunto de vectores en $\mathbb{R}^n$ cuya suma de entradas es igual a $0$. Sea $Z$ el espacio generado por el vector $(1,1,\ldots,1)$ de $\mathbb{R}^n$. Determina si es cierto que $$\mathbb{R}^n=W\oplus Z.$$

Solución. El espacio $Z$ está generado por todas las combinaciones lineales que se pueden hacer con el vector $v=(1,1,\ldots,1)$. Como sólo es un vector, las combinaciones lineales son de la forma $av$ con $a$ en $\mathbb{R}$, de modo que $Z$ es precisamente $$Z=\{(a,a,\ldots,a): a\in\mathbb{R}\}.$$

Para obtener la igualdad $$\mathbb{R}^n=W\oplus Z,$$ tienen que pasar las siguientes dos cosas (aquí estamos usando un resultado de la entrada de suma y suma directa de subespacios):

  • $W\cap Z = \{0\}$
  • $W+Z=\mathbb{R}^n$

Veamos qué sucede con un vector $v$ en $W\cap Z$. Como está en $Z$, debe ser de la forma $v=(a,a,\ldots,a)$. Como está en $W$, la suma de sus entradas debe ser igual a $0$. En otras palabras, $0=a+a+\ldots+a=na$. Como $n$ es un entero positivo, esta igualdad implica que $a=0$. De aquí obtenemos que $v=(0,0,\ldots,0)$, y por lo tanto $W\cap Z = \{0\}$.

Veamos ahora si se cumple la igualdad $\mathbb{R}^n=W+Z$. Por supuesto, se tiene que $W+Z\subseteq \mathbb{R}^n$, pues los elementos de $W$ y $Z$ son vectores en $\mathbb{R}^n$. Para que la igualdad $\mathbb{R}^n\subseteq W+Z$ se cumpla, tiene que pasar que cualquier vector $v=(x_1,\ldots,x_n)$ en $\mathbb{R}^n$ se pueda escribir como suma de un vector $w$ uno con suma de entradas $0$ y un vector $z$ con todas sus entradas iguales. Veamos que esto siempre se puede hacer.

Para hacerlo, sea $S=x_1+\ldots+x_n$ la suma de las entradas del vector $v$. Consideremos al vector $w=\left(x_1-\frac{S}{n},\ldots, x_n-\frac{S}{n} \right)$ y al vector $z=\left(\frac{S}{n},\ldots,\frac{S}{n})$.

Por un lado, $z$ está en $Z$, pues todas sus entradas son iguales. Por otro lado, la suma de las entradas de $w$ es
\begin{align*}
\left(x_1-\frac{S}{n}\right)+\ldots + \left(x_n-\frac{S}{n}\right)&=(x_1+\ldots+x_n)-n\cdot \frac{S}{n}\\ &= S-S=0,
\end{align*}

lo cual muestra que $w$ está en $W$. Finalmente, notemos que la igualdad $w+z=v$ se puede comprobar haciendo la suma entrada a entrada. Con esto mostramos que cualquier vector de $V$ es suma de vectores en $W$ y $Z$ y por lo tanto concluimos la igualdad $\mathbb{R}^n=W\oplus Z$.

$\square$

En el problema anterior puede parecer algo mágico la propuesta de vectores $w$ y $z$. ¿Qué es lo que motiva la elección de $\frac{S}{n}$? Una forma de enfrentar los problemas de este estilo es utilizar la heurística de trabajar hacia atrás. Sabemos que el vector $w$ debe tener todas sus entradas iguales a cierto número $a$ y queremos que $z=v-w$ tenga suma de entradas igual a $0$. La suma de las entradas de $v-w$ es $$(x_1-a)+\ldots+(x_n-a)= S -na.$$ La elección de $a=\frac{S}{n}$ está motivada en que queremos que esto sea cero.

Problema. Considera las siguientes tres matrices en $M_2(\mathbb{C})$:
\begin{align*}
A&= \begin{pmatrix} -i & -3 \\ 2 & 3 \end{pmatrix}\\
B&= \begin{pmatrix} 2i& 1 \\ 3 & -1 \end{pmatrix}\\
C&= \begin{pmatrix} i & -7 \\ 12 & 7 \end{pmatrix}.
\end{align*}

Demuestra que $A$, $B$ y $C$ son matrices linealmente dependientes. Da una combinación lineal no trivial de ellas que sea igual a $0$.

Solución. Para mostrar que son linealmente dependientes, basta dar la combinación lineal no trivial buscada. Buscamos entonces $a,b,c$ números complejos no cero tales que $aA+bB+cC=O_2$, la matriz cero en $M_2(\mathbb{C})$. Para que se de esta igualdad, es necesario que suceda entrada a entrada. Tenemos entonces el siguiente sistema de ecuaciones:
$$\begin{cases}
-i a + 2i b + ic &= 0\\
-3a + b -7c &=0\\
2a + 3b + 12c &= 0\\
3a -b +7c &=0.
\end{cases}$$

En este sistema de ecuaciones tenemos números complejos, pero se resuelve exactamente de la misma manera que en el caso real. Para ello, llevamos la matriz correspondiente al sistema a su forma escalonada reducida. Comenzamos dividiendo el primer renglón por $-i$ y aplicando transvecciones para hacer el resto de las entradas de la columna iguales a $0$. Luego intercambiamos la tercera y cuarta filas.

\begin{align*}
&\begin{pmatrix}
-i & 2i & i \\
-3 & 1 & -7 \\
2 & 3 & 12 \\
3 & -1 & 7
\end{pmatrix}\\
\to&\begin{pmatrix}
1 & -2 & -1 \\
0 & -5 & -10 \\
0 & 7 & 14 \\
0 & 5 & 10
\end{pmatrix}
\end{align*}

Ahora reescalamos con factor $-\frac{1}{5}$ la segunda fila y hacemos transvecciones para hacer igual a cero el resto de entradas de la columna 2:

\begin{align*}
&\begin{pmatrix}
1 & 0& 3 \\
0 & 1 & 2 \\
0 & 0 & 0 \\
0 & 0 & 0
\end{pmatrix}
\end{align*}

Con esto llegamos a la forma escalonada reducida de la matriz. De acuerdo al procedimiento que discutimos en la entrada de sistemas lineales homogéneos, concluimos que las variables $a$ y $b$ son pivote y la variable $c$ es libre. Para poner a $a$ y $b$ en términos de $c$, usamos la primera y segunda ecuaciones. Nos queda \begin{align*} a &= -3c \\ b &= -2c. \end{align*}

En resumen, concluimos que para cualqueir número complejo $c$ en $\mathbb{C}$ se tiene la combinación lineal $$-3c\begin{pmatrix} -i & -3 \\ 2 & 3 \end{pmatrix} – 2c \begin{pmatrix} 2i& 1 \\ 3 & -1 \end{pmatrix} + c\begin{pmatrix} i & -7 \\ 12 & 7 \end{pmatrix} = \begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}.$$

Una posible combinación lineal no trivial se obtiene tomando $c=1$.

$\square$

En el problema anterior bastaba encontrar una combinación lineal no trivial para acabar el ejercicio. Por supuesto, esto también se puede hacer por prueba y error. Sin embargo, la solución que dimos da una manera sistemática de resolver problemas de este estilo.

Problema. Consideremos el espacio vectorial $V$ de funciones $f:\mathbb{R}\to \mathbb{R}$. Para cada real $a$ en $(0,\infty)$, definimos a la función $f_a\in V$ dada por $$f_a(x)=e^{ax}.$$

Tomemos reales distintos $0<a_1<a_2<\ldots<a_n$. Supongamos que existe una combinación lineal de las funciones $f_{a_1},\ldots,f_{a_n}$ que es igual a $0$, es decir, que existen reales $\alpha_1,\ldots,\alpha_n$ tales que $$\alpha_1 e^{a_1x} + \alpha_2e^{a_2x} + \ldots + \alpha_n e^{a_nx} = 0$$ para todo real $x\geq 0$.

Muestra que $\alpha_1=\ldots=\alpha_n=0$. Concluye que la familia $(f_a)_{a\in \mathbb{R}}$ es linealmente independiente en $V$.

Solución. Procedemos por inducción sobre $n$. Para $n=1$, si tenemos la igualdad $\alpha e^{ax}=0$ para toda $x$, entonces $\alpha=0$, pues $e^{ax}$ siempre es un número positivo. Supongamos ahora que sabemos el resultado para cada que elijamos $n-1$ reales cualesquiera. Probaremos el resultado para $n$ reales cualesquiera.

Supongamos que tenemos la combinación lineal $$\alpha_1 e^{a_1x} + \alpha_2e^{a_2x} + \ldots + \alpha_n e^{a_nx} = 0$$ para todo real $x\geq 0$.

Dividamos esta igualdad que tenemos entre $e^{a_nx}$:

$$\alpha_1 e^{(a_1-a_n)x} + \alpha_2e^{(a_2-a_n)x} + \ldots + \alpha_{n-1}e^{(a_{n-1}-a_n)x}+\alpha_n = 0.$$

¿Qué sucede cuando hacemos $x\to \infty$? Cada uno de los sumandos de la forma $\alpha_i e^{(a_i-a_n)x}$ se hace cero, pues $a_i<a_n$ y entonces el exponente es negativo y se va a $-\infty$. De esta forma, queda la igualdad $\alpha_n=0$. Así, nuestra combinación lineal se ve ahora de la forma $$\alpha_1 e^{a_1x} + \alpha_2e^{a_2x} + \ldots + \alpha_{n-1} e^{a_{n-1}x} = 0.$$

Por la hipótesis inductiva, $\alpha_1=\ldots=\alpha_{n-1}=0$. Como también ya demostramos $\alpha_n=0$, hemos terminado el paso inductivo.

Concluimos que la familia (infinita) $(f_a)_{a\in \mathbb{R}}$ es linealmente independiente en $V$ pues cualquier subconjunto finito de ella es linealmente independiente.

$\square$

El problema anterior muestra que la razón por la cual ciertos objetos son linealmente independientes puede deberse a una propiedad analítica o de cálculo. A veces dependiendo del contexto en el que estemos, hay que usar herramientas de ese contexto para probar afirmaciones de álgebra lineal.

Entradas relacionadas

Álgebra Lineal I: Problemas de determinantes y ecuaciones lineales

Introducción

En esta entrada, realizaremos problemas que nos ayudarán a repasar el tema visto el pasado lunes, sobre soluciones de sistemas lineales, Teorema de Rouché-Capelli y la regla de Cramer.

Problemas de ecuaciones lineales

Una de las maneras más usuales para demostrar que un conjunto de vectores es linealmente independientes es probar que tomamos una combinación lineal de éstos tal que es igual a 0, sólo es posible si todos los coeficientes son igual a cero. Pero como ya lo hemos visto anteriormente en diversos problemas, algunas veces ésto nos genera un sistema de ecuaciones que puede ser difícil y/o tardado resolver.

Por ello, otra manera de demostrar independencia lineal es ilustrada con el siguiente problema.

Problema. Considera los vectores

$v_1=(1,x,0,1), \quad v_2=(0,1,2,1), \quad v_3=(1,1,1,1)$

en $\mathbb{R}^4$. Prueba que para cualquier elección de $x\in\mathbb{R}$, los vectores $v_1,v_2,v_3$ son linealmente independientes.

Solución. Sea $A$ la matriz cuyas columnas son $v_1,v_2,v_3$, es decir,

$A=\begin{pmatrix} 1 & 0 & 1 \\ x & 1 & 1 \\ 0 & 2 & 1 \\ 1 & 1 & 1 \end{pmatrix}.$

Sabemos que $v_1,v_2,v_3$ son linealmente independiente si y sólo si $\text{dim(span}(v_1,v_2,v_3))=3$, ya que $\text{rank}(A)=3$, y eso es equivalente (por la clase del lunes) a demostrar que $A$ tiene una submatriz de $3\times 3$ invertible.

Notemos que si borramos el segundo renglón, obtenemos la submatriz cuyo determinante es

$\begin{vmatrix} 1 & 0 & 1 \\ 0 & 2 & 1 \\ 1 & 1 & 1 \end{vmatrix}=-1,$

lo que implica que es invertible, y por lo tanto $v_1,v_2, v_3$ son vectores linealmente independientes.

$\square$

En este curso, los ejemplos usualmente utilizan espacios vectoriales sobre $\mathbb{R}$ o sobre $\mathbb{C}$. Como $\mathbb{R}\subset \mathbb{C}$, es natural preguntarnos si los resultados obtenidos en los problemas trabajados en $\mathbb{R}$ se cumplen en $\mathbb{C}$. En este caso particular, si las soluciones de una matriz en $M_{m,n}(\mathbb{R})$ son soluciones de la misma matriz pero vista como elemento en $M_{m,n}(\mathbb{C})$. El siguiente teorema nos da el resultado a esta pregunta.

Teorema. Sea $A\in M_{m,n}(F)$ y sea $F_1$ un campo contenido en $F$. Consideremos el sistema lineal $AX=0$. Si el sistema tiene una solución no trivial en $F_1^n$, entonces tiene una solución no trivial en $F^n$.

Demostración. Dado que el sistema tiene una solución no trivial en $F_1^n$, $r:=\text{rank}(A) < n$ vista como elemento en $M_{m,n}(F_1)$. Por el primer teorema visto en la clase del lunes, el rango es el tamaño de la submatriz cuadrada más grande que sea invertible, y eso es independiente si se ve a $A$ como elemento de $M_{m,n}(F_1)$ o de $M_{m,n}(F)$. Y por el teorema de Rouché-Capelli, el conjunto de soluciones al sistema es un subespacio de $F^n$ de dimensión $n-r>0$. Por lo tanto, el sistema $AX=0$ tiene una solución no trivial en $F^n$.

$\square$

A continuación, se mostrarán dos ejemplos de la búsqueda de soluciones a sistemas lineales donde usaremos todas las técnicas aprendidas a lo largo de esta semana.

Problema. Sea $S_a$ el siguiente sistema lineal:

$\begin{matrix} x-2y+z=1 \\ 3x+2y-2z=2 \\ 2x-y+az=3 \end{matrix}.$

Encuentra los valores de $a$ para los cuales el sistema no tiene solución, tiene exactamente una solución y tiene un número infinito de soluciones.

Solución. El sistema lo podemos escribir como $AX=b$ donde

$A=\begin{pmatrix} 1 & -2 & 1 \\ 3 & 2 & -2 \\ 2 & -1 & a \end{pmatrix} \quad \text{y} \quad b=\begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix}.$

Notemos que

$\begin{vmatrix} 1 & -2 & 1 \\ 3 & 2 & -2 \\ 2 & -1 & a \end{vmatrix}=8a-1,$

entonces si $a\neq 1/8$, $A$ es invertible, y por lo tanto $\text{rank}(A)=3$, mientras que si $a=1/8$, $A$ no es invertible y $\text{rank}(A)=2$ ya que la submatriz es invertible

$\begin{vmatrix} 1 & -2 \\ 3 & 2 \end{vmatrix}=8.$

Además, si la matriz $(A,b)$ es igual a

$\begin{pmatrix} 1 & -2 & 1 & 1 \\ 3 & 2 & -2 & 2 \\ 2 & -1 & a & 3 \end{pmatrix},$

quitando la tercera columna, obtenemos una submatriz invertible (ejercicio). Por lo tanto, $\text{rank}(A,b)=3$.

Aplicando el Teorema de Rouché-Capelli, para $a=1/8$, el sistema $AX=b$ no tiene soluciones. También podemos concluir que como $\text{rank}(A)=3$ para todo $a\neq 1/8$, el sistema tiene exactamente una solución. (Y $AX=b$ nunca tiene infinitas soluciones).

$\square$

Problema. Sean $a,b,c$ números reales dados. Resuelve el sistema lineal

$\begin{matrix} (b+c)x+by+cz=1 \\ ax+ (a+c)y+cz=1 \\ ax+by+(a+b)z=1 \end{matrix}.$

Solución. La matriz del sistema es

$A=\begin{pmatrix} b+c & b & c \\ a & a+c & c \\ a & b & a+b \end{pmatrix}.$

No es difícil ver que $\text{det}(A)=4abc$. Si $abc\neq 0$, usando la regla de Cramer, la única solución al sistema está dada por

$x=\frac{\begin{vmatrix} 1 & b & c \\ 1 & a+c & c \\ 1 & b & a+b \end{vmatrix}}{4abc}, \quad y=\frac{\begin{vmatrix} b+c & 1 & c \\ a & 1 & c \\ a & 1 & a+b \end{vmatrix}}{4abc}$

$y=\frac{\begin{vmatrix} b+c & b & 1 \\ a & a+c & 1 \\ a & b & 1 \end{vmatrix}}{4abc},$

resolviendo los determinantes obtenemos que

$x=\frac{a^2 -(b-c)^2}{4abc}, \quad y=\frac{b^2 -(a-c)^2}{4abc}, \quad z=\frac{c^2-(a-b)^2}{4abc}.$

Ahora, si $abc=0$, entonces $A$ no es invertible ($\text{rank}(A)<3$). El sistema es consistente si y sólo si $\text{rank}(A)=\text{rank}(A,b)$.

Sin pérdida de generalidad, decimos que $a=0$ (pues $abc=0$). Esto reduce el sistema a

$\begin{matrix} (b+c)x+by+cz=1 \\ c(y+z)=1 \\ b(y+z)=1 \end{matrix}.$

El sistema es consistente si $b=c$ y distintos de cero. En este caso, tenemos que $b(2x+y+z)=1$ y $b(y+z)=1$, implicando $x=0$, $y+z=1/b$. De manera similar, obtenemos las posibles soluciones si $b=0$ o si $c=0$.

Resumiendo:

  • Si $abc\neq 0$, el sistema tiene una solución única dada por la regla de Cramer.
  • Si tenemos alguno de los siguientes tres casos: caso 1) $a=0$ y $b=c \neq 0$; caso 2) $b=0$ y $a=c\neq 0$; caso 3) $c=0$ y $a=b\neq 0$, tenemos infinitas soluciones descritas como, para todo $w\in \mathbb{R}$: caso 1) $(0,w,1/b-w)$; caso 2) $(w,0,1/a-w)$; caso 3) $(w,1/a-w,0)$.
  • Si no se cumplen ninguno de las cuatro condiciones anteriores para $a,b,c$, el sistema no es consistente.

$\square$

Entradas relacionadas

Álgebra Lineal I: Transformaciones multilineales antisimétricas y alternantes

Introducción

En la entrada anterior hablamos de la importancia que tiene poder diagonalizar una matriz: nos ayuda a elevarla a potencias y a encontrar varias de sus propiedades fácilmente. En esa entrada discutimos a grandes rasgos el caso de matrices en $M_2(\mathbb{R})$. Dijimos que para dimensiones más altas, lo primero que tenemos que hacer es generalizar la noción de determinante de una manera que nos permita probar varias de sus propiedades fácilmente. Es por eso que introdujimos a las funciones multilineales y dimos una introducción a permutaciones. Tras definir las clases de transformaciones multilineales alternantes y antisimétricas, podremos finalmente hablar de determinantes.

Antes de entrar con el tema, haremos un pequeño recordatorio. Para $d$ un entero positivo y $V$, $W$ espacios vectoriales sobre un mismo campo, una transformación $d$-lineal es una transformación multilineal de $V^d$ a $W$, es decir, una tal que al fijar cualesquiera $d-1$ coordenadas, la función que queda en la entrada restante es lineal.

Con $[n]$ nos referimos al conjunto $\{1,2,\ldots,n\}$. Una permutación en $S_n$ es una función biyectiva $\sigma:[n]\to [n]$. Una permutación invierte a la pareja $i<j$ si $\sigma(i)>\sigma(j)$. Si una permutación $\sigma$ invierte una cantidad impar de parejas, decimos que es impar y que tiene signo $\text{sign}(\sigma)=-1$. Si invierte a una cantidad par de parejas (tal vez cero), entonces es par y tiene signo $\text{sign}(\sigma)=1$.

Transformaciones $n$-lineales antisimétricas y alternantes

Tomemos $d$ un entero positivo, $V$, $W$ espacios vectoriales sobre el mismo campo y $\sigma$ una permutación en $S_d$. Si $T:V^d\to W$ es una transformación $d$-lineal, entonces la función $(\sigma T):V^d\to W$ dada por $$(\sigma T)(v_1,\ldots,v_d)=T(v_{\sigma(1)},v_{\sigma(2)},\ldots,v_{\sigma(d)})$$ también lo es. Esto es ya que sólo se cambia el lugar al que se lleva cada vector. Como $T$ es lineal en cualquier entrada (al fijar las demás), entonces $\sigma T$ también.

Definición. Decimos que $T$ es antisimétrica si $\sigma T = \text{sign}(\sigma) T$ para cualquier permutación $\sigma$ en $S_d$. En otras palabras, $T$ es antisimétrica si $\sigma T=T$ para las permutaciones pares y $\sigma T = -T$ para las permutaciones impares.

Definición. Decimos que $T$ es alternante si $T(v_1,\ldots,v_d)=0$ cuando hay dos $v_i$ que sean iguales.

Ejemplo. Consideremos la función $T:(\mathbb{R}^2)^2\to\mathbb{R}$ dada por $$T((a,b),(c,d))=ad-bc.$$ Afirmamos que ésta es una transformación $2$-lineal alternante y antisimétrica. La parte de mostrar que es $2$-lineal es sencilla y se queda como tarea moral.

Veamos primero que es una función alternante. Tenemos que mostrar que si $(a,b)=(c,d)$, entonces $T((a,b),(c,d))=0$. Para ello, basta usar la definición: $$T((a,b),(a,b))=ab-ab=0.$$

Ahora veamos que es una función antisimétrica. Afortunadamente, sólo hay dos permutaciones en $S_2$, la identidad $\text{id}$ y la permutación $\sigma$ que intercambia a $1$ y $2$. La primera tiene signo $1$ y la segunda signo $-1$.

Para la identidad, tenemos $(\text{id}T)((a,b),(c,d))=\sigma((a,b),(c,d))$, así que $(\text{id}T)=T=\text{sign}(\text{id})T$, como queremos.

Para $\sigma$, tenemos que $\sigma T$ es aplicar $T$ pero «con las entradas intercambiadas». De este modo:
\begin{align*}
(\sigma T)((a,b),(c,d))&=T((c,d),(a,b))\\
&=cb-da\\
&=-(ad-bc)\\
&=-T((a,b),(c,d)).
\end{align*}

Esto muestra que $(\sigma T) = -T = \text{sign}(\sigma)T$.

$\square$

Equivalencia entre alternancia y antisimetría

Resulta que ambas definiciones son prácticamente la misma. Las transformaciones alternantes siempre son antisimétricas. Lo único que necesitamos para que las transformaciones antisimétricas sean alternantes es que en el campo $F$ en el que estamos trabajando la ecuación $2x=0$ sólo tenga la solución $x=0$. Esto no pasa, por ejemplo, en $\matbb{Z}_2$. Pero sí pasa en $\mathbb{Q}$, $\mathbb{R}$ y $\mathbb{C}$.

Proposición. Sean $V$ y $W$ espacios vectoriales sobre un campo donde $2x=0$ sólo tiene la solución $x=0$. Sea $d$ un entero positivo. Una transformación $d$-lineal $T:V^d\to W$ es antisimétrica si y sólo si es alternante.

Demostración. Supongamos primero que $T$ es antisimétrica. Mostremos que es alternante. Para ello, supongamos que para $i\neq j$ tenemos que $x_i=x_j$.

Tomemos la permutación $\sigma:[d]\to [d]$ tal que $\sigma(i)=j$, $\sigma(j)=i$ y $\sigma(k)=k$ para todo $k$ distinto de $i$ y $j$. A esta permutación se le llama la transposición $(i,j)$. Es fácil mostrar (y queda como tarea moral), que cualquier transposición tiene signo $-1$.

Usando la hipótesis de que $T$ es antisimétrica con la transposición $(i,j)$, tenemos que
\begin{align*}
T(x_1,&\ldots, x_i,\ldots,x_j,\ldots,x_n)\\
&=-T(x_1,\ldots, x_j,\ldots,x_i,\ldots,x_n)\\
&=-T(x_1,\ldots, x_i,\ldots,x_j,\ldots,x_n),
\end{align*}

en donde en la segunda igualdad estamos usando que $x_i=x_j$. De este modo, $$2T(x_1,\ldots, x_i,\ldots,x_j,\ldots,x_n)=0,$$ y por la hipótesis sobre el campo, tenemos que $$T(x_1,\ldots, x_i,\ldots,x_j,\ldots,x_n)=0.$$ Así, cuando dos entradas son iguales, la imagen es $0$, de modo que la transformación es alternante.

Hagamos el otro lado de la demostración. Observa que este otro lado no usará la hipótesis del campo. Supongamos que $T$ es alternante.

Como toda permutación es producto de transposiciones y el signo de un producto de permutaciones es el producto de los signos de los factores, basta con mostrar la afirmación para transposiciones. Tomemos entonces $\sigma$ la transposición $(i,j)$. Tenemos que mostrar que $\sigma T = \text{sign}(\sigma) T = -T$.

Usemos que $T$ es alternante. Pondremos en las entradas $i$ y $j$ a la suma de vectores $x_i+x_j$, de modo que $$T(x_1,\ldots,x_i+x_j,\ldots,x_i+x_j,\ldots,x_n)=0.$$ Usando la $n$-linealidad de $T$ en las entradas $i$ y $j$ para abrir el término a la izquierda, tenemos que
\begin{align*}
0=T(x_1&,\ldots,x_i,\ldots,x_i,\ldots,x_n) + \\
&T(x_1,\ldots,x_i,\ldots,x_j,\ldots,x_n)+\\
&T(x_1,\ldots,x_j,\ldots,x_i,\ldots,x_n)+\\
&T(x_1,\ldots,x_j,\ldots,x_j,\ldots,x_n).
\end{align*}

Usando de nuevo que $T$ es alternante, el primero y último sumando son cero. Así, \begin{align*}
T(x_1&,\ldots, x_i,\ldots,x_j,\ldots,x_n)\\
&=-T(x_1,\ldots, x_j,\ldots,x_i,\ldots,x_n).
\end{align*}

En otras palabras, al intercambiar las entradas $i$ y $j$ se cambia el signo de $T$, que precisamente quiere decir que $(\sigma T) = \text{sign}(\sigma)T$.

$\square$

Las transformaciones alternantes se anulan en linealmente dependientes

Una propiedad bastante importante de las transformaciones alternantes es que ayudan a detectar a conjuntos de vectores linealmente dependientes.

Teorema. Sea $T:V^d\to W$ una transformación $d$-lineal y alternante. Supongamos que $v_1,\ldots,v_d$ son linealmente dependientes. Entonces $$T(v_1,v_2,\ldots,v_d)=0.$$

Demostración. Como los vectores son linealmente dependientes, hay uno que está generado por los demás. Sin perder generalidad, podemos suponer que es $v_d$ y que tenemos $$v_d=\alpha_1v_1+\ldots+\alpha_{d-1}v_{d-1}$$ para ciertos escalares $\alpha_1,\ldots, \alpha_{d-1}$.

Usando la $d$-linealidad de $T$, tenemos que
\begin{align*}
T\left(v_1,v_2,\ldots,v_{d-1},v_d\right)&=T\left(v_1,\ldots,v_{d-1},\sum_{i=1}^{d-1} \alpha_i v_i\right)\\
&=\sum_{i=1}^{d-1} \alpha_i T(v_1,\ldots,v_{d-1}, v_i).
\end{align*}

Usando que $T$ es alternante, cada uno de los sumandos del lado derecho es $0$, pues en el $i$-ésimo sumando tenemos que aparece dos veces el vector $v_i$ entre las entradas de $T$. Esto muestra que $$T(v_1,\ldots,v_d)=0,$$ como queríamos mostrar.

$\square$

Introducción a definiciones de determinantes

En la siguiente entrada daremos tres definiciones de determinante. Una es para un conjunto de vectores. Otra es para transformaciones lineales. La última es para matrices. Todas ellas se motivan entre sí, y las propiedades de una nos ayudan a probar propiedades de otras. En esa entrada daremos las definiciones formales. Por ahora sólo hablaremos de ellas de manera intuitiva.

Para definir el determinante para un conjunto de vectores, empezamos con un espacio vectorial $V$ de dimensión $n$ y tomamos una base $B=(b_1,\ldots,b_n)$. Definiremos el determinante con respecto a $B$ de un conjunto de vectores $(v_1,v_2,\ldots,v_n)$ , al cual denotaremos por $\det_{(b_1,\ldots,b_n)}(v_1,\ldots,v_n)$de $V$ de la manera siguiente.

A cada vector $v_i$ lo ponemos como combinación lineal de elementos de la base: $$v_i=\sum_{j=1}^n a_{ji}b_j.$$ El determinante $$\det_{(b_1,\ldots,b_n)}(v_1,\ldots,v_n)$$ es $$\sum_{\sigma \in S(n)} \text{sign}(\sigma) a_{1\sigma(1)} \cdot a_{2\sigma(1)}\cdot \ldots\cdot a_{n\sigma(n)}.$$

Observa que esta suma tiene tantos sumandos como elementos en $S_n$, es decir, como permutaciones de $[n]$. Hay $n!$ permutaciones, así que esta suma tiene muchos términos incluso si $n$ no es tan grande.

Veremos que para cualquier base $B$, el determinante con respecto a $B$ es una forma $d$-lineal alternante, y que de hecho las únicas formas $d$-lineales alternantes en $V$ «son determinantes», salvo una constante multiplicativa.

Luego, para una transformación $T:V\to V$ definiremos al determinante de $T$ como el determinante $$\det_{(b_1,\ldots,b_n)}(T(b_1),\ldots,T(b_n)),$$ y veremos que esta definición no depende de la elección de base.

Finalmente, para una matriz $A$ en $M_n(F)$, definiremos su determinante como el determinante de la transformación $T_A:F^n\to F^n$ tal que $T_A(X)=AX$. Veremos que se recupera una fórmula parecida a la de determinante para un conjunto de vectores.

Los teoremas que veremos en la siguiente entrada nos ayudarán a mostrar más adelante de manera muy sencilla que el determinante para funciones o para matrices es multiplicativo, es decir, que para $T:V\to V$, $S:V\to V$ y para matrices $A,B$ en $M_n(F)$ se tiene que

\begin{align*}
\det(T\circ S)&=\det(T)\cdot \det(S)\\
\det(AB)&=\det(A)\cdot \det(B).
\end{align*}

También mostraremos que los determinantes nos ayudan a caracterizar conjuntos linealmente independientes, matrices invertibles y transformaciones biyectivas.

Tarea moral

  • Prueba que la función $T:(\mathbb{R}^2)^2\to\mathbb{R}$ dada por $$T((a,b),(c,d))=ad-bc$$ es $2$-lineal. Para esto, tienes que fijar $(a,b)$ y ver que es lineal en la segunda entrada, y luego fijar $(c,d)$ y ver que es lineal en la primera.
  • Muestra que las transposiciones tienen signo $-1$. Ojo: sólo se intercambia el par $(i,j)$, pero puede ser que eso haga que otros pares se inviertan.
  • Muestra que cualquier permutación se puede expresar como producto de transposiciones.
  • Muestra que la suma de dos transformaciones $n$-lineales es una transformación $n$-lineal. Muestra que al multiplicar por un escalar una transformación $n$-lineal, también se obtiene una transformación $n$-lineal.
  • ¿Es cierto que la suma de transformaciones $n$-lineales alternantes es alternante?

Al final del libro Essential Linear Algebra with Applications de Titu Andreescu hay un apéndice en el que se habla de permutaciones. Ahí puedes aprender o repasar este tema.

Más Adelante…

En esta entrada hemos definido las clases de transformaciones lineales alternantes y antisimétricas; esto con la finalidad de introducir el concepto de determinantes. Además hemos dado una definición intuitiva del concepto de determinante.

En las siguientes entrada estudiaremos diferentes definiciones de determinante: para un conjunto de vectores, para una transformación lineal y finalmente para una matriz. Veremos cómo el uso de determinantes nos ayuda a determinar si un conjunto es linealmente independiente, si una matriz es invertible o si una transformación es biyectiva; además de otras aplicaciones.

Entradas relacionadas

Álgebra Lineal I: Rango de transformaciones lineales y matrices

Introducción

En entradas anteriores hablamos de transformaciones lineales, cómo actúan en conjuntos especiales de vectores y de cómo se pueden representar con matrices. Hablamos también de cómo cambiar de una base a otra y cómo usar esto para entender transformaciones en varias bases. Estamos listos para introducir un concepto fundamental de álgebra lineal, el de rango de una transformación lineal y de una matriz.

Antes de entrar en las definiciones formales, vale la pena hablar un poco de rango de manera intuitiva. Supongamos que $V$ es un espacio vectorial de dimensión $n$ y que $W$ es un espacio vectorial sobre el mismo campo que $V$. Una transformación lineal $T:V\to W$ puede «guardar mucha independencia lineal» o «muy poquita». Si $T$ es inyectiva, ya vimos antes que $T$ manda linealmente independientes a linealmente independientes. Si $T$ es la transformación $0$, entonces se «pierde toda la independencia».

El rango mide algo intermedio entre estos dos extremos. Mientras mayor sea el rango, más independencia lineal se preserva y viceversa. Si mantienes esta intuición en mente, varias de las proposiciones te resultarán más naturales.

Otro buen ejemplo para tener en mente es tomar una transformación lineal $T:\mathbb{R}^3\to \mathbb{R}^3$. Si es la transformación identidad, la base canónica se preserva. Si es la proyección al plano $xy$, entonces «perdemos» al vector $(0,0,1)$, pues se va al $(0,0,0)$. Si es la proyección al eje $x$, «perdemos» al $(0,1,0)$ y al $(0,0,1)$ pues ambos se van a $(0,0,0)$. Y si es la transformación $0$, perdemos a todos. El rango precisamente va a medir esto, y para estos ejemplos tendremos rango $3$, $2$, $1$ y $0$ respectivamente.

Rango para transformaciones lineales

Como en otras ocasiones, cuando hablemos de transformaciones lineales entre espacios vectoriales, serán sobre un mismo campo $F$.

Definición. Sean $V$ y $W$ espacios de dimensión finita. El rango de una transformación lineal $T:V\to W$ es la dimensión de la imagen de $T$, es decir, $$\rank(T)=\dim\Ima T.$$

Si $B$ es una base de $V$, entonces genera a $V$. La transformación $T$ es suprayectiva de $V$ a $\Ima T$, de modo que $T(B)$ es generador de $\Ima T$. De esta forma, para encontrar el rango de una transformación lineal $T:V\to W$ basta:

  • Tomar una base $B$ de $V$
  • Aplicar $T$ a cada elemento de $B$
  • Determinar un conjunto linealmente independiente máximo en $T(B)$

Para hacer este último paso, podemos poner a los vectores coordenada de $T(B)$ con respecto a una base de $W$ como los vectores fila de una matriz $A$ y usar reducción gaussiana. Las operaciones elementales no cambian el espacio generado por las filas, así que el rango de $T$ es el número de vectores fila no cero en la forma escalonada reducida $A_{\text{red}}$ de $A$.

Ejemplo. Encuentra el rango de la transformación lineal $T:\mathbb{R}^3\to M_{2}(\mathbb{R})$ que manda $(x,y,z)$ a $$\begin{pmatrix}x+y-z & 2x \\ 2y-2z & x+z-y\end{pmatrix}.$$

Solución. Tomemos $e_1,e_2,e_3$ la base canónica de $\mathbb{R}^3$. Tenemos que $T(e_1)=\begin{pmatrix}1 & 2\\ 0 & 1\end{pmatrix}$, $T(e_2)=\begin{pmatrix} 1 & 0 \\ 2 & -1\end{pmatrix}$ y $T(e_3)=\begin{pmatrix}-1 & 0\\ -2 & 1\end{pmatrix}$.

Tomando la base canónica $E_{11},E_{12},E_{21},E_{22}$ de $M_2(\mathbb{R})$, podemos entonces poner a las coordenadas de $T(e_1),T(e_2),T(e_2)$ como vectores fila de una matriz $$\begin{pmatrix}1 & 2 & 0 & 1\\ 1 & 0 & 2 & -1\\ -1& 0 & -2 & 1\end{pmatrix}.$$ Sumando la segunda fila a la tercera, y después restando la primera a la segunda,obtenemos la matriz $$\begin{pmatrix}1 & 2 & 0 & 1\\ 0 & -2 & 2 & -2\\ 0& 0 & 0 & 0\end{pmatrix}.$$ De aquí, sin necesidad de terminar la reducción gaussiana, podemos ver que habrá exactamente dos filas no cero. De este modo, el rango de la transformación es $2$.

$\square$

Propiedades del rango

Demostremos ahora algunas propiedades teóricas importantes acerca del rango de una transfromación lineal.

Proposición. Sean $U$, $V$ y $W$ espacios de dimensión finita. Sean $S:U\to V$, $T:V\to W$, $T’:V\to W$ transformaciones lineales. Entonces:

  1. $\rank(T)\leq \dim V$
  2. $\rank(T)\leq \dim W$
  3. $\rank(T\circ S)\leq \rank(T)$
  4. $\rank(T\circ S)\leq \rank(S)$
  5. $\rank(T+T’)\leq \rank(T) + \rank(T’)$

Demostración. (1) Pensemos a $T$ como una transformación $T:V\to \Ima(T)$. Haciendo esto, $T$ resulta ser suprayectiva, y por un resultado anterior tenemos que $\dim V\geq \dim \Ima T = \rank (T)$.

(2) Sabemos que $\Ima (T)$ es un subespacio de $W$, así que $\rank(T)=\dim \Ima T \leq \dim W$.

(3) La imagen de $T$ contiene a la imagen de $T\circ S$, pues cada vector de la forma $T(S(v))$ es de la forma $T(w)$ (para $w=S(v)$). Así, \begin{align*}\rank(T) &=\dim \Ima T \geq \dim \ima T\circ S\\ &= \rank (T\circ S).\end{align*}

(4) La función $T\circ S$ coincide con la restricción $T_{\Ima S}$ de $T$ a $\Ima S$. Por el inciso (1), $\rank(T_{\Ima S})\leq \dim \Ima S = \rank(S)$, así que $\rank (T\circ S) \leq \rank(S)$.

(5) Tenemos que $\Ima (T+T’) \subseteq \Ima T + \Ima T’$. Además, por un corolario de la fórmula de Grassman, sabemos que
\begin{align*}
\dim (\Ima T + \Ima T’)&\leq \dim \Ima T + \dim \Ima T’\\
&= \rank(T) + \rank(T’).
\end{align*}

Así,
\begin{align*}
\rank(T+T’)&\leq \rank(\Ima T + \Ima T’)\\
&\leq \rank(T)+\rank(T’).
\end{align*}

$\square$

Proposición. Sean $R:U\to V$, $T:V\to W$ y $S:W\to Z$ transformaciones lineales con $R$ suprayectiva y $S$ inyectiva. Entonces $$\rank(S\circ T\circ R)=\rank (T).$$

Dicho de otra forma «composición por la izquierda con transformaciones inyectivas no cambia el rango» y «composición por la derecha con transformaciones suprayectivas no cambia el rango». Un corolario es «composición con transformaciones invertibles no cambia el rango».

Demostración. De la proposición anterior, tenemos que $\rank(S\circ T)\leq \rank (T)$. La restricción $S_{\Ima T}$ de $S$ a la imagen de $T$ es una transformación lineal de $\Ima T$ a $\Ima (S\circ T)$ que es inyectiva, de modo que $\dim \Ima T \leq \dim \Ima (S\circ T)$, que es justo $\rank(T)\leq \rank(S\circ T)$, de modo que tenemos la igualdad $\rank(S\circ T)=\rank (T)$.

Como $R$ es suprayectiva, $\Ima R= V$, de modo que $\Ima(S\circ T \circ R)=\Ima(S\circ T)$. Así, \begin{align*}\rank (S\circ T \circ R) &= \rank (S\circ T)\\&=\rank(T).\end{align*}

$\square$

Teorema de rango-nulidad

Una transformación lineal $T:V\to W$ determina automáticamente dos subespacios de manera natural: el kernel $\ker T$ y la imagen $\Ima T$. Resulta que las dimensiones de $\ker T$, de $\Ima T$ y de $V$ están fuertemente relacionadas entre sí.

Teorema. Sean $V$ y $W$ espacios de dimensión finita. Sea $T:V\to W$ una transformación lineal. Entonces $$\dim\ker T + \rank(T) = \dim V.$$

Demostración. Supongamos que $\dim V=n$ y $\dim \ker T = k$. Queremos mostrar que $\rank(T)=n-k$. Para ello, tomemos una base $B$ de $\ker T$ y tomemos $B’=\{v_1,\ldots,v_{n-k}\}$ tal que $B\cup B’$ sea base de $V$. Basta mostrar que $T(B’)=\{T(v_1),\ldots,T(v_{n-k})\}\subset \Ima T$ es base de $\Ima T$. Sea $U$ el generado por $B’$, de modo que $V=U \oplus \ker T$.

Veamos que $T(B’)$ es generador de $\Ima T$. Tomemos $T(v)$ en $\Ima T$. Podemos escribir $v=z+u$ con $z\in \ker T$ y $u\in U$. Así, $T(v)=T(z)+T(u)=T(u)$, y este último está en el generado por $T(B’)$.

Ahora veamos que $T(B’)$ es linealmente independiente. Si $$\alpha_1T(v_1)+\ldots+\alpha_{n-k}T(v_{n-k})=0,$$ entonces $T(\alpha_1v_1+\ldots+\alpha_{n-k}v_{n-k})=0$, de modo que $\alpha_1v_1+\ldots+\alpha_{n-k}v_{n-k}$ está en $U$ y en $\ker T$, pero la intersección de estos espacios es $\{0\}$. Como esta combinación lineal es $0$ y $B’$ es linealmente independiente, $\alpha_1=\ldots=\alpha_n=0$.

De esta forma, $T(B’)$ es linealmente independiente y genera a $\Ima T$, de modo que $\rank(T) =|B’|=n-k$.

$\square$

Ejemplo. Consideremos de nuevo la transformación lineal $T:\mathbb{R}^3\to M_{2}(\mathbb{R})$ que manda $(x,y,z)$ a $$\begin{pmatrix}x+y-z & 2x \\ 2y-2z & x+z-y\end{pmatrix}.$$ Muestra que $T$ no es inyectiva.

Solución. Ya determinamos previamente que esta transformación tiene rango $2$. Por el teorema de rango-nulidad, su kernel tiene dimensión $1$. Así, hay un vector $v\neq (0,0,0)$ en el kernel, para el cual $T(v)=0=T(0)$, de modo que $T$ no es inyectiva.

$\square$

Problema. Demuestra que para cualquier entero $n$ existe una terna $(a,b,c)\neq (0,0,0)$ con $a+b+c=0$ y tal que $$\int_0^1 at^{2n}+bt^n+c \,dt = 0.$$

Solución. Podríamos hacer la integral y plantear dos ecuaciones lineales. Sin embargo, daremos argumentos dimensionales para evitar la integral. Consideremos las transformaciones lineales $T:\mathbb{R}^3\to \mathbb{R}$ y $S:\mathbb{R}^3\to \mathbb{R}$ dadas por
\begin{align*}
T(x,y,z)&=\int_0^1 xt^{2n}+yt^n+z \,dt\\
S(x,y,z)&=x+y+z.
\end{align*}
Notemos que $T(0,0,1)=\int_0^1 1\, dt = 1=S(0,0,1)$, de modo que ni $T$ ni $S$ son la transformación $0$. Como su rango puede ser a lo más $\dim\mathbb{R}=1$, entonces su rango es $1$. Por el teorema de rango-nulidad, $\dim \ker S= \dim \ker T = 2$. Como ambos son subespacios de $\mathbb{R}^3$, es imposible que $\ker S \cap \ker T=\{0\}$, de modo que existe $(a,b,c)$ no cero tal que $T(a,b,c)=S(a,b,c)=0$. Esto es justo lo que buscábamos.

$\square$

Rango para matrices

Definición. El rango de una matriz $A$ en $M_{m,n}(F)$ es el rango de la transformación lineal asociada de $F^n$ a $F^m$ dada por $X\mapsto AX$. Lo denotamos por $\rank(A)$.

A partir de esta definición y de las propiedades de rango para transformaciones lineales obtenemos directamente las siguientes propiedades para rango de matrices.

Proposición. Sean $m$, $n$ y $p$ enteros. Sea $B$ una matriz en $M_{n,p}(F)$ y $A$, $A’$ matrices en $M_{m,n}(F)$. Sea $P$ una matriz en $M_{n,p}(F)$ cuya transformación lineal asociada es suprayectiva y $Q$ una matriz en $M_{r,m}(F)$ cuya transformación lineal asociada es inyectiva. Entonces:

  1. $\rank(A)\leq \min(m,n)$
  2. $\rank(AB)\leq \min(\rank(A),\rank(B))$
  3. $\rank(A+A’)\leq \rank(A) + \rank(A’)$
  4. $\rank(QAP) = \rank(A)$

Como discutimos anteriormente, el rango de una transformación se puede obtener aplicando la transformación a una base y viendo cuál es el máximo subconjunto de imágenes de elementos de la base que sea linealmente independiente. Si tomamos una matriz $A$ en $M_{m,n}(F)$, podemos aplicar esta idea con los vectores $e_1,\ldots,e_n$ de la base canónica de $F^{n}$. Como hemos visto con anterioridad, para cada $i=1,\ldots, n$ tenemos que el vector $Ae_i$ es exactamente la $i$-ésima columna de $A$. Esto nos permite determinar el rango de una matriz en términos de sus vectores columna.

Proposición. El rango de una matriz en $M_{m,n}(F)$ es igual a la dimensión del subespacio de $F^m$ generado por sus vectores columna.

Problema. Determina el rango de la matriz $$\begin{pmatrix} 3 & 1 & 0 & 5 & 0\\ 0 & 8 & 2 & -9 & 0\\ 0 & -1 & 0 & 4 & -2\end{pmatrix}.$$

Solución. Como es una matriz con $3$ filas, el rango es a lo más $3$. Notemos que entre las columnas están los vectores $(3,0,0)$, $(0,2,0)$ y $(0,0,-2)$, que son linealmente independientes. De esta forma, el rango de la matriz es $3$.

$\square$

A veces queremos ver que el rango de un producto de matrices es grande. Una herramienta que puede servir en estos casos es la desigualdad de Sylvester.

Problema (Desigualdad de Sylvester). Muestra que para todas las matrices $A$, $B$ en $M_n(F)$ se tiene que $$\rank(AB)\geq \rank(A)+\rank(B)-n.$$

Solución. Tomemos $T_1:F^n\to F^n$ y $T_2:F^n\to F^n$ tales que $T_1(X)=AX$ y $T_2(X)=BX$. Lo que tenemos que probar es que $$\rank(T_1\circ T_2) \geq \rank(T_1) + \rank(T_2) – n.$$

Consideremos $S_1$ como la restricción de $T_1$ a $\Ima T_2$. Tenemos que $\ker S_1 \subset \ker T_1$, así que $\dim \ker S_1 \leq \dim \ker T_1$. Por el teorema de rango-nulidad en $S_1$, tenemos que
\begin{align*}
rank(T_2) &= \dim \Ima T_2 \\
&= \dim \ker S_1 + \rank(S_1) \\
&= \dim \ker S_1 + \rank(T_1\circ T_2)\\
&\leq \dim \ker T_1 + \rank(T_1\circ T_2),
\end{align*} así que $$\rank(T_2)\leq \dim \ker T_1 + \rank(T_1\circ T_2).$$

Por el teorema de rango-nulidad en $T_1$ tenemos que $$\dim \ker T_1 + \rank(T_1)=n.$$

Sumando la desigualdad anterior con esta igualdad obtenemos el resultado.

$\square$

El teorema $PJQ$ (opcional)

El siguiente resultado no se encuentra en el temario usual de Álgebra Lineal I. Si bien no formará parte de la evaluación del curso, recomendamos fuertemente conocerlo y acostumbrarse a usarlo pues tiene amplias aplicaciones a través del álgebra lineal.

Teorema (Teorema PJQ). Sea $A$ una matriz en $M_{m,n}(F)$ y $r$ un entero en $\{0,\ldots,\min(m,n)\}$. El rango de $A$ es igual a $r$ si y sólo si existen matrices invertibles $P\in M_m(F)$ y $Q\in M_n(F)$ tales que $A=PJ_rQ$, en donde $J_r$ es la matriz en $M_{m,n}$ cuyas primeras $r$ entradas de su diagonal principal son $1$ y todas las demás entradas son cero, es decir, en términos de matrices de bloque, $$J_r=\begin{pmatrix}
I_r & 0 \\
0 & 0
\end{pmatrix}.$$

No damos la demostración aquí. Se puede encontrar en el libro de Titu Andreescu, Teorema 5.68. Veamos algunas aplicaciones de este teorema.

Problema. Muestra que una matriz tiene el mismo rango que su transpuesta.

Solución. Llamemos $r$ al rango de $A$. Escribimos $A=PJ_rQ$ usando el teorema $PJQ$, con $P$ y $Q$ matrices invertibles. Tenemos que $^tA=^tQ\, ^tJ_r \,^tP$, con $^tQ$ y $^tP$ matrices invertibles. Además, $^t J_r$ es de nuevo de la forma de $J_r$. Así, por el teorema $PJQ$, tenemos que $^t A$ es de rango $r$.

Combinando el problema anterior con el resultado del rango de una matriz en términos de sus vectores columna obtenemos lo siguiente.

Proposición. El rango de una matriz en $M_{m,n}(F)$ es igual a la dimensión del subespacio de $F^n$ generado por sus vectores renglón.

Terminamos esta entrada con una aplicación más del teorema $PJQ$.

Problema. Muestra que una matriz $A$ de rango $r$ se puede escribir como suma de $r$ matrices de rango $1$. Muestra que es imposible hacerlo con menos matrices.

Solución. Expresamos $A=PJ_rQ$ usando el teorema $PJQ$. Si definimos $A_i=PE_{ii}Q$ para $i=1,\ldots,r$, donde $E_{ii}$ es la matriz cuya entrada $(i,i)$ es uno y las demás cero, claramente tenemos que $J_r=E_{11}+E_{22}+\ldots+E_{rr}$, por lo que $$A=PJ_rQ=A_1+A_2+\ldots+A_r.$$ Además, como $E_{ii}$ es de rango $1$, por el teorema $PJQ$ cada matriz $A_i$ es de rango $1$.

Veamos que es imposible con menos. Si $B_1,\ldots,B_s$ son matrices de rango $1$, como el rango es subaditivo tenemos que $\rank (B_1+\ldots+B_s)\leq s$. Así, si sumamos menos de $r$ matrices, no podemos obtener a $A$.

$\square$

Tarea moral

  • Termina de hacer la reducción gaussiana del primer ejemplo.
  • Sea $T$ una transformación de un espacio vectorial $V$ de dimensión finita a si mismo. Usa el teorema de rango-nulidad para mostrar que si $T$ es inyectiva o suprayectiva, entonces es biyectiva.
  • Determina el rango de la matriz $$\begin{pmatrix} 0 & 0 & 0 & 8 & 3\\ 7 & 8 & -1 & -2 & 0\\ 3 & -1 & 4 & 4 & -9\end{pmatrix}.$$
  • Demuestra que aplicar operaciones elementales a una matriz no cambia su rango.
  • Demuestra que matrices similares tienen el mismo rango.
  • Demuestra por inducción que para matrices $A_1,\ldots, A_n$ del mismo tamaño tenemos que $$\rank (A_1+\ldots+A_n)\leq \sum_{i=1}^n \rank(A_i).$$
  • Escribe la demostración de la última proposición de la sección del teorema $PJQ$
  • Revisa la demostración del teorema de descomposición $PJQ$ en el libro de Titu Andreescu.

Más adelante…

Esta entrada es solamente una breve introducción al concepto de rango y a algunas propiedades que pueden ser de utilidad al momento de calcular el rango de una matriz o una transformación lineal. Más adelante, veremos que el rango de una matriz está también relacionado con las soluciones de su sistema lineal homogéneo asociado.

El teorema de rango-nulidad es fundamental para el álgebra lineal. Muchas veces necesitamos calcular el rango de la imagen de una transformación lineal, pero es mucho más fácil calcular la dimensión de su kernel. O viceversa. En estas situaciones es muy importante recordar la forma en la que dicho teorema las relaciona.

Con este tema termina la segunda unidad del curso. Ahora estudiaremos aspectos un poco más geométricos de espacios vectoriales. En la siguiente unidad, hablaremos de dualidad, ortogonalidad, formas bilineales y productos interiores.

Entradas relacionadas