Archivo del Autor: Leonardo Ignacio Martínez Sandoval

Leonardo Ignacio Martínez Sandoval

Acerca de Leonardo Ignacio Martínez Sandoval

Hola. Soy Leonardo Martínez. Soy Profesor de Tiempo Completo en la Facultad de Ciencias de la UNAM. Hice un doctorado en Matemáticas en la UNAM, un postdoc en Israel y uno en Francia. Además, me gusta colaborar con proyectos de difusión de las matemáticas como la Olimpiada Mexicana de Matemáticas.

Álgebra Lineal I: Ortogonalidad y transformación transpuesta

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores ya estudiamos la noción de espacio dual y la de ortogonalidad. También vimos cómo a partir de la ortogonalidad podemos definir subespacios como intersección de hiperplanos. Como veremos a continuación, la ortogonalidad también nos permite definir qué quiere decir que consideremos la «transformación transpuesta» de una transformación lineal.

Antes de comenzar, vale la pena recordar también que cada transformación lineal entre espacios de dimensión finita puede ser expresada mediante una matriz que depende de la elección de bases de los espacios vectoriales. Como tal vez te imaginarás, la transformación transpuesta tendrá como matriz a la matriz transpuesta de la transformación original.

Esta intuición nos dice que hay que tener cuidado. Supongamos que estamos trabajando sobre un campo $F$. Si tenemos espacios vectoriales $V$ de dimensión $n$, $W$ de dimensión $m$ y una tranformación lineal $T:V\to W$, recordemos que, tras elegir bases, $T$ está representada por una matriz $A$ en $M_{m,n}(F)$, es decir, con $m$ filas y $n$ columnas.

Pero la matriz transpuesta $^t A$ es de $n$ filas y $m$ columnas, así que típicamente no representará a una transformación de $V$ a $W$, pues las dimensiones no necesariamente coinciden. Podríamos intentar construir una transformación de $W$ a $V$ para que las dimensiones coincidan, pero resulta que esto no es «tan natural», por razones en las que no profundizaremos.

Lo que sí resulta muy natural y fácil de definir es una transformación de $W^\ast$ a $V^\ast$, lo cual tendrá sentido pues ya probamos que $\dim W^\ast = \dim W$ y $\dim V^\ast = \dim V$, así que será representada por una matriz en $M_{n,m}$. Es un poco más difícil conceptualmente, pero las consecuencias matemáticas son más bonitas y útiles. Sin decir más, comenzamos con la teoría.

Definición y ejemplo de transformación transpuesta

Para definir «transformación transpuesta», le hacemos como sigue.

Definición. Sean $V$ y $W$ espacios vectoriales sobre un campo $F$ y sea $T:V\to W$ una transformación lineal. Definimos la transformación transpuesta de $T$, como la transformación $^tT:W^\ast \to V^\ast$ tal que a cada forma lineal $l$ en $W^\ast$ la manda a la forma lineal $^tT(l)$ en $V^\ast$ para la cual $$(^tT(l))(v)=l(T(v)).$$

Otra forma de escribir a la definición es mediante la notación de emparejamiento canónico: $$\langle ^tT(l),v\rangle=\langle l, T(v)\rangle.$$

Veamos un ejemplo para entender mejor la definición.

Ejemplo. Considera a $V=M_{2}(\mathbb{R})$ y $W=\mathbb{R}^2$. Considera la transformación lineal $T:V\to W$ dada por $$T\begin{pmatrix} a& b\\ c&d\end{pmatrix}=(a+b,c+d).$$

La transformación $^t T$ va a mandar a una forma lineal $l$ de $W$ a una forma lineal $^tT(l)$ de $V$. Las formas lineales $l$ en $W$ se ven de la siguiente forma $$l(x,y)=rx+sy.$$ La forma lineal $^tT(l)$ en $V$ debe satisfacer que $^tT(l)=l\circ T$. En otras palabras, para cualquier matriz $\begin{pmatrix} a& b\\ c&d\end{pmatrix}$ se debe tener
\begin{align*}
(^t T(l)) \begin{pmatrix} a& b\\ c&d\end{pmatrix} &= l(a+b,c+d)\\
&=r(a+b)+s(c+d)\\
&=ra+rb+sc+sd.
\end{align*}

Si tomamos la base canónica $E_{11}$, $E_{12}$, $E_{21}$, $E_{22}$ de $V$ y la base canónica $e_1,e_2$ de $W$, observa que la transformación $T$ tiene como matriz asociada a la matriz $$\begin{pmatrix} 1 & 1 & 0 & 0\\ 0 & 0 & 1 & 1\end{pmatrix}$$ (recuerda que se obtiene poniendo como columnas a los vectores coordenada de las imágenes de la base).

Por otro lado, los vectores de la base dual $e_1^\ast$ y $e_2^\ast$ «leen las coordenadas», de modo que $e_1^\ast(x,y)=x$ y $e_2^\ast(x,y)=y$. Por lo que vimos arriba, $(^t T)(e_1)$ es entonces la forma lineal $a+b$ y $(^t T)(e_2)$ es la forma lineal $c+d$. En términos de la base dual en $V^\ast$, estos son $E_{11}^\ast + E_{12}^\ast$ y $E_{21}^\ast+ E_{22}^\ast$ respectivamente. De esta forma, la transformación $^t T$ tiene matriz asociada $$\begin{pmatrix}1&0\\1&0\\0&1\\0&1\end{pmatrix}.$$

$\triangle$

Nota que en el ejemplo la transformación transpuesta tiene como matriz a la matriz transpuesta de la transformación original. Esto es algo que queremos que pase siempre, y más abajo lo demostramos.

Propiedades básicas de transformación transpuesta

Observa que la definición no necesita que $V$ y $W$ sean de dimensión finita. A continuación enunciamos y probamos algunos resultados que se valen también en el contexto de dimensión infinita.

Teorema 1. Tomemos $V$,$W$,$Z$ espacios vectoriales sobre un campo $F$ y $c$ en $F$. Sean $T_1,T_2: V \to W$ transformaciones lineales. Sea $T_3:W\to Z$ una transformación lineal. Se cumple todo lo siguiente:

  1. $^tT_1$ es una transformación lineal.
  2. $^t(T_1+cT_2)= {^tT_1} + c^tT_2$.
  3. $^t(T_3\circ T_1) = {^t T_1} \circ ^t T_3$.
  4. Si $V=W$ y $T_1$ es invertible, entonces $^t T_1$ también lo es y $(^t T_1)^{-1}= {^t (T_1^{-1})}$.

Para tener un poco más de intuición, observa cómo estas propiedades son análogas a las de transposición para matrices.

Demostración. Las partes 1 y 2 se demuestran usando cuidadosamente las definiciones. Haremos la demostración de $1$ y la demostración de $2$ queda como tarea moral. Para probar $1$, necesitamos probar que $^tT_1:W^\ast \to V^\ast$ es lineal, así que tomemos $l_1$, $l_2$ en $W^\ast$ y $a$ un escalar en $F$. Tenemos que demostrar que $$ ^tT_1(l_1+a l_2)= {^tT_1(l_1)}+ a ^tT_1(l_2).$$

Ésta es una igualdad de formas lineales en $V^\ast$, y para mostrar su validez tenemos que mostrar que se vale en cada $v\in V$. Por un lado,
\begin{align*}
^tT_1(l_1+a l_2)(v) &= (l_1+a l_2)(T_1(v))\\
&=l_1(T_1(v))+a l_2(T_1(v)).
\end{align*}

Por otro lado,
\begin{align*}
(^tT_1(l_1)+ a ^tT_1(l_2))(v)&= {^tT_1(l_1)(v)}+ a ^tT_1(l_2)(v)\\
&= l_1(T_1(v)) + a l_2(T_1(v)).
\end{align*}

En ambos casos obtenemos el mismo resultado, así que $^tT_1(l_1+a l_2)$ y $^tT_1(l_1)+ a ^tT_1(l_2)$ son iguales, mostrando que $^t T_1$ es lineal.

Pasemos a la parte 3. La igualdad $^t(T_3\circ T_1) = {^t T_1} \circ ^t T_3$ es una igualdad de transformaciones de $Z^\ast$ a $V^\ast$. Para verificar su veracidad, hay que ver que son iguales en cada elemento en su dominio. Tomemos entonces una forma lineal $l$ en $Z^\ast$. Queremos verificar la veracidad de $$ ^t(T_3\circ T_1)(l) = (^t T_1 \circ ^t T_3)(l),$$ que es una igualdad de formas lineales en $V^\ast$, de modo que tenemos que verificarla para cada $v$ en $V$. Por un lado,

\begin{align*}
^t(T_3\circ T_1)(l)(v)&=l((T_3\circ T_1)(v))\\&=l(T_3(T_1(v))),
\end{align*}

Por otro,
\begin{align*}
(^t T_1 \circ ^t T_3)(l)(v)&=(^tT_1(^t T_3 (l)))(v)\\&=(^t T_3 (l))(T_1(v))\\&=l(T_3(T_1(v))).
\end{align*}

En ambos casos obtenemos el mismo resultado.

Para la parte 4 basta notar que si $V=W$ y $T_1$ es invertible, entonces tiene una inversa $S:V\to V$, y por la parte $3$ tenemos que $$^t S\circ ^t T_1 = {^t(T_1\circ S)} = {^t \text{Id}_V} = \text{Id}_{V^\ast},$$

mostrando que $^t T_1$ tiene inversa $^tS$. Observa que estamos usando que la transpuesta de la transformación identidad es la identidad. Esto no lo hemos probado, pero lo puedes verificar como tarea moral.

$\square$

La matriz transpuesta es la matriz de la transformación transpuesta

Cuando estamos trabajando en espacios de dimensión finita, podemos mostrar que la matriz que le toca a la transformación transpuesta es precisamente la transpuesta de la matriz que le toca a la transformación original. Hacemos esto más preciso en el siguiente resultado.

Teorema 2. Sea $T:V\to W$ una transformación lineal entre espacios de dimensión finita y $B$ y $B’$ bases de $V$ y $W$ respectivamente. Si $A$ es la matriz de $T$ con respecto a $B$ y $B’$, entonces $^t A$ es la matriz de la transformación $^t T:W^\ast \to V^\ast$ con respecto a las bases duales $B’^\ast$ y $B^\ast$.

Demostración. Necesitamos definir algo de notación. Llamemos $n=\dim V$, $m=\dim W$, $B=\{b_1,\ldots, b_n\}$, $B’=\{c_1,\ldots, c_m\}$ y $A=[a_{ij}]$. Recordemos que la matriz $A$ está hecha por las coordenadas de las imágenes de la base $B$ en términos de la base $B’$, es decir, que por definición tenemos que para toda $j=1,\ldots, n$: \begin{equation}T(b_j)=\sum_{i=1}^{m} a_{ij} c_i.\end{equation}

La transformación $^t T:W^\ast \to V^\ast$ va de un espacio de dimensión $m$ a uno de dimensión $n$, así que en las bases $B’^\ast$ y $B^\ast$ se puede expresar como una matriz de $n$ filas y $m$ columnas. Afirmamos que ésta es la matriz $^t A$. Para ello, basta mostrar que las coordenadas de las imágenes de la base $B’^\ast$ en términos de la base $B^\ast$ están en las filas de $A$, es decir, que para todo $i=1, \ldots, m$ tenemos que $$^tT(c^\ast_i)=\sum_{j=1}^{n} a_{ij} b_j^\ast.$$

La anterior es una igualdad de formas lineales en $V^\ast$, de modo que para ser cierta tiene que ser cierta evaluada en todo $v$ en $V$. Pero por linealidad, basta que sea cierta para todo $b_j$ en la base $B$. Por un lado, usando (1),

\begin{align*}
^tT(c^\ast_i)(b_j)&=c^\ast_i(T(b_j))\\
&=c^\ast_i \left(\sum_{k=1}^{m} a_{kj} c_i\right)\\
&=\sum_{k=1}^{m} a_{kj} c^\ast_i(c_k)\\
&=a_{ij},
\end{align*}

en donde estamos usando que por definición de base dual $c_i^\ast (c_i)= 1$ y $c_j^\ast (c_i)=0$ si $i\neq j$. Por otro lado,

\begin{align*}
\left(\sum_{k=1}^{n} a_{ik} b_k^\ast\right)(b_j)&= \sum_{k=1}^{n} a_{ik} b_k^\ast(b_j)\\
&=a_{ij},
\end{align*}

en donde estamos usando linealidad y la definición de base dual para $B$.

Con esto concluimos la igualdad $$^tT(c^\ast_i)=\sum_{j=1}^{n} a_{ij} b_j^\ast,$$ que muestra que podemos leer las coordenadas de las evaluaciones de $^t T$ en $B’^\ast$ en términos de la base $B^\ast$ en las filas de $A$, por lo tanto podemos leerlas en las columnas de $^t A$. Esto muestra que $^t A$ es la matriz correspondiente a esta transformación en términos de las bases duales.

$\square$

Kernel e imagen de la transformación transpuesta

Finalmente, el siguiente resultado nos habla acerca de cómo están relacionadas las transformaciones transpuestas y la ortogonalidad.

Teorema 3. Sea $T:V\to W$ una transformación lineal entre espacios vectoriales de dimensión finita. Entonces

$$\ker (^t T) = (\Ima (T))^\bot,\quad \ker (T)=(\Ima (^t T))^\bot$$

y

$$\Ima (^t T) = (\ker(T))^\bot\,\quad \Ima (T)=(\ker(^t T))^\bot.$$

Demostración. Demostraremos la igualdad $\ker (^t T) = (\Ima (T))^\bot$. Notemos que $l \in \ker(^t T)$ si y sólo si $(^t T)(l)=0$, lo cual sucede si y sólo si $l\circ T = 0$. Pero esto último sucede si y sólo si para todo $v$ en $V$ se tiene que $l(T(v))=0$, que en otras palabras quiere decir que $l(w)=0$ para todo $w$ en $\Ima (T)$. En resumen, $l\in \ker(^t T)$ pasa si y sólo si $l$ se anula en todo $\Ima (T)$ es decir, si y sólo si está en $(\Ima (T))^\bot$.

El resto de las igualdades se demuestran de manera análoga, o alternativamente, usando la bidualidad canónica. Es un buen ejercicio hacerlo y se deja como tarea moral.

$\square$

Más adelante…

En esta entrada enunciamos un resultado muy importante: dada una transformación lineal $T$, su transformación transpuesta tiene como matriz asociada la matriz transpuesta de la matriz asociada de $T$. Este resultado nos permitirá calcular fácilmente la transpuesta de una transformación, como veremos en la entrada de problemas de este tema.

En la siguiente entrada del blog hablaremos por primera vez de formas bilineales: vamos a ver cómo nuestra discusión de transformaciones lineales facilitará mucho abordar este tema.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Muestra que la transpuesta de la transformación lineal $T:\mathbb{R}^2\to \mathbb{R}^2$ dada por $T(x,y)=T(7x+8y,6x+7y)$ es invertible. Encuentra a su transpuesta y a la inversa de la transpuesta explícitamente.
  • Muestra la parte $2$ del Teorema 1.
  • Muestra que la transpuesta de la transformación identidad es la identidad.
  • Demuestra el resto de las igualdades del Teorema 3.
  • Encuentra la transpuesta de la transformación traza que va de $M_n(\mathbb{R})$ a los reales. Recuerda que esta transformación manda a una matriz $A=[a_{ij}]$ a la suma de sus entradas en la diagonal principal, es decir $$A\mapsto a_{11}+a_{22}+\ldots+a_{nn}.$$

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Superior II: La conjugación compleja

Por Leonardo Ignacio Martínez Sandoval

Introducción

En una entrada anterior definimos el conjunto $\mathbb{C}$ de los números complejos. Vimos que sus elementos tienen la forma $a+bi$, donde $a$ y $b$ son números reales. Definimos las operaciones de suma y producto, y vimos que, con estas operaciones, $\mathbb{C}$ es un campo. En esta entrada hablaremos acerca de la conjugación compleja.

Definición. Sea $z=a+bi$ un número complejo. El conjugado de $z$ es el número complejo $a-bi$ que denotaremos como $\overline{z}$.

Ejemplo. Sea $z=5+8i$, entonces $\overline{z}=5-8i$. Si $z=\sqrt{3}-8\pi i $, entonces $\overline{z}=\sqrt{3}+8\pi i$.

En la entrada anterior justificamos que podíamos abandonar la notación de parejas, sin embargo en ocasiones seguirá siendo útil pensar al complejo $a+bi$ como el punto $(a,b)$ del plano. Si lo pensamos así, la conjugación compleja manda al punto $(a,b)$ en el punto $(a,-b)$, es decir, se comporta como una reflexión en el eje $x$.

La conjugación compleja se comporta como una reflexión en el eje x
La conjugación compleja se comporta como una reflexión en el eje $x$

Conjugación y operaciones complejas

La conjugación compleja «se comporta bien» con las operaciones definidas en $\mathbb{C}$. Este es el contenido de la siguiente proposición.

Proposición 1. Si $w$ y $z$ son números complejos, entonces:

  • El conjugado de la suma es la suma de los conjugados, es decir, $\overline{w+z}=\overline{w}+\overline{z}$.
  • El conjugado del producto es el producto de los conjugados, es decir, $\overline{wz}=\overline{w}\overline{z}$.

Demostración. Si escribimos a $w=a+bi$ y $z=c+di$ con $a,b,c,d$ números reales. Tenemos que
\begin{align*}
\overline{w+z}&=\overline{(a+c)+(b+d)i}\\
&=(a+c)-(b+d)i\\
&=(a-bi)+(c-di)\\
&=\overline{w}+\overline{z},
\end{align*} lo cual prueba la primera parte de la proposición. Por otro lado
\begin{align*}
\overline{wz}&=\overline{(ac-bd)+(ad+bc)i}\\
&=(ac-bd)-(ad+bc)i\\
&=(ac-(-b)(-d))+(a(-d)+b(-c))i\\
&=(a-bi)(c-di)\\
&=\overline{w}\overline{z},
\end{align*} lo cual prueba la segunda parte.

$\square$

Se pueden mostrar resultados análogos para la conjugación compleja de la resta y cociente. Esto se deja en la tarea moral.

Ejemplo. Considera los números complejos $5+4i$, $3+2i$ y $1-i$. Vamos a determinar el conjugado de su suma de dos formas distintas. Por un lado, si los sumamos obtenemos el complejo $$(5+3+1)+(4+2-1)i=9+5i,$$ cuyo conjugado es $9-5i$.

Por otro lado, podemos conjugar a cada uno de los números de manera independiente para obtener $5-4i$, $3-2i$ y $1+i$. Al hacer la suma de estos complejos, obtenemos $$(5+3+1)+(-4-2+1)i=9-5i.$$ En ambos casos obtenemos lo mismo.

$\triangle$

La conjugación compleja es autoinversa

Proposición 2. La operación «conjugar» es autoinversa, y por lo tanto es biyectiva.

Demostración. En efecto, si $z=a+bi$, entonces $$\overline{\overline{z}}=\overline{a-bi}=a+bi=z.$$

Para ver que conjugar es suprayectivo, tomemos $z$ en $\mathbb{C}$. Tenemos que $\overline{\overline{z}}=z$, de modo que $z$ está en la imagen de la operación conjugación.

Para ver que conjugar es inyectivo, tomemos $w$ y $z$ en $\mathbb{C}$ tales que $\overline{w}=\overline{z}$. Aplicando conjugación a esta igualdad, y usando la primer parte de la proposición, tenemos que $w=z$.

$\square$

Operaciones de un complejo con su conjugado

Sea $z=a+bi$ un número complejo, a $a$ le llamamos la parte real de $z$ y a $b$ le llamamos la parte imaginaria. Usamos la notación $a=\text{Re}(z)$ y $b=\text{Im}(z)$, respectivamente. Cuidado: la parte imaginaria es un número real. Se llama parte imaginaria porque es la que acompaña a $i$.

Si hacemos operaciones de un complejo con su conjugado, obtenemos valores especiales.

Proposición 3. Sea $z$ un número complejo. Entonces:

  • $z+\overline{z}=2\text{Re}(z)$
  • $z-\overline{z}=2\text{Im}(z) i$
  • $z\overline{z}=\text{Re}(z)^2+\text{Im}(z)^2$

La demostración de la Proposición 3 es sencilla y se deja como tarea moral.

Ejemplo. Si tomamos el número complejo $3+4i$ y le sumamos su conjugado $3-4i$, obtenemos el número real $6$, que es dos veces la parte real de $3+4i$.

Si hacemos la multiplicación $(3+4i)(3-4i)$, obtenemos también un número real: $$3^2-(4i)^2=9-(-16)=25.$$

$\square$

Como corolario de la Proposición 3, obtenemos lo siguiente.

Corolario. Si $z=\overline{z}$, entonces $z$ es un número real.

Demostración. Por la primera parte de la Proposición 3, tenemos que $2z=z+\overline{z}=2\text{Re}(z)$, de modo que $z=\text{Re}(z)$ y por lo tanto $z$ es un número real.

$\square$

Ejercicio. Muestra que el complejo $$\left(\frac{1+\sqrt{5}}{2}+\frac{1-\sqrt{5}}{2} i \right) \left(\frac{1+\sqrt{5}}{2}-\frac{1-\sqrt{5}}{2} i \right)$$ es un número real.

Solución. Podríamos hacer las cuentas y verificar que la parte imaginaria es $0$. Sin embargo, basta con notar que la expresión es el producto de un complejo con su conjugado, es decir, es de la forma $z\overline{z}$. De manera directa, por la última parte de la Proposición 3 obtenemos que es un número real.

$\square$

La conjugación compleja es (casi) el único automorfismo que fija a los reales

En las secciones anteriores vimos que la conjugación compleja deja fijos a los reales y que respeta las operaciones. En esta sección veremos que es la única operación, en $\mathbb{C}$, que hace esto sin ser la identidad.

Teorema. Si $\eta:\mathbb{C}\to \mathbb{C}$ es una función biyectiva. tal que:

  • $\eta$ no es la identidad.
  • $\eta(a)=a$ para todo $a$ real.
  • $\eta(w+z)=\eta(w)+\eta(z)$ para todo par de complejos $w$ y $z$.
  • $\eta(wz)=\eta(w)\eta(z)$ para todo par de complejos $w$ y $z$.

Entonces $\eta$ es la conjugación compleja.

Demostración. Sea $z=a+bi$, tenemos que

\begin{align*}
\eta(a+bi)&=\eta(a)+\eta(bi)\\
&=\eta(a)+\eta(b)\eta(i)\\
&=a+b\eta(i),
\end{align*}

así que basta determinar quién es $\eta(i)$. Por otro lado, como $-1$ es real, tenemos también que
\begin{align*}
-1&=\eta(-1)\\
&=\eta(i\cdot i)\\
&=\eta(i)\eta(i)\\
&=\eta(i)^2,
\end{align*}

de modo que $\eta(i)$ es una raíz de $-1$ y por lo tanto es $i$ o $-i$. Si $\eta(i)=i$, tendríamos que $\eta$ es la identidad, lo cual contradice nuestras hipótesis. Así, $\eta(i)=-i$ y por lo tanto $\eta$ es la conjugación compleja.

$\square$

Más adelante…

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Considera los números complejos $w_j=5+(2-j)i$, en donde $j$ es un entero en $\lbrace 0,1,2,3,4\rbrace$. Encuentra el valor de la suma $w_0+w_1+w_2+w_3+w_4$ y del producto $w_0w_1w_2w_3w_4$.
  2. Toma los números complejos $w$ y $z$. Muestra que $\overline{w-z}=\overline{w}-\overline{z}$ y que si $z\neq 0$, entonces $\overline{w/z}=\overline{w}/ \overline{z}$.
  3. Haz la demostración de la Proposición 3.
  4. ¿Cuáles números complejos satisfacen que $z^2=\overline{z}$?
  5. Sea $z$ un número complejo distinto de $0$. ¿Qué obtienes cuando realizas la división $z/\overline{z}$?

En el blog hay una entrada acerca de aplicaciones de la aritmética de números complejos a la resolución de problemas en matemáticas. No formará parte de la evaluación del curso, pero puede ayudarte a entender más profundamente lo que estamos haciendo y a motivar la teoría que desarrollamos.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Seminario de Resolución de Problemas: El teorema del valor medio

Por Leonardo Ignacio Martínez Sandoval

Introducción

Las funciones continuas son bonitas pues tienen la propiedad del valor intermedio y además alcanzan sus valores extremos. Las funciones diferenciables en un intervalo también tienen un par de teoremas que hablan acerca de algo que sucede «dentro del intervalo». Estos son el teorema de Rolle, del cual platicamos en la entrada anterior, y el teorema del valor medio. Ambos nos permiten encontrar en el intervalo un punto en el que la derivada tiene un valor específico.

Teorema de Rolle. Sean $a<b$ reales y $f:[a,b]\to \mathbb{R}$ una función continua en el intervalo $[a,b]$ y diferenciable en el intervalo $(a,b)$. Supongamos que $f(a)=f(b)$. Entonces existe un punto $c\in (a,b)$ tal que $f'(c)=0$.

Teorema del valor medio. Sean $a<b$ reales y $f:[a,b]\to \mathbb{R}$ una función continua en el intervalo $[a,b]$ y diferenciable en el intervalo $(a,b)$. Entonces existe un punto $c\in (a,b)$ tal que $$f'(c)=\frac{f(b)-f(a)}{b-a}.$$

En la entrada anterior vimos aplicaciones del teorema de Rolle a resolución de problemas matemáticos. En esta entrada hablaremos brevemente de la intuición geométrica del teorema del valor medio, de algunas de sus consecuencias inmediatas y de cómo usar al teorema y sus consecuencias para resolver problemas concretos.

La intuición geométrica del teorema del valor medio

El teorema del valor medio dice que una función diferenciable en $(a,b)$ y continua en $[a,b]$ cumple que hay un punto $c$ tal que el valor de la derivada en $c$ es igual a la pendiente de la recta que une los puntos del plano $(a,f(a))$ y $(b,f(b))$. En la siguiente figura, se marca en azul el punto $c$ en donde la pendiente de la tangente es lo que queremos, es decir, la pendiente entre los puntos rojos.

Intuición geométrica del teorema del valor medio
Intuición geométrica del teorema del valor medio

En varios problemas en los que se usa el teorema del valor medio, o bien en los cuales se pide demostrar enunciados parecidos a lo que dice el teorema del valor medio, es conveniente hacer una figura para entender la intuición geométrica del problema.

Consecuencias del teorema del valor medio

Si $f$ y $g$ son funciones continuas en $[a,b]$ y diferenciables en $(a,b)$ entonces se pueden deducir los siguientes resultados a partir del teorema del valor medio. No profundizamos en las demostraciones, y dejamos su verificación como un ejercicio de práctica.

Proposición. Si $f'(x)=0$ para toda $x$ en $(a,b)$, entonces $f$ es constante.

Proposición. Si $f'(x)=g'(x)$ para toda $x$ en $(a,b)$, entonces existe una constante $c$ tal que $f(x)=g(x)+c$ para toda $x$.

Proposición. Si $f'(x)>0$ para toda $x$ en $(a,b)$, entonces $f$ es una función estrictamente creciente. Si $f'(x)<0$ en $(a,b)$, entonces $f$ es una función estrictamente decreciente.

Cuando $f'(x)\geq 0$ y $f'(x)\leq 0$, tenemos resultados análogos que dicen que es no decreciente y no creciente, respectivamente.

Veamos algunas aplicaciones de los resultados anteriores.

Problema. Sean $f:\mathbb{R}\to \mathbb{R}$ y $g:\mathbb{R}\to \mathbb{R}$ funciones tales que para todo par de reales $x$ y $y$ se cumple que $$|f(x)+g(y)-f(y)-g(x)|\leq (x-y)^2.$$ Demuestra que $f$ y $g$ varían sólo por una constante aditiva.

Sugerencia pre-solución. Identifica cuál de las proposiciones anteriores puedes usar. Hay que tener cuidado con las hipótesis, pues en el enunciado no se habla de la diferenciabilidad de ninguna de las funciones involucradas.

Solución. Podría ser tentador usar la segunda proposición que enunciamos arriba, pero no tenemos hipótesis acerca de la diferenciabilidad de $f$ o de $g$. Sin embargo, vamos a mostrar que sí se puede mostrar que $f-g$ es diferenciable en todo real, y que su derivada es $0$ en todo real. Para ello, definamos $h=f-g$ y notemos que la hipótesis dice que $|h(x)-h(y)|\leq (x-y)^2.$

A partir de aquí, notemos que por la hipótesis, para $x\neq y$, $$\frac{|h(y)-h(x)|}{|y-x|}\leq \frac{(y-x)^2}{|y-x|} = |y-x|,$$ y el límite de esta última expresión conforme $y\to x$ es $0$, de modo que $$\left|\lim_{y\to x} \frac{h(y)-h(x)}{y-x}\right|=\lim_{y\to x} \frac{|h(y)-h(x)|}{|y-x|} = 0.$$ Esto muestra que para cualquier $x$ se tiene que $h$ es diferenciable en $x$ y su derivada es igual $0$ en todo $x$. De este modo, $h$ es una función constante, y por lo tanto existe un $c$ tal que $f(x)=g(x)+c$ para todo $x$.

$\square$

Veamos cómo el teorema del valor medio nos puede ayudar a demostrar desigualdades.

Problema. Sea $f:\mathbb{R}\to \mathbb{R}$ una función dos veces diferenciable tal que $f»(x)\geq 0$ para todo $x$. Demuestra que para todo par de reales $a$ y $b$ con $a<b$ se tiene que $$f\left(\frac{a+b}{2}\right) \leq \frac{f(a)+f(b)}{2}.$$

Sugerencia pre-solución. Haz una figura para convencerte de que el resultado es cierto. En el enunciado del problema, la función está siendo enunciada en tres valores, $a$, $b$ y $\frac{a+b}{2}$. Esto te dará una pista de dónde usar el teorema del valor medio.

Solución. Por el teorema del valor medio, existe un real $r$ en el intervalo $\left(a,\frac{a+b}{2}\right)$ para el cual $$\frac{f\left(\frac{a+b}{2}\right)-f(a)}{\frac{a+b}{2}-a} = f'(r).$$

De manera similar, existe un real $s$ en el intervalo $\left(\frac{a+b}{2},b\right)$ para el cual $$\frac{f(b)-f\left(\frac{a+b}{2}\right)}{b-\frac{a+b}{2}} = f'(s).$$

Como $f»(x)>0$ para todo real $x$, tenemos que $f’$ es una función creciente, y como $r<s$, tenemos entonces que $f'(r)<f'(s)$. De esta forma, $$ \frac{f\left(\frac{a+b}{2}\right)-f(a)}{\frac{a+b}{2}-a}<\frac{f(b)-f\left(\frac{a+b}{2}\right)}{b-\frac{a+b}{2}}.$$ Notemos que el denominador de ambos lados es $\frac{b-a}{2}$. Cancelando los denominadores y reacomodando los términos en esta desigualdad, obtenemos la desigualdad deseada.

$\square$

Problemas resueltos con el teorema del valor medio y otras técnicas

Veamos algunos problemas que combinan el teorema del valor medio con otras técnicas de solución de problemas.

Problema. Sea $f(x)$ una función diferenciable en $(0,1)$ y continua en $[0,1]$ con $f(0)=0$ y $f(1)=1$. Muestra que existen puntos distintos $a,b,c,d$ en el intervalo $[0,1]$ tales que $$\frac{1}{f'(a)}+ \frac{1}{f'(b)} + \frac{1}{f'(c)} + \frac{1}{f'(d)} = 4.$$

Sugerencia pre-solución. Para resolver el problema, hay que combinar el teorema del valor medio con el teorema del valor intermedio. El primer paso del problema es encontrar reales $p<q<r$ tales que $f$ valga en ellos $1/4$, $2/4$ y $3/4$.

Solución. Como $f(0)=0$, $f(1)=1$ y $0<1/4<1$, por el teorema del valor intermedio existe un real $p$ en $(0,1)$ tal que $f(p)=1/4$. De manera similar, existe un real $q$ en $(p,1)$ tal que $f(q)=2/4$ y un real $r$ en $(q,1)$ tal que $f(r)=3/4$.

Aplicando el teorema del valor medio a los intervalos $[0,p]$, $[p,q]$, $[q,r]$ y $[r,1]$ obtenemos reales $a,b,c,d$ respectivamente tales que

\begin{align*}
f'(a)&=\frac{f(p)-f(0)}{p-0}=\frac{1/4}{p}\\
f'(b)&=\frac{f(q)-f(p)}{q-p}=\frac{1/4}{q-p} \\
f'(c)&=\frac{f(r)-f(q)}{r-q}=\frac{1/4}{r-q} \\
f'(d)&=\frac{f(1)-f(r)}{1-r}=\frac{1/4}{1-r}.
\end{align*}

Estos son los valores de $a,b,c,d$ que queremos pues

\begin{align*}
\frac{1}{f'(a)}+ \frac{1}{f'(b)} + \frac{1}{f'(c)} + \frac{1}{f'(d)} &= 4(1-r+r-q+q-p+p)\\
&=4.
\end{align*}

$\square$

Problema. Sean $a$, $b$ y $c$ números distintos. Muestra que la siguiente expresión $$\frac{(x-a)(x-b)}{(c-a)(c-b)}+ \frac{(x-b)(x-c)}{(a-b)(a-c)} + \frac{(x-c)(x-a)}{(b-c)(b-c)}$$ no depende del valor de $x$.

Sugerencia pre-solución. Encuentra la derivada de la expresión. Puedes aprovechar la simetría para hacer menos cuentas.

Solución. Usando la regla del producto, la derivada del primer sumando es
\begin{align*}
\frac{(x-a)+(x-b)}{(c-a)(c-b)}&=\frac{(2x-a-b)(b-a)}{(a-b)(b-c)(c-a)}\\
&=\frac{2x(b-a)+a^2-b^2}{(a-b)(b-c)(c-a)}.
\end{align*}

Por simetría, las derivadas de los otros dos términos tienen el mismo denominador que esta y en el numerador tienen, respectivamente,
\begin{align*}
&2x(c-b)+b^2-c^2\quad \text{y}\\
&2x(a-c)+c^2-a^2,
\end{align*} de modo que al sumar las tres expresiones obtenemos cero. Así, la derivada de la expresión es cero y por lo tanto es constante.

$\square$

Hay otro argumento para resolver el problema anterior, que usa teoría de polinomios. A grandes rasgos, la expresión es un polinomio de grado $2$, que toma tres veces el valor $1$, de modo que debe ser igual al polinomio constante $1$.

Más problemas

Hay más ejemplos de problemas relacionados con el teorema del valor medio en la Sección 6.6 del libro Problem Solving through Problems de Loren Larson.

Seminario de Resolución de Problemas: El teorema de Rolle

Por Leonardo Ignacio Martínez Sandoval

Introducción

Las funciones continuas son bonitas pues tienen la propiedad del valor intermedio y además alcanzan sus valores extremos. Las funciones diferenciables en un intervalo también tienen un par de teoremas que hablan acerca de algo que sucede «dentro del intervalo». Estos son el teorema de Rolle y el teorema del valor medio. Ambos nos permiten encontrar en el intervalo un punto en el que la derivada tiene un valor específico.

Teorema de Rolle. Sean $a<b$ reales y $f:[a,b]\to \mathbb{R}$ una función continua en el intervalo $[a,b]$ y diferenciable en el intervalo $(a,b)$. Supongamos que $f(a)=f(b)$. Entonces existe un punto $c\in (a,b)$ tal que $f'(c)=0$.

Teorema del valor medio. Sean $a<b$ reales y $f:[a,b]\to \mathbb{R}$ una función continua en el intervalo $[a,b]$ y diferenciable en el intervalo $(a,b)$. Entonces existe un punto $c\in (a,b)$ tal que $$f'(c)=\frac{f(b)-f(a)}{b-a}.$$

El teorema del valor medio parece más general. Sin embargo, en cierto sentido, estos dos teoremas son «equivalentes», en el sentido de que uno de ellos nos ayuda a probar al otro de manera fácil, y viceversa.

Ya dimos las demostraciones de ambos teoremas en la entrada anterior, que habla del teorema del valor extremo. En esta entrada nos enfocaremos en ver cómo podemos usar el teorema de Rolle para resolver problemas. En la siguiente veremos algunos ejemplos del uso del teorema del valor medio.

Problemas resueltos con teorema de Rolle

Hay algunos problemas que parece que pueden ser resueltos con el teorema del valor intermedio (el de funciones continuas), pero para los cuales no es sencillo encontrar un intervalo correcto en el cual aplicar el teorema. En estas ocasiones, a veces el teorema de Rolle puede entrar al rescate.

Problema. Muestra que $5x^4-4x+1$ tiene una raíz real entre $0$ y $1$.

Sugerencia pre-solución. Primero, convéncete de que no es sencillo resolver este problema usando el teorema del valor intermedio. Luego, escribe a la función como la derivada de otra y aplica el teorema de Rolle. Funciona trabajar hacia atrás: si $f$ es derivada de una función, ¿quién tendría que ser esta función?

Solución. La idea es expresar a $f(x)=5x^4-4x+1$ como la derivada de una función y aplicar el teorema de Rolle. Para ello, podemos integrar o verificar por inspección que si $g(x)=x^5-2x^2+x$, entonces $g'(x)=f(x)$. Ahora, notemos que $g(0)=g(1)=0$. Por el teorema de Rolle, debe existir un $c$ en $(0,1)$ tal que $f(c)=g'(c)=0$, es decir, esta $c$ es justo una raíz de $f$, como queríamos.

$\square$

En algunas ocasiones hay que aplicar el teorema del valor medio repetidas veces dentro de un mismo problema.

Problema. Demuestra que $f(x)=\frac{x^4}{4}-\frac{3}{2}x^2+bx+c$ puede tener como mucho dos ceros el intervalo $[-1,1]$, sin importar los valores de $b$ y de $c$.

Sugerencia pre-solución. Procede por contradicción, suponiendo que hay más de dos ceros. Aplica el teorema del valor medio dos veces.

Solución. Supongamos que $f$ tiene tres o más ceros en ese intervalo, y que son $r,s,t$, con $-1\leq r < s < t < 1$. Tenemos que $f(r)=f(s)$ y que $f(s)=f(t)$, pues estos tres valores son $0$. Por el teorema de Rolle, tenemos que $f'(x)=x^3-3x+b$ debe tener al menos un cero $p$ en el intervalo $(r,s)$ y al menos un cero $q$ en el intervalo $(s,t)$. Aplicando de nuevo el teorema de Rolle, tenemos que $f»(x)=3x^2-3$ debe tener un cero en el intervalo $(p,q)$. Pero $-1<p<q<1$ y $f»(x)$ sólo tiene como ceros a $1$ y $-1$. Esto es una contradicción.

$\square$

Veamos un ejemplo más, en donde es necesario aplicar el teorema de Rolle varias veces y usar otras propiedades de diferenciabilidad.

Problema. Supongamos que la funciónes $f:\mathbb{R}\to \mathbb{R}$ y $g:\mathbb{R}\to \mathbb{R}$ son diferenciables y que $f'(x)g(x)\neq f(x)g'(x)$ para todo real $x$. Muestra que si $f(x)=0$ tiene al menos $2020$ soluciones distintas, entonces $g(x)=0$ tiene al menos $1010$ soluciones distintas.

Sugerencia pre-solución. Modifica el problema y generalízalo de la siguiente manera: bajo las hipótesis del problema, se tiene que entre cualesquiera dos ceros de $f$ hay un cero de $g$. Para demostrar esto, procede por contradicción.

Solución. Mostraremos que entre cualesquiera dos ceros de $f$ hay un cero de $g$. Para ello, procedamos por contradicción. Supongamos $a<b$ son ceros de $f$ y que $g$ no tiene ningún cero en el intervalo $[a,b]$.

Consideremos la función $f/g$. Como $g$ no se anula en $[a,b]$, tenemos que $f/g$ es continua en $[a,b]$ y diferenciable en $(a,b)$. Además, $f(a)/g(a)=f(b)/g(b)=0$. Con esto, por el teorema de Rolle tendríamos que la derivada de $f/g$ en algún punto $c$ en $(a,b)$ es cero. Pero esto es una contradicción, pues la derivada en $c$ es $$\frac{f'(c)g(c)-f(c)g'(c)}{g^2(c)},$$ que por hipótesis nunca es $0$. De esta forma, entre cualesquiera dos ceros de $f$ debe haber un cero de $g$.

Para resolver el problema original, consideremos los $2020$ ceros que tiene $f$, digamos $a_1<\ldots<a_{2020}$. En cada uno de los intervalos $[a_{2i-1},a_{2i}]$ para $i=1,\ldots,1010$ debe haber un cero de $g$, y como estos son intervalos disjuntos, estos deben ser ceros distintos. De este modo, tenemos al menos $1010$ ceros de $g$.

$\square$

Más problemas

Hay más problemas en los que se usa el teorema de Rolle en la Sección 6.5 el libro Problem Solving through Problems de Loren Larson.

Álgebra Lineal I: Ortogonalidad, hiperplanos y ecuaciones lineales

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores hablamos de formas lineales, del espacio dual y de ortogonalidad. Con la teoría que hemos desarrollado en esas entradas, podemos cosechar uno de los hechos más importantes para espacios vectoriales de dimensión finita $n$: todos los subespacios se pueden obtener a partir de intersectar hiperplanos, es decir, subespacios de dimensión $n-1$. El objetivo de esta entrada es dar las definiciones necesarias para enunciar y demostrar este resultado formalmente.

Hiperplanos

Antes de demostrar el resultado mencionado en la introducción, tomaremos un poco de intuición geométrica de $\mathbb{R}^3$.

En $\mathbb{R}^3$ tenemos sólo un subespacio de dimensión $0$, que es $\{(0,0,0)\}$, un punto. Para obtener un subespacio de dimensión $1$, tenemos que tomar un vector $v\neq 0$ y considerar todos los vectores $rv$ con $r$ en $\mathbb{R}$. Esto corresponde geométricamente a una línea por el origen, con la misma dirección que $v$. En otras palabras, los subespacios de dimensión $1$ son líneas por el origen.

¿Quiénes son los subespacios de dimensión $2$? Debemos tomar dos vectores linealmente independientes $u$ y $v$ y considerar todas las combinaciones lineales $au+bv$ de ellos. Es más o menos fácil convencerse de que obtendremos al plano que pasa por $u$, $v$ y el $(0,0,0)$. Es decir, los subespacios de dimensión $2$ de $\mathbb{R}^3$ son planos por el origen.

Esto motiva la siguiente definición.

Definición 1. Sea $V$ un espacio vectorial de dimensión finita $n$. Un hiperplano de $V$ es un subespacio de dimensión $n-1$.

Ejemplo. El subespacio $U=\mathbb{R}_5[x]$ de $V=\mathbb{R}_6[x]$ es un hiperplano. Esto es ya que $U$ es de dimesión $6$ y $V$ es de dimensión $7$. Sin embargo, aunque $U$ también es un subespacio de $W=\mathbb{R}_7[x]$, no se cumple que $U$ sea hiperplano de $W$ pues $W$ es de dimensión $8$ y $6\neq 8-1$.

Las matrices simétricas de $M_2(\mathbb{R})$ forman un subespacio $S$ de dimensión $3$ de $M_2(\mathbb{R})$, pues son de la forma $\begin{pmatrix} a & b \\ b & c \end{pmatrix}$. De esta forma, $S$ es un hiperplano de $M_2(\mathbb{R})$. Sin embargo, el conjunto de matrices simétricas de $M_n(\mathbb{R})$ no es un hiperplano ni para $n=1$, ni para $n\geq 3$.

$\triangle$

Los hiperplanos nos pueden ayudar a obtener subespacios. De hecho, veremos que en el caso de dimensión finita nos ayudan a obtener a todos los subespacios. Para continuar construyendo la intuición, notemos que en $\mathbb{R}^3$ los hiperplanos son simplemente los planos por el origen y que:

  • Podemos obtener a cualquier plano por el origen como intersección de planos por el origen: simplemente lo tomamos a él mismo.
  • Podemos obtener a cualquier línea por el origen como la intersección de dos planos distintos por el origen que la contengan. Por ejemplo, el eje $z$ es la intersección de los planos $xz$ y $yz$. En otras palabras: todo subespacio de dimensión $1$ de $\mathbb{R}^3$ se puede obtener como la intersección de dos hiperplanos de $\mathbb{R}^3$.
  • A $\{0\}$ lo podemos expresar como la intersección de los planos $xy$, $yz$ y $xz$, osea, al único espacio de dimensión cero lo podemos expresar como intersección de $3$ hiperplanos.

Ya obtenida la intuición, lo que veremos a continuación es que el resultado anterior en realidad es un fenómeno que sucede en cualquier espacio vectorial de dimensión finita. Así, nos enfocaremos en entender las definiciones del siguiente teorema, y demostrarlo.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$.

  • Todo subespacio $W$ de $V$ de dimensión $m$ es la intersección de $n-m$ hiperplanos de $V$ linealmente independientes.
  • Toda intersección de $n-m$ hiperplanos de $V$ linealmente independientes es un subespacio vectorial de dimensión $m$.

Los hiperplanos son subespacio y la definición de independencia lineal que tenemos es para vectores. Pero el teorema anterior habla de «hiperplanos linealmente independientes». ¿A qué se refiere esto? Como veremos más adelante, a cada hiperplano se le puede asignar de manera natural un elemento del espacio dual de $V$.

Recordatorio de espacio ortogonal

En la entrada anterior mostramos el siguiente resultado:

Teorema (teorema de dualidad). Sea $V$ un espacio vectorial de dimensión finita sobre $F$ y $W$ un subespacio de $V$ (o de $V^\ast)$. Entonces $$\dim W + \dim W^\bot = \dim V.$$

Además, obtuvimos como corolario lo siguiente:

Corolario. Si $V$ es un espacio vectorial de dimensión finita sobre un campo $F$ y $W$ un subespacio de $V$ (o de $V^\ast$), entonces $(W^\bot)^\bot=W$.

Usaremos estos resultados para dar una definición alternativa de hiperplanos, para entender a los subespacios de dimensión $n-1$ y para mostrar el teorema principal de esta entrada.

Subespacios de dimensión $n-1$ y definición alternativa de hiperplanos

Tomemos un espacio vectorial $V$ de dimensión finita $n$. Un caso especial, pero muy importante, del teorema de dualidad es cuando $W$ es un subespacio de $V^\ast$ de dimensión $1$, es decir, cuando $W$ está generado por una forma lineal $l\neq 0$. En este caso, $W^\bot$ es un subespacio de $V$ y por el teorema de dualidad, es de dimensión $n-1$.

De manera inversa, si $W$ es un subespacio de $V$ de dimensión $n-1$, por el teorema de dualidad tenemos que $W^\bot$ es de dimensión $1$, así que hay una forma lineal $l\neq 0$ que lo genera. Por el corolario, $W=(W^\bot)^\bot$, que en otras palabras quiere decir que $W=\{v\in V: l(v)=0\}.$ En resumen:

Proposición. Un subespacio $W$ de un espacio de dimensión finita $d$ tiene dimensión $d-1$ si y sólo si es el kernel de una forma lineal $l\neq 0$ de $V$.

Ejemplo 1. Considera la forma lineal $\text{ev}_0$ en el espacio vectorial $V=\mathbb{C}_n[x]$ de polinomios con coeficientes complejos y grado a lo más $n$. Los polinomios $p$ tales que $\text{ev}_0(p)=0$ son exactamente aquellos cuyo término libre es $0$. Este es un subespacio vectorial de $V$ de dimensión $n=\dim V – 1$, pues una base para él son los polinomios $x, x^2, \ldots, x^n$.

$\triangle$

Problema. Considera el espacio vectorial $V=M_{2,3}(\mathbb{R})$. Considera $W$ el subconjunto de matrices cuya suma de entradas en la primer columna es igual a la suma de entradas de la segunda columna. Muestra que $W$ es un subespacio de dimensión $5$ y escríbelo como el kernel de una forma lineal.

Solución. Mostrar que $W$ es un subespacio de $V$ es sencillo y se queda como tarea moral. Se tiene que $W$ no puede ser igual a todo $V$ pues, por ejemplo, la matriz $\begin{pmatrix} 1 & 0 & 0\\ 0 & 0 & 0 \end{pmatrix}$ no está en $W$, así que $\dim W\leq 5$.

Las matrices $\begin{pmatrix} 1 & 1 & 0\\ 0 & 0 & 0 \end{pmatrix}$, $\begin{pmatrix} 1 & 1 & 1\\ 0 & 0 & 0 \end{pmatrix}$, $\begin{pmatrix} 1 & 1 & 0\\ 0 & 0 & 1 \end{pmatrix}$, $\begin{pmatrix} 1 & 0 & 0\\ 0 & 1 & 0 \end{pmatrix}$, $\begin{pmatrix} 0 & 1 & 0\\ 1 & 0 & 0 \end{pmatrix}$ son linealmente independientes y están en $W$, así que $\dim W\geq 5$, y junto con el párrafo anterior concluimos que $\dim W = 5$.

Finalmente, tomemos la forma lineal $$l\begin{pmatrix} a & b & c\\ d& e& f\end{pmatrix}=a+d-b-e.$$ Tenemos que una matriz está en el kernel de $l$ si y sólo si $a+d-b-e=0$, si y sólo si $a+d=b+e$, es decir, si y sólo si las entradas de la primer columna tienen la misma suma que las de la segunda. Así, $W=\ker l$.

$\square$

La proposición anterior nos permite dar una definición alternativa de hiperplano y hablar de hiperplanos linealmente independientes.

Definición 2. Sea $V$ un espacio vectorial. Un hiperplano es el kernel de una forma lineal $l\neq 0$ en $V^\ast$. Una familia de hiperplanos es linealmente independiente si sus formas lineales correspondientes son linealmente independientes en $V^\ast$.

Observa además que la definición anterior también sirve para espacios vectoriales de dimensión infinita, pues nunca hace referencia a la dimensión que debe tener un hiperplano.

Ejemplo 2. El conjunto de funciones continuas $f$ en el intervalo $[0,1]$ tales que $$\int_0^1 f(x) \, dx = 0$$ son un subespacio $W$ de $\mathcal{C}[0,1]$. Este subespacio es un hiperplano pues es el kernel de la forma lineal $I$ tal que $$I(f)=\int_0^1 f(x)\, dx.$$

$\square$

No mencionaremos más de espacios de dimensión infinita en esta entrada.

Escribiendo subespacios como intersección de hiperplanos

Ya podemos entender el teorema principal de esta entrada y demostrarlo. Lo enunciamos nuevamente por conveniencia.

Teorema 2. Sea $V$ un espacio vectorial de dimensión finita $n$.

  • Todo subespacio $W$ de $V$ de dimensión $m$ es la intersección de $n-m$ hiperplanos de $V$ linealmente independientes.
  • Toda intersección de $n-m$ hiperplanos de $V$ linealmente independientes es un subespacio vectorial de dimensión $m$.

Demostración. Tomemos un espacio vectorial $V$ de dimensión finita $n$ y un subespacio $W$ de dimensión $m$. Por el teorema de dualidad, la dimensión de $\dim W^\bot$ es $n-m$. Tomemos una base $B=\{l_1,l_2,\ldots,l_{n-m}\}$ de $W^\bot$. Por el corolario al teorema de dualidad, podemos expresar a $W$ como $$W=(W^\bot)^\bot=\{v\in V: l_1(v)=\ldots=l_{n-m}(v)=0\}.$$

Si definimos $L_i=\{v\in V: l_i(v)=0\}$, por la proposición de la sección anterior tenemos que cada $L_i$ es un hiperplano de $V$. Además, $$W=L_1\cap \ldots\cap L_{n-m}.$$ Como los $l_i$ son linealmente independientes, con esto logramos expresar a $W$ como intersección de $n-m$ hiperplanos linealmente independientes.

Probemos ahora la segunda parte de la proposición. Tomemos el conjunto $S=\{l_1,\ldots,l_{n-m}\}$ de formas linealmente independientes que definen a los hiperplanos. Un vector $v$ está en la intersección de todos estos hiperplanos si y sólo si $l_1(v)=\ldots=l_{n-m}(v)=0$, si y sólo si está en $S^\bot=\text{span}(S)^\bot$. Es decir, la intersección de los hiperplanos es precisamente el subespacio $\text{span}(S)^\bot$. Como $S$ es linealmente independiente, tenemos que $ \text{span}(S)$ es de dimensión $n-m$, de modo que por el teorema de dualidad, $\dim \text{span}(S)^\bot = n-(n-m)=m$. Esto muestra lo que queremos.

$\square$

Algunos problemas prácticos

Si tenemos un espacio $V$ de dimensión finita $n$, un subespacio $W$ de dimensión finita $m$ y queremos encontrar de manera práctica la expresión de $W$ como intersección de hiperplanos de $V$, podemos hacer el siguiente procedimiento:

  • Determinamos una base $l_1,\ldots,l_{n-m}$ para $W^\bot$ (la cual consiste de formas lineales de $V^\ast$). Esto lo podemos hacer con los pasos que mencionamos en la entrada anterior.
  • Definimos $L_i=\{v\in V: l_i(v)=0\}$.
  • Tendremos que $W$ es la intersección de los $L_i$.

Una última observación es que cada $L_i$ está definido por una ecuación lineal. Esto nos permite poner a cualquier subespacio como el conjunto solución a un sistema lineal. Esto lo cual podemos ver de forma práctica de la siguiente manera:

  • Tomamos una base $e_1,\ldots,e_n$ de $V$.
  • Tomemos un vector $v=a_1e_1+\ldots+a_ne_n$ que queremos determinar si está en $W$. Para ello, debe estar en cada $L_i$.
  • Cada $L_i$ está definido mediante la ecuación $l_i(v)=0$ de modo que si $v$ está en $L_i$ sus coordenadas $a_1,\ldots,a_n$ en la base $e_1,\ldots,e_n$ deben satisfacer la ecuación lineal $$l_i(e_1)a_1+\ldots+l_i(e_n)a_n=0.$$
  • De esta forma, los vectores $v$ en $W$ son aquellos cuyas coordenadas en la base $e_1,\ldots, e_n$ satisfacen el sistema de ecuaciones obtenido de las ecuaciones lineales para cada $i$ del punto anterior.

Veremos algunos ejemplos de estos procedimientos en la siguiente entrada.

La receta anterior nos permite concluir la siguiente variante del teorema de esta entrada, escrito en términos de ecuaciones lineales.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$ y $B$ una base de $V$.

  • Un subespacio $W$ de dimensión $m$ se puede definir mediante un sistema de ecuaciones lineales independientes que deben satisfacer las coordenadas de los vectores de $W$ escritos en la base $B$.
  • Aquellos vectores cuyas coordenadas en la base $B$ satisfacen un sistema de ecuaciones lineales independientes homogéneo, forman un subespacio de $V$ de dimensión $n-m$.

La moraleja de esta entrada es que podemos pensar que los sistemas de ecuaciones, las intersecciones de hiperplanos y los subespacios de un espacio vectorial de dimensión finita son «prácticamente lo mismo».

Más adelante…

A lo largo de esta entrada enunciamos las definiciones necesarias para llegar al teorema que mencionamos al inicio: para un espacio vectorial de dimension finita $n$, todos los subespacios se pueden obtener a partir de intersectar hiperplanos, es decir, subespacios de dimensión $n-1$.

En la siguiente entrada utilizaremos este resultado para resolver algunos ejercicios y veremos en acción este importante teorema.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Considera el plano $P$ en $\mathbb{R}^3$ que pasa por el origen y por los vectores $(1,1,1)$, $(0,2,0)$. Encuentra reales $a,b,c$ tales que $$P=\{(x,y,z): ax+by+cz = 0 \}.$$
  • En todos los ejemplos en los que se menciona que algo es subespacio, verifica que en efecto lo sea. En los que se menciona que un conjunto es base, también verifica esto.
  • Encuentra una base para el espacio de polinomios $p$ en $M_n(\mathbb{C})$ tales que $\text{ev}(1)(p)=0$.
  • Sea $W$ el subconjunto de matrices de $V:=M_n(\mathbb{R})$ tal que la sumas de las entradas de todas las filas son iguales. Muestra que $W$ es un subespacio de $V$. Determina la dimensión de $W$ y exprésalo como intersección de hiperplanos linealmente independientes.
  • ¿Qué sucede cuando intersectas hiperplanos que no corresponden a formas linealmente independientes? Más concretamente, supongamos que tienes formas lineales $l_1,\ldots,l_m$ de $F^n$. Toma $B=\{e_1,\ldots,e_n\}$ la base canónica de $F^n$. Considera la matriz $A=[l_i(e_j)]$. ¿Qué puedes decir de la dimensión de la intersección de los hiperplanos correspondientes a los $l_i$ en términos del rango de la matriz $A$?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»