Archivo de la etiqueta: espacio ortogonal

Cálculo Diferencial e Integral III: Multiplicadores de Lagrange

Por Alejandro Antonio Estrada Franco

Introducción

En la entrada anterior buscábamos optimizar un campo escalar f. Retomaremos este problema, pero ahora agregando restricciones al dominio de f. Para ello hablaremos del método de los multiplicadores de Lagrange, el cual nos permitirá dar una solución bajo ciertas condiciones de diferenciabilidad.

Esto en general es lo mejor que podremos hacer. En realidad, los problemas de este estilo son muy difíciles y no tienen una solución absoluta. Si no tenemos las condiciones del teorema de Lagrange, es posible que se tengan que hacer cosas mucho más compliadas para obtener óptimos exactos, o bien que se tengan que hacer aproximaciones numéricas.

En la demostración del teorema de los multiplicadores de Lagrange usaremos el teorema de la función implícita, lo cual es evidencia adicional de lo importante y versátil que es este resultado.

Un ejemplo para motivar la teoría

Imagina que tenemos la función f(x,y)=x2+y2 y queremos encontrar su mínimo. Esto es muy fácil. El mínimo se da cuando x=y=0, pues en cualquier otro valor tenemos un número positivo. Pero, ¿Qué pasaría si además queremos que los pares (x,y) que usamos satisfagan también otra condición?, por ejemplo, que cumplan 2x2+3y2=10

En este caso, la respuesta ya no es obvia. Podríamos intentar encontrar el mínimo por inspección, pero suena que será difícil. Podríamos intentar usar la teoría de la entrada anterior, pero esa teoría no nos dice nada de qué hacer con nuestra condición.

La teoría que desarrollaremos a continuación nos permitirá respondernos preguntas de este estilo. En este ejemplo en concreto, puedes pensar que la solución se obtendrá de la siguiente manera: La ecuación 2x2+3y2=10 nos dibuja una elipse en el plano, como se ve en la figura 1 imagen 3. Las curvas de nivel de la superficie dibujada por la gráfica de la función f corresponden a circunferencias concéntricas, cuyo centro es el origen. Al ir tomando circunferencias cada vez mas grandes en el plano comenzando con el punto (0,0) nos quedaremos con la primera que toque a la elipse, de hecho la tocará en dos puntos, digamos (x1,y1) y (x2,y2), donde f(x1,y1)=f(x2,y2) sería el mínimo buscado, es decir el mínimo que sobre la superficie f(x,y) cumple con la ecuación 2x2+3y2=10.

Pero como ahí se da una tangencia, entonces suena que justo en ese punto (x,y) hay una recta simultáneamente tangente a la curva de nivel y a la elipse. Esto nos da una relación entre gradientes. El teorema de multiplicadores de Lagrange detecta y enuncia esta relación entre gradientes con precisión y formalidad, incluso cuando tenemos más de una condición. A estas condiciones también las llamamos restricciones, y están dadas por ecuaciones.

Enunciado del teorema de multiplicadores de Lagrange

A continuación enunciamos el teorema.

Teorema (multiplicadores de Lagrange). Sea f:SRnR es un campo escalar de clase C1. Para m<n, tomamos g1,,gm:S∈⊂RnR campos escalares de clase C1 en S. Consideremos el conjunto S donde todos los gi se anulan, es decir:

S={x¯S|g1(x¯)=g2(x¯)==gm(x¯)=0}.

Tomemos un x¯0 en S para el cual

  1. f tiene un extremo local en x¯0 para los puntos de S y
  2. g1(x¯0),,gm(x¯0) son linealmente independientes.

Entonces existen λ1,,λmR, a los que llamamos multiplicadores de Lagrange tales que:

f(x¯0)=λ1g1(x¯0)++λmgm(x¯0).

Si lo meditas un poco, al tomar m=1 obtenemos una situación como la del ejemplo motivador. En este caso, la conclusión es que f(x¯0)=λg(x¯0), que justo nos dice que en x¯0, las gráficas de los campos escalares f y g tienen una tangente en común.

Demostración del teorema de multiplicadores de Lagrange

Demostración. La demostración del teorema de multiplicadores de Lagrange usa varios argumentos de álgebra lineal. Esto tiene sentido, pues a final de cuentas, lo que queremos hacer es poner un gradiente (f(x¯0)) como combinación lineal de otros gradientes (g1(x¯0),,gm(x¯0)). A grandes rasgos, lo que haremos es:

  • Definir un espacio W.
  • Mostrar que g1(x¯0),,gm(x¯0) generan al espacio ortogonal W.
  • Mostrar que f(x¯0) es ortogonal a todo vector de W, por lo cual estará en W y así por el inciso anterior será combinación lineal de g1(x¯0),,gm(x¯0).

Para construir el espacio W del que hablamos, usaremos el teorema de la función implícita y la regla de la cadena. Empecemos este argumento. Consideremos la siguiente matriz:

(1)(g1x1(x¯0)g1xm(x¯0)g1xm+1(x¯0)g1xn(x¯0)gmx1(x¯0)gmxm(x¯0)gmxm+1(x¯0)g1xn(x¯0)).

Dado que los vectores g1(x¯0),,gm(x¯0) son linealmente independientes, el rango por renglones de esta matriz es m, de modo que su rango por columnas también es m (tarea moral). Sin perder generalidad (quizás tras hacer una permutación de columnas, que permuta las entradas), tenemos que las primeras m columnas son linealmente independientes. Así, la matriz

(g1x1(x¯0)g1xm(x¯0)gmx1(x¯0)gmxm(x¯0))

es invertible. Hagamos l=nm y reetiquetemos las variables coordenadas x1,,xm como v1,,vm, y las variables coordenadas xm+1,,xn como u1,,ul. Escribiremos x¯0=(v¯0,u¯0) para referirnos al punto al que hacen referencia las hipótesis. Esto nos permite pensar Rn=Rm×Rl y nos deja en el contexto del teorema de la función implícita. Como la matriz anterior es invertible, existen URl y VRm para los cuales u¯0U, v¯0V y hay una única función h=(h1,,hm):UV de clase C1 tal que para u¯U y v¯V se cumple que g(v¯,u¯)=0 si y sólo si v¯=h(u¯).

Definamos ahora la función H:URlRm×Rl como H(u¯)=(h(u¯),u¯), la cual es de clase C1 en U.

Por cómo construimos h, sucede que (h(u¯),u¯)S para toda u¯U. Por definición, esto quiere decir que para toda i=1,,m tenemos que (giH)(u¯)=0 para toda u¯U. Esto quiere decir que giH es una función constante y por lo tanto su derivada en u¯0 es la transformación 0. Pero otra forma de obtener la derivada es mediante la regla de la cadena como sigue:

D(giH)(u¯0)=Dgi(H(u¯0))DH(u¯0)=Dgi(v¯0,u¯0)DH(u¯0).

En términos matriciales, tenemos entonces que el siguiente producto matricial es igual al vector (0,,0) de l entradas (evitamos poner (v¯0,u¯0) para simplificar la notación):

(2)(giv1givmgiu1giul)(h1u1h1ulhmu1hmul1001),

para cada i=1,,m. Nos gustaría escribir esta conclusión de manera un poco más sencilla, para lo cual introducimos los siguientes vectores para cada j=1,,l:

w¯j=((h1uj(u¯0),,hmuj(u¯0)),e^j).

Cada uno de estos lo pensamos como vector en Rm×Rl. Además, son l vectores linealmente independientes, pues sus entradas e^j son linealmente independientes. El espacio vectorial W que generan es entonces un subespacio de Rm×Rl, con dim(W)=l.

De la ecuación (2) tenemos que gi(v¯0,u¯0)w¯j=0 para todo i=1,,m, y j=1,,l. Se sigue que gi(v¯0,u¯0)W, donde W es el complemento ortogonal de W en Rm×Rl. Pero además, por propiedades de espacios ortogonales tenemos que

dim(W)=dim(Rm×Rl)dim(W)=m+ll=m.

Así dim(W)=m, además el conjunto {gi(v¯0,u¯0)}i=1m es linealmente independiente con m elementos, por tanto este conjunto es una base para W. Nuestra demostración estará terminada si logramos demostrar que f(v¯0,u¯0) también está en W, es decir, que es ortogonal a todo elemento de W.

Pensemos qué pasa al componer f con H en el punto u¯0. Afirmamos que u¯0 es un extremo local de fH. En efecto, (fH)(u¯0)=f(g(u¯0),u¯0)=(v¯0,u¯0). Si, por ejemplo (v¯0,u¯0) diera un máximo, entonces los valores f(v¯,u¯) para (v¯,u¯) dentro de cierta bola Bδ(v¯0,u¯0) serían menores a f(v¯0,u¯0). Pero entonces los valores cercanos u¯ a u¯0 cumplen (fH)(u¯)=f(h(u¯),u¯), con (u¯,h(u¯)) en S y por lo tanto menor a f(v¯0,u¯0) (para mínimos es análogo).

Resumiendo lo anterior, u¯0 es extremo local de fH. Aplicando lo que aprendimos en la entrada anterior, la derivada de fH debe anularse en u¯0. Pero por regla de la cadena, dicha derivada es

(fH)(u¯0)=D(fH)(u¯0)=Df(H(u¯0))DH(u¯0)=Df(h(u¯0),u¯0)DH(u¯0)=Df(v¯0,u¯0)DH(u¯0)

Viéndolo como multiplicación de matrices, el siguiente producto es el vector (0,0,,0) de l entradas:

(fv1fvmfu1ful)(h1u1h1ulhmu1hmul1001)=0

De donde concluimos f(v¯0,u¯0)w¯j=0 para cada j=1,l. Esto precisamente nos dice que f(v¯0,u¯0)W. Esto es justo lo que queríamos, pues habíamos demostrado que {gi(v¯0,u¯0)}i=1m es una base de W. Por ello podemos expresar a f(v¯0,u¯0) como combinación lineal de esta base, es decir, existen λ1,,λm escalares tales que:

f(v¯0,u¯0)=λ1g1(v¯0,u¯0)++λmgm(v¯0,u¯0).

◻

¡Qué bonita demostración! Usamos el teorema de la función implícita, la regla de la cadena (dos veces), nuestros resultados para valores extremos de la entrada anterior, y un análisis cuidadoso de ciertos espacios vectoriales.

Ejemplos del método de multiplicadores de Lagrange

Veamos algunos problemas que podemos resolver con esta nueva herramienta.

Ejemplo. Determinaremos los puntos extremos de f(x,y)=x+2y bajo la condición x2+y2=5. Para poner todo en términos de nuestro teorema, definimos g(x,y)=x2+y25. Por el teorema de multiplicadores de Lagrange, en los puntos extremos debe existir una λ tal que f(x,y)=λg(x,y). Calculando las parciales correspondientes, debemos tener entonces

(1,2)=λ(2x,2y).

Adicionalmente, recordemos que se debe satisfaces g(x,y)=0. Llegamos entonces al sistema de ecuaciones

{12xλ=022yλ=0x2+y25=0

Al despejar x y y en ambas ecuaciones tenemos:

x=12λy=1λx2+y25=0.

Poniendo los valores de x y y en la tercera ecuación, llegamos a (12λ)2+(1λ)25=0, de donde al resolver tenemos las soluciones λ1=12 y λ2=12.

Al sustituir en las ecuaciones de nuestro sistema, obtenemos como puntos críticos a (x,y)=(1,2) y (x,y)=(1,2).

Si intentamos calcular el hessiano de f, esto no nos dirá nada (no tendremos eigenvalores sólo positivos, ni sólo negativos). Pero esto ignora las restricciones que nos dieron. Podemos hacer una figura para entender si estos puntos son máximos o mínimos. En la Figura 1 tenemos la gráfica de f, intersectada con la superfice dada por g. Nos damos cuenta que hay un punto máximo y uno mínimo. Al evaluar, obtenemos f(1,2)=5 y f(1,2)=5. Esto nos dice que el máximo en la superficie se alcanza en (1,2) y el mínimo en (1,2).

Figura 2: Ilustración del Ejemplo 1 la función g(x,y)=x2+y25 esta dibujada en azul esta impone restricción a la función f que dibuja un plano en el espacio.

Ejemplo. Veamos cómo minimizar la expresión f(x,y,z)=x2+y2+z2 sujetos a la condición x+y+z=1. Una vez más, proponemos g(x,y,z)=x+y+z1 para tener la situación del teorema de multiplicadores de Lagrange. Debe pasar que λ f(x,y,z)=λg(x,y,z). El gradiente de g(x,y,z) es de puros ceros unos, así que tenemos el sistema de ecuaciones:

{2x=λ2y=λ2z=λx+y+z1=0

De las primeras tres ecuaciones tenemos 2x=2y=2z de donde x=y=z. Sustituyendo en la tercera ecuación, 3x1=0, es decir x=y=z=13. Ya que sólo tenemos una solución, ésta es el mínimo del conjunto de soluciones. En la figura 3 tenemos la ilustración de la solución de este problema, la esfera centrada en el origen de radio 13 toca al plano x+y+z=1 en el punto (13,13,13)

Figura 3: En azul claro el plano x+y+z=1, inflamos esferas centradas en el origen; desde la de radio cero vamos aumentando el radio hasta tener el radio correspondiente para el cual la esfera toque tangentemente al plano.

Más adelante…

Con esta entrada cerramos el curso de Cálculo Diferencial e Integral III. ¡¡Felicidades!! Esperamos que todas estas notas te hayan sido de ayuda para estudiar, repasar o impartir la materia. Quedamos al pendiente de cualquier duda, observación o sugerencia en la sección de comentarios de las entradas.

Tarea moral

  1. Determina los extremos de la función f(x,y)=xy+14 bajo la restricción x2+y2=18
  2. El plano x+y+2z=2 interseca al paraboloide z=x2+y2 en una elipse E. Determina el punto de la elipse con el valor mayor en el eje z, y el punto con el valor mínimo en el mismo eje. Sugerencia: f(x,y,z)=x+y+2z2, y g(x,y,z)=x2+y2z
  3. Determinar el máximo valor de f(x,y,z)=x2+36xy4y218x+8y bajo la restricción 3x+4y=32
  4. Determinar los puntos extremos de la función f(x,y,z)=x2+y2+z2 bajo la restricción xyz=4
  5. Demuestra que en una matriz M su rango por columnas es igual a su rango por renglones. Sugerencia. Usa el teorema de reducción gaussiana. También, puedes revisar la entrada que tenemos sobre rango de matrices.

Entradas relacionadas

Álgebra Lineal I: Problemas de ortogonalidad, ecuaciones e hiperplanos

Por Ayax Calderón

Introducción

En esta entrada ejercitaremos los conceptos introducidos recientemente. Abordamos los temas de espacio ortogonal e hiperplanos. Para ello, resolveremos problemas de ortogonalidad relacionados con encontrar una base para el espacio ortogonal y de escribir subespacios en términos de ecuaciones e intersecciones de hiperplanos.

Problemas resueltos de espacio ortogonal

Problema 1. Sea S={x3+x,x2+x,x3+x2+1}R3[x].
Describe S dando una base de este espacio.

Solución. Una forma lineal l sobre R3[x] es de la forma

l(a0+a1x+a2x2+a3x3)=aa0+ba1+ca2+da3

para algunos a,b,c,dR, pues basta decidir quiénes son a=l(1), b=l(x), c=l(x2) y d=l(x3).

La condición lS es equivalente a

l(x3+x)=l(x2+x)=l(x3+x2+1)=0.

Esto es
l(x3+x)=b+d=0l(x2+x)=b+c=0l(x3+x2+1)=a+cd=0.

La matriz asociada al sistema es

A=(010101101011)

y su forma escalonada reducida es

Ared=(100001010011).

Así, d es variable libre y a=0b=dc=d.

De aquí, el conjunto de soluciones del sistema es
{(0,u,u,u):uR}.

Las correspondientes formas lineales son lu(a0+a1x+a2x2+a3x3)=u(a1+a2+a3).

Este es un subespacio de dimensión 1, así que para determinar una base para S, basta con elegir una de estas formas lineales con u0, por ejemplo, para u=1 tenemos
l1(ao+a1x+a2x2+a3x3)=a1+a2+a3.

Problema 2. Sea V un espacio vectorial sobre un campo F, sea V su espacio dual y tomemos subconjuntos S,S1,S2V tales que S1S2. Prueba lo siguiente.

  1. S2S1.
  2. S(S).

Solución.

  1. Sea lS2. Por definición l(s)=0 para toda sS2.
    Luego, si sS1, entonces sS2 y así l(s)=0. Por consiguiente lS1. Concluimos S2S1.
  2. Sea sS. Para cualquier lS se cumple que l(s)=0 y así s(S)

◻

Observación. El problema anterior también es cierto si suponemos que S,S1,S2V tales que S1S2 y la prueba es idéntica a la anterior.

Observación. Por muy tentador que sea pensar que la igualdad se da en el inciso 2 del problema anterior, esto es totalmente falso: (S) es un subespacio de V (o de V), mientras que no hay razón para que S lo sea, pues este es solamente un subconjunto arbitrario de V (o V). Como vimos en una entrada anterior, la igualdad se da si S es un subespacio de V (o de V) cuando V es un subespacio de dimensión finita.

Problemas resueltos de ecuaciones lineales y de hiperplanos

Veamos ahora problemas de ortogonalidad relacionados con encontrar expresiones para un subespacio en términos de ecuaciones lineales y de hiperplanos.

Problema 1. Sea W el subespacio de R4 generado por los vectores

v1=(1,1,0,1)
v2=(1,2,2,1).

Encuentra ecuaciones lineales en R4 cuyo conjunto solución sea W.

Solución. Necesitamos encontrar una base para W.
Recordemos que W consiste de todas las formas lineales

l(x,y,z,t)=ax+by+cz+dt

tales que l(v1)=l(v2)=0, es decir
a+b+d=0a+2b+2c+d=0.

La matriz asociada al sistema anterior es

A=(11011221)

y por medio de reducción gaussiana llegamos a que su forma reducida escalonada es

Ared=(10210120).

De aquí, c y d son variables libres y a y b son variables pivote determinadas por
a=2cdb=2c.

Por lo tanto,
l(x,y,z,t)=(2cd)x2cy+cz+dt=c(2x2y+z)+d(x+t).

Así, deducimos que una base para W está dada por

l1(x,y,z,t)=2x2y+z y l2(x,y,z,t)=x+t

y por consiguiente W={vR4:l1(v)=l2(v)=0}, de donde l1(v)=0,l2(v)=0 son ecuaciones cuyo conjunto solución es W.

Problema 2. Considera el espacio vectorial V=R3[x]. Escribe el subespacio vectorial generado por p(x)=12x2 y q(x)=x+x2x3 como la intersección de dos hiperplanos linealmente independientes en V.

Solución. Sea B={1,x,x2,x3}={e1,e2,e3,e4} la base canónica de V.

Entonces

p(x)=e12e3q(x)=e2+e3e4.

Escribir W=span(p(x),q(x)) como intersección de dos hiperplanos es equivalente a encontrar dos ecuaciones que definan a W, digamos l1(v)=l2(v)=0 pues entonces W=H1H2, donde H1=ker(l1) y H2=ker(l2).

Así que sólo necesitamos encontrar una base l1,l2 de W.

Recordemos que una forma lineal en R3[x] es de la forma l1(x1e1+x2e2+x3e3+x4e4)=ax1+bx2+cx3+dx4

para algunos a,b,c,dR.

Esta forma lineal l pertenece a W si y sólo si l(p(x))=l(q(x))=0, o bien

a2c=0b+cd=0.

Podemos fijar c y d libremente y despejar a y b como sigue:

a=2cb=c+d.

Por consiguiente

l(x1e1+x2e2+x3e3+x4e4)=2cx1+(c+d)x2+cx3+dx4=c2x1x2+x3)+d(x2+x4).

Así deducimos que una base l1,l2 de W está dada por

l1(x1e1+x2e2+x3e3+x4e4)=2x1x2+x3l2(x1e1+x2e2+x3e3+x4e4)=x2+x4.

y así W=H1H2, donde

H1=ker(l1)={a+bx+cx2+dx3V:2ab+c=0}H2=ker(l2)={a+bx+cx2+dx3V:b+d=0}.


Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Lineal I: Ortogonalidad, hiperplanos y ecuaciones lineales

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores hablamos de formas lineales, del espacio dual y de ortogonalidad. Con la teoría que hemos desarrollado en esas entradas, podemos cosechar uno de los hechos más importantes para espacios vectoriales de dimensión finita n: todos los subespacios se pueden obtener a partir de intersectar hiperplanos, es decir, subespacios de dimensión n1. El objetivo de esta entrada es dar las definiciones necesarias para enunciar y demostrar este resultado formalmente.

Hiperplanos

Antes de demostrar el resultado mencionado en la introducción, tomaremos un poco de intuición geométrica de R3.

En R3 tenemos sólo un subespacio de dimensión 0, que es {(0,0,0)}, un punto. Para obtener un subespacio de dimensión 1, tenemos que tomar un vector v0 y considerar todos los vectores rv con r en R. Esto corresponde geométricamente a una línea por el origen, con la misma dirección que v. En otras palabras, los subespacios de dimensión 1 son líneas por el origen.

¿Quiénes son los subespacios de dimensión 2? Debemos tomar dos vectores linealmente independientes u y v y considerar todas las combinaciones lineales au+bv de ellos. Es más o menos fácil convencerse de que obtendremos al plano que pasa por u, v y el (0,0,0). Es decir, los subespacios de dimensión 2 de R3 son planos por el origen.

Esto motiva la siguiente definición.

Definición 1. Sea V un espacio vectorial de dimensión finita n. Un hiperplano de V es un subespacio de dimensión n1.

Ejemplo. El subespacio U=R5[x] de V=R6[x] es un hiperplano. Esto es ya que U es de dimesión 6 y V es de dimensión 7. Sin embargo, aunque U también es un subespacio de W=R7[x], no se cumple que U sea hiperplano de W pues W es de dimensión 8 y 681.

Las matrices simétricas de M2(R) forman un subespacio S de dimensión 3 de M2(R), pues son de la forma (abbc). De esta forma, S es un hiperplano de M2(R). Sin embargo, el conjunto de matrices simétricas de Mn(R) no es un hiperplano ni para n=1, ni para n3.

Los hiperplanos nos pueden ayudar a obtener subespacios. De hecho, veremos que en el caso de dimensión finita nos ayudan a obtener a todos los subespacios. Para continuar construyendo la intuición, notemos que en R3 los hiperplanos son simplemente los planos por el origen y que:

  • Podemos obtener a cualquier plano por el origen como intersección de planos por el origen: simplemente lo tomamos a él mismo.
  • Podemos obtener a cualquier línea por el origen como la intersección de dos planos distintos por el origen que la contengan. Por ejemplo, el eje z es la intersección de los planos xz y yz. En otras palabras: todo subespacio de dimensión 1 de R3 se puede obtener como la intersección de dos hiperplanos de R3.
  • A {0} lo podemos expresar como la intersección de los planos xy, yz y xz, osea, al único espacio de dimensión cero lo podemos expresar como intersección de 3 hiperplanos.

Ya obtenida la intuición, lo que veremos a continuación es que el resultado anterior en realidad es un fenómeno que sucede en cualquier espacio vectorial de dimensión finita. Así, nos enfocaremos en entender las definiciones del siguiente teorema, y demostrarlo.

Teorema. Sea V un espacio vectorial de dimensión finita n.

  • Todo subespacio W de V de dimensión m es la intersección de nm hiperplanos de V linealmente independientes.
  • Toda intersección de nm hiperplanos de V linealmente independientes es un subespacio vectorial de dimensión m.

Los hiperplanos son subespacio y la definición de independencia lineal que tenemos es para vectores. Pero el teorema anterior habla de «hiperplanos linealmente independientes». ¿A qué se refiere esto? Como veremos más adelante, a cada hiperplano se le puede asignar de manera natural un elemento del espacio dual de V.

Recordatorio de espacio ortogonal

En la entrada anterior mostramos el siguiente resultado:

Teorema (teorema de dualidad). Sea V un espacio vectorial de dimensión finita sobre F y W un subespacio de V (o de V). Entonces dimW+dimW=dimV.

Además, obtuvimos como corolario lo siguiente:

Corolario. Si V es un espacio vectorial de dimensión finita sobre un campo F y W un subespacio de V (o de V), entonces (W)=W.

Usaremos estos resultados para dar una definición alternativa de hiperplanos, para entender a los subespacios de dimensión n1 y para mostrar el teorema principal de esta entrada.

Subespacios de dimensión n1 y definición alternativa de hiperplanos

Tomemos un espacio vectorial V de dimensión finita n. Un caso especial, pero muy importante, del teorema de dualidad es cuando W es un subespacio de V de dimensión 1, es decir, cuando W está generado por una forma lineal l0. En este caso, W es un subespacio de V y por el teorema de dualidad, es de dimensión n1.

De manera inversa, si W es un subespacio de V de dimensión n1, por el teorema de dualidad tenemos que W es de dimensión 1, así que hay una forma lineal l0 que lo genera. Por el corolario, W=(W), que en otras palabras quiere decir que W={vV:l(v)=0}. En resumen:

Proposición. Un subespacio W de un espacio de dimensión finita d tiene dimensión d1 si y sólo si es el kernel de una forma lineal l0 de V.

Ejemplo 1. Considera la forma lineal ev0 en el espacio vectorial V=Cn[x] de polinomios con coeficientes complejos y grado a lo más n. Los polinomios p tales que ev0(p)=0 son exactamente aquellos cuyo término libre es 0. Este es un subespacio vectorial de V de dimensión n=dimV1, pues una base para él son los polinomios x,x2,,xn.

Problema. Considera el espacio vectorial V=M2,3(R). Considera W el subconjunto de matrices cuya suma de entradas en la primer columna es igual a la suma de entradas de la segunda columna. Muestra que W es un subespacio de dimensión 5 y escríbelo como el kernel de una forma lineal.

Solución. Mostrar que W es un subespacio de V es sencillo y se queda como tarea moral. Se tiene que W no puede ser igual a todo V pues, por ejemplo, la matriz (100000) no está en W, así que dimW5.

Las matrices (110000), (111000), (110001), (100010), (010100) son linealmente independientes y están en W, así que dimW5, y junto con el párrafo anterior concluimos que dimW=5.

Finalmente, tomemos la forma lineal l(abcdef)=a+dbe. Tenemos que una matriz está en el kernel de l si y sólo si a+dbe=0, si y sólo si a+d=b+e, es decir, si y sólo si las entradas de la primer columna tienen la misma suma que las de la segunda. Así, W=kerl.

◻

La proposición anterior nos permite dar una definición alternativa de hiperplano y hablar de hiperplanos linealmente independientes.

Definición 2. Sea V un espacio vectorial. Un hiperplano es el kernel de una forma lineal l0 en V. Una familia de hiperplanos es linealmente independiente si sus formas lineales correspondientes son linealmente independientes en V.

Observa además que la definición anterior también sirve para espacios vectoriales de dimensión infinita, pues nunca hace referencia a la dimensión que debe tener un hiperplano.

Ejemplo 2. El conjunto de funciones continuas f en el intervalo [0,1] tales que 01f(x)dx=0 son un subespacio W de C[0,1]. Este subespacio es un hiperplano pues es el kernel de la forma lineal I tal que I(f)=01f(x)dx.

◻

No mencionaremos más de espacios de dimensión infinita en esta entrada.

Escribiendo subespacios como intersección de hiperplanos

Ya podemos entender el teorema principal de esta entrada y demostrarlo. Lo enunciamos nuevamente por conveniencia.

Teorema 2. Sea V un espacio vectorial de dimensión finita n.

  • Todo subespacio W de V de dimensión m es la intersección de nm hiperplanos de V linealmente independientes.
  • Toda intersección de nm hiperplanos de V linealmente independientes es un subespacio vectorial de dimensión m.

Demostración. Tomemos un espacio vectorial V de dimensión finita n y un subespacio W de dimensión m. Por el teorema de dualidad, la dimensión de dimW es nm. Tomemos una base B={l1,l2,,lnm} de W. Por el corolario al teorema de dualidad, podemos expresar a W como W=(W)={vV:l1(v)==lnm(v)=0}.

Si definimos Li={vV:li(v)=0}, por la proposición de la sección anterior tenemos que cada Li es un hiperplano de V. Además, W=L1Lnm. Como los li son linealmente independientes, con esto logramos expresar a W como intersección de nm hiperplanos linealmente independientes.

Probemos ahora la segunda parte de la proposición. Tomemos el conjunto S={l1,,lnm} de formas linealmente independientes que definen a los hiperplanos. Un vector v está en la intersección de todos estos hiperplanos si y sólo si l1(v)==lnm(v)=0, si y sólo si está en S=span(S). Es decir, la intersección de los hiperplanos es precisamente el subespacio span(S). Como S es linealmente independiente, tenemos que span(S) es de dimensión nm, de modo que por el teorema de dualidad, dimspan(S)=n(nm)=m. Esto muestra lo que queremos.

◻

Algunos problemas prácticos

Si tenemos un espacio V de dimensión finita n, un subespacio W de dimensión finita m y queremos encontrar de manera práctica la expresión de W como intersección de hiperplanos de V, podemos hacer el siguiente procedimiento:

  • Determinamos una base l1,,lnm para W (la cual consiste de formas lineales de V). Esto lo podemos hacer con los pasos que mencionamos en la entrada anterior.
  • Definimos Li={vV:li(v)=0}.
  • Tendremos que W es la intersección de los Li.

Una última observación es que cada Li está definido por una ecuación lineal. Esto nos permite poner a cualquier subespacio como el conjunto solución a un sistema lineal. Esto lo cual podemos ver de forma práctica de la siguiente manera:

  • Tomamos una base e1,,en de V.
  • Tomemos un vector v=a1e1++anen que queremos determinar si está en W. Para ello, debe estar en cada Li.
  • Cada Li está definido mediante la ecuación li(v)=0 de modo que si v está en Li sus coordenadas a1,,an en la base e1,,en deben satisfacer la ecuación lineal li(e1)a1++li(en)an=0.
  • De esta forma, los vectores v en W son aquellos cuyas coordenadas en la base e1,,en satisfacen el sistema de ecuaciones obtenido de las ecuaciones lineales para cada i del punto anterior.

Veremos algunos ejemplos de estos procedimientos en la siguiente entrada.

La receta anterior nos permite concluir la siguiente variante del teorema de esta entrada, escrito en términos de ecuaciones lineales.

Teorema. Sea V un espacio vectorial de dimensión finita n y B una base de V.

  • Un subespacio W de dimensión m se puede definir mediante un sistema de ecuaciones lineales independientes que deben satisfacer las coordenadas de los vectores de W escritos en la base B.
  • Aquellos vectores cuyas coordenadas en la base B satisfacen un sistema de ecuaciones lineales independientes homogéneo, forman un subespacio de V de dimensión nm.

La moraleja de esta entrada es que podemos pensar que los sistemas de ecuaciones, las intersecciones de hiperplanos y los subespacios de un espacio vectorial de dimensión finita son «prácticamente lo mismo».

Más adelante…

A lo largo de esta entrada enunciamos las definiciones necesarias para llegar al teorema que mencionamos al inicio: para un espacio vectorial de dimension finita n, todos los subespacios se pueden obtener a partir de intersectar hiperplanos, es decir, subespacios de dimensión n1.

En la siguiente entrada utilizaremos este resultado para resolver algunos ejercicios y veremos en acción este importante teorema.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Considera el plano P en R3 que pasa por el origen y por los vectores (1,1,1), (0,2,0). Encuentra reales a,b,c tales que P={(x,y,z):ax+by+cz=0}.
  • En todos los ejemplos en los que se menciona que algo es subespacio, verifica que en efecto lo sea. En los que se menciona que un conjunto es base, también verifica esto.
  • Encuentra una base para el espacio de polinomios p en Mn(C) tales que ev(1)(p)=0.
  • Sea W el subconjunto de matrices de V:=Mn(R) tal que la sumas de las entradas de todas las filas son iguales. Muestra que W es un subespacio de V. Determina la dimensión de W y exprésalo como intersección de hiperplanos linealmente independientes.
  • ¿Qué sucede cuando intersectas hiperplanos que no corresponden a formas linealmente independientes? Más concretamente, supongamos que tienes formas lineales l1,,lm de Fn. Toma B={e1,,en} la base canónica de Fn. Considera la matriz A=[li(ej)]. ¿Qué puedes decir de la dimensión de la intersección de los hiperplanos correspondientes a los li en términos del rango de la matriz A?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Álgebra Lineal I: Ortogonalidad y espacio ortogonal

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores hablamos de formas lineales y del espacio dual. Vimos que las formas coordenadas correspondientes a una base forman bases del espacio dual. También hicimos ejemplos prácticos de cómo encontrar bases duales y cómo hacer cambios de base en el espacio dual. Usaremos la teoría que hemos desarrollado hasta el momento para estudiar los conceptos de ortogonalidad y espacio ortogonal.

Antes de comenzar, es importante dejar un consejo. Quizás a estas alturas asocias a la ortogonalidad con la perpendicularidad. Esta intuición puede ayudar un poco más adelante, pero por el momento es recomendable que dejes esa intuición de lado. El problema es que la «perpendicularidad» habla de parejas de segmentos, parejas de lineas, o parejas de vectores. Sin embargo, las nociones de ortogonalidad que estudiaremos ahora hablan de cuándo una forma lineal l y un vector v son ortogonales, por lo cual es mejor pensarlo por el momento en la ortogonalidad como un concepto nuevo.

Definiciones de ortogonalidad y espacio ortogonal

En esta sección, V es un espacio vectorial sobre un campo F.

Definición. Tomemos una forma lineal l de V y v un vector en V. Decimos que l y v son ortogonales si l,v=0.

De manera equivalente, l y v son ortogonales si l(v)=0, o si v está en el kernel de l.

Ejemplo 1. Consideremos la forma lineal l de los polinomios en R2[x] que a un polinomio lo manda a su evaluación en 2, es decir, tal que l(p)=p(2). Consideremos al polinomio p(x)=x23x+2. Tenemos que l(p)=p(2)=2232+2=46+2=0, de modo que l,p=0, así que l y p son ortogonales. Por otro lado, si q(x)=x+1, tenemos que l,q=l(q)=3, de modo que l y q no son ortogonales.

Ejemplo 2. Consideremos la forma lineal l(x,y,z)=2x+3yz de R3. Un vector que es ortogonal con l es el vector v=(0,0,0). Un vector un poco más interesante es el vector (1,1,5) pues l(1,1,5)=2+35=0.

El vector (1,1,5) también es ortogonal a la forma lineal m(x,y,z)=x+y2z5, como puedes verificar.

A partir de la noción anterior, nos podemos hacer dos preguntas. Dado un conjunto de vectores, ¿quiénes son todas las formas lineales ortogonales a todos ellos? Dado un conjunto de formas lineales, ¿quiénes son todos los vectores ortogonales a todas ellas? Esta noción queda capturada en la siguiente definición.

Definición. Para S un subconjunto de V, definimos al ortogonal de S como el conjunto de formas lineales de V ortogonales a todos los elementos de S. En símbolos, S:={lV:l,v=0vS}.

Tenemos una definición dual para subconjuntos de V.

Definición. Para S un subconjunto de V, el ortogonal de S es el conjunto de vectores de V ortogonales a todos los elementos de S. En símbolos, S={vV:l,v=0lS}.

Observa que estamos definiendo al ortogonal para subconjuntos de V (y de V), es decir, que S no tiene por qué ser un subespacio vectorial de V. Por otro lado, sea o no S un subespacio, siempre tenemos que S es un subespacio. Por ejemplo, si S es un subconjunto de V y l1, l2 son formas lineales que se anulan en todos los elementos de S, entonces para cualquier escalar c también tenemos que l1+cl2 se anula en todos los elementos de S.

Ejercicio. Tomemos S al subconjunto de matrices diagonales con entradas enteras en M2(R). ¿Quién es S? Ojo: Aquí S no es un subespacio.

Solución. Sabemos que para cualquier forma lineal l de M2(R) existen reales p, q, r, s tales que l(abcd)=pa+qb+rc+sd.

Si l está en S, se tiene que anular en particular en las matrices A=(1000) y B=(0001), pues ambas están en S. En otras palabras, 0=l(A)=p y 0=l(B)=s. Así, la forma lineal tiene que verse como sigue:

l(abcd)=qb+rc.

Y en efecto, todas las formas lineales de esta forma se anulan en cualquier matriz diagonal con entradas enteras, pues en esas matrices b=c=0.

Encontrar el espacio ortogonal de manera práctica

Ya mencionamos que S no necesariamente tiene que ser un subespacio para definir S. Sin embargo, usando la linealidad podemos mostrar que, para cualquiera de las dos definiciones, basta estudiar qué sucede con subespacios vectoriales. La demostración de la siguiente proposición es sencilla, y se deja como tarea moral.

Proposición 1. Para S un subconjunto de V (o de V), tenemos que S=span(S).

Esta proposición es particularmente importante pues en espacios vectoriales de dimensión finita nos permite reducir el problema de encontrar ortogonales para subconjuntos de vectores (o de formas lineales), a simplemente resolver un sistema de ecuaciones. El procedimiento que hacemos es el siguiente (lo enunciamos para vectores, para formas lineales es análogo):

  • Tomamos una base B={b1,,bn} de V.
  • Tomamos un subconjunto S de vectores de V.
  • Usamos la Proposición 1 para argumentar que S=span(S).
  • Consideramos una base C={c1,,cm} de span(S) y notamos que una forma lineal l se anula en todo span(S) si y sólo si se anula en cada elemento de C.
  • Escribimos a cada ci como combinación lineal de elementos de B, digamos ci=ai1b1++ainbn.
  • Cada condición l(ci)=0 se transforma en la ecuación lineal ai1l(b1)++ainl(bn)=l(ci)=0 en las variables l(b1),l(b2),,l(bn) igualada a 0, de forma que las m condiciones dan un sistema de ecuaciones homogéneo.
  • Podemos resolver este sistema con reducción gaussiana para encontrar todas las soluciones, aunque basta con encontrar a las soluciones fundamentales, pues justo forman la base de span(S)=S.

Veamos este método en acción.

Ejemplo de encontrar el espacio ortogonal de manera práctica

Ejercicio. Considera el subconjunto S de R3 cuyos elementos son (2,3,5), (1,0,1), (3,3,6), (3,2,5). Determina S.

Solución. Para encontrar S, basta encontrar span(S).

Lo primero que notamos es que todos los vectores de S satisfacen que la suma de sus entradas es 0, así que todos los vectores en span(S) también, de modo que span(S) no es todo R3, así que es de dimensión a lo más 2. Notamos también que (1,0,1) y (2,3,5) son linealmente independientes, así que span(S) es de dimensión al menos 2, de modo que es de dimensión exactamente 2 y por lo tanto (1,0,1) y (2,3,5) es una base.

Para cualquier forma lineal l en R3 existen reales a, b, c tales que l(x,y,z)=ax+by+cz. Para encontrar aquellas formas lineales que se anulan en span(S), basta encontrar aquellas que se anulan en la base, es decir, en (1,0,1) y (2,3,5). De esta forma, necesitamos resolver el sistema de ecuaciones homogéneo a+c=02a+3b5c=0.

Para resolver este sistema, aplicamos reducción gaussiana:

(101235)(101033)(101011)

La variable libre es c y las pivote son a y b. Obtenemos a=c y b=c, de donde las soluciones se ven de la forma (c,c,c). Concluimos entonces que S son las formas lineales tales que l(x,y,z)=c(x+y+z) para algún real c.

En el ejemplo anterior, la dimensiones de span(S) y de span(S) suman 3, que es la dimensión de R3. Esto no es una casualidad, como veremos en la siguiente sección.

El teorema de dualidad

Las dimensiones de un subespacio de un espacio vectorial de dimensión finita, y de su espacio ortogonal, están relacionadas con la dimensión del espacio. Este es uno de los teoremas más importantes de dualidad.

Teorema. Sea V un espacio vectorial de dimensión finita sobre F y W un subespacio de V (o de V). Entonces dimW+dimW=dimV.

Demostración. Hagamos primero el caso en el que W es un subespacio de V. Supongamos que dimV=n y que dimW=m. Como W es subespacio, tenemos que mn. Tenemos que mostrar que dimW=nm, así que basta exhibir una base de dimW con nm formas lineales.

Para ello, tomemos e1,e2,,em una base de W y tomemos elementos em+1,,en que la completan a una base de V. Afirmamos que la base de W que estamos buscando consiste de las formas coordenadas em+1,,en correspondientes a em+1,,en.

Por un lado, estas formas coordenadas son linealmente independientes, pues son un subconjunto de la base e1,,en de V. Por otro lado, si tenemos a una forma lineal l de V, habíamos mostrado que la podemos expresar de la forma l=i=1nl,eiei, de modo que si l se anula en todo W, en particular se anula en los vectores e1,,em, por lo que l=i=m+1nl,eiei, lo cual exhibe a l como combinación lineal de los elementos em+1,,en. De esta forma, este subconjunto de formas lineales es linealmente independiente y genera a W, que era justo lo que necesitábamos probar.

Ahora hagamos el caso en el que W es un subespacio de V. Podríamos hacer un argumento análogo al anterior, pero daremos una prueba alternativa que usa la bidualidad canónica ι:VV. La igualdad l,v=0 es equivalente a ι(v),l=0. De esta forma, v está en W si y sólo si ι(v)V se anula en todo W. Como ι es isomorfismo y el espacio de los gV que se anulan en W tiene dimensión dimVdimW=dimVdimW (por la primer parte del teorema), concluimos entonces que dimW=dimVdimW, lo cual prueba la otra parte del teorema.

◻

Problema. Sea W el subespacio de matrices simétricas de M3(R) ¿Cuál es la dimensión de W?

Solución. Se puede mostrar que E11, E22, E33, E12+E21, E23+E32, E13+E31 forman una base para W. De esta forma, W tiene dimensión 6. Por el Teorema 1, tenemos que dimW=dimM3(R)6=96=3.

Aplicar dos veces ortogonalidad en subespacios

Una consecuencia importante del teorema anterior es que aplicarle la operación «espacio ortogonal» a un subespacio de un espacio de dimensión finita nos regresa al inicio. Más formalmente:

Corolario. Si V es un espacio vectorial de dimensión finita sobre un campo F y W un subespacio de V (o de V), entonces (W)=W.

Demostración. Haremos la prueba para cuando W es subespacio de V. La otra es análoga y se deja como tarea moral. Lo primero que vamos a mostrar es que W(W). Tomemos w en W. Tenemos que mostrar que l(w)=0 para cualquier l en W. Por definición, un l en W se anula en todo elemento de W, así que se anula particularmente en w, como queremos.

Como W y (W) son espacios vectoriales, tenemos que W es subespacio de (W). Por el teorema de dualidad, tenemos que dimW=dimVdimW. Usando esto y de nuevo el teorema de dualidad, tenemos que dim(W)=dimVdimW=dimW.

De esta forma, W es un subespacio de dim(W) de su misma dimensión, y por lo tanto W=(W).

◻

Hay que tener particular cuidado en usar el corolario anterior. Solamente se puede garantizar su validez cuando W es un subespacio de V, y cuando V es de dimensión finita. En efecto, si S es simplemente un subconjunto de V y no es un subespacio, entonces la igualdad S=(S) es imposible, pues al lado derecho tenemos un subespacio de V y al izquierdo no.

Más adelante…

En esta entrada hablamos de ortogonalidad y de espacios ortogonales como si fueran un concepto nuevo, dejando de lado, al menos por el momento, nuestras ideas previas de asociar ortogonalidad con perpendicularidad. También vimos cómo encontrar un espacio ortogonal de manera práctica y hablamos de un teorema muy importante: el teorema de la dualidad.

Lo que sigue es hablar de cómo la noción de ortogonalidad nos permite estudiar sistemas de ecuaciones e hiperplanos. En la siguiente entrada estudiaremos estos conceptos.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Demuestra la proposición enunciada en la entrada.
  • Sea S el subespacio de matrices diagonales en Mn(R). ¿Cuál es la dimensión de S?
  • Considera R3[x], el espacio vectorial de polinomios con coeficientes reales y grado a lo más 3. Considera las formas lineales ev2 y ev3 que evalúan a un polinomio en 2 y en 3 respectivamente. ¿Quién es el espacio ortogonal de {ev2,ev3}?
  • Prueba la segunda parte del teorema de dualidad con un argumento análogo al que usamos para probar la primer parte.
  • Prueba el corolario para cuando W es subespacio de V.
  • Verifica que las matrices propuestas en el último ejercicio en efecto forman una base para el subespacio de matrices simétricas.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»