Archivo del Autor: Leonardo Ignacio Martínez Sandoval

Leonardo Ignacio Martínez Sandoval

Acerca de Leonardo Ignacio Martínez Sandoval

Hola. Soy Leonardo Martínez. Soy Profesor de Tiempo Completo en la Facultad de Ciencias de la UNAM. Hice un doctorado en Matemáticas en la UNAM, un postdoc en Israel y uno en Francia. Además, me gusta colaborar con proyectos de difusión de las matemáticas como la Olimpiada Mexicana de Matemáticas.

Álgebra Superior II: Continuidad y diferenciabilidad de polinomios reales

Por Leonardo Ignacio Martínez Sandoval

Introducción

Al inicio de esta unidad, hablamos de las propiedades algebraicas de $\mathbb{R}[x]$, definimos sus operaciones y argumentamos por qué se puede usar la notación de potencias. Luego hablamos de las propiedades aritméticas de los polinomios cuando hablamos de divisibilidad, máximo común divisor y factorización en irreducibles. Vimos una aplicación de esto a la solución de desigualdades. Lo que queremos hacer ahora es pensar a los polinomios como funciones de $\mathbb{R}$ en $\mathbb{R}$ y entender las propiedades analíticas que tienen, es decir en términos de cálculo. Nos interesa saber qué les sucede cuando su entrada es grande, la continuidad y la diferenciabilidad de polinomios.

Estas propiedades tienen consecuencias algebraicas importantes. La continuidad de polinomios nos permite encontrar raíces reales en ciertos intervalos. La diferenciabilidad de polinomios nos ayuda a encontrar la multiplicidad de las raíces. Supondremos que manejas conocimientos básicos de cálculo y de manipulación de límites, pero de cualquier forma recordaremos algunas definiciones y daremos esbozos de la demostración de algunos resultados.

Límites a reales y límites a infinito

Recordemos dos definiciones de cálculo, que se aplican para funciones arbitrarias definidas en todos los reales.

Definición. Sea $f:\mathbb{R}\to \mathbb{R}$ una función y $a, b$ reales. Decimos que $$\lim_{x\to a} f(x) = b$$ si para todo $\epsilon >0$ existe un $\delta > 0 $ tal que cuando $0<|x-a|<\delta$, entonces $|f(x)-b|<\epsilon$. En palabras, decimos que el límite de $f$ cuando $x$ tiende a $a$ es $b$.

Definición. Sea $f:\mathbb{R}\to \mathbb{R}$ una función. Decimos que $$\lim_{x\to \infty} f(x) = \infty$$ si para todo $M>0$ existe un $r > 0 $ tal que cuando $x>r$, entonces $f(x)>M$. En palabras, decimos que el límite de $f$ cuando $x$ tiende a infinito es infinito.

De manera análoga se pueden definir límites cuando $x$ tiende a menos infinito, y definir qué quiere decir que el límite sea menos infinito. La siguiente proposición se prueba en textos de cálculo.

Proposición (propiedades de límites). Sean $f:\mathbb{R}\to \mathbb{R}$ y $g:\mathbb{R}\to \mathbb{R}$ funciones y $a$, $b$, $c$ reales. Si $$\lim_{x\to a} f(x) = b \quad \text { y } \quad \lim_{x\to a} g(x)= c,$$ entonces:

  • «El límite de la suma es la suma de los límites», en símbolos, $$\lim_{x\to a} (f+g)(x) = b+c.$$
  • «El límite del producto es el producto de los límites», en símbolos, $$\lim_{x\to a} (fg)(x)=bc.$$

La proposición anterior es sólo para cuando los límites son reales. Hay resultados para cuando algunos de los límites son infinitos, pero en general hay que tener cuidado.

La primer propiedad analítica de los polinomios es saber cómo es su comportamiento cuando $x$ se hace infinito o menos infinito. Si el polinomio es constante, entonces este límite es simplemente su valor en cualquier punto. Para polinomios de grado mayor o igual a $1$, su comportamiento queda resumido en la siguiente proposición.

Proposición (límites a infinito). Tomemos al polinomio $p(x)$ en $\mathbb{R}[x]$ dado por $$p(x)=a_0+a_1x+a_2x^2+\ldots+a_nx^n,$$ en donde $n\geq 1$ y $a_n\neq 0$.

  • Si $a_n>0$ y $p(x)$ es de grado par entonces $$\lim_{x\to \infty} p(x) = \lim_{x\to-\infty} p(x)= \infty,$$
  • Cuando $a_n>0$ y $p(x)$ es de grado impar entonces $$\lim_{x\to \infty} p(x) = \infty \quad \text { y } \quad \lim_{x\to -\infty} p(x)=-\infty$$
  • Si $a_n<0$ y $p(x)$ es de grado par entonces $$\lim_{x\to \infty} p(x) = \lim_{x\to-\infty} p(x)= -\infty,$$
  • Cuando $a_n<0$ y $p(x)$ es de grado impar entonces $$\lim_{x\to \infty} p(x) = -\infty \quad \text { y } \quad \lim_{x\to -\infty} p(x)=\infty.$$

Demostración. Vamos a hacer una de las demostraciones. Mostraremos que para cuando $a_n>0$ y el grado es par, entonces $$\lim_{x\to \infty} p(x) = \infty.$$ Las demás se siguen haciendo cambios de signo cuidadosos y usando que una potencia impar de un real negativo es un real negativo, y una potencia par es siempre un real positivo. Pensar en estas demostraciones queda como tarea moral.

Tomemos entonces $p(x)$ un polinomio de grado par y con coeficiente principal $a_n>0$. Intuitivamente, tenemos que mostrar que si $x$ es muy grande, entonces $p(x)$ es tan grande como queramos. Tomemos un real $M>0$. Como haremos $x$ grande, podemos suponer que $x>1$.

Como el término $a_nx^n$ es positivo, basta mostrar como resultado auxiliar que si $x$ es suficentemente grande, entonces $$a_nx^n >M+|a_0+a_1x+\ldots+a_{n-1}x^{n-1}|,$$ ya que si esto sucede, tendríamos que:
\begin{align*}
a_nx^n&>M+|a_0+a_1x+\ldots+a_{n-1}x^{n-1}|\\
&=M+|-a_0-a_1x-\ldots-a_{n-1}x^{n-1}|\\
&>M-a_0-a_1x-\ldots-a_{n-1}x^{n-1},
\end{align*}

y de aquí, pasando todo excepto a $M$ a la izquierda, tendríamos $p(x)>M$.

Para probar el resultado auxiliar, tomemos $A$ como el máximo de los valores absolutos $|a_0|,\ldots,|a_{n-1}|$. Por la desigualdad del triángulo y usando $x>1$ tenemos que

\begin{align*}
M+|a_0&+a_1x+\ldots+a_{n-1}x^{n-1}|\\
&\leq M+|a_0|+|a_1 x| + \ldots + |a_{n-1}x^{n-1}|\\
&\leq M+A(1+x+\ldots+x^{n-1})\\
&< M+nA\\
&<(M+nA)x^{n-1}
\end{align*}

De esta forma, para mostrar nuestra desigualdad auxiliar basta mostrar que para $x$ suficientemente grande, tenemos que $(M+nA)x^{n-1}<a_nx^n$. Pero como $x>0$, esta desigualdad es equivalente a $x>\frac{M+nA}{a_n}$.

Recapitulando, para cualquier $M>0$, si $x>\frac{M+nA}{a_n}$, entonces $p(x)>M$. Esto termina la demostración.

$\square$

Podemos usar la proposición anterior para comparar polinomios cuando su variable tiende a infinito.

Ejemplo. Mostraremos que existe una $M$ suficientemente grande tal que si $x>M$, entonces $$\frac{1}{2}x^7-x^6-x-1>x^6+1000x^5+1000000.$$ Pasando todo del lado izquierdo, nos queda la desigualdad equivalente $$\frac{1}{2}x^7-2x^6-1000x^5-x-999999>0.$$ Aquí tenemos un polinomio $p(x)$ de grado impar y coeficiente principal positivo. Por la proposición anterior, $\lim_{x\to \infty} p(x) = \infty$, de modo que la $M$ que estamos buscando existe.

$\triangle$

Continuidad de polinomios

Antes de llegar a diferenciabilidad de polinomios, haremos un paso intermedio. Recordemos otra definición de cálculo.

Definición. Sea $f:\mathbb{R}\to \mathbb{R}$ una función y $a$ un real. Decimos que $f$ es continua en $a$ si $$\lim_{x\to a} f(x) = f(a).$$ Decimos que $f$ es continua si es continua en todo real.

Por la proposición de propiedades de límites, la suma o producto de funciones continuas es continua. Las funciones constantes son continuas. La función identidad $I:\mathbb{R}\to \mathbb{R}$ dada por $I(x)=x$ es continua. Estos tres hechos nos ayudan a demostrar que todos los polinomios son funciones continuas sin tener que recurrir a la definición de límite.

Teorema. Cualquier polinomio $p(x)$ en $\mathbb{R}[x]$ pensado como una función $p:\mathbb{R}\to \mathbb{R}$ es una función continua.

Demostración. Supongamos que $p(x)$ está dado por $$p(x)=a_0+a_1x+\ldots+a_nx^n.$$

Para toda $i$ de $0$ a $n$ tenemos que la función $x\mapsto a_i$ es constante y por lo tanto es continua. Si $i>0$, la función $x\mapsto x^i$ es producto de $i$ veces la identidad consigo misma. Como la identidad es continua y producto de continuas es continua, entonces $x\mapsto x^i$ es continua.

De nuevo, usando que producto de funciones continuas es continua, tenemos que $x\mapsto a_ix^i$ es una función continua. De esta forma, $p(x)$ es la suma de $n+1$ funciones continuas, y por lo tanto es una función continua.

$\square$

El resultado anterior nos ayuda a usar teoremas versátiles de cálculo en nuestro estudio de polinomios. Recordemos el teorema del valor intermedio.

Teorema (del valor intermedio). Sea $f:\mathbb{R}\to \mathbb{R}$ una función continua. Sean $a<b$ dos reales. Entonces entre $a$ y $b$, la función $f$ toma todos los valores entre $f(a)$ y $f(b)$.

Veamos cómo el teorema del valor intermedio nos permite encontrar raíces de polinomios.

Problema 1. Muestra que el polinomio $p(x)=x^7-5x^5+x^2+3$ tiene por lo menos una raíz en el intervalo $[0,2]$.

Solución. Al evaluar al polinomio en cero, obtenemos $p(0)=3$. Al evaluarlo en $2$, obtenemos
\begin{align*}
p(2)&=2^7-5\cdot 2^5+x^2 + 3\\
&=128-160+4+3\\
&=-25.
\end{align*}

Como los polinomios son funciones continuas, podemos aplicar el teorema del valor intermedio. Concluimos que $p(x)$ toma todos los valores de $-25$ a $2$ en el intervalo $[0,2]$. En particular, existe un real $r$ en $[0,2]$ tal que $p(r)=0$.

$\triangle$

El teorema del valor intermedio nos ayuda a demostrar que un polinomio tiene una raíz en cierto intervalo. Sin embargo, no es de tanta utilidad para decir exactamente cuál es esa raíz. Es un resultado existencial en vez de ser constructivo. Veamos un ejemplo más, que muestra una proposición que quedó pendiente en una entrada anterior.

Problema 2. Sea $p(x)$ un polinomio cuadrático, mónico e irreducible en $\mathbb{R}[x]$. Muestra que $p(r)>0$ para todo real $r$.

Solución. Procedamos por contradicción. Supongamos que $p(r)\leq 0$ para algún real $r$.

Como $p(x)$ es mónico, su coeficiente principal es $1$, que es positivo. Como $p(x)$ es cuadrático, es de grado par. Por la proposición de límites a infinito, existe un real $t>r$ tal que $p(t)>0$. Por el teorema del valor intermedio, existiría un real $s$ en el intervalo $[r,t]$ tal que $p(s)=0$. Pero esto es imposible, pues entonces por el teorema del factor $x-s$ divide a $p(x)$ y esto contradice que $p(x)$ es irreducible.

$\triangle$

Como muestra el problema anterior, se pueden combinar los límites de polinomios a infinito y menos infinito, y sus propiedades de continuidad. Otra aplicación es mostrar que todo polinomio de grado impar tiene por lo menos una raíz real. Esto se verá en otra entrada.

Por supuesto, otros resultados de continuidad también se pueden usar en todos los polinomios, como el teorema del valor extremo. Aplicándolo directamente, concluimos lo siguiente.

Proposición. Sean $a<b$ reales y $p(x)$ un polinomio en $\mathbb{R}$. Entonces $p(x)$ está acotado en el intervalo $[a,b]$ y existen reales $r$ y $s$ en dicho intervalo tales que $p(r)$ y $p(s)$ son el mínimo y máximo de $p(x)$ en $[a,b]$, respectivamente.

Diferenciabilidad de polinomios

Es momento de hablar de diferenciabilidad de polinomios. Recordemos una última definición de cálculo.

Definición. Sea $f:\mathbb{R}\to \mathbb{R}$ una función. Decimos que $f$ es diferenciable en $a$ si el límite $$\lim_{h\to 0} \frac{f(a+h)-f(a)}{h}$$ existe. En este caso, a ese límite lo denotamos por $f'(a)$. Una función es diferenciable si es diferenciable en todo real. A la función $f’:\mathbb{R}\to \mathbb{R}$ le llamamos la derivada de $f$.

Al igual que en el caso de continuidad, la suma y producto de funciones diferenciales es diferenciable. Si $f:\mathbb{R}\to \mathbb{R}$ y $g:\mathbb{R}\to \mathbb{R}$ son diferenciables, entonces la derivada de $f+g$ está dada por $$(f+g)'(x)=f'(x)+g'(x)$$ y la derivada de $fg$ está dada por la regla de la cadena $$(fg)'(x)=f'(x)g(x)+f(x)g'(x).$$

Las funciones constantes son diferenciables, y su derivada es la función constante $0$. La función identidad es diferenciable, y su derivada es la función constante $1$. Esto es sencillo de mostrar y queda como tarea moral.

Proposición. Sea $n\geq 1$ un entero. El polinomio $p(x)=x^n$ es diferenciable, y su derivada es la función $p'(x)=nx^{n-1}$.

Demostración. Haremos la prueba por inducción. Si $n=1$, el polinomio es $p(x)=x$, y su derivada es $p'(x)=1=1\cdot x^0$, como queremos. Supongamos que el resultado es cierto para el entero $n\geq 1$ y tomemos $p(x)=x^{n+1}=x^n\cdot x$. Por hipótesis inductiva, $x\mapsto x^n$ es diferenciable. Como $p(x)$ es producto de dos funciones diferenciables, entonces es diferenciable.

Usando la regla de la cadena, la hipótesis inductiva de la fórmula y la derivada de $x\mapsto x$, tenemos que $$p'(x)=(nx^{n-1})(x)+(x^n)(1)=(n+1)x^n.$$ Esto termina la demostración.

$\square$

Con todos estos ingredientes podemos mostrar la diferenciabilidad de todos los polinomios. Los detalles quedan como tarea moral.

Teorema (diferenciabilidad de polinomios). Sea $p(x)$ un polinomio en $\mathbb{R}[x]$ dado por $$p(x)=a_0+a_1x+\ldots+a_nx^n,$$ Entonces $p(x)$ pensado como función es diferenciable y su derivada es un polinomio. Si $p(x)$ es constante, su derivada es el polinomio $0$. En otro caso, su derivada es el polinomio $$a_1+2a_2x+3a_3x^2+\ldots+na_nx^{n-1}.$$

Ejemplo. El polinomio $x^7+3x^2-1$ es diferenciable. Su derivada es el polinomio $7x^6+6x$.

$\triangle$

Ya que sabemos que los polinomios son diferenciables, podemos usar todas las herramientas de cálculo diferencial, como:

No profundizaremos en esto, pues es el contenido de un buen curso de cálculo, o bien de material de algún texto en el área, como el libro de Cálculo de Spivak.

A nosotros nos interesa una consecuencia algebraica de que los polinomios tengan derivada. Como la derivada de un polinomio es otro polinomio, entonces la derivada es diferenciable. Por ello, un polinomio $p(x)$ se puede derivar iteradamente tantas veces como se quiera. Al polinomio obtenido de derivar $n$ veces le llamamos la $n$-ésima derivada y lo denotamos por $p^{(n)}(x)$. En la siguiente entrada veremos cómo la repetida diferenciabilidad de polinomios nos ayuda a detectar la multiplicidad de sus raíces.

Más adelante…

En la siguiente sección nos encargaremos de realizar varios problemas para repasar las definiciones y propiedades que acabamos de enunciar, y posteriormente ocuparemos todo lo aprendido para explotar el conocimiento que tenemos de los polinomios.

En particular, nos será útil el concepto de diferenciabilidad pues con este podemos dar una definición precisa de lo que significa que la raíz de un polinomio sea múltiple.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Estudia el resto de los casos de la proposición de límites de polinomios cuando la entrada va a menos infinito y a infinito.
  2. Muestra usando la definición de límite que las funciones constantes y la función identidad son continuas.
  3. Demuestra por definición que las funciones constantes son diferenciables y que su derivada es la función constante $0$. Demuestra por definición que la función identidad es diferenciable y que su derivada es la función constante $1$.
  4. Muestra que existe un real $x$ en el cual los polinomios $p(x)=x^5+x^3+x$ y $q(x)=100x^4+10x^2$ son iguales. Sugerencia. Reescribe esta igualdad en términos de encontrar una raíz de un sólo polinomio.
  5. Completa los detalles del teorema de diferenciabilidad de polinomios.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Álgebra Lineal I: Eigenvalores y eigenvectores de transformaciones y matrices

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores ya establecimos los fundamentos para hablar de determinantes. Dimos su definición para el caso de vectores y el caso de matrices/transformaciones lineales. Enunciamos y demostramos varias de sus propiedades. Luego dedicamos toda una entrada a ver formas de calcularlos. Finalmente, vimos que nos pueden ayudar para entender mucho mejor a los sistemas de ecuaciones lineales. Entender bien estos conceptos te será de gran utilidad en tu formación matemática.

Además, los determinantes son un paso natural en uno de nuestros objetivos del curso: entender por qué las matrices simétricas reales son diagonalizables. Recuerda que una matriz $A$ en $M_n(F)$ es diagonalizable si existe una matriz diagonal $D$ y una matriz invertible $P$, ambas en $M_n(F)$, de modo que $$A=P^{-1}DP.$$

Lo que haremos en esta entrada es hablar de esos valores que aparecen en la matriz diagonal $D$ en el caso de que $A$ sea diagonalizable. Resulta que estos valores están relacionados con una pregunta muy natural en términos de lo que le hace la matriz a ciertos vectores. Y mejor aún, como veremos, hay un método para encontrar estos valores por medio de un determinante. Vamos poco a poco.

Eigenvalores y eigenvectores para transformaciones lineales

Sea $V$ un espacio vectorial sobre un campo $F$ y sea $T:V\to V$ una transformación lineal. Para fijar ideas, pensemos en $\mathbb{R}^n$ por el momento. A veces, $T$ simplemente la cambia la magnitud a un vector, sin cambiarle la dirección. Es decir, hay algunos vectores para los cuales $T$ se comporta simplemente como la multiplicación por un escalar. En símbolos, hay vectores $v$ tales que existe un valor $\lambda$ tal que $T(v)=\lambda v$.

Por supuesto, al vector $0$ siempre le pasa esto, pues como $T$ es lineal, se tiene que $T(0)=0=\lambda\cdot 0$ para cualquier escalar $\lambda$. Resulta que cuando se estudian estos vectores y escalares especiales, lo más conveniente es quitar al vector $0$ de la discusión. Estas ideas llevan a la siguiente definición.

Definición. Un eigenvalor de una transformación lineal $T:V\to V$ es un escalar $\lambda$ tal que $\lambda \text{id} – T$ no es invertible. En otras palabras, $\lambda$ es un escalar tal que existe un vector no cero en el kernel de $\lambda \text{id} – T$. A un vector $v\neq 0$ en $V$ tal que $$(\lambda \text{id} – T)v=0,$$ se le conoce como un eigenvector de $T$.

En otras palabras, $v$ es un eigenvector correspondiente a $T$ si $v$ no es cero y $T(v)=\lambda v$. A los eigenvalores y eigenvectores de $T$ también se les conoce en la bibliografía como valores propios y vectores propios de $T$.

Observa que si al conjunto de eigenvectores para un eigenvalor $\lambda$ le agregamos el vector $0$, entonces obtenemos el kernel de una transformación lineal, que sabemos que es un subespacio vectorial.

Veamos un par de ejemplos para que queden más claras las ideas.

Ejemplo 1. Consideremos a la transformación lineal $T:\mathbb{R}^3\to \mathbb{R}^3$ dada por $$T(x,y,z)=(-2x+15y+18z,3y+10z,z).$$

Observa que
\begin{align*}
T(1,0,0)&=(-2,0,0)\\
&=-2(1,0,0),
\end{align*}

que
\begin{align*}
T(-19,-5,1)&=((-2)(-19)+15(-5)+18,3(-5)+10, 1)\\
&=(28+75-18,-15+10,1)\\
&=(-19,-5,1),
\end{align*}

y que

\begin{align*}
T(3,1,0)&=(-6+15,3,0)\\
&=(9,3,0)\\
&=3(3,1,0).
\end{align*}

Estas igualdades muestran que $(1,0,0)$ es un eigenvector de $T$ con eigenvalor $-2$, que $(-19,-5,1)$ es un eigenvector de $T$ con eigenvalor $1$ y $(3,1,0)$ es un eigenvector de $T$ con eigenvalor $3$.

$\triangle$

Ejemplo 2. Consideremos al espacio vectorial $\mathbb{R}[x]$ de polinomios con coeficientes reales. Tomemos la transformación lineal $T$ que manda a un polinomio a su segunda derivada. ¿Quiénes son los eigenvalores y eigenvectores de $T$?

Para que $p$ sea un eigenvector con eigenvalor $\lambda$, tiene que suceder que $$p»=T(p)=\lambda p.$$

Como $p$ no es el vector cero, tiene un cierto grado. Si $\lambda \neq 0$, entonces la igualdad anterior no puede suceder, pues si $p$ es de grado mayor o igual a $2$, entonces el grado de $p»$ es menor al de $\lambda p$, y si el grado de $p$ es $0$ ó $1$, su segunda derivada es $0$, y no puede pasar $\lambda p = 0$. Así, el único eigenvalor que puede tener $T$ es $\lambda = 0$. Observa que sí es válido que los eigenvalores sean cero (los eigenvectores no).

Cuando $\lambda = 0$, tiene que pasar que $p»$ sea $0\cdot p$, es decir, el polinomio cero. Los únicos polinomios tales que su derivada es cero son los constantes y los lineales. Pero el polinomio cero por definición no es eigenvector.

Así, la respuesta final es que el único eigenvalor de $T$ es $0$, y sus eigenvectores correspondientes son los polinomios constantes distintos de cero, y los polinomios lineales.

$\triangle$

Eigenvalores y eigenvectores para matrices

Tenemos una definición similar para matrices. Sea $A$ una matriz en $M_n(F)$.

Definición. Un escalar $\lambda$ en $F$ es un eigenvalor de $A$ si la matriz $\lambda I_n – A$ no es invertible. En otras palabras, si existe un vector no cero $X$ en $F^n$ tal que $AX=\lambda X$. A un tal vector $X$ se le conoce como un eigenvector correspondiente al eigenvalor $\lambda$.

En otras palabras, los eigenvalores y eigenvectores de $A$ son exactamente los eigenvalores y eigenvectores de la transformación $T_A:\mathbb{F}^n\to \mathbb{F}^n$ dada por $T_A(v)=Av$.

Además, si elegimos cualquier base $B$ de un espacio de dimensión finita $V$ y $A$ es la matriz de $T$ con respecto a la base $B$, entonces para cualquier escalar $\lambda$ se tiene que $\lambda I_n – A$ es la matriz de $\lambda \text{id} – T$ con respecto a esta misma base. De aquí se deduce que los eigenvalores de $T$ son los mismos que los eigenvalores de $A$. Dos matrices que representan a $T$ difieren sólo en un cambio de base, así que obtenemos el siguiente resultado fundamental.

Proposición. Si $A$ es una matriz en $M_n(F)$ y $P$ es una matriz invertible, entonces $A$ y $P^{-1}AP$ tienen los mismos eigenvalores. En otras palabras, matrices similares tienen los mismos eigenvalores.

En el primer ejemplo tomamos la transformación lineal $T:\mathbb{R}^3\to \mathbb{R}^3$ tal que $$T(x,y,z)=(-2x+15y+18z,3y+10z,z).$$ Su matriz en la base canónica de $\mathbb{R}^3$ es $$A=\begin{pmatrix} -2 & 15 & 18\\ 0 & 3 & 10\\ 0 & 0 & 1 \end{pmatrix}.$$ En el ejemplo vimos que los eigenvalores eran $-2$, $1$ y $3$, que precisamente conciden con las entradas en la diagonal de $A$. Esto no es casualidad. El siguiente resultado muestra esto, y es una primer evidencia de la importancia de los determinantes para encontrar los eigenvalores de una matriz.

Proposición. Si $A$ es una matriz triangular (superior o inferior) en $M_n(F)$, entonces sus eigenvalores son exactamente las entradas en su diagonal principal.

Demostración. Haremos el caso para cuando $A$ es triangular superior. El otro caso queda de tarea moral.

Queremos encontrar los valores $\lambda$ para los cuales la matriz $\lambda I_n – A$ no sea invertible. La matriz $A$ es triangular superior, así que la matriz $\lambda I_n – A$ también, pues las entradas de $A$ se vuelven negativas, y luego sólo se altera la diagonal principal.

Si las entradas diagonales de $A$ son $a_{11},\ldots,a_{nn}$, entonces las entradas diagonales de $\lambda I_n -A$ son $$\lambda – a_{11},\ldots,\lambda-a_{nn}.$$

La matriz $\lambda I_n – A$ no es invertible si y sólo si su determinante es igual a cero. Como es una matriz triangular superior, su determinante es el producto de sus entradas diagonales, es decir, $$\det(\lambda I_n – A) = (\lambda – a_{11})\cdot\ldots\cdot(\lambda – a_{nn}).$$

Este producto es $0$ si y sólo si $\lambda$ es igual a alguna entrada $a_{ii}$. De esta forma, los únicos eigenvalores de $A$ son las entradas en su diagonal.

$\square$

Si $A$ es una matriz diagonalizable, entonces es semejante a una matriz diagonal $D$. Por la proposición anterior, los eigenvalores de $A$ serían entonces las entradas en la diagonal principal de $D$. Esto nos da una intuición muy importante: si acaso pudiéramos encontrar todos los eigenvalores de $A$, entonces eso podría ser un paso parcial hacia diagonalizarla.

Encontrar eigenvalores es encontrar las raíces de un polinomio

La siguiente proposición conecta eigenvalores, polinomios y determinantes.

Proposición. Sea $A$ una matriz en $M_n(F)$. Entonces la expresión $$\det(\lambda I_n – A)$$ está en $F[\lambda]$, es decir, es un polinomio en la variable $\lambda$ con coeficientes en $F$. Además, es de grado exactamente $n$.

Demostración. La fórmula para el determinante
\begin{align*}
\begin{vmatrix}
\lambda – a_{11} & -a_{12} & \ldots & -a_{1n}\\
-a_{21} & \lambda – a_{22} & \ldots & -a_{1n}\\
\vdots & & \ddots & \\
-a_{n1} & -a_{n2} & \ldots & \lambda – a_{nn}
\end{vmatrix}
\end{align*}

en términos de permutaciones nos dice que el determinante es sumas de productos de entradas de $A$. Cada una de las entradas es un polinomio en $F[\lambda]$, ya sea constante, o lineal. Como $F[\lambda]$ es cerrado bajo sumas y productos, esto prueba la primer parte de la afirmación.

Para probar que el grado es exactamente $n$, notemos que cada sumando de la expresión multiplica exactamente $n$ entradas. Como las entradas a lo mucho son de grado uno en $F[\lambda]$, entonces cada sumando es un polinomio de grado a lo más $n$. Hay una única forma que el grado sea $n$: cuando se elige la permutación identidad y entonces se obtiene el sumando $$(\lambda-a_{11})\cdot\ldots\cdot(\lambda-a_{nn}).$$

Esto termina la prueba.

$\square$

La proposición anterior nos asegura entonces que la siguiente definición tiene sentido.

Definición. Para $A$ una matriz en $M_n(F)$, el polinomio característico de $A$ es el polinomio $\chi_A(\lambda)$ en $F[\lambda]$ dado por $$\chi_A(\lambda) = \det(\lambda I_n – A).$$

De esta forma, $\lambda$ es un eigenvalor de $A$ si y sólo si es una raíz del polinomio $\chi_A(\lambda)$. Esto son buenas y malas noticias. Por un lado, nos cambia un problema de álgebra lineal a uno de polinomios, en donde a veces tenemos herramientas algebraicas que nos ayudan a encontrar raíces. Sin embargo, como se ve en cursos anteriores, también hay otros polinomios para los cuales es muy difícil encontrar sus raíces de manera exacta. Lo que salva un poco esa situación es que sí existen métodos para aproximar raíces numéricamente de manera computacional.

A pesar de la dificultad de encontrar raíces, sin duda tenemos consecuencias interesantes de esta conexión. Consideremos como ejemplo el siguiente resultado.

Proposición. Una matriz $A$ en $M_n(F)$ tiene a lo más $n$ eigenvalores distintos. Lo mismo es cierto para una transformación lineal $T:V\to V$ para $V$ un espacio vectorial de dimensión $n$.

Demostración. La matriz $A$ tiene tantos eigenvalores como raíces en $F$ tiene su polinomio característico. Como el polinomio característico es de grado exactamente $n$, tiene a lo más $n$ raíces en $F$.

La parte de transformaciones queda de tarea moral.

$\square$

Ya que encontramos los eigenvalores de una matriz o transformación, es posible que queramos encontrar uno o más eigenvectores correspondientes a ese eigenvalor. Observa que eso corresponde a encontrar una solución no trivial al sistema lineal de ecuaciones homogéneo de la forma $$(I_n-A) X = 0.$$ Para ello ya tenemos muchas herramientas, como hacer reducción Gaussiana.

Terminamos esta entrada con un ejemplo de cómo encontrar los valores propios y vectores propios en un caso concreto.

Problema. Encuentra los eigenvalores de la matriz $$A=\begin{pmatrix}1 & 0 & 0\\ 0 & 0 & -1 \\ 0 & 1 & 0 \end{pmatrix}$$ considerándola como:

  • Una matriz en $M_3(\mathbb{R})$
  • Una matriz en $M_3(\mathbb{C})$.

En el caso de $M_n(\mathbb{R})$, encuentra un eigenvector para cada eigenvalor.

Solución. Para encontrar los eigenvalores, tenemos que encontrar el determinante $$\begin{vmatrix}\lambda – 1 & 0 & 0\\ 0 & \lambda & 1 \\ 0 & -1 & \lambda \end{vmatrix}.$$

Usando expansión de Laplace en la primer columna y haciendo las operaciones, obtenemos que el determinante de $\lambda I_3 – A$ es el polinomio $$(\lambda-1)(\lambda^2+1).$$

Aquí es importante la distinción de saber en qué campo estamos trabajando. Si estamos en $M_3(\mathbb{R})$, la única raíz del polinomio es $1$. Si estamos en $M_3(\mathbb{C})$, obtenemos otras dos raíces: $i$ y $-i$.

Ahora, para cuando $A$ es matriz en $M_3(\mathbb{R})$, necesitamos encontrar un eigenvector para el eigenvalor $1$. Esto equivale a encontrar una solución al sistema de ecuaciones $$(I_3-A)X=0,$$ es decir, a $$\begin{pmatrix}0 & 0 & 0\\ 0 & 1 & 1 \\ 0 & -1 & 1\end{pmatrix}X=0.$$

Una solución para este sistema es $X=(1,0,0)$. Y en efecto, $(1,0,0)$ es eigenvector de $A$ para el eigenvalor $1$ pues no es el vector cero y $$\begin{pmatrix}1 & 0 & 0\\ 0 & 0 & -1 \\ 0 & 1 & 0 \end{pmatrix}\begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix} = \begin{pmatrix} 1 + 0 + 0 \\ 0 + 0 + 0 \\ 0 + 0 + 0 \end{pmatrix} = \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix}.$$

$\triangle$

Observa que la matriz anterior no es diagonalizable en $M_n(\mathbb{R})$, pues si lo fuera tendría que ser semejante a una matriz diagonal $D$ con entradas $i$ y $-i$ en la diagonal, pero entonces $D$ no sería una matriz en $M_n(\mathbb{R})$. Esto nos da otra intuición con respecto a la diagonalización de una matriz: si acaso una matriz en $M_n(F)$ es diagonalizable, entonces su polinomio característico debe tener puras raíces en $F$. Esta es una condición necesaria, pero aún no es suficiente.

Más adelante…

En esta entrada definimos el concepto de eigenvalor y eigenvector para una transformación lineal y para una matriz; y vimos algunas de las propiedades que cumplen. En la siguiente entrada estudiaremos el concepto de polinomio característico utilizando los conceptos que hemos visto en esta entrada y enunciaremos (sin demostración) dos teoremas muy importantes. Luego, pondremos en práctica lo que hemos estudiado resolviendo algunos ejercicios.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • En la entrada vimos que los eigenvalores de una transformación $T$ son los eigenvalores de cualquier matriz que la represente. ¿Es cierto que los eigenvectores de $T$ son los eigenvectores de cualquier matriz que lo represente?
  • Muestra que una transformación lineal $T:V\to V$ para $V$ un espacio vectorial de dimensión $n$ tiene a lo más $n$ eigenvalores distintos.
  • Encuentra los eigenvalores de las matrices de permutación.
  • Para un real $\theta\in[0,2\pi)$ se define la matriz $$A(\theta):=\begin{pmatrix} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{pmatrix}.$$ Muestra que $A(\theta)$ tiene eigenvalores reales si y sólo si $\theta=0$ \o $\theta=\pi$. Sugerencia: Encuentra el polinomio característico (que es cuadrático) y calcula su discrimintante. Si es negativo, no tiene soluciones reales.
  • Sea $A$ una matriz en $M_n(F)$. Muestra que la matriz transpuesta $^t A$ tiene los mismos eigenvalores que $A$, y de hecho, el mismo polinomio característico que $A$. Sugerencia. Recuerda que una matriz y su transpuesta tienen el mismo determinante.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Seminario de Resolución de Problemas: Introducción a problemas de geometría y geometría euclideana

Por Leonardo Ignacio Martínez Sandoval

Introducción

En esta semana veremos algunas herramientas para resolver problemas de geometría. Como con otros temas que hemos visto, sería imposible tratar a profundidad el área. En vez de eso, lo que haremos es ver un poco de varias de las herramientas que se pueden usar en la solución de problemas geométricos, comenzando con geometría euclideana. Veremos ideas de lo siguiente:

  • Geometría triángulos y circunferencias
  • Geometría analítica
  • Vectores en geometría
  • Números complejos en geometría
  • Geometría discreta

En esta entrada comenzaremos con la parte de geometría euclideana. Más adelante hablaremos de las demás ideas.

Geometría euclideana

Cuando en geometría nos referimos a una solución por geometría euclideana o geometría sintética nos referimos a un argumento que no use parametrizaciones de los objetos del plano en términos de coordenadas, vectores o complejos. Simplemente usamos conceptos geométricos como ángulos, distancias, semejanza, congruencia, etc. Todas estas se pueden pensar como propiedades que se mantienen invariantes bajo movimientos rígidos del plano. Dentro de los resultados más versátiles del área tenemos los siguientes.

Teorema (de Tales). Tomemos puntos $P$ y $Q$ sobre los lados $AB$ y $AC$ de $\triangle ABC$. Se tiene que $AP/AQ = AB/AC$ si y sólo si la recta $PQ$ es paralela a la recta $BC$.

El teorema de Tales
Teorema de Tales

Teorema (criterios de congruencia). Sean $\triangle ABC$ y $\triangle DEF$ triángulos. Cualquiera de las siguientes condiciones (o sus simétricos) implican que $\triangle ABC$ y $\triangle DEF$ son congruentes:

  • (LLL) $AB=DE$, $BC=EF$ y $CA=FD$
  • (LAL) $AB=DE$, $\angle BAC = \angle EDF$ y $CA=FD$
  • (ALA) $\angle BAC = \angle EDF$, $CA=FD$ y $\angle BCA – \angle EFD$.

Teorema (criterios de semejanza). Sean $\triangle ABC$ y $\triangle DEF$ triángulos. Cualquiera de las siguientes condiciones (o sus simétricos) implican que $\triangle ABC$ y $\triangle DEF$ son semejantes.

  • (LLL) $\frac{AB}{DE}=\frac{BC}{EF}=\frac{CA}{FD}$.
  • (LAL) $\frac{AB}{DE}=\frac{CA}{FD}$ y $\angle BAC = \angle EDF$.
  • (AA) $\angle BAC = \angle EDF$ y $\angle BCA – \angle EFD$.

Veamos un ejemplo en el que se usan estos hechos básicos.

Problema. Sobre los lados $AB$ y $AC$ de un triángulo $ABC$ se construyen cuadrados $ABPQ$ y $ACRS$ como en la figura. Muestra que $CQ=BS$.

Sugerencia pre-solución. En geometría es típico modificar un problema. En vez de intentar medir los segmentos requeridos, es útil preguntarse si forman parte de triángulos que sean congruentes, o que sea pueda ver que son congruentes por algún criterio. Por supuesto, en todo problema de geometría es útil hacer muchas figuras.

Problema de geometría euclidiana con cuadrados
Figura auxiliar para problema de cuadrados en un triángulo.

Solución. Consideremos los triángulos $ABS$ y $AQC$. Tenemos que $AB=AQ$ pues ambos son lados del cuadrado $ABPQ$. De manera similar, $AC=AS$. Finalmente, tenemos que $\angle BAS = \angle QAC$, pues ambos ángulos son iguales a $$90^\circ + \angle BAC.$$

Por esta razón, podemos usar el criterio de congruencia $LAL$ en estos triángulos para concluir que son congruentes. De aquí se concluye que $CQ=BS$, como queríamos.

$\square$

Recordatorio de puntos notables en triángulos

Otro tema relevante para la geometría euclideana es la geometría de triángulos. Tomemos un triángulo $\triangle ABC$. Hay algunos puntos y rectas notables en el triángulo, que se usan en varios problemas. A continuación enunciamos las más importantes.

  • Si $L$, $M$ y $N$ son los puntos medios de $BC$, $CA$ y $AB$, respectivamente, entonces a cada una de las rectas $AL$, $BM$ y $CN$ se le conoce como una mediana. Las medianas de un triángulo concurren en un punto llamado el gravicentro o baricentro, que usualmente se denota por $G$.
Medianas de un triángulo y su gravicentro
Medianas de un triángulo y su gravicentro
  • Si $D$, $E$ y $F$ son las proyecciones desde $A$, $B$, $C$ a los lados $BC$, $CA$ y $AB$ respectivamente, entonces a cada una de las rectas $AD$, $BE$ y $CF$ se le conoce como una altura. Las alturas de un triángulo concurren en un punto llamado el ortocentro, que usualmente se denota por $H$.
Alturas de un triángulo y su ortocentro
Alturas de un triángulo y su ortocentro
  • Las rectas que cortan a la mitad a cada uno de los ángulos internos de $\triangle ABC$ se les conoce como las bisectrices internas del triángulo. Concurren en un punto llamado el incentro, usualmente denotado por $I$. El incentro sirve como centro para la única circunferencia que es tangente a los segmentos $AB$, $BC$ y $CA$.
Bisectrices de un triángulo y su incentro
Bisectrices de un triángulo y su incentro
  • Las rectas perpendiculares a los lados del triángulo y que pasan por sus puntos medios se les llama mediatrices y concurren en un punto llamado el circuncentro, que se suele denotar $O$. Este punto sirve como centro de la única circunferencia que pasa por los tres vértices $A$, $B$ y $C$.
Mediatrices de un triángulo y su circuncentro
Mediatrices de un triángulo y su circuncentro

Veamos las demostraciones de algunas de estas afirmaciones, para repasar algunos argumentos geométricos.

Una idea útil es caracterizar a una recta como el conjunto de puntos que satisfacen cierta propiedad. Por ejemplo, probemos primero la siguiente caracterización de las mediatrices.

Proposición. La recta perpendicular $\ell$ a un segmento $BC$ que pasa por su punto medio $L$ consiste exactamente de los puntos $P$ tales que $PB=PC$.

Demostración. Para ver que cualquier punto en $\ell$ satisface esto, se puede usar el criterio LAL de congruencia en los triángulos $PBL$ y $PCL$, usando el ángulo recto que comparten. Para ver que cualquier punto tal que $PB=PC$ está en $\ell$, se usa que $\angle PBC = \angle PCB$ (por el triángulo isósceles $PBC$), y entonces al bajar la perpendicular desde $P$ a $BC$ a un punto $L’$, los triángulos $PBL’$ y $PCL’$ comparten dos ángulos (y por lo tanto los tres), de donde se puede usar de nuevo el criterio LAL para concluir que $L=L’$.

$\square$

Demostrar que las mediatrices concurren es entonces muy sencillo. Si $P$ es la intersección de la mediatriz en $BC$ y en $CA$, entonces por el resultado anterior tenemos $PB=PC=PA$, y entonces también por el resultado anterior se tiene que $P$ está en la mediatriz de $AB$. De manera análoga se puede mostrar que una bisectriz consiste de los puntos que equidistan de los lados que la definen, y con ello mostrar que las bisectrices internas de un triángulo concurren.

Veamos ahora un problema de geometría euclideana que involucra a las alturas y a las medianas. Es el Problema 1 del Concurso Nacional de la Olimpiada Mexicana de Matemáticas de 2009.

Problema. Sea $ABC$ un triángulo y $D$ el pie de la altura desde $A$. Con centro en $D$ se traza una circunferencia de radio $DA$. Esta circunferencia corta a los lados $AB$ y $AC$ del triángulo en puntos $P$ y $Q$ respectivamente. Muestra que los triángulos $AQP$ y $ABC$ son semejantes.

Sugerencia pre-solución. Para mostrar que estos triángulos son semejantes, basta con mostrar que tienen ángulos iguales.

Solución. Tracemos además los pies de altura $E$ y $F$ desde $B$ y $C$ respectivamente.

Ángulos creados por alturas de un triángulo.
Ángulos creados por alturas de un triángulo.

Observemos que $\triangle ABD$ y $\triangle CBF$ comparten los ángulos rectos y el ángulo en $B$, de modo que son semejantes y por lo tanto su tercer ángulo es igual. Este y argumentos análogos muestran que
\begin{align*}
\alpha&:=\angle ABE = \angle ACF\\
\beta&:=\angle BAD = \angle BCF\\
\gamma&:= \angle CBE = \angle CAD.
\end{align*}

De esta forma, los ángulos internos de $\triangle ABC$ miden $\angle A= \beta+\gamma$, $\angle B = \gamma+\alpha$ y $\angle C = \alpha+\beta$. Ya que la suma interna de los ángulos de un triángulo es $180^\circ$, concluimos que $\alpha+\beta+\gamma = 90^\circ$.

Ahora, usando los triángulos isósceles $\triangle ADP$ y $\triangle ADQ$ del problema, tenemos que
\begin{align*}
\angle DPA &= \angle DAP = \beta\\
\angle DQA &= \angle DAQ = \gamma.
\end{align*}

Figura auxiliar para el problema
Figura auxiliar para el problema

Como $\triangle PDQ$ también es isósceles con $PD=DQ$, tenemos que $$\alpha’=:\angle DPQ = \angle DQP.$$ Por la suma de ángulos en el triángulo $APQ$, tenemos que $\alpha’+\beta + \gamma = 90^\circ$. Así, $\alpha = \alpha’$. Concluimos entonces que en el $\triangle PAQ$ los ángulos internos son $\angle A = \beta+ \gamma$, $\angle P = \alpha+\beta$ y $\angle Q = \gamma + \alpha$.

De esta forma, los triángulos $ABC$ y $AQP$ son semejantes por el criterio AA.

$\square$

Otra técnica útil para resolver problemas de geometría consiste en mostrar que un punto está en dos rectas notables (por ejemplo, en las medianas $AL$ y $BM$), deducir que entonces es el punto notable correspondiente (en este caso el gravicentro $G$), y usar la información de que entonces la recta por el tercer vértice y el punto es la tercer recta notable (que en el ejemplo diría que $CG$ es la mediana).

Recordatorio de geometría del círculo

Un tercer ingrediente básico para la geometría euclideana es entender qué pasa con las circunferencias. Tomemos una circunferencia $\Gamma$ y dos puntos fijos $A$ y $B$ sobre ella. Tomemos $C$ y $D$ otros dos puntos sobre $\Gamma$ distintos de $A$ y $B$ sobre el mismo arco definido por $A$ y $B$ y sea $E$ otro punto sobre $\Gamma$, en el arco opuesto. Entonces

  • Los ángulos $\angle ACB$ y $\angle ADB$ son iguales.
  • Los ángulos $\angle ACB$ y $\angle AEB$ son suplementarios, es decir, suman $180^\circ$.
Ángulos en cuadriláteros cíclicos
Ángulos en cuadriláteros cíclicos

De hecho, este resultado es un si y sólo si. Para $A$, $B$, $C$, $D$ puntos distintos en el plano:

  • Si $\angle ACB$ y $\angle ADB$ son iguales, entonces $A$, $B$, $C$, $D$ son puntos sobre una circunferencia y $C$ y $D$ están en el mismo arco definido por $A$ y $B$ y
  • Si los ángulos $\angle ACB$ y $\angle ADB$ son suplementarios, entonces $A$, $B$, $C$, $D$ son puntos sobre una circunferencia y $C$ y $D$ están en arcos opuestos definidos por $A$ y $B$.

Cuando $A$, $B$, $C$ y $D$ son puntos distintos que yacen sobre una misma circunferencia, en ese orden, decimos que $ABCD$ es un cuadrilátero cíclico.

Teorema (potencia de un punto). Sea $P$ un punto y $\Gamma$ una circunferencia. Tomemos dos rectas por $P$ que corten a la circunferencia en puntos $A$, $B$, $C$ y $D$ como en alguna de las figuras. Entonces $PA\cdot PB = PC \cdot PD$.

Diagrama para teorema de potencia de un punto
Diagrama para teorema de potencia de un punto

Veamos un problema de la Olimpiada Matemática de la Cuenca del Pacífico en donde confluyen algunas de estas ideas. Es el problema 1 de la edición de 2016.

Problema. Un triángulo $ABC$ es grandioso si para cualquier punto $D$ en el lado $BC$, cuando se toman los pies de las perpendiculares $P$ y $Q$ de $D$ a las rectas $AB$ y $AC$, respectivamente, sucede que la reflexión de $D$ en la recta $PQ$ cae sobre el circuncírculo del triángulo $ABC$.

Muestra que un triángulo $ABC$ es grandioso si y sólo si $\angle A = 90^\circ$ y $AB=AC$.

Sugerencia pre-solución. El problema dice que cierta condición se debe cumplir para todo punto $D$ en el lado $BC$. Considera algunos casos extremos de lo que puede ser $D$, de los que puedas obtener información de cómo debe ser el triángulo.

Solución. Para cualquier punto $D$ en el lado $BC$, vamos a llamar $D’$ a la reflexión de $D$ en la recta $PQ$. Primero veremos que si $ABC$ es grandioso, entonces es isósceles y con ángulo recto en $A$.

Como la hipótesis se cumple para cualquier punto $D$, en particular se cumple para cuando elegimos $D$ como el punto donde la bisectriz desde $A$ intersecta a $BC$. Nota que $P$ y $Q$ están en los rayos $AB$ y $AC$. Además, $P$ y $Q$ son reflexiones entre sí con respecto a la recta $AD$, de modo que $PQ$ es perpendicular a $AD$. Por esto, se tiene que $D’$ está en la recta $AD$, así que o es $A$, o es el segundo punto de intersección de la bisectriz en $A$ con el circuncírculo del triángulo. Como además $APDQ$ es un cuadrilátero cíclico, se tiene que $AD$ intersecta a $PQ$ y por lo tanto $D’=A$.

Imagen auxiliar para problema APMO
Imagen auxiliar para problema APMO

Tenemos entonces las igualdades de ángulos
\begin{align*}
\angle BAC &= \angle PD’Q \\
&= \angle PDQ \\
&= 180^\circ – \angle BAC.
\end{align*}

Concluimos entonces que $\angle BAC = 90^\circ$, que muestra que el triángulo es rectángulo en $A$.

Ahora tomamos a $D$ como el punto medio de $BC$, lo cual hace que $P$ y $Q$ sean los puntos medios de $AB$ y $AC$ respectivamente. Pero entonces $PQ$ es paralelo a $BC$ y por lo tanto $DD’$ es perpendicular a $BC$. La distancia de $D’$ a $BC$ es igual al circunradio del triángulo (pues $D’$ debe caer en el circuncírculo), y es igual a la distancia de $A$ a $BC$. Esto sólo puede suceder cuando $ABC$ es isósceles y con ángulo recto en $A$, como queríamos.

Veamos ahora que si $ABC$ es isósceles y de ángulo recto en $A$, entonces se cumple la propiedad para todo punto $D$ en $BC$. Como $D$ es la reflexión en $PQ$, tendríamos $D’P=DP=BP$. De manera similar, $D’Q=DQ=CQ$.

El cuadrilátero $APDQD’$ es cíclico de diámetro $PQ$, pues todos los ángulos $\angle PAQ$, $\angle PD’Q$ y $\angle PDQ$ son de $90^\circ$. De aquí, $\angle APD’= \angle AQD’$, de donde obtenemos que $\angle BPD’= \angle CQD’$. Con esto concluimos que $\triangle D’PB$ y $\triangle D’QC$ son semejantes. De aquí se sigue que

\begin{align*}
\angle PD’Q &= \angle PD’C+ \angle CD’Q\\
&=\angle PD’C + \angle BD’P\\
&= \angle BD’C.
\end{align*}

Como además tenemos $\frac{D’P}{D’Q}= \frac{D’B}{D’C}$, concluimos que también $\triangle D’PQ$ y $\triangle D’BC$ son semejantes. Pero como $\triangle DPQ$ y $\triangle D’PQ$ son congruentes, se obtiene que $$\angle BD’C=\angle PD’Q = \angle PDQ = 90^\circ.$$ Con esto concluimos que $D’$ yace en la circunferencia de diámetro $BC$, que es precisamente el circuncírculo de $\triangle ABC$.

$\square$

Más problemas

Puedes encontrar más problemas de geometría euclideana en la sección 8.1 del libro Problem Solving through Problems de Loren Larson. Para tener buenos fundamentos en geometría euclideana, se pueden revisar algunos textos en el área, como los cuadernos de la Olimpiada Mexicana de Matemáticas de Geometría y de Geometría: Ejercicios y problemas.

Álgebra Superior II: Desigualdades de polinomios reales

Por Leonardo Ignacio Martínez Sandoval

Introducción

En la entrada anterior mostramos el teorema de factorización para polinomios con coeficientes reales. Lo que haremos ahora es ver que podemos aplicarlo en la resolución de desigualdades de polinomios en $\mathbb{R}[x]$. El objetivo es que, al final de la entrada, entendamos cómo se pueden resolver problemas como los siguientes:

Problema 1. Determina todos los números $x$ en $\mathbb{R}$ para los cuales $$x^6-12x^4-49x^2-30 > 3x^5-48x^3-51x+6.$$

Problema 2. Determina todos los números $x$ en $\mathbb{R}$ para los cuales $$\frac{1}{x}>x^3-x^2+1.$$

Antes de hablar de resolución de desigualdades de polinomios, veremos una forma alternativa de factorizar en $\mathbb{R}[x]$ usando potencias.

Teorema de factorización de polinomios reales con potencias

De acuerdo al teorema de factorización en $\mathbb{R}[x]$, un polinomio $p(x)$ se puede factorizar de manera única en factores lineales y factores cuadráticos con discriminante negativo. De ser necesario, podemos agrupar los factores lineales iguales y reordenarlos para llegar a una factorización de la forma $$a(x-r_1)^{\alpha_1}\cdots(x-r_m)^{\alpha_m}(x^2-b_1x+c_1)\cdots (x^2-b_{n}x+c_{n}),$$ en donde:

  • $a$ es un real distinto de cero,
  • $\alpha_1,\ldots,\alpha_m$ y $n$ son enteros positivos tales que $2n+\sum_{i=1}^m \alpha_i$ es igual al grado de $p(x)$,
  • para cada $i$ en $\{1,\ldots,m\}$ se tiene que $r_i$ es raíz real de $p(x)$ y $r_1<r_2<\ldots<r_m$
  • para cada $j$ en $ \{1,\ldots,n\}$ se tiene que $b_j,c_j$ son reales tales que $b_j^2-4c_j<0$.

Observa que los $r_i$ son ahora distintos y que están ordenados como $r_1<\ldots<r_m$. De aquí, obtenemos que $(x-r_i)^{\alpha_i}$ es la mayor potencia del factor lineal $x-r_i$ que divide a $p(x)$. Este número $\alpha_i$ se usa frecuentemente, y merece una definición por separado.

Definición. Sea $p(x)$ un polinomio en $\mathbb{R}[x]$ y $r$ una raíz de $p(x)$. La multiplicidad de $r$ como raíz de $p(x)$ es el mayor entero $\alpha$ tal que $$(x-r)^\alpha \mid p(x).$$ Decimos también que $r$ es una raíz de multiplicidad $\alpha$.

Ejemplo. El polinomio $k(x)=x^4-x^3-3x^2+5x-2$ se factoriza como $(x-1)^3(x+2)$. Así, la multiplicidad de $1$ como raíz de $k(x)$ es $3$. Además, $-2$ es una raíz de $k(x)$ de multiplicidad $1$.

$\triangle$

Después hablaremos de una forma práctica en la que podemos encontrar la multiplicidad de una raíz, cuando hablemos de continuidad de polinomios y sus derivadas.

Desigualdades de polinomios reales factorizados

Supongamos que tenemos un polinomio $p(x)$ no constante en $\mathbb{R}[x]$ para el cual conocemos su factorización en la forma $$a(x-r_1)^{\alpha_1}\cdots(x-r_m)^{\alpha_m}(x^2-b_1x+c_1)\cdots (x^2-b_{n}x+c_{n}),$$ y que queremos determinar para qué valores reales $r$ se cumple que $$p(r)>0.$$

Daremos por cierto el siguiente resultado, que demostraremos cuando hablemos de continuidad de polinomios.

Proposición. Las evaluaciones en reales de un polinomio cuadrático y mónico en $\mathbb{R}[x]$ de discriminante negativo, siempre son positivas.

Lo que nos dice este resultado es que, para fines de la desigualdad que queremos resolver, podemos ignorar los factores cuadráticos en la factorización de $p(x)$ pues

$$a(x-r_1)^{\alpha_1}\cdots(x-r_m)^{\alpha_m}(x^2-b_1x+c_1)\cdots (x^2-b_{n}x+c_{n})$$ y $$a(x-r_1)^{\alpha_1}\cdots(x-r_m)^{\alpha_m}$$ tienen el mismo signo.

Por la miasma razón, podemos ignorar aquellos factores lineales con exponente par, y de los de exponente impar, digamos $(x-r)^{2\beta +1}$ obtenemos una desigualdad equivalente si los remplazamos por exponente $1$, pues $(x-r)^{2\beta}$ es positivo y por lo tanto no cambia el signo de la desigualdad si lo ignoramos.

En resumen, cuando estamos resolviendo una desigualdad del estilo $p(x)>0$ podemos, sin cambiar el conjunto solución, reducirla a una de la forma $$q(x):=a(x-r_1)(x-r_2)\ldots(x-r_m)>0.$$ La observación clave para resolver desigualdades de este estilo está resumida en el siguiente resultado.

Proposición. Tomemos un polinomio $q(x)$ en $\mathbb{R}[x]$ de la forma $$q(x)=a(x-r_1)(x-r_2)\ldots(x-r_m)$$ con $r_1<\ldots<r_m$ reales.

Si $m$ es par:

  • Para reales $r$ en la unión de intervalos $$(-\infty,r_1)\cup(r_2,r_3)\cup\ldots \cup (r_{m-2},r_{m-1})\cup (r_m,\infty),$$ la evaluación $q(r)$ tiene el mismo signo que $a$
  • Para reales $r$ en la unión de intervalos $$(r_1,r_2)\cup(r_3,r_4)\cup\ldots \cup (r_{m-3},r_{m-2})\cup (r_{m-1},r_m),$$ la evaluación $q(r)$ tiene signo distinto al de $a$.

Si $m$ es impar:

  • Para reales $r$ en la unión de intervalos $$(r_1,r_2)\cup(r_3,r_4)\cup\ldots \cup (r_{m-2},r_{m-1})\cup (r_m,\infty),$$ la evaluación $q(r)$ tiene el mismo signo que $a$.
  • Para reales $r$ en la unión de intervalos $$(-\infty,r_1)\cup(r_2,r_3)\cup\ldots \cup (r_{m-3},r_{m-2})\cup (r_{m-1},r_m),$$ la evaluación $q(r)$ tiene signo distinto al de $a$.

Demostración. El producto $(r-r_1)(r-r_2)\ldots(r-r_m)$ es positivo si y sólo si tiene una cantidad par de factores negativos. Si $r>r_m$, todos los factores son positivos, y por lo tanto $q(r)$ tiene el mismo signo que $a$ cuando $r$ está en el intervalo $(r_m,\infty)$.

Cada que movemos $r$ de derecha a izquierda y cruzamos un valor $r_i$, cambia el signo de exactamente uno de los factores, y por lo tanto la paridad de la cantidad de factores negativos. El resultado se sigue de hacer el análisis de casos correspondiente.

$\square$

Veamos cómo podemos utilizar esta técnica para resolver desigualdades polinomiales que involucran a un polinomio que ya está factorizado en irreducibles.

Problema 1. Determina para qué valores reales $x$ se tiene que $$-2(x-5)^7(x+8)^4(x+2)^3(x+10)(x^2-x+2)^3$$ es positivo.

Solución. Por la discusión anterior, podemos ignorar el polinomio cuadrático del final, pues es irreducible. También podemos ignorar los factores lineales con potencia par, y podemos remplazar las potencias impares por unos. Así, basta con encontrar los valores reales de $x$ para los cuales $$q(x)=-2(x-5)(x+2)(x+10)$$ es positivo. Tenemos $3$ factores, así que estamos en el caso de $m$ impar en la proposición.

Las tres raíces, en orden, son $-10, -2, 5$. Por la proposición, para $x$ en la unión de intervalos $$(-\infty,-10)\cup (-2,5)$$ se tiene que $q(x)$ tiene signo distinto al de $a=-2$ y por lo tanto es positivo. Para $x$ en el conjunto $$(-10,-2)\cup (5,\infty)$$ se tiene que $q(x)$ tiene signo igual al de $a=-2$, y por lo tanto es negativo. De esta forma, la respuesta es el conjunto $$(-\infty,-10)\cup (-2,5).$$

Puedes dar clic aquí para ver en GeoGebra las gráfica de $q(x)$ y del polinomio original, y verificar que tienen el mismo signo en los mismos intervalos.

$\triangle$

Si estamos resolviendo una desigualdad y el valor de $a$ en la factorización es positivo, es un poco más práctico ignorarlo desde el principio, pues no afecta a la desigualdad.

Problema 2. Determina para qué valores reales $x$ se tiene que $$7(x+7)^{13}(x+2)^{31}(x-5)^{18}(x^2+1)$$ es positivo.

Solución. Tras las cancelaciones correspondientes, obtenemos la desigualdad equivalente $$(x+7)(x+2)>0.$$

Las raíces del polinomio que aparece son $-7$ y $-2$. De acuerdo a la proposición, estamos en el caso con $m$ par. De esta forma, la expresión es negativa en el intervalo $(-7,-2)$ y es positiva en la unión de intervalos $$(-\infty,-7)\cup (-2,\infty).$$

$\triangle$

Otras desigualdades de polinomios y manipulaciones algebraicas

Si tenemos otras expresiones polinomiales, también podemos resolverlas con ideas similares, solo que a veces se tienen que hacer algunas manipulaciones previas para llevar la desigualdad a una de la forma $p(x)>0$.

Problema. Determina todos los números $x$ en $\mathbb{R}$ para los cuales $$x^6-12x^4-49x^2-30 > 3x^5-48x^3-51x+6.$$

Solución. El problema es equivalente a encontrar los reales $x$ para los cuales $$x^6-3x^5+12x^4+48x^3-29x^2+51x-36>0.$$ El polinomio del lado izquierdo se puede factorizar como $(x-3)^2(x-1)(x+4)(x^2+1)$, así que obtenemos el problema equivalente $$(x-3)^2(x-1)(x+4)(x^2+1)>0,$$ que ya sabemos resolver. El resto de la solución queda como tarea moral.

Puedes ver la gráfica del polinomio $$(x-3)^2(x-1)(x+4)(x^2+1)$$ en GeoGebra si das clic aquí.

$\triangle$

Tener cuidado al multiplicar por denominadores

Hay que tener cuidado al realizar algunas manipulaciones algebraicas, pues pueden cambiar el signo de la desigualdad que estamos estudiando. Veamos un ejemplo donde sucede esto.

Problema. Determina todos los números $x$ en $\mathbb{R}$ para los cuales $$\frac{1}{x}>x^3-x^2+1.$$

Solución. La expresión no está definida en $x=0$, pues se anula un denominador. Supongamos entonces que $x\neq 0$, y recordémoslo al expresar la solución final. Vamos a multiplicar la desigualdad por $x$, pero tenemos que hacer casos.

Si $x>0$, entonces el signo de desigualdad no se altera y obtenemos la desigualdad equivalente $$0>x^4-x^3+x-1=(x-1)(x+1)(x^2-x+1).$$ El factor cuadrático es irreducible y lo podemos ignorar. Si estuviéramos trabajando en todo $\mathbb{R}$, el conjunto solución sería el intervalo $(-1,1)$. Sin embargo, tenemos que restringir este conjunto solución sólo al caso en el que estamos, es decir, $x>0$. Así, para este caso sólo los reales en $(0,1)$ son solución.

Si $x<0$, entonces el signo de la desigualdad sí se altera, y entonces obtenemos la desigualdad equivalente $$0<x^4-x^3+x-1=(x-1)(x+1)(x^2-x+1).$$ De nuevo podemos ignorar el factor cuadrático. La desigualdad tiene solución en todo $\mathbb{R}$ al conjunto $(-\infty,-1)\cup (1,\infty)$, pero en este caso debemos limitarlo adicionalmente con la restricción $x<0$. De este modo, las soluciones para este caso están en el intervalo $(-\infty,-1)$.

Ahora sí, juntando ambos casos, tenemos que el conjunto solución final es $$(-\infty,-1)\cup(0,1).$$

Puedes ver la gráfica en GeoGebra de $\frac{1}{x}-x^3+x^2-1$ dando clic aquí. Ahí puedes verificar que esta expresión es positiva exactamente en el conjunto que encontramos.

$\triangle$

Más adelante…

Como queda claro, resulta ser útil tener un polinomio en su forma factorizada para resolver desigualdades de polinomios reales. En los ejemplos que dimos en esta entrada, se dieron las factorizaciones de los polinomios involucrados. En el resto del curso veremos herramientas que nos permitirán encontrar la factorización de un polinomio o, lo que es parecido, encontrar sus raíces:

  • Veremos propiedades de continuidad de polinomios para mostrar la existencia de raíces para polinomios reales en ciertos intervalos.
  • El teorema del factor nos dice que si $r$ es raíz de $p(x)$, entonces $x-r$ divide a $p(x)$. Sin embargo, no nos dice cuál es la multiplicidad de $r$. Veremos que la derivada de un polinomio nos puede ayudar a determinar eso.
  • También veremos el criterio de la raíz racional, que nos permite enlistar todos los cantidatos a ser raíces racionales de un polinomio $p(x)$ con coeficientes racionales.
  • Finalmente, veremos que para los polinomios de grado $3$ y $4$ hay formas de obtener sus raíces de forma explícita, mediante las fórmulas de Cardano y de Ferrari.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  1. Completa la solución del problema enunciado en la sección de manipulaciones algebraicas.
  2. Encuentra el conjunto solución de números reales $x$ tales que $$(x+1)(x+2)^2(x+3)^3(x+4)^4>0.$$
  3. Determina las soluciones reales a la desigualdad $$\frac{x-1}{x+2}>\frac{x+2}{x-1}.$$ Ten cuidado con los signos. Verifica tu respuesta en este enlace de GeoGebra, que muestra la gráfica de $f(x)=\frac{x-1}{x+2}-\frac{x+2}{x-1}$.
  4. Realiza las gráficas de otros polinomios de la entrada en GeoGebra para verificar las soluciones dadas a las desigualdades de polinomios.
  5. Revisa esta entrada, en donde se hablan de aplicaciones de desigualdades polinomiales para un problema de un concurso de matemáticas.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104522 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM – Etapa 2»

Álgebra Lineal I: Determinantes en sistemas de ecuaciones lineales y regla de Cramer

Por Leonardo Ignacio Martínez Sandoval

Introducción

Con la teoría que hemos desarrollado acerca de espacios vectoriales, de determinantes y con las herramientas que hemos adquirido para calcularlos, podemos volver a visitar el tema de sistemas de ecuaciones lineales y verlo desde una perspectiva más completa. Los determinantes en sistemas de ecuaciones lineales nos sirven para varias cosas.

Por un lado, sirven para encontrar el rango de una matriz. El rango está relacionado con la dimensión del espacio de soluciones a un sistema lineal de ecuaciones. Esto es parte del contenido del importante teorema de Rouché-Capelli que enunciaremos y demostraremos.

Por otro lado, cuando tenemos sistemas lineales con matriz asociada cuadrada e invertible, podemos usar determinantes para encontrar las soluciones. A esto se le conoce como las fórmulas de Cramer o la regla de Cramer. También enunciaremos y demostraremos esto. La regla de Cramer es parcialmente útil en términos prácticos, pues para sistemas concretos conviene más usar reducción gaussiana. Sin embargo, es muy importante en términos teóricos, cuando se quieren probar propiedades de las soluciones a un sistema de ecuaciones.

Rango de una matriz y determinantes

Recuerda que el rango de una matriz $A$ en $M_{m,n}(F)$ es, por definición, la dimensión del espacio vectorial que es la imagen de la transformación $X\mapsto AX$ de $F^n\to F^m$. Anteriormente, mostramos que esto coincide con la dimensión del espacio vectorial generado por los vectores columna de $A$. Como el rango de una matriz coincide con su transpuesta, entonces también es la dimensión del espacio vectorial generado por los vectores fila de $A$.

Lo que veremos ahora es que podemos determinar el rango de una matriz $A$ calculando algunos determinantes de matrices pequeñas asociadas a $A$. Una submatriz de $A$ es una matriz que se obtiene de eliminar algunas filas o columnas de $A$.

Teorema. Sea $A$ una matriz en $M_{m,n}(F)$. El rango de $A$ es igual al tamaño de la submatriz cuadrada más grande de $A$ que sea invertible.

Demostración. Llamemos $C_1,\ldots,C_n$ a las columnas de $A$. Sabemos que $$r=\dim \text{span}(C_1,\ldots,C_n).$$

Mostraremos primero que hay una submatriz cuadrada de tamaño $r$. Por el lema de Steinitz, podemos escoger $r$ enteros $1\leq i_1<\ldots<i_r\leq n$ tal que las columnas $C_{i_1},\ldots,C_{i_r}$ de $A$ cumplen $$\text{span}(C_1,\ldots,C_n)=\text{span}(C_{i_1},\ldots,C_{i_r}).$$ Así, la matriz $B$ hecha por columnas $C_{i_1},\ldots,C_{i_r}$ está en $M_{m,r}(F)$ y es de rango $r$.

Ahora podemos calcular el rango de $B$ por filas. Si $F_1,\ldots,F_m$ son las filas de $B$, tenemos que $$r=\dim \text{span}(F_1,\ldots,F_m).$$ De nuevo, por el lema de Steinitz, existen enteros $1\leq j_1<\ldots<j_r\leq m$ tales que $$\text{span}(F_1,\ldots,F_m)=\text{span}(F_{i_1},\ldots,F_{i_r}).$$ De esta forma, la matriz $C$ hecha por las filas $F_{j_1},\ldots,F_{j_r}$ está en $M_r(F)$ y es de rango $r$. Por lo tanto, $C$ es una matriz cuadrada de tamaño $r$ y es invertible.

Esta matriz $C$ es una submatriz de $A$ pues se obtiene al eliminar de $A$ todas las columnas en posiciones distintas a $i_1,\ldots,i_r$ y todas las filas en posiciones distintas a $j_1,\ldots,j_r$. Esto muestra una parte de lo que queremos.

Ahora mostraremos que si $B$ es una submatriz de $A$ cuadrada e invertible de tamaño $d$, entonces $d\leq r$. En efecto, tomemos una $B$ así. Sus columnas son linealmente independientes. Si $i_1<\ldots<i_n$ corresponden a los índices de las columnas de $A$ que se preservan al pasar a $B$, entonces las columnas $C_{i_1},\ldots,C_{i_d}$ de $A$ son linealmente independientes, ya que si hubiera una combinación no trivial de ellas igual a cero, entonces la habría de las columnas de $B$, lo cual sería una contradicción a que son linealmente independientes.

De esta forma,
\begin{align*}
d&=\dim \text{span}(C_{i_1},\ldots,C_{i_d})\\
&\leq \dim \text{span} (C_1,\ldots,C_d)\\
&=r,
\end{align*}

que es la desigualdad que nos faltaba para terminar la prueba.

$\square$

Ejemplo. Supongamos que queremos encontrar el rango de la siguiente matriz en $M_{3,5}(\mathbb{R})$: $$A=\begin{pmatrix}4 & 5 & -4 & 7 & 2\\ 0 & -3 & -1 & 0 & 9\\ 0 & -5 & 0 & 9 & -3 \end{pmatrix}.$$

Por propiedades de rango que vimos anteriormente, ya sabemos que su rango es a lo más el mínimo de sus dimensiones, así que su rango es como mucho $\min(3,5)=3$.

Por otro lado, notemos que si eliminamos la segunda y cuarta columnas, entonces obtenemos la submatriz cuadrada $$\begin{pmatrix} 4 & -4 & 2\\ 0 & -1 & 9\\ 0 & 0 & -3\end{pmatrix}.$$ Esta es una matriz triangular superior, así que su determinante es el producto de las diagonales, que es $4\cdot (-1)\cdot (-3)=12$.

Como el determinante no es cero, es una matriz invertible de tamaño $3$. Por la proposición anterior, el rango de $A$ debe ser entonces mayor o igual a $3$. Juntando las dos desigualdades que encontramos, el rango de $A$ debe ser igual a $3$.

$\triangle$

Estas ideas nos servirán al aplicar determinantes en sistemas de ecuaciones.

Teorema de Rouché-Capelli

Recordemos que un sistema lineal de ecuaciones con $m$ ecuaciones y $n$ incógnitas es de la forma

\begin{align*}
a_{11}x_1 + a_{12} x_2 + \ldots + a_{1n}x_n &= b_1\\
a_{21}x_1 + a_{22} x_2 + \ldots + a_{2n}x_n &= b_2\\
\vdots&\\
a_{m1}x_1 + a_{m2} x_2 + \ldots + a_{mn}x_n &= b_m,
\end{align*}

lo cual se puede reescribir en términos matriciales tomando una matriz, un vector de escalares y un vector de incógnitas así:
\begin{align*}
A&=\begin{pmatrix}a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix},\\
b&=\begin{pmatrix}b_1\\ \vdots\\ b_m\end{pmatrix} \text{ y }\; X=\begin{pmatrix}x_1\\ \vdots\\ x_n\end{pmatrix},
\end{align*} y reescribiendo el sistema como $$AX=b.$$

Si $C_1,\ldots, C_n$ son las columnas de la matriz $A$, también sabemos que $$AX=x_1C_1+\ldots + x_nC_n,$$ de modo que el sistema de ecuaciones puede ser escrito como $$x_1C_1+\ldots + x_nC_n=b.$$

Esto nos da una intuición fuerte de lo que es un sistema lineal de ecuaciones: se trata de determinar si $b$ está en el espacio generado por las columnas de $A$, y si es así, ver todas las formas en las que podemos obtenerlo.

El teorema de la sección anterior nos permite aplicar determinantes en sistemas de ecuaciones lineales mediante el siguiente resultado.

Teorema (Rouché-Capelli). Sean $A\in M_n(F)$ y $b\in F^m$. Sea $(A|b)$ la matriz en $M_{n,n+1}(F)$ obtenida de agregar a $b$ como columna hasta la derecha de la matriz $A$. Entonces:

  • El sistema lineal de ecuaciones $AX=b$ tiene al menos una solución si y sólo si $\rank(A)=\rank((A|b))$.
  • El conjunto de soluciones $\mathcal{S}_h$ al sistema homogéneo es un subespacio de $F^n$ de dimensión $n-\rank(A)$.

Demostración. Por la discusión previa, el sistema tiene una solución si y sólo si $b$ es una combinación lineal de las columnas de $A$. De esta forma, si existe una solución, entonces $\rank(A)=\rank((A|b))$, pues el espacio generado por las columnas de $A$ sería el mismo que el de las columnas de $(A|b)$.

Por otro lado, si $\rank(A)=\rank((A|b))$ es porque las columnas de $A$ y las de $(A|b)$ generan el mismo espacio, de modo que $b$ está en el espacio vectorial generado por las columnas. Esto prueba la primer parte.

Para la segunda parte, el sistema homogéneo es $AX=0$, de modo que el conjunto solución es precisamente el kernel de la transformación $T:F^n\to F^m$ tal que $X\mapsto AX$. Por el teorema de rango-nulidad, tenemos que $$\dim \mathcal{S}_h = n-\dim \text{Im}(T)=n-\text{rank}(A).$$ Esto termina la demostración.

$\square$

Como discutimos con anterioridad, ya que tenemos una solución $x_0$ para el sistema de ecuaciones $AX=b$, entonces todas las soluciones son el conjunto $$x_0+\mathcal S_h:=\{x_0 + x: x\in \mathcal S_h\}.$$ En otras palabras, cualquier solución al sistema se puede obtener sumando a $x_0$ una solución al sistema lineal homogéneo asociado.

Ejemplo. Consideremos el siguiente sistema de ecuaciones en $\mathbb{R}$ en tres variables:
\begin{align*}
2x+3y-z=1\\
3x-y+2z=0\\
3x+10y-5z=0
\end{align*}

Afirmamos que el sistema no tiene solución. La matriz asociada es $A=\begin{pmatrix} 2 & 3 & -1\\ 3 & -1 & 2 \\ 3 & 10 & -5\end{pmatrix}$. Por lo que sabemos de determinantes de $3\times 3$, podemos calcular su determinante como
\begin{align*}
\begin{vmatrix}
2 & 3 & -1\\ 3 & -1 & 2 \\ 3 & 10 & -5
\end{vmatrix} &= (2)(-1)(-5)+(3)(10)(-1)+(3)(3)(2)\\
&-(-1)(-1)(3)-(2)(10)(2)-(3)(3)(-5)\\
&=10-30+18-3-40+45\\
&=0.
\end{align*}

Esto muestra que $A$ no es invertible, y que por lo tanto tiene rango a lo más $2$. Como $$\begin{vmatrix} 2 & 3 \\ 3 & -1 \end{vmatrix} = (2)(-1)-(3)(3)=-11$$ es un subdeterminante no cero de tamaño 2, entonces $A$ tiene rango $2$.

Ahora consideremos la matriz $$(A|b)=\begin{pmatrix} 2 & 3 & -1 & 1\\ 3 & -1 & 2 & 0 \\ 3 & 10 & -5 & 0\end{pmatrix}.$$ Eliminemos la tercer columna. Podemos calcular al siguiente subdeterminante de $3\times 3$ por expansión de Laplace en la última columna:

\begin{align*}
\begin{vmatrix}
2 & 3 & 1\\ 3 & -1 & 0 \\ 3 & 10 & 0
\end{vmatrix} &= 1 \cdot \begin{vmatrix} 3 & -1 \\ 3 & 10 \end{vmatrix} – 0 \begin{vmatrix} 2 & 3 \\ 3 & 10 \end{vmatrix} + 0 \cdot \begin{vmatrix} 2 & 3 \\ 3 & -1 \end{vmatrix}\\
&= 1 \cdot (3\cdot 10 + 1\cdot 3)\\
&=33.
\end{align*}

De esta forma, $(A|b)$ tiene una submatriz de $3\times 3$ invertible, y por lo tanto tiene rango al menos $3$. Como tiene $3$ filas, su rango es a lo más $3$. Con esto concluimos que su rango es exactamente $3$. Conluimos que $$\text{rank} A = 2 \neq 3 = \text{rank} (A|b),$$ de modo que por el teorema de Rouché-Capelli, el sistema de ecuaciones no tiene solución.

$\triangle$

Antes de ver un ejemplo en el que el sistema sí tiene solución, pensemos qué sucede en este caso. Si la matriz $A$ es de rango $r$, por el teorema de la sección pasada podemos encontrar una submatriz cuadrada $B$ de tamaño $r$ que es invertible. Tras una permutación de las variables o de las ecuaciones, podemos suponer sin perder generalidad que corresponde a las variables $x_1,\ldots,x_r$ y a las primeras $r$ ecuaciones. De esta forma, el sistema $AX=b$ se resume en el siguiente sistema de ecuaciones equivalente:

\begin{align*}
a_{11}x_1 + a_{12} x_2 + \ldots + a_{1r}x_r &= b_1-a_{1,r+1}x_{r+1}-\ldots -a_{1,n} x_n\\
a_{21}x_1 + a_{22} x_2 + \ldots + a_{2r}x_r &= b_2-a_{2,r+1}x_{r+1}-\ldots -a_{2,n} x_n\\
\vdots\\
a_{r1}x_1 + a_{r2} x_2 + \ldots + a_{rr}x_r &= b_m-a_{r,r+1}x_{r+1}-\ldots -a_{r,n} x_n,
\end{align*}

Aquí $x_{r+1},\ldots,x_n$ son lo que antes llamábamos las variables libres y $x_1,\ldots,x_r$ son lo que llamábamos variables pivote. Como la submatriz $B$ correspondiente al lado izquierdo es invertible, para cualquier elección de las variables libres podemos encontrar una única solución para las variables pivote. Ya habíamos probado la existencia y unicidad de cierta solución. Pero de hecho, hay una forma explícita de resolver sistemas de ecuaciones correspondientes a matrices cuadradas. Esto es el contenido de la siguiente sección.

Fórmulas de Cramer para sistemas cuadrados

El siguiente teorema es otra aplicación de determinantes en sistemas de ecuaciones lineales. Nos habla de las soluciones de un sistema lineal $AX=b$ en donde $A$ es una matriz cuadrada e invertible.

Teorema (fórmulas de Cramer). Sea $A$ una matriz invertible en $M_n(F)$ y $b=(b_1,\ldots,b_n)$ un vector en $F^n$. Entonces el sistema lineal de ecuaciones $AX=b$ tiene una única solución $X=(x_1,\ldots,x_n)$ dada por $$x_i=\frac{\det A_i}{\det A},$$ en donde $A_i$ es la matriz obtenida al reemplazar la $i$-ésima columna de $A$ por el vector columna $b$.

Demostración. La existencia y unicidad de la solución ya las habíamos mostrado anteriormente, cuando vimos que la única solución está dada por $$X=(x_1,\ldots,x_n)=A^{-1}b.$$

Si $C_1,\ldots,C_n$ son las columnas de $A$, que $(x_1,\ldots,x_n)$ sea solución al sistema quiere decir que $$x_1C_1+\ldots+x_nC_n=b.$$

El determinante pensado como una función en $n$ vectores columna es $n$-lineal, de modo que usando la linealidad en la $i$-ésima entrada y que el determinantes es alternante, tenemos que:
\begin{align*}
\det A_i &= \det(C_1,\ldots,C_{i-1},b,C_{i+1},\ldots,C_n)\\
&= \det(C_1,\ldots,C_{i-1},\sum_{j=1}^n x_j C_j,C_{i+1},\ldots,C_n)\\
&=\sum_{j=1}^n x_j \det(C_1,\ldots,C_{i-1},C_j,C_{i+1},\ldots,C_n)\\
&=x_i \det(C_1,\ldots,C_{i-1},C_i,C_{i+1},\ldots,C_n)\\
&=x_i \det A
\end{align*}

Como $A$ es invertible, su determinante no es $0$, de modo que $$x_i=\frac{\det A_i}{\det A},$$ como queríamos.

$\square$

Veamos un ejemplo concreto de la aplicación de las fórmulas de Cramer.

Ejemplo. Consideremos el siguiente sistema de ecuaciones en $\mathbb{R}$ en tres variables:
\begin{align*}
2x+3y-z=1\\
3x-y+2z=0\\
3x+10y-5z=3
\end{align*}

En un ejemplo anterior vimos que la matriz asociada $A=\begin{pmatrix} 2 & 3 & -1\\ 3 & -1 & 2 \\ 3 & 10 & -5\end{pmatrix}$ tiene rango $2$. Se puede verificar que la matriz aumentada $$(A|b)=\begin{pmatrix} 2 & 3 & -1 & 1\\ 3 & -1 & 2 & 0 \\ 3 & 10 & -5 & 3 \end{pmatrix}$$ también tiene rango $2$. Por el teorema de Rouché-Capelli, debe existir una solución al sistema de ecuaciones $AX=b$, y el sistema homogéneo tiene espacio de soluciones de dimensión $3-2=1$.

Como la submatriz de las primeras dos filas y columnas es invertible por tener determinante $2(-1)-(3)(3)=-11\neq 0$, entonces el sistema de ecuaciones original es equivalente al subsistema

\begin{align*}
2x+3y=1+z\\
3x-y=-2z.
\end{align*}

Para encontrar su solución, fijamos una $z$ arbitraria. Usando la regla de Cramer, la solución al sistema

está dada por
\begin{align*}
x&=\frac{\begin{vmatrix} 1+z & 3 \\ -2z & -1 \end{vmatrix}}{-11}=\frac{1-5z}{11}\\
y&=\frac{\begin{vmatrix} 2 & 1+z \\ 3 & -2z \end{vmatrix}}{-11}=\frac{3+7z}{11}.
\end{align*}

De esta forma, las soluciones al sistema original están dadas por $$\left(\frac{1-5z}{11}, \frac{3+7z}{11},z\right)=\left(\frac{1}{11},\frac{3}{11},0\right) + z \left(-\frac{5}{11},\frac{7}{11},1\right).$$

Observa que en efecto el espacio de soluciones del sistema homogéneo es de dimensión $1$, pues está generado por el vector $$\left(-\frac{5}{11},\frac{7}{11},1\right),$$ y que todas las soluciones al sistema original son una de estas soluciones, más la solución particular $$\left(\frac{1}{11},\frac{3}{11},0\right).$$

$\square$

Para terminar, veamos un ejemplo muy sencillo de cómo usar las fórmulas de Cramer en un sistema de ecuaciones de $2\times 2$ con un parámetro $\theta$. La intepretación geométrica del siguiente sistema de ecuaciones es «encuentra el punto $(x,y)$ del plano tal que al rotarse en $\theta$ alrededor del origen, llega al punto $(a,b)$ » .

Problema. Sea $a,b,\theta$ números reales. Encuentra las soluciones $x,y$ al sistema de ecuaciones
\begin{align*}
x \cos \theta – y \sin \theta = a\\
x \sin \theta + y \cos \theta = b.
\end{align*}

Solución. La matriz asociada al sistema es $$A=\begin{pmatrix} \cos \theta & -\sin\theta \\ \sin \theta & \cos \theta\end{pmatrix}$$ que tiene determinante $$\det A = \cos ^2 \theta + \sin^2 \theta = 1.$$

De acuerdo al teorema de Cramer, las soluciones al sistema están dadas por:

\begin{align*}
x&=\frac{\begin{vmatrix}a & -\sin \theta\\ b & \cos \theta \end{vmatrix}}{\det A} = a\cos \theta + b\sin \theta\\
y&=\frac{\begin{vmatrix}\cos \theta & a \\ \sin \theta & b \end{vmatrix}}{\det A} = b\cos \theta – a\sin \theta.
\end{align*}

$\triangle$

Hay herramientas en línea que te permiten ver de manera interactiva cómo usar las fórmulas de Cramer para sistemas de ecuaciones en los reales. Una de ellas es el Cramer’s Rule Calculator de matrix RESHISH, en donde puedes ver la solución por pasos para ejemplos que tú fijes.

Más adelante…

En esta entrada volvimos a hablar de sistemas de ecuaciones lineales, pero ahora que ya sabemos determinantes, pudimos verlo con un enfoque diferente al que habíamos utilizado para abordar el tema en la primera unidad. También hablamos de la regla de Cramer, una herramienta muy poderosa cuando estamos intentando resolver sistemas de ecuaciones.

Ahora, vamos a ver cómo se usa lo que vimos en esta entrada resolviendo varios ejemplos. Después, empezaremos a abordar el tema de eigenvalores y eigenvectores.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Determina el rango de la matriz $$A=\begin{pmatrix} 2 & 0 & -1 \\ 3 & -2 & 4 \\ 5 & -2 & 3 \\ -1 & 2 & -5 \end{pmatrix}.$$
  • Para la matriz $A$ del inciso anterior, resuelve los sistemas de ecuaciones lineales $AX=\begin{pmatrix}5\\8\\3\\2\end{pmatrix}$ y $AX=\begin{pmatrix}5\\8\\13\\-3\end{pmatrix}$.
  • Verifica que la matriz aumentada en el último ejemplo en efecto tiene rango $2$.
  • Muestra que si $A$ es una matriz en $M_n(\mathbb{R})$ con entradas enteras y de determinante $1$, y $b$ es un vector en $R^n$ con entradas enteras, entonces la solución $X$ del sistema de ecuaciones $AX=b$ tiene entradas enteras.
  • ¿Cómo puedes usar la regla de Cramer para encontrar la inversa de una matriz invertible $A$?
  • Considera un sistema de ecuaciones con coeficientes en un campo $F_1$ y una extensión de campo $F_2$. Muestra que si el sistema tiene una solución en $F_2$, entonces también tiene una solución en $F_1$.

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»