Archivo de la categoría: Matemáticas

Posts de matemáticas, la ciencia más cercana a las artes.

Seminario de Resolución de Problemas: El teorema del valor medio

Por Leonardo Ignacio Martínez Sandoval

Introducción

Las funciones continuas son bonitas pues tienen la propiedad del valor intermedio y además alcanzan sus valores extremos. Las funciones diferenciables en un intervalo también tienen un par de teoremas que hablan acerca de algo que sucede «dentro del intervalo». Estos son el teorema de Rolle, del cual platicamos en la entrada anterior, y el teorema del valor medio. Ambos nos permiten encontrar en el intervalo un punto en el que la derivada tiene un valor específico.

Teorema de Rolle. Sean $a<b$ reales y $f:[a,b]\to \mathbb{R}$ una función continua en el intervalo $[a,b]$ y diferenciable en el intervalo $(a,b)$. Supongamos que $f(a)=f(b)$. Entonces existe un punto $c\in (a,b)$ tal que $f'(c)=0$.

Teorema del valor medio. Sean $a<b$ reales y $f:[a,b]\to \mathbb{R}$ una función continua en el intervalo $[a,b]$ y diferenciable en el intervalo $(a,b)$. Entonces existe un punto $c\in (a,b)$ tal que $$f'(c)=\frac{f(b)-f(a)}{b-a}.$$

En la entrada anterior vimos aplicaciones del teorema de Rolle a resolución de problemas matemáticos. En esta entrada hablaremos brevemente de la intuición geométrica del teorema del valor medio, de algunas de sus consecuencias inmediatas y de cómo usar al teorema y sus consecuencias para resolver problemas concretos.

La intuición geométrica del teorema del valor medio

El teorema del valor medio dice que una función diferenciable en $(a,b)$ y continua en $[a,b]$ cumple que hay un punto $c$ tal que el valor de la derivada en $c$ es igual a la pendiente de la recta que une los puntos del plano $(a,f(a))$ y $(b,f(b))$. En la siguiente figura, se marca en azul el punto $c$ en donde la pendiente de la tangente es lo que queremos, es decir, la pendiente entre los puntos rojos.

Intuición geométrica del teorema del valor medio
Intuición geométrica del teorema del valor medio

En varios problemas en los que se usa el teorema del valor medio, o bien en los cuales se pide demostrar enunciados parecidos a lo que dice el teorema del valor medio, es conveniente hacer una figura para entender la intuición geométrica del problema.

Consecuencias del teorema del valor medio

Si $f$ y $g$ son funciones continuas en $[a,b]$ y diferenciables en $(a,b)$ entonces se pueden deducir los siguientes resultados a partir del teorema del valor medio. No profundizamos en las demostraciones, y dejamos su verificación como un ejercicio de práctica.

Proposición. Si $f'(x)=0$ para toda $x$ en $(a,b)$, entonces $f$ es constante.

Proposición. Si $f'(x)=g'(x)$ para toda $x$ en $(a,b)$, entonces existe una constante $c$ tal que $f(x)=g(x)+c$ para toda $x$.

Proposición. Si $f'(x)>0$ para toda $x$ en $(a,b)$, entonces $f$ es una función estrictamente creciente. Si $f'(x)<0$ en $(a,b)$, entonces $f$ es una función estrictamente decreciente.

Cuando $f'(x)\geq 0$ y $f'(x)\leq 0$, tenemos resultados análogos que dicen que es no decreciente y no creciente, respectivamente.

Veamos algunas aplicaciones de los resultados anteriores.

Problema. Sean $f:\mathbb{R}\to \mathbb{R}$ y $g:\mathbb{R}\to \mathbb{R}$ funciones tales que para todo par de reales $x$ y $y$ se cumple que $$|f(x)+g(y)-f(y)-g(x)|\leq (x-y)^2.$$ Demuestra que $f$ y $g$ varían sólo por una constante aditiva.

Sugerencia pre-solución. Identifica cuál de las proposiciones anteriores puedes usar. Hay que tener cuidado con las hipótesis, pues en el enunciado no se habla de la diferenciabilidad de ninguna de las funciones involucradas.

Solución. Podría ser tentador usar la segunda proposición que enunciamos arriba, pero no tenemos hipótesis acerca de la diferenciabilidad de $f$ o de $g$. Sin embargo, vamos a mostrar que sí se puede mostrar que $f-g$ es diferenciable en todo real, y que su derivada es $0$ en todo real. Para ello, definamos $h=f-g$ y notemos que la hipótesis dice que $|h(x)-h(y)|\leq (x-y)^2.$

A partir de aquí, notemos que por la hipótesis, para $x\neq y$, $$\frac{|h(y)-h(x)|}{|y-x|}\leq \frac{(y-x)^2}{|y-x|} = |y-x|,$$ y el límite de esta última expresión conforme $y\to x$ es $0$, de modo que $$\left|\lim_{y\to x} \frac{h(y)-h(x)}{y-x}\right|=\lim_{y\to x} \frac{|h(y)-h(x)|}{|y-x|} = 0.$$ Esto muestra que para cualquier $x$ se tiene que $h$ es diferenciable en $x$ y su derivada es igual $0$ en todo $x$. De este modo, $h$ es una función constante, y por lo tanto existe un $c$ tal que $f(x)=g(x)+c$ para todo $x$.

$\square$

Veamos cómo el teorema del valor medio nos puede ayudar a demostrar desigualdades.

Problema. Sea $f:\mathbb{R}\to \mathbb{R}$ una función dos veces diferenciable tal que $f»(x)\geq 0$ para todo $x$. Demuestra que para todo par de reales $a$ y $b$ con $a<b$ se tiene que $$f\left(\frac{a+b}{2}\right) \leq \frac{f(a)+f(b)}{2}.$$

Sugerencia pre-solución. Haz una figura para convencerte de que el resultado es cierto. En el enunciado del problema, la función está siendo enunciada en tres valores, $a$, $b$ y $\frac{a+b}{2}$. Esto te dará una pista de dónde usar el teorema del valor medio.

Solución. Por el teorema del valor medio, existe un real $r$ en el intervalo $\left(a,\frac{a+b}{2}\right)$ para el cual $$\frac{f\left(\frac{a+b}{2}\right)-f(a)}{\frac{a+b}{2}-a} = f'(r).$$

De manera similar, existe un real $s$ en el intervalo $\left(\frac{a+b}{2},b\right)$ para el cual $$\frac{f(b)-f\left(\frac{a+b}{2}\right)}{b-\frac{a+b}{2}} = f'(s).$$

Como $f»(x)>0$ para todo real $x$, tenemos que $f’$ es una función creciente, y como $r<s$, tenemos entonces que $f'(r)<f'(s)$. De esta forma, $$ \frac{f\left(\frac{a+b}{2}\right)-f(a)}{\frac{a+b}{2}-a}<\frac{f(b)-f\left(\frac{a+b}{2}\right)}{b-\frac{a+b}{2}}.$$ Notemos que el denominador de ambos lados es $\frac{b-a}{2}$. Cancelando los denominadores y reacomodando los términos en esta desigualdad, obtenemos la desigualdad deseada.

$\square$

Problemas resueltos con el teorema del valor medio y otras técnicas

Veamos algunos problemas que combinan el teorema del valor medio con otras técnicas de solución de problemas.

Problema. Sea $f(x)$ una función diferenciable en $(0,1)$ y continua en $[0,1]$ con $f(0)=0$ y $f(1)=1$. Muestra que existen puntos distintos $a,b,c,d$ en el intervalo $[0,1]$ tales que $$\frac{1}{f'(a)}+ \frac{1}{f'(b)} + \frac{1}{f'(c)} + \frac{1}{f'(d)} = 4.$$

Sugerencia pre-solución. Para resolver el problema, hay que combinar el teorema del valor medio con el teorema del valor intermedio. El primer paso del problema es encontrar reales $p<q<r$ tales que $f$ valga en ellos $1/4$, $2/4$ y $3/4$.

Solución. Como $f(0)=0$, $f(1)=1$ y $0<1/4<1$, por el teorema del valor intermedio existe un real $p$ en $(0,1)$ tal que $f(p)=1/4$. De manera similar, existe un real $q$ en $(p,1)$ tal que $f(q)=2/4$ y un real $r$ en $(q,1)$ tal que $f(r)=3/4$.

Aplicando el teorema del valor medio a los intervalos $[0,p]$, $[p,q]$, $[q,r]$ y $[r,1]$ obtenemos reales $a,b,c,d$ respectivamente tales que

\begin{align*}
f'(a)&=\frac{f(p)-f(0)}{p-0}=\frac{1/4}{p}\\
f'(b)&=\frac{f(q)-f(p)}{q-p}=\frac{1/4}{q-p} \\
f'(c)&=\frac{f(r)-f(q)}{r-q}=\frac{1/4}{r-q} \\
f'(d)&=\frac{f(1)-f(r)}{1-r}=\frac{1/4}{1-r}.
\end{align*}

Estos son los valores de $a,b,c,d$ que queremos pues

\begin{align*}
\frac{1}{f'(a)}+ \frac{1}{f'(b)} + \frac{1}{f'(c)} + \frac{1}{f'(d)} &= 4(1-r+r-q+q-p+p)\\
&=4.
\end{align*}

$\square$

Problema. Sean $a$, $b$ y $c$ números distintos. Muestra que la siguiente expresión $$\frac{(x-a)(x-b)}{(c-a)(c-b)}+ \frac{(x-b)(x-c)}{(a-b)(a-c)} + \frac{(x-c)(x-a)}{(b-c)(b-c)}$$ no depende del valor de $x$.

Sugerencia pre-solución. Encuentra la derivada de la expresión. Puedes aprovechar la simetría para hacer menos cuentas.

Solución. Usando la regla del producto, la derivada del primer sumando es
\begin{align*}
\frac{(x-a)+(x-b)}{(c-a)(c-b)}&=\frac{(2x-a-b)(b-a)}{(a-b)(b-c)(c-a)}\\
&=\frac{2x(b-a)+a^2-b^2}{(a-b)(b-c)(c-a)}.
\end{align*}

Por simetría, las derivadas de los otros dos términos tienen el mismo denominador que esta y en el numerador tienen, respectivamente,
\begin{align*}
&2x(c-b)+b^2-c^2\quad \text{y}\\
&2x(a-c)+c^2-a^2,
\end{align*} de modo que al sumar las tres expresiones obtenemos cero. Así, la derivada de la expresión es cero y por lo tanto es constante.

$\square$

Hay otro argumento para resolver el problema anterior, que usa teoría de polinomios. A grandes rasgos, la expresión es un polinomio de grado $2$, que toma tres veces el valor $1$, de modo que debe ser igual al polinomio constante $1$.

Más problemas

Hay más ejemplos de problemas relacionados con el teorema del valor medio en la Sección 6.6 del libro Problem Solving through Problems de Loren Larson.

Seminario de Resolución de Problemas: El teorema de Rolle

Por Leonardo Ignacio Martínez Sandoval

Introducción

Las funciones continuas son bonitas pues tienen la propiedad del valor intermedio y además alcanzan sus valores extremos. Las funciones diferenciables en un intervalo también tienen un par de teoremas que hablan acerca de algo que sucede «dentro del intervalo». Estos son el teorema de Rolle y el teorema del valor medio. Ambos nos permiten encontrar en el intervalo un punto en el que la derivada tiene un valor específico.

Teorema de Rolle. Sean $a<b$ reales y $f:[a,b]\to \mathbb{R}$ una función continua en el intervalo $[a,b]$ y diferenciable en el intervalo $(a,b)$. Supongamos que $f(a)=f(b)$. Entonces existe un punto $c\in (a,b)$ tal que $f'(c)=0$.

Teorema del valor medio. Sean $a<b$ reales y $f:[a,b]\to \mathbb{R}$ una función continua en el intervalo $[a,b]$ y diferenciable en el intervalo $(a,b)$. Entonces existe un punto $c\in (a,b)$ tal que $$f'(c)=\frac{f(b)-f(a)}{b-a}.$$

El teorema del valor medio parece más general. Sin embargo, en cierto sentido, estos dos teoremas son «equivalentes», en el sentido de que uno de ellos nos ayuda a probar al otro de manera fácil, y viceversa.

Ya dimos las demostraciones de ambos teoremas en la entrada anterior, que habla del teorema del valor extremo. En esta entrada nos enfocaremos en ver cómo podemos usar el teorema de Rolle para resolver problemas. En la siguiente veremos algunos ejemplos del uso del teorema del valor medio.

Problemas resueltos con teorema de Rolle

Hay algunos problemas que parece que pueden ser resueltos con el teorema del valor intermedio (el de funciones continuas), pero para los cuales no es sencillo encontrar un intervalo correcto en el cual aplicar el teorema. En estas ocasiones, a veces el teorema de Rolle puede entrar al rescate.

Problema. Muestra que $5x^4-4x+1$ tiene una raíz real entre $0$ y $1$.

Sugerencia pre-solución. Primero, convéncete de que no es sencillo resolver este problema usando el teorema del valor intermedio. Luego, escribe a la función como la derivada de otra y aplica el teorema de Rolle. Funciona trabajar hacia atrás: si $f$ es derivada de una función, ¿quién tendría que ser esta función?

Solución. La idea es expresar a $f(x)=5x^4-4x+1$ como la derivada de una función y aplicar el teorema de Rolle. Para ello, podemos integrar o verificar por inspección que si $g(x)=x^5-2x^2+x$, entonces $g'(x)=f(x)$. Ahora, notemos que $g(0)=g(1)=0$. Por el teorema de Rolle, debe existir un $c$ en $(0,1)$ tal que $f(c)=g'(c)=0$, es decir, esta $c$ es justo una raíz de $f$, como queríamos.

$\square$

En algunas ocasiones hay que aplicar el teorema del valor medio repetidas veces dentro de un mismo problema.

Problema. Demuestra que $f(x)=\frac{x^4}{4}-\frac{3}{2}x^2+bx+c$ puede tener como mucho dos ceros el intervalo $[-1,1]$, sin importar los valores de $b$ y de $c$.

Sugerencia pre-solución. Procede por contradicción, suponiendo que hay más de dos ceros. Aplica el teorema del valor medio dos veces.

Solución. Supongamos que $f$ tiene tres o más ceros en ese intervalo, y que son $r,s,t$, con $-1\leq r < s < t < 1$. Tenemos que $f(r)=f(s)$ y que $f(s)=f(t)$, pues estos tres valores son $0$. Por el teorema de Rolle, tenemos que $f'(x)=x^3-3x+b$ debe tener al menos un cero $p$ en el intervalo $(r,s)$ y al menos un cero $q$ en el intervalo $(s,t)$. Aplicando de nuevo el teorema de Rolle, tenemos que $f»(x)=3x^2-3$ debe tener un cero en el intervalo $(p,q)$. Pero $-1<p<q<1$ y $f»(x)$ sólo tiene como ceros a $1$ y $-1$. Esto es una contradicción.

$\square$

Veamos un ejemplo más, en donde es necesario aplicar el teorema de Rolle varias veces y usar otras propiedades de diferenciabilidad.

Problema. Supongamos que la funciónes $f:\mathbb{R}\to \mathbb{R}$ y $g:\mathbb{R}\to \mathbb{R}$ son diferenciables y que $f'(x)g(x)\neq f(x)g'(x)$ para todo real $x$. Muestra que si $f(x)=0$ tiene al menos $2020$ soluciones distintas, entonces $g(x)=0$ tiene al menos $1010$ soluciones distintas.

Sugerencia pre-solución. Modifica el problema y generalízalo de la siguiente manera: bajo las hipótesis del problema, se tiene que entre cualesquiera dos ceros de $f$ hay un cero de $g$. Para demostrar esto, procede por contradicción.

Solución. Mostraremos que entre cualesquiera dos ceros de $f$ hay un cero de $g$. Para ello, procedamos por contradicción. Supongamos $a<b$ son ceros de $f$ y que $g$ no tiene ningún cero en el intervalo $[a,b]$.

Consideremos la función $f/g$. Como $g$ no se anula en $[a,b]$, tenemos que $f/g$ es continua en $[a,b]$ y diferenciable en $(a,b)$. Además, $f(a)/g(a)=f(b)/g(b)=0$. Con esto, por el teorema de Rolle tendríamos que la derivada de $f/g$ en algún punto $c$ en $(a,b)$ es cero. Pero esto es una contradicción, pues la derivada en $c$ es $$\frac{f'(c)g(c)-f(c)g'(c)}{g^2(c)},$$ que por hipótesis nunca es $0$. De esta forma, entre cualesquiera dos ceros de $f$ debe haber un cero de $g$.

Para resolver el problema original, consideremos los $2020$ ceros que tiene $f$, digamos $a_1<\ldots<a_{2020}$. En cada uno de los intervalos $[a_{2i-1},a_{2i}]$ para $i=1,\ldots,1010$ debe haber un cero de $g$, y como estos son intervalos disjuntos, estos deben ser ceros distintos. De este modo, tenemos al menos $1010$ ceros de $g$.

$\square$

Más problemas

Hay más problemas en los que se usa el teorema de Rolle en la Sección 6.5 el libro Problem Solving through Problems de Loren Larson.

Álgebra Lineal I: Ortogonalidad, hiperplanos y ecuaciones lineales

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores hablamos de formas lineales, del espacio dual y de ortogonalidad. Con la teoría que hemos desarrollado en esas entradas, podemos cosechar uno de los hechos más importantes para espacios vectoriales de dimensión finita $n$: todos los subespacios se pueden obtener a partir de intersectar hiperplanos, es decir, subespacios de dimensión $n-1$. El objetivo de esta entrada es dar las definiciones necesarias para enunciar y demostrar este resultado formalmente.

Hiperplanos

Antes de demostrar el resultado mencionado en la introducción, tomaremos un poco de intuición geométrica de $\mathbb{R}^3$.

En $\mathbb{R}^3$ tenemos sólo un subespacio de dimensión $0$, que es $\{(0,0,0)\}$, un punto. Para obtener un subespacio de dimensión $1$, tenemos que tomar un vector $v\neq 0$ y considerar todos los vectores $rv$ con $r$ en $\mathbb{R}$. Esto corresponde geométricamente a una línea por el origen, con la misma dirección que $v$. En otras palabras, los subespacios de dimensión $1$ son líneas por el origen.

¿Quiénes son los subespacios de dimensión $2$? Debemos tomar dos vectores linealmente independientes $u$ y $v$ y considerar todas las combinaciones lineales $au+bv$ de ellos. Es más o menos fácil convencerse de que obtendremos al plano que pasa por $u$, $v$ y el $(0,0,0)$. Es decir, los subespacios de dimensión $2$ de $\mathbb{R}^3$ son planos por el origen.

Esto motiva la siguiente definición.

Definición 1. Sea $V$ un espacio vectorial de dimensión finita $n$. Un hiperplano de $V$ es un subespacio de dimensión $n-1$.

Ejemplo. El subespacio $U=\mathbb{R}_5[x]$ de $V=\mathbb{R}_6[x]$ es un hiperplano. Esto es ya que $U$ es de dimesión $6$ y $V$ es de dimensión $7$. Sin embargo, aunque $U$ también es un subespacio de $W=\mathbb{R}_7[x]$, no se cumple que $U$ sea hiperplano de $W$ pues $W$ es de dimensión $8$ y $6\neq 8-1$.

Las matrices simétricas de $M_2(\mathbb{R})$ forman un subespacio $S$ de dimensión $3$ de $M_2(\mathbb{R})$, pues son de la forma $\begin{pmatrix} a & b \\ b & c \end{pmatrix}$. De esta forma, $S$ es un hiperplano de $M_2(\mathbb{R})$. Sin embargo, el conjunto de matrices simétricas de $M_n(\mathbb{R})$ no es un hiperplano ni para $n=1$, ni para $n\geq 3$.

$\triangle$

Los hiperplanos nos pueden ayudar a obtener subespacios. De hecho, veremos que en el caso de dimensión finita nos ayudan a obtener a todos los subespacios. Para continuar construyendo la intuición, notemos que en $\mathbb{R}^3$ los hiperplanos son simplemente los planos por el origen y que:

  • Podemos obtener a cualquier plano por el origen como intersección de planos por el origen: simplemente lo tomamos a él mismo.
  • Podemos obtener a cualquier línea por el origen como la intersección de dos planos distintos por el origen que la contengan. Por ejemplo, el eje $z$ es la intersección de los planos $xz$ y $yz$. En otras palabras: todo subespacio de dimensión $1$ de $\mathbb{R}^3$ se puede obtener como la intersección de dos hiperplanos de $\mathbb{R}^3$.
  • A $\{0\}$ lo podemos expresar como la intersección de los planos $xy$, $yz$ y $xz$, osea, al único espacio de dimensión cero lo podemos expresar como intersección de $3$ hiperplanos.

Ya obtenida la intuición, lo que veremos a continuación es que el resultado anterior en realidad es un fenómeno que sucede en cualquier espacio vectorial de dimensión finita. Así, nos enfocaremos en entender las definiciones del siguiente teorema, y demostrarlo.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$.

  • Todo subespacio $W$ de $V$ de dimensión $m$ es la intersección de $n-m$ hiperplanos de $V$ linealmente independientes.
  • Toda intersección de $n-m$ hiperplanos de $V$ linealmente independientes es un subespacio vectorial de dimensión $m$.

Los hiperplanos son subespacio y la definición de independencia lineal que tenemos es para vectores. Pero el teorema anterior habla de «hiperplanos linealmente independientes». ¿A qué se refiere esto? Como veremos más adelante, a cada hiperplano se le puede asignar de manera natural un elemento del espacio dual de $V$.

Recordatorio de espacio ortogonal

En la entrada anterior mostramos el siguiente resultado:

Teorema (teorema de dualidad). Sea $V$ un espacio vectorial de dimensión finita sobre $F$ y $W$ un subespacio de $V$ (o de $V^\ast)$. Entonces $$\dim W + \dim W^\bot = \dim V.$$

Además, obtuvimos como corolario lo siguiente:

Corolario. Si $V$ es un espacio vectorial de dimensión finita sobre un campo $F$ y $W$ un subespacio de $V$ (o de $V^\ast$), entonces $(W^\bot)^\bot=W$.

Usaremos estos resultados para dar una definición alternativa de hiperplanos, para entender a los subespacios de dimensión $n-1$ y para mostrar el teorema principal de esta entrada.

Subespacios de dimensión $n-1$ y definición alternativa de hiperplanos

Tomemos un espacio vectorial $V$ de dimensión finita $n$. Un caso especial, pero muy importante, del teorema de dualidad es cuando $W$ es un subespacio de $V^\ast$ de dimensión $1$, es decir, cuando $W$ está generado por una forma lineal $l\neq 0$. En este caso, $W^\bot$ es un subespacio de $V$ y por el teorema de dualidad, es de dimensión $n-1$.

De manera inversa, si $W$ es un subespacio de $V$ de dimensión $n-1$, por el teorema de dualidad tenemos que $W^\bot$ es de dimensión $1$, así que hay una forma lineal $l\neq 0$ que lo genera. Por el corolario, $W=(W^\bot)^\bot$, que en otras palabras quiere decir que $W=\{v\in V: l(v)=0\}.$ En resumen:

Proposición. Un subespacio $W$ de un espacio de dimensión finita $d$ tiene dimensión $d-1$ si y sólo si es el kernel de una forma lineal $l\neq 0$ de $V$.

Ejemplo 1. Considera la forma lineal $\text{ev}_0$ en el espacio vectorial $V=\mathbb{C}_n[x]$ de polinomios con coeficientes complejos y grado a lo más $n$. Los polinomios $p$ tales que $\text{ev}_0(p)=0$ son exactamente aquellos cuyo término libre es $0$. Este es un subespacio vectorial de $V$ de dimensión $n=\dim V – 1$, pues una base para él son los polinomios $x, x^2, \ldots, x^n$.

$\triangle$

Problema. Considera el espacio vectorial $V=M_{2,3}(\mathbb{R})$. Considera $W$ el subconjunto de matrices cuya suma de entradas en la primer columna es igual a la suma de entradas de la segunda columna. Muestra que $W$ es un subespacio de dimensión $5$ y escríbelo como el kernel de una forma lineal.

Solución. Mostrar que $W$ es un subespacio de $V$ es sencillo y se queda como tarea moral. Se tiene que $W$ no puede ser igual a todo $V$ pues, por ejemplo, la matriz $\begin{pmatrix} 1 & 0 & 0\\ 0 & 0 & 0 \end{pmatrix}$ no está en $W$, así que $\dim W\leq 5$.

Las matrices $\begin{pmatrix} 1 & 1 & 0\\ 0 & 0 & 0 \end{pmatrix}$, $\begin{pmatrix} 1 & 1 & 1\\ 0 & 0 & 0 \end{pmatrix}$, $\begin{pmatrix} 1 & 1 & 0\\ 0 & 0 & 1 \end{pmatrix}$, $\begin{pmatrix} 1 & 0 & 0\\ 0 & 1 & 0 \end{pmatrix}$, $\begin{pmatrix} 0 & 1 & 0\\ 1 & 0 & 0 \end{pmatrix}$ son linealmente independientes y están en $W$, así que $\dim W\geq 5$, y junto con el párrafo anterior concluimos que $\dim W = 5$.

Finalmente, tomemos la forma lineal $$l\begin{pmatrix} a & b & c\\ d& e& f\end{pmatrix}=a+d-b-e.$$ Tenemos que una matriz está en el kernel de $l$ si y sólo si $a+d-b-e=0$, si y sólo si $a+d=b+e$, es decir, si y sólo si las entradas de la primer columna tienen la misma suma que las de la segunda. Así, $W=\ker l$.

$\square$

La proposición anterior nos permite dar una definición alternativa de hiperplano y hablar de hiperplanos linealmente independientes.

Definición 2. Sea $V$ un espacio vectorial. Un hiperplano es el kernel de una forma lineal $l\neq 0$ en $V^\ast$. Una familia de hiperplanos es linealmente independiente si sus formas lineales correspondientes son linealmente independientes en $V^\ast$.

Observa además que la definición anterior también sirve para espacios vectoriales de dimensión infinita, pues nunca hace referencia a la dimensión que debe tener un hiperplano.

Ejemplo 2. El conjunto de funciones continuas $f$ en el intervalo $[0,1]$ tales que $$\int_0^1 f(x) \, dx = 0$$ son un subespacio $W$ de $\mathcal{C}[0,1]$. Este subespacio es un hiperplano pues es el kernel de la forma lineal $I$ tal que $$I(f)=\int_0^1 f(x)\, dx.$$

$\square$

No mencionaremos más de espacios de dimensión infinita en esta entrada.

Escribiendo subespacios como intersección de hiperplanos

Ya podemos entender el teorema principal de esta entrada y demostrarlo. Lo enunciamos nuevamente por conveniencia.

Teorema 2. Sea $V$ un espacio vectorial de dimensión finita $n$.

  • Todo subespacio $W$ de $V$ de dimensión $m$ es la intersección de $n-m$ hiperplanos de $V$ linealmente independientes.
  • Toda intersección de $n-m$ hiperplanos de $V$ linealmente independientes es un subespacio vectorial de dimensión $m$.

Demostración. Tomemos un espacio vectorial $V$ de dimensión finita $n$ y un subespacio $W$ de dimensión $m$. Por el teorema de dualidad, la dimensión de $\dim W^\bot$ es $n-m$. Tomemos una base $B=\{l_1,l_2,\ldots,l_{n-m}\}$ de $W^\bot$. Por el corolario al teorema de dualidad, podemos expresar a $W$ como $$W=(W^\bot)^\bot=\{v\in V: l_1(v)=\ldots=l_{n-m}(v)=0\}.$$

Si definimos $L_i=\{v\in V: l_i(v)=0\}$, por la proposición de la sección anterior tenemos que cada $L_i$ es un hiperplano de $V$. Además, $$W=L_1\cap \ldots\cap L_{n-m}.$$ Como los $l_i$ son linealmente independientes, con esto logramos expresar a $W$ como intersección de $n-m$ hiperplanos linealmente independientes.

Probemos ahora la segunda parte de la proposición. Tomemos el conjunto $S=\{l_1,\ldots,l_{n-m}\}$ de formas linealmente independientes que definen a los hiperplanos. Un vector $v$ está en la intersección de todos estos hiperplanos si y sólo si $l_1(v)=\ldots=l_{n-m}(v)=0$, si y sólo si está en $S^\bot=\text{span}(S)^\bot$. Es decir, la intersección de los hiperplanos es precisamente el subespacio $\text{span}(S)^\bot$. Como $S$ es linealmente independiente, tenemos que $ \text{span}(S)$ es de dimensión $n-m$, de modo que por el teorema de dualidad, $\dim \text{span}(S)^\bot = n-(n-m)=m$. Esto muestra lo que queremos.

$\square$

Algunos problemas prácticos

Si tenemos un espacio $V$ de dimensión finita $n$, un subespacio $W$ de dimensión finita $m$ y queremos encontrar de manera práctica la expresión de $W$ como intersección de hiperplanos de $V$, podemos hacer el siguiente procedimiento:

  • Determinamos una base $l_1,\ldots,l_{n-m}$ para $W^\bot$ (la cual consiste de formas lineales de $V^\ast$). Esto lo podemos hacer con los pasos que mencionamos en la entrada anterior.
  • Definimos $L_i=\{v\in V: l_i(v)=0\}$.
  • Tendremos que $W$ es la intersección de los $L_i$.

Una última observación es que cada $L_i$ está definido por una ecuación lineal. Esto nos permite poner a cualquier subespacio como el conjunto solución a un sistema lineal. Esto lo cual podemos ver de forma práctica de la siguiente manera:

  • Tomamos una base $e_1,\ldots,e_n$ de $V$.
  • Tomemos un vector $v=a_1e_1+\ldots+a_ne_n$ que queremos determinar si está en $W$. Para ello, debe estar en cada $L_i$.
  • Cada $L_i$ está definido mediante la ecuación $l_i(v)=0$ de modo que si $v$ está en $L_i$ sus coordenadas $a_1,\ldots,a_n$ en la base $e_1,\ldots,e_n$ deben satisfacer la ecuación lineal $$l_i(e_1)a_1+\ldots+l_i(e_n)a_n=0.$$
  • De esta forma, los vectores $v$ en $W$ son aquellos cuyas coordenadas en la base $e_1,\ldots, e_n$ satisfacen el sistema de ecuaciones obtenido de las ecuaciones lineales para cada $i$ del punto anterior.

Veremos algunos ejemplos de estos procedimientos en la siguiente entrada.

La receta anterior nos permite concluir la siguiente variante del teorema de esta entrada, escrito en términos de ecuaciones lineales.

Teorema. Sea $V$ un espacio vectorial de dimensión finita $n$ y $B$ una base de $V$.

  • Un subespacio $W$ de dimensión $m$ se puede definir mediante un sistema de ecuaciones lineales independientes que deben satisfacer las coordenadas de los vectores de $W$ escritos en la base $B$.
  • Aquellos vectores cuyas coordenadas en la base $B$ satisfacen un sistema de ecuaciones lineales independientes homogéneo, forman un subespacio de $V$ de dimensión $n-m$.

La moraleja de esta entrada es que podemos pensar que los sistemas de ecuaciones, las intersecciones de hiperplanos y los subespacios de un espacio vectorial de dimensión finita son «prácticamente lo mismo».

Más adelante…

A lo largo de esta entrada enunciamos las definiciones necesarias para llegar al teorema que mencionamos al inicio: para un espacio vectorial de dimension finita $n$, todos los subespacios se pueden obtener a partir de intersectar hiperplanos, es decir, subespacios de dimensión $n-1$.

En la siguiente entrada utilizaremos este resultado para resolver algunos ejercicios y veremos en acción este importante teorema.

Tarea moral

A continuación hay algunos ejercicios para que practiques los conceptos vistos en esta entrada. Te será de mucha utilidad intentarlos para entender más la teoría vista.

  • Considera el plano $P$ en $\mathbb{R}^3$ que pasa por el origen y por los vectores $(1,1,1)$, $(0,2,0)$. Encuentra reales $a,b,c$ tales que $$P=\{(x,y,z): ax+by+cz = 0 \}.$$
  • En todos los ejemplos en los que se menciona que algo es subespacio, verifica que en efecto lo sea. En los que se menciona que un conjunto es base, también verifica esto.
  • Encuentra una base para el espacio de polinomios $p$ en $M_n(\mathbb{C})$ tales que $\text{ev}(1)(p)=0$.
  • Sea $W$ el subconjunto de matrices de $V:=M_n(\mathbb{R})$ tal que la sumas de las entradas de todas las filas son iguales. Muestra que $W$ es un subespacio de $V$. Determina la dimensión de $W$ y exprésalo como intersección de hiperplanos linealmente independientes.
  • ¿Qué sucede cuando intersectas hiperplanos que no corresponden a formas linealmente independientes? Más concretamente, supongamos que tienes formas lineales $l_1,\ldots,l_m$ de $F^n$. Toma $B=\{e_1,\ldots,e_n\}$ la base canónica de $F^n$. Considera la matriz $A=[l_i(e_j)]$. ¿Qué puedes decir de la dimensión de la intersección de los hiperplanos correspondientes a los $l_i$ en términos del rango de la matriz $A$?

Entradas relacionadas

Agradecimientos

Trabajo realizado con el apoyo del Programa UNAM-DGAPA-PAPIME PE104721 «Hacia una modalidad a distancia de la Licenciatura en Matemáticas de la FC-UNAM»

Seminario de Resolución de Problemas: Funciones diferenciables y la derivada

Por Leonardo Ignacio Martínez Sandoval

Introducción

En entradas anteriores hemos platicado acerca de funciones continuas. A partir de ahí, platicamos de dos teoremas importantes para esta clase de funciones: el teorema del valor intermedio y el teorema del valor extremo. La siguiente clase de funciones que nos interesa es la de funciones diferenciables. Hablaremos de esta clase de funciones y de la derivada.

Como recordatorio, si $A\subset \mathbb{R}$ y $a$ es un punto en el interior de $A$, decimos que $f:A\to \mathbb{R}$ es diferenciable en $a$ si el límite $$\lim_{h\to 0} \frac{f(a+h)-f(a)}{h}$$ existe y es finito.

En ese caso, llamamos $f'(a)$ al valor de ese límite. Cuando $A$ es abierto y $f$ es diferenciable en todo punto $a$ de $A$, entonces simplemente decimos qur $f$ es diferenciable y podemos definir a la derivada $f’$ de $f$ como la función $f’:A\to \mathbb{R}$ tal que a cada punto lo manda al límite anterior.

Mencionaremos algunas propiedades básicas de funciones diferenciables y cómo se pueden usar para resolver problemas. Como en ocasiones anteriores, no hacemos mucho énfasis en la demostración de las propiedades básicas, pues se pueden encontrar en libros de texto, como el Cálculo de Spivak.

Propiedades básicas de funciones diferenciables

En la definición de diferenciabilidad, se calcula el límite $$\lim_{h\to 0} \frac{f(x+h)-f(x)}{h}.$$ Sin embargo, en algunas ocasiones es más sencillo calcular el límite $$\lim_{y\to x} \frac{f(x)-f(y)}{x-y}.$$ Estos dos límites son equivalentes, pues sólo difieren en el cambio de variable $y=x+h$. Dependiendo del problema que se esté estudiando, a veces conviene usar una notación u otra para simplificar las cuentas.

Como en el caso de la continuidad, la diferenciabilidad se comporta bien con las operaciones básicas.

Proposición. Si $f:(a,b)\to \mathbb{R}$ y $g:(a,b)\to \mathbb{R}$ son diferenciables, entonces $f+g$, $f-g$ y $fg$ son diferenciables. Tenemos que sus derivadas son
\begin{align*}
(f+g)’=f’+g’\\
(f-g)’=f’-g’\\
(fg)’=f’g+fg’.
\end{align*} Si $g(x)\neq 0$, entonces $f/g$ también es diferenciable en $x$, con derivada $$(f/g)’=\frac{f’g-fg’}{g^2}.$$

La proposición anterior se puede probar directamente de las definiciones. Se demuestra en un curso usual de cálculo, pero es un ejercicio recomendable hacer las demostraciones de nuevo.

La tercera igualdad se llama la regla del producto y la última la regla del cociente. En la regla del producto tenemos simetría, así que no importa cuál función derivamos primero. En la regla del cociente sí importa que derivemos primero a $f$ en el numerador. Para acordarse de ello, es fácil acordarse que $g$ va «al cuadrado» y como va al cuadrado, es «más fuerte», y «no se deja derivar primero».

Las funciones diferenciables son continuas, en el sentido de la siguiente proposición.

Proposición. Si $f:A\to \mathbb{R}$ es una función diferenciable en $x$, entonces es continua en $x$.

Demostración. En efecto,
\begin{align*}
\lim_{h\to 0}& f(a+h)-f(a) \\
= &\lim_{h\to 0} \frac{f(a+h)-f(a)}{h} \cdot h\\
=&\lim_{h\to 0} \frac{f(a+h)-f(a)}{h} \cdot \lim_{h\to 0} h\\
= &f'(a)\cdot 0 = 0,
\end{align*}

de modo que $$\lim_{h\to 0}f(a+h) = f(a),$$ en otras palabras, $$\lim_{x\to a} f(x)=f(a),$$ así que $f$ es continua en $a$.

$\square$

Una propiedad más es que las funciones diferenciables alcanzan su máximo en puntos en donde la derivada se anula. Damos un esbozo de la demostración de una parte de la proposición, pero recomendamos completar con cuidado el resto de la prueba, sobre todo cuidando que al pasar términos negativos multiplicando o dividiendo, se invierta la desigualdad correctamente.

Proposición. Si $f:(a,b)\to \mathbb{R}$ tiene un máximo o un mínimo en $x$, entonces $f'(x)=0$.

Sugerencia pre-demostración. Supón que $f'(x)\neq 0$. Divide en casos de acuerdo a si $f'(x)>0$ ó $f'(x)<0$. También, haz una figura que te ayude a entender lo que está sucediendo: si la derivada existe y es mayor que $0$ en un punto $x$, entonces cerca de $x$ la función se ve como si «tuviera pendiente positiva» y entonces tantito a la derecha crece y tantito a la izquierda decrece.

Esbozo de demostración. Procedemos por contradicción. Si $f'(x)=c>0$, entonces para $h>0$ suficientemente pequeño tenemos que $$\left|\frac{f(x+h)-f(x)}{h}-c\right|<c/2,$$ de modo que $\frac{f(x+h)-f(x)}{h}>c/2$, de donde $f(x+h)>f(x)+\frac{hc}{2}>f(x)$, lo que muestra que $x$ no es un máximo.

Del mismo modo, tomando $h<0$ suficientemente cercano a $0$, tenemos que $x$ no es un mínimo. Los casos en los que $f'(x)=c<0$ son parecidos.

$\square$

La proposición anterior nos permite usar la derivada para estudiar los valores extremos de una función, aunque no esté definida en un intervalo abierto. Si $f:[a,b]\to \mathbb{R}$ es diferenciable en $(a,b)$ y es continua en $[a,b]$, entonces sus valores extremos forzosamente están o bien en los extremos del intervalo (en $a$ o $b$), o bien en un punto $x\in (a,b)$ en donde la derivada es $0$. Esta es la estrategia que usaremos para mostrar los teoremas de Rolle y del valor medio.

Problemas resueltos de funciones diferenciables

Veamos algunos problemas en los que podemos aplicar las propiedades anteriores de funciones diferenciables.

Problema. Supongamos que la función $xf(x)$ es diferenciable en un punto $x_0\neq 0$ y que la función $f$ es continua en $x_0$. Muestra que $f$ es diferenciable en $x_0$.

Sugerencia pre-solución. Para mostrar que la expresión es diferenciable, usa la definición de diferenciabilidad con límite $x\to x_0$. En vez de tratar de encontrar el límite del cociente directamente, cambia el problema multiplicando y dividiendo por $xx_0$.

Solución. Primero, como $xf(x)$ es diferenciable en $x_0$, tenemos que el siguiente límite existe y es finito $$A:=\lim_{x\to x_0}\frac{xf(x)-x_0f(x_0)}{x-x_0}.$$

Tenemos que mostrar que el límite $$\lim_{x\to x_0}\frac{f(x)-f(x_0)}{x-x_0}$$ existe. Para ello tomamos una $x$ suficientemente cerca de $x_0$, de modo que $x\neq 0$, y multiplicamos el numerador y denominador por $xx_0$, y luego sumamos y restamos $x_0^2f(x_0)$ en el numerador para obtener lo siguiente:

\begin{align*}
&\frac{f(x)-f(x_0)}{x-x_0} &\\
= &\frac{xx_0 f(x)-xx_0 f(x_0)}{xx_0 (x-x_0)}\\
=&\frac{xx_0 f(x)-x_0^2f(x_0)-xx_0 f(x_0)+x_0^2f(x_0)}{xx_0 (x-x_0)}\\
=&\frac{1}{x}\left(\frac{xf(x)-x_0f(x_0)}{x-x_0}\right) -\frac{f(x_0)}{x}.
\end{align*}

Tomando el límite cuando $x\to x_0$, tenemos que el primer sumando converge a $\frac{A}{x_0}$, por la diferenciabilidad de $xf(x)$ y que el segundo sumando converge a $\frac{f(x_0)}{x_0}$. De esta forma, $f$ es diferenciable en $x_0$.

$\square$

Problema. Sea $n$ un entero positivo y $a_1,\ldots, a_n$ números reales. Consideremos la función $$f(x)=a_1\sin x + a_2\sin 2x + \ldots + a_n \sin nx.$$ Muestra que si $|f(x)|\leq |\sin x|$ para todos los reales $x$, entonces $$|a_1+2a_2+\ldots+na_n|\leq 1.$$

Sugerencia pre-solución. Se puede hacer una prueba por inducción. Intenta hacerlo así. Luego, intenta modificar el problema poniendo a la expresión final del enunciado en términos de la derivada de $f$ en algún valor específico.

Solución. La derivada de $f$ es $$a_1\cos x+ 2a_2\cos 2x + \ldots + n a_n\cos nx,$$ que en $0$ es $$a_1+2a_2+\ldots+na_n,$$ que es precisamente el lado izquierdo de la desigualdad que queremos.

Por definición de derivada, tenemos que
\begin{align*}
|f'(0)|&=\lim_{x\to 0}\left|\frac{f(x)-f(0)}{x-0}\right|\\
&=\lim_{x\to 0} \left|\frac{f(x)}{x}\right|.
\end{align*}

Por la hipótesis del problema, la última expresión dentro del límite es menor o igual a $\left|\frac{\sin x}{x}\right |$. Como el límite de $\frac{\sin x}{x}$ cuando $x \to 0$ es $1$, tenemos que $$|f'(0)|\leq 1,$$ como queríamos.

$\square$

Problema. Supongamos que $f:\mathbb{R}\to \mathbb{R}$ es una función que satisface la ecuación funcional $f(x+y)=f(x)+f(y)$ para todo $x$ y $y$ en $\mathbb{R}$ y que $f$ es diferenciable en $0$. Muestra que $f$ es una función de la forma $f(x)=cx$ para $c$ un real.

Sugerencia pre-solución. Usa como paso intermedio para el problema mostrar que $f$ es diferenciable en todo real. Recuerda que una función que satisface la ecuación funcional del problema debe satisfacer que $f(x)=f(1)x$ para todo racional $x$. Esto se probaba con división por casos e inducción. Usa propiedades de funciones continuas.

Solución. Tomando $x=y=0$, tenemos que $f(0)=2f(0)$, de modo que $f(0)=0$. Mostremos que $f$ es diferenciable en todo real.

Como $f$ es diferenciable en $0$, tenemos que $$L:=\lim_{h\to 0} \frac{f(h)-f(0)}{h}=\lim_{h\to 0} \frac{f(h)}{h}$$ existe y es finito. Tomemos ahora cualquier real $r$. Por la ecuación funcional, tenemos que
\begin{align*}
f(r+h)-f(r)&=f(r)+f(h)-f(h)\\
&=f(r),
\end{align*}
de modo que $$\lim_{h\to 0} \frac{f(r+h)-f(r)}{h}=\lim_{h\to 0} f(h)=L.$$

Así, $f$ es diferenciable en todo real $r$. Por lo tanto, $f$ es contínua en todo real.

Anteriormente, cuando hablamos de inducción y de división por casos, vimos que una función que satisface la ecuación funcional $f(x+y)=f(x)+f(y)$ debe satisfacer que $f(x)=f(1) x$ para todo número racional $x$. Para cualquier real $r$ podemos encontrar una sucesión de racionales $\{x_n\}$ que convergen a $r$. Como $f$ es continua, tenemos que
\begin{align*}
f(r)&=\lim_{n\to \infty} f(x_n) \\
&= \lim_{n\to \infty} f(1) x_n \\
&= f(1) r.
\end{align*}

Esto muestra lo que queremos.

$\square$

Más problemas

Hay más ejemplos de problemas relacionados con la derivada en la Sección 6.3 del libro Problem Solving through Problems de Loren Larson.

Modelo de epidemia básico con álgebra lineal y Python

Por Leonardo Ignacio Martínez Sandoval

Introducción

En esta entrada voy a platicar de una forma en la que se puede plantear un modelo de epidemia básico usando álgebra lineal. Es un modelo bastante simple, sin embargo a partir de él se pueden verificar varias de las lecciones que hemos estado aprendiendo durante la crisis del coronavirus. A grandes rasgos, haremos algunas suposiciones razonables para plantear una epidemia como un modelo de Markov.

Ya que hagamos esto, estudiaremos dos escenarios posibles: en el que la gente sale de sus casas y en el que la gente se queda en sus casas. Para ello usaremos las librerías NumPy y Matplotlib de Python para hacer las cuentas y generar bonitas gráficas como la siguiente:

Gráfica de evolución de la población con contagio bajo, bajo las suposiciones de nuestro modelo de epidemia básico
Ejemplo del tipo de gráficas que obtendremos en la entrada

En particular, veremos que incluso de este modelo simple se notan contrastes importantes en ambos escenarios. En particular, se puede deducir la importancia de #QuédateEnCasa para retrasar el contagio y no saturar los sistemas de salud.

Advertencia: De ninguna forma esta entrada pretende modelar, específicamente, la evolución del coronavirus. Para ello hay expertos trabajando en el tema, y están usando modelos mucho más sofisticados que el que platicaré. Esta entrada es, en todo caso, una introducción al tema y ayuda a explicar, poco a poco, algunos de los argumentos que se usan en modelación matemática de epidemias.

Suposiciones y modelo tipo Markov

Comenzemos a plantear el modelo de epidemia básico. Pensemos en una enfermedad imaginaria, que se llama «Imagivid» y en un territorio imaginario que se llama «Imagilandia», donde la población inicial es de $100,000$ habitantes sanos, en el día $0$.

Vamos a pensar que una persona puede estar en alguno de los siguientes cinco estados:

  • Sano
  • Síntomas leves
  • Síntomas graves
  • Recuperado
  • Fallecido

Para cada día $n$, consideremos el vector $$X(n)=(s(n),l(n),g(n),r(n),f(n))$$ de $5$ entradas cuyas entradas son los sanos, de síntomas leves, de síntomas graves, recuperados y fallecidos al día $n$. Por ejemplo al día $0$ dijimos que todos están sanos, así que $X(0)=(100000,0,0,0,0)$.

Haremos las siguientes suposiciones de cómo se pasa de un estado a otro

  • Los únicos fallecidos del periodo de tiempo que tendremos son por Imagivid. Sólo se puede fallecer de ello tras tener síntomas graves. Si alguien tiene síntomas graves, entonces tiene cierta probabilidad $g_f$ de fallecer al día siguiente, $g_r$ de recuperarse y por lo tanto $1-g_r-g_f$ de quedarse como enfermo grave.
  • Imagivid se contagia de persona a persona, y de un día a otro una persona tiene probabilidad $s_l$ de pasar de estar sana a tener síntomas leves. No se puede pasar directamente a tener síntomas graves, recuperarse o morir. De modo que se queda sana de un día a otro con probabilidad $1-s_l$
  • Si una persona tiene síntomas leves, tiene probabilidad $l_g$ de pasar a tener síntomas graves y $l_r$ de pasar a recuperarse. Por lo tanto, tiene probabilidad $1-l_g-l_r$ de quedarse con síntomas leves.
  • Una persona que se recupera desarrolla inmunidad a Imagivid, así que se queda en ese estado.
  • Una persona que fallece, se queda en ese estado.

En otras palabras, tenemos el siguiente diagrama de cómo se pasa de tener un estado a otro, en donde los números en las flechas muestran la probabilidad de pasar de un estado a otro:

Diagrama de probabilidades de transición entre estados en el modelo de epidemia básico
Diagrama de probabilidades de transición

En lenguaje técnico, estamos modelando a la epidemia como un proceso de Markov. Sin embargo, no es necesario entender toda la teoría de procesos de Markov para entender lo que sigue, pues la idea es bastante intuitiva.

Con estos números y suposiciones, podemos entender, en valor esperado, cómo será el vector de población $$X(n+1)=(s(n+1), l(n+1), g(n+1), r(n+1), f(n+1))$$ si sabemos cómo es el vector $$X(n)=(s(n), l(n), g(n), r(n), f(n)).$$ Por ejemplo, podemos esperar que la cantidad de recuperados al día $n+1$ sea $$r(n+1)=l_r \cdot l(n)+ g_r \cdot g(n) + 1 \cdot r(n),$$ pues de los de síntomas leves del día $n$ habrá una proporción $l_r$ de ellos que se recuperen, de los graves del día $n$ habrá una proporción $g_r$ de ellos que se recuperen, y todos los recuperados del día $n$ se quedan recuperados. De esta forma, obtenemos el siguiente sistema de ecuaciones de lo que podemos esperar:
\begin{align*}
s(n+1)&=(1-s_l) \cdot s(n)\\
l(n+1)&=s_l \cdot s(n) + (1-l_r-l_g) \cdot l(n)\\
g(n+1)&= l_g \cdot l(n) + (1-g_r-g_f) \cdot g(n)\\
r(n+1)&=l_r \cdot l(n) + g_r \cdot g(n) + 1 \cdot r(n)\\
f(n+1)&=g_f \cdot g(n) + 1 \cdot f(n),
\end{align*}

Este sistema de ecuaciones se puede escribir de una forma mucho más compacta. Si definimos la matriz $$A=\begin{pmatrix} 1-s_l & 0 & 0 & 0 & 0 \\s_l & 1-l_r-l_g & 0 & 0 & 0 \\0 & l_g & 1-g_r-g_f & 0 & 0 \\ 0 & l_r & g_r & 1 & 0\\ 0 & 0 & g_f & 0 & 1 \end{pmatrix},$$ las ecuaciones anteriores se pueden abreviar simplemente a $$X(n+1)=AX(n).$$

De esta forma, si queremos entender qué esperar del día $n$, basta hacer la multiplicación matricial $X(n)=A^n X(0)$.

Un ejemplo concreto en Python

El modelo de epidemia básico que planteamos arriba depende de cinco parámetros:

  • $s_l$, la probabilidad de pasar de estar sano a tener síntomas leves,
  • $l_g$, la probabilidad de pasar de tener síntomas leves a graves,
  • $l_r$, la probabilidad de pasar de tener síntomas leves a recuperarse,
  • $g_r$, la probabilidad de pasar de tener síntomas graves a recuperarse y
  • $g_f$, la probabilidad de pasar de tener síntomas graves, a fallecer.

Hagamos un ejemplo concreto, en el que estos parámetros para Imagivid son los siguientes: $s_l=0.30$, $l_g=0.10$, $l_r=0.20$, $g_r=0.10$ y $g_f=0.10$. En «la vida real», para hacer una modelación correcta se tienen que estimar estos parámetros de lo que ya se sepa de la enfermedad.

Si ponemos estos valores, la matriz que obtenemos es la siguiente:

$$A=\begin{pmatrix} 0.7 & 0 & 0 & 0 & 0 \\0.3 & 0.7 & 0 & 0 & 0 \\0 & 0.1 & 0.8 & 0 & 0 \\ 0 & 0.2 & 0.1 & 1 & 0\\ 0 & 0 & 0.1 & 0 & 1 \end{pmatrix}.$$

Vamos a usar la fórmula que obtuvimos en la sección anterior para entender cómo va evolucionando la epidemia de Imagivid. Para no hacer las cuentas a mano, usaremos Python. Trabajaremos con Python 3 y usaremos Numpy (para las cuentas de matrices) y Matplotlib (para visualizar gráficas). En el siguiente código definimos la población inicial, los parámetros de transición y la matriz de la sección anterior.

import numpy as np
import matplotlib.pyplot as plt
# En cada momento tendremos un vector
# de la distribución de la población
# (sanos, sintomas leves, sintomas graves,
# recuperados, fallecidos)

# Población inicial
x_0=(100000,0,0,0,0)

# Definimos las probabilidades de
# transición

S_L = 0.30
L_G = 0.10
L_R = 0.20
G_R = 0.10
G_F = 0.10

# Definimos la matriz A
A=np.array([[1-S_L,0,0,0,0],[S_L,1-L_G-L_R,0,0,0],[0,L_G,1-G_R-G_F,0,0],[0,L_R,G_R,1,0],[0,0,G_F,0,1]])

Vamos a estudiar la evolución de Imagivid por 60 días. Por ello, vamos a hacer un bucle en Python que calcule cómo son los vectores de población de todos estos 60 días. Para empezar a entender cómo funciona nuestro modelo de epidemia, también pediremos que muestre los valores para los días 1, 2 y 3.

# Encontramos la evolución de la
# epidemia los primeros 60 días
evolution=[x_0]
for j in range(60):
    evolution.append(np.matmul(A,evolution[-1]))
# Mostramos lo que pasa los primeros
# 3 días
for j in range(1,4):
    print(evolution[j])

Los valores que obtenemos son
\begin{align*}
X_1 &= (70000,30000,0,0,0)\\
X_2 &= (49000, 42000, 3000, 6000)\\
X_3 &= (34300, 44100, 6600, 14700, 300).
\end{align*}

Esto nos dice que al primer día hay $70000$ sanos y $30000$ con síntomas leves. En los primeros dos días no hay fallecidos, pues de acuerdo a nuestro modelo de epidemia un habitante primero debe presentar síntomas leves, luego graves y luego ya tal vez fallece. Al día 3 el modelo predice $300$ fallecidos.

Esto son sólo tres días, pero sería bueno poder entender qué sucede en todo el periodo de 60 días. Para ello, vamos a pedir a Python que nos muestre una gráfica de cómo evoluciona la población a través del tiempo. Para ello hacemos lo siguiente

# Hacemos gráfica para mostrar la evolución de todo el tiempo
plt.plot([j[0] for j in evolution], label="Sanos")
plt.plot([j[1] for j in evolution], label="Síntomas leves")
plt.plot([j[2] for j in evolution], label="Síntomas graves")
plt.plot([j[3] for j in evolution], label="Recuperados")
plt.plot([j[4] for j in evolution], label="Fallecidos")
plt.title("Evolución de la población, contagio=0.30")
plt.legend()
plt.show()

Obtenemos la siguiente imagen

Evolución de la población con contagio $0.30$

La gráfica tiene sentido es de esperarse que, tras cierta cantidad de tiempo, ya sólo haya habitantes recuperados y fallecidos. Notemos que hay un momento el el que la población con síntomas leves es de aproximadamente $40,000$ habitantes y que la población con síntomas graves llega a ser, en algún momento, como de $12,000$ habitantes.

¿Qué sucede al final de nuestro periodo de estudio? Si le pedimos a Python que nos de las últimas dos entradas del vector de población al día $60$,

#Mostramos recuperados y fallecidos al último día
print(evolution[-1][3])
print(evolution[-1][4])

obtenemos $\sim 83,333$ recuperados y $\sim 16,666$ fallecidos al día $60$, de modo que en este escenario la epidemia cobró $16,666$ vidas de Imagilandia. De hecho una observación muy importante, viendo la gráfica, es que ya se tenía prácticamente esta cantidad de víctimas desde el día 30.

Disminuir la tasa de infección para retrasar la epidemia

Antes de que sucediera la tragedia, las autoridades de Imagilandia estudiaron el modelo de epidemia que acabamos de mencionar y se dieron cuenta de que tenían que tomar una acción inmediata para mejorar la situación. Decidieron que una cosa muy importante para que la situación mejorara era pedirle a la gente que se quedara en sus casas lo más posible, pues con ello se disminuiría la tasa de contagio. Para ello sacaron la campaña #QuédateEnCasa. Las personas hicieron caso.

Habiendo más personas sanas y enfermas en su propia casa, ahora ni los enfermos pueden contagiar a sanos, ni los sanos estar expuestos a enfermos. Así, una persona sana ahora tiene menor probabilidad de estar enferma al día siguiente. Supongamos que $s_l$ pasa de ser $0.30$ a ahora ser $0.05$. De esta forma, ahora tenemos una nueva matriz que ayuda a calcular la evolución de la pandemia:

$$A=\begin{pmatrix} 0.95 & 0 & 0 & 0 & 0 \\0.05 & 0.7 & 0 & 0 & 0 \\0 & 0.1 & 0.8 & 0 & 0 \\ 0 & 0.2 & 0.1 & 1 & 0\\ 0 & 0 & 0.1 & 0 & 1 \end{pmatrix}.$$

Vamos a pedirle de nuevo a Python que haga las cuentas para los primeros 60 días bajo las suposiciones de nuestro modelo de epidemia y que nos muestre una gráfica de la evolución de la población.

# Definimos las probabilidades de transición, que son iguales salvo que ahora la tasa de contagio es menor, y por lo tanto S_L es menor

S_L = 0.05
L_G = 0.10
L_R = 0.20
G_R = 0.10
G_F = 0.10

# Definimos la matriz A
A=np.array([[1-S_L,0,0,0,0],[S_L,1-L_G-L_R,0,0,0],[0,L_G,1-G_R-G_F,0,0],[0,L_R,G_R,1,0],[0,0,G_F,0,1]])

evolution2=[x_0]
for j in range(60):
    evolution2.append(np.matmul(A,evolution2[-1]))

plt.plot([j[0] for j in evolution2], label="Sanos")
plt.plot([j[1] for j in evolution2], label="Síntomas leves")
plt.plot([j[2] for j in evolution2], label="Síntomas graves")
plt.plot([j[3] for j in evolution2], label="Recuperados")
plt.plot([j[4] for j in evolution2], label="Fallecidos")
plt.title("Evolución de la población, contagio=0.05")
plt.legend()
plt.show()

La gráfica que obtenemos es la siguiente:

Evolución de la población con contagio $0.05$

Una cosa fantástica en este escenario es que nunca hay muchas personas enfermas simultáneamente. En el peor día, parece haber como $12,000$ personas enfermas con síntomas leves, y parece que nunca hay más de $6000$ personas con síntomas graves. ¿Qué sucede con la mortalidad? Si le pedimos a Python que nos diga el número de habitantes recuperados y fallecidos al día 60,

print(evolution2[-1][3])
print(evolution2[-1][4])

obtenemos $\sim 78,419$ recuperados y $\sim 15,438$ fallecidos. Esto es ligeramente mejor que en la situación anterior, en donde había $\sim 16,000$ fallecidos. Donde sí hay una diferencia es en lo que sucede al día $30$. Si pedimos a Python que nos muestre la cantidad de fallecidos al día $30$ en ambos escenarios obtenemos lo siguiente.

print(evolution[30][4])
print(evolution2[30][4])

En el primer escenario, en el que la gente no se queda en casa, al día $30$ tenemos $\sim 16,493$ fallecidos, que es prácticamente ya todos los que habrá. Cuando la gente se queda en casa, al día $30$ sólo hay $\sim 10,963$, una buena parte menos.

Esto parece estar mejor, sin embargo, el tiempo va a seguir pasando, y de todas formas llegaremos al día $60$, en donde ambos escenarios son muy parecidos ¿Por qué entonces todo el esfuerzo de pedirle a la gente que se quede en casa, si la diferencia es mínima? Porque el tiempo es oro.

La carrera contra el tiempo

Hay muchas razones por las cuales es conveniente retrasar la epidemia de Imagivid en Imagilandia, aunque el modelo sencillo que mostramos arriba muestre qe a los 60 días parecería que habrá la misma cantidad de fallecidos.

Primero, es importante retrasar los contagios pues existe la posibilidad de que los científicos de Imagilandia entiendan mejor a Imagivid y, por ejemplo, desarrollen una vacuna o un tratamiento. ¿Qué sucedería si los científicos encuentran una cura al día $30$? En el primer escenario sólo se salvan unas $\sim 150$ vidas, pero en el segundo escenario se salvan unas $\sim 4,500$, osea, unas $\sim 4350$ más. En otras palabras, en el primer escenario el desarrollo científico llega demasiado tarde.

Segundo, también es importante retrasar la epidemia pues permite tener el número de casos simultáneos bajo control. Esto ya lo discutimos un poco arriba, pero pidamos a Python una gráfica más, para poder discutirlo de manera más clara. Supondremos, además, que Imagilandia cuenta con solamente $6000$ camas de hospital en donde se pueden tratar los casos severos de Imagivid, y le pediremos a Python que ponga esto como una línea horizontal.

plt.plot([j[1] for j in evolution2], color="green", linestyle=":", label="Leves, Contagio=0.05")
plt.plot([j[2] for j in evolution2], color="green", label="Severos, Contagio=0.05")
plt.plot([j[1] for j in evolution], color="red", linestyle=":", label="Severos, Contagio=0.30")
plt.plot([j[2] for j in evolution], color="red", label="Severos, Contagio=0.30")
plt.hlines(6000,0,60, color="black", label="Capacidad sistema salud")
plt.title("Enfermos a través del tiempo")
plt.legend()
plt.plot()

Obtenemos la siguiente gráfica:

Comparación de enfermos leves y graves. Rojo es con alto contagio y verde con bajo.

Cuando la gente sí se queda en sus casas y la tasa de contagio es baja (en verde), siempre hay suficiente espacio en el sistema de salud para tratar a a los enfermos graves.

Cuando la gente no se queda en sus casas y la tasa de contagio es alta (en rojo), notemos que los casos severos sobrepasan al sistema de salud. Aproximadamente entre los días $3$ y $15$ se tienen muchos enfermos graves que no podrán ser atendidos correctamente. Por ejemplo, al día 9 hay aproximadamente $\sim 6000$ enfermos graves por encima de la capacidad del sistema de salud. Sin atención médica, probablemente en vez de que sólo fallezcan el $10\%$ de ellos (según nuestro modelo), fallecerán casi todos, dando $5400$ víctimas más que no hemos contado.

De esta forma, siguiendo los consejos de quedarse en casa, la población de Imagilandia puede salvar, potencialmente, $\sim 4350$ personas por la vacuna y $\sim 5400$ personas por evitar saturar el sistema de salud, osea, salvar unas $\sim 9750$ vidas. Para ello es necesario que las autoridades hagan el llamado a quedarse, y que la población de Imagilandia haga caso. De aquí la importancia del #QuédateEnCasa.

Más contenido

Todo el código de Python del modelo lo corrí en una libreta de Jupyter. Puedes ver una versión en PDF de todo el código a continuación.

Si quieres el archivo de Jupyter para jugar con el modelo, puedes obtenerlo en el GitHub del proyecto: https://github.com/leomtz/linear-epidemid.

El modelo de epidemia que presentamos es una aplicación muy sencilla de álgebra lineal. En este blog hemos estado subiendo material de un curso de álgebra lineal que se imparte en la UNAM, y que ahora estamos impartiendo a distancia por la contingencia. A continuación ponemos el enlace a este curso y a otro material que te puede interesar.