Archivo de la etiqueta: distribución binomial

Estadística No Paramétrica: Pruebas para proporciones

Por Alondra Sierra

Introducción

Las pruebas binomiales se caracterizan porque la distribución de la estadística de prueba tiene una distribución binomial, de la cual solo se conoce el tener “éxito” o “fracaso” en cada observación.

En esta unidad veremos distintos tipos de pruebas binomiales, así como sus aplicaciones con diferentes ejercicios. Comenzaremos en esta entrada hablando de pruebas para proporciones.

1.1 Pruebas para proporciones

Usaremos la prueba de proporciones cuando, dada una población, nos interese conocer la proporción de elementos de la población que posee cierta característica, o bien, evaluar las afirmaciones con respecto a una proporción de la población.

Partimos de una muestra aleatoria $X_1,X_2, …, X_n$ la cual clasificaremos en dos categorías, $C_1$ y $C_2$. La observación $X_i$ podría estar en $C_1$ o en $C_2$.

El número de observaciones en $C_1$ es denotado como $O_1$, mientras que para $C_2$ es $n-O_1$.

La hipótesis nula siempre será:

$H_0: p=p^*$

(En donde, $p^*$ de población es igual a alguna proporción de población $p^*$)

La hipótesis alternativa toma alguna de las siguientes formas dependiendo del problema en cuestión:

A. $H_1: p≠p^* $ (Prueba de dos colas)

B. $H_1: p < p^*$ (Prueba de cola inferior o derecha)

C. $H_1: p > p^*$ (Prueba de cola superior o izquierda)

De acuerdo a la metodología usada en (Conover, 1999), para el caso A, la región de rechazo es de tamaño $\alpha$ y corresponde a la suma de las dos colas de la distribución nula del estadístico $T$; $\alpha_1$ (cola inferior) y $\alpha_2$ (cola superior).

El estadístico de prueba $T$ será la proporción de la población que se estará evaluando, en donde, su distribución nula es la distribución binomial con parámetros $p = p^*$ la probabilidad especificada en la hipótesis nula y $n$ el tamaño de la muestra.

$T =$ Número de observaciones en $C_1$

  • Cuando $n \leq 20$ utilizamos el estadístico:

 $T \sim Bin(n,p^*)$

donde $T$ se obtiene de la Tabla de Distribución Binomial (A1).

  • Cuando $n > 20$ utilizamos la aproximación normal y en este caso se utilizan los cuantiles aproximados $X_q$ para obtener el estadístico $T$. 

$X_q = np + Z_q \sqrt{np(1 – p)}$

donde $Z_q$ se obtiene de la Tabla de Distribución Normal (A2).

Buscamos los cuantiles $t_1$ y $t_2$ como:

$P[Y \leq t_1] = \alpha_1$ 

$P[Y \leq t_2] = 1 – \alpha_2$  ó  $P[Y> t_2] = \alpha_2$

$Y \sim Bin(n, p^*)$ ó $ Y \sim X_q $

según sea el caso.

Si $T \sim X_q $, aproximamos:

  • $t_1$, el cuantil $q_1 = \frac{⍺}{2}$
  • $t_2$, el cuantil $ q_2 = 1- \frac{⍺}{2}$

Rechazamos $H_0$ sí:

$T \leq t_1$ o $T> t_2$

Al tener un valor de $T$ mayor o menor que estos cuantiles, los valores se encuentran alejados por la derecha e izquierda de la media, y por lo tanto están dentro de la región de rechazo. Por este motivo no aceptaríamos la hipótesis nula.

Para calcular el $p-value$ usamos la siguiente fórmula:

$p-value = 2 * min\{ P [ Y \leq T ], P [Y \geq T] \}$,

  • Si $n\leq20$ buscamos $T$ en la tabla A1
  • En otro caso, el $p-value$ puede obtenerse como:

$P[Y\leq t] \cong P(Z \leq \frac{t -np^* + 0.5}{\sqrt{np^*(1-p^*)}})$

y $P[Y\geq t]\cong 1-P(Z \leq\frac{t -np^* – 0.5}{\sqrt{np^*(1-p^*)}})$

donde $t$ se encuentra en la tabla A2, siendo $t$ el valor observado de $T$.

En ambos casos, si el $p-value \leq \alpha$, rechazamos la hipótesis nula con un nivel de significancia $\alpha$.

Para el caso de la cola inferior y superior, se utiliza el mismo procedimiento correspondientemente.

Ejemplos

Veamos algunos ejemplos de cómo se utiliza la prueba anterior.

Problema 1. De acuerdo a la base de datos del Sector Salud, se cree que 30% de pacientes adultos mayores ya tienen aplicada la 4ta dosis de vacunación contra COVID. El mismo Sector Salud decide investigar a sus pacientes y preguntar sobre la aplicación de la vacuna. Se seleccionan aleatoriamente a 1400 pacientes adultos mayores, de los cuales 360 confirmaron haberse aplicado la dosis. Prueba usando $\alpha = 0.05$

Solución.

PRUEBA DE DOS COLAS

HIPÓTESIS:

$H_0: p = 30$%

v.s.

$H_1:p \neq 30$%

ESTADÍSTICO DE PRUEBA:

Corresponde a las 360 personas que confirmaron haberse aplicado la dosis.

$T = 360$

como el tamaño de muestra $n > 20 $

$T \sim X_q $

CUANTILES:

Buscamos $t_1$ y $t_2$ tal que:

$P[Y \leq t_1] = P[Y \leq t_\alpha] = \alpha_1$

$P[Y \geq t_2] = P[Y \geq t_1-\frac{\alpha}{2}] = \alpha_2$

con $\alpha = 0.05$ buscamos $\frac{\alpha}{2}$ y $1-\frac{\alpha}{2}$ en T2

$\frac{\alpha}{2} = \frac{0.05}{2} = 0.025 \Rightarrow z =-1.96$

$1-\frac{\alpha}{2} = 1 – \frac{0.05}{2} = 0.975 \Rightarrow z =1.96$

Sustituyendo en $X_q$ para cada cuantil tenemos :

$t_1 = (1400)(0.3) -1.96 \sqrt{(1400)(0.3)(1 – 0.3)} = 386.39$

$t_2 = (1400)(0.3) +1.96 \sqrt{(1400)(0.3)(1 – 0.3)} = 453.60$

$\therefore t_1 = 386$ y $t_2 = 453$

REGIÓN DE RECHAZO:

Rechazamos $H_0$ sí $T\leq t_1$ ó $T > t_2$

$T =360 \leq t_1 =386$ ó $T =360 \ngtr t_2= 454$

como se cumple la primera condición, $T\leq t_1$ entonces Rechazamos $H_0$.

P-VALUE:

Rechazamos $H_0$ sí $p-value \leq \alpha$

$p-value = 2 * min\{ P [ Y \leq T ], P [Y \geq T] \}$

Este cálculo lo realizaremos con ayuda del software de R:

Ejemplo del cálculo en código de R

#1. Dos colas
T = 360; #Estadistico de prueba
alpha = 0.05; 
n = 1400 #Tamanio muestra
p = 0.3; #probabilidad

# cuantil t = qbinom(alpha,n,p*);
t = qbinom(alpha,n,p);

# p_value = 2*min(c(pbinom(T,n,p*), pbinom(T,n,p*,lower.tail = F)));
p_value = 2*min(c(pbinom(T,n,p), pbinom(T,n,p,lower.tail = F)));
#p_value = 2*pbinom(t,n,p);

# Rechazo H0 si p_value < alpha
if (p_value <= alpha){print("rechazo H0")
}else{print("No rechazo H0")}

El resultado de esto es:

» Rechazo $H_0$ «.

$\triangle$

Nota. Otra forma de validar en R, es con la función de proporciones que tiene R:

# Prueba de Proporciones en R
prop.test(T, n, p, alternative = c("two.sided"), conf.level = 1-alpha)

Esto da como resultado la siguiente información:

	1-sample proportions test with
	continuity correction

data:  T out of n, null probability p
X-squared = 12.042, df = 1,
p-value = 0.0005202
alternative hypothesis: true p is not equal to 0.3
95 percent confidence interval:
 0.2345892 0.2810463
sample estimates:
        p 
0.2571429 

donde tenemos que el $p-value = 0.0005202$, y con el cual podemos seguir Rechazando $H_0$

CONCLUSIÓN:

Como se rechazó $H_0$, podemos decir que hay información suficiente para afirmar que el 30% de los pacientes adultos mayores no tienen aplicada la 4ta dosis de vacunación contra COVID.

Problema 2. Un docente del CONAMAT, afirma que solo el 5% de sus alumnos de un grupo de 18, no pasan la prueba COMIPEMS. La dirección solicita el resultado de los 18 alumnos y solamente 3 de ellos no logran pasar el examen. Si el docente cree que la proporción de alumnos que no pasaron es mayor al número de alumnos que ya confirmaron no pasar, ¿Se puede rechazar $H_0:p=0.05$ con $alpha$ = 0.05?

Solución.

PRUEBA DE COLA SUPERIOR

HIPÓTESIS:

$H_0: p \leq 0.05$

v.s.

$H_1: p > 0.05$

ESTADÍSTICO DE PRUEBA:

Corresponde a los 3 alumnos que no lograron pasar el examen.

$T = 3$

como el tamaño de muestra $n \leq 20 $

$T \sim bin(18,0.05) $

CUANTILES:

Buscamos $t_2$ en T1 con:

$n = 18 , T=Y =3$ y $p = 0.05$

obtenemos $t_2 = 0.9891$

REGIÓN DE RECHAZO:

Rechazamos $H_0$ sí $T > t_2$

$T = 3 > t_2= 0.9891$

como sí se cumple la condición entonces Rechazamos $H_0$.

P-VALUE:

Rechazamos $H_0$ sí $p-value \leq \alpha$

Cálculo en código R

#2. Cola superior
T = 3; #Estadistico de prueba
alpha = 0.05; 
n = 18 #Tamanio muestra
p = 0.05; #probabilidad

# cuantil t = qbinom(1-alpha,n,p*);
alpha_2 =1-alpha;
t = qbinom(alpha_2,n,p);

# p_value = 1- pbinom(T,n,p*);
p_value = 1-pbinom(T,n,p);

# Rechazo H0 si p_value < alpha
if (p_value <= alpha){print("rechazo H0")
}else{print("No rechazo H0")}

El resultado de esto es:

» Rechazo $H_0$ «

CONCLUSIÓN:

Como rechazamos $H_0$, existe evidencia suficiente para afirmar lo que señala el docente.

Problema 3. La cafetería «Fast-Coffee» asegura que el 95% de sus clientes son despachados en menos de 10 minutos una vez comandada su orden. Al finalizar el día, durante el corte, se toman aleatoriamente 9 comandas de las cuáles 8 órdenes fueron entregadas en menos de 10 min. ¿Puede concluirse $\alpha$= 5% que menos del 95% de los clientes se les entregó su orden dentro del lapso señalado?

Solución.

PRUEBA DE COLA INFERIOR

HIPÓTESIS:

$H_0: p \geq 95$%

v.s.

$H_1: p < 95$%

ESTADÍSTICO DE PRUEBA:

Corresponde a las 8 órdenes entregadas en menos de 10 min.

$T = 8$

como el tamaño de muestra $n \leq 20 $

$T \sim bin(9,0.95) $

CUANTILES:

Buscamos $t_1$ en T1 con:

$n = 9 , T=Y =8$ y $p = 0.95$

obtenemos $t = 0.3698$

REGIÓN DE RECHAZO:

Rechazamos $H_0$ sí $T \leq t_1$

$T = 8 \nless t_1= 0.3698$

como no se cumple la condición entonces No Rechazamos $H_0$.

P-VALUE:

Rechazamos $H_0$ sí $p-value \leq \alpha = 0.05$

Cálculo en código R

#3. Cola inferior
T = 8; #Estadistico de prueba
alpha = 0.05; 
n = 9 #Tamanio muestra
p = 0.95; #probabilidad

# cuantil t = qbinom(alpha,n,p*);
t = qbinom(alpha,n,p);

# p_value = pbinom(T,n,p*);
p_value = pbinom(T,n,p);

# Rechazo H0 si p_value < alpha
if (p_value <= alpha){print("rechazo H0")
}else{print("No rechazo H0")}

El resultado de esto es:

«No rechazo $H_0$ «

CONCLUSIÓN:

No existe evidencia suficiente para asegurar que el 95% de los clientes son despachados en menos de 10 minutos una vez comandada su orden.

Más adelante…

En la siguiente entrada veremos otro tipo de prueba binomial: la prueba de cuantiles. Esta prueba se utilizará cuando nos interese hacer inferencia sobre un cuantil específico de alguna distribución.

Ejercicios

  1. En un rancho donde se crían vacas para producir leche, se utilizó un nuevo alimento para ver si mejora la cantidad de leche producida. Se quiere verificar si la cantidad producida de leche es mayor al 15% contra la producción del mes anterior. Se toma una muestra de 200 vacas, donde solo 35 vacas fallan con la producción esperada. ¿Es posible comprobar la hipótesis con $\alpha$=0.01 ?
  2. Una empresa de salto en paracaídas asegura que el 90% de los grupos de salida a la avioneta para realizar el salto es en menos de 10 min entre cada grupo. De 25 grupos, 12 de estos salieron dentro del lapso de tiempo estimado anteriormente. ¿Se puede concluir con $\alpha$ = 0.05, que menos del 90% de las salidas entre cada grupo se hacen en 10 minutos?
  3. Una farmacéutica desarrolló una vacuna contra la Leucemia y quiere saber si tiene una efectividad mayor al 85% contra dicha enfermedad. Se toma una muestra de 100 personas a las que se les aplica dicha vacuna, de las cuales 65 personas mostraron resultados positivos contra la enfermedad. ¿Se puede concluir que la vacuna tiene una efectividad mayor al 85%? Prueba usando $\alpha$ = 0.10

Enlaces relacionados

  • A1: Tabla de distribución Binomial
  • A2: Tabla de distribución Normal
  • Conover, W. J. (1999). Practical Nonparametric statistics (3ª ed.). Second Edition. USA. Wiley & Sons

Entradas relacionadas