Estadística No Paramétrica: Pruebas para proporciones

Por Alondra Sierra

Introducción

Las pruebas binomiales se caracterizan porque la distribución de la estadística de prueba tiene una distribución binomial, de la cual solo se conoce el tener “éxito” o “fracaso” en cada observación.

En esta unidad veremos distintos tipos de pruebas binomiales, así como sus aplicaciones con diferentes ejercicios. Comenzaremos en esta entrada hablando de pruebas para proporciones.

1.1 Pruebas para proporciones

Usaremos la prueba de proporciones cuando, dada una población, nos interese conocer la proporción de elementos de la población que posee cierta característica, o bien, evaluar las afirmaciones con respecto a una proporción de la población.

Partimos de una muestra aleatoria X1,X2,,Xn la cual clasificaremos en dos categorías, C1 y C2. La observación Xi podría estar en C1 o en C2.

El número de observaciones en C1 es denotado como O1, mientras que para C2 es nO1.

La hipótesis nula siempre será:

H0:p=p

(En donde, p de población es igual a alguna proporción de población p)

La hipótesis alternativa toma alguna de las siguientes formas dependiendo del problema en cuestión:

A. H1:pp (Prueba de dos colas)

B. H1:p<p (Prueba de cola inferior o derecha)

C. H1:p>p (Prueba de cola superior o izquierda)

De acuerdo a la metodología usada en (Conover, 1999), para el caso A, la región de rechazo es de tamaño α y corresponde a la suma de las dos colas de la distribución nula del estadístico T; α1 (cola inferior) y α2 (cola superior).

El estadístico de prueba T será la proporción de la población que se estará evaluando, en donde, su distribución nula es la distribución binomial con parámetros p=p la probabilidad especificada en la hipótesis nula y n el tamaño de la muestra.

T= Número de observaciones en C1

  • Cuando n20 utilizamos el estadístico:

 TBin(n,p)

donde T se obtiene de la Tabla de Distribución Binomial (A1).

  • Cuando n>20 utilizamos la aproximación normal y en este caso se utilizan los cuantiles aproximados Xq para obtener el estadístico T

Xq=np+Zqnp(1p)

donde Zq se obtiene de la Tabla de Distribución Normal (A2).

Buscamos los cuantiles t1 y t2 como:

P[Yt1]=α1 

P[Yt2]=1α2  ó  P[Y>t2]=α2

YBin(n,p) ó YXq

según sea el caso.

Si TXq, aproximamos:

  • t1, el cuantil q1=2
  • t2, el cuantil q2=12

Rechazamos H0 sí:

Tt1 o T>t2

Al tener un valor de T mayor o menor que estos cuantiles, los valores se encuentran alejados por la derecha e izquierda de la media, y por lo tanto están dentro de la región de rechazo. Por este motivo no aceptaríamos la hipótesis nula.

Para calcular el pvalue usamos la siguiente fórmula:

pvalue=2min{P[YT],P[YT]},

  • Si n20 buscamos T en la tabla A1
  • En otro caso, el pvalue puede obtenerse como:

P[Yt]P(Ztnp+0.5np(1p))

y P[Yt]1P(Ztnp0.5np(1p))

donde t se encuentra en la tabla A2, siendo t el valor observado de T.

En ambos casos, si el pvalueα, rechazamos la hipótesis nula con un nivel de significancia α.

Para el caso de la cola inferior y superior, se utiliza el mismo procedimiento correspondientemente.

Ejemplos

Veamos algunos ejemplos de cómo se utiliza la prueba anterior.

Problema 1. De acuerdo a la base de datos del Sector Salud, se cree que 30% de pacientes adultos mayores ya tienen aplicada la 4ta dosis de vacunación contra COVID. El mismo Sector Salud decide investigar a sus pacientes y preguntar sobre la aplicación de la vacuna. Se seleccionan aleatoriamente a 1400 pacientes adultos mayores, de los cuales 360 confirmaron haberse aplicado la dosis. Prueba usando α=0.05

Solución.

PRUEBA DE DOS COLAS

HIPÓTESIS:

H0:p=30%

v.s.

H1:p30%

ESTADÍSTICO DE PRUEBA:

Corresponde a las 360 personas que confirmaron haberse aplicado la dosis.

T=360

como el tamaño de muestra n>20

TXq

CUANTILES:

Buscamos t1 y t2 tal que:

P[Yt1]=P[Ytα]=α1

P[Yt2]=P[Yt1α2]=α2

con α=0.05 buscamos α2 y 1α2 en T2

α2=0.052=0.025z=1.96

1α2=10.052=0.975z=1.96

Sustituyendo en Xq para cada cuantil tenemos :

t1=(1400)(0.3)1.96(1400)(0.3)(10.3)=386.39

t2=(1400)(0.3)+1.96(1400)(0.3)(10.3)=453.60

t1=386 y t2=453

REGIÓN DE RECHAZO:

Rechazamos H0Tt1 ó T>t2

T=360t1=386 ó T=360t2=454

como se cumple la primera condición, Tt1 entonces Rechazamos H0.

P-VALUE:

Rechazamos H0pvalueα

pvalue=2min{P[YT],P[YT]}

Este cálculo lo realizaremos con ayuda del software de R:

Ejemplo del cálculo en código de R

#1. Dos colas
T = 360; #Estadistico de prueba
alpha = 0.05; 
n = 1400 #Tamanio muestra
p = 0.3; #probabilidad

# cuantil t = qbinom(alpha,n,p*);
t = qbinom(alpha,n,p);

# p_value = 2*min(c(pbinom(T,n,p*), pbinom(T,n,p*,lower.tail = F)));
p_value = 2*min(c(pbinom(T,n,p), pbinom(T,n,p,lower.tail = F)));
#p_value = 2*pbinom(t,n,p);

# Rechazo H0 si p_value < alpha
if (p_value <= alpha){print("rechazo H0")
}else{print("No rechazo H0")}

El resultado de esto es:

» Rechazo H0 «.

◼

Nota. Otra forma de validar en R, es con la función de proporciones que tiene R:

# Prueba de Proporciones en R
prop.test(T, n, p, alternative = c("two.sided"), conf.level = 1-alpha)

Esto da como resultado la siguiente información:

	1-sample proportions test with
	continuity correction

data:  T out of n, null probability p
X-squared = 12.042, df = 1,
p-value = 0.0005202
alternative hypothesis: true p is not equal to 0.3
95 percent confidence interval:
 0.2345892 0.2810463
sample estimates:
        p 
0.2571429 

donde tenemos que el pvalue=0.0005202, y con el cual podemos seguir Rechazando H0

CONCLUSIÓN:

Como se rechazó H0, podemos decir que hay información suficiente para afirmar que el 30% de los pacientes adultos mayores no tienen aplicada la 4ta dosis de vacunación contra COVID.

Problema 2. Un docente del CONAMAT, afirma que solo el 5% de sus alumnos de un grupo de 18, no pasan la prueba COMIPEMS. La dirección solicita el resultado de los 18 alumnos y solamente 3 de ellos no logran pasar el examen. Si el docente cree que la proporción de alumnos que no pasaron es mayor al número de alumnos que ya confirmaron no pasar, ¿Se puede rechazar H0:p=0.05 con alpha = 0.05?

Solución.

PRUEBA DE COLA SUPERIOR

HIPÓTESIS:

H0:p0.05

v.s.

H1:p>0.05

ESTADÍSTICO DE PRUEBA:

Corresponde a los 3 alumnos que no lograron pasar el examen.

T=3

como el tamaño de muestra n20

Tbin(18,0.05)

CUANTILES:

Buscamos t2 en T1 con:

n=18,T=Y=3 y p=0.05

obtenemos t2=0.9891

REGIÓN DE RECHAZO:

Rechazamos H0T>t2

T=3>t2=0.9891

como sí se cumple la condición entonces Rechazamos H0.

P-VALUE:

Rechazamos H0pvalueα

Cálculo en código R

#2. Cola superior
T = 3; #Estadistico de prueba
alpha = 0.05; 
n = 18 #Tamanio muestra
p = 0.05; #probabilidad

# cuantil t = qbinom(1-alpha,n,p*);
alpha_2 =1-alpha;
t = qbinom(alpha_2,n,p);

# p_value = 1- pbinom(T,n,p*);
p_value = 1-pbinom(T,n,p);

# Rechazo H0 si p_value < alpha
if (p_value <= alpha){print("rechazo H0")
}else{print("No rechazo H0")}

El resultado de esto es:

» Rechazo H0 «

◼

CONCLUSIÓN:

Como rechazamos H0, existe evidencia suficiente para afirmar lo que señala el docente.

Problema 3. La cafetería «Fast-Coffee» asegura que el 95% de sus clientes son despachados en menos de 10 minutos una vez comandada su orden. Al finalizar el día, durante el corte, se toman aleatoriamente 9 comandas de las cuáles 8 órdenes fueron entregadas en menos de 10 min. ¿Puede concluirse α= 5% que menos del 95% de los clientes se les entregó su orden dentro del lapso señalado?

Solución.

PRUEBA DE COLA INFERIOR

HIPÓTESIS:

H0:p95%

v.s.

H1:p<95%

ESTADÍSTICO DE PRUEBA:

Corresponde a las 8 órdenes entregadas en menos de 10 min.

T=8

como el tamaño de muestra n20

Tbin(9,0.95)

CUANTILES:

Buscamos t1 en T1 con:

n=9,T=Y=8 y p=0.95

obtenemos t=0.3698

REGIÓN DE RECHAZO:

Rechazamos H0Tt1

T=8t1=0.3698

como no se cumple la condición entonces No Rechazamos H0.

P-VALUE:

Rechazamos H0pvalueα=0.05

Cálculo en código R

#3. Cola inferior
T = 8; #Estadistico de prueba
alpha = 0.05; 
n = 9 #Tamanio muestra
p = 0.95; #probabilidad

# cuantil t = qbinom(alpha,n,p*);
t = qbinom(alpha,n,p);

# p_value = pbinom(T,n,p*);
p_value = pbinom(T,n,p);

# Rechazo H0 si p_value < alpha
if (p_value <= alpha){print("rechazo H0")
}else{print("No rechazo H0")}

El resultado de esto es:

«No rechazo H0 «

◼

CONCLUSIÓN:

No existe evidencia suficiente para asegurar que el 95% de los clientes son despachados en menos de 10 minutos una vez comandada su orden.

Más adelante…

En la siguiente entrada veremos otro tipo de prueba binomial: la prueba de cuantiles. Esta prueba se utilizará cuando nos interese hacer inferencia sobre un cuantil específico de alguna distribución.

Ejercicios

  1. En un rancho donde se crían vacas para producir leche, se utilizó un nuevo alimento para ver si mejora la cantidad de leche producida. Se quiere verificar si la cantidad producida de leche es mayor al 15% contra la producción del mes anterior. Se toma una muestra de 200 vacas, donde solo 35 vacas fallan con la producción esperada. ¿Es posible comprobar la hipótesis con α=0.01 ?
  2. Una empresa de salto en paracaídas asegura que el 90% de los grupos de salida a la avioneta para realizar el salto es en menos de 10 min entre cada grupo. De 25 grupos, 12 de estos salieron dentro del lapso de tiempo estimado anteriormente. ¿Se puede concluir con α = 0.05, que menos del 90% de las salidas entre cada grupo se hacen en 10 minutos?
  3. Una farmacéutica desarrolló una vacuna contra la Leucemia y quiere saber si tiene una efectividad mayor al 85% contra dicha enfermedad. Se toma una muestra de 100 personas a las que se les aplica dicha vacuna, de las cuales 65 personas mostraron resultados positivos contra la enfermedad. ¿Se puede concluir que la vacuna tiene una efectividad mayor al 85%? Prueba usando α = 0.10

Enlaces relacionados

  • A1: Tabla de distribución Binomial
  • A2: Tabla de distribución Normal
  • Conover, W. J. (1999). Practical Nonparametric statistics (3ª ed.). Second Edition. USA. Wiley & Sons

Entradas relacionadas

  • Ir a: Estadística no paramétrica
  • Entrada anterior del curso:
  • Siguiente entrada del curso: Estadística No Paramétrica: Pruebas para cuantiles

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.