El contraste de hipótesis es otro de los procedimientos habituales en estadística inferencial y es una pieza clave en el método científico moderno. Comienza suponiendo un valor o rango de valores para el parámetro de una población, lo que constituye la hipótesis nula y se simboliza H0. Esta es la hipótesis de trabajo que se contrastará con los datos empíricos que se obtengan de la muestra en estudio. Tras el contraste, la hipótesis nula puede resultar aceptada o rechazada; si ocurre lo segundo, entonces ha de ser cierta la hipótesis que supone justamente lo contrario, que se denominada hipótesis alternativa y se simboliza H1.
La hipótesis nula suele expresar una ausencia de efecto en sentido general, tanto positivo como negativo. Por ejemplo, en una investigación acerca de un posible factor de riesgo para el desarrollo de una enfermedad, la hipótesis nula establecería que ese factor no tiene ningún efecto perjudicial. En el caso de una investigación acerca de un tratamiento médico para una enfermedad, la hipótesis nula establecería que ese tratamiento no produce ningún efecto beneficioso. En ambos casos, la hipótesis nula debe asignarle al parámetro poblacional adecuado el valor correspondiente a una ausencia de efecto. Solo si la hipótesis nula es rechazada se podría considerar, con cierta probabilidad, que el factor realmente es de riesgo o que el tratamiento es verdaderamente efectivo, situaciones que vendrían descritas por la hipótesis alternativa.
El contraste estadístico de hipótesis se basa en un procedimiento opuesto en cierto modo al llevado a cabo para la estimación de parámetros, donde se calculaba el intervalo en el que se esperaría encontrar el parámetro poblacional conociendo el valor de su estadístico estimador en una muestra. En el contraste de hipótesis se trata de estimar el intervalo en el que se esperaría encontrar el valor del estadístico estimador en una muestra extraída al azar de una población cuyo valor del parámetro es el supuesto en la hipótesis nula.
Una vez que se ha obtenido ese intervalo, se calcula el valor que toma el estadístico estimador en la muestra que se está estudiando, que se llama valor empírico, y se comprueba si efectivamente se encuentra dentro del intervalo esperado. En caso afirmativo, se acepta la hipótesis nula, o, dicho con más rigor, no existen evidencias estadísticas que permitan rechazarla. En otras palabras, el valor del estadístico estimador en la muestra se encuentra suficientemente cercano al valor del parámetro poblacional dado en la hipótesis nula, de forma que puede considerarse correcto, y el hecho de que que ambos valores no sean iguales se debe únicamente a efecto del azar. Por esta razón, el intervalo de valores esperables se llama región o intervalo de aceptación.
Si, por el contrario, el estadístico estimador toma un valor empírico que se encuentra fuera del intervalo de aceptación, significa que es incompatible con que la población sea como supone la hipótesis nula, y por tanto se rechaza esta y se acepta en su lugar la hipótesis alternativa, que afirma lo opuesto de la nula.
Tanto en el caso de aceptación como de rechazo de la hipótesis nula, nunca se hace con certeza absoluta. El intervalo de aceptación se define para un cierto nivel de confianza, (1−α), que se fija al inicio del contraste. Un nivel de confianza de 0,95, por ejemplo, implica que, si la población fuese realmente como dice la hipótesis nula, el 95% de las muestras extraídas al azar se encontrarían en el intervalo de aceptación, mientras que un 5% se encontrarían fuera, por efecto del azar.
Contraste de hipótesis para la media
El contraste de hipótesis comienza estableciendo la hipótesis nula, que supone que la media poblacional toma un cierto valor, μ0. La hipótesis alternativa afirma entonces que el valor de la media poblacional es distinto del que supone la hipótesis nula. Ambas se escriben simbólicamente de la siguiente manera:
Ya vimos anteriormente que el estadístico de inferencia asociado a la media poblacional es la media muestral tipificada, cuya distribución muestral, bajo ciertas condiciones, es la normal. Por tanto, la probabilidad de encontrarla en el intervalo comprendido entre -zα/2 y +zα/2 es igual a (1−α), que se escribía como:
Si en ese intervalo se despeja la media muestral para expresarla en función de la poblacional (al contrario de lo que se hizo para los intervalos de confianza), y se supone el valor μ0 para esta última como indica la hipótesis nula, se obtiene:
Es decir, la media de una muestra extraída al azar se esperaría encontrar con una probabilidad (1−α) en el intervalo definido por los límites:
Si el valor empírico de la media en la muestra en estudio, m, se encuentra efectivamente dentro de este intervalo, se acepta la hipótesis nula, es decir, no hay razones estadísticas para rechazar que la población tenga media μ0. Si, por el contrario, la media de la muestra estuviese fuera de este intervalo, se rechazaría la hipótesis nula y se aceptaría la alternativa.
Este contraste, donde la hipótesis nula supone que la media poblacional es igual a un cierto valor, se llama bilateral, porque el intervalo de aceptación se extiende hasta un cierto límite a ambos lados de la supuesta media, definiendo un área bajo la curva normal igual a (1−α). Por encima y por debajo de ese intervalo se sitúan dos intervalos de rechazo, cada uno de los cuales delimita un área bajo la curva normal igual a α/2, que juntas corresponden al nivel de significación α.
La siguiente infografía (pinchar sobre ella) muestra el intervalo de aceptación para el contraste de hipótesis bilateral de la media poblacional, centrado en el valor supuesto en la hipótesis nula, μ0, junto con las áreas (probabilidades) bajo la curva normal asociadas a él. Se señalan dos posibles valores empíricos de la media muestral, m, uno que se encuentra dentro del intervalo de aceptación, con el que se aceptaría la hipótesis nula, y otro que se encuentra fuera, con el que se rechazaría la hipótesis nula.
EJEMPLO
La duración media de las bombillas de una determinada marca, según el fabricante, es de 10000 horas, con una desviación típica de 800 horas. Se eligen al azar 80 bombillas de ese fabricante y se mide su duración, que en promedio resulta ser de 9720 horas. Para un nivel de confianza del 99%, ¿es cierta la información que proporciona el fabricante?
El contraste de hipótesis (bilateral) que puede plantearse para responder este pregunta es el siguiente:
H0: μ = 10000 horas
H1: μ ≠ 10000 horas
A continuación, se obtiene el intervalo en el que cabría esperar que se encontrase la media muestral suponiendo cierta la hipótesis nula, con una confianza (1−α) = 0,99 (significación α = 0,01). El valor zα/2 = z0,005 es el que deja a su derecha un área bajo la curva normal estándar de 0,005, y por tanto a su izquierda un área de 0,995. Buscando esta área (o la más cercana a ella) en la tabla, se encuentra que está situada en la columna 2,00 y en la fila 0,58, que corresponde al valor z0,005 = 2,58. Los límites del intervalo de aceptación vienen dados entonces por 10000 ± 2,58 x 800/√80 = 10000 ± 230,76 horas.
Por otro lado, el valor empírico de la media en la muestra es m = 9720 horas. Este valor se encuentra fuera del intervalo que va desde 9769,24 hasta 10230,76, es decir, está fuera del intervalo de aceptación de la hipótesis nula. La conclusión del contraste es por tanto que, con un nivel de confianza del 99%, la información proporcionada por el fabricante es falsa, habiendo exagerado ligeramente la duración de sus bombillas.
También se puede establecer una hipótesis nula en la que la media poblacional se supone menor o mayor que un cierto valor μ0, en lugar de igual. Cuando la media de la muestra es mayor que ese valor supuesto (m>μ0), las hipótesis se escriben como:
Así, la hipótesis nula expresa que la media de la población es menor o igual que el valor supuesto, mientras que la hipótesis alternativa afirma que es mayor. Aunque la media de la muestra con la que se trabaja es mayor que el valor supuesto, podría deberse al azar, y la probabilidad de que eso ocurra es lo que se calcula en el contraste. El intervalo de aceptación para la media muestral sería en este caso el de todos los valores menores que un cierto límite superior, es decir, desde menos infinito hasta ese límite, que viene dado por:
Si la media de la muestra es menor que el valor supuesto para la población (m<μ0), las hipótesis nula y alternativa se formulan al contrario, es decir, la nula expresa que la media poblacional es mayor o igual que el valor supuesto. En este caso, el intervalo de aceptación es el opuesto al anterior: todos los valores mayores que un cierto límite inferior, que es igual al superior pero remplazando el signo más por el signo menos en su fórmula.
Este tipo de contraste se llama unilateral, porque el intervalo de aceptación se extiende desde un único límite hasta el infinito hacia la izquierda o hacia la derecha, y la única región de rechazo se extiende hasta el infinito opuesto. Esa única región de rechazo delimita el área total que corresponde al nivel de significación α, razón por la cual el valor límite del intervalo depende de zα y no de zα/2 como en el contraste bilateral.
El intervalo de aceptación y las áreas bajo la curva normal resultantes pueden verse en la siguiente infografía (pinchar sobre ella), análoga a la anterior, pero para un contraste unilateral con hipótesis nula μ ≤ μ0:
Contraste de hipótesis para la diferencia de medias
También se puede establecer un contraste de hipótesis para la diferencia entre las medias de dos poblaciones distintas, estableciendo en la hipótesis nula que lambas medias son iguales y en la hipótesis alternativa, que son distintas (contraste bilateral):
Siguiendo un procedimiento análogo al del contraste para una única media, los límites del intervalo de aceptación de la hipótesis nula se obtienen a partir del estadístico de inferencia (diferencia de medias muestrales tipificada) y de la curva normal estándar, y resultan:
donde, según la hipótesis nula, μ1 − μ2 es 0. Si la diferencia de medias muestrales, m1 − m2, se encuentra dentro de este intervalo, se acepta la hipótesis nula, es decir, las dos poblaciones tienen la misma media.
Al igual que en el caso de una sola media, también son posibles aquí los contrastes unilaterales. Y el contraste también puede ser más general fijando un valor distinto de 0 para la diferencia de medias en las hipótesis nula y alternativa.
El contraste para la diferencia de medias es muy importante en la investigación cuantitativa porque permite comparar los valores de la variable dependiente en dos grupos distintos, cada uno de los cuales está asociado a un valor diferente (categórico) de la variable independiente. Se puede estudiar así si existe algún efecto estadísticamente significativo de la variable independiente sobre la dependiente. En las primeras secciones de este bloque se introdujeron los diseños de investigación en los que se forman varios grupos según los valores de la variable independiente, que pueden usarse para estudiar, por ejemplo, la eficacia de un nuevo tratamiento médico, una nueva metodología educativa, una nueva política económica, etc.
EJEMPLO
Dos grupos de 40 alumnos cada uno, elegidos al azar, han seguido metodologías distintas para el aprendizaje de inglés (variable independiente) durante un curso académico, al final del cual se han medido las competencias adquiridas mediante la realización de un test (variable dependiente). El grupo 1 ha obtenido en el test una puntuación media de 8,24 con varianza 4,49 y el grupo 2 ha obtenido una puntuación media de 7,32 con varianza 4,21. Para un nivel de confianza del 99%, ¿puede decirse que las dos metodologías aplicadas producen diferencias significativas en los resultados de la competencia en inglés?
La resolución comienza estableciendo el contraste de hipótesis, que en este caso es para la igualdad de medias de dos poblaciones, o diferencia de medias entre ambas:
H0: μ1 = μ2, que equivale a H0: μ1 − μ2 = 0
H1: μ1 ≠ μ2, que equivale a H1: μ1 − μ2 ≠ 0
A continuación, se obtiene el intervalo en el que cabría esperar que se encontrase la diferencia de medias muestrales suponiendo cierta la hipótesis nula, con una confianza (1−α) = 0,99 (significación α = 0,01). Se trata de un contraste bilateral cuyo valor zα/2 = z0,005 es el que deja a su derecha un área bajo la curva normal estándar de 0,005, y por tanto a su izquierda un área de 0,995. Buscando esta área en la tabla, se encuentra que corresponde al valor z0,005 = 2,58. Los límites del intervalo de aceptación vienen dados entonces por 0 ± 2,58 √(4,49/40 + 4,21/40) = ± 1,20.
Por otro lado, el valor empírico de la diferencia de medias en la muestra es m1 − m2 = 8,24 − 7,32 = 0,92. Este valor se encuentra dentro del intervalo que va desde -1,20 hasta 1,20, es decir, está en el intervalo de aceptación de la hipótesis nula. La conclusión del contraste es por tanto que las dos metodologías de enseñanza de inglés no introducen diferencias estadísticamente significativas en cuanto a los resultados académicos, con un nivel de confianza del 99%. Si alguno de los dos métodos era novedoso y se pretendía comparar con el tradicional, la investigación ha concluido que no introduce ningún cambio significativo. En los dos grupos de la muestra en estudio sí existía una clara diferencia de medias en la variable dependiente, pero el contraste estadístico ha establecido que se debe a efectos del azar, no a una influencia real de la variable independiente (todo ello dentro de la probabilidad fijada del 99%).
Contraste de hipótesis para la proporción
En este caso las hipótesis para el contraste (bilateral) son las siguientes:
Los límites del intervalo de aceptación de la hipótesis nula se obtienen a partir del estadístico de inferencia (proporción muestral tipificada) y de la curva normal estándar (para muestras grandes, n>30), y resultan:
Si la proporción en la muestra, p, se encuentra dentro de este intervalo, se acepta la hipótesis nula, es decir, la población de la que se ha extraído la muestra tiene la proporción supuesta π0.
EJEMPLO
Se quiere comprobar la hipótesis de que el nivel de desempleo de una región es igual al del promedio de las regiones de su entorno, que se sitúa en un 12,6%. Para ello se entrevista a un grupo de 800 personas escogidas al azar, de las que 120 resultan encontrarse en situación de desempleo. Para un nivel de confianza del 99%, ¿se puede aceptar la hipótesis de partida?
La hipótesis de partida (nula), junto a su hipótesis alternativa, pueden expresarse como:
H0: π = 0,126
H1: π ≠ 0,126
Se trata de un contraste bilateral para la proporción poblacional. Dado que la muestra es grande, se puede suponer una distribución normal para la proporción muestral tipificada, con zα/2 = z0,005 = 2,58, de donde se obtienen los siguientes límites del intervalo de aceptación: 0,126 ± 2,58 x √(0,126 x (1-0,126) / 800) = 0,126 ± 0,030.
Por otro lado, el valor empírico de la proporción en la muestra es p = 120/800 = 0,15. Este valor se encuentra dentro del intervalo que va desde 0,096 hasta 0,156, es decir, está en el intervalo de aceptación de la hipótesis nula. Se concluye por tanto que no existen evidencias estadísticas que permitan descartar que el porcentaje de población desempleada en la región es igual al promedio de las regiones de su entorno, con un nivel de confianza del 99%.
Licencia: dominio público. Fuente: Pixabay.