El rechazo o no rechazo de una hipótesis solo se puede establecer con cierta probabilidad, como ocurre con todos los procedimientos en estadística inferencial. Por tanto, pueden producirse errores en el contraste, que consisten en rechazar hipótesis que son ciertas o en no rechazar hipótesis que son falsas.
Como la hipótesis nula planteada inicialmente puede ser cierta o falsa y el análisis estadístico puede rechazarla o no rechazarla, son posibles las cuatro situaciones siguientes:
1) La hipótesis nula es verdadera, pero el análisis estadístico la rechaza: se está cometiendo un error de tipo I, que ocurre con una probabilidad máxima α (nivel de significación).
2) La hipótesis nula es falsa, pero el análisis estadístico no la rechaza: se está cometiendo un error de tipo II, que ocurre con una probabilidad máxima dada por β.
3) La hipótesis nula es falsa y el análisis estadístico la rechaza: se trata de una decisión correcta que ocurre con una probabilidad dada por la potencia del contraste, (1−β).
4) La hipótesis nula es verdadera y el análisis estadístico no la rechaza: se trata de una decisión correcta que ocurre con una probabilidad dada por el nivel de confianza del contraste, (1−α).
Ya definimos antes las probabilidades α y (1−α) y sus correspondientes áreas bajo la curva de la distribución muestral, usualmente la normal estándar. La probabilidad β, por su parte, es un área bajo la curva normal centrada en la media real de la población, no bajo la curva centrada en la media supuesta por la hipótesis nula; se extiende desde el infinito negativo hasta el límite superior del intervalo de aceptación definido en la curva supuesta (para μreal > μ0), como se muestra en la siguiente infografía (pinchar sobre ella):
Como la media real no se conoce, tampoco se conoce la posición de la distribución normal asociada, y por tanto la probabilidad β no se puede calcular. Esta probabilidad de error es mayor cuanto más próxima se encuentra la media real de la población a la media supuesta en la hipótesis nula. Lo ideal en una investigación es que las probabilidades de ambos tipos de errores, α y β, sean lo más bajas posible, pero para un tamaño de muestra fijo, al disminuir α aumenta β (como se puede ver en la figura si se desplaza horizontalmente el segmento que delimita ambas áreas). Lo que se puede hacer es fijar inicialmente la probabilidad α en el valor que se considere adecuado y aumentar el tamaño de la muestra en estudio, n; así se reduce la desviación típica de la distribución muestral (que es σ/√n), y por tanto la anchura de la curva normal correspondiente, con la consiguiente disminución del área β.
A los errores de tipo I también se les llama falsos positivos, y a los errores de tipo II, falsos negativos, especialmente en pruebas clínicas donde la hipótesis nula significa estado normal, es decir, que la persona está sana. Así, en este caso un error de tipo I significa que la persona está sana, pero la medida que se le toma (un análisis de sangre, por ejemplo) da un resultado que indica que está enferma, de donde viene el nombre de falso positivo. Un error de tipo II significa que la persona está enferma, pero la medida que se le toma da un resultado que no indica enfermedad, de donde viene el nombre de falso negativo. En este marco, la población se podría asociar a todas las posibles medidas que se podrían tomar sobre un mismo sujeto, mientras que la muestra correspondería a la medida que realmente se toma; del resultado de esta última se tiene que inferir información sobre la población, es decir, sobre todas las posibles medidas, cuyo promedio sería un indicador adecuado de la presencia real o no de enfermedad en el sujeto.
Los falsos positivos y los falsos negativos no se deben a errores del experimentador o de los instrumentos, sino que dependen del propio diseño estadístico de las pruebas. Los falsos positivos aparecen porque la prueba se diseña para ser muy sensible a ligeras desviaciones respecto a los valores de una persona sana, aun a riesgo de que esas pequeñas variaciones se deban a otras causas y no a la presencia de enfermedad. Evidentemente, son más peligrosos los falsos negativos que los falsos positivos, por lo que es preferible diseñar pruebas muy sensibles que reduzcan la probabilidad de falso negativo a costa de aumentar la de falsos positivos.