Saltar la navegación

Estimación de parámetros

El valor de un parámetro poblacional suele ser desconocido, pero puede estimarse a partir de un estadístico obtenido en una muestra extraída al azar de la población; ese estadístico toma el nombre de estimador puntual del parámetro. El estimador puntual es insesgado cuando la media de sus valores en todas las posibles muestras coincide con el valor del parámetro poblacional. Por ejemplo, la media, la diferencia de medias o la proporción en una muestra son estimadores puntuales insesgados de la media, la diferencia de medias o la proporción en la población, respectivamente.

Dado que el valor del estimador puntual varía de una muestra a otra, usarlo para inferir un parámetro poblacional no es suficiente por sí solo. La estadística inferencial permite establecer un intervalo de confianza, que es el rango de valores en el que se encontrará el parámetro poblacional con una cierta probabilidad. Esa probabilidad, que el investigador elige libremente, recibe el nombre de nivel de confianza y se simboliza (1−α), donde la probabilidad α recibe el nombre de nivel de significación. Ambos corresponden a áreas bajo la curva de una función de densidad de probabilidad, o en términos analíticos, a integrales definidas sobre ella. Esa función de densidad debe representar cómo se distribuye en las muestras el estimador puntual, es decir, se trata de su distribución muestral. Como vimos antes, la media, la diferencia de medias y la proporción siguen una distribución muestral normal, bajo ciertas condiciones.

El intervalo de confianza se extiende por encima y por debajo del valor del estimador puntual una cantidad dada por el error máximo, ε, llamado así porque expresa la mayor diferencia que puede haber entre el parámetro poblacional real y el estimado, para un nivel de confianza dado. Cuanto mayor es la confianza que se quiere alcanzar en que el parámetro poblacional se encontrará en un intervalo dado, más amplio tendrá que ser este, es decir, mayor tendrá que ser el error máximo. Si quisiéramos alcanzar una confianza del 100%, el error máximo sería infinito, lo cual no tiene ninguna utilidad: evidentemente, existe absoluta certeza de que la media poblacional tomará algún valor entre el infinito negativo y el infinito positivo. Lo que se hace es seleccionar una probabilidad alta, por ejemplo 95%, es decir, (1−α) = 0,95 y α = 0,05, que se logra con un error máximo de tamaño razonable (desde luego, no infinito). Otros niveles de confianza habituales son 99%, 99,5% o 99,9%, y pueden acercarse aún más a 100%, pero nunca alcanzarlo.

Para calcular el error máximo, y por tanto la amplitud del intervalo de confianza, se recurre a un estadístico de inferencia, que suele ser el estimador puntual tipificado. Este a menudo sigue una distribución muestral normal estándar, con media 0 y desviación típica 1 (aunque ciertos estadísticos siguen distribuciones distintas). En ese caso, los límites del intervalo de confianza se encuentran a la misma distancia del cero, uno de ellos negativo y el otro positivo; se denotan por −zα/2 y +zα/2, respectivamente, donde la z hace referencia a la variable de la curva normal estándar y α es el nivel de significación escogido, y se pueden obtener con un ordenador o consultando una tabla de áreas bajo la curva. A veces se fija primero el valor de zα/2 en lugar de α; por ejemplo, zα/2 = 1 (que corresponde a confianza 68,5% (α = 31,5%), y se denomina 1σ o 'un sigma'), zα/2 = 2 (confianza 95,5%, 2σ o 'dos sigmas'), zα/2 = 3 (confianza 99,75%, 3σ o 'tres sigmas'), etc.

El error máximo también es proporcional a la varianza de la distribución muestral, y esta es inversamente proporcional al tamaño de la muestra, n. Así, para un nivel de confianza dado (zα/2 fija), cuanto mayor sea el tamaño de la muestra, más pequeña será la amplitud intervalo de confianza, es decir, mejor (más precisa) será la estimación del parámetro. Si inicialmente se fijan tanto el nivel de confianza como la amplitud deseada del intervalo de confianza, entonces se puede deducir a partir de ellos el tamaño que debe tener la muestra con la que se trabaje. Este es un dato muy relevante en una investigación, ya que influye notablemente en los recursos que hay que dedicar para llevarla a cabo.

Intervalo de confianza para la media poblacional

Siguiendo el razonamiento anterior, se deduce que la probabilidad de que la media tipificada obtenida en una muestra extraída al azar (que sigue una distribución muestral normal estándar) se encuentre entre −zα/2 y +zα/2 tiene que ser igual a (1−α), lo que matemáticamente se expresa como:

.

En la fórmula anterior se puede despejar el valor de la media poblacional μ, resultando un intervalo para está última:

.

Esta expresión significa que la media de la población, μ, se esperaría encontrar con una probabilidad o confianza (1−α) en el intervalo comprendido entre los límites:

.

El intervalo de confianza resultante tiene su punto medio en m y se extiende por encima y por debajo de ese valor una longitud dada por el término que acompaña al símbolo ±, que es el error máximo, ε; la amplitud total del intervalo es de dos veces el error máximo. El intervalo de confianza sobre la curva normal se puede visualizar en la siguiente infografía (pinchar sobre ella para abrir el enlace):

.

Para un nivel de confianza (1−α) previamente fijado y un error máximo ε aceptable también fijado, el tamaño de la muestra se puede despejar de las expresiones anteriores, resultando:

.

EJEMPLO

Se lleva a cabo una investigación sobre el gasto medio mensual por persona en alimentación en España, que sigue una distribución normal de desviación típica σ = 20 euros. Se extrae una muestra al azar de 50 personas, cuyo gasto medio resulta ser de 290 euros. ¿En qué intervalo se encuentra la media en España para un nivel de confianza del 95%? Si se quisiera reducir la amplitud del intervalo a 6 euros, ¿cuál debería ser el tamaño de la muestra estudiada?

El nivel de confianza es (1−α) = 0,95 y el de significación es α = 0,05. El valor zα/2 = z0,025 es el que deja a su derecha un área bajo la curva normal estándar de 0,025, y por tanto a su izquierda un área de 0,975. Buscando esta última área (o la más cercana a ella) en la tabla, se encuentra que está situada en la columna 1,00 y en la fila 0,96, es decir, corresponde al valor z0,025 = 1,96. El error máximo es ε = 1,96 x 20/√50 = 5,54 euros, y por tanto los límites del intervalo de confianza para la media poblacional son 290 ± 5,54 euros. Es decir, el gasto medio mensual en alimentación de la población española se encontrará entre 284,46 y 295,54 euros con una probabilidad del 95%.

El intervalo obtenido para la media tiene una amplitud de dos veces el error máximo, es decir, 11,08 euros. Si se quisiera reducir a 6 euros, que corresponde a un error máximo de 3, habría que estudiar una muestra de tamaño n = (1,96 x 20 / 3)2 = 171 personas aproximadamente.

 

Cuando la varianza en la población no se conoce y se usa en su lugar la varianza en la muestra, el estadístico de inferencia de la media sigue una distribución muestral t de Student bajo ciertas condiciones. En ese caso, el intervalo de confianza para la media viene definido por los límites:

.

Es decir, los valores límite se refieren ahora a áreas bajo la distribución t de Student, no la normal, que se pueden consultar en otras tablas. No obstante, para muestras grandes (n>30) se puede seguir usando la distribución normal porque es muy buena aproximación.

Intervalo de confianza para la diferencia de medias de dos poblaciones

De manera análoga a como se ha obtenido el intervalo de confianza para la media de una población, se puede establecer un intervalo de confianza para la diferencia de medias de dos poblaciones distintas, a partir de la diferencia de las medias de dos muestras extraídas al azar de esas poblaciones. Recordando la tipificación de la diferencia de medias vista en el apartado anterior y que sigue una distribución normal estándar, los límites del intervalo de confianza vienen dados por:

.

EJEMPLO

Se mide 40 veces el tiempo necesario para realizar un cierto trayecto en autobús, obteniendo una media de 46 minutos con desviación típica 8 minutos. Para el mismo trayecto se mide 30 veces el tiempo necesario para realizarlo en coche, y se obtiene una media de 36 minutos con desviación típica 6 minutos. Para un nivel de confianza del 95%, obtener el intervalo en el que se encuentra la diferencia entre las medias de los tiempos de viaje en autobús y en coche.

Como en el ejemplo anterior, se tiene zα/2 = z0,025 = 1,96. El error máximo es ε = 1,96 x √(82/40+62/30) = 3,28 minutos, y por tanto los límites del intervalo de confianza para la diferencia de medias en la población son 10 ± 3,28 minutos. Es decir, se espera que el 95% de las veces se tarde en hacer ese trayecto entre 6,72 y 13,28 minutos más en autobús que en coche.

Intervalo de confianza para la proporción poblacional

Igualmente puede obtenerse el intervalo de confianza para la proporción en una población a partir de su valor en una muestra extraída al azar. Como la proporción poblacional no se conoce, ya que de hecho estamos tratando de estimarla, la varianza debe calcularse usando la proporción en la muestra, como p(1-p)/n. Empleando esa varianza para la tipificación de la proporción vista en el apartado anterior, que sigue una distribución muestral normal estándar (para muestras grandes, n>30), los límites del intervalo de confianza vienen dados por:

.

EJEMPLO

Se entrevista a un grupo de 800 personas escogidas al azar, de las que 120 resultan encontrarse en situación de desempleo. Para un nivel de confianza del 99%, ¿en qué intervalo se sitúa el porcentaje de desempleo en la población?

La proporción de parados en la muestra es p = 120/800 = 0,15 (un 15%). El nivel de confianza pedido es (1−α) = 0,99 y el de significación es α = 0,01. El valor zα/2 = z0,005 es el que deja a su derecha un área bajo la curva normal estándar de 0,005, y por tanto a su izquierda un área de 0,995. Buscando esta última área (o la más cercana a ella) en la tabla, se encuentra que está situada en la columna 2,00 y en la fila 0,58, es decir, corresponde al valor z0,005 = 2,58.

Dado que el tamaño de la muestra es grande, se puede suponer una distribución normal para la proporción muestral tipificada. El error máximo se obtiene entonces como ε = 2,58 x √(0,15 x (1-0,15) / 800) = 0,033, y los límites del intervalo de confianza para la proporción poblacional resultantes son 0,15 ± 0,033. Es decir, el porcentaje de parados en la población se encontrará entre 11,7% y 18,3% con una probabilidad del 99%.