Saltar la navegación

Distribución muestral de estadísticos

En cada una de las distintas muestras que pueden ser extraídas de una población se pueden calcular estadísticos como la media aritmética o la proporción de elementos que presentan cierta característica; por ejemplo, la media de estaturas o la proporción de licenciados universitarios. Cuando los elementos son escogidos de manera aleatoria, los estadísticos pueden tomar distintos valores en cada una de las muestras, cada uno de ellos con distinta probabilidad. En los ejemplos del inicio de esta sección ya vimos que los valores de la media en diferentes muestras aleatorias se encontraban con mayor probabilidad cerca del valor de la media poblacional, y que era menos probable que se encontrasen muy alejados de ella.

La probabilidad de cada uno de los posibles valores que puede tomar un estadístico en muestras extraídas al azar viene dada por una función matemática denominada distribución muestral, que depende del estadístico en cuestión. Se habla así, por ejemplo, de la distribución muestral de la media aritmética o de la distribución muestral de la proporción.

Una distribución muestral es una función de probabilidad, ya que asigna a cada posible valor de un estadístico su probabilidad de aparecer en una muestra extraída al azar. En realidad, esta definición es estrictamente cierta solo cuando la variable toma valores discretos; por ejemplo, cuando procede de un contaje y sus posibles valores son 0, 1, 2, 3, etc. Cuando el valor del estadístico muestral es una variable continua, la distribución muestral correspondiente se denomina función de densidad de probabilidad. La probabilidad en este caso corresponde gráficamente a un área bajo la curva de esa función, delimitada por un cierto intervalo de la variable. Analíticamente, esa área se calcula como la integral de la función entre los límites del intervalo de la variable, que en la práctica se obtiene con un ordenador o se consulta en una tabla. El área total bajo la curva, que se extiende a todos los posibles valores de la variable, es siempre uno, que corresponde a la probabilidad de un suceso seguro.

La siguiente gráfica muestra la curva de una función de densidad de probabilidad para una variable x, y en ella se señala la probabilidad de que esa variable se encuentre entre los valores 1 y 2, que corresponde al área bajo la curva marcada en azul:

.

La función de densidad de probabilidad más importante en estadística se llama distribución normal o distribución gaussiana, o también campana de Gauss, por la forma que toma cuando es representada gráficamente (como aparece en la figura anterior). Su forma concreta depende de dos parámetros, la media y la varianza. La curva alcanza un máximo cuando la variable toma el valor de la media, y es simétrica respecto a ese valor, aproximándose a cero indefinidamente conforme la variable se aleja de la media por ambos lados. La desviación típica, que es la raíz cuadrada de la varianza, está relacionada con la anchura de la campana: a mitad de altura del máximo, la anchura de la campana es aproximadamente 2,36 σ. Una distribución normal de media μ y varianza σ2 se puede simbolizar como N(μ2), y así lo usaremos aquí.

Para una variable aleatoria x se define su variable tipificada como:

.

Si la variable x sigue una distribución N(μ2), su variable tipificada correspondiente sigue una distribución N(0,1), que se denomina distribución normal estándar, con media 0 y varianza 1 (es la representada en la figura de arriba). Existen infinitas distribuciones normales distintas, tantas como posibles valores de la media y la varianza, pero las áreas bajo la curva normal estándar son las únicas que se pueden encontrar en tablas para su consulta.

La siguiente figura recoge la representación gráfica de distribuciones normales con distintos valores de media y de varianza, según la notación N(μ2); la curva negra más gruesa es la distribución normal estándar. Se puede observar cómo la posición del máximo coincide con la media y cómo la anchura de las campanas es proporcional a la desviación; el área total bajo cualquiera de las curvas es siempre uno.

.

 

EJEMPLO

Se tiene una variable aleatoria x con distribución normal de media 2 y varianza 9, N(2,9). Se quiere calcular la probabilidad de que la variable tome valores entre 1 y 2.

La probabilidad pedida corresponde al área bajo la curva normal especificada y limitada por los valores dados de la variable. Para poder consultar una tabla de áreas bajo la curva normal estándar, se tipifican los valores límite de la variable:

zA = (xA−μ)/σ = (1−2)/√9 = -0,333

zB = (xB−μ)/σ = (2−2)/√9 = 0

El área bajo la curva normal N(2,9) delimitada por los valores de la variable 1 y 2 es la misma que el área bajo la curva normal N(0,1) delimitada por los valores de la variable −0,333 y 0. Si se busca en una tabla de áreas bajo la curva normal (como se describe en los ejemplos posteriores), se obtiene 0,13. Así, la probabilidad de que una variable aleatoria distribuida según N(2,9) tome valores entre 1 y 2 es de 0,13, es decir, un 13%.

 

A continuación se describen, a modo de ejemplo, las distribuciones muestrales de tres estadísticos habituales en investigaciones cuantitativas: la media aritmética, la diferencia de medias aritméticas de dos grupos y la proporción de un cierto tipo de elementos.

Distribución muestral de la media

La media m de las muestras extraídas al azar de una población con media μ y varianza σ2 es una variable aleatoria que sigue una distribución de probabilidad normal caracterizada por:

- su media, que coincide con la media poblacional μ;

- su varianza, que viene dada por la varianza de la población σ2 dividida entre el tamaño de la muestra n, es decir, σ2/n.

Así pues, la distribución muestral de la media m es N(μ, σ2/n). La media muestral tipificada sigue una distribución normal estándar, N(0,1), y se calcula como:

.

Con estos resultados se puede calcular fácilmente la probabilidad de que la media de una muestra extraída al azar se encuentre en un cierto intervalo, conociendo la media y la varianza de la población de la que se ha extraído la muestra. Para ello, se calcula el área bajo la curva de la distribución normal N(μ, σ2/n) entre los límites del intervalo, o bien se consulta en una tabla el área bajo la curva de la distribución normal estándar N(0,1) entre los límites tipificados del intervalo.

EJEMPLO

Si los individuos de una población tienen un peso medio de 70 kg, con una desviación típica de 10 kg, ¿cuál es la probabilidad de que la media de peso de los 121 pasajeros de un avión, que se supone que representan una muestra al azar, esté entre 72 y 73 kg?

Se puede suponer que la media muestral sigue una distribución normal de media 70 kg y varianza 102/121 = 0,826 kg2, es decir, N(70, 0,826). Los valores tipificados de los límites del intervalo de la variable son:

m*A = (72−70)/√0,826 = 2,20

m*B = (73−70)/√0,826 = 3,30

La variable tipificada sigue una distribución N(0,1) cuyas áreas bajo la curva se encuentran tabuladas. Por ejemplo, si se mira en esta tabla, se pueden encontrar las áreas bajo la curva que quedan a la izquierda de un cierto valor de la variable. El área bajo la curva comprendida entre m*A y m*B es entonces el área a la izquierda de m*B menos el área a la izquierda de m*A.

En esa tabla la cifra de las unidades de la variable se encuentra en la primera fila y las cifras del primer y segundo decimal se encuentran en la primera columna. Una vez localizada la fila y la columna que corresponde al valor buscado, la casilla en la que se cruzan contiene el área bajo la curva normal tipificada que queda a la izquierda de ese valor. Se procede entonces de la siguiente manera:

- Para m*A = 2,20 se localiza la columna 2,00 y la fila 0,20, en cuya intersección aparece el área 0,986096.

- Para m*B = 3,30 se localiza la columna 3,00 y la fila 0,30, en cuya intersección aparece el área 0,999516.

La diferencia entre ambas áreas es 0,01342, que corresponde al área bajo la curva delimitada entre m*A y m*B. Por tanto, la probabilidad de que la media de peso de los pasajeros del avión se encuentre entre 72 y 73 kg es de 0,013 aproximadamente, o de 1,3 %.

 

Cuando la varianza de la población σ2 no se conoce, que es lo más habitual, ha de estimarse a partir de la varianza de la propia muestra que se ha extraído, s2. La media muestral tipificada se obtiene entonces sustituyendo la varianza poblacional por la muestral:

.

Este nuevo estadístico t contiene la media muestral m y la varianza muestral s2, esta última con su propia distribución muestral. El cociente entre ambas ya no sigue la distribución normal estándar, sino otra distribución denominada t de Student, que depende de los grados de libertad de la muestra (número de elementos que contiene menos uno, n−1). Cuanto mayor es el tamaño de la muestra, más se parece esta distribución a la normal estándar, por lo que a menudo se emplea esta última en muestras grandes incluso si la varianza poblacional es desconocida.

La siguiente gráfica recoge la representación gráfica de distribuciones t de Student con distintos grados de libertad (g.l.); la curva negra, que corresponde a infinitos grados de libertad, coincide con la distribución normal estándar N(0,1):

.

Distribución muestral de la diferencia de medias

También se puede analizar la distribución muestral de la diferencia entre dos medias, m1m2, obtenidas de muestras extraídas al azar de dos poblaciones distintas, una de ellas con media μ1 y varianza σ12 y otra con media μ2 y varianza σ22. La distribución muestral de la diferencia de medias sigue una distribución normal caracterizada por:

- su media, que coincide con la diferencia de las medias poblacionales μ1μ2;

- su varianza, que depende de las varianzas de ambas poblaciones y del tamaño de ambas muestras, n1 y n2, y que viene dada por σ12/n1 + σ22/n2.

Así pues, la distribución muestral de la diferencia de medias m1m2 es N(μ1μ2, σ12/n1+σ22/n2). La diferencia de medias muestrales tipificada sigue una distribución normal estándar, N(0,1), y se calcula como:

.

EJEMPLO

Se tienen dos poblaciones distintas, una con media de edad de 20 años y desviación típica 1,5 años y la otra con media 25 años y desviación típica 1,7 años. Se reúnen en un aula 50 individuos escogidos al azar de la primera población y en otra aula, 60 individuos de la segunda población. ¿Cuál es la probabilidad de que la diferencia entre las medias de edad de ambas aulas esté entre 4,5 y 5,5 años?

Se puede suponer que la diferencia de medias muestrales sigue una distribución normal de media 25−20 = 5 años y varianza 1,52/50+1,72/60 = 0,0932 años2, es decir, N(5, 0,0932). Los valores tipificados de los límites del intervalo de la variable son:

(m1m2)*A = (4,5−5)/√0,0932 = −1,64 años

(m1m2)*B = (5,5−5)/√0,0932 = 1,64 años

Procediendo de manera análoga al ejemplo anterior, para (m1m2)*B = 1,64 se localiza en la tabla la columna 1,00 y la fila 0,64, en cuya intersección aparece el área 0,949497. En la tabla no aparecen valores negativos de la variable, pero como la curva normal estándar es simétrica respecto al valor 0, se deduce que el área a la izquierda de (m1m2)*A = −1,64 es igual al área a la derecha del valor +1,64; esta última se puede obtener como el área total bajo la curva, que es 1, menos el área a la izquierda de +1,64, es decir, 1−0,949497 = 0,050503.

El área bajo la curva delimitada entre (m1m2)*A y (m1m2)*B corresponde entonces a la diferencia 0,949497−0,050503 = 0,898994. Por tanto, la probabilidad de que la diferencia entre las medias de edad de las personas de ambas aulas se encuentre entre 4,5 y 5,5 años es de casi 0,9, o del 90%.

Distribución muestral de la proporción

La proporción es el número de elementos de un cierto tipo presentes en un conjunto dividido entre el número total de elementos. En una muestra se suele denotar por p, y la proporción de elementos que no presentan la característica en cuestión es entonces 1−p. En una población, se suelen denotar π y 1−π, respectivamente.

La proporción p en muestras grandes (n>30) extraídas al azar de una población con proporción π tiende a seguir una distribución de probabilidad normal, caracterizada por:

- su media, que coincide con la proporción poblacional π;

- su varianza, que viene dada por el producto de las proporciones poblacionales de los elementos que presentan y que no presentan la característica en cuestión, dividido entre el tamaño de la muestra n, es decir, π(1−π)/n.

Así pues, la distribución muestral de la proporción p es N(π, π(1−π)/n). La proporción tipificada sigue una distribución normal estándar, N(0,1), y se calcula como:

.

EJEMPLO

El porcentaje de población española que fuma es del 22%. En un grupo de 100 personas escogido al azar, ¿cuál es la probabilidad de que fumen entre 25 y 30 personas?

La proporción de fumadores en la población es 0,22. Se puede suponer entonces que la proporción muestral sigue una distribución normal de media 0,22 y varianza 0,22 (1−0,22) / 100 = 0,001716, es decir, N(0,22, 0,001716). Los límites del intervalo de la variable, expresados en proporciones, son 0,25 y 0,30, cuyos valores tipificados son:

p*1 = (0,25−0,22)/√0,001716 = 0,72.

p*2 = (0,30−0,22)/√0,001716 = 1,93.

Procediendo de manera análoga a los ejemplos anteriores, para p*1 = 0,72 se localiza en la tabla la columna 0,00 y la fila 0,72, en cuya intersección aparece el área 0,764237, y para p*2 = 1,93 se localiza en la tabla la columna 1,00 y la fila 0,93, en cuya intersección aparece el área 0,973196. El área bajo la curva delimitada entre p*1 y p*2 corresponde entonces a la diferencia entre ambas, 0,208959. Por tanto, la probabilidad de que en esa muestra fume entre un 25% y un 30% de las personas es de casi 0,21, o del 21%.