La distribución gaussiana toma su nombre del matemático y físico alemán Carl Friedrich Gauss (1777-1855). Su expresión matemática es la siguiente:
que viene caracterizada, como ya sabemos, por la media μ (que da la posición del máximo de la distribución) y la desviación típica σ (relacionada con la anchura de la distribución).
Carl Friedrich Gauss. Licencia: dominio público. Fuente: Wikimedia Commons.
El hecho de que algunos estadísticos muestrales sigan esta distribución es absolutamente esencial en estadística, y por extensión, en el método científico, y su origen se encuentra en un teorema matemático que se conoce como teorema central del límite, desarrollado por el matemático y físico francés Pierre Simon de Laplace (1749-1827). Supongamos una muestra de valores numéricos (x1, x2, ..., xn) extraídos aleatoriamente de una población caracterizada por una media μ y una varianza σ2. Cada uno de esos valores es una variable aleatoria, cuya media y cuya varianza son las de la población de la que ha sido extraído. Su suma, X = x1 + x2 + ... + xn, es también una variable aleatoria, y se puede demostrar que tiende a seguir una distribución normal cuya media es la suma de las medias de las n variables, nμ, y cuya varianza es la suma de las varianzas de las n variables (independientes entre sí), nσ2. Cuanto mayor es el número de variables aleatorias sumadas, es decir, al aumentar el tamaño de la muestra n, más se aproxima la distribución de la variable suma X a la distribución normal N(nμ, nσ2). En la práctica, se suele considerar que muestras con n>30 son suficientemente grandes como para que la distribución de la suma sea normal con muy buena aproximación.
Si la suma de los elementos de la muestra sigue una distribución normal, entonces la media aritmética también ha de seguirla, ya que no es más que esa misma suma dividida entre el número de elementos, X/n. La media de esta nueva variable (es decir, la media de las medias muestrales) resulta nμ/n = μ, y su varianza (es decir, la varianza de las medias muestrales) resulta nσ2/n2 = σ2/n. Así, el teorema central del límite establece que la distribución muestral de la media tiende a una distribución normal N(μ, σ2/n), que es el resultado que hemos venido usando.
Este teorema es válido cuando las variables aleatorias pertenecen a una población muy general, que solo necesita estar caracterizada por una media y por una varianza, pero no tienen por qué seguir una distribución normal en esa población. Si lo hacen, la distribución muestral de la media es normal de manera exacta, incluso para muestras pequeñas. En cambio, si las variables no siguen una distribución normal en la población, la distribución muestral de la media es solo aproximadamente normal, pareciéndose más a ella conforme aumenta el tamaño de la muestra (y siendo casi igual para n>30).
Cuando la varianza poblacional no se conoce y se estima a través de la varianza muestral, la media tipificada sigue la distribución t de Student (la media en sí sigue tendiendo a una distribución normal, es su tipificación usando s2 la que sigue esta otra distribución). Esto solo es estrictamente cierto cuando las variables de la muestra siguen una distribución normal en la población. Si no la siguen, la distribución muestral de la media tipificada tiende a la t de Student solo en muestras grandes, pero no en muestras pequeñas, aunque tampoco es mala aproximación en este caso. Dado que la distribución t de Student tiende a la distribución normal conforme aumentan sus grados de libertad, para muestras grandes (n>30) es habitual usar la distribución normal incluso si la varianza poblacional es desconocida y se usa la de la muestra.
Pierre Simon de Laplace. Licencia: dominio público. Fuente: Wikimedia Commons.