Saltar la navegación

Estadística inferencial

En la sección anterior introdujimos una serie de valores numéricos, como la media y la desviación típica, que servían para describir el conjunto de datos obtenidos de la muestra de una investigación. En realidad, muchas investigaciones pretenden obtener información sobre la población de la que se ha extraído esa muestra, que es un conjunto mucho más amplio.

Para describir una población se emplean valores numéricos análogos a los de las muestras, que reciben el nombre de parámetros poblacionales. Para distinguirlos de los mismos valores referidos a una muestra, estos últimos toman el nombre de estadísticos muestrales. Así, la media o la desviación típica pueden ser estadísticos cuando se refieren a los datos de una muestra, o parámetros cuando se refieren a una población. Habitualmente, los estadísticos se simbolizan con caracteres latinos, y los parámetros correspondientes con los caracteres griegos equivalentes; por ejemplo, la media de una muestra se puede simbolizar como m y la de una población como μ, o la desviación típica de una muestra como s y la de una población como σ.

Dado que suele ser inviable medir la población al completo, cualquier descripción sobre ella ha de ser inferida a partir de la muestra a la que sí se tiene acceso, procedimiento matemático del que se ocupa la estadística inferencial. Se pretende adquirir un conocimiento amplio y general (poblacional) a partir de medidas en un grupo particular (muestral), y se trata por tanto de una aplicación del método inductivo, que va de lo particular a lo general, al contrario que el deductivo. Como vimos en el primer bloque del curso, la inducción conlleva incertidumbre. Si cada cisne que se observa es blanco y el tamaño de la muestra observada es cada vez mayor, se induce o infiere naturalmente que el color de los cisnes en general (es decir, de todos los cisnes que existen, la población), es blanco. Pero ya vimos que eso no tiene por qué ser cierto (de hecho, no lo es), y en todo caso solo podría confirmarse con certeza si realmente se observase toda la población.

La estadística inferencial no pretende ofrecer información válida para todos y cada uno de los elementos desconocidos de la población, sino que se emplea para obtener valores de ciertos parámetros poblacionales (como la media), y en ese sentido representa una inducción más suave o flexible que en el ejemplo de los cisnes.

EJEMPLO

Para conocer la intención de voto de la población de un país no suele ser posible realizar encuestas a todos sus ciudadanos. Sería difícil acceder a todos ellos y llevaría una gran cantidad de tiempo y recursos entrevistar a todos. Lo que se hace es seleccionar una muestra, por ejemplo de mil personas, entrevistarlas e inferir de sus respuestas ciertos parámetros de la intención de voto de la población al completo. En un ejemplo como este, los parámetros poblacionales reales se conocerán el día de las elecciones, y se podrá comparar la inferencia proporcionada previamente a partir del análisis estadístico de las encuestas. Sin embargo, en la mayoría de los casos los parámetros poblacionales reales nunca llegan a conocerse, y en contextos más abstractos la población es de hecho infinita.

 

Incluso para ese cometido más restringido, que involucra únicamente la obtención de parámetros poblacionales, la estadística inferencial no puede ofrecer certeza sobre su valor. Para que los parámetros puedan inferirse correctamente a partir de los estadísticos muestrales es necesario que los elementos de la muestra estén tomados al azar de entre los de la población. La estadística inferencial es capaz de cuantificar el efecto del azar, proporcionando la probabilidad de que el parámetro poblacional se encuentre en un determinado rango de valores.

Si los elementos de la muestra no se extraen al azar, se corre el riesgo de que no resulte representativa de la población, es decir, de que esté sesgada. Por ejemplo, si queremos conocer la estatura media de la población española y escogemos nuestra muestra, por conveniencia, en el club de baloncesto del barrio, es evidente que su estatura media va a diferir considerablemente de la estatura media de la población, debido al sesgo en la selección.

EJEMPLO

Se lleva a cabo una investigación que involucra la estatura media de una población. Por simplicidad, supongamos que la población completa consta solamente de diez personas, cuyas estaturas en metros son:

1,55   1,63   1,68   1,72   1,75   1,79   1,82   1,83   1,94   2,09

Como esta población es pequeña, se pueden calcular directamente parámetros como la media, que es de 1,78 metros. Supongamos ahora que, como ocurre habitualmente, no podemos manejar todos los datos de la población sino solo los de muestras más reducidas extraídas de ella. Supondremos aquí que solo tenemos recursos para estudiar una muestra de cuatro elementos, que podría ser alguna de las siguientes:

Muestra A: 1,82   1,83   1,94   2,09

Muestra B: 1,55   1,63   1,68   1,72 

Muestra C: 1,55   1,72   1,75   1,94

Muestra D: 1,63   1,72   1,82   1,83

La muestra A sería el equivalente a acudir a un club de baloncesto a escoger los elementos de la muestra, porque resulta estar formada por las personas más altas de la población. La media de estatura en esta muestra es de 1,92 metros.

La muestra B también es muy particular, porque contiene los individuos de menor estatura, con una media de 1,65 metros.

Las muestras C y D contienen una mayor variabilidad de estaturas, y sus medias son 1,74 y 1,75 metros, respectivamente.

Si escogemos al azar cuatro elementos de la población para formar nuestra muestra, podríamos haber obtenido con la misma probabilidad cualquiera de las muestras anteriores, o cualquier otra combinación de cuatro elementos (hay 210 posibles). Pero también es cierto que será mucho más probable que nuestra muestra sea del tipo C o D, porque hay muchas más combinaciones posibles en las que se mezclan estaturas muy distintas. Las muestras de tipo A o B son muy poco probables porque, como ya dijimos, son muy especiales: reúnen a los individuos de mayor y de menor altura, respectivamente.

En conclusión, es más probable que la muestra que extraigamos al azar para nuestra investigación tenga una media similar a la de las muestras C y D, en torno a los 1,75 metros, que resulta ser muy próxima a la media de la población, que en este ejemplo sí conocemos y es de 1,78 metros.

Recordemos que, en general, la media poblacional será desconocida, pero se puede inferir que, con alta probabilidad, será muy similar a la media obtenida en muestras aleatorias. Si la muestra obtenida al azar fuese la A o la B, y tomásemos su media como la de la población, nos estaríamos equivocando considerablemente, pero resulta poco probable (aunque no imposible) que nuestra muestra al azar sea de ese tipo.

En una investigación real no sabemos de qué tipo es la muestra que estamos usando, puesto que no conocemos toda la población de la que ha sido extraída. Desconocemos si nuestra muestra contiene un exceso de personas muy altas o de personas muy bajas, pero lo esperable, por ser lo más probable, es que resulte una buena representación de la población total.

 

.


Licencia: dominio público. Fuente: Pixabay.