Saltar la navegación

Medidas de dispersión

Las medidas de dispersión, o de variabilidad, expresan cómo se distribuyen los datos en torno a alguna de las medidas de centralización definidas antes, y son un complemento a estas últimas para describir más fielmente un conjunto de datos.

La medida de dispersión más sencilla que puede definirse es la distancia entre el mayor y el menor de los datos de un conjunto, denominada amplitud total, pero ignora mucha información al contar solo con dos valores para su cálculo.

Una medida de dispersión que depende de todos los datos de un conjunto consiste en calcular la distancia de cada uno de ellos a la media aritmética, es decir, su diferencia. Los datos que sean menores que la media darán una diferencia negativa, pero como únicamente interesa la distancia a la media, se ignora el signo menos empleando el valor absoluto. A continuación, se suman las diferencias obtenidas (todas ellas con signo positivo) y se divide el resultado entre el número de datos. Con ello se obtiene la desviación media respecto a la media aritmética, que también se puede calcular respecto a la mediana.

El hecho de ignorar el signo de las restas es importante, porque de otro modo las que son negativas compensarían en gran medida a las positivas, y su suma daría un valor pequeño que no reflejaría la verdadera dispersión de los datos. Esta medida no resulta práctica matemáticamente debido a la dificultad que presenta el manejo de valores absolutos. Por eso, y por muchas otras propiedades matemáticas importantes, es mucho más habitual elevar al cuadrado cada una de las diferencias calculadas, que también elimina los signos menos. A continuación, se suman los cuadrados de las diferencias y el resultado se divide entre el número de datos. La medida de dispersión así obtenida es la varianza, que se suele representar como s2 y que se puede expresar de distintas maneras:

.

La varianza refleja la dispersión de los datos de una manera un tanto distorsionada, porque las distancias a la media han sido elevadas al cuadrado. Por eso se define otra medida, la desviación típica o desviación estándar, representada por s, que es la raíz cuadrada de la varianza:

.

Esta operación no deshace por completo la distorsión (la raíz de una suma no es la suma de las raíces de cada término), pero la atenúa. Otra ventaja de la desviación típica es que tiene las mismas unidades que los datos. Por ejemplo, en un conjunto de estaturas dadas en centímetros, la desviación típica, al igual que la media (o cualquier otra medida de centralización), se mide también en centímetros; la varianza, por el contrario, vendría dada en centímetros al cuadrado.

Una vez calculado el valor de la desviación típica es necesario interpretarlo, es decir, establecer si se trata de una dispersión grande o pequeña. Lo más apropiado es compararlo con el valor de los propios datos, y en concreto de su media aritmética. Así, no es lo mismo una desviación típica de 200 euros en un conjunto de salarios de 800 euros de media que en un conjunto de 5000 euros de media. Esa desviación implica grandes desigualdades en el primer caso, mientras que en el segundo caso es poco relevante. Para tener en cuenta estas circunstancias se define el coeficiente de variación (CV), que es la desviación típica dividida entre la media aritmética (CV = s/m), es decir, proporciona el número de medias aritméticas que "caben" en la desviación típica.

 

EJEMPLO

Los tres grupos de personas del ejemplo anterior tenían la misma media de edad (10 años), pero la dispersión de los datos era evidentemente muy distinta, como se puede comprobar a través de la desviación típica: en el grupo A es 0, ya que no hay dispersión, en el grupo B es 4,9 años (varianza 24) y en el grupo C es 6 años (varianza 36).

La amplitud total (diferencia entre la edad más alta y la más baja) es mayor en el grupo B, 16 años, que en el grupo C, 12 años. Sin embargo, en este último todos los datos se encuentran alejados de la media, mientras que en el B los hay cercanos y se alejan progresivamente; por eso la desviación típica en el grupo B es menor que en el C.