Saltar la navegación

Medidas de centralización

Las medidas de centralización o de tendencia central expresan el valor en torno al cual se sitúan los datos de una muestra. La medida más habitual de este tipo es la media aritmética, que se obtiene sumando todos los datos y dividiendo el resultado entre el número total de datos sumados. Se trata de un cálculo con el que todos estamos muy familiarizados, y en particular los estudiantes cuando quieren saber su nota final del curso a partir, por ejemplo, de las notas de varios exámenes parciales o de las evaluaciones trimestrales.

La media de un conjunto de n datos denotados xi se suele representar por el símbolo x con una barra horizontal encima, aunque aquí la llamaremos m. Su expresión matemática es:

.

donde el numerador contiene la suma de todos los valores xi , cuyo subíndice va cambiando desde 1 hasta el último que haya, representado por nx1 , x2 , x3 , ... , xn.

Cuando hay valores que se repiten en el conjunto de datos, en vez de sumarlos uno a uno se pueden multiplicar por el número de repeticiones, que es su frecuencia. Al dividir entre el número total de datos no hay que olvidar aquellos que se repiten, que cuentan tantas veces como indique su frecuencia.

Una medida relacionada con la anterior es la media ponderada, en la que cada uno de los datos se multiplica por un valor, denominado peso, que refleja cuánto contribuye a la media. Los pesos de todos los valores tienen que sumar 1 (o 100 si están expresados en porcentaje). Volviendo al ejemplo de las notas, algunos ejercicios o exámenes pueden contribuir más que otros para la nota final del curso, es decir, pueden tener diferente peso. Por ejemplo, un 60% el examen, un 20% los ejercicios de clase y un 20% un trabajo; para calcular la media ponderada se multiplica la nota del examen por 0,6, la de los ejercicios por 0,2 y la del trabajo por 0,2, y se suman.

Otra medida de centralización es la moda, que es el valor que más se repite dentro del conjunto de datos. Por ejemplo, en el conjunto siguiente: 9 2 5 7 5 4 1 7 3 9 9, la moda es el 9, que se repite tres veces o, dicho de otro modo, su frecuencia es tres. Si existen varios valores que se repiten el mismo número de veces, se dice que la muestra es multimodal (bimodal si hay en concreto dos modas).

Por último, la mediana es el valor que se sitúa justo en la mitad de un conjunto de datos ordenados de menor a mayor (o al revés). Respecto a la mediana, la mitad de los datos del conjunto (el 50%) quedan por encima de ella, y la otra mitad (el otro 50%) quedan por debajo. Si el conjunto tiene un número impar de datos, la mediana es el que queda en la mitad de la lista ordenada. Si el conjunto tiene un número par de datos, la mediana se calcula como la media aritmética entre los dos valores que quedan en la mitad de la lista ordenada. Usando el ejemplo anterior, los datos ordenados quedan: 1 2 3 5 5 7 7 9 9 9. Como hay un número par de datos, en la mitad de la lista quedan dos valores, 5 y 7, y la mediana se obtiene como su media aritmética: (5+7)/2 = 6. Se observa que hay cinco datos con valor menor que 6 y otros cinco con valor mayor que 6.

 

EJEMPLO

Esta gráfica del diario El País del 21/06/19 muestra datos del Instituto Nacional de Estadística (INE) sobre los sueldos anuales brutos en 2017 en euros (eje horizontal) y el número de personas que percibieron cada uno de ellos (eje vertical). Aparecen señaladas también las posiciones de las diversas medidas de centralización: salario medio, mediano y más frecuente (moda), evidenciándose la diferencia entre ellas.

 

.

 

EJEMPLO

Supongamos que nos piden preparar una actividad para un grupo de diez estudiantes. Para adaptar la actividad, necesitaríamos saber la edad de los participantes, pero en lugar de darnos la lista de edades completa nos proporcionan una medida estadística de centralización, la media aritmética, que es 10 años. Puede parecer que este dato es todo lo que necesitamos saber, pero puede que no sea suficiente. Para los tres grupos siguientes se listan las edades de sus miembros, en años:

Grupo A: 10  10  10  10  10  10  10  10  10  10

Grupo B:  2  4  6  8  10  10  12  14  16  18

Grupo C:  4  4  4  4  4  16  16  16  16  16

Se puede comprobar fácilmente que la media aritmética es la misma en los tres grupos, 10 años, aunque salta a la vista lo diferentes que son. El grupo A es homogéneo, similar a los que encontraríamos en un colegio. El grupo B incluye bebés, niños pequeños, mayores y adolescentes, lo que haría bastante difícil diseñar una actividad. El grupo C también incluye niños pequeños y adolescentes, y en este caso resulta evidente que convendría hacer dos actividades separadas, una para los niños de 4 años y otra para los adolescentes de 16. Otras medidas de centralización no mejoran mucho la caracterización de estos grupos. En los tres la mediana es 10, y en los grupos A y B la moda también es 10, puesto que ese es el valor que más se repite; en el grupo C la moda es 4 o 16 (ambos valores con igual número de repeticiones).

Lo que diferencia claramente esos tres grupos es la variabilidad o dispersión de sus datos. Por eso las medidas de dispersión, que veremos a continuación, también contribuyen a la caracterización de un conjunto de datos, complementando a las medidas de centralización.

 

.

Licencia: dominio público. Fuente: Pixabay.