Saltar la navegación

Medidas de correlación

Las medidas de correlación se aplican a los valores que toman dos variables distintas en cada uno de los elementos de una muestra, y expresan si ambas variables varían a la vez, es decir, si los valores de una son más altos o bajos cuanto más altos o bajos son los de la otra. Si los valores de ambas variables aumentan o disminuyen a la vez, su correlación es positiva; en cambio, si los valores de una variable aumentan cuando los de la otra disminuyen, o viceversa, su correlación es negativa. Si las variables cambian de manera independiente una de la otra, no hay correlación entre ellas.

La pareja de valores de un elemento dado puede representarse como un punto en un plano cartesiano, en cuyo eje horizontal se sitúa el valor de una de las variables (x) y en el eje vertical se sitúa el valor de la otra variable (y). El conjunto de elementos de la muestra queda representado entonces por una nube de puntos, y la correlación se evidencia si esa nube se aproxima a la forma de una línea recta, con distinta orientación según se trate de una correlación positiva o negativa. Si los puntos se sitúan exactamente sobre una recta, la correlación es perfecta, pero lo habitual es que tengan una cierta dispersión en torno a ella.

EJEMPLO

Se miden las variables estatura y peso de un conjunto de personas. Es de esperar que entre ambas variables exista una correlación positiva, porque las personas con mayor estatura suelen tener también mayor peso, y las de menos estatura, menor peso. Sin embargo, esta relación no es estricta, porque puede ocurrir que una persona más baja que otra tenga mayor peso, o al revés. La correlación, por tanto, no será perfecta, pero seguirá siendo bastante alta. En general, la correlación describe una tendencia, no una dependencia estricta.

Si las parejas de valores de estatura y peso se representan en un diagrama cartesiano, la nube de puntos que aparece será alargada, tendiendo a seguir la forma de una línea recta con pendiente positiva, es decir, conforme aumenta la estatura aumenta también el peso, o viceversa. En esa nube se puede trazar gráficamente la recta de tendencia (línea roja).

.

 

Para cuantificar el grado de correlación entre dos variables se puede calcular su covarianza, que expresa la dispersión de los valores (al igual que lo hace la varianza), pero de las dos variables a la vez:

.

La covarianza es más alta cuanto mayor es la dispersión en torno a las medias de cada una de las variables (mx y my), pero eso es algo que no está estrictamente relacionado con su variación conjunta, es decir, con su correlación. Para eliminar el efecto de la dispersión de cada variable por separado, se puede dividir la covarianza entre la desviación típica de cada variable (sx y sy), que es precisamente la definición del coeficiente de correlación de Pearson:

.

Esta medida de correlación cuantifica el grado en que dos variables cambian conjuntamente, es decir, el grado en que se agrupan en torno a una cierta recta de tendencia.

El coeficiente de correlación varía entre -1 y +1, límites que expresan una correlación perfecta; gráficamente, los puntos que representan los pares de valores se situarían exactamente sobre una recta. Los valores del coeficiente de correlación próximos, pero no iguales, a -1 o +1, indican una alta correlación, y su signo indica si la correlación es positiva o negativa. Valores del coeficiente bajos, especialmente si son cercanos a 0, indican ausencia de correlación, es decir, los valores de ambas variables varían de manera independiente.

En la siguiente figura aparecen distintas nubes de puntos para mostrar gráficamente los diversos grados de correlación, indicando además en cada caso el valor del coeficiente rxy. En la primera fila se observan distribuciones con diferentes grados de correlación. En la segunda fila, la correlación en todos los casos es perfecta; el signo del coeficiente, como en la fila superior, depende de la orientación de la recta de tendencia; en la figura central una de las variables (la del eje vertical) no varía y no se puede establecer la correlación. En la tercera fila aparecen nubes de puntos variadas con correlaciones muy bajas o nulas.

 

.

Licencia: dominio público. Fuente: Wikimedia Commons.

  

Para una nube de puntos que muestra cierta correlación puede obtenerse la recta de tendencia que mejor se ajusta a todos los puntos. Matemáticamente, se calcula minimizando las distancias al cuadrado de cada uno de los puntos a la recta, de donde se obtiene la ecuación de la denominada recta de regresión, que relaciona los valores de una de las variables (x) con los valores de la otra (y):

y = a x + b

El parámetro a es la pendiente de la recta, y se calcula como:

.

Por su parte, el parámetro b es la ordenada en el origen de la recta, y se calcula como:

.La recta de regresión se puede calcular para cualquier conjunto de pares de datos, pero no tiene sentido hacerlo cuando la correlación es muy pequeña o nula, es decir, cuando la nube de puntos es amorfa. El cálculo del coeficiente de correlación o de la pendiente y la ordenada en el origen de la recta de regresión resultan algo tediosos a partir de las fórmulas dadas aquí. Lo habitual es calcularlas en un ordenador usando un programa que tenga almacenadas funciones estadísticas, en el que únicamente hay que introducir los datos de la muestra.