Este es un algoritmo de aprendizaje supervisado muy utilizado en estadística. Ya hemos visto en anteriores ejemplos los modelos de regresión que no son más que modelos matemáticos que se encargan del estudio de la relación entre unas variables que son dependientes con las otras variables que son independientes. A la ecuación que representa esta relación se le llama modelo de regresión. La intención del estudio es averiguar el impacto que pueden tener unas variables sobre otras que dependen de ellas. El modelo más característico de regresión es el de regresión lineal.
La regresión lineal es la línea recta que mejor encaja con evolución de todos los valores numéricos que se pueden representar. Es la línea que sigue la tendencia de la variable Y, cuando vamos variando los valores de la variable X. La recta dibujada será la que menor distancia tenga a todos los puntos de la gráfica. También se le llama método de mínimos cuadrados por el nombre de la ecuación que utiliza.
Modelo de regresión lineal. Obtenida de: Wikipedia
Las
predicciones de los valores de la bolsa se basan en este modelo para
mostrar las gráficas que representan la cotización a largo plazo.
Otro ejemplo, en el que se utiliza este algoritmo, es un la predicción
de la temperatura a partir de varias mediciones realizadas. Cuando
solo utilizamos una variable Y que depende de una sola variable X,
al modelo resultante se le llama modelo de regresión lineal
simple. Si en nuestro modelo utilizamos dos variables
independientes como pueden ser el tiempo y la humedad (X1,
X2) estaríamos hablando de regresión lineal múltiple,
y nuestro modelo matemático estaría representado por un plano en
lugar de una recta.
Para que puedas ver como una máquina calcula la línea recta que más se ajusta al conjunto de datos que tenemos, puedes utilizar la herramienta Machine Learning Playgrounds. Marca pulsando con el ratón los puntos de las coordenadas de nuestros datos (la X para el eje de horizontal y la Y para el eje vertical) y presiona el botón “Recalculate” para ver gráficamente en acción el método de los mínimos cuadrados que calcula el lugar exacto de la recta. Puedes probar con la distribución de datos que prefieras.
INTEF (2021). Modelo de regresión lineal [vídeo] YouTube
La herramienta Machine Learning Playgrounds se encuentra en la siguiente dirección https://mlplaygrounds.com/machine/learning/linearRegression.html
Como todos los problemas no se puede solucionar con una simple línea recta, existen otros modelos que intentan predecir el comportamiento de un conjunto de datos con líneas curvas. Los procesos gaussianos utilizan funciones de probabilidad como la media o la varianza para generar un modelo predictivo a partir de los datos. Más concretamente el algoritmo utiliza un vector de medias y una matriz de covarianzas para realizar la estimación de la distribución de unas variables aleatorias. En definitiva, nuestros datos se pueden representar mediante una distribución gaussiana que es el modelo calculado gracias a los procesos gaussianos.
Sin entrar a explicar complejas cálculos matemáticos con matrices, vamos a ver gráficamente qué es lo que hace este modelo y por qué se ajusta con mayor exactitud a cualquier conjunto de datos que tengamos generalizando el resultado. Por ejemplo, si medimos el clima en varios puntos del país, guardando datos de temperatura, humedad y viento. Utilizando el algoritmo de proceso gaussiano podremos generalizar a todo el territorio y predecir el clima en todo el territorio.
Utiliza la herramienta anterior para marcar puntos aleatorios que serán nuestros datos de trabajo, puedes distribuirlos como quieras en el espacio. Por medio del proceso gaussiano se encontrará una ecuación matemática que represente a todos esos datos. Marca al menos diez o veinte puntos y pulsa el botón “Recalculate” para ver gráficamente el modelo que se genera. ¿Se adapta al conjunto de datos que le has suministrado?
La herramienta Machine Learning Playgrounds se encuentra en la siguiente dirección https://mlplaygrounds.com/machine/learning/gaussianProcesses.html