4. Entrenamiento, test y validación de modelos

4.4. Generalización

Lo que buscamos con todo esto es que nuestro modelo haga una generalización de nuestros datos para poder realizar una buena predicción aunque los datos no sean conocidos. Como hemos visto, el algoritmo debe ajustarse a los datos de entrada lo suficiente para que la respuesta sea satisfactoria en todas las situaciones, incluidas las que son nuevas. La ecuación matemática que define un modelo puede ser tan simple como la ecuación de una recta o tan compleja como una ecuación matricial. Encontrar el equilibrio entre que el modelo se ajuste lo máximo posible a la realidad y la complejidad del modelo estadístico no es siempre fácil.

Si entrenamos un modelo de aprendizaje automático y al realizar el test en la fase de prueba no obtenemos los resultados deseados es que nuestro algoritmo no generaliza lo suficiente como para ser validado. Incluiremos esos datos en las etiquetas de un nuevo entrenamiento y haremos que el algoritmo mejore su inteligencia. El proceso lo debemos repetir las veces que hagan falta y siempre guardando una parte de los datos para realizar los test. Alcanzaremos el punto de equilibrio cuando el modelo reduzca su tasa de error y siga respondiendo de forma adecuada a los datos nuevos.

En el siguiente video podrás ver otro ejemplo en el que se ve como hace falta volver a repetir en entrenamiento porque el modelo falla en la predicción. Cuando seleccionamos imágenes para entrenar debemos tener muy en cuenta el fondo para no confundir al algoritmo.

INTEF (2021). Reciclaje. [vídeo] YouTube