Para realizar un aprendizaje supervisado hace falta un conjunto de datos conocidos y estructurado para enseñar a la máquina en una primera fase. De esta manera se generará un modelo o algoritmo que ha aprendido gracias a los datos que le hemos proporcionado. Se pretende generalizar o predecir en función de los datos que ya se conocen.
Un ejemplo muy típico es aprender a diferenciar entre perros y gatos. Nosotros los humanos realizamos esa categorización de forma automática. Simplemente, ¡sabemos que es un gato!. Pero si nos paramos a pensar un poco, nos daremos cuenta de que hay una serie de características que atribuimos a los gatos y otras diferentes a los perros. Para saber que es un gato podemos fijarnos en sus ojos de color claro, sus bigotes alargados, sus uñas afiladas, la forma lenta de moverse etc. Por otro lado, para saber si es un perro nos fijaremos en que su tamaño más grande, su hocico muy largo o si ladra. Para un ordenador no es tan sencilla la diferencia, primero tiene que analizar las imágenes y decidir si es un animal u otro. Muy probablemente, si le enseñamos un perro de raza chihuahua, la inteligencia artificial no acertará en su respuesta, si no ha visto algún chihuahua con anterioridad. Estos perros por pequeño tamaño se asemejan más a la fisiología de un gato.

¿Perros o gatos? Pixabay. Licencia: Pixabay.
Si se ha realizado el entrenamiento con los datos y al realizar la prueba estamos satisfechos con el resultado podemos dar por completado el modelo. Lo que suele pasar es que tengamos que repetir el proceso con un nuevo entrenamiento y otro test hasta que el modelo es capaz de reconocer al “chihuahua”. Para algunos casos puede ser más largo y complejo por lo que tendríamos que repetir varias veces el proceso y puede que no lleguemos observar las respuestas correctas.
En todo momento estamos supervisando el aprendizaje y descartando las respuestas incorrectas. El algoritmo se dice que está entrenado cuando es capaz de clasificar los datos según la lógica esperada. La clasificación puede ser por categorías como perro o gato, o por número como puede ser un algoritmo que adivine la edad de una persona por la foto. En este tipo de entrenamiento se utilizan las etiquetas para mostrar el modelo las respuestas que consideramos correctas. Otra característica que debemos tener en cuenta al entrenar un modelo de machine learning es que los datos de entrenamiento deben ser lo más variados posibles ya que, de lo contrario, aprenderá de reglas muy rígidas para tomar las decisiones.