Del conjunto total de datos que tenemos haremos dos subconjuntos, uno para entrenar al sistema de forma controlada y el resto, para realizar las pruebas y así poder comprobar que el resultado es el que esperábamos. Los algoritmos de aprendizaje automático aprenden de los datos con los que realizamos el entrenamiento. Es muy importante guardar una pequeña parte de los datos para posteriormente realizar el test de prueba, ya que si lo hacemos con el mismo conjunto de datos con el que hemos entrenado no lo estaremos validando realmente. Para poder comprobar que un modelo está funcionando debemos validarlo con un conjunto de datos diferente. Siempre que estemos trabajando con modelos de aprendizaje automático debemos tener los datos divididos en dos grupos.
Datos de entrenamiento: La calidad del modelo entrenado depende directamente de la calidad de estos datos. Correspondes aproximadamente al 70% del total de los datos.
Datos de prueba: Son los datos que reservamos para comprobar que nuestro modelo funciona. Es importante que estos datos representen una amplia variedad de situaciones. La cantidad de datos que guardamos será en torno a un 30% del total de los datos.