Los modelos matemáticos que se generan cuando estamos trabajando con el aprendizaje automático de una IA, dependen de unas variables de entrada, Estas variables son los datos que vienen del mundo real que queremos modelar. Los modelos estadísticos tienen como fin último explicar o predecir la realidad. En los modelos clásicos de estadística existen variables dependientes y variables independientes que se relacionan por medio de una ecuación matemática.

Además, existen otros factores o causas que no se pueden controlar y que influyen en el valor final de la variable dependiente. Como ejemplo, en el gasto de luz mensual, la variable dependiente sería el precio de la factura y la variables independiente sería el precio del Kw/h. El precio final que pagaremos depende de más factores o causas que no se pueden controlar como la avería de algún electrodoméstico o el mal funcionamiento del contador de luz y a esta parte incontrolable la llamaremos error. Si todos los meses pagamos 60 € en nuestra factura de la luz podemos llegar a “predecir” que la siguiente factura será del mismo valor. Si la factura que nos llega es de 80 € puede ser por dos razones: el precio del Kw/h ha subido o ha habido algún error en la factura.
Para que el modelo que utilizamos se ajuste a la realidad, el error debería ser del menor valor posible. En un mundo ideal, este error sería cero, pero en la realidad esto nunca sucede. El error es la diferencia entre el valor observado y el valor de la predicción del modelo.
Este es otro concepto que es importante tener claro cuando hablamos de la estadística. Es el conjunto de datos que se obtienen cuando tomamos una muestra de algo que queremos estudiar. Si medimos durante varios días la temperatura del ambiente, obtendríamos varios valores con los que poder representar la variación que tiene en un período de tiempo. Como es lógico, no haremos mediciones constantemente a cada segundo. Realizaremos una o dos mediciones que asignaremos a un día y poder ver la evolución a largo plazo. A estas mediciones las llamamos muestras.
También estamos realizando un muestreo cuando anotamos las notas de nuestro alumnado, que representa el aprendizaje realizado por cada uno hasta ese momento concreto del curso. Si hemos realizado tres exámenes, tendremos tres muestras de la evolución de cada alumno. En el último trimestre, al finalizar el curso, haremos recopilación de todas esas notas y tendremos fotografía clara de la evolución que ha llevado cada alumno desde que comenzaron las clases.
Sin embargo, cuando hablamos de muestra, estamos hablando del conjunto de población o individuos que hemos incluido para representación. Si realizamos un examen, y ese día acudieron a clase a 28 alumnos, la muestra que hemos recogido es de 28. En una encuesta de calidad realizada a 200 alumnos, la muestra recogida es 200.
La población es el conjunto de individuos, animales, objetos, mediciones o acontecimientos que tienen características en común y que se quieren estudiar. En nuestro anterior ejemplo, si realizamos una encuesta de calidad queremos estudiar la satisfacción de todos los alumnos que acuden al centro (que pueden ser unos 1200) y que por ser un número elevado no es viable realizar la encuesta a la totalidad de esa población en estudio.