2. Introducción a la estadística

2.3. Ejercicios

Para dejar claro los que hace realmente un modelo matemático de aprendizaje automático, vamos a ver un ejemplo sencillo y a calcularlo por nosotros mismos.

Predicción del precio de un viaje en taxi

Vamos a tener que viajar en taxi entre dos puntos de la ciudad de Madrid separados por 10 Km y queremos calcular cuanto nos costará el servicio antes realizarlo. ¿Cómo podemos calcularlo? Pues vamos a pensar en qué variables son las que debemos de tener en cuenta. El precio de una carrera depende de la distancia que vayamos a recorrer y la distancia la sabemos y no depende de ninguna otro variable. Ya hemos identificado la variable dependiente y la independiente de nuestro modelo.

  • Y = precio de la carrera.
  • X = kilómetros recorridos.

¿Qué relación tienen estas variables entre sí? El precio final de la carrera depende de los kilómetros recorridos. Si preguntamos a un taxista por el precio de un viaje, nos informa de que el precio es de 1,26 € por cada kilómetro y que la bajada de bandera nos costará 3 € adicionales.

En nuestra ecuación multiplicaremos la cantidad de 1,26 por los kilómetros que vamos a recorrer en el trayecto. En nuestro caso la variable X es igual a 10 Km.

  • Y = 1,26 * X

Por último, le vamos a sumar a la ecuación anterior el coste de la subida de bandera que son 3 €.

  • Y = 3 + 1,26 * X

Con estos pasos ya hemos creado nuestro modelo de aprendizaje para predecir el precio de cualquier viaje en taxi dentro de nuestra ciudad. Si hacemos los cálculo obtenemos que la carrera nos costará 15,6 €. Este modelo nos seguirá funcionando para calcular otros recorridos, siempre que el precio por kilómetro no sufra variaciones.

Hemos creado la ecuación del modelo por deducción y a partir de los datos que teníamos. Esto no siempre es posible porque el cálculo puede ser mucho más complicado. Otra manera de obtener la ecuación sería, a partir de muestras varios viajes anteriores. Esto lo hacemos también en nuestra vida cuando le preguntamos a algún amigo ¿cuanto te ha costado el taxi al aeropuerto desde tu casa?, y basándonos en su respuesta nosotros hacemos una estimación aproximada de los que nos costaría el trayecto desde nuestra casa.

Predicción de las ventas de un negocio

Ahora, supongamos que queremos anticiparnos a cuál será la cantidad de ventas que tendrá un negocio que tenemos abierto desde hace 10 años, una tienda de electrónica llamada TiendaTIC. Esta tienda de electrónica ha ido guardando la cantidad de ventas durante todo este tiempo desde 2012, sumando las ventas nuevas cada año y a la anteriores. Los valores recogidos han sido los siguientes:

En estos datos podemos reconocer que hay una variable independiente que es el año en el que se producen las ventas, que no depende de ningún otro valor y que llamaremos X. Además, tenemos una variable dependiente que es la cantidad de ventas en euros que se realiza cada año y que está asociada a un valor de X concreto. A este variable la llamaremos Y.

Por ejemplo, cuando X vale 2012 el valor de las ventas es 2000, o dicho de otro modo, el valor de Y es 2000. Con todos estos datos vamos a hacer una representación gráfica en la que mostraremos los valor de la X en el eje horizontal y los valores de Y en el eje vertical. Nuestros valores quedaran representados como una serie de puntos en la siguiente gráfica.

Cantidad de ventas en euros desde que se fundó la empresa.

Vemos que los puntos siguen una cierta tendencia. Cuando se crea un modelo estadístico con técnicas de aprendizaje automático lo que se hace en realidad en calcular los puntos que hay entre medias de esas muestras. Se hace una estimación de los datos de los que no tenemos ningún valor. La siguiente imagen muestra la línea que genera un modelo sencillo de machine learning.

Modelo de predicción para las ventas de un negocio

Esta línea es en realidad, una ecuación matemática que relaciona la variable independiente o X con la variable dependiente o Y. La misma ecuación que vimos anteriormente cuando hablamos de los conceptos de estadística. El cálculo de esa recta se estudia en los últimos cursos de la E.S.O. y es un concepto que suele ser difícil de entender para los alumnos. Con sólo utilizar dos de los puntos que pasen exactamente por la recta, podremos definir la ecuación matemática del modelo. Utilizaremos los puntos P1(2014, 6000) y P2(2020, 18000).

Ahora solo nos que sustituir los valores de los puntos que hemos elegido, sabiendo que cada uno de los puntos tiene la forma: P1 (X1,Y1) y P2 ( X2,Y2).

Realizando los cálculos y despejando la ecuación final sería la siguiente.

Ahora que ya tenemos la ecuación de nuestro modelo predictivo vamos hacer la estimación de las ventas que habremos hecho para el año 2021 y para el año que queramos estimar. Solo tenemos que sustituir el valor de X por el año del que queramos predecir las ventas.

Según nuestro modelo, en el año 2021 habremos vendido un total de 20.000€ en productos informáticos en nuestro establecimiento TiendaTIC desde la fecha de su fundación en 2021.

La estadística está en todas partes y puede explicar muchos fenómenos de la naturaleza como se muestra en el siguiente vídeo.

Google (2019). How machine learning is being used to help save the world’s bees [vídeo] YouTube