El algoritmo de clasificación se usa cuando utilizamos etiquetas para dividir los datos en categorías. También se utiliza en el aprendizaje supervisado cuando somos nosotros los que decidimos si un dato entra en una categoría o en otra cuando nos encontramos en la fase de entrenamiento. Un ejemplo sencillo que utiliza la clasificación es la detección del correo no deseado en nuestra bandeja de entrada. Las etiquetas en este caso serían “correo deseado” o “correo no deseado”. En algunos casos se nos pregunta y nosotros mismos podemos marcar un correo sospechoso como correo no deseado.
Pero la mayoría de las veces, el algoritmo de clasificación decide automáticamente si envía un correo a la bandeja de correos no deseados o no. La decisión la toma en base a tres variables: si el remitente es conocido o no, si el correo se nos envía solamente a nosotros o se envía a una gran lista de correo y si en el mensaje existe algún símbolo o lenguaje sospechoso.
Este método intenta buscar la mejor manera de clasificar un conjunto de datos. En este caso, nuestro modelo calcula la ecuación estadística que separa las diferentes clases. En el caso más sencillo, una línea recta diferenciaría a los correos deseados de los no deseados. La máquina de vectores de soporte es una técnica de aprendizaje automático que calcula la mejor posición de la línea que separa las dos clases.
Modelo de máquina de vectores. Obtenida de: Machine Learning Playground
Se llama máquina de vectores porque utiliza vectores para calcular el margen máximo de separación entre las clases. El modelo utiliza dos variables independientes y por eso tiene dos dimensiones y el modelo se representa con una recta. Podría ser, por ejemplo, la clasificación de los correos según si su remitente es conocido y si se envían a más personas. Si queremos añadir alguna variable más (si el contenido del mensaje es sospechoso) estaríamos añadiendo una dimensión más y nuestro modelo se representaría con un plano.
Cuando no es posible separar las diferentes clases mediante una línea recta, se utiliza una función Kernel. Esta función añade una nueva dimensión para hacer posible la separación de los datos, en el caso de tres dimensiones, por medio de un plano.
De la misma manera que en el ejemplo anterior puedes utilizar la herramienta Machine Learning Playgrounds para representar el modelo. Marca pulsando con el ratón los puntos de las coordenadas de nuestros datos. Para colocar puntos de otra clase diferente pulsa en “Current Class” y cuando lo tengas todos presiona el botón “Recalculate”. Deja el tipo de Kernel lineal para que dibuje una línea recta. Puedes probar con la distribución de datos que prefieras.
INTEF (2021). Ejemplo de Máquina de Vectores de Soporte [vídeo] YouTube
La herramienta Machine Learning Playgrounds se encuentra en la siguiente dirección https://mlplaygrounds.com/machine/learning/svm.html
Uno de los modelos de clasificación más utilizados en estadística son los árboles de decisión, los cuáles buscas dividir el conjunto de datos en categorías que sigan una cierta lógica. Cada una se va ramificando según las características que tengan los datos similares. De esta manera se van descartando las opciones hasta llegar a la solución del problema.
Es parecido al proceso que hacemos para reciclar la basura. Primero la separamos en orgánica e inorgánica. Después la basura que no es orgánica hay que volver a clasificarla dependiendo de si tiene vidrio, plástico o metal. Por último llegamos a la solución, que en este caso es el lugar donde tenemos que llevar cada uno de los diferentes residuos clasificados. El árbol de decisión es también una herramienta de ayuda en la toma de decisiones.
La profundidad de un árbol de decisión es el número de nodos o ramificaciones que forman el árbol. Cuantas más ramificaciones tenga, más complejo será la ecuación del modelo que lo define. En la figura 12 se muestra la representación de un modelo generado con la técnica de árbol de decisión y utilizando un árbol de tres nodos de profundidad.
Modelo de árbol de decisión. Obtenida de: Machine Learning Playground