3. Modelos de aprendizaje automático

3.3. Aprendizaje por refuerzo

El aprendizaje por refuerzo es el menos conocido y es un tipo de aprendizaje supervisado. Lo que se hace es que se ofrecen los datos sin etiquetar pero cuando el algoritmo ha tomado la decisión, se recompensa si esta ha sido exitosa. El comportamiento indeseado como errores de clasificación, simplemente es suprimido. En inteligencias artificiales que se especializan en jugar se utiliza este tipo de aprendizaje, entrenando a la máquina con contrincantes cada vez más expertos. También en la conducción autónoma se utiliza el tipo de aprendizaje por refuerzo. Imaginaros el caso en el que un coche autónomo se encuentra en una situación de emergencia, y tiene que decidir entre frenar bruscamente o atropella a un animal que ha cruzado la carretera. ¿Cuál seria la decisión que tomaría? Muy probablemente intentaría frenar o giraría el volante como cualquiera de nosotros, poniendo en peligro al ocupante del vehículo. Estas decisiones críticas se supervisan para que no ocurran accidentes inesperados.

Como resumen puedes ver este video de Google que habla sobre el aprendizaje de las máquinas.

OxfordSparks. (2017). ¿Qué es el aprendizaje automático? [vídeo] YouTube