Solo noticias

y ya

martes 22 de de 2024

Nuevo Algoritmo Eleva la Precisión del Aprendizaje Robótico con Escasas Demostraciones

Un nuevo algoritmo de aprendizaje por refuerzo continuo de offline a online (O2O RL) ha demostrado una notable eficacia en el ámbito de la robótica de manipulación con imágenes. En este estudio, realizado en colaboración por investigadores de la Universidad de Alberta y la empresa Ocado Technology en Canadá, una tecnología innovadora fue capaz de realizar tareas de agarre robótico utilizando un número escaso de demostraciones humanas.

Este método alternativo supera las limitaciones tradicionales asociadas al aprendizaje por clonación de comportamiento (BC), que tiende a fallar debido al cambio de distribución cuando hay pocas demostraciones disponibles. El enfoque propuesto, llamado Simplified Q, incorpora una técnica de regularización inspirada en el kernel tangente neuronal, lo que resultó en más del 90% de éxito en menos de dos horas de interacción. El hallazgo es particularmente relevante cuando se compara con otros algoritmos de refuerzo existentes, que no lograron un rendimiento similar.

Además, se logró una importante simplificación en el proceso de aprendizaje al eliminar la red de objetivos que es típica en algoritmos actor-crítico fuera de política, sustituyéndola con regularización de kernel, lo cual ha demostrado ser una herramienta eficaz para manejar la divergencia de Q-valores y estabilizar el aprendizaje. Este avance no solo mejora la eficiencia del aprendizaje, sino que también minimiza riesgos y costos asociados con fallas catastróficas durante la exploración robótica.

Los investigadores también comprobaron que el preentrenamiento de la base visual no es necesario para transferencias de offline a online efectivas, lo cual puede optimizar los recursos y tiempos de entrenamiento en sistemas robóticos reales. La investigación apunta hacia un futuro donde la robótica de manipulación pueda expandirse a tareas más complejas y variadas utilizando menor cantidad de datos y tiempos de ajuste más cortos.

En conclusión, el desarrollo de este algoritmo podría reformular la forma en que se enfoca el aprendizaje por refuerzo en tareas robóticas reales, promoviendo una adopción más amplia de tecnologías robóticas con aprendizaje adaptativo continuo y eficiente.