Investigadores del Instituto Mila – Quebec AI han propuesto un método innovador para optimizar el aprendizaje por refuerzo a través de la abstracción de acciones. Este enfoque busca resolver las dificultades en la asignación de crédito y exploración en redes de flujo generativo (GFlowNets) y en métodos de RL de alta entropía, donde las largas trayectorias complican el descubrimiento generalizado de estados de alta recompensa. La solución implica la creación de acciones de alto nivel, derivadas de subsecuencias de acciones comunes en trayectorias exitosas, que se incorporan al espacio de acciones.
Esta metodología incluye técnicas de tokenización que generan subrutinas a partir de muestras de trayectorias. El proceso se realiza de manera iterativa, integrando nuevas acciones abstractas en la política de entrenamiento, lo que ha demostrado una mejora significativa en la eficiencia de muestreo y descubrimiento de objetos diversos de alta recompensa, particularmente en ambientes de exploración complejos.
En pruebas empíricas realizadas en entornos sintéticos y del mundo real, tales como la generación de secuencias de RNA, se observó que las acciones de orden superior emergieron como fácilmente interpretables, reflejando la estructura latente del paisaje de recompensas. Implementaciones adicionales mejoraron la estimación de densidad y redujeron la longitud de descripción de las muestras, insinuando beneficios potenciales para la planificación jerárquica en problemas secuenciales complejos.
Estos adelantos se apoyan en la literatura psicológica sobre “chunking” y en trabajos previos en aprendizaje automático, donde los “macro-actions” ya han demostrado potencial para acelerar el aprendizaje al permitir secuencias temporales extendidas. La metodología propuesta aquí se mostró robusta al transferirse a diferentes algoritmos y tareas, proponiendo un enfoque para muestrear objetos discretos que adapta los samplers existentes mediante un paso de descubrimiento de abstracciones de acción.
Las contribuciones centrales de esta investigación destacan la compatibilidad y costo mínimo de integración con cualquier sampler, demostrando un efecto acumulativo positivo en diversidad muestral y eficiencia en entornos complejos, proporcionando asimismo una base para futuras investigaciones y potenciales aplicaciones en inducción de programas y generación de código.