Investigadores han desarrollado una técnica innovadora para mejorar la eficiencia de la percepción en vehículos autónomos utilizando la representación Bird’s Eye View (BEV). Esta metodología facilita la fusión de múltiples sensores, como cámaras y LiDAR, creando una capa de representación común que supera las técnicas de fusión convencionales. La nueva técnica se centra en un proceso de poda de entradas multi-modales, que elimina regiones no esenciales antes de ser procesadas por el modelo de percepción, sin sacrificar la precisión.
El enfoque se implementa tras evidenciarse que los métodos de BEV, aunque más efectivos, demandan altos recursos computacionales, limitando su aplicación práctica. Mediante BEV como anclaje, este proceso optimiza el espacio ocupando de los sensores, permitiendo entrenar modelos de percepción más eficientes. Así, se consigue reducir en un 35% la complejidad del modelo y disminuir la latencia de inferencia en un 31% sin comprometer el rendimiento.
Los experimentos realizados en el dataset NuScenes, dentro del ámbito de detección 3D y segmentación de mapas, demostraron que la técnica permite podar hasta el 50% de los datos de entrada redundantes. Los resultados colocan a este método en competencia directa con los métodos más avanzados, manteniendo la eficiencia en el pipeline de percepción vehicular.
Esta novedad, inspirada en mecanismos atencionales del sistema visual humano, prima la eficiencia del modelo al descartar regiones capturadas por los sensores que no son críticas para las tareas de percepción. Esto, sin duda, representa un hito en la optimización de los sistemas autónomos, facilitando su despliegue en entornos con recursos computacionales limitados. Al final, el enfoque sienta las bases para un modelo más ágil en términos de procesamiento, abriendo las puertas a nuevas aplicaciones en vehículos autónomos.