Nuevo Horizonte en la Interacción de Modelos de Lenguaje a Través de Voz en Tiempo Real

Innovadora iniciativa en el campo de interacción multimodal, IntrinsicVoice, logra significativos avances en la reducción del tiempo de latencia para modelos de lenguaje (LLM) en interacciones de voz en tiempo real.

Investigadores de la Universidad de Fudan y del Laboratorio de Voz Tongyi en Alibaba han desarrollado IntrinsicVoice, un modelo de lenguaje natural (LLM) programado con capacidades intrínsecas de interacción por voz en tiempo real. Este avance aborda el problema común de la generación autoregresiva de texto antes de las respuestas de voz, lo cual genera una carga computacional excesiva y aumenta la latencia en los diálogos multiparte.

A través de su arquitectura de vanguardia, denominada GroupFormer, esta tecnología innovadora reduce las secuencias de habla a proporciones comparables con las de texto, aumentando así la velocidad de inferencia y minimizando los problemas asociados a una modelización de textos extensos.

Se logró recopilar un conjunto de datos extenso de diálogos de voz a voz llamado IntrinsicVoice-500k, que contiene alrededor de 500k turnos. Este conjunto de datos se utiliza para entrenar estrategias que mejoren la alineación semántica entre el habla y el texto. Los resultados experimentales han demostrado que IntrinsicVoice puede generar respuestas de voz de alta calidad con una latencia inferior a 100 ms en escenarios de diálogo multiparte.

Las técnicas tradicionales de modelos LLM que involucran la interacción por voz se basan mayoritariamente en paradigmas en cascada: donde un modelo de reconocimiento automático de habla transcribe la instrucción del usuario en texto, seguido de un modelo de síntesis de texto en voz. Desafortunadamente, este enfoque tiende a acumular errores, perder información paralingüística, y tener una mayor latencia.

En contraste, IntrinsicVoice tiene la capacidad de generar respuestas de voz directamente de instrucciones de voz, lo cual elimina la necesidad de traducción de texto. Esta arquitectura novata no autogenerativa predice grupos de tokens de voz en un único paso, basándose en los estados ocultos de salida del modelo de lenguaje.

Conclusión: IntrinsicVoice muestra un avance prometedor al permitir interacciones de voz en tiempo real, significando un gran paso hacia la aplicación diaria de modelos de lenguaje grandes en la vida cotidiana, haciendo las interacciones más fluidas y responsivas.

Solo noticias

y ya

Nuevo Horizonte en la Interacción de Modelos de Lenguaje a Través de Voz en Tiempo Real