Nueva Era en Códecs de Voz: MsCodec Revoluciona la Compresión a Bajas Tasas

Un nuevo avance en la compresión de voz a bajas tasas de bits podría revolucionar el campo del procesamiento de audio. El equipo detrás de este desarrollo, perteneciente a Tencent y a la Universidad de Correos y Telecomunicaciones de Pekín, ha propuesto un nuevo códec llamado MsCodec, diseñado para resolver problemas de redundancia de información que persisten en los códecs de voz a bajas tasas de bits actuales.

MsCodec introduce una novedosa estrategia de codificación en múltiples escalas, superando la codificación redundante de información dispersa que caracteriza a muchos de los métodos existentes que utilizan la Vectorización Cuántica Residual (RVQ). Esta técnica permite a los modelos decodificar las características de voz basándose en densidades de información variables a diferentes escalas de tiempo, mejorando así la eficacia de la compresión de datos.

En términos técnicos, el códec funciona generando representaciones de voz a diferentes escalas temporales: Z1 captura los detalles más finos, mientras que Z3 enfoca dependencias a largo plazo. Este sistema multi-capa es capaz de reducir la redundancia en los datos codificados mediante la incorporación de pérdidas de información mutua, lo que garantiza que los datos en diferentes escalas de tiempo sean más distintivos entre sí. Los experimentos han demostrado que MsCodec supera significativamente a los modelos basales como Encodec y HiFiCodec, sobre todo a bajas tasas de bits.

Los experimentos se llevaron a cabo con varias métricas de evaluación objetivas que incluyen la Distorsión Cepstral Mel y el UTMOS, y los resultados fueron contundentes: MsCodec exhibe un rendimiento notablemente superior frente a sus competidores en calidad de reconstrucción de voz.

Este códec, además de mejorar el rendimiento de compresión a bajas tasas de bits, ofrece una solución prometedora para la transmisión de audio tanto en ambientes con ancho de banda limitado como en sistemas de comunicación de baja latencia, lo cual podría influir significativamente en aplicaciones como la síntesis de voz y modelos de lenguaje.

El desarrollo de MsCodec representa un salto adelante para los códecs de voz, al emanciparse de la estructura de codificación repetitiva en favor de una estrategia adaptativa y escalonada. Es un avance que podría definir las técnicas futuras de compresión de datos de voz, ampliando los horizontes de transmisiones eficientes de audio tanto para usuarios como para sistemas de inteligencia artificial autónomos.

Solo noticias

y ya

Nueva Era en Códecs de Voz: MsCodec Revoluciona la Compresión a Bajas Tasas