ConSinger revoluciona la síntesis de voz cantada

Los avances en el campo de la síntesis de voz cantada han dado un paso significativo con el desarrollo de ConSinger, un modelo de consistencia que permite generar voces cantadas de alta fidelidad con un mínimo de pasos. El equipo de investigación del Departamento de Ciencia y Tecnología de la Universidad Tecnológica de Beijing ha estado detrás de esta innovación, buscando superar las limitaciones de los modelos de difusión tradicionales que sacrifican la velocidad de inferencia para lograr muestras de alta calidad.

ConSinger actúa sobre la base del modelo de consistencia, eliminando la necesidad de un modelo maestro y utilizando solo una red de entrenamiento. Esto simplifica el proceso y mejora considerablemente la calidad de generación, incluso si ello implica una leve reducción en la velocidad de inferencia. Los experimentos realizados muestran que, en términos de calidad de generación y velocidad, ConSinger es altamente competitivo frente a modelos de referencia.

La arquitectura de ConSinger integra un codificador que convierte la partitura musical en una secuencia de condiciones de puntuación, complementado por un decodificador adicional que genera mel-espectrogramas de manera consistente. El núcleo del sistema, el CM-Denoiser, restaura los mel-espectrogramas de ruido gaussiano, dotando al modelo de una flexibilidad notable en requisitos de red.

Un sólido proceso de entrenamiento e inferencia es indispensable para el rendimiento óptimo del modelo. ConSinger toma muestras de ruido gaussiano de nivel T y predice los espectrogramas reales para entrenar la red. Además, procedimientos como el uso de un scorer estiman la calidad óptima de eliminación de ruido en los resultados generados, lo que respalda la efectividad del modelo al comparar los resultados con muestras de referencia.

A través de distintos ejercicios de comparación y mejora, se ha logrado que ConSinger supere las limitaciones de tiempo e inestabilidad presentes en otros sistemas. Comparativas efectuadas con modelos tangenciales como FFTSinger y DiffSinger acreditan un salto cualitativo en rendimiento y eficacia de ConSinger, que ahora exhibe una convergencia entre alta velocidad y resultados vanguardistas en la síntesis de voz cantada.

En resumidas cuentas, ConSinger afianza la consolidación de los modelos de consistencia en la síntesis de voz y nos recuerda que el campo sigue en constante evolución. Con un enfoque exhaustivo hacia el entrenamiento racional y metodologías innovadoras para la evaluación de calidad, el camino continúa pavimentándose hacia futuros logros en el ámbito de las tecnologías de voz sintética.

Solo noticias

y ya

ConSinger revoluciona la síntesis de voz cantada