Investigadores del Instituto de Tecnología de Karlsruhe han desarrollado un modelo avanzado de conversión de acentos (AC) que no solo persigue transformar el acento de los hablantes no nativos para que suenen más nativos, sino que también mejorar su pronunciación. Esta iniciativa intenta resolver el reto que enfrentan muchas personas que aprenden un segundo idioma, donde la pronunciación incorrecta y el acento pueden afectar la comprensión.
La innovación principal de este enfoque es el uso de un sistema de síntesis de texto a voz (TTS) que fue entrenado exclusivamente en voces nativas. Este sistema genera datos de audio base con pronunciación nativa perfecta, utilizando el end-to-end VITS framework. Lo atractivo de este modelo es su capacidad para mantener la identidad original del hablante mientras mejora notablemente la pronunciación del acento no nativo.
El método se centra en convertir los acentos sin la necesidad de tener una referencia de pronunciación y se basa en arquitecturas no autorregresivas. Este enfoque ayuda a desglosar características de la voz como identidad del hablante, contenido, prosodia y acento de una manera que permite aislar y recombinar las partes necesarias para mejorar la pronunciación. Esto es posible gracias a la representación del contenido mediante características de cuello de botella extraídas de modelos pre-entrenados de autoaprendizaje supervisado.
Experimentaciones previas han demostrado que el sistema puede producir audios que se asemejan mucho a acentos nativos y al mismo tiempo retienen la identidad del hablante original. Los tests realizados han mostrado una mejora en la calidad de las conversiones, destacando tanto en la inteligibilidad como en la semejanza con las voces originales de los hablantes.
Lo más notable es el uso del VITS framework para alinear de forma más sencilla el audio con el texto, eliminando la necesidad de un vocoder por separado para convertir espectrogramas a onda de sonido. Este avance no solo mejora la sincronización sino que también optimiza la eficiencia del entrenamiento.
En el marco experimental, los modelos fueron probados con éxito utilizando datos que comprenden una variedad de acentos y modificado para incluir muestreos de múltiples hablantes nativos, asegurando que la conversión conserve características como duración y prosodia específicas del hablante original, aún después de la mejora pronunciada en el acento.
Esta investigación promete revolucionar las interacciones donde habitualmente hay barreras de idioma, brindando una herramienta poderosa para mejorar las capacidades comunicativas de los hablantes no nativos en su aprendizaje del inglés como segundo lenguaje.