Revolucionaria técnica mejora el reconocimiento de voz multilingüe

La creciente necesidad de reconocer el habla en múltiples idiomas y en situaciones de cambio o mezcla de código ha impulsado el desarrollo de un nuevo enfoque de transliteración en dos etapas para sistemas de Reconocimiento Automático del Habla (ASR) multilingües. En un entorno tan diverso como el de la India, donde se hablan 22 idiomas oficiales con innumerables dialectos, los usuarios a menudo mezclan idiomas como el hindi, telugu, o nepalí con el inglés, creando un desafío significativo para los sistemas ASR convencionales.

El método propuesto utiliza un modelo de habla que puede aprender a representar internamente el contenido acústico-fonético de múltiples lenguajes, transcendiendo las barreras de los distintos sistemas de escritura. Para lograr esto, se entrenó un modelo de fin a fin sobre un conjunto de grafemas multilingües proyectados al alfabeto devanagari, lo cual permitió una reducción significativa tanto de la Tasa de Error de Palabra (WER) como de la Tasa de Error de Carácter (CER), logrando mejoras del 20% y 24% respectivamente.

En las primeras pruebas, se aplicó el sistema a las lenguas nepalí y telugu, que junto con el inglés, representan una parte sustancial de la mezcla lingüística en el subcontinente indio. El primer paso de la transliteración consistió en convertir el vocabulario de estos idiomas a un conjunto más limitado de fonemas, utilizando el guión devanagari como el intermediario, lo que permitió rescatar los sonidos fonéticamente similares para ser traducidos a una forma común de grafemas.

El siguiente paso de la transliteración se centró en transformar las formas dependientes de las vocales, conocidas como matras, a formas independientes. Esto permitió que el mismo sonido fonético se asociara con un único grafema, reduciendo la complejidad del vocabulario y mejorando notablemente la precisión del modelo ASR al mapear sonidos acústicamente similares a secuencias únicas.

Los resultados experimentales muestran una reducción del 22,4% en promedio en los errores reconocidos tanto a nivel de palabra como de carácter, lo cual es un avance prometedor para el desarrollo de sistemas ASR más eficientes y adaptativos en contextos multilingües complejos. Este enfoque de transliteración no solo mejora la precisión del reconocimiento de habla, sino que también elimina la necesidad de reentrenar modelos acústicos cuando se presentan datos lingüísticos superpuestos, ofreciendo una alternativa más flexible y escalable para los desarrolladores de sistemas ASR.

En conclusión, los avances tecnológicos presentados por este método podrían efectivamente transformar los sistemas de reconocimiento de habla multilingües, haciendo que sean más robustos frente a la diversidad lingüística y a la mezcla de códigos, facilitando así la comunicación en comunidades multiculturales. La fusión de múltiples idiomas en un solo flujo de trabajo es ahora un objetivo más tangible.

Solo noticias

y ya

Revolucionaria técnica mejora el reconocimiento de voz multilingüe