Solo noticias

y ya

miércoles 23 de de 2024

Whisper: Innovador modelo de transcripción musical

Investigadores de las universidades de Ciencia y Tecnología de China han desarrollado un innovador modelo de Transformer basado en la metodología Whisper, dirigido a la conversión de audio musical en partituras escritas, utilizando la notación ABC. Este avance propone una solución a la complejidad existente en la transcripción musical, particularmente para los entusiastas de la música que carecen de formación profesional en reconocimiento de melodías y acordes.

El modelo Whisper, preentrenado originalmente para reconocimiento de voz, ha sido adaptado para procesar información musical. Este cambio permite deducir partituras musicales completas a partir de audios, con una precisión y desempeño significativamente mejorados cuando se compara con algoritmos tradicionales.

Un aspecto crucial de este desarrollo es el método “Orpheus’ Score”. Esta nueva forma de notación convierte la información musical en tokens específicos, facilitando el proceso de tokenización necesario para la adaptación del modelo al contexto musical. La creación de una biblioteca de vocabulario especializada y un tokenizador a medida han sido clave para alcanzar mínimas tasas de error en la generación de las partituras.

Para robustecer la eficacia del modelo, se han configurado diferentes experimentos, donde se destaca la importancia del aprendizaje débilmente supervisado utilizando 680,000 horas de datos de música. A través de procesos de limpieza, mutación y conversión de datos, se han generado modelos que garantizan mayor diversidad y calidad en la entrada de datos, enfocándose siempre en mantener la coherencia tonal dentro de las partituras.

El “Orpheus’ Score” presenta una transformación exhaustiva del formato de datos, ajustando, por ejemplo, todas las claves musicales a C mayor y normalizando las divisiones rítmicas para optimizar el entrenamiento del modelo. Un mecanismo de mutación permite una variación musical que emula el proceso creativo humano, robusteciendo la diversidad de los segmentos generados.

Los resultados muestran una mejora del 13.1% en la exactitud del modelo utilizando un proceso de muestreo gaussiano, método que se aplicó al generar un conjunto de 150,000 partituras ABC. Estas fueron utilizadas para entrenar modelos Transformer con diferentes configuraciones de codificadores y decodificadores.

La conclusión del estudio resalta que, tras evaluar varias arquitecturas, la configuración de 4 codificadores y 4 decodificadores del Transformer brindó la mejor percepción cualitativa en pruebas. Aunque el modelo preentrenado Whisper tuvo cierta sinergia con el reconocimiento musical, la investigación optó por un diseño de modelo autónomo y especializado, facilitando la implementación en dispositivos de menor capacidad computacional.,"

El desarrollo de esta herramienta, además de aportar un recurso valioso y accesible para aficionados a la música que buscan transcribir canciones, proporciona nuevas perspectivas investigativas en el campo del procesamiento de información musical.