ALDAS revoluciona la detección de audio falso con características lingüísticas automáticas

La detección de audio manipulado mediante inteligencia artificial es un campo en crecimiento que busca proteger al público de los peligros de la desinformación y el fraude. En este sentido, el marco ALDAS ha sido diseñado para etiquetar de manera automática las características lingüísticas de clips de audio, mejorando la detección de fraude auditivo. Este sistema es especialmente valioso dado el creciente uso de audios falsos generados por IA -los conocidos como “deepfakes”- con fines maliciosos, como lo fue el uso de software para imitar la voz de un CEO y estafar fondos en 2019.

Los métodos tradicionales para detectar audios falsificados a menudo dependen en gran medida de características acústicas palabras en inglés comúnmente utilizadas, examinadas por expertos en sociolingüística para afinar la habilidad de los modelos en detectar irregularidades. Sin embargo, el proceso manual de anotación limita la cantidad de datos de entrenamiento.

La metodología ALDAS aprovecha modelos de redes neuronales profundas como VGGish, preentrenados en millones de videos online, para etiquetar automáticamente tres características lingüísticas: la presencia o ausencia de respiración, producción anómala de tono, y calidad de audio. Está diseñado para mejorar el sistema de detección automática de audio falso mediante una red convolucional que se alimenta de las características etiquetadas por estos expertos.

A través de pruebas en conjuntos de datos no escuchados previamente por los expertos, los resultados demuestran que a pesar de no superar a las características lingüísticas evaluadas manualmente, ALDAS mejora significativamente las líneas de base comunes del detector ASVspoof 2021. El modelo es apto para etiquetar tipos de voz tanto generados por IA como por métodos humanos de imitación.

Cabe resaltar que estos avances se consideran vitales para abordar el creciente desafío que representan los medios falsos, específicamente en el ámbito del audio, donde el alto realismo de los “deepfakes” dificulta discernir la veracidad del contenido.

En conclusión, ALDAS no sólo establece un camino para etiquetar características lingüísticas automáticamente, sino que también resalta la importancia de la colaboración interdisciplinaria entre linguistas y desarrolladores de IA. Esto no sólo refuerza la capacidad del sistema para identificar las anomalías en el sonido, sino que representa un paso hacia la integración de características más precisas y automáticas en modelos de detección de audio profundo.

Solo noticias

y ya

ALDAS revoluciona la detección de audio falso con características lingüísticas automáticas