Solo noticias

y ya

lunes 14 de de 2024

Iniciativa internacional aborda la legibilidad del árabe

En un esfuerzo por entender mejor la complejidad de la legibilidad del texto árabe, un equipo internacional de investigadores ha desarrollado el Corpus de Evaluación de Legibilidad del Árabe Balanceado (BAREC). Este corpus, iniciativa del laboratorio de aproximaciones computacionales al modelado del lenguaje de la Universidad de Nueva York Abu Dhabi, busca estandarizar la evaluación de la legibilidad de textos árabes a nivel de oración.

El corpus BAREC ha sido diseñado considerando las intricadas características lingüísticas del árabe, que incluyen una morfología rica y un léxico expansivo, además de una ortografía altamente ambigua. La intención es representar una amplia gama de géneros, temas y variaciones regionales, alineados con 19 niveles de legibilidad diferentes que van desde el nivel de jardín de infancia hasta un nivel de comprensión de posgrado.

Basado en el marco de referencia Taha/Arabi21 (Taha, 2017), BAREC tiene como misión ofrecer recursos y herramientas para evaluar con precisión la legibilidad de textos árabes, combinando anotación manual y herramientas impulsadas por inteligencia artificial. El equipo ha logrado un acuerdo sustancial inter-anotador del 79.9% al medir la concordancia con el coeficiente kappa ponderado cuadrático, validando así la efectividad de sus directrices para anotación.

En sus esfuerzos, los investigadores analizaron detenidamente un corpus único compuesto por 10,631 frases/segmentos (113,651 palabras), y reportaron éxitos significativos en la evaluación automática de la legibilidad. Los recursos y directrices resultantes estarán disponibles públicamente para fomentar la investigación y la educación del idioma árabe.

Es destacable que hasta el momento han logrado ensamblar un corpus balanceado con datos provenientes de diversas fuentes como currículos educativos, libros, entradas de Wikipedia, textos generados por herramientas como ChatGPT y documentos internacionales, entre otros. En el proceso de construcción del corpus, el equipo ha enfrentado varios desafíos, entre ellos, la diversidad del mundo árabe en términos de religiones, etnias y dialectos, intentando reflejar esta diversidad en sus anotaciones.

El BAREC constituye un avance notable hacia una estandarización más objetiva de la legibilidad en textos árabes, facilitando así un mejor entendimiento y enseñanza del idioma a través de diversos niveles de competencia. Al hacer estos recursos accesibles libremente, el equipo no solo busca mejorar la alfabetización y el aprendizaje del idioma, sino también ayudar en la consecución de logros académicos.

Al final, lo que se espera es que BAREC, en su continuo crecimiento y mejora, se convierta en una herramienta invaluable no solo para investigadores y educadores, sino también para constructores de modelos automáticos de evaluación de legibilidad que contribuyan a una alfabetización cada vez más sofisticada y adaptada a las necesidades culturales y educativas del mundo árabe.