Trinity College Dublin revela nuevas métricas para privacidad de texto redactado

Investigadores de Trinity College Dublin presentan un enfoque innovador para evaluar la privacidad de textos redactados. Utilizando redes neuronales transformadoras avanzadas, el estudio propone un método para reconstruir textos originales a partir de sus versiones redactadas, buscando medir cómo los textos modificados pueden ser identificados o protegidos ante intentos de revelación.

El enfoque utiliza redes como BART, especializadas en tareas de procesamiento de lenguaje natural, para predecir palabras faltantes en textos censurados. Este sistema genera múltiples alternativas de textos completos que son gramaticales y plausibles aunque no siempre precisas en identificar la palabra exacta que fue redactada. Estas reconstrucciones se evalúan para determinar su similitud, diversidad y calidad, contribuyendo a definir un marco métrico de privacidad para los textos redactados.

El estudio subraya que evaluar la privacidad de textos redactados no es sencillo, ya que los contextos que rodean a las palabras eliminadas pueden ofrecer pistas para su reconstrucción. Aplicando técnicas de aprendizaje de máquina, los investigadores encontraron que, con más del 80% del texto redactado, las reconstrucciones tienden a perder calidad, lo que indica una pérdida significativa de información útil para el atacante y mayor protección de la privacidad.

Se realizaron experimentos sobre cinco datasets diferentes, incluyendo clasificaciones de noticias y reseñas de alimentos, validando el enfoque propuesto. Los resultados mostraron que cuando menos del 20% del texto está redactado, las reconstrucciones siguen siendo altamente precisas, dejando en evidencia que las herramientas de reconstrucción pueden recuperar información significativa a partir de incluso pequeñas cantidades de texto no oculto.

El estudio propone que a medida que aumenta el nivel de redacción, la precisión disminuye, sugiriendo que existe un umbral de redacción que puede proteger eficazmente contra ataques de reconstrucción: un descubrimiento clave para aumentar la seguridad del manejo de datos sensibles.

Este trabajo se considera un primer paso fundamental en la cuantificación de la privacidad textual utilizando medidas similares a la k-anonimato. Los investigadores reconocen que futuros desarrollos podrían centrarse en mejorar aún más las técnicas de protección para contextos específicos, como categorización de noticias o análisis de sentimientos, ofreciendo entendimientos más profundos de los desafíos de privacidad relacional en el siglo XXI.

Solo noticias

y ya

Trinity College Dublin revela nuevas métricas para privacidad de texto redactado