Solo noticias

y ya

lunes 14 de de 2024

Los desafíos y promesas de los datos sintéticos en entornos críticos

El estudio reciente liderado por investigadores de la Universidad Johns Hopkins y la Universidad Carnegie Mellon ha puesto el foco en las limitaciones y potencialidades del uso de datos sintéticos generados de manera diferencialmente privada para su aplicación en sectores críticos. Estos datos sintéticos pretenden sustituir a los reales en áreas como la salud y los servicios sociales, donde la privacidad de la información es crucial. El objetivo es garantizar que las operaciones de procesamiento de lenguaje natural (NLP) puedan seguir avanzando sin comprometer la privacidad de los datos sensibles involucrados.

Las evaluaciones del estudio resaltan que, aunque el uso de datos sintéticos muestra algunas promesas, existen notables desafíos en cuanto a la utilidad, privacidad y equidad de estos datos en comparación con los datos reales. Las investigaciones anteriores no lograban capturar plenamente estos problemas debido a evaluaciones simplistas, lo que ha llevado a sobreestimar la viabilidad actual de los datos sintéticos.

Los modelos de lenguaje diferencialmente privados utilizados en el estudio permiten generar datos textuales que imitan la estructura de datos reales, pero no se deshacen completamente del riesgo de filtración de información sensible. Así, aunque se logran niveles de privacidad teóricos aceptables, hay evidencia de degradación en la calidad y utilidad de estos datos cuando se aplican a tareas más complejas.

En el caso de los sistemas de salud, por ejemplo, aunque los datos generados llegan a ser útiles en tareas más simples, en tareas que requieren una etiqueta multicategoría, se observa una degradación significativa en los resultados del modelo. Asimismo, el estudio también demuestra que, a pesar de las técnicas de privacidad implementadas, y como lo señalaron otros trabajos, algunas formas de entidades privadas continúan siendo filtradas.

En cuanto a la equidad, los modelos entrenados con datos sintéticos mostraron diversas fluctuaciones en el rendimiento a través de subgrupos demográficos. Esto plantea nuevas interrogantes en relación a cómo estos enfoques pueden afectar de manera desigual a diferentes grupos.

Concluyendo, el estudio deja en claro que aunque el uso de datos sintéticos puede ser prometedor, aún hay un largo camino por recorrer en su evaluación y mejora para garantizar un equilibrio entre la privacidad de los datos, la utilidad y la equidad, especialmente en contextos tan delicados como los citados.