En un mundo donde la inteligencia artificial (IA) es capaz de generar contenido, surge una inquietud crucial respecto a los modelos de aprendizaje generativo: ¿Se enfrentarán al colapso debido al uso excesivo de datos sintéticos generados por modelos anteriores? Algunos expertos aseguran que si los modelos futuros se entrenan únicamente con datos generados sintéticamente, la calidad de estos modelos podría deteriorarse notablemente. Sin embargo, otros afirman que este colapso es evitable si los datos reales y sintéticos se combinan adecuadamente durante el entrenamiento del modelo.
Este estudio explora los escenarios de reemplazo y acumulación de datos generativos en tres configuraciones prominentes de modelado generativo. En los escenarios analizados, se encontró que, si bien los modelos que substituyen datos reales por sintéticos tienden a colapsar, aquellos que acumulan ambos tipos de datos logran evitar este destino. Por ejemplo, en la modelación gaussiana multivariada, los modelos que mantuvieron y acumularon datos mostraron que la estabilidad se logra cuando los datos no se eliminan en masa después de cada iteración de ajuste del modelo.
En el caso de la estimación de densidad de núcleo, se determinó que la acumulación de datos evita el colapso, incluso bajo un presupuesto de cómputo fijo. Sin embargo, se observó que la pérdida de prueba en datos reales tiende a estabilizarse, en lugar de divergir de manera no acotada como ocurre al reemplazar datos. Además, cuando los datos sintéticos se introducen junto con datos reales, en ciertas circunstancias, pueden incluso mejorar la estimación de la distribución de datos reales.
Por otra parte, se identificó una interacción interesante entre los datos reales y sintéticos: cuando los datos reales son escasos, una cantidad adecuada de datos sintéticos puede reducir la pérdida de prueba sobre datos reales. Este hallazgo sugiere que, en escenarios donde la disponibilidad de datos reales es limitada, los datos sintéticos pueden ofrecer un valor significativo al proceso de modelado.
En conclusión, la investigación sugiere que los futuros modelos generativos de frontera enfrentan perspectivas más prometedoras cuando los datos se acumulan, en lugar de ser reemplazados. Estos hallazgos proporcionan nuevas vías para evaluar empíricamente y estudiar matemáticamente el valor contextualmente dependiente de los datos sintéticos. El descubrimiento de la interacción sustancial entre la cardinalidad y la proporción de los datos reales en el modelo invita a una mayor exploración sobre cómo los datos sintéticos pueden integrarse eficazmente para optimizar el rendimiento de los modelos.