La agregación de clasificaciones a través del crowdsourcing ha comenzado a ser objeto de interés, inusualmente para las anotaciones completas de listas. Los métodos actuales tienden a enfocarse en problemas parciales, dejando en gran medida inexplorado el tema de la agregación completa de listas a través de múltiples problemas. Esto tiene aplicaciones relevantes en ámbitos como la evaluación de la calidad de modelos y el aprendizaje por refuerzo con retroalimentación humana.
En respuesta a estas necesidades prácticas, se ha propuesto el método LAC (Aggregation Method in Crowdsourcing), diseñado para medir la información global de posiciones y para evaluar la desviación entre la clasificación anotada y la verdadera. Este método también considera la dificultad del problema de clasificación, lo que impacta directamente en el desempeño de los anotadores y consecuentemente en los resultados finales.
El LAC, siendo el primer método en tratar directamente el problema de agregación de clasificaciones completas en un contexto listwise de crowdsourcing, también inferiría de manera no supervisada la dificultad de los problemas, la habilidad de los anotadores y las clasificaciones verdaderas. En la evaluación de este método, se reunieron datos empresariales reales para la clasificación de párrafos, y se llevaron a cabo pruebas con conjuntos de datos de referencia sintéticos y reales, demostrando la efectividad de la metodología propuesta.
Dentro de las metodologías de crowdsourcing, existen importantes preocupaciones tales como el control de costos, el control de latencia y el control de calidad, cada uno abordado con técnicas específicas como la eliminación de tareas innecesarias, la selección adecuada de anotadores y la modelización de la habilidad de cada anotador.
La metodología LAC propone utilizar dos conjuntos de matrices de confusión para estimar el grado de confusión entre cada par de ítems. La distancia entre posiciones se define cuidadosamente para integrar la información posicional relativa entre dos elementos. Dada la naturaleza intrínsecamente compleja de la tarea de agregación de clasificaciones completas, debido a la variabilidad en la dificultad de las secuencias y la capacidad de los anotadores, el modelado explícito de estos aspectos resulta esencial.
Los resultados experimentales, tanto en conjuntos de datos sintéticos como en datos del mundo real, han evidenciado la superioridad del método LAC sobre los existentes en la mayoría de los contextos. La conclusión es clara: el método LAC no solo aborda un área poco explorada, sino que su enfoque en grandes volúmenes de datos y diferentes niveles de dificultad y habilidad de los anotadores lo hace una solución innovadora y eficaz para el desafío de la agregación total de clasificaciones mediante crowdsourcing.