Pixtral 12B: Un Salto en el Entendimiento de Imágenes y Texto

El nuevo modelo multimodal Pixtral 12B ha dado un paso significativo en el entendimiento tanto de imágenes como de texto. Con 12 mil millones de parámetros, Pixtral 12B fue diseñado para comprender documentos y elementos visuales, destacándose en pruebas multimodales y superando a modelos de mayor tamaño y peso. Este desarrollo, llevado a cabo por el equipo de Mistral AI, ha dejado su huella en el sector al introducir un modelo que no solo excede las expectativas en rendimiento multimodal, sino que también se sostiene en tareas de solo texto, sin sacrificar calidad.

En el corazón de Pixtral 12B se encuentra un nuevo codificador de visión, entrenado desde cero para procesar imágenes en su resolución y relación de aspecto nativa, lo que permite flexibilidad y una mayor capacidad de adaptación a diferentes requisitos de precisión y longitud de contenido visual. Gracias a su ventana de contexto extensa de 128K tokens, el modelo puede manejar múltiples imágenes de manera simultánea, manteniendo la coherencia en largos intercambios conversacionales y exhibiendo habilidades potentes de razonamiento multimodal.

Pixtral 12B se ha medido no solo contra sus compañeros de escala similar como el Llama-3.2 11B, sino que también ha hecho tambalear a titanes más grandes como el Llama-3.2 90B y modelos cerrados como Claude-3. En estas comparativas, Pixtral no solo ha igualado, sino que ha superado en varias métricas de evaluación, destacando especialmente en nuevos formatos de evaluación como MM-MT-Bench, un estándar para el juicio de modelos multimodales en escenarios prácticos.

Siendo uno de los modelos Apache 2.0 mejor calificados, Pixtral 12B destaca por su rendimiento superior en la arena pública de LMSys Vision y ha sido aclamado por su capacidad para seguir instrucciones y realizar tareas con precisión milimétrica, independientemente de las dificultades del entorno de pruebas estándar. Este modelo no solo avanza en el estado actual de la inteligencia multimodal, sino que también establece nuevas bases para futuros puntos de referencia estándar en sistemas de aprendizaje de lenguaje multimodal.

En conclusión, Pixtral 12B representa un gran salto hacia la comprensión y procesamiento eficiente de tareas que integran texto e imagen. Su lanzamiento bajo código abierto refuerza el compromiso de Mistral AI con la investigación abierta y colaboración en inteligencia artificial.

Solo noticias

y ya

Pixtral 12B: Un Salto en el Entendimiento de Imágenes y Texto