Meta lanza Llama 4 mientras enfrenta críticas por manipular resultados en pruebas de IA

Meta lanzó recientemente dos nuevos modelos de inteligencia artificial, Llama 4 Scout y Llama 4 Maverick, destacando a este último como líder en múltiples benchmarks. Sin embargo, el uso de una versión experimental de Maverick en pruebas de desempeño ha generado cuestionamientos sobre la transparencia en las evaluaciones.

Meta, la multinacional tecnológica propietaria de Facebook e Instagram, ha introducido dos nuevas versiones de su modelo de inteligencia artificial Llama 4: Scout y Maverick. Dentro de este lanzamiento, Llama 4 Maverick, un modelo de tamaño medio, ha sido promocionado por la compañía como superior a GPT-4o de OpenAI y Gemini 2.0 Flash de Google en varios indicadores de rendimiento.

Uno de los logros destacados de Maverick fue su clasificación en la plataforma LMArena, un sitio utilizado para comparar resultados de modelos de inteligencia artificial mediante evaluaciones humanas. En estas pruebas, Maverick alcanzó un puntaje ELO de 1417, posicionándolo en el segundo lugar, por debajo de Gemini 2.5 Pro y por encima de GPT-4o. Sin embargo, el rendimiento del modelo ha sido objeto de críticas debido a la revelación de que las pruebas se realizaron con una versión experimental de Maverick optimizada específicamente para interacciones conversacionales, una variante que no está disponible para el público.

Meta confirmó que la versión utilizada en estos benchmarks había sido diseñada como un experimento con características ajustadas para mejorar su capacidad conversacional. Ashley Gabriel, portavoz de Meta, explicó: "Experimentamos regularmente con diferentes variantes personalizadas". La documentación oficial de la empresa también apoyó esta declaración al señalar que la variante optimizada no corresponde a la implementación pública del modelo.

Tras conocerse estas prácticas, LMArena publicó un comunicado en X (anteriormente conocida como Twitter) expresando que el uso de la versión experimental contravenía las expectativas de transparencia y reproducibilidad que se esperan de los proveedores de modelos. En respuesta, la plataforma anunció su intención de modificar sus políticas de clasificación, con el objetivo de garantizar que las evaluaciones futuras sean más justas y consistentes.

Este suceso ha suscitado un debate en la comunidad tecnológica sobre la importancia de la transparencia en el uso de variantes personalizadas de modelos en benchmarks públicos. Por otra parte, el potencial de Llama 4 Maverick para competir con los gigantes tecnológicos como OpenAI y Google llama la atención, aunque persisten las dudas sobre la disponibilidad de sus características más avanzadas en versiones públicas.

El puntaje ELO, utilizado en LMArena para evaluar modelos de inteligencia artificial, es un sistema de clasificación originalmente empleado en el ajedrez, adaptado en este caso para medir las preferencias humanas entre salidas generadas por los diferentes modelos.