7.5 Benchmarks de LLM: Cuáles están vigentes, cuáles están saturados y cómo leer los resultados

Por qué importan los benchmarks (y por qué engañan)

Los benchmarks son la forma más rápida de comparar modelos, pero es fácil malinterpretarlos.

Dos problemas típicos:

  1. Saturación: los modelos se vuelven tan buenos (y tan entrenados sobre datasets públicos) que una prueba deja de diferenciar.
  2. Sobre-optimización del leaderboard: se mejora la puntuación sin mejorar la utilidad real.
Recordatorio en escenarios clínicos

En flujos de trabajo tipo sanidad, los leaderboards son señales, no pruebas. Añade siempre una evaluación de dominio y revisión humana en resultados de alto impacto.

Clasificación simple: “vigentes” vs “saturados”

  • Vigentes (aún discriminan): separan modelos fuertes de modelos muy fuertes hoy.
  • Saturados (o frágiles): cercanos al techo, fáciles de “optimizar”, sensibles al prompt o contaminados.

Como esto cambia con el tiempo, lo más seguro es:

  • usar varios benchmarks,
  • fijarte en el formato (opción múltiple vs. respuesta libre), y
  • verificar resultados en una fuente fiable.

Benchmarks a seguir (set curado)

La lista es deliberadamente corta: cubre categorías clave sin convertirse en un catálogo.

CategoríaBenchmarks (ejemplos)Qué te dice
Conocimiento + razonamiento generalMMLU / MMLU-ProAmplitud académica; variantes Pro reducen efectos de techo
Ciencia/Q&A difícilGPQAPreguntas de nivel experto; menos “trivia”
Razonamiento desafianteBBH (Big-Bench Hard)Subconjunto difícil; útil pero sensible al prompt
Matemáticas en lenguaje naturalGSM8K (a menudo saturado)Señal rápida; bueno como smoke test
Evaluación multi-escenarioHELMFramework con reportes y metodología más principiada
Seguimiento de instruccionesIFEvalSi cumple restricciones y formatos de salida
Código (clásicos)HumanEval / MBPP (a menudo saturados)Señal rápida; realismo limitado
Código “del mundo real”SWE-benchBugs sobre repos reales; señal práctica fuerte
Contexto largoLongBench / RULERSi realmente usa bien contextos largos
Preferencia humanaChatbot Arena / AlpacaEval-styleProxy de preferencia; captura calidad “percibida”

Enlaces rápidos: páginas de benchmarks (para verificar metodología)

Si quieres validar una puntuación, empieza por la página/paper del benchmark:

Qué suele estar saturado (pero sigue siendo útil como baseline)

  • GSM8K: muchos modelos rozan el techo; cambios pequeños de prompt alteran resultados.
  • HumanEval / MBPP: buenos para checks rápidos, pero limitados para ingeniería real.
  • Algunos sets de opción múltiple: vulnerables a contaminación/memorización.

Qué suele mantenerse vigente más tiempo

  • Benchmarks difíciles de memorizar (formato novedoso, nivel experto).
  • Benchmarks cercanos a workflows reales (SWE-bench, tool use, tareas de contexto largo).
  • Pruebas de seguimiento de instrucciones y cumplimiento de formato.

Dónde consultar resultados (y verificar afirmaciones)

Si un model card o blog dice “SOTA”, estas páginas ayudan a comprobar el benchmark exacto, el split y la metodología:

Receta práctica de evaluación (estilo Minermont)

  1. Elige 2–3 benchmarks públicos que se parezcan a tu tarea (p. ej., IFEval + razonamiento + contexto largo).
  2. Crea un set interno “gold” (50–200 ejemplos) realista para tu dominio y flujo.
  3. Evalúa con prompts reales (plantillas, herramientas, retrieval y formatos).
  4. Mide fallos: alucinaciones, incumplimiento de restricciones, consejo inseguro, filtrado de PII.
  5. Repite tras cambios (prompt, versión del modelo, pipeline de retrieval).

Referencias