7.5 Benchmarks de LLM: Cuáles están vigentes, cuáles están saturados y cómo leer los resultados
Por qué importan los benchmarks (y por qué engañan)
Los benchmarks son la forma más rápida de comparar modelos, pero es fácil malinterpretarlos.
Dos problemas típicos:
- Saturación: los modelos se vuelven tan buenos (y tan entrenados sobre datasets públicos) que una prueba deja de diferenciar.
- Sobre-optimización del leaderboard: se mejora la puntuación sin mejorar la utilidad real.
Recordatorio en escenarios clínicos
En flujos de trabajo tipo sanidad, los leaderboards son señales, no pruebas. Añade siempre una evaluación de dominio y revisión humana en resultados de alto impacto.
Clasificación simple: “vigentes” vs “saturados”
- Vigentes (aún discriminan): separan modelos fuertes de modelos muy fuertes hoy.
- Saturados (o frágiles): cercanos al techo, fáciles de “optimizar”, sensibles al prompt o contaminados.
Como esto cambia con el tiempo, lo más seguro es:
- usar varios benchmarks,
- fijarte en el formato (opción múltiple vs. respuesta libre), y
- verificar resultados en una fuente fiable.
Benchmarks a seguir (set curado)
La lista es deliberadamente corta: cubre categorías clave sin convertirse en un catálogo.
| Categoría | Benchmarks (ejemplos) | Qué te dice |
|---|---|---|
| Conocimiento + razonamiento general | MMLU / MMLU-Pro | Amplitud académica; variantes Pro reducen efectos de techo |
| Ciencia/Q&A difícil | GPQA | Preguntas de nivel experto; menos “trivia” |
| Razonamiento desafiante | BBH (Big-Bench Hard) | Subconjunto difícil; útil pero sensible al prompt |
| Matemáticas en lenguaje natural | GSM8K (a menudo saturado) | Señal rápida; bueno como smoke test |
| Evaluación multi-escenario | HELM | Framework con reportes y metodología más principiada |
| Seguimiento de instrucciones | IFEval | Si cumple restricciones y formatos de salida |
| Código (clásicos) | HumanEval / MBPP (a menudo saturados) | Señal rápida; realismo limitado |
| Código “del mundo real” | SWE-bench | Bugs sobre repos reales; señal práctica fuerte |
| Contexto largo | LongBench / RULER | Si realmente usa bien contextos largos |
| Preferencia humana | Chatbot Arena / AlpacaEval-style | Proxy de preferencia; captura calidad “percibida” |
Enlaces rápidos: páginas de benchmarks (para verificar metodología)
Si quieres validar una puntuación, empieza por la página/paper del benchmark:
- MMLU (paper): https://arxiv.org/abs/2009.03300
- MMLU-Pro (paper): https://arxiv.org/abs/2406.01574
- GPQA (paper): https://arxiv.org/abs/2311.12022
- BBH (paper): https://arxiv.org/abs/2210.09261
- GSM8K (paper): https://arxiv.org/abs/2110.14168
- IFEval (paper): https://arxiv.org/abs/2311.07911
- HumanEval (paper): https://arxiv.org/abs/2107.03374
- MBPP (dataset): https://github.com/google-research/google-research/tree/master/mbpp
- SWE-bench (web + leaderboard): https://www.swebench.com/
- LongBench (paper): https://arxiv.org/abs/2308.14508
- RULER (paper): https://arxiv.org/abs/2404.06654
- Chatbot Arena: https://lmarena.ai/
- AlpacaEval 2: https://tatsu-lab.github.io/alpaca_eval/
Qué suele estar saturado (pero sigue siendo útil como baseline)
- GSM8K: muchos modelos rozan el techo; cambios pequeños de prompt alteran resultados.
- HumanEval / MBPP: buenos para checks rápidos, pero limitados para ingeniería real.
- Algunos sets de opción múltiple: vulnerables a contaminación/memorización.
Qué suele mantenerse vigente más tiempo
- Benchmarks difíciles de memorizar (formato novedoso, nivel experto).
- Benchmarks cercanos a workflows reales (SWE-bench, tool use, tareas de contexto largo).
- Pruebas de seguimiento de instrucciones y cumplimiento de formato.
Dónde consultar resultados (y verificar afirmaciones)
Si un model card o blog dice “SOTA”, estas páginas ayudan a comprobar el benchmark exacto, el split y la metodología:
- Papers with Code (páginas de benchmark + papers/implementaciones): https://paperswithcode.com/
- Stanford HELM (framework + reportes): https://crfm.stanford.edu/helm/
- Hugging Face Open LLM Leaderboard (modelos open-weight): https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
- LMSYS Chatbot Arena (comparación por preferencia): https://lmarena.ai/
- SWE-bench (leaderboard + metodología): https://www.swebench.com/
- EleutherAI lm-evaluation-harness (evaluación reproducible): https://github.com/EleutherAI/lm-evaluation-harness
Receta práctica de evaluación (estilo Minermont)
- Elige 2–3 benchmarks públicos que se parezcan a tu tarea (p. ej., IFEval + razonamiento + contexto largo).
- Crea un set interno “gold” (50–200 ejemplos) realista para tu dominio y flujo.
- Evalúa con prompts reales (plantillas, herramientas, retrieval y formatos).
- Mide fallos: alucinaciones, incumplimiento de restricciones, consejo inseguro, filtrado de PII.
- Repite tras cambios (prompt, versión del modelo, pipeline de retrieval).
Referencias
- HELM: https://crfm.stanford.edu/helm/
- Papers with Code: https://paperswithcode.com/
- Open LLM Leaderboard: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
- Chatbot Arena: https://lmarena.ai/
- EleutherAI LM Evaluation Harness: https://github.com/EleutherAI/lm-evaluation-harness
- SWE-bench: https://www.swebench.com/