Como bien señala Santiago Valdarrama en X, no debería sorprendernos que muchos modelos rindan bien en pruebas estandarizadas pero fallen en escenarios reales.
👉¿Por qué ocurre esto?
Porque muchas empresas optimizan sus modelos únicamente para destacar en esos benchmarks, sin garantizar un rendimiento sólido en aplicaciones reales.
📉 Este problema no es nuevo. Desde que existen los benchmarks, también existe la tentación de sobreajustar a ellos.
Si estás construyendo aplicaciones basadas en modelos de lenguaje (LLM), considera estas recomendaciones que nos deja Santiago:
1. No confíes ciegamente en los benchmarks públicos.
2. Sé escéptico con las afirmaciones de superioridad basadas en ellos.
3. Diseña tu propia suite de evaluación, adaptada a tu caso de uso.
4. Nunca tomes decisiones basadas únicamente en métricas ajenas.
Vale la pena recordarlo, sobre todo cuando la industria se mueve tan rápido.
Este post:
es un buen resumen de cómo se pueden emplear corpus de evaluación públicos y privados para paliar lo que comenta Santiago más arriba. Para evaluar los resultados de RigoChat-v2 se utilizan benchmark públicos que permiten posicionar el modelo respecto a otras alternativas, pero también se utilizan corpus de evaluación privados que reflejan tareas cercanas a los usos comerciales del LLM. De esta manera se evita sobreajustar a las evaluaciones públicas, y se prueba el modelo con tareas similares a un entorno productivo.
Otro post en la misma línea que ilustra los principios que comenta Santiago es:
