¿Cómo sabemos si un modelo de IA Generativa realmente razona o solo está repitiendo respuestas que ya ha visto en internet?
Muchos benchmarks no son completamente «uncontaminated», lo que significa que los modelos pueden haber sido entrenados con los mismos datos que luego se usan para evaluarlos.
Esto plantea un problema:
¿estamos midiendo razonamiento real o solo capacidad de memorización?
Si los modelos simplemente replican soluciones vistas antes, su capacidad de generalización puede ser menor de lo que creemos. Evaluar correctamente los LLM es clave para garantizar avances reales en IA.
Estas evaluaciones precisan de benchmarks privados que no están publicados en internet, y que capturen las necesidades de proyectos reales como es el caso del matharea para tareas matemáticas.
