Actualmente creo que podemos afirmar que la IA no «razona», sino que replica patrones de razonamiento. Los resultados que se obtienen con esta estrategia son muy buenos tal como lo demuestra la serie de modelos o1 de Open IA, pero están limitados por lo patrones que han aprendido en el conjunto de entrenamiento. Lo explica claramente Walid Saba en No Generalization without Understanding and Explanation publicado en el Blog@CACM.
En los últimos días han aparecido más evidencias que reafirman las tesis de Saba. En el artículo publicado como preprint por seis investigadores de Apple:
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
demuestran que hacer pequeños cambios intencionados en los datos de entrada, para evitar que se parezcan a los que el LLM pudo haber visto durante su entrenamiento, reduce significativamente el rendimiento del modelo al resolver los problemas.
En la misma línea, un ejemplo muy ilustrativo del fenómeno anterior nos lo aporta Victor Taelin en el siguiente tuit:
https://x.com/VictorTaelin/status/1844886809005687270
en el que demuestra que una ligera en el enunciado del problema es suficiente para que los LLM (incluido o1) fallen completamente al resolverlo. Aunque los humanos pueden solucionarlo con facilidad, las IA modernas no logran salir de su dependencia de soluciones memorizadas.
Esta conclusión no debe desanimarnos, sino que ayuda a ajustar nuestras expectativas sobre los tipos de problemas que los LLM pueden resolver. En ningún caso se cuestiona la utilidad de esta tecnología. De hecho, ¡el abanico de posibilidades que ofrecen los LLM es vasto!
Como resume brillantemente François Chollet:
Once again: people are overestimating how intelligent deep learning models are, while underestimating how much can be done with pure memorization / curve fitting