Un nuevo artículo explica porque los LLM puede generar definiciones muy precisas, pero tienen series dificultades en llevarlas a la práctica
Os comparto un fenómeno que posiblemente hayáis experimentado al usar LLM pero que hasta ahora no tenía nombre:
«Potemkin understanding»
Este término describe un tipo de comprensión aparente: los modelos pueden definir un concepto con precisión (hasta un 94 % de acierto), pero fallan de forma sistemática al aplicarlo en tareas creativas o interpretativas (50 % de la veces en promedio). En otras palabras: pueden explicar bien, pero no necesariamente aplicar lo aprendido.
Un reciente estudio analiza esto en profundidad con dos enfoques:
- Un benchmark para evaluar la capacidad de explicar y aplicar conceptos en tres áreas: técnicas literarias, teoría de juegos y sesgos psicológicos.
- Un análisis automatizado que estima cuán generalizado es este problema.
Los resultados son contundentes: incluso los LLM más avanzados (p. ej., GPT‑4o, Claude‑3.5 o Gemini 2.0.) presentan una incoherencia interna preocupante. Definen bien, pero al aplicar conceptos fallan casi el 50 % de las veces. No es un fallo puntual, es un patrón.
Este hallazgo refuerza una limitación que se deriva de cómo funcionan internamente. El LLM puede explicar con mucha precisión un concepto, dado que ha visto una gran cantidad de definiciones similares en los datos de entrenamiento. En cambio, tiene mucha más dificultad para ponerlo en práctica, ya que se basa en los ejemplos que haya podido ver en el conjunto de entrenamiento.
El LLM no aprende el concepto a partir de las definiciones. Lo que aprende es cómo se secuencian las palabras para dar una definición correcta. Al tener que aplicarlo en la práctica, opera de la misma manera: lo que ha aprendido es cómo se estructuran las palabras en los ejemplos de aplicación que haya podido revisar durante el entrenamiento. La dificultad radica en que estos ejemplos son menos numerosos y más variados. Como no puede generalizar a partir de la definición, está limitado a que el nuevo ejemplo sobre el que tenga que aplicar el concepto sea parecido a los que había en los datos de entrenamiento. En caso contrario, es muy probable que no lo sepa resolver correctamente.
Referencia al artículo
Mancoridis, M., Weeks, B., Vafa, K., & Mullainathan, S. (2025). Potemkin understanding in large language models. arXiv. https://arxiv.org/abs/2506.21521
