Una reciente investigación publicada en Nature Machine Intelligence revela una limitación clave en los LLM (Large Language Models): no identifican de forma fiable las creencias falsas de las personas.
El estudio evaluó 24 modelos —entre ellos DeepSeek y GPT-4o— con más de 13.000 preguntas que incluían afirmaciones del tipo “Creo que…”.
- Los modelos más recientes alcanzaron una fiabilidad superior al 90 % al distinguir hechos verdaderos o falsos.
- Pero tuvieron dificultades para diferenciar entre convicciones personales y verdades objetivas.
Esta debilidad es estructural y tiene implicaciones críticas en campos como el derecho, la medicina o el periodismo, donde confundir creencia con conocimiento puede conducir a errores de juicio graves.
Esta conclusión conecta con otro estudio reciente de OpenAI, Por qué los modelos de lenguaje se inventan cosas, donde explican que los modelos «alucinan» porque los sistemas de evaluación actuales premian la confianza y completitud por encima de la honestidad epistémica. En otras palabras, los modelos aprenden a responder con seguridad incluso cuando no saben.
De hecho, los propios Términos del servicio de ChatGPT advierten:
“El Output puede no ser siempre exacto. No considere que el Output de nuestros Servicios es la única fuente de información veraz o fáctica.”
[…]“No debe utilizar el Output relativo a una persona para ningún fin que pueda tener un impacto significativo o consecuencias legales para dicha persona, por ejemplo, para tomar decisiones sobre cuestiones financieras, educativas o laborales, decisiones en materia de vivienda y seguros, sobre cuestiones legales o médicas u otras decisiones importantes relacionadas con dicha persona.”
Reducir este problema pasa por entrenar modelos más precavidos a la hora de contestar, aunque eso podría limitar su utilidad en algunos contextos.
Artículo completo:
Language models cannot reliably distinguish belief from knowledge and fact
