Cuando la estadística suplanta al significado

Repasando un post que publiqué hace unos cuatro de años, me anima que los dos principales mensajes del mismo sigan hoy vigentes:

💡 «[L]os modelos del lenguaje son tecnologías increíbles que no soñábamos tener hace unos años y que las aplicaciones que surgen a partir de estos obtienen resultados de una calidad sorprendente.»

💡 «El modelo se basa en las relaciones entre los significantes (los términos), que se convierten a vectores numéricos sobre los que se realizan las operaciones, pero no existe ninguna relación con el significado, lo que limita su capacidad para entender un texto.»

Recientemente, OpenAI sacó un paper en el que admitía este último punto reformulando la aseveración:

«If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures.»

Trabajar con relaciones entre «sígnificantes» sin incorporar el «significado» que apunte al «objeto (o concepto) referenciado» en el mundo real, limita la posibilidad del LLM de distinguir si un predicado es correcto o incorrecto, dejando al arbitrio de la estadística las alucinaciones.

En otras palabras,

«Sin significado, los LLM navegan a ciegas: la estadística decide lo que parece cierto.»

OpenAI propone que el LLM sea más conservador, y responda con más probabilidad «no lo sé». Esto reduce la posibilidad de equivocarse, pero también reduce su utilidad. Trasladas el problema de alucinar, a no responder cuando lo necesitas.

El post original 👇