Claude generó tres citas la semana pasada. Ninguna de ellas existía. Los títulos de los artículos sonaban plausibles, los autores eran reales, pero las revistas eran inventadas. Esto no fue un fallo, fue una alucinación, y ocurre debido a cómo funcionan realmente estos modelos.
Las alucinaciones ocurren cuando un LLM genera texto que suena convincente pero contradice la realidad, el contexto o la instrucción. No son errores. No son impredecibles. Son una consecuencia directa de cómo los modelos transformer predicen tokens, y ocurren a gran escala en cada implementación de producción.
Qué sucede realmente cuando un LLM alucina
Los modelos de lenguaje no recuperan hechos. Predicen el siguiente token estadísticamente más probable basándose en patrones de datos de entrenamiento. Cuando le haces una pregunta a Claude o GPT-4o, el modelo no está consultando una base de datos. Está calculando distribuciones de probabilidad sobre miles de tokens posibles y eligiendo ganadores, token por token, hasta que alcanza una condición de parada.
Esto funciona maravillosamente para muchas tareas. Pero cuando el modelo encuentra un prompt que está fuera de sus datos de entrenamiento, o donde existen continuaciones plausibles múltiples, no dice