“AI 为什么会幻觉”,其实是大语言模型(LLM)最核心的一个问题。我来帮你从原理 + 数学原因 + 实际表现三个层面拆解清楚。
AI 幻觉(Hallucination) = 模型生成的内容看起来合理,但实际上是错误或不存在的。
例如:
AI 说某本书出版于 2012 年,但实际上是 2018 年
AI 给出的公式、统计数据、公司地址根本不存在
AI 编了一个人名、机构或事件,看似真实
幻觉不是“撒谎”,而是模型在概率预测下的自然产物。
GPT 的本质是 预测下一个 token:
P(令牌我+1∣令牌1,…,令牌我)P(\text{token}_{i+1} \mid \text{token}_1, \dots, \text{token}_i)
它没有“事实验证能力”,只是根据训练中学到的语言模式和上下文概率生成内容
换句话说,它是在“猜最合理的下一个词”,而不一定是真实的
1️⃣ 训练目标只关注语言流畅性
GPT 的损失函数 = 交叉熵损失(预测 token 越准确损失越低)
它没有“真/假”判断标签
所以模型会生成语义上合理但不真实的内容
2️⃣ 统计模式 vs 事实存储有限
模型参数有限,即使有上百亿参数,也不能储存全世界所有事实
当遇到训练中没见过的组合或冷门知识 → 模型只能根据类似模式“推测”
3️⃣ 上下文限制导致推测错误
上下文长度有限 → 模型只能参考最近的 token
如果关键事实不在上下文内 → 模型就会“编造”合理的内容
所以长篇对话或复杂推理时,幻觉更容易出现
4️⃣ 采样策略
GPT 生成文本时会使用 温度(temperature)和 top-k / top-p 采样
温度高 → 模型更随机 → 幻觉概率更大
top-k / top-p → 模型选择概率较低的词 → 有时也会产生幻觉
GPT 就像 会写作的超级预测机:
它看过大量书、网页 → 学会写文章风格
它不懂事实真伪 → 会根据语言模式“推测”内容
有点像人根据印象回答,但没去查证
参数越大 → 知识模式越丰富 → 有时幻觉减少,但仍存在
上下文越长 → 模型可以参考更多信息,但冷知识仍可能幻觉
采样策略和任务类型影响幻觉概率
提供明确事实提示(prompt 中给出事实)
限制生成长度 / 调低温度
使用检索增强模型(RAG, Retrieval-Augmented Generation) → 先查数据库,再生成
结合知识图谱或结构化数据库
💡一句话总结:
GPT 幻觉是模型生成概率预测结果的自然副作用,它生成的是语言上合理的内容,而不保证真实可靠。