GPT-5 为啥不 “胡说” 了?OpenAI 新论文讲透了

预训练阶段就不可避免——只要数据存在长尾噪声,IIV「有效性判别器」必然误判,而生成错误率 ≥ 2×判别错误率,误差被放大。

摘要

主流二元「对/错」Benchmark 只给 0 或 1 分,模型说「我不知道」也得 0 分,结果系统性地奖励瞎猜、惩罚诚实,导致过度自信型幻觉更难消除。

ORM 只看最终答案对错,DeepSeek R1 因此 Vectara 幻觉率高达 14.3%;PRM 逐步给反馈,o3 幻觉率降至 6.8%,说明「过程奖励」远优于「结果奖励」。

据传引入 Universal Verifier + 非二元 Rubric 评分,用「验证模型」按事实性、逻辑性、细微差别多维打分,瓦解二元激励,迫使模型先校准置信度再作答。

在后训练里加「过度自信重罚」机制——答对+1、答错-1、瞎猜-9、不答0,把模型从「得分 optimizer」逼成「风险评估器」,才可能真正让幻觉趋近于零。

GPT-5发布之后虽然性能达成业界飞跃期望但其中最亮眼的就是幻觉率的大幅下降。

OpenAI给出数据显示GPT-5出现事实错误的概率比 GPT-4o 低约 45%,比 OpenAI o3 低约 80%。


但这一提升背后的原因却一直没有对外公开。在System Card里,OpenAI将归功于强化学习训练他们似乎利用了一些最新的训练方法,让这些模型学会了“完善自己的思考过程,尝试不同的策略,并认识到自己的错误”,然而具体的方法却一直成谜。

9月4日,OpenAI 久违的发布了一篇论文《语言模型为何会产生幻觉》(Why Language Models Hallucinate)。

虽然OpenAI未完全公开所有技术细节,但结合这篇官方论文和已发布的技术文档,我们可以窥见其核心思路。


01

幻觉产生,在预训练阶段是不可避免的

幻觉是不可避免的这个结论并不新鲜过往的研究基本上很少语言模型本身的机制出发探讨更多是围绕训练数据问题

OpenAI论文一开始证明了:“幻觉”是一种在LLM统计学习本质下必然会产生的、可预测的副产品。

OpenAI论证逻辑很简单生成可靠信息比判断是否可靠更难,而判断是否可靠本身必然会有失败的地方。

首先,论文利用语言模型自回归预测的本质,定义了其内在的“判断力”。

模型在评估一个句子时,会通过逐词预测的方式,将每一步的条件概率连乘,得出一个总概率值这个概率值反映了该句子与模型在海量数据中学到的统计规律的符合程度。基于此,研究人员提出了一个理论上的“是否有效”(Is-It-Valid, IIV)判断器:当一个句子的内部概率高于某个设定的阈值时,即被判断为“有效”,反之则为“无效”

简单理解就是模型生成话“看起来熟顺”有效反之无效

然而,这个理论上的“判断器”并非永远可靠。在处理那些面生似乎哪里见过灰色信息时,它必然会出错论文列举了多种导致判断失效的场景,包括:因数据稀疏(如“孤例”事实)导致模型只能猜测 ;模型本身能力不足以理解复杂概念 ;以及计算复杂、数据分布偏移和训练数据本身包含错误(垃圾进,垃圾出)等情况


对于这种不可避免的“判断错误”会带来多大的后果论文给出了一个严格的数学结论:(生成模型的错误率)≥ 2 ×(IIV 判断器的错误率)

这个放大效应的根源在于,判断层面上错误必然会导致两种以上的幻觉比如1+1模型判断成等于3衍生出至少两种幻觉一个是1+1=3这是幻觉另一种1+1不等于2这又是幻觉他们来自于同一个错误的判断

因此,结论是清晰的:只要训练数据中不可避免地存在长尾、稀疏和充满噪声的部分,模型在判断层面就必然会失败。而模型在判断上犯的每一个错误,都会被放大并传导至生成任务中。因此生成中的幻觉也是不可避免的。

对于人类来讲,幻觉也基本是不可避免。我们也有很多拿不定到底是不是事情人类知之为知之不知不知谚语对于拿不定东西我们可以选择说不知道

对于模型来讲对齐过程教给它们不知为不知一个过程比如说提高其内部IIV类似有效判别阈值或者突出那些可能的答案

OpenAI论文半部分证明后训练在当下的评价体系办法做好它们在这方面工作

02

后训练,未能有效抑制幻觉

后训练并非完全无效的论文OpenAI给出了一个校准概念

在预训练模型中一个概率分布实际上完全依照训练材料产生的这意味着它的自信程度基本反映了训练数据中的真实情况。在模型预训练中为了达到损失函数最小目标模型就会自然而然校准

这也会产生出一种平原效应模型面对很多选项自信挺大可以越过IIV判断器阈值因此很容易产生幻觉


后训练过程介入,通过明确的偏好反馈(例如,人类更喜欢答案A而不是B、C、D)来强行改变这片平坦的概率荒原。

这个过程导致了模型的“非校准”,让概率分布更集中,模型被教导要将绝大部分概率集中到那个被认为是“最佳”的答案上,形成一个陡峭的山峰。与此同时,其他曾经看似合理的选项(B、C、D等)的概率被极大地压制,远远低于IIV判断阈值。

通过这种方式,模型不再需要在多个弱选项之间进行猜测,因为它被明确地告知了应该选择哪座“山峰”。当这座山峰恰好是正确答案时,模型便成功地克服了因不确定性导致的幻觉,幻觉率也因此降低

然而这种“非校准”是一把双刃剑。它在减少“因不确定而猜测”的幻觉的同时,也可能增加了“过度自信”的风险。

后训练一个重点方向就是减少这种过度自信模型能够说出我不知道

但目前绝大多数被广泛用于衡量AI模型能力的主流评估基准,如GPQA3、MMLU-Pro和SWE-bench等,都普遍采用一种“二元评分制”。在这Benchmark,答案只被简单地判定为“正确”(得1分)或“错误”(得0分


这种评分机制带来了一个严重问题:它会系统性地惩罚不确定性。当模型面对一个它没有把握的问题时,如果它选择诚实地回答“我不知道”(IDK)或拒绝回答,其得分将是0分。这和直接给出一个错误的“最佳猜测”答案分数完全相同。在这种规则下,放弃回答是一种“蠢”策略,而毫无根据的“虚张声势”,反而成了追求更高分数的理性选择。

因此当下为了跑分赢得竞争对手彰显自己实力模型训练中模型诚实回答我不知道反而是一件吃力不讨好的事情

因此,后训练过程对模型幻觉的消除在技术底层上是有效的,但在实践上并没被引导。当前的行业评估标准正在系统性地奖励产生幻觉的行为。只要这种“惩罚诚实、奖励猜测”的评估范式不变,幻觉问题就将继续成为阻碍AI系统迈向更高可靠性的顽固障碍。

03

GPT-5可能的幻觉杀手锏与DeepSeek R1的短板

虽然文章没有真正深入后训练过程的细节解释这一问题只是批判了对错二元的benchmark若将其应用RL领域发现结论具有合理性

这个推论就是:如果一个强化学习(RL)过程本身也采用了二元的奖励路径,那么它极有可能导致模型抑制幻觉的能力降低。

强化学习的核心是通过一个“奖励模型”(Reward Model)来指导语言模型的行为。语言模型生成一个回答,奖励模型给这个回答打分,然后语言模型根据分数来调整自己的策略,以期未来能获得更高的分数。

奖励模型采用的是一种极端二元评分答案+1/答案-1导致以下问题事实错误答案得-1分。诚实帮助答案同样-1

这就复现了论文在Benchmark的缺陷:一个采用二元奖励路径的RL流程,会从训练的根源上鼓励模型“虚张声势”。它不会鼓励模型去学习如何校准自己的不确定性,反而会惩罚这种不确定性的表达。

目前主流的奖励模型有两种

一种是ORM(结果奖励模型)基本我们上面假设的那种情况一样使用了ORMDeepSeekR1为例奖励模型两个路径构成一个最终答案是否正确一个格式是否正确这就是一个极端的二元路径只要最终答案正确,就给高分。

这样一种强化二元性路径的后训练很有可能在减少“犹豫型”幻觉的同时,增加“顽固型”或“过度自信型”的幻觉因为这些自信性幻觉顽固反而可能推高整体幻觉率

这也许就是为什么DeepSeekR1问世后面对了很大的幻觉挑战的问题在Vectara HHEM幻觉测试中幻觉居然高达14.3%远高于预训练模型DeepSeekV3


而使用PRM(过程奖励模型)的模型,如同期的OpenAI o3,其幻觉率则仅有6.8%,未及DeepSeek R1的一半。

这是因为PRM会审查模型的“思路”(如Chain-of-Thought),当发现某一步推理是基于一个捏造的事实时,就会在那一步给予负反馈。这迫使模型学会忠于事实地进行推理。虽然过程中仍然依赖对每一步的“好/坏”或“对/错”的判断也有两极形式

而在GPT-5中,根据The Information爆料,其极有可能引入了Universal Verifier的技术,来超越原来的可验证的对错二元评价标准。比如目前比较热门的Rubric(评分细则)的方法。让另一个“验证模型”依据一套复杂的、非二元的标准(如事实性、逻辑性、细微差别)进行打分。这将从根本上瓦解二元激励强化学习过程带来的负面影响。

也许就是GPT-5模型能够做到如此低幻觉率诀窍

当然这一可能远不够论文最后研究者提议最好解决幻觉的方法后训练阶段引入带惩罚的评分机制

该机制在指令中明确告知模型过度自信会有巨大代价(例如,答对得1分,答错-1过度自信答错扣9分,不答得0分),迫使模型从一个单纯的“得分优化器”转变为一个“风险评估器”。它必须精确地校准自身的置信度,只有当确信度足够高时才敢于回答

也许只有模型不只是专注于得分,而是专注于真幻觉问题才有可能被解决

本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.siyushenqi.com/66061.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 8小时前
下一篇 8小时前

相关推荐

发表回复

登录后才能评论
联系我们

联系我们

+86 132-7601-9273

在线咨询: QQ交谈

邮件:siyushenqi@gmail.com

工作时间:周一至周日 9:00-18:30

添加微信
添加微信
WhatsApp Telegram email Email
分享本页
返回顶部

私域神器:一站式全网全渠道拓客营销软件
销售热线:173 5412 3667 (←点击添加微信)