OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂了

siyushenqi.com • 2025 年 8 月 13 日下午11:38 • 行业动态 • 阅读 283

如果 AI 模型给的答案一点也看不懂，你敢用吗？

随着机器学习系统在更重要的领域得到应用，证明为什么我们可以信任它们的输出，并明确何时不应信任它们，变得越来越重要。

获得对复杂系统输出结果信任的一个可行方法是，要求系统对其输出产生一种解释，这种解释对人类或另一个受信任的系统来说是可读的，即可以完全理解以至于任何可能的错误都可以被发现。例如，为了建立对司法系统的信任，我们要求法院提供清晰易读的书面意见，解释并支持其决策。

对于大型语言模型来说，我们也可以采用类似的方法。

不过，在采用这种方法时，确保语言模型生成的是易于理解的文本，这件事非常重要，尤其是在处理数学、编码这样的复杂任务时。

如下图所示，你让 AI 写一个快速排序算法，AI 很快就写出来了，而且答案很简洁。但不会写代码的你要怎么判断 AI 写得对不对呢？

OpenAI 在一篇最新的论文中研究了这个问题。

论文标题：PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS
论文链接：https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

他们发现，如果以「得到正确答案」为目标，要求大语言模型生成答案，它们给出的答案可能会很难懂。人类评估员在判断这些答案时，犯错的可能性会加倍。

所以他们的目标是在训练高级语言模型的过程中，让它们生成那些较简单的模型也能够轻松验证的文本。他们发现，这样的文本不仅对简单模型友好，对于人类来说也更可读。

那么，具体是怎么实现的呢？这还要提到 2021 年的一篇论文 ——「Learning to Give Checkable Answers with Prover-Verifier Games」。在这篇论文中，Cem Anil 等人提出了一个名为「Prover-Verifier Games（证明者 - 验证者博弈）」的博弈论框架。该框架由两个相互竞争的学习者组成：一个可信的验证者（Verifier）网络试图选择正确的答案，另一个更强大但不可信的证明者（Prover）网络试图说服验证者接受特定的答案，而不管其正确性如何。该框架的目标是从博弈中产生一个可靠的证明协议。

OpenAI 在这项新研究中借鉴了这个框架，让两个大模型（较强的为证明者，较弱的为验证者）互相博弈，直到二者达到一种平衡。此时，证明者给出的答案既有一定的可读性，又保持了合理的正确性。

OpenAI 表示，通过提高模型输出的可读性，可以使人工智能的应用更加有效和可信，这对于需要精确沟通的各个领域都是有益的。

值得一提的是，这篇论文来自 OpenAI 的超级对齐团队，其中几位作者在今年早些时候已经离开 OpenAI，团队也已经分崩离析。其中一位作者透露，这是该团队的最后一篇论文。

一个直观的例子

为了提高模型输出的可读性，OpenAI 优化了一些小学数学问题的思维链（CoT），让它能够被较弱的模型理解。举例如下：

问题：肖娜（Shawna）的父亲的年龄是肖娜的五倍。肖娜现在的年龄是阿莉娅（Aliya）的三倍。如果阿莉娅 3 岁，那么肖娜的父亲多少岁？

这么做的目的是为了验证经过这种训练的模型，它的输出是否更加直接易懂。

这种方法在只对训练集做了一些优化的情况下，让模型的性能提升了 50%。同时，模型输出的答案也更好懂了，这也帮助需要评估这些答案正确性的人类用户更准确地做出判断。OpenAI 认为，进一步缩小可读性强的模型和能力强的模型之间的性能差距，是未来对齐研究中一个关键的目标。

「证明者」和「验证者」是怎么在训练中博弈的？

为了激励强力模型（证明者）生成可读性更强的文本，研究者采用了一种训练方案，要求强力模型生成的答案能够被较弱的模型（验证者）轻松验证。具体来说，他们使用了 GPT-4 系列中的大模型和小模型。它们在预训练数据量上相差约三个数量级。它们都接受了一些基于人工标注的数学推导训练，但未经过广泛的后训练。

首先，研究团队让证明者模型尝试解决一系列数学问题。由于证明者模型自身可能出错，它生成的一些答案可能不正确。接下来，他们将这些答案交由验证者模型进行检验，并在以下两个阶段之间进行多轮的交替验证：

「验证者」训练：研究团队训练较弱的「验证者」模型，验证「证明者」给出的答案是否正确。
「证明者」训练：研究团队指示性能较强的「证明者」模型扮演「有用」或「狡猾」的戏份。

当「证明者」被设定为「有用」时，研究团队将奖励「验证者」打分高的正确答案。
当「证明者」被设定为「狡猾」时，研究团队反而奖励「验证者」打分高的错误答案。

研究团队发现，最初，狡猾的「证明者」能够轻松生成让「验证者」信服的错误答案。然而，这些错误答案将会进入下一轮的「验证者」训练中，相同的漏洞在下一轮中，将不再具有说服力。因此，「证明者」将被迫在每一轮中探索不同的策略。

当狡猾的「证明者」再也无法生成让「验证者」信服的错误解决方案时，训练宣告结束。

研究者都发现了什么？

性能与可读性权衡：

一个仅在人类编写的推导上进行监督式微调的模型，虽然具有较高的可读性，但准确性较差。
当模型的优化目标仅为正确性，即只关注生成正确答案时，虽然能够达到高准确性，但生成的解决方案的可读性却较差。
OpenAI 提出的可检查博弈方法平衡了这两者，在保持高可读性的同时保持适度的准确性。

三种有用的模型：

鲁棒验证者：即使解决方案具有误导性，仍能够有效区分正确和错误的解决方案。
有用的证明者：生成对人类来说易于理解的解决方案，从而减少人类评估者的错误。
狡猾证明者：产生微妙的、错误的解决方案，这些解决方案最初会混淆人类评估者，从而突出需要进一步改进的领域。

研究团队使用了同样的测试问题，来展示狡猾证明者（Sneaky Prover）的生成内容和训练过程。

问题：肖娜（Shawna）的父亲的年龄是肖娜的五倍。肖娜现在的年龄是阿莉娅（Aliya）的三倍。如果阿莉娅 3 岁，那么肖娜的父亲多少岁？

结论

随着大语言模型（LLMs）在关键领域和复杂应用中的使用日益增加，了解其所生成的内容是否值得信赖变得至关重要。通过要求模型生成清晰且可验证的理由，可以增强对其生成内容的信任。

此方法的一个显著优势是它减少了对人类示范或可读性判断的依赖。这种自主性对于未来超智能 AI 系统的对齐尤为重要，其最终目标是在没有人类进行直接监督的情况下，可靠地将 AI 系统与人类的价值观和期望对齐。

尽管这项工作仅在一个数据集上进行了实验，并且仍然需要真值标签（ground truth labels），但研究团队仍预计在开发正确、透明及可验证的 AI 系统中，此类方法会起到关键作用，并增强其在现实应用中的可信任性和安全性。

本文源自「私域神器」，发布者：siyushenqi.com，转载请注明出处：https://www.siyushenqi.com/33964.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

siyushenqi.com

13.7K 文章

0 评论

425 问题

17 粉丝

私域神器：海外私域营销拓客软件

阿里通义千问技术骨干周畅确将离职，尚未last day

上一篇 2025 年 8 月 13 日下午11:37

靠AI顾问摇身变为最靓的仔，携时尚秘籍闯出新蓝海！

下一篇 2025 年 8 月 13 日下午11:38

玩了这款游戏之后，我终于知道王司徒是怎么死的了

我印象中的江湖，那侠客无不身怀绝技，武艺高强。小到行侠仗义，劫富济贫；大到上天入地，神龙见首不见尾。江湖中，门派恩怨错综复杂，武功招式修炼千变万化，玄之又玄。不过最近玩到一款国产独立游戏后，突然受其启发，原来武林中除了武功招式之外还有另一独门绝学——嘴炮。古有孔明舌战群儒骂死王朗，今有“墨侠”诡辩江湖屡破奇案，今天要跟大家聊的游戏便是这款国产武侠推理独立游戏——《墨影侠踪》。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
330000
行业动态

腾讯以最「离谱」的方式，成了年度赢家？

一场9年的TGA征程。

siyushenqi.com
2025 年 8 月 18 日
341000
赴美上市！这家上海游戏厂商估值36亿

Gamehaus是一家规模约150人的出海手游发行商，在中国拥有上海狂热网络和重庆灏瀚网络两个运营主体，已获得境外发行上市备案通知书。

siyushenqi.com
2025 年 8 月 17 日 • 行业动态
339000
行业动态

2024年5月中国手游发行商全球收入排行榜

Sensor Tower商店情报平台显示，2024年5月共40个中国厂商入围全球手游发行商收入榜TOP100，合计吸金21.1亿美元，占本期全球TOP100手游发行商收入39.7%。

siyushenqi.com
2025 年 8 月 18 日
346000
TikTok跃居印尼APP下载榜榜首！这些发帖技巧值得收藏！

TikTok成为2022年印度尼西亚iOS和Android设备上下载量最高的社交媒体应用

siyushenqi.com
2025 年 8 月 3 日 • 行业动态
280000
行业动态

Telegram群发策略：针对不同细分受众的内容设计

随着Telegram在社交平台中的重要性日益增加，如何通过受众细分与个性化内容设计提升群发效果成为关键。精准的受众分析和匹配能够提高信息的相关性，减少信息过载，进而提升用户参与度和转化率。有效的群发策略不仅需要抓住受众兴趣，还要避免过...

siyushenqi.com
2026 年 1 月 25 日
255000
行业动态

马斯克xAI估值240亿美元，LeCun隔空开怼，竟上升到人身攻击！

这两天，AI圈的瓜全被马斯克LeCun承包了。不论是在AI安全监管，还是xAI使命上，两人已经开启了激烈的隔空骂战。

siyushenqi.com
2025 年 8 月 13 日
282000
行业动态

美客多称霸拉美市场，2023年第四季度营收大涨42%

美客多在拉美一骑绝尘。

siyushenqi.com
2025 年 8 月 12 日
297000
拼多多和SHEIN争做美国穷人乐

除了法庭相见，这两个公司也逐渐以对手的身份出现在各种海外报道中

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
361000
行业动态

双11大战将至：多重利好之下，商家热火朝天忙备战

淘宝接连出招，年度最大机会来了。

siyushenqi.com
2025 年 8 月 5 日
304000
行业动态

WhatsApp蓝标号：解锁企业级沟通与品牌信任的“私域神器”

在数字营销的浪潮中，企业始终在寻找一个能够直接触达用户、建立深度信任并高效转化的核心阵地。当社交媒体广告成本水涨船高，公域流量红利逐渐消退，构建一个自主可控、高互动性的私域流量池，已成为品牌生存与增长的共识。而在众多工具中，一个来自全球最大即时通讯平台的功能——WhatsApp蓝标号，正以其独特的官方认证身份和强大的商业功能，成为企业出海及深耕本地市场的“私…

siyushenqi.com
2025 年 12 月 3 日
227000
干货荟萃丨数据与技术力驱动探寻泛娱乐出海增长的“第二生命曲线”

从用户数据分析到画像、运营、营销，神策都能够提供非常完备的工具，全方位助力泛娱乐产品出海

siyushenqi.com
2025 年 8 月 3 日 • 行业动态
344000
触达全球的腾讯云开启技术力新时代

2022年腾讯数字生态大会，首次系统披露腾讯云出海政策，并发布《2022年出海产业新兴技术洞察报告》

siyushenqi.com
2025 年 8 月 3 日 • 行业动态
307000
今日新闻｜新壮举：中东时尚电商Namshi将业务拓展到卡塔尔

作为中东最受欢迎的时尚电商平台，Namshi正在庆祝一个巨大的里程碑

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
311000
行业动态

宇树对手都要IPO了

2026年开年具身智能迎来IPO潮，星海图、众擎、魔法原子相继股改，宇树已辅导完成。各企重金竞标春晚C位作为上市前"超级路演"，商业化落地成生存关键分水岭。

siyushenqi.com
2026 年 2 月 3 日
230000
行业动态

广告盯上DeepSeek

近日，科普博主“三个老爸实验室”发现腾讯元宝接入的DeepSeek生成的答案中包含疑似广告内容，如“建议通过58到家等正规平台比价预约”等。该事件引发了网友对AI搜索工具是否接入广告的讨论，尽管腾讯方面否认了广告植入的指控，但用户对AI搜索中广告的隐蔽性和透明度表示担忧。

siyushenqi.com
2025 年 8 月 13 日
339000
SLG出海太挤，三七做了一款“亮瞎眼”的生存三消手游！

在出海话题已是老生常谈的今天，浩浩汤汤的出海部队横扫全球手游市场。

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
345000
掘金TapTap预约榜：2022玩家最期待的新品有哪些？哪些赛道更契合市场潮流趋势？

时至今日，TapTap已成长为国内用户热衷且活跃的游戏社区

siyushenqi.com
2025 年 8 月 3 日 • 行业动态
424000
日本乐天华南品牌峰会：探索日本跨境商机，中国品牌出海新赛道

在全球化浪潮推动下，跨境电商飞速发展，竞争日趋白热化。日本的电商市场规模排名世界第三，且每年都在持续扩大。如何通过跨境平台增加产品、品牌的曝光？如何寻找到适配日本市场的产品？这些都是跨境电商竞争中制胜的重点。

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
178000
行业动态

京东死磕低价，拼多多奉陪到底

黄峥：你可以说我low，但你无法忽视我。

siyushenqi.com
2025 年 8 月 5 日
294000
行业动态

新年新利好！TikTok Shop又一热门品类开放入驻

TikTok Shop允许跨境卖家卖食品了

siyushenqi.com
2025 年 8 月 12 日
390000
行业动态

为什么飞书和安克要联合发布一个随身录音设备？

飞书联合安克推出纽扣级AI录音豆，5米拾音8小时续航，语音自动转结构化纪要并沉淀为飞书文档，为出海团队打造随身“上下文入口”。

siyushenqi.com
2026 年 1 月 21 日
216000
行业动态

当微软无法靠OpenAI猛拉云业务，Google Cloud“趁虚而入”了

两家公司都在财报中强调了AI作为云增长的重点，但采取了不同的发展策略。

siyushenqi.com
2025 年 8 月 13 日
284000
亚马逊翻身：《新世界》在线超91万，游戏商店Vapor曝光

整个国庆节期间，《新世界》成为了Steam最火的游戏，同时在线峰值超过了91万。这个成绩彻底打破了亚马逊入局游戏行业以来的长期窘境，新任CEO Andy Jassy在西雅图科技网站GeekWire接受采访时宣称，游戏将最终成为亚马逊最大的娱乐业务品类。

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
337000
行业动态

出海巴西的热潮背后，中国企业要面对哪些挑战？

2024 年中国对巴西直接投资 42 亿美元、同比增 113%，巴西跃升为中国全球第三大目的地，全年登记 39 个大型项目，为 2006 年以来新高。

siyushenqi.com
2025 年 12 月 29 日
223000
云游戏先人一步，腾讯先游“云游节”助力生态建设加速

随着中国5G建设的全面加速，5G的步伐一路高歌猛进

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
344000
有玩家氪金超160万元，这款赛马拟人手游上线两周营收高达3.5亿

ACG与传统的一次碰撞。

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
353000
行业动态

自有品牌，如何打开利润丰厚的中东美容美妆市场？

自有品牌，如何打开利润丰厚的中东美容美妆市场？

siyushenqi.com
2025 年 8 月 13 日
319000
行业动态

Taboola、Adtiger【AdTiger 虎视传媒】确认入驻PAGC 2025丨第五届全球产品与增长展会！

Taboola、Adtiger【AdTiger 虎视传媒】确认入驻PAGC 2025丨第五届全球产品与增长展会！

siyushenqi.com
2025 年 8 月 17 日
336000
行业动态

《皇室战争》总收入突破30亿美元

2016年3月全球上市至今，Supercell《Clash Royale 皇室战争》总收入突破30亿美元。

siyushenqi.com
2025 年 8 月 26 日
415000