耗资1.3万，ASU团队揭秘o1推理王者！碾压所有LLM成本超高，关键还会PUA

siyushenqi.com • 2025 年 8 月 13 日下午9:17 • 行业动态 • 阅读 269

LLM不会规划，大推理模型o1可以吗？ASU团队最新研究发现，o1-preview推理规划能力是所有模型之最，但仍未触及天花板。关键是，推理强，成本超高。

摘要

尽管LLM在许多任务上表现出色，但它们在规划任务上的表现并不理想。文章通过PlanBench测试基准来评估LLM的规划能力。

OpenAI声称其o1模型是一种新型的大推理模型（LRM），它通过强化学习进行多步推理，以改善规划能力。

o1模型的推理过程代价高昂，每100个实例的成本高达42美元，这使得其在实际应用中的可行性受到质疑。

尽管o1在规划任务上取得了一定的进步，但它仍然不是完美的解决方案。文章强调了在评估AI模型时需要考虑的准确性、成本和可解释性等因素。

LLM依然不会规划，LRM可以吗？

OpenAI声称，草莓o1已经突破了自回归LLM常规限制，成为一种新型的「大推理模型」（LRM）。

它能够基于强化学习，通过CoT多步推理。并且，这种推理过程的代价，是高昂的。

来自ASU研究人员以此为契机，全面评估了当前LLM和新型LRM，在测试基准PlanBench上表现。

论文地址：https://arxiv.org/pdf/2409.13373

PlanBench是他们在22年提出，评估大模型规划能力的测试基准。

在最新测试中，研究人员发现，o1-preview表现出色，大幅领先其他模型，但也未完全通过PlanBench基准测试。

其他LLM，在Mystery Blocksworld上的性能都不过5%。在基准上的结果曲线，和X轴几乎融合。

足见，这些大模型的规划能力，非常地弱。

不过，作者指出，规划推理越长，o1-preview的准确率便会低于25%。

另外一个值得注意的点是，即便o1-preview超越了多数近似检索的普通LLM，成为一种近似「推理器」。

但是，这种推理成本高达42美元/100个实例。

总而言之，o1在推理规划方面开辟了新天地，但仍旧不是终极AI大脑。

最先进LLM，依然无法规划

作者认为，o1模型以往LLM很大不同在于，前者被训练成为近似「推理器」，而后者粗略视为「检索器」。

由此，o1发布之后，研究人员对其与普通的LLM进行了区分，并将o1称为「大推理模型」。

而要评估新模型的能力，以及局限性，还需要新的工具和评估方法。

PlanBench是在2022年GPT-3发布不久之后，亮相arXiv。此后，作者也在一个特定子集上（包含600个3-5 block问题的静态数据集），重新测试模型。

尽管相继出现的LLM参数规模越来越大，算力成本越来越高，但它们在简单的规划问题上，依旧无法实现饱和。

而且，多项研究中的改进并不稳健，可推广力没有那么高。

因此，PlanBench可以作为LLM和LRM在推理规划任务上，是否取得进步的一个衡量标准。

不过需要注意的是，这种测试只能作为性能的上限，尤其局限于静态测试集。

如下表1中，展示了当前大模型在600个3-5 Blocksworld静态问题测试集，以及600个语义相同但语法混淆的实例Mystery Blocksworld中的结果。

在这些模型中，Llama 3.1 405B在常规Blocksworld上，取得了最佳性能62.6%。

然而，尽管本质问题相同，许多模型在Mystery Blocksworld上，性能大打折扣几乎溃败。

没有一个模型，在PlanBench测试集中，达到5%的性能。

这是因为，LLM非常擅长提供等效表征之间的转换。

因此，大模型在Blocksworld未混淆语义语法的问题上，性能更高。这也预示着，如果LLM能够组合推理操作，明确提供从Mystery Blocksworld到Blocksworld表征翻译，或许LLM在此的性能差距应该会大幅缩小。

通过重写提示，研究人员发现，性能仅是提高了很小一部分—— GPT-4达到了10%。

作者还发现，与之前结果相反，单样本提示（one-shot）相较于零样本，并没有显著改善模型性能。

事实上，在许多模型中，one-shot效果似乎要差得多！

这一点，在对Llama系列模型的测试中，最为明显。

顺便提一句，在起初基准迭代中，研究人员并没有考虑效率问题，因为普通LLM生成某些输出，所需时间只取决于输出长度，与实例的语义内容、难度无关。

然而，LRM会根据输入内容，自适应改变每个实例所需的时间和成本，因此衡量计算效率变得尤为重要。

对此，ASU团队计算了不同模型的提示成本，如下表4所示。

看得出，100个实例，o1-preview推理的代价最高，为42.12美金。

接下来，就到了评估o1在PlanBench基准上的能力了。

从近似检索到近似推理

很多研究者都曾认为，通过近似检索来生成输出的「标准」自回归LLM，尽管能够在一系列系统1（快速、直觉性思考）任务中有着优异的表现，但不太可能具备更类似于系统2（慢速、分析性思考）的近似推理能力，而这种能力对于规划任务来说至关重要。

如今，OpenAI试图在o1上以不同的方式为底层LLM增添类似系统2的能力。

根据研究人员的推测，o1将底层LLM（很可能是经过修改的GPT-4o）与一个经过强化学习训练的系统相结合，该系统引导思维链推理轨迹的创建、整理和最终选择。

由此可知，o1与其他LLM存在两个主要区别：

第一，新增了一个额外的强化学习预训练阶段（可能是从大量合成数据中学习不同思维链的q值）；

第二，采用了一个新的自适应扩展推理程序（可能是通过类似rollout的方式进一步细化学习到的q值，然后再选择特定的思维链）。

不管怎样，从已知的细节来看，这个模型在本质上与之前的LLM有根本的差异。

在原始测试集上评估LRM

在需要2到16步计划来解决的原始Blocksworld测试上，o1实现了高达97.8%的正确率。在Mystery Blocksworld上，也有着52.8%的正确率。

更进一步，研究人员通过完全随机的字符串生成了新的混淆，并以此得到了难度更高的Randomized Mystery Blocksworld。

在这个测试中，o1仍能答对37.3%的问题——与那些一题都答不上来的LLM形成了鲜明对比。

扩大问题规模

LLM的思维链提示是非常脆弱的，很难随着问题规模的增大而稳健地扩展，而且不能诱导出通用的算法程序跟随。

为此，研究人员构建了一组有着110个实例的Blocksworld测试。其中，block的数量从6到20个不等，需要20到40步计划才能完成。

在不做任何混淆处理的情况下，o1-preview仅仅达到了23.63%的准确率，而且大部分都是来自于那些需要少于28步的问题。

可见，模型的性能还远未达到稳健的程度。

不可解的实例

一直以来，LLM都难以判断一个问题是否有解，而OpenAI则声称o1已经能够进行准确地识别了。

为了系统地测试这一点，研究人员修改了原始测试集中的100个实例——通过在每个实例的目标状态中添加一个on(x,y)类型的连接词，使目标变得不可满足。

结果显示，在Blocksworld中，o1只正确且明确地识别出了27%的实例是不可解的。

在19%的情况下，模型会返回一个点或某种「[empty plan]」标记，但没有对可解性做出任何解释或说明。这是不正确的，因为「empty plan」只有在目标已经满足的情况下才是正确答案。

在剩余的54%的情况下，模型生成了一个「完整」的计划。显然，这是不可能也是不正确的。

在Randomized Mystery Blocksworld中，结果更糟：

- 16%的情况正确识别出了问题不可解

- 5%的情况返回了「empty plan」

- 79%的情况给出了一个不可能或不满足目标的计划

可见，不可解实例仍然是LRM的一个问题。

不仅如此，这种识别能力也是有代价的——o1有时会错误地声称可解的问题是不可解的（假阴性）。

在Randomized Mystery Blocksworld中，模型的假阴性率达到了11.5%。

准确性和成本的权衡与保证

随着LRM在规划任务上取得更好的性能，评估也必须明确考虑，选择通用模型而非成熟专门系统来带的利弊。

虽然o1-preview准确性超越LLM，但缺乏的是正确性保证。

而且，目前尚不清楚它是否具备成本效益。

与之前模型不同的是，o1 API每次调用价格还包括基于使用「推理token」数量附加费用，并按照最高输出token计费。（这些token是在推理过程中生成，并没有直观展示出来）

这也就意味着，o1 API费用用户是无法控制的。

作者表示，o1推出不到一周，他们在PlanBench基准上测试模型，竟花费了1897.55大洋（约13300元）！

而且，能够访问的o1-preview似乎在每个问题上，使用的推理token数量受到限制。

这一点也可以从图2的平稳变化中，可以看出。（包括如下散点图）

这就存在一种认为降低总成本，最高性能的因素。

如果完整版o1取消这一限制后，可能会提高整体准确性，但随之带来的高昂推理成本更加难以预测（只会更加离谱）。

o1-mini虽然更具性价比，但总体性能还是较差。

由此，o1模型在成本、推理时间、保证、性能权衡上，仅是一种粗粒度的评估选择。

经典的规划器Fast Downward在数据集上，能够以更少时间、计算、成本，实现了100%准确率，同时能够保证答案准确度。

而在PC上运行Fast Downward基本上不需要花什么钱，平均每个实例耗时0.265秒。这要比如上表2中，o1平均时间快了几个数量级。

它通常也是可预测的，而且能直接扩展到更难的实例。

普通LLM非常擅长在不同格式之间转换问题，并可以结合Fast Downward一起使用，成本还仅是LRM一小部分。

对于没有简单PDDL域和实例规范的问题，LLM-Modulo系统可能是一种更安全、更便宜的方法。

即将一个较小、较快的LLM与一个可靠的验证器循环运行，使得组合系统只输出保证正确的解决方案。

后面这两种方法提供正确性保证，却在o1这样的LRM中严重缺失。

如果一个通过那个推理AI非常自信地制定错误计划，就不能部署在安全关键和非遍历领域。

当前，o1还是一个完全黑盒系统，要比之前模型更甚。OpenAI不仅保密其架构和推理过程，还警告禁止想要了解内部机制的用户。

这也就让o1的可解释性变为不可能，也降低了整个系统信任度。

o1的创造性解释

值得一提的是，当模型给出错误答案时，它有时还会为其决定提供一个富有创意但毫无意义的解释。

换句话说就是，o1从产生幻觉变成了PUA……

在一个案例中，它认为一个无法解决的问题是可以解决的，因为一个目标条件虽然在最终状态中不存在，但在执行过程中的某个时点是真的，因此应该继续计算。

在另一个案例中，它宣称on(a,c)是真的，因为正如「on(a,c)」的字面意思，a在b上，而b在c上，因此a在c的「上方」。

结论

总结而言，LLM在原始Blocksworld测试集上的表现，会随着时间的推移有所提升。

其中，表现最佳的是Llama 3.1 405B——准确率高达62.5%。

然而，这些模型在同一领域的混淆版本上的糟糕表现，暴露了它们「近似检索」的本质。

相比之下，新的LRM，也就是o1，不仅几乎接近完美解决了原始Blockworld测试集，而且在混淆版本上首次取得了进展。

受此鼓舞，研究人员又评估了o1在更长问题和无解问题上的表现。

但结果显示，之前这些准确率的提升既不具有泛化性，也不具有稳健性。

最后，团队希望这份研究报告能够很好地展示LLM和LRM的规划能力，并为如何切实评估它们提供有用的建议。

本文源自「私域神器」，发布者：siyushenqi.com，转载请注明出处：https://www.siyushenqi.com/32597.html

赞 (0)

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

siyushenqi.com

13.7K 文章

0 评论

425 问题

17 粉丝

私域神器：海外私域营销拓客软件

史上最高！OpenAI官宣获66亿美元融资，估值超1500亿美元

上一篇 2025 年 8 月 13 日下午9:17

AI产品出海：有产品月下载量暴增7000%，情感社交热度持续，冷门功能赛道成新亮点

下一篇 2025 年 8 月 13 日下午9:17

行业动态

最近超火的AI 浏览器 Arc，是“下一个互联网”还是只是另一个Chrome？

值得一试。

siyushenqi.com
2025 年 8 月 13 日
410000
行业动态

上线2个月收获200万用户，出海游戏公司转型做AI，赢麻了？

AIGC+DeepSeek，碰撞新体验。

siyushenqi.com
2025 年 8 月 13 日
365000
若“TapTap、应用商店、微信”都所属一家游戏发行，他会做什么？

了解韩国市场的朋友应该对Naver印象颇深。它是韩国数一数二的互联网巨头，其同名网站是本土最大的搜索门户入口，在韩国堪比百度在国内的地位，市值超过556亿美元，一度高居韩股综合指数KOSPI市值第五。旗下的Line更是家喻户晓的社交软件。在韩国做游戏营销，几乎绕不开Naver。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
341000
行业动态

休闲游戏寻国内、海外发行；美国产品需要当地资源；寻越南本地PC流量；GP游戏寻科技量合作｜私域神器每周合作精选No.198

本期精选的合作类型涵盖休闲游戏寻国内、海外发行；美国产品需要当地资源；寻越南本地PC流量；GP游戏寻科技量合作等。接下来就一起看看吧~

转自扬帆出海
2026 年 3 月 23 日
108000
行业动态

海外市场分析：韩国篇

说到韩国的内容市场，就不得不先提一下韩剧。

siyushenqi.com
2025 年 8 月 18 日
292000
行业动态

出海泛娱乐应用靠AI玩法月入百万美金，背后技术竟是来自同一家中国大模型企业

中国版Sora是如何实现应用落地的。

siyushenqi.com
2025 年 8 月 17 日
302000
大厂如King，小到《迷你世界》，他们在海外的合规都栽在这个坑里

我们谈及出海，往往更多是将目光放在市场解读、赛道选择以及趋势判断等等方面，但游戏出海过程中的法律前置合规问题

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
441000
行业动态

亚马逊5月热销品趋势，母亲节前卖爆的原来是这些！

产品收入数据节选自2024年3月27日至2024年4月26日。

siyushenqi.com
2025 年 8 月 6 日
350000
行业动态

海外社群与私域内容运营的跨境营销策略详解

精准定位目标用户定制化内容策略社交平台与互动数据分析与优化建立长期用户关系精准定位目标用户在跨境营销中，精准定位目标用户是提升品牌影响力和实现有效营销的核心。通过对目标市场的深刻分析与细分，企业能够更好地满足特定用户群体的需求。精确的用户画像帮助品牌清晰了解其受众，包括他们的需求、兴趣、消费习惯等，从而避免不必要的资源浪费。例如，某跨境电商平台…

siyushenqi.com
2025 年 12 月 30 日
274000
《悬空城》新品游戏找发行

《悬空城》新品游戏找发行

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
403000
行业动态

孙东旭“接班”董宇辉

俞敏洪曾考虑董宇辉作为新东方接班人，但由于董宇辉离开东方甄选，这一可能性不再存在。

siyushenqi.com
2025 年 8 月 5 日
327000
这款电商界的Midjourney，正在颠覆着海外电商的营销物料生产方式

借助生成式AI技术，PhotoG可以快速生成高度真实的商品场景展示，帮助品牌降低拍摄成本、提高营销效率，并大幅缩短物料制作周期。

siyushenqi.com
2025 年 8 月 5 日 • 行业动态
365000
SHEIN针对中东市场招兵买马，麾下新收阿拉伯本土设计师

SHEIN针对中东市场招兵买马，麾下新收阿拉伯本土设计师

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
348000
行业动态

跑酷持续火热，女性向崛起：最火的美国超休闲小游戏是谁？

经历国庆小长假后，国内游戏市场涌现出不少新品。

siyushenqi.com
2025 年 8 月 26 日
364000
行业动态

软银完成对OpenAI的400亿美元投资承诺

软银完成400亿美元投资承诺，创下私募融资纪录，交易后持股超10%，OpenAI估值升至3000亿美元。

siyushenqi.com
2025 年 12 月 31 日
286000
行业动态

高潜力市场爆火，有卖家日出20000单！

国货出海渐成趋势，哪个市场哪个平台是卖家的最佳选择？当不少卖家还在欧美的电商红海中厮杀之时，已经有卖家在新兴蓝海市场开启爆单之旅。

siyushenqi.com
2025 年 8 月 13 日
306000
行业动态

与ChatGPT竞争白热化，谷歌正式启用5400亿参数PaLM增强Bard

谷歌首席执行官Sundar Pichai在3月31日接受Hard Fork播客节目采访时表示，Bard将从基于轻量级LaMDA模型升级为更大规模的PaLM模型。

siyushenqi.com
2025 年 8 月 14 日
319000
行业动态

首个全面开源的千亿模型来了！源2.0全家桶击破算力限制，代码数学强到发指

11月27日，浪潮信息发布源2.0基础大模型，并一口气开源了1026亿、518亿、21亿三个大模型！而在编程、推理、逻辑这些老大难问题上，源2.0都表现出了令人印象深刻的性能。

siyushenqi.com
2025 年 8 月 13 日
284000
行业动态

通过Teams矩阵优化外贸企业的工作流与客户管理

提升团队协作效率集中管理客户信息简化工作流程实时数据共享支持跨国沟通提升团队协作效率在外贸企业的日常运营中，团队协作效率直接关系到工作进展和企业的竞争力。通过Teams矩阵，外贸企业能够将沟通、文件共享和任务管理集成在一个平台上，减少信息传递中的延迟与错误，从而提高整个团队的工作效率。无论是跨部门合作还是跨地域沟通，Teams矩阵通过实时更新和智…

siyushenqi.com
2025 年 12 月 27 日
232000
行业动态

OpenAI曾转录100万小时视频数据，训练GPT-4

使用合成数据训练AI模型，将成为未来主要趋势之一。

siyushenqi.com
2025 年 8 月 13 日
303000
行业动态

全球首个混合推理模型发布，Claude 能「思考」了，实测发现这些细节

Claude 3.7 Sonnet 是 Anthropic 推出的全球首款双模式混合推理模型，支持标准模式和扩展思考模式。标准模式提供快速响应，扩展思考模式则进行深度自我反思，显著提升在数学、物理和编程等复杂任务上的表现。该模型注重实用导向，减少了不必要的拒绝率（45%），并强化了代码协作能力。

siyushenqi.com
2025 年 8 月 13 日
346000
行业动态

千亿AI妖股连续8年亏损近55亿，AI 泡沫何时破灭？

站在风口的中国生成式AI产业，过去半年的赚钱能力竟不如“黑神话：悟空”不到4天的利润。

siyushenqi.com
2025 年 8 月 13 日
312000
行业动态

PAGC 2025丨首批大咖嘉宾阵容释出！5月21-22日广州出海展会再忙也要去！

超级早鸟票：1分钱抢万人出海展会2日门票（原价299元）

siyushenqi.com
2025 年 8 月 17 日
329000
类银河城久攻不下，FunPlus新二游大胆选择突围

还不错的品类融合新方向

siyushenqi.com
2025 年 8 月 20 日 • 行业动态
352000
行业动态

无界动力完成首轮3亿元天使融资

无界动力天使轮即募得3亿元，天使+轮接近收官，系列融资将超5亿元，创具身智能早期融资新高。

siyushenqi.com
2025 年 11 月 12 日
266000
2022年比利时、卢森堡和荷兰电商市场报告

比荷卢经济联盟互联网普及率也高于整个欧洲，该地区的数字化成熟度也因此产生了更多线上消费者。

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
354000
游戏，大国竞争的下一个必争之地？

欧洲的立法机关（即议会），决定把「游戏」提升到前所未有的战略高度。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
332000
亚马逊或将上线这功能，这是要卷死的节奏呀！

对于亚马逊平台来说，评论星级是买家账号最重要的影响指标，有卖家反馈亚马逊突然星级评分也直接搬上关键词搜索页，这是要卷死的节奏呀！

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
293000
行业动态

亚马逊印度公司入驻商户数量已经超过70万家

据竺道资本了解，根据最新数据显示，亚马逊印度公司入驻商户数量已经超过70万家

siyushenqi.com
2025 年 8 月 13 日
346000
研发三年总算等到版号，这款卡牌的目标是垂类第一

上个月，游卡第二款非三国杀IP的卡牌新作《自在西游》也成功拿到版号。据了解，这款游戏由开发过《三国杀名将传》的游卡银河工作室制作，并已研发3年，目前产品刚刚在渠道开启了预约。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
342000

发表回复

登录后才能评论

联系我们

联系我们

+86 132-7601-9273

邮件：siyushenqi@gmail.com

工作时间：周一至周日 9:30-20:30

添加微信

添加微信

Email Telegram

返回顶部