OpenAI测试称GPT-5媲美专家

siyushenqi.com • 2025 年 9 月 28 日下午4:21 • 行业动态 • 阅读 270

OpenAI发布GDPval，首次用“AI vs 行业专家”的胜率量化模型在九大GDP核心行业的经济价值表现。

摘要

Claude Opus 4.1 49% 任务不输人类，GPT-5-high 40.6%，差距主要来自图表美观度而非实质能力。

GDPval-v0仅测“写报告”这一单点任务，未覆盖交互流程与实操环节，远未到取代程度。

15个月内从GPT-4o的13.7%跃升至40%+，OpenAI预计曲线将继续陡峭上升。

工具属性优先——帮专业人士节省时间，让其聚焦更高价值工作，而非直接替代人类岗位。

当地时间周四（9月25日），人工智能（AI）研究公司OpenAI发布了一项新的基准测试，用于比较其AI模型与各行业专业人士的工作表现。

这项测试名为GDPval，是一次初步尝试，旨在评估OpenAI的系统距离在经济价值工作上超越人类有多近。而经济价值工作是OpenAI开发通用人工智能（AGI）的关键环节。

OpenAI周四表示，其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。

这并不意味着OpenAI的模型会立刻取代人类工作。尽管一些CEO预测AI在几年内就会取代人类，但OpenAI承认GDPval目前只涵盖人们实际工作中有限的一部分任务。不过，这是该公司用来衡量AI向这一里程碑迈进的最新方式之一。

GDPval基于美国GDP贡献最大的九个行业，包括医疗、金融、制造业和政府等领域。测试覆盖了44种职业，从软件工程师到护士再到记者。

在首个版本GDPval-v0中，OpenAI邀请资深专业人士对比AI生成的报告与其他专业人士的成果，并挑选出更优者。

例如，某项任务要求投行人员为“最后一公里配送行业”制作竞争格局分析，并与AI生成的报告进行对比。OpenAI随后将AI模型在全部44个职业中对抗人类报告的“胜率”进行平均计算。

结果显示，GPT-5-high（高算力版本GPT-5）在40.6%的情况下被评为优于或与行业专家持平。

而Anthropic的Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家，这一表现超过了OpenAI的模型。

OpenAI对此解释称，之所以Claude得分更高，部分原因是其倾向于生成更美观的图表，而非纯粹性能更优。

需要说明的是，大多数职业的工作远不止提交研究报告，而这却是GDPval-v0所测试的全部内容。OpenAI承认这一点，并计划在未来开发更全面的测试，涵盖更多行业和交互式工作流程。

尽管如此，OpenAI仍认为GDPval的进展具有重要意义。

OpenAI首席经济学家Aaron Chatterji在接受采访时表示，GDPval的测试结果表明，这些岗位上的人们可以利用AI模型节省时间，从而专注于更有意义的工作。

“因为模型在某些事情上已经变得很擅长，随着能力的提升，人们可以越来越多地把部分工作交给模型，去做潜在更有价值的事情，”Chatterji说。

OpenAI评估负责人Tejal Patwardhan表示，她对GDPval的进步速度感到鼓舞。

Patwardhan指出，约15个月前发布的GPT-4o模型得分仅为13.7%（胜出或持平人类），而GPT-5的成绩几乎提高了三倍。她预计这一趋势还会继续。

本文源自「私域神器」，发布者：siyushenqi.com，转载请注明出处：https://www.siyushenqi.com/66768.html

赞 (0)

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

siyushenqi.com

13.7K 文章

0 评论

425 问题

17 粉丝

私域神器：海外私域营销拓客软件

大作对轰，怒排三小时：中国厂商在日本像打了鸡血

大作对轰，怒排三小时：中国厂商在日本像打了鸡血

上一篇 2025 年 9 月 28 日下午4:20

AI基建独角兽，融资78亿+

AI基建独角兽，融资78亿+

下一篇 2025 年 9 月 28 日下午4:21

行业动态

育碧重组风波下，《超越善恶2》创意总监明确开发未受波及

育碧《超越善恶2》创意总监确认游戏未因公司重组取消，已投入超5亿美元开发历时17年。同期育碧砍掉5个项目包括《波斯王子》重制版，正进行战略调整。

siyushenqi.com
2026 年 2 月 3 日
215000
行业动态

WhatsApp使用“动态”更新来缓解用户对隐私的担忧

据外媒AppleInsider报道，WhatsApp正试图安抚那些因隐私政策变化而考虑从这一Facebook旗下服务迁移的用户

siyushenqi.com
2025 年 8 月 25 日
319000
行业动态

Netflix成立了一家手游工作室

Netflix正持续加大在游戏领域的投入。

siyushenqi.com
2025 年 8 月 24 日
365000
行业动态

SHEIN融资20亿美元、Tik Tok Shop在印尼正式关闭 ...一文速览跨境电商投融资大事件

今天我们将一起回顾2022-2023年度跨境电商投融资大事件，以1年为周期，回顾跨境电商领域的投融资大新闻。

siyushenqi.com
2025 年 8 月 12 日
339000
免费榜夺冠，畅销榜第12，散爆第二款“少女前线”《云图计划》火了

9月23日，由《少女前线》系列游戏开发商，散爆网络开发的新作《少女前线：云图计划》（后简称：云图计划）正式在安卓与iOS双端上线，引发一场二次元游戏玩家的狂欢。

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
347000
行业动态

3种圈层卖家入场，2021年跨境电商的机遇有多大？

当跨境电商基本盘被扩大之后，紧随而来的是买卖双方需求的变化和行业不同领域的变革。

siyushenqi.com
2025 年 8 月 13 日
282000
行业动态

2023年全球手游收入Top20：腾讯米哈游各2款，有家公司竟独占4款

2023年全球手游收入榜出炉

siyushenqi.com
2025 年 8 月 18 日
340000
行业动态

从魔性鸽子霸榜到爆红的外国山海经，被牛津词典收录的“梗游戏”或成爆款密码？

抽象休闲小游戏如何通过病毒式传播席卷抖音、Youtube、Tiktok。

siyushenqi.com
2026 年 1 月 29 日
278000
一条价值千金的建议：如何从0到1做好投放测试？

《游戏立项测试方法论》

siyushenqi.com
2025 年 8 月 3 日 • 行业动态
329000
行业动态

DeepSeek上新，“奥数金牌水平”

11 月 27 日晚于 Hugging Face 低调开源，在 IMO-ProofBench 的 Basic 子集拿下 99 % 成绩，领先 Gemini DeepThink 约 10 个百分点。

siyushenqi.com
2025 年 11 月 28 日
230000
行业动态

阿里巴巴预测2024电商三大趋势

马云：AI电商时代刚刚开始。

siyushenqi.com
2025 年 8 月 12 日
399000
行业动态

2021年健康和健身类应用实现持续增长

虽然健身房的防疫限制逐渐放松，仍有越来越多的人选择在家中健身。根据Adjust 的应用数据显示，健康和健身类应用持续增长，2021 年上半年会话同比增长 31%

siyushenqi.com
2025 年 8 月 25 日
359000
行业动态

除了Shein，中国还有哪些跨境快时尚电商？（二）

本文我们将通过子不语和兰亭集势等案例研究带大家继续分析其他玩家的得失。

siyushenqi.com
2025 年 8 月 12 日
333000
当年的索尼「中国之星」还有多少光芒？

2016年8月中旬索尼互动娱乐开启了「中国之星计划」，意在通过PlayStation平台扶持计划走向全球游戏市场的公司。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
363000
行业动态

4个月卷走10亿！这个“跨境平台”疑似暴雷？

近期，业内又爆出一起跨境骗局，再次给行业敲响警钟。这个曾号称“美国短视频跨境电商”的新兴平台，从高调上线到彻底消失仅用了四个月，导致二十余万卖家的投入资金化为乌有，涉案总金额超过十亿元。 01某平台卷款跑路据受害卖家反馈，这家跨境平台打着创新模式旗号，把“区块链、AI、跨境电商” 这些概念炒得天花乱坠，用噱头掩盖了违背基本商业逻辑的本质。在宣传层面，该…

siyushenqi.com
2025 年 11 月 17 日
238000
《蛋仔派对》亮相GDC，制作人揭秘如何打通UGC生态壁垒

“万物皆可蛋仔”

siyushenqi.com
2025 年 8 月 18 日 • 行业动态
403000
行业动态

6月海外微短剧APP投放数据出炉！

越来越多的短剧APP入局，短剧内容供给也在高速增长，增速明显高于国内市场。

siyushenqi.com
2025 年 8 月 18 日
314000
行业动态

印度电商平台有哪些？看看你知道几个？

达拉兹（Daraz）是一家中国拥有的在线市场和物流公司

siyushenqi.com
2025 年 8 月 13 日
336000
行业动态

OpenClaw集成多平台API的实用技巧

OpenClaw 是一个模块化的 API 集成平台，能够支持多平台和模型的无缝对接。通过其插件扩展功能，开发者和企业用户能够提升工作效率，简化跨平台的集成过程。平台的本地优先架构确保数据隐私得以保障，适合对数据安全有较高要求的应用场景。

siyushenqi.com
2026 年 3 月 10 日
240000
行业动态

2024，游戏圈的变革将从春节档开始

风口，亦是探寻营销新思路的窗口。

siyushenqi.com
2025 年 8 月 18 日
304000
年出货量破百万！独立站是他下一个突破点

3D打印机发展至今已经30多年的历史，虽然在国内并不是那么普及，但是对于海外的消费者来说，3D打印机正在影响着他们的生活

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
342000
行业动态

2024大模型之战：从技术浪漫到落地求生

从业者们从技术浪漫到商业务实的心态转变，正不断推高大模型市场竞争的激烈程度。

siyushenqi.com
2025 年 8 月 13 日
329000
行业动态

SpaceX宣布收购xAI

SpaceX以1.25万亿美元估值收购xAI，计划建设太空数据中心解决地面AI算力瓶颈，但两家公司均面临财务压力。

siyushenqi.com
2026 年 2 月 3 日
227000
行业动态

让 AI 从「语言智能」进化到「现实智能」，这家手机公司想得最透彻

荣耀在2016年推出了第一代荣耀 Magic 手机和 MagicUI 系统，标志着其在AI手机领域的初步探索。经过8年的发展，MagicOS 已经发展到9.0版本，积累了大量的手机智能化经验。

siyushenqi.com
2025 年 8 月 13 日
283000
行业动态

微信支付将支持绑定美国运通人民币信用卡又一巨头入局中国支付市场

6月14日，消息称腾讯金融科技与美国运通在华合资清算机构连通公司达成合作，微信支付将率先支持绑定即将面世的美国运通人民币信用卡。

siyushenqi.com
2025 年 8 月 26 日
375000
FB类似Snapchat的“消失模式”功能登陆Messenger和Instagram

Facebook周四宣布，其类似Snapchat的“阅后即焚”新功能 "消失模式"

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
378000
行业动态

大厂模型商用开源，阿里云起了个头

看来开源的力量势不可挡

siyushenqi.com
2025 年 8 月 14 日
347000
私域神器每周精选 No.19｜多个热门赛道精品游戏寻海内外合作与发行

本期精选的合作类型涵盖多款精品手游发行、资源合作与APP联运等。接下来就一起看看吧~

siyushenqi.com
2025 年 8 月 14 日 • 行业动态
302000
行业动态

拼多多“百亿减免”，电商行业转向的一大样本

百亿补贴，从用户补到商家。

siyushenqi.com
2025 年 8 月 5 日
348000
行业动态

Thread 被停用怎么办？封号原因与解决方法

随着 Threads 在全球范围内用户量的不断增长，越来越多出海营销者、社媒运营者、广告从业者开始将其纳入流量布局。然而，近期不少用户反馈：账号突然被限制或停用，严重影响投放与运营进度。本篇文章将梳理 Threads 封号常见原因、申诉思路，助大家解决难题。一、Threads账号为什么会被封？ Threads 属于 Meta 生态，其账号策略与 Inst…

siyushenqi.com
2025 年 11 月 17 日
669000

发表回复

登录后才能评论

联系我们

联系我们

+86 132-7601-9273

邮件：siyushenqi@gmail.com

工作时间：周一至周日 9:30-20:30

添加微信

添加微信

Email Telegram

返回顶部