人工智能评估

Search documents
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己
量子位· 2025-09-26 04:56
西风 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI发布最新研究,却在里面夸了一波Claude。 他们 提出名为 G D Pv al 的新基 准 ,用来衡量AI模型在真实世界具有经济价值的任务上的表现。 最后OpenAI还 开源了包含220项任务的优质子集 ,并提供公开的自动评分服务。 具体来说,GDPval覆盖了 对美国GDP贡献最大的9个行业中的44种职业 ,这些职业年均创收合计达3万亿美元。任务基于平均拥有14年经验 的行业专家的代表性工作设计而成。 专业评分人员将主流模型的输出结果与人类专家的成果进行了对比。 最终测试下来, Claude Opus 4.1成为表现最佳的模型,47.6%的产出被评定媲美人类专家成果 。 GPT-5 38.8%的成绩和Claude还是有些差距,位居第二;GPT-4o与人类相比只有12.4%获胜或平局。 没能成为最优,OpenAI也给自己找补了:不同模型各有优势,Claude Opus 4.1主要是在美学方面突出,而 G P T-5在准 确 性 上更优 。 OpenAI还表示,同样值得注意的是模型的进步速度,其前沿模型在短短一年内,胜率几乎实现了翻倍。 网友看 ...