全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
量子位·2025-10-01 03:03
AntResearchNLP 团队 投稿 量子位 | 公众号 QbitAI 下一步,大模型应该押注什么方向? PromptCoT 2.0:PromptCoT框架的一次全面升级 在一年前的这个时候,在整个AI社区都在思考大模型应该押注什么方向的时候,OpenAI公布了o1的预览版,通过深度思考的新范式以及在竞 赛数学代码任务上远远甩开gpt4o的性能,让整个大模型社区进入了"深度思考"时代。 如今,又是一年9月,蚂蚁与港大联合在大模型下半场押注 任务合成 。 为什么是任务合成? 蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称"团队")推出 PromptCoT 2.0 ,要在大模型下半场押注 任务合成 。 实验表明,通过"强起点、强反馈"的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的 SOTA 结 果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。 事实上,按照OpenAI规划的AGI蓝图,大模型社区正在从Reasoners向Agents急速推进,各种关于Agent的工作,包括搜索、软件 ...