Workflow
分离训练
icon
Search documents
通义千问深夜更新!Qwen3升级版迈向“分离训练”时代,性能全面超越Kimi-K2,Agent能力亮眼
硬AI· 2025-07-22 08:22
新版本模型在多项核心能力上实现了惊人飞跃,不仅全面超越了Kimi-K2等顶级开源模型,甚至领先Claude-Opus4-Non- thinking等顶级闭源模型。通义千问团队在发布更新的同时,还留下了一个悬念:"还有大招,马上就要来了!"这或意味 着分离训练的另一端——专注于复杂推理的"Thinking"模型可能也已在路上? 硬·AI 作者 | 硬 AI 编辑 | 硬 AI 01 性能"爆表", 这次升级有多猛? 根据官方发布的数据,新模型的通用能力获得了全方位强化,在多个权威测评中表现极其亮眼: 包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面,在GQPA(知识)、 AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能 力)等众多测评中表现出色,超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4- Non-thinking等领先闭源模型。 值得一提的是,本次更新的Qwen3模型在Agent能力尤其亮眼:在BFCL(Agent能力)测评中表现卓越。 这意味着模型在理解复杂指令、自主规划、调用工 ...