从MiniMax到DeepSeek:为何头部大模型都在押注「交错思维」?
机器之心·2025-12-04 06:10
| 机器之心报道 | | --- | | 编辑:杜伟、 +0 | 昨日,有位推特博主晒出了国内几大开源模型在轻量级软件工程 Agent 基准测试 mini-SWE-agent 上的成绩。该基准主要测试大模型在真实软件开发任务中的多步 推理、环境交互和工程化能力。 结果显示,MiniMax 新一代大模型 M2 的表现最佳,一举超越了 DeepSeek、GLM、Qwen、Kimi 等其他一众竞品厂商。 更多测试细节请查看: https://x.com/KLieret/status/1995949673551724717 作为一个发布之初以 Agent 和代码能力见长的大模型,MiniMax M2 在 mini-SWE-agent 测试中的亮眼表现并不令人意外。它不仅可以出色规划、稳定执行复杂长链 条工具调用任务,还能协同调用 Shell、Browser、Python 代码执行器和其他各种 MCP 工具。 支撑这些能力的关键技术正是 MiniMax M2 所采用的「Interleaved Thinking」(交错思维) , 通俗地讲即是一边思考、一边调用工具。这一技术的加持,使得该 模型能够在「思考 - 行动 - ...