MiniMax开源首个推理模型,456B参数,性能超DeepSeek-R1,技术报告公开
智东西6月17日报道,今日凌晨,"大模型六小虎"之一MiniMax发布全球首个开源大规模混合架构的推理模型MiniMax-M1,并官宣了为期五天的连更计 划。 M1参数规模为4560亿,每个token激活459亿参数,原生支持100万上下文输入以及业内最长的8万token推理输出,输入长度与闭源模型谷歌Gemini 2.5 Pro 一致,是DeepSeek-R1的8倍。此外,研究人员训练了两个版本的MiniMax-M1模型,其思考预算分别为40k和80k。 MiniMax在标准基准测试集上的对比显示,在复杂的软件工程、工具使用和长上下文任务方面,MiniMax-M1优于DeepSeek-R1和Qwen3-235B等开源模 型。 其博客提到,在M1的整个强化学习阶段,研究人员使用512块H800训练了三周,租赁成本为53.74万美金(折合人民币约385.9万元),相比其一开始的成 本预期少了一个数量级。 M1在MiniMax APP和Web上支持不限量免费使用。API价格方面,第一档0-32k的输入长度时,输入0.8元/百万token, 输出8元/百万token;第二档32k- 128k的输入长度时,输入1.2 ...