200亿AI独角兽反击,MiniMax首款推理模型对标DeepSeeK,算力成本仅53万美元
Hua Er Jie Jian Wen·2025-06-17 11:57
当DeepSeek的推理模型震撼全球AI圈时,一家估值200亿人民币的中国独角兽正悄然磨刀霍霍,准备用仅53万美元的训练成本和颠覆性架构设 计,向这个新贵发起正面挑战。 17日,AI创业公司MiniMax发布了其首款推理模型M1,根据基准评测,M1性能超越国内闭源模型,接近海外最领先模型,部分任务超过 DeepSeek、阿里、字节,以及OpenAI、谷歌和Anthropic等最新最强的开闭源模型。 这场较量的核心不仅在于性能,更在于效率——与DeepSeek R1相比,在生成64K token时,M1消耗的算力不到其50%;在100K token时,仅为其 25%。 MiniMax称,M1的整个强化学习过程仅使用512块英伟达H800 GPU训练三周,租赁成本53.74万美元(约合380万人民币)。这一成本控制"比最 初预期少了一个数量级"。MiniMax创始人&CEO闫俊杰发文表示:"第一次感觉到大山不是不能翻越。" MiniMax-M1:混合专家架构与线性注意力机制 MiniMax-M1采用了混合专家(MoE)架构和线性注意力机制(Lightning Attention),这是对传统Transformer ...