100万token!全球首个混合架构模型M1开源了!近期AI新鲜事还有这些……
红杉汇·2025-06-25 11:06
MiniMax-M1打造"最长"上下文窗口 MiniMax开源全球首个混合架构模型M1,该模型支撑全球最长的上下文窗口,包括100万token输入,8万 token输出。其性价比突出,仅用380万元、3周时间就完成训练。 这个模型有多猛?直接上数据: 不仅如此,在多个基准测试上MiniMax-M1的表现可比或超越DeepSeek-R1、Qwen3等多个开源模型,在工 具使用和部分软件工程等复杂任务上甚至超越了OpenAI o3和Claude 4 Opus。 MiniMax-M1的一大技术亮点是采用了Lightning Attention机制的混合注意力架构。 传统的Transformer架构计算复杂度是平方级,这意味着当模型进行更长的推理时,计算成本会急剧上升。 但Lightning Attention把 注意力计算分成块内和块间两部分 ,块内用传统注意力计算,块间用线性注意力的 核技巧,避免了累积求和操作 (cumsum) 拖慢速度。 原生支持100万token的输入长度,约是DeepSeek R1的8倍。 同时支持8万token输出,超过Gemini 2.5 Pro的6.4万,成为世界最长输出。 生成10 ...