3700 次预训练寻找 “线性注意力” 非共识，MiniMax-01 开发者讲述 4 年探索

"我们跑的是下半场，赌的就是未来的长文本需求。" MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax-01，该模型就用到了他们开发的线性注意力机制 "Lightning Attention"。我们邀请了这个项目的负责人，MiniMax 高级研究总监钟怡然，来与我们一起聊线性注意力的研发过程。钟怡然在 MiniMax 负责大模型网络架构设计，目前正开发多模态深度推理模型。钟怡然曾担任上海人工智能实验室青年科学家，是新架构探索组的 PI（项目负责人）；他在澳洲国立大学获得博士学位，师从李宏东教授和 Richard Hartley 院士。他和他的团队已在一些国际顶级学术会议和期刊上发表了 20 余篇关于模型新架构的论文，覆盖了当前多类非 Transformer 架构，如线性注意力机制（线性注意力）、长卷积（Long Convolution）和线性循环网络（Linear RNN）。在 2021 年，线性注意力还是一个 "看起来很美好的泡泡"，怡然和团队就开始探索线性架构的实现。嘉宾丨钟怡然整理丨刘倩程曼祺上期播客中，我们与清华的两位博士生，肖朝军和傅 ...