Workflow
架构精细化设计
icon
Search documents
新年首炸!DeepSeek提出mHC架构破解大模型训练难题
Sou Hu Cai Jing· 2026-01-07 09:13
新年第一天,DeepSeek悄悄发布了一篇论文。 这篇论文没办发布会,也没搞宣传,却在AI技术圈引发了不小的讨论。 论文提出了一种叫mHC的新架构,核心目标是解决大规模模型训练里的稳定性问题,同时还能保住性 能提升的优势。 圈外人可能听不懂这些术语,但只要搞明白大模型训练的核心痛点,就能理解这篇论文的价值。 大模型就像个复杂的信息处理工厂,残差连接就是工厂里的传送带。 文 |无言 早期的传送带是单通道的,靠着"恒等映射"的设计,能保证信息完整传递,训练起来也稳定。 可随着模型规模越来越大,单通道传送带就不够用了,信息拥堵得厉害。 大模型训练的两难困境 为了解决这个问题,字节跳动的团队之前提出了超连接方案。 这个方案相当于把单通道传送带改成了多通道,信息传输效率确实提高了,性能也跟着提升。 但新的问题很快出现了。 多通道没有统一的调度规则,信息在传输中会出现放大或压制的情况,就像失控的跷跷板。 这种情况直接导致训练过程中梯度爆炸,模型训练到一半就崩溃了。 本来想简单说下这个问题的严重性,但后来发现不举个例子不行。 有头部AI企业试过用类似超连接的方案训练千亿级模型,结果训练进行到一万多步时就频繁中断,损 失值突 ...