DeepSeek上新mHC,R2还远吗?

去年1月,春节前夕,"DeepSeek冲击波"席卷业界,中美同时"破圈",成为年度现象级事件。而2026年 一开年,DeepSeek又惊喜时刻进一步提前。 1月1日,DeepSeek在AI开源社区HuggingFacear和研究分享平台arXiv发布论文,提出了名为mHC (Manifold-Constrained Hyper-Connections)的新型神经网络架构优化方案,再次引发讨论热潮,其对 AI产业,包括大模型、芯片等领域可能产生的影响也备受瞩目。 图片来自DeepSeek论文"mHC:Manifold-Constrained Hyper-Connections" mHC架构让大模型训练更稳、更快、更省 DeepSeek此次提出的mHC架构,建立在字节豆包大模型Foundation团队2024年11月发布的Hyper- Connections(HC)基础上。 彼时,豆包团队宣称HC有望替代大模型开发领域沿用近10年的ResNet残差神经网络架构,通过拓宽残 差连接宽度,增加连接模式多样性,提升大模型性能和灵活性。 不过,HC只在理论推演和小模型实验中取得了成绩,在大模型训练中,残差连接通道间的交互 ...