Monte Carlo Attention
Search documents
AGI 新技术路线:下一代稀疏注意力机制 Monte Carlo Attention 开源
AI科技大本营· 2025-11-10 01:03
作者 | 超对称技术 出品丨AI 科技大本营(ID:rgznai100) 超对称技术公司在新版基座模型 BigBang-Proton 使用的 Monte Carlo 注意力,在二进制块编码(Binary Patch Encoding)技术上,用巧妙的块间代 表交流机制(Inter-Patch Delegation Mechanism),实现了线性复杂度,兼具了传统基于 QKV 调整的稀疏注意力、状态空间和线性注意力的优点, 且规避其缺点,为宇宙尺度的建模探索有效的注意力方案。 物质世界建模的上下文长度 Monte Carlo Attention 是为了解决 BigBang-Proton 框架的理论需求而开发的,尽管实际实现面临硬件约束。推动这一发展的基本假设包括几个关键 考虑因素。首先,对于自回归预训练, 二进制块编码 作为一种原生多模态方法,可以无缝地将所有数字数据格式转换为标准二进制序列,从而对超长 上下文长度提出了严格要求。 其次, 理论-实验学习范式 提供了在预训练期间跨尺度、结构和学科整合来自历史和正在进行的科学实验的实验数据的潜力,这需要远超纯自然语言预 训练的上下文长度。最后,在将宇宙视为单一实 ...