MambaByte

Search documents
无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer
机器之心· 2025-07-12 04:50
机器之心报道 机器之心编辑部 Tokenization,一直是实现真正端到端语言模型的最后一个障碍。 我们终于摆脱 tokenization 了吗? 答案是:可能性无限大。 最近,Mamba 作者之一 Albert Gu 又发新研究,他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个 分层网络 H- Net,其用模型内部的动态分块过程取代 tokenization ,从而自动发现和操作有意义的数据单元。 「这一研究预示着 Tokenizers 正在退场,智能字节分块(Smart Byte Chunks)开始登场。或许无需 Tokenizer 训练的时代真的要来了 —— 可能性无限大。」X 知名 博主 Rohan Paul 表示道。 现阶段,Tokenization 仍然是语言模型和其他顺序数据不可或缺的组成部分,因为它能够压缩和缩短序列。然而 Tokenization 存在许多缺点,如可解释性差,在处 理复杂语言(如中文、代码、DNA 序列)时性能下降等。 迄今为止,尚未有任何端到端的无 tokeniz ...