推翻「预测下一个token」范式!微信AI新研究:把token压缩成连续向量更具性价比
量子位·2025-11-06 04:04

鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 大模型一个token一个token生成,效率太低怎么办? 微信AI联手清华大学,提出了一个新的解法: 一个token能装下的信息太少,不如把它们打包成 连续向量 , 让大模型从预测下一个token,转变为预测下一个向量 。 研究团队给这种新范式取名 CALM(连续自回归语言模型) 。 实验表明,将K个词元压缩成一个连续向量,可以将语言模型建模为一系列连续向量,生成步骤减少至原来的1/K。 还有网友提出,CALM像是DeepSeekOCR/Glyph的改进版。 研究人员指出,预测下一个token的现有模型范式,一开始是因为基于字符级运行的模型计算量太大而被提出的。 也就是说,方法背后的关键思想是:提升每个文本单元的信息密度,能够缩短序列长度并显著提升模型效率。 进一步挖掘本质,可以总结出一条提升大模型生成效率的有效途径: 持续提升每个预测单元的语义带宽 。 这样一来,模型就能在平衡性能和计算成本时,实现更高的性价比。 有网友认为,这种方法看上去越来越接近大脑实际处理上下文的方式。 提升每个预测单元的语义带宽 问题在于,如果想让一个token装更多的信息,就得 ...

推翻「预测下一个token」范式!微信AI新研究:把token压缩成连续向量更具性价比 - Reportify