推翻「预测下一个token」范式！微信AI新研究：把token压缩成连续向量更具性价比

鱼羊发自凹非寺量子位 | 公众号 QbitAI 大模型一个token一个token生成，效率太低怎么办？微信AI联手清华大学，提出了一个新的解法：一个token能装下的信息太少，不如把它们打包成连续向量，让大模型从预测下一个token，转变为预测下一个向量。研究团队给这种新范式取名 CALM（连续自回归语言模型）。实验表明，将K个词元压缩成一个连续向量，可以将语言模型建模为一系列连续向量，生成步骤减少至原来的1/K。还有网友提出，CALM像是DeepSeekOCR/Glyph的改进版。研究人员指出，预测下一个token的现有模型范式，一开始是因为基于字符级运行的模型计算量太大而被提出的。也就是说，方法背后的关键思想是：提升每个文本单元的信息密度，能够缩短序列长度并显著提升模型效率。进一步挖掘本质，可以总结出一条提升大模型生成效率的有效途径：持续提升每个预测单元的语义带宽。这样一来，模型就能在平衡性能和计算成本时，实现更高的性价比。有网友认为，这种方法看上去越来越接近大脑实际处理上下文的方式。提升每个预测单元的语义带宽问题在于，如果想让一个token装更多的信息，就得 ...