Workflow
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
机器之心·2025-06-02 05:22

机器之心报道 编辑:陈陈 随着大语言模型 (LLM) 的出现,扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此,无论是在工业界还是 学术界,探索如何扩展 Transformer 模型日益成为一种趋势。 在此背景下,LLM 的参数规模呈指数级增长,从数十亿级增长到数万亿级。因此,其爆炸式增长的参数规模也给训练带来了极其昂贵的负担,并且无法针对不同 的部署环境提供不同的推理用途。 鉴于这种日益增长的扩展律,如何开发和有效利用 LLM 来处理各种场景中的用户指令,已成为整个社区面临的一个开放且关键的挑战。 目前,扩展 LLM 架构存在以下问题: 本文,来自微软、复旦大学、浙江大学以及上海科技大学的研究者提出了一个新的概念, CoR(Chain-o f-Represe ntation,表征链) ,它将表征范式的范畴泛化 到更广泛的范围。 具体而言,本文观察到任何表征总是可以看作是隐藏维度上多个子表征的组合。因此,本文将这种组合定义为表征链,每个子表征对应一条链。基于此定义,通 过使用不同数量的前导链(preceding chains),其对应的特征可以用 ...