Workflow
LLM(大型语言模型)
icon
Search documents
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
机器之心· 2025-05-01 02:11
机器之心报道 该综述来自阿联酋人工智能大学、中佛罗里达大学、谷歌 DeepMind 和牛津大学等多所机构,涵盖通过强化学习增强 LLM 的技术、监督式微调、测试时扩展以及 LLM 后训练基准评估等内容。 机器之心在下面简要整理了该综述报告的内容主干,更多详情请访问以上链接。 编辑:Panda 现如今,微调和强化学习等后训练技术已经成为提升 LLM 能力的重要关键。 近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。 此外,仅通过下一 token 预测训练得到的模型可能无法与用户的期望或道德标准对齐,尤其是在模糊或恶意场景中 。这些问题表明,为了解决 LLM 输出中的可靠 性、偏差和上下文敏感性问题,还需要专门的策略。 近些年,大型语言模型(LLM)的能力在不断提升,应用领域也在急速扩展。尽管如此,仍有问题存在。 LLM 的训练过程大致可分为两个阶段: 预训练 和 后训练 。 预训练阶段通常依赖在大规模语料库上的下一 token 预测目标,后训练阶段通常则包括多轮微调和对齐。后训练机制的目标是通过优化模型行为来改进模型行为以 及实现与人类意图的 ...