Workflow
大语言模型训练
icon
Search documents
无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码
机器之心· 2025-06-23 07:44
本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老师、香港中文大学(深圳)李肖老师的指 导下完成。 长序列训练对于模型的长序列推理等能力至关重要。随着序列长度增加,训练所需储存的激活值快速增加,占据训练的大部分内存。即便使用梯度检查点 (gradient checkpointing)方法,激活值依然占据大量内存,限制训练所能使用的序列长度。 来自港中文(深圳)和上海交通大学的团队提出 StreamBP 算法。通过对链式法则进行线性分解和分步计算,StreamBP 将大语言模型训练所需的激活值 内存(logits 和 layer activation)降低至梯度检查点(gradient checkpointing)的 20% 左右。 论文标题:StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs 在相同内存限制下,StreamBP 最大序列长度为梯度检查点的 2.8-5.5 倍。在相同序列长度下,StreamBP 的速度和梯度检查点接近甚至更快。 S ...
Gemini2.5弯道超车背后的灵魂人物
Hu Xiu· 2025-06-05 03:14
《硅谷101》创始人泓君邀请了Energent.ai联合创始人Kimi Kong和HeyRevia创始人Shaun Wei,一起和两 位前Google的技术专家聊聊Gemini模型登顶背后的底层逻辑。 以下是这次对话内容的精选: 一、Gemini2.5崛起背后的底层逻辑 泓君:谷歌此次发布的Gemini 2.5 Pro,在当前各项评测中的数据都是所有大模型中最好的,Kimi你可 以分析一下它是如何做到的吗? 从去年在大会前夜被OpenAI的4o模型"精准狙击",到今年Gemini 2.5 Pro全面霸榜。短短一年时间, Gemini是如何完成从追赶者到领跑者的逆转? Kimi:我已经离开DeepMind快一年时间了,也不太清楚我的前同事们在这一年中又做了哪些新的创 新。但大语言模型训练根本的步骤是不变的,包括以下三点:Pre-training(预训练)、SFT(Supervised Fine-tuning,监督微调)和利用RLHF(基于人类反馈的强化学习)技术做的Alignment(对齐)。 大概在去年的NeurIPS(神经信息处理系统大会)上,业内已经普遍承认,公开网络数据基本都已经抓 完了,就像化石燃料已 ...
大模型训练或无需“纯净数据”!北大团队新研究:随机噪声影响有限,新方法让模型更抗噪
量子位· 2025-02-27 09:37
实验结果揭示了一个反直觉现象:尽管NTP loss受到噪音的影响有些微提升,但是增加幅度远小于噪音占比。即使20%的数据被污染,模型 的下一个词预测损失仅上升约1%。 北大团队 投稿 量子位 | 公众号 QbitAI 传统的大语言模型训练需要依赖"纯净数据"——那些经过仔细筛选、符合标准语法且逻辑严密的文本。但如果这种严格的数据过滤,并不像我 们想象中那般重要呢? 这就像教孩子学语言:传统观点认为他们应该只听语法完美的标准发音。但现实情况是,孩童恰恰是在接触俚语、语法错误和背景噪音的过程 中,依然能够掌握语言能力。 来自北大的研究人员通过在训练数据中刻意添加随机乱码进行验证。他们试图测试模型在性能受损前能承受多少"坏数据"。 实验结果表明,即便面对高达20%的"垃圾数据",训练依然可以正常进行,且Next-token Prediction (NTP) loss受到的影响不足1%!他们不 仅揭示了噪声与模型性能的复杂关系,还提出了一种创新的"局部梯度匹配"方法,让模型在噪声环境中依然保持强劲表现。 是什么:随机噪音会有什么影响? 研究者利用OpenWebText数据集,训练了多个GPT-2相同架构和参数量的语言 ...