Pre - training

Search documents
MiniMax 技术闭门会分享:长上下文是 Agent 的 Game Changer
Founder Park· 2025-07-18 18:24
MiniMax 在 7 月 10 日面向全球举办了 M1 技术研讨会,邀请了 来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、 vLLM、RL领域的研究者及业界嘉宾,就 模型架构创新、RL训练、长上下文应用等领域进行了深入的探讨。 嘉宾阵容很强大,聊的也很深入,Founder Park 授权转载了要点文章。 文章转载自「MiniMax 稀宇科技」。 Founder Park 联合外滩大会组委会、将门创投,征集能真正改变生活的 AI 硬件,寻找 AI 硬件的新可能。 扫码即可报名 01 RL能否赋予模型新能力? RL能否提升模型的基础能力?很多人认为,RL只是在激活模型在预训练阶段就已经学会的一些能力或技巧,不能够让模型从根本上学会 预训练阶段不存在的新技能,例如有些论文说,RL并不能提高模型的pass@k。 首先需要定义模型的基础能力。一个比较实用的定义是,对于给定的上下文长度,模型在一组特定问题上,在无限次尝试下的通过率(pass@k, k→∞)是多少。如果这个通过率等于1,就表示这个模型能解决这类问题。如果通过率等于0,就表示模型解决不了。如果模型的生成长度,即模 ...
OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-training
海外独角兽· 2025-07-02 11:03
两个 编译:haozhen 编辑:siqi 海外独角兽原创编译 转载请注明 去年以来,随着 OpenAI 在 o1 模型中提出 RL 叙事 ,以及 DeepSeek 发布的 R1 模型 解开了 RL 谜 题,AI 行业进入了新范式,智能的下半场也真正开启。 如果说过去 LLM 主要依赖于模式匹配与数据记忆,如今,推理能力的兴起让模型能力从表层关联跃 升到复杂认知。推理不仅仅是参数数量或训练数据的增加,而是能充分利用算力进行深度探索。因 此,推理能力既是涌现智能的重要催化剂,也是未来模型在科学发现、复杂决策与 multi-agent 协作 中的关键。 本篇内容是 OpenAI 研究员 Noam Brown 的最新播客。Noam 是全球最顶尖的推理研究员之一,他最 知名的两个项目分别是在德扑中击败顶尖人类玩家的 AI 系统 Libratus 和 Pluribus,2022 年他又开发 了首个在复杂多人策略游戏 Diplomacy 中达到人类水平的 AI,名为 Cicero。 这次播客中,他详细分享了自己在 scaling test time compute 上的前沿观点: • 推理(reasoning)是模型涌现 ...
从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?
机器之心· 2025-06-28 05:22
都是 NPT,用 RL 做预训练的潜力更大吗?为什么强化学习里很少有预训练模型?最流行的 RL 范式有何理论缺陷? 已有成效 的后训练 RL 实现存在什么问题? 2. 硅谷 AI Leaders 近期「暴论」大盘点! 1.从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗? 未来订阅 ChatGPT 就送人形机器人?AGI 为什么可能永远无法实现?为什么 AI 比程序员更显性价比?行业大模型真的没必要 吗?做好研究不如写好推文?OpenAI 和 Nvidia 的「AI 工厂」有何区别? 本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 9 项,国外方面 9 项。 本期通讯总计 23143 字,可免费试读至 9% 机器之心PRO · 会员通讯 Week 26 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- ① LLM 预训练对监督数据的需求趋于无穷,且需要覆盖尽可能所有遇到的问题,同时要求监督信号必须准确无 误,从而保证模型正确性。 ② 两项要求在现实中均难以实现,原因在于高质量人类标注数据 ...