Hybrid Attention Architecture

Search documents
MiniMax 技术闭门会分享:长上下文是 Agent 的 Game Changer
Founder Park· 2025-07-18 18:24
MiniMax 在 7 月 10 日面向全球举办了 M1 技术研讨会,邀请了 来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、 vLLM、RL领域的研究者及业界嘉宾,就 模型架构创新、RL训练、长上下文应用等领域进行了深入的探讨。 嘉宾阵容很强大,聊的也很深入,Founder Park 授权转载了要点文章。 文章转载自「MiniMax 稀宇科技」。 Founder Park 联合外滩大会组委会、将门创投,征集能真正改变生活的 AI 硬件,寻找 AI 硬件的新可能。 扫码即可报名 01 RL能否赋予模型新能力? RL能否提升模型的基础能力?很多人认为,RL只是在激活模型在预训练阶段就已经学会的一些能力或技巧,不能够让模型从根本上学会 预训练阶段不存在的新技能,例如有些论文说,RL并不能提高模型的pass@k。 首先需要定义模型的基础能力。一个比较实用的定义是,对于给定的上下文长度,模型在一组特定问题上,在无限次尝试下的通过率(pass@k, k→∞)是多少。如果这个通过率等于1,就表示这个模型能解决这类问题。如果通过率等于0,就表示模型解决不了。如果模型的生成长度,即模 ...