Workflow
全模态融合
icon
Search documents
AI产业速递:从DeepSeek V3
2025-12-03 02:12
AI 产业速递:从 DeepSeek V3.2 看强化学习的新变化 20251202 摘要 Deepseek V3.2 通过 DSA 机制优化推理效率,减少冗余计算,尤其在 复杂任务中表现突出,取代了之前的 MLA 机制。 Deepseek V3.2 的 C9 版本在后训练阶段通过投入 10%的预训练计算 量,显著提升了模型在复杂任务(如代码调试)中的强化学习能力,达 到全球领先水平。 V3.2 采用高效的上下文管理策略,智能处理用户频繁开启新任务、多轮 对话及模糊输入,有效降低推理成本。 V3.2 使用大量人类专家编写并增量训练生成的高难度合成数据,比例较 之前增加一倍以上,对后续强化学习阶段至关重要,并消耗了大量算力。 Deepseek 在后训练阶段的创新,包括开源后训练结果和支持 Agent 调 用能力,使得开源模型在功能上可与闭源模型媲美,可能引领开源项目 的新趋势。 DeepMind 的新框架结合 Rubik's 规则提示机制,提高了强化学习效率, 促使大型科技公司加速探索多模态视频和图像领域的应用,推动 2025 年相关模型的发展。 稀疏化技术降低了训练算力要求,并提升了训练上限,预计到 2026 ...