后训练

Search documents
AI Agent:模型迭代方向?
2025-05-06 02:28
AI Agent:模型迭代方向?20250503 摘要 • AI 商业化进展缓慢,To B 端尤为明显,微软 Copilot 未达预期,OpenAI 产品仍以 chatbot 为主,未进入 agent 阶段。Agent 准确率受限于大模 型能力,工程化手段成为完善产品的重要途径。 • Deepseek Prover V2 版本为解决 agent 产品化问题提供新思路,其核 心作者已公开相关信息,并在 GitHub 上提供论文,为提升 agent 执行复 杂任务的准确率提供了新的方向。 • OpenAI 和 Anthropic 在 autonomous AI system 研究方面均有进展, Anthropic 在技术积累上更超前,其 ComputeUse 系统运行时间早于 OpenAI 相应产品至少一个季度,在 agent 产品化和模型能力方面 Anthropic 或更具优势。 • 大型科技公司通过技术研发和工程化手段推动大模型发展, Deepseek、OpenAI 和 Anthropic 专注于技术研发,其他公司则采用工 程化手段完善产品,共同促进下一代 AI 产品的发展。 • Chatbot 和 Agen ...
AI Agent:算力需求空间?
2025-05-06 02:28
• Agent 与 Chatbot 不同,Agent 任务复杂度高,交互量大,所需 TOKEN 量远高于 Chatbot,对存储和内存要求更高,影响因素包括任务复杂度、 多模态处理、用户量等。 • 优化模型访问和推理方法包括使用低精度计算、模型蒸馏,以及硬件优化 如 KV 缓存优化,Salesforce 等公司 Agent 产品通常采用百亿参数规模模 型。 展。 综上所述,AI Agent 对算力的需求不仅包括新应用开发,还包括大量老 业务改造,这部分需求容易被忽略但实际非常重要。 如何拆解训练与推理环节中的具体算力需求? AI Agent:算力需求空间?20250505 摘要 • AI 应用逐渐渗透,算力推理需求快速增长,大厂改造现有业务而非开发全 新 APP,导致被忽略的算力需求非常重要,微软、谷歌等公司推理需求占 比可能达 60%-70%。 • 训练环节市场预期悲观,但实际情况可能更好,预训练边际效应减缓,后 训练增速不明显,细分领域仍有增长潜力,需关注 AI Agent 等潜在领域 价值。 • 算力产业链边际走弱,英伟达股价未创新高,市场对整体算力需求预期悲 观,但 AI 应用领域表现强劲,如 Pal ...