Post Training

Search documents
重温《英伟达GTC 2025》:挖掘AI算力需求预期差?
2025-07-07 00:51
重温《英伟达 GTC 2025》:挖掘 AI 算力需求预期差? 20250706 摘要 美股算力领域表现突出,主要由推理和训练需求共振驱动,需关注大模 型和应用,而非仅依赖产业链数据。GTC 大会参会人数增加,AI 产业人 士占比提升,表明其对 AI 产业的重要性增强,蕴含大量信息差和预期差。 算力需求空间与 TOKEN 量密切相关,计算需求不断增加推动了这一趋 势的发展。海外算力公司的涨幅显著,仅靠传统业绩思路无法解释,需 深入分析 TOKEN 量如何影响计算需求,以及这些因素如何驱动未来趋 势。 Agentic AI 是推理模型衍生出的 AI 范式,强调任务分布执行和规划, 以完成某个任务为终极目标,通过拆解、分布、规划和执行来实现,能 够处理连续、多步骤的复杂或简单任务。 黄仁勋指出,现在不仅有预训练阶段,还有后训练(post training)和 测试时间(test time),这三个阶段都存在算力需求通胀,因此现在有 三条 skin law 曲线。 Q&A 全球 AI 算力跟踪的现状如何?与以往相比有哪些变化? 当前全球 AI 算力的跟踪方式与以往有显著不同。过去主要通过产业链数据进行 跟踪,但这种 ...
我在 Character.ai 做 Post Training|42章经
42章经· 2024-11-24 14:09
在我 9 月份的硅谷行程里,让我印象最深、最有收获的人之一就是 Ted。 他先后在 Meta、Apple、Google 和 Roblox 都工作过,并在 23 年年底加入了 Character.ai,做 Post Training。作为 C.AI 第四十来号员工,他对于 C.AI 的产品、模 型、训练等等的熟悉程度都非常高。 所以我这次特别把他请来,跟大家一起分享下美国最好的 AI 公司内部是如何运作的,Post Training 的最佳实践是怎么做的等等。 Inside C.AI 曲凯 : 我首先问一个问题,C.AI 一直是 AI 陪聊类产品的代表,各项数据都非常好,所以你们到底是哪个点做得比别人好? Ted: 我觉得 C.AI 走到现在,核心优势有三个: 1) 模型全自研带来的性能优势。自研模型有更大的自由度,我们可以自如地调整预训练阶段的语料比例,从而极大地提升对话效果。 2) Noam Shazeer 带来的成本优势。Noam 是创造 Transformer 的核心人物之一,一个真正少有的技术天才。创立 C.AI 后,他带领着一群业界最顶尖的技术团队,把 我们的推理成本压缩到了其它同参数量模型的 1% ...