后训练

Search documents
迎接AI——理性看待变革,积极布局未来
创业邦· 2025-07-07 10:27
在2025年北极光创投第十八届CEO峰会的圆桌论坛上, 北极光创投合伙人林路 携 Rolling AI创始合 伙人甘艺凡 , APUS创始人兼CEO李涛 , 北极光创投高级顾问李乐丁 三位嘉宾围绕"迎接AI——理 性看待变革,积极布局未来"这一主题展开探讨,从不同角度探讨了AI技术发展、场景落地与组织变 革之间的关系。 李乐丁从技术角度切入,指出大模型已经进入能力边界与不确定性凸显并存的新阶段,单纯追逐参数 规模意义有限,真正价值将来自与具体产品的深度融合,形成可持续场景价值。李涛随后从企业实操 层面,分享了APUS在代码生成、创意设计、医疗预诊等多个环节的AI落地经验,强调构建自身模型 体系和数据资产作为长期护城河是关键。甘艺凡结合超百个咨询项目经验,总结企业在应用AI时最常 见的误区是"高估短期价值、低估长期潜力",建议企业围绕"为什么要做?做什么?怎么做?"构建AI 应用的战略路径,并推动组织与文化的深度调整。林路最后提醒CEO们谨防"战略空心化",一切部署 都应回到业务本质,从实际业务出发落地AI。 以下为整理的圆桌讨论实录,有编辑与删节。 林路 :关于AI的未来,有人乐观,有人很谨慎,在座的几位嘉宾 ...
重温《英伟达GTC 2025》:挖掘AI算力需求预期差?
2025-07-07 00:51
重温《英伟达 GTC 2025》:挖掘 AI 算力需求预期差? 20250706 摘要 美股算力领域表现突出,主要由推理和训练需求共振驱动,需关注大模 型和应用,而非仅依赖产业链数据。GTC 大会参会人数增加,AI 产业人 士占比提升,表明其对 AI 产业的重要性增强,蕴含大量信息差和预期差。 算力需求空间与 TOKEN 量密切相关,计算需求不断增加推动了这一趋 势的发展。海外算力公司的涨幅显著,仅靠传统业绩思路无法解释,需 深入分析 TOKEN 量如何影响计算需求,以及这些因素如何驱动未来趋 势。 Agentic AI 是推理模型衍生出的 AI 范式,强调任务分布执行和规划, 以完成某个任务为终极目标,通过拆解、分布、规划和执行来实现,能 够处理连续、多步骤的复杂或简单任务。 黄仁勋指出,现在不仅有预训练阶段,还有后训练(post training)和 测试时间(test time),这三个阶段都存在算力需求通胀,因此现在有 三条 skin law 曲线。 Q&A 全球 AI 算力跟踪的现状如何?与以往相比有哪些变化? 当前全球 AI 算力的跟踪方式与以往有显著不同。过去主要通过产业链数据进行 跟踪,但这种 ...
中科院自动化所最新综述!VLA模型后训练与类人运动学习的共性
具身智能之心· 2025-06-29 09:51
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Tian-Yu Xiang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 想象学习走路的情景:尽管祖先的经验让一些与生俱来的能力(例如:平衡感、反应)被编码到我们的 DNA中,但要真正学会走路,仍需要在真实环境中不断练习、摔倒、再爬起。经过一段时间的训练,我们 的大脑和身体会逐渐协调一致,形成与环境交互的策略。这种 由通用能力到特定技能 的转变过程在人类中 十分常见,而如今, 智能机器人 也面临着类似的挑战:即便拥有强大的预训练模型作为"大脑",在执行具 体复杂任务前,仍需要经过类似于人类学习的"后训练"阶段,才能在新环境、新任务下达到理想表现。 1. 概述 这项工作从 人类运动技能学习 的角度系统性地对总结 VLA模型(视觉-语言-动作模型) 的 后训练(post- training)策略 。其主要贡献如下: (1) 从人类运动学习视角讨论了VLA模型后训练方法 :将人类运动技能 ...
肖仰华教授:具身智能距离“涌现”还有多远?
3 6 Ke· 2025-06-27 11:30
以生成式AI为代表的新技术浪潮日新月异,正带来一场深刻的技术、商业与社会变革,推动人类社会 从信息社会向智能社会转变。全世界热切期待AI到来的同时,也非常关心人工智能将带来哪些新机 遇、新挑战。 为此,我们发起了一项《AI & Society 百人百问》研讨,广泛邀请AI技术大咖、AI独角兽创始人、AI投 资人,以及社会学家、心理学家、国际关系专家、科幻作家等,用多元视角,深入研讨人工智能技术引 发的广泛影响,发掘AI时代的共识和非共识,共同推动人工智能始终朝着"助人发展,与人为善"的方向 可持续发展。 4.我们业界一直有一个基本的观点就是模型算法或架构是模型的下限,而数据决定模型的上 限。从行业来看,央国企等大甲方的主要职责是要能够把自己行业数据整理好和清洗好,这 是发展行业AI的关键。 5.具身智能ToC端的应用的核心是感性能力,如果将来机器人真的要走进千家万户,它必须 要能够跟我们共情,能够理解我的情感诉求,才有可能真正在 ToC 应用当中发挥作用。 6.某种程度上,我们今天采集的数据离具身智能涌现出泛化性所需达到的临界点,还相差非 常大的数量级,相较于语言大模型可能不止两三个数量级的差别。促进具身智能 ...
肖仰华教授:具身智能距离“涌现”还有多远?|Al&Society百人百问
腾讯研究院· 2025-06-27 06:59
徐一平 腾讯研究院 高级研究员 王强 腾讯研究院 资深专家 以生成式AI为代表的新技术浪潮日新月异,正带来一场深刻的技术、商业与社会变革,推动人类社会从 信息社会向智能社会转变。全世界热切期待AI到来的同时,也非常关心人工智能将带来哪些新机遇、新 挑战。 为此,我们发起了一项 《AI & Society 百人百问》 研讨,广泛邀请AI技术大咖、AI独角兽创始人、AI 投资人,以及社会学家、心理学家、国际关系专家、科幻作家等,用多元视角,深入研讨人工智能技术 引发的广泛影响,发掘AI时代的共识和非共识,共同推动人工智能始终朝着"助人发展,与人为善"的方 向可持续发展。 本期,我们非常荣幸地邀请到肖仰华老师,为我们开启一次AI的思想远航。 复旦大学计算与智能创新学院教授、博导,上海科学智能研究院AI科学家,上海市数据科学重点实验室主任。长期从事大数据、 认知智能研究。 曾荣获ICDE2024十年影响力论文奖、ACL2023杰出论文奖。发表 CCF-A 、B 类等论文 300 余篇。出版学术专 著与教材三部。曾获华为、阿里、美团等机构的科研奖项。担任 Applied Intelligence 等多个国际期刊副主编或 ...
一张卡干俩活,华为要把算力榨干
虎嗅APP· 2025-06-05 14:24
HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.11 :RL后训练 在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核 ...
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
21世纪经济报道· 2025-06-05 11:03
RL后训练已成为大模型性能突破的「杀手锏」,而算力浪费和集群效率低成为一大难题。这次, 华为团队祭出两大黑科技直接破局。不仅在CloudMatrix 384超节点实现MoE大模型训推共卡,资 源利用率翻倍,还打破了同步算法限制,让训练速度再提升50%。 在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核心路径。 爆火出圈的Op e nAI o 1、De e pSe e k -R1等模型,背后都是依靠RL后训练点石成金。 相较于预训练阶段的「广撒网」式知识获取,RL 后训练通过驱动模型与外部环境进行动态交 互,直接塑造了 LLM 在复杂任务中的推理效能。 当前, RL后训练阶段已经吃掉了训练全流程2 0%的算力,未来会飙升到5 0%,直接影响模 型的性能和成本。 在传统RL后训练中,训练和推理得排队干活,也就说大量算力都在「摸鱼」。 对此,华为团队拿出 「RL Fusi on训推共卡」 和 「St a l eSync 准异步并行」 两大黑科技, 把训练效率和资源利用率拉满。 · RL Fu si o n:让一张卡同时兼顾训练和推理两件事,资源利用率和吞吐翻倍。 · St a l eSy ...
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
雷峰网· 2025-06-05 09:17
RL后训练已成为大模型性能突破的「杀手锏」,而算力浪费和集群效率低成为一大难题。这次,华为团队祭出 两大黑科技直接破局。不仅在CloudMatrix 384超节点实现MoE大模型训推共卡,资源利用率翻倍,还打破了 同步算法限制,让训练速度再提升50%。 作者丨李希 在大模型竞赛白热化的当下,「强化学习后训练」已成为突破 LLM 性能天花板的核心路径。 爆火出圈的 OpenAI o1 、 DeepSeek-R1 等模型,背后都是依靠 RL 后训练点石成金。 相较于预训练阶段的「广撒网」式知识获取, RL 后训练通过驱动模型与外部环境进行动态交互,直接塑 造了 LLM 在复杂任务中的推理效能。 当前, RL 后训练阶段已经吃掉了训练全流程 20% 的算力,未来会飙升到 50% ,直接影响模型的性能和 成本 。 在传统 RL 后训练中,训练和推理得排队干活,也就说大量算力都在「摸鱼」。 对此,华为团队拿出「 RL Fusion 训推共卡 」和「 StaleSync 准异步并行 」两大黑科技,把训练效率和 资源利用率拉满。 · RL Fusion : 让一张卡同时兼顾训练和推理两件事,资源利用率和吞吐翻 倍。 · S ...
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
量子位· 2025-06-01 03:40
Ubiquant团队 投稿 量子位 | 公众号 QbitAI 无需标注数据、无需繁琐奖励设计,只用10步就能见效—— 「熵最小化」或许比强化学习更适合大语言模型快速升级 。 强化学习(RL)近年来在大语言模型(LLM)的微调中大获成功,但高昂的数据标注成本、复杂的奖励设计和漫长的训练周期,成为制约RL 进一步应用的瓶颈。 Ubiquant研究团队提出了一种极为简单有效的无监督方法——One Shot熵最小化(Entropy Minimization,EM),仅用一条无标签数据, 训练10步内即可显著提升LLM性能,甚至超过使用成千上万数据的RL方法。 一、从RL到EM:LLM微调的困境与新思路 当前,大语言模型(LLM)在经过海量数据预训练后,展现出了惊人的通用能力。然而,要让模型在特定、复杂的推理任务(例如数学、物理 或编程)上达到顶尖水平,后训练(post-training)主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。 尽管基于RL的微调在提升模型性能上取得了显著进展,但其过程却面临着一系列明显的弊端,使得这种方法成本巨大且过程繁琐。 相较之下,熵最小化(EM)提出了 ...
公元:DeepSeek只打开一扇门,大模型远没到终局 | 投资人说
红杉汇· 2025-05-11 05:09
DeepSeek如何改变中国AI投资?具身智能距离清晰商业化还要多久?这些热门话题吸引了众多资深投资人热烈 讨论。在 "第19届中国投资年会·年度峰会"上, 投中网主编曹玮钰 与 红杉中国合伙人公元 等嘉宾就当下AI与具 身智能等话题举行了一场别开生面的对谈。 公元从商业化的角度分析,今天的创业模式与互联网时代很大的不同在于,明确的商业化路线的重要性已经让 位于技术的颠覆创新。因为一个新模型能力的突破,用户可以瞬间转移。而现在具身领域很有可能处在AI赛道 2018年的阶段,市场还没有看到GPT时刻。但只要创业者和投资人相信AGI的未来,行业就一定能做出来。 以下为现场实录整理: AI还是在快速变化的时候,大家说AI一天,人间一年。现在很难预测未来会是哪几家在线上,后训练和预 训练像两只脚一样,可能是个需要双轮前进的事情,所有的公司都在这两条线上做努力,谁会先迈出下一 只脚,更进一步,是大厂,还是创业公司,我觉得大家都不知道,我们刚刚开始。 Q Q 大家好,这个环节叫 DeepChat ,我们主要想聊一下人工智能和具身的话题。我先来问一个问题,人工智能 和具身这两个赛道是不是足够大,或者说仍有非常大的非共识? ...