Workflow
强化学习
icon
Search documents
8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
量子位· 2026-01-07 05:17
允中 发自 凹非寺 量子位 | 公众号 QbitAI 大模型下半场的战火,已经从"暴力预训练"烧向了"后训练"战场。 潞晨云微调SDK 正式开放上线——这是 国内首个全面开放、且兼容Tinker范式的Serverless微调平台 。 其基于Thinking Machine Lab开源的Tinker SDK构建,核心目标只有一个: 为复杂且昂贵的强化学习,提供一套更具成本优势的工业级解法。 拥抱后训练与RL:算法层与底层算力架构的解耦 随着OpenAI o1在推理能力上的突破,业界逐渐形成共识—— 无论是OpenAI o1的推理突破,还是DeepSeek-R1靠强化学习 (RL) 实现的性能飞跃,都释放了一个明确信号: 决定模型天花板的,不再只是算力堆砌,而是更精准的微调和RL迭代。 但现实很骨感——复杂的分布式基建、高昂的显卡租金、繁琐的架构调优,像一道道高墙,把无数算法工程师挡在了"炼丹房"外。 现在,这堵墙正在被推倒。 即大模型的能力突破已不再单纯依赖预训练 (Pre-training) 阶段的参数堆砌, 后训练(Post-Training) 特别是强化学习,正成为决定模 型实用价值的核心战场 。 以De ...
OpenAI前CTO首个创业产品Tinker,这里全量升级开放了,还有羊毛可薅
机器之心· 2026-01-07 05:16
机器之心发布 潞晨云微调 SDK 今日起全量开放,前 150 名用户通过专属链接注册,可获得 30 元 Token 使用额度: https://cloud.luchentech.com/account/signup?invitation_code=JQZX 当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab (TML) 用 Tinker 创新性的将大模型训练抽象成 forward backward,optimizer step 等⼀系列基本原语,分 离了算法设计等部分与分布式训练基础设施关联,把 "训练" 大模型变成了简单的 "函数调用" 时,行业进入一场从 "作坊式炼丹" 到 "工业化微调" 的升级。 潞晨云微调 SDK 正式开放上线 :基于 Thinking Machine Lab 开源的 Tinker SDK 构建,作为 国内首个兼容 Tinker 范式且全面开放的 Serverless 微调平台 ,为复杂 昂贵的强化学习提供更具成本优势的工业级解法 —— 开发者无需囤卡,rollout→reward→update 全链路按 Token 计价,让每一 ...
东方港湾黄海平2025年年报与展望:进化的底色!AI应用的算力需求空间巨大 容得下GPU与TPU一起共治天下
Xin Lang Cai Jing· 2026-01-07 02:19
专题:2025基金年终大盘点:冠军基年内狂飙233%,主动权益重获主导,全行业规模逼近36万亿新高 港湾观点︱进化的底色:东方港湾2025年年报与展望 港湾观点 作者:东方港湾黄海平 一、竞争:泡沫之本、活力之源 2025年末,资本市场继续飘荡着AI泡沫论。但在现实世界的过去两个月里,却出现了2025年以来,最 大的一次模型能力的进化。这次的主角是Gemini。 Gemini 3在各项评测上大幅超越了ChatGPT,其中最突出的是"多模态可交互"的能力提升。"多模态"意 味着不止以文字作为答案,而是结合图片、视频、声音、小程序等方式,跨模态来表达,相当于实时生 成一个网页或者程序来回答你的问题。"可交互"意味着不只是静态展示,而是动态的交互,多层次的展 示效果。例如,可视化托卡马克中的等离子体流动,将你的食谱做成一个可点击交互的小程序,用可交 互的动画来解释RNA 聚合酶如何工作的原理,等等。这是一次混合多模态数据下的预训练升级成果, 将更多模态原生化,也给预训练见顶的怀疑论一次很好的反击。 这也引发了AI行业的蝴蝶效应。OpenAI拉响了红色警报,并匆匆发布了不算惊艳的GPT 5.2。在最新 B200十万卡 ...
北大90后副教授董豪出任上纬启元首席科学家, 研究方向聚焦具身智能
Xin Lang Cai Jing· 2026-01-06 13:28
1月6日,据第一财经,北京大学90后长聘副教授董豪加入上纬新材的个人机器人业务品牌上纬启元,并 出任上纬启元的首席科学家。上纬启元表示,董豪将聚焦具身智能模型领域的技术研发与战略布局。 公开资料显示,董豪现任北京大学计算机学院前沿计算研究中心的长聘副教授,是科技创新2030国家重 大项目负责人(首席科学家),入选国家级高层次青年人才计划。研究方向聚焦于具身智能、大模型、 强化学习、计算机视觉以及相应的开源系统。核心目标是探索并构建兼具成本效益与通用性的机器人系 统。长期以来,始终深耕开源AI系统领域,牵头负责了多个开源项目。 出任上纬启元的首席科学家相关信息,已在董豪个人学术主页中更新确认。 业内分析认为,董豪教授在具身智能领域的深厚积淀,与上纬启元的技术研发需求高度契合,其加入将 进一步强化企业在核心算法、通用机器人系统等关键领域的竞争力。此次引入首席科学家,也表明上纬 新材正在强化其在消费级人形机器人的顶层科研布局。 今年7月8日,上纬新材公告,智元机器人拟通过其与核心团队共同出资设立的持股平台,以"协议转让 +要约收购"组合方式获取公司控制权。11月25日晚,上纬新材公告,公司第四届董事会第一次会议,全 ...
开年收到了很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2026-01-06 09:17
对于从事自动化和计算机的同学,建议搞深度学习,VLA、端到端、世界模型都是很好的方向,从入门、到 工作甚至读博都有很大空间。对于机械和车辆的同学,可以先学习传统PnC、3DGS这些方向。算力低、入手 简单。 剩下的就是一些方法论的提升了,多看论文多交流,慢慢形成自己的思考和idea。 对很多新人研究者,一个 好的idea需要踩很多次坑。如果你还是新人,不知道怎么入门,可以看看我们推出的论文辅导。 论文辅导上线了! 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 元旦后,收到不少同学的咨询,很多都是计算机、车辆、自动化和机械方向的同学。 先看自驾一些前沿的方向,VLA、端到端、强化学习、3DGS和世界模型。以及一些相对没那么拥挤的赛道像 开集目标检测、OCC、few-shot/zero-shot。很多研一和大四的同学往往无从下手,刚开始深度学习都还不懂, 更别说跟进前沿的方向了。是传统动力学还是深度学习?哪些还有发论文的需求?需要什么样的学习路线? 如果您有任意论文发表需求,支持带课题/研究方向咨询,欢迎联系我们, 微信:paperguidance 提供的服 ...
海尔消费金融2025年“特征英雄”落下帷幕,数智化风控质效显著
Sou Hu Cai Jing· 2026-01-06 07:50
值得一提的是,公司通过使用多模态大模型,提升了意图识别和风险判定的精度,能精准捕捉"还款困难"等语义特征。另外智能预警模型使早期风险识别效 率提升10%,为信贷业务安全、稳定开展提供了坚实保障。 今年,海尔消金"特征英雄"活动共吸引32名员工踊跃参与,从海量数据里挖掘出了2023个高质量特征!这可不是小数目——相当于给风控系统,添了2023 个"新武器"、"新视角"和"新战场"。 (2025年度特征英雄大赛颁奖仪式,图片来源:海尔消费金融) 本届"特征英雄"大赛一等奖获得者来自风险管理中心,其聚焦创新信息维度,一方面通过采用大模型来替代人工对语音数据做批量处理,提取有效信息用于 信贷模型研发,助力信贷风控策略有效施行,进一步降低信用风险;另一方面充分挖掘信贷场景中时序特征的潜在价值,突破传统"静态快照"局限,利用 RNN、Transformer等序列模型解析用户信息时序数据,精准识别"以贷养贷"行为,阻断风险传导。 近日,海尔消费金融有限公司(以下简称"海尔消金")2025年"特征英雄"活动圆满收官。据海尔消金风控管理中心相关负责人介绍,"特征英雄"活动旨在激 发公司全员坚持数据科学驱动的价值理念,深度挖掘金 ...
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 00:32
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在具身智能领域,机器人操纵作为核心难题,随着视觉、语言及多模态学习的飞速发展迎来变革。大型基础模型的出现,大幅提升了机器人的感知与语义表征能 力,使其能在非结构化环境中基于自然语言指令完成任务。由西安交通大学、香港科技大学(广州)等多所高校联合撰写的综述,以 "高层规划 + 低层控制" 的统一 框架,系统梳理了基于学习的机器人操纵方法,明确了当前技术瓶颈与未来方向,为该领域的研究提供了全面且结构化的参考。 论文名称:Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspectives 论文链接:https://arxiv.org/pdf/2512.22983 项目链接:https://github.com/BaiShuangha ...
田渊栋的2025年终总结:关于被裁和26年的研究方向
自动驾驶之心· 2026-01-06 00:28
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 最近太忙,只能把年终总结放到1月1日之后再写了,不管怎样,能开始动笔就是好事。 作者 | 田渊栋@知乎 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1990809161458540818 关于被裁 在2025年1月底被要求加入Llama4救火的时候,作为一直以来做强化学习的人,我事先画了一个2x2的回报矩阵(reward matrix),计算了一下以下四种可能(虽然在 那时,因为来自上面的巨大压力,不同意是几乎不可能的): | | 同意帮忙 | 拒绝帮忙 | | --- | --- | --- | | Llama4项目成功 | 成为英雄 | 被边缘化 | | Llama4项目未成功 | 为公司尽力 | 被人骂在公司需要时不出力 | 当时想的是我们去帮忙的话,即便最后项目未能成功,也至少尽力而为,问心无愧。不过遗憾的是,最后发生的是没在计算之内的第五种可能,这也让我对 ...
田渊栋2025年终总结:救火Llama4但被裁,现任神秘初创公司联创
机器之心· 2026-01-04 08:05
机器之心报道 去年 10 月,Meta 人工智能部门的裁员波及到了一大波人,其中包括了知名华人科学家田渊栋及其团队成员。 就在这两天,田渊栋分享了自己的 2025 年终总结。 他首先透露了自己「救火」Llama 4 项目的经历以及之后被裁、未来的工作规划;接着回顾了 2025 年的主要研究方向,包括大模型推理和打开模型的黑箱;最后 探讨了 AI 驱动下的社会变革、生产力重构以及个人价值的存续逻辑。 接下来为田渊栋知乎原文内容。 2025年终总结(一) 关于被裁 在 2025 年 1 月底被要求加入 Llama4 救火的时候,作为一直以来做强化学习的人,我事先画了一个 2x2 的回报矩阵(reward matrix),计算了一下以下四种可能 (虽然在那时,因为来自上面的巨大压力,不同意是几乎不可能的): | | 同意帮忙 | 拒绝帮忙 | | --- | --- | --- | | Llama4 项目成功 | 成为英雄 | 被边缘化 | | Llama4 项目未成功 | 为公司尽力 | 被人骂在公司需要时不出力 | 当时想的是我们去帮忙的话,即便最后项目未能成功,也至少尽力而为,问心无愧。不过遗憾的是,最后发生 ...
前OpenAI CTO押注的赛道,被中国团队抢先跑通,AI「下半场」入场券人人有份
机器之心· 2026-01-04 03:01
机器之心发布 在大公司一路高歌猛进的 AI 浪潮里,小创业者和高校研究者正变得越来越迷茫。就连前段时间谷歌创始人谢尔盖・布林回斯坦福,都要回答「大学该何去何从」 「从学术到产业的传统路径是否依然重要」这类问题。 AI,真的只是大公司的游戏吗?被算力掣肘的其他研究者、创业者,机会在哪里?在「强化学习」后训练引领「下半场」的当下,这个问题变得愈发重要。 好在,国内外都有专业团队在关心这个问题,比如前 OpenAI CTO Mira 创办的 Thinking Machines Lab,前段时间就推出了一个叫「Tinker」的产品,专注于解决后 训练 Infra 的复杂性。 而在国内,一群由 95 后青年科学家组成的团队做出了足以对标甚至超越 Tinker 的竞品,成为 世界第一家能够对标 Thinking Machines Lab 的公司 。 这个研究中心叫 Mind Lab ,是 Macaron AI 背后的实验室 。 1 月 1 日,他们发布了亮相以来的第一款产品—— Mind Lab Toolkit(MinT) 。这是一个 用 CPU 的 机器就能高效训练万亿参数模型的后训练平台, 且成本优化了十倍,一天即可 ...