强化学习

Search documents
强化学习在机械臂、四足、人形的应用有哪些?
具身智能之心· 2025-10-05 16:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 强化学习的主要功能与落地场景 说到具身智能机器人,无论是人形还是四足,都离不开的一个重要任务是步态控制,这也是迈向通用具身 必须要攻克的难关。而目前主要方案即是强化学习,宇树、智元等公司的人形机器人大多通过强化学习完 成对应任务,包括:爬楼梯、爬山、跑步、跳舞、翻跟头等各类高难度动作的学习,从而赋予产品能够适 应救援、测量、危险环境的场景。 除此之外机械臂的VLA+RL方案在学术领域越来越受欢迎,RL让机器人执行的更高效、丝滑与顺畅。 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 然而,强化学习涉及内容众多,而且非常吃研究经验。体系较大、内容繁杂,很多小白根本不知道怎么入 门,发出一篇论文更是难度极大。产出一篇符合对应标准的论文需要在方法论证、实验结果、写作方式等 几个大模块上突击。哪一环节出错了,都可能导致审稿人的low score。 没有完整的学习体系,将会处处踩坑,久久不能入门,导致最 ...
从「知题」到「知人」:UserRL让智能体学会「以人为本」
机器之心· 2025-10-05 06:42
"知人者智,自知者明。"——《道德经》 古人早已洞见:真正的人类智慧,不仅仅在于公式推演、掌握技艺,更是能理解他人、洞察人心。今天的大语言模型已能在代码、数学与工具使用上 出色 地完 成 任务 ,然而距离成为真正的 用户伙伴 ,它们依旧缺少那份 "知人" 的能力。这主要源于现实交互远比解题更加复杂: 这正是智能体面临的下一个时代课题: 从 "会解题" 迈向 "懂用户" 。而要真正回答这一课题,我们需要全新的动态评测框架与训练机制:不仅能测量模型在交互 中的表现,还能驱动其学会在用户不确定与多目标的世界里,问之有道,断之有衡,答之有据。为此,来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方 案: 二者相辅相成,把 "以用户为中心" 从理念落地为 可复现的流程、接口与评测指标 。 UserBench 论文链接:https://arxiv.org/pdf/2507.22034 UserBench 代码仓库:https://github.com/SalesforceAIResearch/UserBench 现实交互中, 用户目标常常未在最初完全成形 (underspecification)、而是 ...
仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板
具身智能之心· 2025-10-04 13:35
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 让机器人用多根手指灵活抓取物体,听起来简单,却是机器人操作领域困扰多年的 "老大难" 问题。想象一下:从拿起手机、握住水杯,到夹起薄如纸 片的便签、捏起直径不足 3 厘米的纽扣。这些人类习以为常的动作,对机器人而言,每一步都是高难度挑战。 传统强化学习方法为了让机器人掌握抓取技能,往往要在高自由度(DoFs)的动作空间里反复试错,不仅需要设计复杂的奖励函数和训练课程,还常 常 "学了抓杯子,就忘了抓卡片",泛化能力极差。更棘手的是,仿真环境中训练出的 "抓取高手",一到真实场景就 "水土不服"——没有了精确的物理 参数和物体接触点等 "特权信息",仅靠 RGB 或深度相机的视觉输入,再加上光照、背景变化的干扰,成功率断崖式下跌。 而那些小巧、纤薄的物体,更是传统方法的 "噩梦":硬币容易从指缝滑落,卡片难以找到受力点,想要无碰撞地抓起它们,仿佛让机 ...
北大校友、华人学者金驰新身份——普林斯顿大学终身副教授
机器之心· 2025-10-04 05:30
机器之心报道 机器之心编辑部 今天,华人学者金驰(Chi Jin)宣布他在普林斯顿晋升为终身副教授。 金驰于 2019 年加入普林斯顿大学电气与计算机工程系,担任助理教授。在普林斯顿的 6 年任期内,他在 AI 领域的学术影响力迅速提升。 个人主页: https://sites.google.com/view/cjin/ 他的副教授任命将于 2026 年 1 月 16 日正式生效。这一任命不仅是金驰个人学术生涯的重要里程碑,更是对他在机器学习理论领域所做出的基础性贡献的高度认 可,这些贡献为当前 LLM 的崛起提供了关键的数学基石。 去年 2 月, 金驰与杨笛一、杜少雷等华人学者一起获得了 2024 斯隆奖 。 主要贡献 金驰的职业生涯恰逢深度学习革命的爆发。自 2012 年 AlexNet 引领热潮以来,学界与业界在 2010 年代中期已能训练大规模非凸模型,但一个根本问题依然悬而未 决:为何像随机梯度下降(SGD)这样简单的优化器能如此有效,尤其在鞍点问题上缺乏理论解释。 金驰与导师 Michael I. Jordan 等人的合作正面回应了这一挑战,为深度学习的实践成功提供了坚实的理论基础。 与此同时,随 ...
理想基座模型负责人近期很满意的工作: RuscaRL
理想TOP2· 2025-10-03 09:55
RuscaRL是理想面对大语言模型强化学习探索瓶颈恶性循环,无法探索的内容便无法被有效学习给出 的一套解决方案。 核心思路是将教育心理学的脚手架理论AI化,脚手架的核心思想是学习者的能力不足时,通过结构 化的外部支持(例如逐步引导)帮助其逐步掌握新技能,并随着能力的提升逐渐减少支持,从而促进 独立学习。 无论是MindGPT还是MindVLA,一个面向数字世界,一个面向物理世界,未来的强化学习路线都有 机会因RuscaRL而获益,基于此理想基座模型负责人陈伟觉得这是最近他自己很满意的一个工作。 理想基座模型团队近期在思考的一部分问题与判断是: 认为强化学习是大模型智能提升的关键前提下,如何让模型和更广泛的环境交互,获取高质量的反 馈? 判断RLHF(人类反馈强化学习)、RLAIF(AI反馈强化学习)、RLVR(可验证奖励强化学习)等强化学习 技术路线,认为"如何 让模型面对更广泛的问题实现能力泛化?"是关键问题,对这个关键问题的拆 接事奖励函数是否在更多非客观且结果可准确量化的场景。 其中业界认可 强化学习是大模型智能提升的关键来自OpnAI o1,李想在o1推出前几个月下了同样的 判断。 "AI之后关键的问 ...
梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石
机器之心· 2025-10-02 01:30
为了在具身环境中解决复杂任务,智能体需要深入理解世界并选择成功的行动。世界模型通过学习从智能体(如机器人或电子游戏玩家)的视角预测潜在行动的 未来结果,为实现这一目标提供了一种有前景的方法。 通过这种方式,世界模型使智能体能够深入理解世界,并具备通过在想象中进行规划或强化学习来选择行动的能力。此外,原则上世界模型可以从固定数据集中 学习,这使得智能体能够纯粹在想象中进行训练,而无需在线交互。对于许多实际应用而言,离线优化行为很有价值,例如物理世界中的机器人,在这种情况 下,与未充分训练的智能体进行在线交互往往不安全。 世界模型智能体 —— 如 Dreamer 3—— 是迄今为止在游戏和机器人领域表现最佳且最为稳健的强化学习算法之一。虽然这些模型在其特定的狭窄环境中速度快且 准确,但其架构缺乏拟合复杂现实世界分布的能力。可控视频模型,如 Genie 3,已在多样的真实视频和游戏上进行训练,并实现了多样的场景生成和简单交互。 这些模型基于可扩展架构,如 diffusion transformer。然而,它们在学习物体交互和游戏机制的精确物理规律方面仍存在困难,这限制了它们在训练成功智能体方面 的实用性。此外,它们 ...
SemiAnalysis创始人Dylan最新访谈--AI、半导体和中美
傅里叶的猫· 2025-10-01 14:43
最近SemiAnalysis创始人Dylan Patel参加了不少播客,但他自称这个是最喜欢的其中一个。 我们之前写过不少SemiAnalysis的文章,Dylan对半导体公司的分析可以说是非常透彻,但对我们国家有些敌意,所以大家在看SemiAnalysis的报告时, 对那些涉及村内的事,要多留个心眼,SA的信息可能有偏见,需要再多方确认查证。 但这次的博客,个人认为干货还是很多的,访谈时间有两个小时,也解答了我自己想问的几个问题。从OpenAI和Nvidia的合作开始,讨论了AI计算需 求、模型训练的缩放定律、token经济学、强化学习的应用、未来应用场景、电力和供应链问题、美中AI竞争的差异,以及对几家公司的看法。Dylan的 观点基于他的硬件背景,分析得很具体。 OpenAI与Nvidia合作的具体情况 硬件推理速度没跟上。缩放定律基于计算、数据和模型大小,但互联网数据快用尽了。Dylan认为,文本预训练接近尾声,但多模态如图像和视频还有 空间。Google的Veo和Imagen模型就是靠这个扩展。没有架构改进,单纯扔更多资源就能进步,但实际中,模型大小受服务限制。扩展来说,播客提 到,如果模型进步停滞 ...
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
量子位· 2025-10-01 03:03
AntResearchNLP 团队 投稿 量子位 | 公众号 QbitAI 下一步,大模型应该押注什么方向? PromptCoT 2.0:PromptCoT框架的一次全面升级 在一年前的这个时候,在整个AI社区都在思考大模型应该押注什么方向的时候,OpenAI公布了o1的预览版,通过深度思考的新范式以及在竞 赛数学代码任务上远远甩开gpt4o的性能,让整个大模型社区进入了"深度思考"时代。 如今,又是一年9月,蚂蚁与港大联合在大模型下半场押注 任务合成 。 为什么是任务合成? 蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称"团队")推出 PromptCoT 2.0 ,要在大模型下半场押注 任务合成 。 实验表明,通过"强起点、强反馈"的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的 SOTA 结 果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。 事实上,按照OpenAI规划的AGI蓝图,大模型社区正在从Reasoners向Agents急速推进,各种关于Agent的工作,包括搜索、软件 ...
复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述
机器之心· 2025-09-30 23:49
近年来,以强化学习为核心的训练方法显著提升了大语言模型(Large Language Models, LLMs)的推理能力与对齐性能,尤其在理解人类意图、遵循用户指令以及 增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述,但其涵盖范围较为有限,未能全面总结强化学习在 LLMs 全生命周期中的作用机 制。 对此, 来自复旦大学、同济大学、兰卡斯特大学以及香港中文大学 MM Lab 等顶尖科研机构 的研究者们全面总结了大语言模型全生命周期的最新强化学习研究, 完成题为 "Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle" 的长文综述,系统性回顾了领域 最新进展,深入探讨研究挑战并展望未来发展方向。 论文标题: Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Acr ...
ChatGPT架构师,刚发布了最新研究成果
量子位· 2025-09-30 12:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 距第二篇研究仅过去三天,Thingking Machines发布了第三篇研究博客。 核心作者是OpenAI联创之一 John Schulman 。 Thingking Machines创始人、OpenAI前CTO Mira Murati继续转发站台。 第三篇研究是关于 LoRA参数的高效微调方法 ,题目为《LoRA Without Regret》,探究了LoRA匹配全量微调(FullFT)效率的条件,还 给出了大幅降低调参难度的简化方案。 当前主流大模型动辄万亿参数,预训练数据达数十万亿token,但下游任务往往只需要小数据集、聚焦特定领域。 用FullFT更新所有参数,资源浪费严重。 而LoRA作为参数高效微调(PEFT)的核心方法,通过低秩矩阵A和B(总参数远少于原权重)捕捉微调信息,却始终面临一个争议: 它真的 能追上FullFT的性能吗? John Schulman和Thingking Machines团队给出了肯定答案:只要抓准关键细节,LoRA不仅能和FullFT拥有相同的样本效率,还能达到一 样的最终性能。 下面具体来看。 LoRA最优学习率 ...