强化学习
Search documents
业内首个RL+VLA汇总:强化学习如何推动 VLA 走向真实世界?
自动驾驶之心· 2025-12-24 09:22
MindDrive WAM-Diff 论文标题 :MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning 论文链接 :https://arxiv.org/abs/2512.13636 项目主页 :https://xiaomi-mlab.github.io/MindDrive/ 提出机构 :华中科技大学、小米汽车 一句话总结 :为解决VLA模型在线强化学习中连续动作空间探索低效的问题,提出MindDrive框架,通过双专家(决策专家+动作专家)架构将动作空间转化为离 散语言决策空间,实现高效在线RL训练。 核心贡献 : 设计双LoRA适配器架构,决策专家负责场景推理与语言决策,动作专家将决策映射为可行轨迹,建立语言-动作动态映射。 构建基于CARLA模拟器的在线闭环RL框架,采用稀疏奖励与PPO算法,结合KL正则化避免灾难性遗忘。 在Bench2Drive基准上以轻量Qwen-0.5B模型实现78.04的驾驶分数与55.09%的成功率,超越同规模SOTA模型。 点击下方 ...
聊聊导航信息SD如何在自动驾驶中落地?
自动驾驶之心· 2025-12-23 00:53
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近和业内专家讨论了导航信息SD如何应用到自动驾驶中,分享给大家: 图商提供的导航信息SD/SD Pro目前已经在很多量产方案上使用了。导航可以提供车道、粗粒度的waypoint等信息,相当于给司机提供了一个粗略的全局和局部视 野,将导航信息应用到车端模型上也就顺水渠成。目前来看,导航模块的核心职责有两个: 当然还有非常重要的一part,提供参考线reference line,这是下游规控强需的信息,有了参考线,可以极大的减轻规划的压力,相当于车辆已经有一条行驶的参考路 线,只需在细化即可。 除此之外,还可以提供规划约束与优先级、路径监控和重规划。 1. 车道级的全局路径规划:搜索一条目标车道的最优lane sequence; 2. 给行为规划提供明确的语义指导,方便车辆提前准备变道、减速、让行; 具体涉及到自车定位、道路结构构建和感知定位匹配可以参考下图: 在两段式中,导航输入到感知模型中,输出navi path,navi path作为ml planner的输入进而预测自车的行驶轨迹。 在一段式框架中,SD ...
强化学习应用在自动驾驶中的一些思考
自动驾驶之心· 2025-12-23 00:53
Core Viewpoint - The article discusses the application of reinforcement learning (RL) fine-tuning in trajectory planning for autonomous driving, emphasizing the transition from open-loop to closed-loop training methods to enhance the effectiveness of training models [3][4]. Group 1: Training Methodology - The mainstream planning modules based on learning typically use imitation learning, which can struggle with out-of-distribution scenarios during real-world testing [3]. - A closed-loop training approach is proposed, which simulates real vehicle testing environments, making it more effective than open-loop training [4]. - The article introduces a network structure based on Waymo's previous work, MotionLM, which outputs trajectories in an autoregressive manner, ensuring causal relationships are maintained [4][6]. Group 2: Input and Output Structure - The network's input is designed to be scene-centered, summarizing static information over a specified time frame rather than relying on the current frame alone, which helps prevent the vehicle from navigating outside the perceived road [6]. - Many imitation learning methods combine single-frame perception with ground truth (GT) data over several seconds, which can lead to causal inconsistencies if the perception range is limited [7]. Group 3: Reward Function and Training Phases - The training process consists of two phases: pretraining and reinforcement learning, with a simple reward function that balances efficiency and safety by considering both GT fitting and collision avoidance [11]. - The reward function is calculated by normalizing the rewards across all samples and time steps, allowing for the omission of a critic network, similar to the GRPO method [13]. Group 4: Challenges and Future Directions - The article notes that many imitation learning methods introduce auxiliary losses that can lead to undesirable model outputs, highlighting the limitations of open-loop training [14]. - The core value of reinforcement learning lies in closed-loop learning, which can significantly enhance model capabilities even with smaller datasets [14].
专访地平线副总裁吕鹏:做不好端到端就做不好VLA
2 1 Shi Ji Jing Ji Bao Dao· 2025-12-23 00:45
今年前三个季度,国内20万元以上乘用车市场份额占比30%,13万元以下市场份额则高达50%,但后者 多数车型尚未配备城区辅助驾驶功能。这一广阔的蓝海市场,正吸引着地平线、Momenta等智驾厂商加 速布局,全力抢占市场先机。 今年4月,地平线正式推出基于征程6系列芯片的城区辅助驾驶解决方案——HSD(Horizon SuperDrive)。尽管并非该赛道的先行者,但地平线已快速迈入大规模量产阶段。11月,随着星途ET5 正式上市,地平线的HSD解决方案同步实现量产;另一款搭载该方案的车型深蓝L06也于同期发售。两 款车型上市短短两周后,地平线HSD的激活量便突破12000辆,量产落地成效显著。 除了推出全新的解决方案,地平线还通过生态拓展加速市场渗透。12月初的地平线技术生态大会上,公 司公布了两大生态推进举措:一是拓展生态合作模式,新增算法服务模式"HSD Together",并已与日本 电装、大众的合资公司CARIZON(酷睿程)、HCT(智驾大陆)达成合作;二是引入更多生态合作伙 伴,元戎启行、卓驭等企业已加入其生态体系。 缺乏芯片研发能力的算法公司、软硬研发实力薄弱的车企,正纷纷向地平线聚拢。地平线接 ...
机器人学习现状!PI团队内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-23 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多VLA与RL实战项目,欢迎加入国内首个工业级VLA实战课程 : 具身VLA实战与求职教程来啦~ 。 这次来学习一下 PI 内部人员写的 blog,介绍了很多 robot learning 的现状,而且都是一线的真正经验,很多在一线的同学应该深有感触,说了很多实话,质量很 高,值的精读和学习。不管是对 IL DAgger RL 的看法都是很一手的经验。 接下来请享受这份知识 基本上,目前(2025 年 12 月)所有机器人学习系统都是纯粹的行为克隆(BC,也称模仿学习)系统。人类提供(接近)最优的任务演示,机器学习模型则尝试模 仿这些动作。形式上,策略训练采用监督式方法——给定机器人的状态 (例如摄像头图像、机器人关节角度以及可能的任务描述文本),policy 预测已演示的动作 a 通常是一个动作片段(action chunk),例如接下来约 50Hz 的 1 秒动 作)。 本文档旨在描述现代生物认知技术栈的构成,以及其不足之处和(不完整/笨拙的)变通方 ...
智能驾驶行业专题:Robo-X的产业趋势、市场空间和产业链拆解
2025-12-22 15:47
智能驾驶行业专题:Robo-X 的产业趋势、市场空间和产 业链拆解 20251222 摘要 L4 级自动驾驶市场潜力巨大,预计 2030 年全球市场空间达万亿级别, 国内 Robot Taxi 和 Robot Van 潜在替代市场规模分别为 2,360 亿元 和 1,645 亿元,无人卡车、公交车和环卫车等细分赛道亦具潜力。 全球多地政府放宽自动驾驶限制,明确监管框架,推动智能驾驶发展。 中国北京、上海、广州、深圳等城市已开启 ROS 服务,武汉、重庆等城 市也在开放相关服务。 强化学习和世界模型是 L4 级自动驾驶底层技术,解决了传统模仿学习的 数据稀缺和模块依赖问题,提高了系统泛化决策能力,有效应对辅助驾 驶需要改进的重要场景。 Robotaxi 运营成本优势显著,无安全员情况下每公里运营成本仅 0.81 元,低于传统燃油和电动网约车。当运营车辆规模达 1,000 台时,有望 实现营业利润转正。 Robotaxi 商业模式多样,主机厂、自动驾驶公司和出行服务商合作是 主流。国内外企业加速布局,如特斯拉已在德州上线无人驾驶出租车, 累计行程超 40 万公里。 Q&A 目前 ROS 行业的整体趋势和市场空间如 ...
迪士尼机器人「摔跤」也内卷:不仅要摔得轻,还要摔得帅!AI新研究把Bug玩成绝活
机器人大讲堂· 2025-12-22 11:26
机器人摔倒是个大难题,尤其是 "头重脚轻"的机器人,一不小心就可能造成昂贵的损伤。过去,为了防止摔 倒,工程师们要么限制其性能,让它畏首畏尾;要么任其"硬着陆" 。 这些方法都治标不治本。 但是,如果换个思路呢? 与其想尽办法避免摔倒,不如把 "摔倒"本身,变成一门可以学习和控制的艺术。 就在最近,来自迪士尼研究院( Disney Research)的一项最新研究,彻底颠覆了我们对机器人摔倒的认 知。他们提出了一种名为"机器人速成班:学习柔软且风格化的摔倒"(Robot Crash Course: Learning Soft and Stylized Falling)的全新方法。 这项研究的核心思想是: 让机器人不仅能摔得 "软",最大限度减少冲击和损伤,还能摔得"帅",在倒地后摆 出一个用户指定的、充满艺术感的姿势。 想象一下,一个机器人在舞台上出现失误,它没有僵硬地倒下,而是顺势一个翻滚,最后以一个帅气的卧倒姿 势结束,不仅没出糗,反而秀了一波操作。这简直是把 Bug玩成了绝活! 这项研究成果,不仅能让机器人在娱乐、影视等行业大放异彩,更能为机器人的安全和快速恢复提供全新的解 决方案。一个能控制自己摔倒姿 ...
RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场
机器之心· 2025-12-22 08:17
强化学习(RL)在大语言模型和 2D 图像生成中大获成功后,首次被系统性拓展到文本到 3D 生成领域!面对 3D 物体更高的空间复杂性、全局几何一致 性和局部纹理精细化的双重挑战,研究者们首次系统研究了 RL 在 3D 自回归生成中的应用! 强化学习应用于 3D 生成的挑战 来自上海人工智能实验室、西北工业大学、香港中文大学、北京大学、香港科技大学等机构的研究者提出了 AR3D-R1 ,这是首个强化学习增强的文本到 3D 自回归模型。该工作系统研究了奖励设计、RL 算法和评估基准,并提出 Hi-GRPO ——一种层次化强化学习范式,通过分离全局结构推理与局部纹理 精修来优化 3D 生成。同时引入全新基准 MME-3DR ,用于评估 3D 生成模型的隐式推理能力。 实验表明 AR3D-R1 在 Kernel Distance 和 CLIP Score 上均取得显著提升,达到 0.156 和 29.3 的优异成绩。 论文标题:Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation 代码链接: https://github. ...
2025 文章、播客合集 | 42章经
42章经· 2025-12-21 13:32
2025 年,是我们 「All in AI」的第三年。 2023 年,我们发布了 20 期内容,陪大家一起从 0 开始,搞清楚 AI 到底是什么: 2023 文章、播客合集 2024 年,市场一度遇冷。但我们仍然保持乐观,发布了 34 期内容: 2024 文章、播客合集 到了今年,随着年初 DeepSeek 和 Manus 的发布,AI 真的变成了街头巷尾都会聊起的大众话题。 我们也保持节奏,更新了 22 期播客、18 篇文章,3 次被小宇宙首页推荐,播客订阅数也增长到了近 11 万。 以下是我们全年的播客合集(按分享量排序): 1. 组织能力才是 AI 公司真正的壁垒 | 对谈 Palona AI 联创任川 这是我们的第 50 期节目,也是我今年最有成就感的一期。 在聊过这么多创业者、看过这么多公司后,我们越来越清晰的一个判断是:在 AI 时代,组织能力的重要性被大大低估了。在这期节目里,我们就把硅谷最 AI Native 的组织方式带给了大家。如果能帮助国内创业者和公司往前一步,那就善莫大焉了。 ( 推送文字稿传送门 ) 2. 世界加速分化下,我们的机会在哪里? | 对谈绿洲资本合伙人张津剑 津剑是我们的 ...
机器人学习现状!Physical Intelligence内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-20 16:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多VLA与RL实战项目,欢迎加入国内首个工业级VLA实战课程 : 具身VLA实战与求职教程来啦~ 。 原文链接:https://vedder.io/misc/state_of_robot_learning_dec_2025.html 这次来学习一下 PI 内部人员写的 blog,介绍了很多 robot learning 的现状,而且都是一线的真正经验,很多在一线的同学应该深有感触,说了很多实话,质量很 高,值的精读和学习。不管是对 IL DAgger RL 的看法都是很一手的经验。 接下来请享受这份知识 基本上,目前(2025 年 12 月)所有机器人学习系统都是纯粹的行为克隆(BC,也称模仿学习)系统。人类提供(接近)最优的任务演示,机器学习模型则尝试模 仿这些动作。形式上,策略训练采用监督式方法——给定机器人的状态 (例如摄像头图像、机器人关节角度以及可能的任务描述文本),policy 预测已演示的动作 a 通常是一个动作片段(action chun ...