强化学习 - filings, earnings calls, financial reports, news - Reportify

强化学习

Search documents

业内首个RL+VLA汇总：强化学习如何推动 VLA 走向真实世界？

自动驾驶之心· 2025-12-24 09:22

MindDrive WAM-Diff 论文标题：MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning 论文链接：https://arxiv.org/abs/2512.13636 项目主页：https://xiaomi-mlab.github.io/MindDrive/ 提出机构：华中科技大学、小米汽车一句话总结：为解决VLA模型在线强化学习中连续动作空间探索低效的问题，提出MindDrive框架，通过双专家（决策专家+动作专家）架构将动作空间转化为离散语言决策空间，实现高效在线RL训练。核心贡献：设计双LoRA适配器架构，决策专家负责场景推理与语言决策，动作专家将决策映射为可行轨迹，建立语言-动作动态映射。构建基于CARLA模拟器的在线闭环RL框架，采用稀疏奖励与PPO算法，结合KL正则化避免灾难性遗忘。在Bench2Drive基准上以轻量Qwen-0.5B模型实现78.04的驾驶分数与55.09%的成功率，超越同规模SOTA模型。点击下方 ...

聊聊导航信息SD如何在自动驾驶中落地？

自动驾驶之心· 2025-12-23 00:53

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线最近和业内专家讨论了导航信息SD如何应用到自动驾驶中，分享给大家：图商提供的导航信息SD/SD Pro目前已经在很多量产方案上使用了。导航可以提供车道、粗粒度的waypoint等信息，相当于给司机提供了一个粗略的全局和局部视野，将导航信息应用到车端模型上也就顺水渠成。目前来看，导航模块的核心职责有两个：当然还有非常重要的一part，提供参考线reference line，这是下游规控强需的信息，有了参考线，可以极大的减轻规划的压力，相当于车辆已经有一条行驶的参考路线，只需在细化即可。除此之外，还可以提供规划约束与优先级、路径监控和重规划。 1. 车道级的全局路径规划：搜索一条目标车道的最优lane sequence； 2. 给行为规划提供明确的语义指导，方便车辆提前准备变道、减速、让行；具体涉及到自车定位、道路结构构建和感知定位匹配可以参考下图：在两段式中，导航输入到感知模型中，输出navi path，navi path作为ml planner的输入进而预测自车的行驶轨迹。在一段式框架中，SD ...

端到端算法

Autonomous Driving

《面向量产的端到端实战小班课》

导航信息SD/SD Pro

端到端算法

Autonomous Driving

《面向量产的端到端实战小班课》

导航信息SD/SD Pro

强化学习应用在自动驾驶中的一些思考

自动驾驶之心· 2025-12-23 00:53

Core Viewpoint - The article discusses the application of reinforcement learning (RL) fine-tuning in trajectory planning for autonomous driving, emphasizing the transition from open-loop to closed-loop training methods to enhance the effectiveness of training models [3][4]. Group 1: Training Methodology - The mainstream planning modules based on learning typically use imitation learning, which can struggle with out-of-distribution scenarios during real-world testing [3]. - A closed-loop training approach is proposed, which simulates real vehicle testing environments, making it more effective than open-loop training [4]. - The article introduces a network structure based on Waymo's previous work, MotionLM, which outputs trajectories in an autoregressive manner, ensuring causal relationships are maintained [4][6]. Group 2: Input and Output Structure - The network's input is designed to be scene-centered, summarizing static information over a specified time frame rather than relying on the current frame alone, which helps prevent the vehicle from navigating outside the perceived road [6]. - Many imitation learning methods combine single-frame perception with ground truth (GT) data over several seconds, which can lead to causal inconsistencies if the perception range is limited [7]. Group 3: Reward Function and Training Phases - The training process consists of two phases: pretraining and reinforcement learning, with a simple reward function that balances efficiency and safety by considering both GT fitting and collision avoidance [11]. - The reward function is calculated by normalizing the rewards across all samples and time steps, allowing for the omission of a critic network, similar to the GRPO method [13]. Group 4: Challenges and Future Directions - The article notes that many imitation learning methods introduce auxiliary losses that can lead to undesirable model outputs, highlighting the limitations of open-loop training [14]. - The core value of reinforcement learning lies in closed-loop learning, which can significantly enhance model capabilities even with smaller datasets [14].

自动驾驶轨迹规划

自动驾驶轨迹规划

专访地平线副总裁吕鹏：做不好端到端就做不好VLA

2 1 Shi Ji Jing Ji Bao Dao· 2025-12-23 00:45

今年前三个季度，国内20万元以上乘用车市场份额占比30%，13万元以下市场份额则高达50%，但后者多数车型尚未配备城区辅助驾驶功能。这一广阔的蓝海市场，正吸引着地平线、Momenta等智驾厂商加速布局，全力抢占市场先机。今年4月，地平线正式推出基于征程6系列芯片的城区辅助驾驶解决方案——HSD（Horizon SuperDrive）。尽管并非该赛道的先行者，但地平线已快速迈入大规模量产阶段。11月，随着星途ET5 正式上市，地平线的HSD解决方案同步实现量产；另一款搭载该方案的车型深蓝L06也于同期发售。两款车型上市短短两周后，地平线HSD的激活量便突破12000辆，量产落地成效显著。除了推出全新的解决方案，地平线还通过生态拓展加速市场渗透。12月初的地平线技术生态大会上，公司公布了两大生态推进举措：一是拓展生态合作模式，新增算法服务模式"HSD Together"，并已与日本电装、大众的合资公司CARIZON（酷睿程）、HCT（智驾大陆）达成合作；二是引入更多生态合作伙伴，元戎启行、卓驭等企业已加入其生态体系。缺乏芯片研发能力的算法公司、软硬研发实力薄弱的车企，正纷纷向地平线聚拢。地平线接 ...

端到端技术

端到端技术

机器人学习现状！PI团队内部员工分享（从数采到VLA再到RL）

具身智能之心· 2025-12-23 00:03

点击下方卡片，关注" 具身智能之心 "公众号编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多VLA与RL实战项目，欢迎加入国内首个工业级VLA实战课程：具身VLA实战与求职教程来啦～。这次来学习一下 PI 内部人员写的 blog，介绍了很多 robot learning 的现状，而且都是一线的真正经验，很多在一线的同学应该深有感触，说了很多实话，质量很高，值的精读和学习。不管是对 IL DAgger RL 的看法都是很一手的经验。接下来请享受这份知识基本上，目前（2025 年 12 月）所有机器人学习系统都是纯粹的行为克隆（BC，也称模仿学习）系统。人类提供（接近）最优的任务演示，机器学习模型则尝试模仿这些动作。形式上，策略训练采用监督式方法——给定机器人的状态（例如摄像头图像、机器人关节角度以及可能的任务描述文本），policy 预测已演示的动作 a 通常是一个动作片段（action chunk），例如接下来约 50Hz 的 1 秒动作）。本文档旨在描述现代生物认知技术栈的构成，以及其不足之处和（不完整/笨拙的）变通方 ...

机器人学习

机器人学习

智能驾驶行业专题：Robo-X的产业趋势、市场空间和产业链拆解

2025-12-22 15:47

智能驾驶行业专题：Robo-X 的产业趋势、市场空间和产业链拆解 20251222 摘要 L4 级自动驾驶市场潜力巨大，预计 2030 年全球市场空间达万亿级别，国内 Robot Taxi 和 Robot Van 潜在替代市场规模分别为 2,360 亿元和 1,645 亿元，无人卡车、公交车和环卫车等细分赛道亦具潜力。全球多地政府放宽自动驾驶限制，明确监管框架，推动智能驾驶发展。中国北京、上海、广州、深圳等城市已开启 ROS 服务，武汉、重庆等城市也在开放相关服务。强化学习和世界模型是 L4 级自动驾驶底层技术，解决了传统模仿学习的数据稀缺和模块依赖问题，提高了系统泛化决策能力，有效应对辅助驾驶需要改进的重要场景。 Robotaxi 运营成本优势显著，无安全员情况下每公里运营成本仅 0.81 元，低于传统燃油和电动网约车。当运营车辆规模达 1,000 台时，有望实现营业利润转正。 Robotaxi 商业模式多样，主机厂、自动驾驶公司和出行服务商合作是主流。国内外企业加速布局，如特斯拉已在德州上线无人驾驶出租车，累计行程超 40 万公里。 Q&A 目前 ROS 行业的整体趋势和市场空间如 ...

Pony Ai(US:PONY)

L4级自动驾驶

L4级自动驾驶

迪士尼机器人「摔跤」也内卷：不仅要摔得轻，还要摔得帅！AI新研究把Bug玩成绝活

机器人大讲堂· 2025-12-22 11:26

机器人摔倒是个大难题，尤其是 "头重脚轻"的机器人，一不小心就可能造成昂贵的损伤。过去，为了防止摔倒，工程师们要么限制其性能，让它畏首畏尾；要么任其"硬着陆" 。这些方法都治标不治本。但是，如果换个思路呢？与其想尽办法避免摔倒，不如把 "摔倒"本身，变成一门可以学习和控制的艺术。就在最近，来自迪士尼研究院（ Disney Research）的一项最新研究，彻底颠覆了我们对机器人摔倒的认知。他们提出了一种名为"机器人速成班：学习柔软且风格化的摔倒"（Robot Crash Course: Learning Soft and Stylized Falling）的全新方法。这项研究的核心思想是：让机器人不仅能摔得 "软"，最大限度减少冲击和损伤，还能摔得"帅"，在倒地后摆出一个用户指定的、充满艺术感的姿势。想象一下，一个机器人在舞台上出现失误，它没有僵硬地倒下，而是顺势一个翻滚，最后以一个帅气的卧倒姿势结束，不仅没出糗，反而秀了一波操作。这简直是把 Bug玩成了绝活！这项研究成果，不仅能让机器人在娱乐、影视等行业大放异彩，更能为机器人的安全和快速恢复提供全新的解决方案。一个能控制自己摔倒姿 ...

机器人速成班：学习柔软且风格化的摔倒

NVIDIA的Isaac Sim物理仿真平台

机器人速成班：学习柔软且风格化的摔倒

NVIDIA的Isaac Sim物理仿真平台

RL加持的3D生成时代来了！首个「R1 式」文本到3D推理大模型AR3D-R1登场

机器之心· 2025-12-22 08:17

强化学习（RL）在大语言模型和 2D 图像生成中大获成功后，首次被系统性拓展到文本到 3D 生成领域！面对 3D 物体更高的空间复杂性、全局几何一致性和局部纹理精细化的双重挑战，研究者们首次系统研究了 RL 在 3D 自回归生成中的应用！强化学习应用于 3D 生成的挑战来自上海人工智能实验室、西北工业大学、香港中文大学、北京大学、香港科技大学等机构的研究者提出了 AR3D-R1 ，这是首个强化学习增强的文本到 3D 自回归模型。该工作系统研究了奖励设计、RL 算法和评估基准，并提出 Hi-GRPO ——一种层次化强化学习范式，通过分离全局结构推理与局部纹理精修来优化 3D 生成。同时引入全新基准 MME-3DR ，用于评估 3D 生成模型的隐式推理能力。实验表明 AR3D-R1 在 Kernel Distance 和 CLIP Score 上均取得显著提升，达到 0.156 和 29.3 的优异成绩。论文标题：Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation 代码链接： https://github. ...

文本到3D生成

ShapeLLM - Omni

文本到3D生成

ShapeLLM - Omni

2025 文章、播客合集 | 42章经

42章经· 2025-12-21 13:32

2025 年，是我们「All in AI」的第三年。 2023 年，我们发布了 20 期内容，陪大家一起从 0 开始，搞清楚 AI 到底是什么： 2023 文章、播客合集 2024 年，市场一度遇冷。但我们仍然保持乐观，发布了 34 期内容： 2024 文章、播客合集到了今年，随着年初 DeepSeek 和 Manus 的发布，AI 真的变成了街头巷尾都会聊起的大众话题。我们也保持节奏，更新了 22 期播客、18 篇文章，3 次被小宇宙首页推荐，播客订阅数也增长到了近 11 万。以下是我们全年的播客合集（按分享量排序）： 1. 组织能力才是 AI 公司真正的壁垒 | 对谈 Palona AI 联创任川这是我们的第 50 期节目，也是我今年最有成就感的一期。在聊过这么多创业者、看过这么多公司后，我们越来越清晰的一个判断是：在 AI 时代，组织能力的重要性被大大低估了。在这期节目里，我们就把硅谷最 AI Native 的组织方式带给了大家。如果能帮助国内创业者和公司往前一步，那就善莫大焉了。（推送文字稿传送门） 2. 世界加速分化下，我们的机会在哪里？ | 对谈绿洲资本合伙人张津剑津剑是我们的 ...

Artificial Intelligence

Benchmark 与 Evaluation

Artificial Intelligence

Benchmark 与 Evaluation

机器人学习现状！Physical Intelligence内部员工分享（从数采到VLA再到RL）

具身智能之心· 2025-12-20 16:03

点击下方卡片，关注" 具身智能之心 "公众号编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多VLA与RL实战项目，欢迎加入国内首个工业级VLA实战课程：具身VLA实战与求职教程来啦～。原文链接：https://vedder.io/misc/state_of_robot_learning_dec_2025.html 这次来学习一下 PI 内部人员写的 blog，介绍了很多 robot learning 的现状，而且都是一线的真正经验，很多在一线的同学应该深有感触，说了很多实话，质量很高，值的精读和学习。不管是对 IL DAgger RL 的看法都是很一手的经验。接下来请享受这份知识基本上，目前（2025 年 12 月）所有机器人学习系统都是纯粹的行为克隆（BC，也称模仿学习）系统。人类提供（接近）最优的任务演示，机器学习模型则尝试模仿这些动作。形式上，策略训练采用监督式方法——给定机器人的状态（例如摄像头图像、机器人关节角度以及可能的任务描述文本），policy 预测已演示的动作 a 通常是一个动作片段（action chun ...

机器人学习

视觉-语言模型

机器人学习

视觉-语言模型