具身智能之心
Search documents
深扒PI π*0.6迭代式强化学习思路:VLA+在线RL,实现自我进化
具身智能之心· 2025-12-07 03:03
见证具身浪潮,书写智能新纪元 以下文章来源于具身纪元 ,作者具身纪元 具身纪元 . 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 在Physical Intelligence 最新的成果π 0.6 论文里,他们介绍了 π 0 .6迭代式强化学习的思路来源: 其中有我们熟悉的Yuke Zhu的研究,也有他们自己(Chelsea Finn、Sergey Levine)的一些研究,我们之前对这些工作一直有跟踪和介绍。此外,还有来自国内具身智能团队的 工作,比如清华大学、星动纪元的研究。 随着π*0.6的发布,VLA+online RL成为了一个行业共识的非常有前景的研究方向 深扒了Π*0.6的论文,发现它不止于真实世界强化 学习 英伟达也来做VLA在真实世界自我改进的方法了 大语言模型从SFT到RL的发展方向也逐渐在具身研究中清晰明朗。 一、为什么VLA+RL很重要 编辑丨 具身纪元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 图注:VLA模型依赖研读微调 在具身智能(Embodied AI)领域,科学家 ...
具身智能的黄埔军校,都有哪些东西?
具身智能之心· 2025-12-07 03:03
最近在为大家收敛具身科研的几个重点模块:行业内容、本体形态、算法、还有部署的一些方案,已经汇总 在我们的社区内部。 现已梳理了行业正在从事具身大脑、本体研发的公司(突然发现本体也卷不太动了......),以及一些比较活跃的 具身实验室。除此之外,还提供了很多行业研报,供大家判断具身的发展与周期。 本体方面,推荐几款适合科研的产品:SO-100系列、openarm系列、XLerobot系列等; SO100及升级版本,能上一些VA和VLA的算法,常见功能可以实现了; Openarm是一款双臂任务框架,目前有几家公司开始生产相关本体,缺乏移动能力,一些叠衣服、pick and place也都能满足。但从数据采集来看,VR版本更舒服。 算法层面,目前我们收拢了关于vla(训练、无需训练方式、vla+RL、vla+世界模型、vla轻量化、部署等)、 vln(时间语言、目标导航、点导航等)、运控(强化、MPC、WBC)、仿真(通用、真实)、触觉感知等多 个方向路线; 部署层面,目前大多集中在云端推理。边缘侧基于索尔的方案已经逐渐落地(vla模型),除此之外,类似于 小鹏这类公司基于自研芯片已经完成vlm/vla的部署。1 ...
已经有7所高校,在悄悄地设立具身专业了......
具身智能之心· 2025-12-06 03:11
点击下方 卡片 ,关注 "红岸" 公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 前两天分享了清华具身研究院和上交的具身专业开设,除了这两所,还有另外6所双一流高校正在申请增 设"具身智能本科专业"。以下为教育部公示的名单。 | 学校名称 | 专业名称 | 学位授予门类 | 申报类型 | 申请表 | | --- | --- | --- | --- | --- | | 北京航空航天大学 | 具身智能 | 工学 | 尚未列入目录的新专业 | 下载 | | 北京理工大学 | 具身智能 | 工学 | 尚未列入目录的新专业 | 下载 | | 北京邮电大学 | 具身智能 | 工学 | 尚未列入目录的新专业 | 下载 | | 东北大学 | 具身智能 | 工学 | 尚未列入目录的新专业 | 下載 | | 上海交通大学 | 具身智能 | 工学 | 尚未列入目录的新专业 | 下载 | | 浙江大学 | 具身智能 | 工学 | 尚未列入目录的新专业 | 下载 | | 西安交通大学 | 具身智能 | 工学 | 尚未列 ...
字节前技术负责人联手清华姚班校友创业!
具身智能之心· 2025-12-05 16:02
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 自「造词大神」Andrej Karpathy 提出「Vibe Coding」这个概念后,它的热度就居高不下。 只需一句提示词描述「感觉」和意图,AI 就能直接生成可运行的代码,这种近乎魔法的编程体验让一众开发者叹为观止。 输入提示词: write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate (编写一个 Python 代码,可视化单行道中交通信号灯的工作情况,车辆以随机速率 驶入), AI 就能在几秒钟内生成一个完整的动画模拟程序,包括交通灯的红黄绿切换逻辑、车辆的随机生成机制、停车和通行的判断规则,甚至还配上了流畅的可视化界面。 但惊喜过后,问题也随之而来。Vibe Coding 虽然擅长快速原型开发和单脚本编写,但在面对企业级复杂工程时仍显得力不从心。 受限于上下文窗口、推理深度 以及 Agentic 模式缺失, 它往往难以精准定位大型代码库中深埋的 Bug,也极易在 ...
对话多个行业大佬!VLA与RL方案在真机上的部署怎么样啦?
具身智能之心· 2025-12-05 16:02
Core Viewpoint - The article discusses the implementation challenges and advancements of VLA (Variable Latent Action) algorithms and Reinforcement Learning (RL) in robotics, focusing on their practical applications and future developments in the field of embodied intelligence [3][13]. Group 1: Guest Speakers - Wei Sui, Vice President of Diguo Robotics, has extensive experience in developing 2.5D and 3D vision algorithms for robotics and autonomous driving, leading a team that created a comprehensive 4D labeling system, with millions of chips shipped [5]. - Zhang Qiang, Chief Researcher and Academic Committee Director at Beijing Humanoid Robotics, specializes in humanoid robot motion control and multimodal perception, contributing to the development of core RL algorithms for humanoid robots [6][8]. - Wang Tiancai, Partner at Yuanli Lingji, has published over 30 papers in top international conferences and is a core author of notable algorithms in end-to-end autonomous driving [9][10]. - Yu Chao, Assistant Professor at Tsinghua Shenzhen Research Institute, focuses on decision intelligence driven by reinforcement learning, with over 50 published papers and significant academic recognition [11][12]. Group 2: Key Topics Discussed - The article addresses the pain points in the architecture and models of VLA, exploring how to enhance the overall motion control of robots [16]. - It discusses the integration of VLA with RL for better real-world application, including considerations for hardware selection and lightweight implementations [16].
最新分层VLA模型:使用失败的演示数据,也能优化VLA模型!
具身智能之心· 2025-12-05 16:02
作者丨 Jeonguen Park等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 研究背景与核心问题 现有VLA模型的局限 视觉-语言-动作(VLA)模型是机器人操作任务的核心技术,传统模型依赖人类遥控收集的成功演示数据训练,但数据采集过程中自然产生的大量失败尝试(如抓 取不稳定、碰撞等)常被当作噪声丢弃。这些失败数据蕴含着政策脆弱点的关键信息——揭示了哪些动作序列不可行、哪些场景下容易出错,而单纯依赖成功数据 的模型难以应对复杂环境中的不确定性,在未见过的场景中鲁棒性大幅下降。 核心挑战与研究目标 核心挑战在于如何有效整合离线数据中的失败信号:模仿学习(IL)中直接惩罚易失败动作容易扭曲政策,而强化学习(RL)虽能通过奖励信号自然处理失败数 据,但需要合适的框架承载。研究目标是构建一个分层VLA模型,将失败经验转化为结构化学习信号,通过显式的规划机制实现"失败感知推理",在不改变机器人 核 ...
SpatialActor:解耦语义与几何,为具身智能注入强鲁棒空间基因
具身智能之心· 2025-12-05 16:02
Core Insights - The article discusses the development of SpatialActor, a robust spatial representation framework for robotic manipulation, which addresses challenges related to precise spatial understanding, sensor noise, and effective interaction [21][24] - SpatialActor separates semantic information from geometric information, enhancing the robot's ability to understand tasks and accurately perceive its environment [21][6] Methodology and Architecture - SpatialActor employs a "dual-stream disentanglement and fusion" architecture, integrating semantic understanding from visual language models (VLM) and precise geometric control from 3D representations [6][21] - The architecture includes independent visual and depth encoders, with a Semantic-Guided Geometry Module (SGM) that adaptively fuses robust geometric priors with fine-grained depth features [9][10] - A Spatial Transformer (SPT) establishes accurate 2D to 3D mappings and integrates multi-modal features, crucial for generating precise actions [12][9] Performance Evaluation - In simulations, SpatialActor achieved an average success rate of 87.4%, outperforming the previous state-of-the-art model RVT-2 by 6.0% [13][19] - The model demonstrated significant robustness against noise, with performance improvements of 13.9% to 19.4% across different noise levels compared to RVT-2 [14][19] - Real-world experiments showed SpatialActor consistently outperforming RVT-2 by approximately 20% across various tasks, confirming its effectiveness in complex environments [19][18] Conclusion - The results highlight the importance of disentangled spatial representations in developing more robust and generalizable robotic systems, with SpatialActor showing superior performance in diverse conditions [21][20]
人大等团队提出Mixture of Horizons策略,解决VLA的“长短视”问题
具身智能之心· 2025-12-05 04:00
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 本文对VLA领域最新研究《Mixture of Horizons in Action Chunking》进行系统解读。 该工作由中国人民大学、北卡罗来纳大学以及香港中文大学的研究团队联合完 成,深入分析了被广泛采用的动作分块(Action Chunking)策略,提出了即插即用的Mixture of Horizons策略以缓解Trade-off问题。 并且更进一步提出基于跨视野一致性的动态推理(Dynamic Inference)策略提高VLA模型的推理效率。该工作在LIBERO Benchmark上取得了99%平均准确率的新 SOTA。代码和模型均已开源! 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 图 1: 动作块长度对 的影响。 然而,本文通过实验发现,单一动作块长度在 长期轨迹规划 以及 短期动作精度 之间存在明显的 Trade-off 。 论文链接 : https://arxiv. ...
RoCo Challenge @ AAAI 2026 面向机器人组装的具身智能国际竞赛
具身智能之心· 2025-12-05 04:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 我们诚邀您参加AAAI 2026期间举办的前沿机器人协作赛事 RoCo Challenge。本赛事由 Nanyang Technological University (NTU) 感知与具身智能实验室 (PINE Lab)、 A*STAR、 Carnegie Mellon University (CMU) 等机构联合主办,聚焦具身智能与人机协作的核心议题,旨在推动机器人在复杂生产与操作环境中的自主决策、协同规划与安全交互能力的 研究与落地。本届赛事设置了多个赛道,覆盖从虚拟仿真环境中的人机协作任务规划到真实机器人平台的多模态操作执行等环节。参赛队伍将面对真实工业与服务场景下的开 放式挑战,通过多阶段任务展现智能体在理解、沟通与行动层面的综合能力。 为鼓励创新与跨界合作,赛事将提供2000美元奖金与奖项证书,并为获胜队伍提供方案展示及在AAAI 20 ...
复刻pi0.6很难?SRPO:无需微调 Value Model,VLA-RL 也能刷新 SOTA
具身智能之心· 2025-12-05 00:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Senyu Fei等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 1 写在前面 在具身智能领域,强化学习 (RL) 正成为继有监督微调 (SFT) 之后提升视觉-语言-动作 (VLA) 模型表现的关键。最近 Physical Intelligence 发布的 利用 RECAP 框架证明了这一路径的潜力。然而,构建高质量的奖励或价值模型通常代价高昂。 图 1: 与 SRPO 价值函数曲线。图中三个场景取自 官方主页,白色曲线代表 的价值函数,而黄色曲线代表 SRPO 方法未经任务微调直接得到的价值 函数。在 中,该价值函数预测的是完成任务所需的负向步骤数,当机器人取得进展时,预测值会上升,而当进展甚微时,预测值则保持平稳;在SRPO 中则 直接预测任务的进展。 近期,OpenMOSS 团队与 SiiRL 团队联合带来最新工作 SRPO (Self-Referential Policy ...