Workflow
具身智能之心
icon
Search documents
从零开始!使用低成本机械臂复现pi0和pi0.5~
具身智能之心· 2025-12-25 01:41
Core Viewpoint - The article emphasizes the increasing demand for VLA (Vision-Language Alignment) algorithms in the industry, highlighting the challenges faced by practitioners in data collection and model optimization [2][4]. Group 1: Industry Demand and Challenges - There is a significant demand for VLA algorithms, as reflected in the numerous job postings and research papers related to this field [2]. - Practitioners often face difficulties with VLA due to complex data collection processes and the reliance on hardware, leading to frustrations about wasted time and ineffective model training [2][4]. - Many companies in the embodied intelligence sector are committed to using real machine data, but the quality of this data can be suboptimal, complicating the training process [2][4]. Group 2: Educational Initiatives - The article introduces a practical course aimed at addressing the learning curve associated with VLA, developed in collaboration with industry experts [5]. - The course covers a comprehensive curriculum, including hardware, data collection, VLA algorithms, and real-world applications, designed to facilitate effective learning [8][9]. - Participants in the course will receive a SO-100 robotic arm, enhancing hands-on experience and practical application of the learned concepts [9]. Group 3: Course Structure and Content - The course is structured into nine chapters, covering topics from VLA basics to advanced model deployment and evaluation [11][12][13][14][15][16][17][18]. - Key areas of focus include data acquisition, model training, simulation environments, and the integration of VLA with world models [8][9][11][12][13][14][15][16][17]. - The course aims to equip learners with the necessary skills to transition into roles as algorithm engineers with 1-2 years of experience upon completion [25].
27秋具身方向博士联合招生|北大王鹤老师 x 清华弋力老师 x 银河通用张直政博士
具身智能之心· 2025-12-25 01:41
北京大学计算机学院前沿计算研究中心王鹤教授团队、清华大学交叉信息研究院弋力教授团队与银河通用机器人(Galbot)张直政博士团队 正式启动2027级博士生联 合招生计划。 联合招生团队面向 27秋入学博士生有北大计算机学院、清华叉院及AI院、智源-中科院自动化所联培、上海期智研究院-上交联培、上海期智研究院-上科大联培及中 关村学院等共计十个以上博士名额,港澳台及外籍学生还有专属名额。 我们将选拔优秀的 大三本科生、硕二研究生及低年级本硕学生进入具身联合招生科研实习冬令营进行科研实习,实习场地为银河通用北京总部 。实习期间表现将 作为2027级博士生录取的直接依据。 这是一个集结了" 顶尖学术导师 "与" 两百亿具身独角兽企业 "的黄金组合,我们诚邀全球顶尖学子加入,共同定义通用机器人的未来! 点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 弋力 博士 | 清华大学 弋力博士现任清华大学交叉信 ...
从 2D 感知到 3D 预测:GeoPredict 重构VLA模型的几何推理能力
具身智能之心· 2025-12-25 01:41
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jingjing Qian等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操纵领域,视觉 - 语言 - 动作(VLA)模型凭借大规模预训练数据的语义与视觉先验,实现了跨任务泛化,但长期受限于 2D-centric 的反应式决策范式, 难以应对需要精准 3D 空间推理、长时程物理一致性的复杂任务。 香港中文大学(深圳)、湖南大学、理想汽车等联合团队提出的 GeoPredict 框架 ,以 "预测性运动学 + 3D 高斯几何" 为双核心,通过 "轨迹级运动预测 - 3D 高斯 场景建模 - 训练时监督推理时轻量化" 的创新架构,首次将未来感知的几何先验注入连续动作 VLA 模型,彻底突破了传统方法的空间推理瓶颈。 论文题目:GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Preci ...
深扒了具身的数据路线,四小龙的格局已经形成......
具身智能之心· 2025-12-24 10:04
Core Viewpoint - The development of embodied intelligence over the past 25 years has focused on a closed-loop process of data collection, model training, data scaling, and model optimization, with data remaining a key focus for future advancements [1][5]. Group 1: Data Routes - The industry is not selecting a single optimal solution but is progressing along four distinct data routes simultaneously, each addressing different constraints and stages [3]. - The four data routes have led to the emergence of a competitive landscape termed the "Four Little Dragons of Embodied Data," with key players including Zhiyuan, Galaxy, Tashi, and Luming [4][34]. Group 2: Data Route Descriptions - **Remote Control Real Machine**: This route provides the most authentic data but is also the most expensive and slow, requiring real robots and specialized operators, making it difficult to scale [8][12][14]. - **Simulation Data**: Offers high efficiency and scalability, but faces challenges due to the domain gap, limiting its effectiveness in real-world applications [16][18][20]. - **Human Video**: This route is cost-effective and covers a wide range of scenarios but lacks critical feedback mechanisms and is not a primary data source for initial capabilities [22][25]. - **UMI Data**: This approach decouples real interaction data from specific robots, allowing for more versatile and scalable data collection, thus becoming a foundational infrastructure for embodied data [27][30][31]. Group 3: Industry Practices - In the remote control real machine data direction, Tesla is advancing its remote operation system, while Zhiyuan Robotics is deepening its focus on real bodies and task loops [35]. - In the simulation data route, Galaxy General is expanding synthetic data scale through computational power and simulation engines [35]. - In the human video data direction, Tashi is developing large-scale human behavior video datasets to enhance semantic coverage [35]. - The UMI route is represented by Luming Robotics, which has made significant strides in scaling and engineering UMI data collection systems [35][39]. Group 4: Future Implications - As the industry transitions from proving feasibility to continuous evolution, the ability to consistently produce high-quality real data will become increasingly critical [37]. - The four data routes are not mutually exclusive; they each play distinct roles in the overall ecosystem, contributing to a clearer path forward for embodied intelligence [38][40]. - The importance of time accumulation is emphasized, particularly for the UMI route, which relies heavily on early choices and sustained investment [41][42]. - The current landscape of the "Four Little Dragons" serves as a structural description of the industry, with future success dependent on which routes and teams can maintain operational continuity and data advantages [44][45].
李弘扬老师团队最新工作X0!超低成本高效实现机器人操作任务~
具身智能之心· 2025-12-24 04:01
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 Veni, vidi, vici. "Veni, Vidi, Vici"——即"我来,我见,我征服"。正如尤利乌斯·凯撒在泽拉一役的速胜诠释了战略效率,我们也力求攻克机器人领域的"珠穆朗玛峰":在真实场景的 服装操控任务中实现100%的可靠性。在这项使命里,"Veni(数据采集)""Vidi(模型训练)""Vici(实机推理)"构成了递进且环环相扣的链条,每一环都至关重 要。现有基础模型(如Pi0与GO-1)得靠"暴力堆规模"才能勉强达到这一水平,而我们提出了更高效的方案:仅用常规成本的一小部分,就能实现0%到100%的可靠 度,只需20小时人类演示数据+8台A100 GPU,而非行业常用的数万小时数据+数百台GPU。 通过一套三阶段技术理念实现了这一点,主要优化了从"感知"到"攻克"的衔接: a. 模式一致性 :并非所有数据 ...
具身智能之心元旦开始送一波福利了(课程/具身硬件/科研辅导等)
具身智能之心· 2025-12-24 04:01
时间: 12.24号-1.5号 项目辅导: 1v1求职辅导, 优惠中 ... .: # 科研论文辅导欢迎添加微信 paperguidance了解更多 课程、知识星球、硬件欢迎添加 小助理微信AlDriver005了解更多 付费课程与社区 1.所有具身课程7.5折优惠 2.知识星球新人加入6折,老学员续费5折 3.高性价比的具身科研机械臂最高减1500 (今年首次) 自活动开始日起,具身课程消费满3000, 赠送具身高质量课程一门(课程联系小助理领取) 论文/项目辅导 *100 【振】17 ...
今年的VLA+RL的工作正在排队等着录用......
具身智能之心· 2025-12-24 00:25
点击下方 卡片 ,关注" 具身智能 之心 "公众号 最近在盘VLA+RL的工作,不管是基于世界模型的在线方案,还是offline,VLA好像始终离不开RL。仅依赖 模仿学习的 VLA 在真实世界 OOD 场景中仍然脆弱,缺乏失败恢复、自主探索与闭环纠错能力。强化学习 (RL)的优势在于能够显著提升VLA模型的泛化能力,一些工作的实验显示分布外任务上的性能提升可达 42.6%。有效果,就有很多工作继续跟进,今年产出了好多篇paper~ 近期的几个工作,包括wholebodyvla、pi0.6、GR-RL都取得了惊艳的效果,pi0.6推出的时候很多同学说大概 率就是+强化。世界模型加持的在线系统也是比较活跃的方向,期望有更多突破。 工具上,VLA+RL框架也在逐渐完善,这里也推荐下于超老师那边的Rlinf,支持的方法越来越多。 链接:https://github.com/RLinf/RLinf 由于相关工作众多,这里给大家分享一些这两年比较有代表性的VLA+RL工作,这些paper陆续被不同的会 议收录。 ❝ 我们也建议后续的研究可以往此方向靠拢,如果不知道怎么展开研究也欢迎咨询具身智能之心的科研助理,一 键启动 ...
深度解析世界模型嵌入具身系统的三大技术范式
具身智能之心· 2025-12-24 00:25
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 长期以来,具身智能系统主要依赖「感知 - 行动」的反应式回路,缺乏对未来的预测能力。而世界模型的引入,让智能体拥有了「想象」未来的能力。 具身智能机器人通过世界模型想象抓杯子任务 那么关键问题来了: 世界模型应该如何「放进」具身系统中?是作为一个独立的模拟器?还是作为策略网络的一部分? 近日,依托 北京中关村学院 , 来自 中科大、哈工大、南开大学、清华大学、宁波东方 理工大 学 等机构的研究团队发布了一篇全面综述,首次从架构集成 (Architectural Integration) 的视角,将现有研究划分为三大范式。 本文将带你一览这篇硬核综述的核心精华。 论文标题: Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey 原文链接: https://doi.or ...
单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
具身智能之心· 2025-12-24 00:25
点击下方 卡片 ,关注" 具身智能之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 想用3D高斯泼溅 (3DGS) 重建一座城市? 过去,这往往意味着一套昂贵的GPU集群。如今,研究人员给出了另一种答案: 一张RTX 4090,加上足够大的CPU内存,也可以完成城市 级3D重建 。 来自纽约大学的研究团队在ASPLOS 2026上提出了名为 CLM (CPU-offloaded Large-scale 3DGS training) 的系统。该工作通过将3D 高斯泼溅训练中占用显存最多的参数转移到CPU内存中,使单张消费级显卡也能训练上亿规模的高斯点模型,为大场景神经渲染显著降低了 硬件门槛。 3DGS的规模应用瓶颈 3D高斯泼溅 (3DGS) 因其高质量渲染效果和极高的渲染速度,已成为神经渲染领域的重要技术路线。然而,当研究人员尝试将其用于城市 街区、大型室内空间等复杂场景时,问题很快显现出来—— GPU显存成为最直接、也最难解决的瓶颈 。 一个高精度的3DGS模型通常包含数千万乃至上亿个高斯点。每个高斯点包含位置、形状、颜色和不透 ...
MIT团队提出OpenTouch:首次实现真实场景下视觉、触觉、手部姿态的同步建模
具身智能之心· 2025-12-24 00:25
在计算机视觉与机器人研究领域,人类通过视觉、触觉、本体感受的多模态融合实现精准物理交互,但现有技术长期依赖单一视觉模态,难以捕捉接触力、材质属 性等关键信息。 MIT、杜克大学等联合团队提出的 OPENTOUCH 框架 ,以 "野生环境全手触觉数据集" 为核心,通过 "硬件感知系统 - 大规模数据采集 - 多模态基 准测试" 的三层技术体系,首次实现真实场景下视觉、触觉、手部姿态的同步建模,为 embodied 学习与机器人操纵提供了全新范式。 论文题目:OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction OpenTouch — Project Page (opentouch-tactile.github.io):https://opentouch-tactile.github.io/ 核心亮点:首个野生环境全手触觉数据集、低 - cost 同步感知硬件、跨模态检索与分类基准、800+ 物体 / 14 场景覆盖 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yuxin Ray Song等 编辑丨具身智能之心 本文只做学术分享 ...