Workflow
具身智能之心
icon
Search documents
机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务
具身智能之心· 2026-01-20 00:33
最近,加州伯克利和马里兰大学联手推出的 MomaGraph 技术 ,就是要让机器人彻底告别这种「做家务的人工智障」时刻。这套算法不仅能让机器人真正 理解「做事的先后顺序」,更在星动纪元星动 Q5 上成功完成了开柜子、开微波炉、开电视、关灯等真实家务。 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 想象这样一个日常画面:你吩咐家用机器人「烧壶开水」,它却当场卡壳——水壶在哪?该接自来水还是过滤水?先插电还是先按开关?水开了又该如何判 断?这些对人类而言像呼吸一样自然的家务,对过去的机器人却是大大的难题:要么忘了插电,要么找不到水壶,甚至会把柜门把手错当成开关一通乱按。 卡点 3:只想「步骤」,不想「前提」 过去的 AI(比如 GPT-5)会直接从图片里「想步骤」,比如让它「烧开水」,可能会说「装水 → 加热」,却漏掉「插电源」这个关键前提;而人做这件 事时,一定会先确认「水壶能通电」,再规划步骤。 一、研究背景: 家用机器人做不好家务的「三 ...
具身基座模型的曙光初现,全球最强跨本体VLA来啦!
具身智能之心· 2026-01-20 00:33
Core Viewpoint - The emergence of the Being-H0.5 model is disrupting the established logic in the embodied intelligence industry, showcasing remarkable cross-embodiment generalization capabilities in visual-language-action tasks, regardless of hardware differences [3]. Group 1: Industry Trends - The competition in the embodied intelligence sector is intensifying, with companies focusing on a limited market of embodiments, where the volume of output directly influences data accumulation and algorithm performance [1]. - The Being-H0.5 model integrates data from nearly all mainstream robot configurations globally, demonstrating its ability to adapt and execute tasks effectively across different embodiments [3]. Group 2: Data Collection and Training - The UniHand-2.0 dataset, created by BeingBeyond, is the largest training dataset in the world, comprising over 14,000 hours of robot operation data and 16,000 hours of human video data, with a total of over 400 billion training tokens [6]. - Unlike previous studies that focused on specific robot configurations, UniHand-2.0 successfully merges data from over 30 different hardware configurations, addressing the challenge of significant differences in state and action spaces among various robots [8][10]. - The human-centric training paradigm enhances the model's capabilities by utilizing a vast amount of human video data, which contains rich physical and spatial prior information, enabling better generalization across tasks [11][14]. Group 3: Model Architecture and Performance - Being-H0.5 features a specialized expert mixture model that decouples multi-modal understanding from action generation while maintaining a coupling through a shared attention mechanism [17]. - Extensive real-world experiments on various robot configurations demonstrated the model's exceptional cross-embodiment and complex task execution capabilities, achieving success rates of 98.9% and 54% on widely used benchmarks [18]. Group 4: Industry Impact - The introduction of Being-H0.5 represents a significant advantage for most embodied companies, as it alleviates the need for substantial investments in data collection centers and allows for the adaptation of different configurations using human-centric learning as a natural data source [19].
星尘智能x清华x MIT发布CLAP框架!让机器人看视频学操作技能
具身智能之心· 2026-01-20 00:33
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 近日, 星尘智能与清华、港大、MIT 联合提出基于对比学习的隐空间动作预训练(Contrastive Latent Action Pretraining, CLAP)框架。 这个框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,也就是说,机器人能够直接从视频中学习技能! 论文地址 :https://arxiv.org/abs/2601.04061 长期以来,机器人学习面临着一个令人头疼的"数据饥荒"难题:互联网上有着数以亿计的人类行为视频,但专门用于训练机器人的数据却寥寥无几。这种数据不对 称现象的根源在于,收集机器人操作数据需要昂贵的硬件设备、专业的操作环境,以及大量的人工标注工作,成本高昂且效率低下。相比之下,人类行为视频数据 虽然丰富,但由于视觉表征与机器人动作空间之间存在巨大的语义鸿沟,传统方法难以有效利用这些资源。 现有的潜在动 ...
遥操数据没采好,对后续影响有多大?
具身智能之心· 2026-01-19 09:30
但现实很骨感:VLA 模型的性能上限,往往取决于你数据采集的质量。 很多同学在复现 π0、GR00T 或 ACT 时,最常吐槽的就是:" 数据太难采了! " 具身智能的本质是"本体交互"。 如果没有高质量的遥操作数据,再强大的 VLA 算法也只是空中楼阁。 为了帮助大家节省"踩坑"时间,具身智能之心正式推出国内首个 《具身数采与遥操算法全栈课程》 。 这门课不只讲理论,更注重"手感"与"实战"。我们将带你从零 DIY 遥操硬件,打通数据采集的全链路。 最近在具身智能圈子里,VLA(视觉-语言-动作)模型无疑是流量中心。无论是学术界的论文爆发,还是工业 界的 HR 急招,VLA 都被顶到了风口浪尖。 ★ 课程大纲: 更多内容,欢迎咨询小助理 仿真生成数据不真实: 仿真与真机的 Gap(Sim2Real)巨大,模型在仿真里跑得溜,真机上一碰就碎。 遥操手感极差: 动作生涩、延迟高,采集出来的轨迹充满噪声,模型根本学不会。 硬件门槛高: 专业级遥操设备动辄数万,普通学生和初创团队难以负担。 技术全链路断层: 知道怎么控机械臂,但不知道怎么把数据格式对齐 LeRobot 或 RT-X 格式。 | 遥操作概述与基础 | ...
你的模型真的能打吗?上交发布了近百项场景的GM-100,操作任务的长尾场景评测来了
具身智能之心· 2026-01-19 09:30
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 现有数据集真的推动机器人能力提升了吗? 近年来,随着机器人学习和模仿学习的快速发展,各类数据集与方法层出不穷。然而,这些数据集及其任务设计往往缺乏系统性的考量与原则。这引发了两个关键 问题:现有数据集与任务设计是否真正推动了机器人能力的提升?仅通过少数常见任务的评估,能否准确反映不同团队提出的各类方法在不同任务上的差异化性 能? 为解决这些问题,上海交大等研究团队提出GM-100基准测试,将其作为迈向机器人学习奥林匹克盛会的第一步。GM-100包含100项精心设计的任务,涵盖各类交互 场景与长尾行为,旨在提供一组多样化且具有挑战性的任务集合,全面评估机器人智能体的能力,并推动机器人数据集任务设计向多样化与复杂化方向发展。这些 任务通过对现有任务设计的系统性分析与扩展,并结合人物交互基元与物体功能特性的相关insights开发而成。 本数据集在不同的 ...
普林斯顿近300篇工作的综述,这一领域是如何为具身提供低成本的训练和测试方案的?
具身智能之心· 2026-01-19 00:49
编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 在机器人领域,物理仿真器的保真度局限与语言模型的表达瓶颈长期制约发展,而视频生成模型凭借高保真时空建模能力,成为破解这些难题的核心突破口。 普林 斯顿大学与天普大学联合发表的综述论文 ,以 "模型基础 - 核心应用 - 挑战方向" 为逻辑脉络,首次系统梳理了视频生成模型作为嵌入式世界模型在机器人领域的研 究现状,构建了完整的技术体系与应用框架,为机器人智能化升级提供了全新范式。 核心亮点:首个机器人领域视频生成模型全面综述、四大核心应用场景、十大关键挑战、针对性未来方向 点击下方 卡片 ,关注" 具身智能 之心 "公众号 问题根源:传统方法的核心痛点 视频生成模型的崛起,源于对机器人领域现有技术瓶颈的精准破解,三大核心矛盾构成研究起点: 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) 技术基础:视频生成模型的核心架构与分类 视频生成模型通过学习时空映射关系实现物理世界高保真建模,其核心架构可分为三大类,构成技术落地的基础,整体研究框架如图 2 所示: 论文题目:Video ...
如果说今年哪个方向最受欢迎,一定是VLA+RL
具身智能之心· 2026-01-19 00:49
纯模仿学习的 VLA,本质是在"复制数据分布"。一旦环境、物体、初始状态发生变化,就容易崩。很多 失败是连续动作误差累积导致的。RL提供的是闭环优化能力:用环境反馈修正动作,用value/reward信号 约束长时序行为。 当前的研究趋势也逐渐从"单纯训练 VLA 模型"转向"以 VLA 作为策略表示,结合RL进行微调和强化",包 括离线 RL 提升样本效率、层级 RL 约束长时序行为,以及基于视觉和语言的自监督反馈建模等方向。 方法上,目前VLA+RL主要分为在线RL、离线RL、test-time三种方案。 paper多,想入坑的人也多了起来...... 最近有同学后台留言,导师不熟悉这个领域,都是自己趟坑,从硬件到数据,再到训练,一直跑不出效 果,也没好的idea~ 如果说今年哪个方向最受欢迎,一定是VLA+RL。 VLA模型为具身智能带来了新的交互范式:机器人不再依赖精确定义的状态和规则,而是通过视觉感知环 境、理解语言指令,并直接生成动作序列。这一能力极大地降低了任务描述和系统设计的门槛,使机器人 能够应对更加开放和复杂的场景。 然而,在真实机器人系统中,VLA 往往仍然面临执行不稳定、对初始状态敏感 ...
南京大学智能科学与技术学院2026具身智能本科生冬令营正式开启!
具身智能之心· 2026-01-19 00:49
点击下方 卡片 ,关注" 具身智能 之心 "公众号 冬令营亮点 01. 真实科研体验|从仿真到实机 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 具身智能正成为人工智能最具前景、最具突破性的方向之一。从机器人感知、建图、决策,到真实世界中的自主导 航与灵巧操作,AI 的能力边界正在被重新塑造。 为了让更多优秀同学走近科研、亲身体验智能体的真实挑战与魅力, 南京大学智能科学与技术学院(苏州校区)将 于2026年2月4—7日举办具身智能冬令营,现面向全国高校开放报名! 不只讲座、不只代码,而是完整的科研闭环,你将亲手在智能机器人平台上完成任务,体验真正的具身智能系统。 02. 高密度前沿学习|老师亲自授课 学院教师团队将带来紧凑而系统的讲座,让你用最短时间获得最系统的知识结构。 03. 实机验证|行业级设备体验 冬令营将与苏州市具身智能机器人综合创新中心合作,提供工业级机器人平台、传感器系统与实验环境,你将直面 真实工程问题与调试挑战。 04. ...
AAAI 2026最新!OC-VLA:解决感知与动作的错位问题
具身智能之心· 2026-01-19 00:49
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 核心设计与方法 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 OC-VLA提出的背景和动机 在 VLA 模型中,一种常见的做法是将预训练的视觉-语言模型或视觉编码器应用于下游机器人任务以增强模型的泛化能力。然而,这些视觉模型主要是在相机坐标 系中进行标注、训练和监督的,因此其潜在表征是对齐到相机空间的。相比之下,大多数机器人控制信号是在机器人基坐标系中进行定义和完成采集的。这种差异 导致感知空间和动作空间之间存在错位,阻碍了机器人策略的有效学习,特别是将预训练的视觉模型迁移到机械人控制任务时。 机器人数据通常是在多样的相机视角和异构硬件配置下收集的,这种情况下,必须从不同的第三方摄像机视角预测出在机器人坐标系中执行的相同动作。这隐式地 要求模型从有限的二维观测中重建或推断出一致的三维动作。这种不一致性在大规模预训练期间尤其有害,因为训练数据中往往存在不同的摄像机视角的观测信 息:从不同角度捕捉 ...
AAAI 2026最新!OC-VLA:解决感知与动作的错位问题,以观测视角为中心的VLA范式
具身智能之心· 2026-01-18 09:33
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 OC-VLA提出的背景和动机 在 VLA 模型中,一种常见的做法是将预训练的视觉-语言模型或视觉编码器应用于下游机器人任务以增强模型的泛化能力。然而,这些视觉模型主要是在相机坐标 系中进行标注、训练和监督的,因此其潜在表征是对齐到相机空间的。相比之下,大多数机器人控制信号是在机器人基坐标系中进行定义和完成采集的。这种差异 导致感知空间和动作空间之间存在错位,阻碍了机器人策略的有效学习,特别是将预训练的视觉模型迁移到机械人控制任务时。 机器人数据通常是在多样的相机视角和异构硬件配置下收集的,这种情况下,必须从不同的第三方摄像机视角预测出在机器人坐标系中执行的相同动作。这隐式地 要求模型从有限的二维观测中重建或推断出一致的三维动作。这种不一致性在大规模预训练期间尤其有害,因为训练数据中往往存在不同的摄像机视角的观测信 息:从不同角度捕捉同一机械臂动作的 ...