Workflow
具身智能之心
icon
Search documents
从视频生成到机器人操控:VideoVLA 开启通用机器人新范式
具身智能之心· 2025-12-11 04:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yichao Shen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操控领域,视觉 - 语言 - 动作(VLA)模型虽已实现语言指令驱动的任务执行,但在陌生物体处理、跨机器人技能迁移等泛化能力上仍存在瓶颈。现有方 案多依赖预训练视觉语言理解模型,难以突破训练数据的场景限制。 由西安交通大学、微软亚洲研究院等机构联合提出的 VideoVLA 框架 ,创新性地将大规模视频生成模型转化为端到端 VLA 系统,通过 "动作预测 + 视觉想象" 双目 标策略,首次实现了机器人在未知场景下的稳健泛化,为通用机器人操控提供了全新技术路径。 论文题目:VideoVLA: Video Generators Can Be Generalizable Robot Manipulators 核心贡献: 首次将视频生成模型改造为通用机器人操控系统,通过联合预测动作序列与未来视觉结果,解锁跨物体、跨技 ...
告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
具身智能之心· 2025-12-11 02:01
Core Insights - The article discusses the development of the Self-Referential Policy Optimization (SRPO) framework, which addresses the limitations of existing Visual Language Action (VLA) models in robotic tasks by enabling robots to learn from their own experiences without relying on external expert data [3][10][56]. Motivation and Contribution - SRPO aims to overcome the challenges of sparse reward signals in reinforcement learning, particularly in the VLA domain, by utilizing self-generated successful trajectories to provide progressive rewards for failed attempts [6][10]. - The framework eliminates the need for costly expert demonstrations and task-specific reward engineering, thus enhancing the efficiency of the learning process [10][12]. Technical Approach - SRPO collects trajectories generated during policy inference and categorizes them into successful and failed attempts, using a potential world representation to model behavior similarity [16][17]. - The framework employs a progressive reward mechanism based on the distance of failed trajectories to successful trajectory representations, allowing for a more nuanced evaluation of task progress [22][24]. Experimental Results - SRPO achieved a success rate of 99.2% in the LIBERO benchmark with only 200 steps of reinforcement learning, significantly outperforming traditional methods that rely on sparse rewards [29][30]. - In the LIBERO-Plus generalization tests, SRPO demonstrated a performance improvement of 167%, showcasing its robust generalization capabilities without the need for additional training data [31][32]. Efficiency and Real-World Application - The efficiency of SRPO is highlighted by its ability to improve success rates from 17.3% to 98.6% in long-term tasks with minimal training steps, outperforming other models in terms of training efficiency [36][39]. - The framework has been tested in real-world scenarios, showing significant improvements in success rates compared to supervised fine-tuning baselines [41][39]. Conclusion - SRPO represents a significant advancement in robotic learning, allowing for autonomous exploration and creativity by enabling robots to learn from their own successes and failures, thus paving the way for a new approach in VLA reinforcement learning [56].
深大团队让机器人精准导航!成功率可达72.5%,推理效率+40%
具身智能之心· 2025-12-11 02:01
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 让机器人听懂指令,精准导航再升级! 深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航 ( VLN ) 新框架—— UNeMo 。 通过 多模态世界模型 与 分层预测反馈机制 ,能够让导航智能体不仅可以看到当前环境,还能预测接下来可能看到的内容,并据此做出更聪 明的决策。 相比主流方法,UNeMo可大幅度降低资源消耗,在未见过的环境中导航成功率可达72.5%,尤其是在 长轨迹导航 中表现突出。 目前,该论文已入选AAAI2026。 以下是更多详细内容。 语言推理与视觉导航的"脱节困境" 作为Embodied AI的核心任务之一,视觉-语言导航要求智能体仅凭 视觉图像 和 自然语言 指令,在未知环境中自主完成目标导航。 而随着大语言模型 ( LLM ) 的兴起,基于LLM的导航方法虽取得进展,但仍面临两大关键瓶颈: 双模块协同打造"预判+决策"闭环 推理模态单一:现有方法仅 ...
全部超越了π0、π0.5!端到端全身VLA模型Lumo-1:迈进推理-行动闭环时代
具身智能之心· 2025-12-11 02:01
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 让机器人「热面包」 在混乱桌面中快速找齐文具,还能精细处理不同形状、材质和尺寸的物品⚡️ 「把可乐放进蓝盘」 甚至推理出先用左臂,但遇障时换右手拿更快 从走路、跳舞到后空翻,动作模仿教会了机器人「怎么动」,而到端盘子、分拣水果、热食物等复杂操作时,机器人不能只模仿,更要识别复杂环境,理解「为什 么做」的任务意图,再转化为「动手这么做」的连贯操作。 人类的行动,一般都依托于上下文和意图,核心就在于推理。对机器人而言,尽管大规模互联网数据让GPT、DeepSeek等AI具备了不错的推理能力,但让AI在真实 物理世界里通过推理"准确动起来",特别是处理多步骤长时序任务、模糊指令、未见过情景时,依然挑战重重。 尽管没见过这块面包,机器人通过推理识别它,推理出加热=用微波炉,以及开门、拿起、放入、关门、旋钮、等待、取出……无需编程,全程推理完成! 「整理文具 ...
某机器人具身团队VLA算法专家/RL专家招募!薪资open~
具身智能之心· 2025-12-10 10:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 云鲸创立于2016年,是一家立足家用机器人领域、致力于研发革命性科技产品的公司,已连续三年被评 为中国科技机器人企业50强,连续五年登上胡润全球独角兽企业榜。 目前国内市场已完成全国超20个省份、70个城市的线下布局,授权零售网点超500个。与此同时,云鲸加 速推动品牌全球化进程,产品已走进全球50多个国家和地区,覆盖北美、欧洲、日本、韩国、澳大利 亚、东南亚等多个市场,已合作进入欧洲超5000家线下门店,北 美市场已进入Best Buy、Costco等大型 KA近300家线下门店,全球用户突破400万。2025年第二季度, 云鲸扫地机器人全球出货量达52.42万 台,以8.5%的市场份额首次位居全球第五,成为中国企业出海名片之一 。 云鲸智能具身团队,招募具身VLA算法专家/强化学习专家/模仿学习专家、机械臂规划算法专家,优秀也 可以谈TL角色哦。薪资open可谈,感兴趣的同学可以扫码咨询哦~ 具身智能算法VLA/多模态大模型算法(专家岗) 职位描述 1、负责研发面向双臂机器人在真实环境下完成复杂物理任务的多模态决策模型,推动机器 人VLA(视 觉-语言- ...
担心买得起机械臂,不会用?小白+科研友好型的臂来啦~
具身智能之心· 2025-12-10 10:00
还在为具身智能领域的硬件选择发愁吗? 重构你的时间:从"硬件调试"回归"算法思考" "买了机械臂,却卡在调试第一步"?要么工具链残缺,要么仿真和真机脱节,遇到问题没人管 —— 实战哪 经得起这么折腾! 没有 Imeta-Y1 之前,你的具身科研实战可能是: 70%的时间在调试硬件通信和校准传感器;在仿真和真机之间手动移植代码,痛苦适配;算法迭代一次, 需要数天才能看到真实效果。 而拥有 Imeta-Y1 之后,你的工作流将变为: 在Gazebo中快速仿真验证算法逻辑;一键将验证好的程序部署至真机,进行精细化调优;利用全流程工具 链,高效完成从"灵感"到"物理动作"的多次迭代。 我们重新定义了"轻量级":不仅是物理结构的轻巧,更是你研发负担的"轻盈"。 面向具身科研领域打造的轻量级高性价比机械臂 太贵的机械臂买不起,太便宜的又难用、难上手? 别担心,Imeta-Y1 来了——这是一款专为新手和科研初学者设计的轻量级高性价比机械臂。 无论你是学生、教育工作者,还是刚踏入机器人领域的开发者,Imeta-Y1 都能帮你低成本、高效率地完成 算法验证与项目开发。 对小白尤其友好的是: ✅ 提供全流程开源工具链+代码示例 ...
端到端全身VLA模型Lumo-1:让机器人心手合一,迈进推理-行动闭环时代
具身智能之心· 2025-12-10 10:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 机器人「热面包」 尽管没见过这块面包,机器人通过推理识别它,推理出加热=用微波炉,以及开门、拿起、放入、关门、旋钮、等待、取出……无需编程,全程推理完成! 「整理文具」 在混乱桌面中快速找齐文具,还能精细处理不同形状、材质和尺寸的物品⚡️ 「把可乐放进蓝盘」 Lumo-1展现了强大的操作智能与泛化能力, 在多步骤长时序、精细灵巧操作、可泛化抓取放置等三大类核心操作任务中,全部超越了π0、π0.5等先进模型 ,尤其 在未见过的物体、场景和指令等分布外情况(Out of Distribution,简称OOD),以及抽象、模糊、需扩展推理的指令中,优势更为明显。 从"背菜谱"到"懂烹饪" 人类执行复杂任务时不只是调用"动作库",而是实时进行多层次推理——理解抽象语义、拆解子任务、感知空间关系、规划运动路径。让机器人像人一样推理,就 更能像人一样行动。 ...
突破空间泛化瓶颈:MOVE技术让一条轨迹顶N条用,泛化能力暴涨 76%
具身智能之心· 2025-12-10 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 明明在实验室里表现完美的机器人,为何一到真实场景就掉链子?核心症结在于传统静态数据采集模式的局限:一条训练轨迹只能对应一个固定空间配置,物体位 置、目标落点、相机视角全是 "死的"。要让机器人适应不同场景,就得没完没了采集海量数据,不仅耗时耗力,还会陷入数据稀疏的困境。 作者丨 Huanqian Wang等 编辑丨具身智能之心 如今,北京智源人工智能研究院、清华大学、东南大学等机构的团队,凭借一项名为 MOVE(MOtion-Based Variability Enhancement,基于运动的可变性增强) 的创新技术,精准破解了这一行业痛点,让机器人真正学会 "举一反三"! >> 点击进入→ 具身智能之心 技术交流群 技术资源已公开,欢迎行业伙伴探索 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 核心思路:让数据"动起来",一条轨迹顶N条用 家里让机器人拿杯水,换个杯子摆放位置就失灵;工厂里机器人抓取零件,摄像头角度稍调就 "抓空";仓库中分拣货物,货架高度变了就成了 "断线木偶"…… 在 ...
夹钢笔、叠杯子,VLA算法实战小班课来了~
具身智能之心· 2025-12-10 00:03
Core Viewpoint - The article discusses the challenges and advancements in the VLA (Variable Learning Algorithm) models, emphasizing the importance of real machine data and practical experience in achieving effective results in embodied intelligence applications [2][4]. Group 1: Data Collection - Data collection methods primarily include imitation learning and reinforcement learning, with remote operation, VR, and full-body motion capture being key techniques [6][7]. - Ensuring high-quality data and effective data collection is crucial, particularly in the context of sim2real applications [7]. Group 2: VLA Training - Prior to real machine deployment, simulation debugging is essential, especially when real machine data is insufficient, making frameworks like Mujoco and Isaac Gym important [9]. - Training techniques are critical, with challenges in fine-tuning models and achieving good results with small data sets; models like π0 and π0.5 require high attention to detail and experience [9][10]. Group 3: VLA Model Deployment - After training, models need to undergo a "slimming" process due to their typically large parameter sizes, which poses challenges for deployment on edge chips; techniques like quantization and distillation are necessary [11]. Group 4: Educational Initiatives - The article introduces a practical course aimed at helping students effectively learn VLA, covering various aspects such as hardware, data collection, algorithms, evaluation, simulation, and deployment [12][14]. - The course is designed for individuals seeking to enter the embodied intelligence field, including students and professionals transitioning from traditional CV, robotics, or autonomous driving sectors [24].
消除推理阶段的额外开销!pi团队提出训练新思路
具身智能之心· 2025-12-10 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 出发点与背景介绍 与聊天机器人或搜索引擎不同,具身智能体必须具备实时运行能力。智能体动作与外部环境间的反馈闭环决定了其必须拥有快速响应性——就像人类运动员一 样,智能体无法在外界环境不断变化的过程中" 停下来思考 "。但随着前沿模型的规模持续扩大,这一要求的实现难度也越来越高。这一点在机器人学习领域表 现得尤为明显:如今,参数规模达数十亿的视觉-语言-动作模型(VLAs)正被越来越多地用于高频率控制机器人,以完成各类灵巧操作任务。而当模型推理延 迟达到数十至数百毫秒时,如何生成既平滑又具备响应性的动作轨迹,就成了一项不小的挑战。 实时动作分块技术整合了动作分块、流匹配和推理时补绘等技术思路,为解决上述问题提供了一套方案。在该技术框架下,动作块的预测过程是异步进行的 ——即在当前动作块执行的同时,就开始生成下一个动作块。为保证动作块之间的连续性,每次生成新动作块时,都会基于此前已预测的动作构成的固定前 缀,并对剩余部分进行补绘。但遗憾的是,实时动作分块所采用的推理时补绘方法会引入额外计算开销,进而产生延迟,在一定程度上削弱了实时执行框架的 ...