Workflow
具身人工智能
icon
Search documents
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 09:48
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 作者:Zhangyang Qi , Zhixiong Zhang , Yizhou Yu , Jiaqi Wang , Hengshuang Zhao 单位: 香港大学, 上海AI实验室 论文标题:VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning 论文链接:https://arxiv.org/abs/2506.17221 项目主页:https://vlnr1.github.io/ 代码链接:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1 提出VLN-R1框架 :利用大型视觉语言模型(LVLM)处理第一视角视频流,从而实现连续环境中的视觉语 言导航。与以往基于离散导航图的方法不同,VLN-R1能够生成连续的 ...
机器人视觉语言导航进入R1时代!港大联合上海AI Lab提出全新具身智能框架
量子位· 2025-06-25 00:33
VLN-R1团队 投稿 量子位 | 公众号 QbitAI 你对着家里的机器人说:"去厨房,看看冰箱里还有没有牛奶。" 它不仅准确走到了厨房,还在移动过程中避开了椅子,转身打开冰箱,并回答你:"还有半瓶。" 这不是遥远的科幻,而是视觉语言导航技术的下一站。 由香港大学与上海AI Lab联合提出的 VLN-R1 ,具备将自然语言指令直接转化为第一人称视角下的连续导 航动作的能力,无需依赖离散地图,能在复杂环境中灵活感知、决策与行动,实现类人级别的具身智能导 航。 在VLN-CE基准测试中,VLN-R1展现出了很强性能,仅用Qwen2-VL-2B模型(20亿参数),通过RFT训练 后就超越了7B模型的SFT结果。 更具挑战性的长距离导航中,VLN-R1实现了"跨域迁移"——在R2R上预训练后,仅用1万RxR样本进行 RFT,性能就超过了使用完整RxR数据训练的模型,彰显出极强的数据效率。 VLN-R1:让LVLM采用类Deepseek-R1范式成为具身导航会思考的"大脑" 视觉语言导航(VLN)是具身人工智能领域的核心挑战之一。其核心要求是:让智能体能够基于自然语言指 令(如"走到客厅的沙发旁"),在现实环境中自主 ...
博原资本携手银河通用成立“博银合创”,加速具身人工智能赋能工业自动化
投中网· 2025-06-18 02:21
该合作于 17 日举办的 "Open Bosch: Embodied AI Day" 活动现场正式宣布。当天,博世中国、 博原资本与银河通用签署战略合作备忘录,未来,三方将通过 " 博银合创 " 在具身智能机器人领域 开展联合研发和商业化探索,逐步推动其融资拓展与全球布局。这一合作正值全球制造业加速迈向智 能化的关键时期,是具身人工智能技术从技术验证走向产业落地的重要里程碑。 将投中网设为"星标⭐",第一时间收获最新推送 共建具身人工智能生态,推动智能制造全球化。 来源丨 投中网 2025 年 6 月 17 日,博世集团旗下市场化投资平台博原资本宣布,正式携手中国具身智能领域领 军企业 " 银河通用 " ,共同成立合资公司 " 澄迈博银合创科技有限公司 " (暂定名,以下简称 " 博银合创 " )。新公司将专注于复杂装配、智能质检等核心制造场景,研发灵巧型机器人,推进具 身人工智能在工业端的规模化落地。 从左至右依次为: 博世中国战略副总裁 刘敏 博世创投管理合伙人 Ingo Ramesohl 博士 博原资本管理合伙人及董事长 蒋红权博士 银河通用创始人及 CTO 王鹤 银河通用联合创始人 姚腾洲 智能化转型 ...
博原资本设立全资控股平台「博原启世」:已携手银河通用成立「博银合创」
IPO早知道· 2025-06-18 01:26
为专注于具身人工智能领域的战略孵化与生态重构,博原资本设立全资控股平台「博原启 世」。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据 IPO早知道消息, 博世集团旗下市场化投资平台博原资本 于 6月17日 宣布,正式携手具身智能 领域企业 「 银河通用 」 ,共同成立合资公司 "澄迈博银合创科技有限公司"(暂定名,以下简 称"博银合创")。新公司将专注于复杂装配、智能质检等核心制造场景,研发灵巧型机器人,推进 具身人工智能在工业端的规模化落地。 当天,博世中国、博原资本与银河通用签署战略合作备忘录,未来,三方将通过 "博银合创"在具身 智能机器人领域开展联合研发和商业化探索,逐步推动其融资拓展与全球布局。这一合作正值全球制 造业加速迈向智能化的关键时期,是具身人工智能技术从技术验证走向产业落地的重要里程碑。 博世创投管理合伙人 Ingo Ramesohl 博士表示:"具身人工智能有望重构制造流程,我们已看到它 在各种工序中展现出的巨大潜力。我们相信,借助博原资本与银河通用的协同能力,将涌现出一批可 落地、可复制、具商业穿透力的智能机器人解决方案。" 博银合创:面 ...
17视触觉传感器+70%表面触觉覆盖!北大×北通院《自然·机器智能》发表F-TAC Hand,提供全新灵巧手思路!
机器人大讲堂· 2025-06-15 04:41
近年来,随着机器智能和具身人工智能的快速发展,现实场景中的精确 感知与 运动控制已成为该领域的核心 科学问题。其中,灵巧机械手的高精度控制因其复杂性和应用价值,被视为这一领域的标志性挑战。 触觉感知作为人类与环境交互的关键传感模态,在机器人实现精准抓取与灵巧操作中扮演着不可替代的角色。 尽管 当前灵巧机械手 在运动学建模和控制算法方面已取得长足进步,能够较好地复现人手的运动功能,但 由于多模态触觉反馈系统的缺失,其在动态交互环境中的实时适应能力仍存在本质性局限, 与人类手部的卓 越操作性能存在显著差距。 这种感官能力的不足直接导致现有灵巧手系统在面对非结构化环境时表现欠佳,特别是在处理意外接触和微尺 度物理交互变化时往往力不从心。这一瓶颈问题严重制约了机器人在真实场景中的操作能力,使得开发具有人 类水平自适应能力的智能灵巧手系统,成为当前机器人学和具身智能研究中最具挑战性的前沿课题之一。 ▍开发 F-TAC Hand ,开辟触觉具身智能研究新路径 为应对上述技术挑战, 北京通用人工智能研究院与北京大学联合组成研究团队 , 进行了深入系统研究,并 成功研制出一款具有突破性意义的 仿生视触觉灵巧手 F-TAC H ...
10%训练数据超越100%表现,机器人学习领域迎来重要突破
机器之心· 2025-06-11 03:54
第一作者陈昌和是美国密歇根大学的研究生,师从 Nima Fazeli 教授,研究方向包括基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制 优化。 第二作者徐晓豪是美国密歇根大学机器人学院博士生,研究涵盖3D 感知、视觉语言模型驱动的多模态异常检测及鲁棒三维重建。 共同第一作者 Quantao Yang 是瑞典皇家理工学院博士后,师从 Olov Andersson 教授,研究聚焦于利用视觉语言模型与大型语言模型提升自主系统在动态环境中 的感知与导航能力。 密歇根大学和瑞典皇家理工学院的研究团队提出了 ViSA-Flow 框架,这是一种革命性的机器人技能学习方法,能够从大规模人类视频中提取语义动作流,显著提 升机器人在数据稀缺情况下的学习效率。该方法在 CALVIN 基准测试中表现卓越,仅使用 10% 的训练数据就超越了使用 100% 数据的现有最佳方法。 研究背景与挑战 机器人模仿学习在使机器人获得复杂操作技能方面取得了显著成功,但传统方法面临一个根本性限制:需要大量精心策划的机器人数据集,收集成本极其昂贵。 这已成为开发能够执行多样化现实世界任务的机器人的关键瓶颈。 相比之下,人类展现出通 ...
“AI教母”李飞飞揭秘“世界模型”:要让AI像人类一样理解三维空间
3 6 Ke· 2025-06-06 12:31
6月6日消息,被誉为"AI教母"的知名人工智能专家、斯坦福大学教授李飞飞,近日与硅谷顶级风险投资机构a16z的两位合伙人——马丁· 卡萨多与埃里克·托伯格展开了一场深度对话。 在这场对话中,李飞飞首次公开分享了她创办的人工智能公司World Labs背后的理念、研究方向与宏大愿景。同时,她还探讨了一个被 称为"世界模型"的概念——这些AI系统不仅能理解和推理文字信息,还能理解与推理物理世界(尤其是3D世界)的运作规律。 李飞飞解释道,空间智能是当今AI系统中一个至关重要的组成部分。无论是我们生活的三维物理世界,还是虚拟构建的数字宇宙,空间 智能都是AI必须掌握的核心能力。她称World Labs正全力以赴解决这一挑战,因为它有可能重新定义未来的机器人、创意产业,甚至是 计算本身。 这场对话从大语言模型(LLM)的局限性谈起,探讨了具身人工智能的未来,涵盖了李飞飞的个人经历以及她对AI深刻的技术思考。通 过这次对话,我们不仅了解了AI的现状,还看到了如何创造出能够适应现实世界和虚拟世界的智能系统,给我们带来全新的认知视野。 以下为李飞飞最新访谈精华内容: 01 创业心法:为何要为World Labs寻找"完美合 ...
快讯|我国自研国际首创深水海管铺设智能装备完成海试;MIT研发高速精准乒乓球机器人;Persona AI融资2700万美元等
机器人大讲堂· 2025-05-19 13:12
1、 我国自研国际首创深水海管铺设智能装备完成海试 日前,我国自主研发的深水海管铺设智能监测装备"海卫"系统完成海试。其高耐波无人船、水下自主机器 人、光通信等多项关键技术性能指标均达到设计要求,标志着我国在深水海洋油气装备智能化无人化领域 实现关键突破。"海卫"系统作为海油工程重大科技攻关项目,采用国际首创"无人船 + 水下自主遥控机器 人 + 中继器 + 光通信",深水海管铺设智能监测技术,设计作业水深可达 1500 米。其中,国内首艘深水 铺管监控用 18 米级无人船"守护者"作为水面基站,为水下中继器和光通信提供能源和控制信号;国内首 个自主研发的 1500 米级深水自主遥控水下机器人"领航者"具备 3 节抗流能力与长达 10 天的续航能力, 可自主识别并跟踪高清晰度着泥点,并通过水下无线光通信实时传输至指挥中心。 美国初创公司Ground Control Robotics(GCR)推出首款商用仿生多足机器人,专为复杂地形农业场景设 计。这款形似巨型蜈蚣的机器人通过模块化腿足结构与"无脑"运动控制技术,能在葡萄园、蓝莓田等陡 峭、多石环境中自主穿行,执行杂草识别与清除任务。与传统四足或轮式机器人不同, ...