Workflow
UNeMo
icon
Search documents
深大团队让机器人精准导航!成功率可达72.5%,推理效率+40%
具身智能之心· 2025-12-11 02:01
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 让机器人听懂指令,精准导航再升级! 深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航 ( VLN ) 新框架—— UNeMo 。 通过 多模态世界模型 与 分层预测反馈机制 ,能够让导航智能体不仅可以看到当前环境,还能预测接下来可能看到的内容,并据此做出更聪 明的决策。 相比主流方法,UNeMo可大幅度降低资源消耗,在未见过的环境中导航成功率可达72.5%,尤其是在 长轨迹导航 中表现突出。 目前,该论文已入选AAAI2026。 以下是更多详细内容。 语言推理与视觉导航的"脱节困境" 作为Embodied AI的核心任务之一,视觉-语言导航要求智能体仅凭 视觉图像 和 自然语言 指令,在未知环境中自主完成目标导航。 而随着大语言模型 ( LLM ) 的兴起,基于LLM的导航方法虽取得进展,但仍面临两大关键瓶颈: 双模块协同打造"预判+决策"闭环 推理模态单一:现有方法仅 ...
深大团队让机器人听懂指令精准导航,成功率可达72.5%,推理效率提升40%
3 6 Ke· 2025-12-10 07:00
让机器人听懂指令,精准导航再升级! 深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航(VLN)新框架——UNeMo。 以下是更多详细内容。 语言推理与视觉导航的"脱节困境" 作为Embodied AI的核心任务之一,视觉-语言导航要求智能体仅凭视觉图像和自然语言指令,在未知环境中自主完成目标导航。 通过多模态世界模型与分层预测反馈机制,能够让导航智能体不仅可以看到当前环境,还能预测接下来可能看到的内容,并据此做出更聪明的决策。 相比主流方法,UNeMo可大幅度降低资源消耗,在未见过的环境中导航成功率可达72.5%,尤其是在长轨迹导航中表现突出。 目前,该论文已入选AAAI2026。 而随着大语言模型(LLM)的兴起,基于LLM的导航方法虽取得进展,但仍面临两大关键瓶颈: 双模块协同打造"预判+决策"闭环 于是研究团队提出了UNeMo框架,其核心突破在于构建了"多模态世界模型(MWM)+分层预测反馈导航器(HPFN)"的双向协同架构,将视觉状态推 理与导航决策深度绑定,从根本上解决现有方法的脱节问题。 基于多模态世界模型的未来视觉状态预测 MWM基于条件变分自编码器构建,核心是精准预判 ...
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026
Xin Lang Cai Jing· 2025-12-10 06:52
UNeMo团队 投稿 量子位 | 公众号 QbitAI 让机器人听懂指令,精准导航再升级! 深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航(VLN)新框架——UNeMo。 通过多模态世界模型与分层预测反馈机制,能够让导航智能体不仅可以看到当前环境,还能预测接下来可能看到的内容,并据此做出更聪明的决策。 相比主流方法,UNeMo可大幅度降低资源消耗,在未见过的环境中导航成功率可达72.5%,尤其是在长轨迹导航中表现突出。 目前,该论文已入选AAAI2026。 以下是更多详细内容。 语言推理与视觉导航的"脱节困境" 作为Embodied AI的核心任务之一,视觉-语言导航要求智能体仅凭视觉图像和自然语言指令,在未知环境中自主完成目标导航。 而随着大语言模型(LLM)的兴起,基于LLM的导航方法虽取得进展,但仍面临两大关键瓶颈: 双模块协同打造"预判+决策"闭环 于是研究团队提出了UNeMo框架,其核心突破在于构建了"多模态世界模型(MWM)+分层预测反馈导航器(HPFN)"的双向协同架构,将视觉状态推 理与导航决策深度绑定,从根本上解决现有方法的脱节问题。 基于多模态世界模型的未来视觉 ...