Workflow
ThinkAct
icon
Search documents
NVIDIA最新!ThinkAct:复杂的具身任务中实现少样本适应、长时程规划
具身智能之心· 2025-07-24 09:53
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Chi-Pin Huang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 写在前面&出发点 VLA推理任务要求智能体解读多模态指令、执行长时程规划,并在动态环境中自适应地行动。现有方法通 常以端到端的方式训练VLA模型,直接将输入映射到动作,而不进行显式推理,这限制了它们在多步骤规 划或适应复杂任务变化方面的能力。 这里提出了ThinkAct:一个双系统框架,通过强化视觉潜在规划将高层推理与低层动作执行连接起来。 ThinkAct训练多模态大型语言模型(MLLM)生成具身推理planning,该planning由基于目标完成度和轨迹 一致性的动作对齐视觉奖励引导。 这些推理planning被压缩为视觉planning潜变量,为下游动作模型提供条件,以实现目标环境中的稳健动作 执行。在具身推理和机器人操作基准测试上的大量实验表明,ThinkAct能够在复杂的具身AI任务中实现少 样本 ...