Workflow
开放世界任务成功率82%!美的攻克机器人泛化控制难题

还在担心机器人只能机械执行、不会灵活应变? 美的AI研究院和华东师范大学 联合提出 ChatVLA-2 ——一个具有开放世界具身推理能力的视觉-语言-动作 模型(VLA)模型。 它引入动态混合专家架构,并结合双阶段训练流程,不仅最大程度保留了视觉-语言模型(VLM)的多模态认 知和推理能力,还能将推理结果真正转化为可执行的动作。 在真机实验中,研究团队设计了两项任务,重点考察模型继承的核心能力: 结果显示,ChatVLA-2面对新算式和新物体,在数学推理、空间理解和泛化操作能力上远超现有方法,开放 世界任务成功率高达82%。 ChatVLA团队 投稿 量子位 | 公众号 QbitAI 模型结构:专家协作,推理注入 混合专家模型 通过数学匹配游戏评估其数学推理能力,对新算式的识别与推理; 通过玩具摆放任务测试其空间推理能力,对新物体和指令的理解与执行。 ChatVLA的研究表明,多模态理解与机器人操作任务往往会在参数空间中相互竞争。 为此,研究引入了混合专家模型架构(MoE),动态选择专家模块,希望部分专家专注于特定任务特征,另 一些专家捕捉在多任务间共享的互利特征。这种自适应策略也确保了计算资源的高效分配。 ...