具身交互范式革命
Search documents
从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音
机器之心· 2025-11-11 08:40
复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni,统⼀视觉、⽂本、听觉与动作模态,实现动作⽣ 成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据,引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供 服务」新时代。 在⽇常⽣活中,⼈类很少发出⽣硬的命令式指令⸺「 把杯子放到桌上」。更多时候,我们的真实意图隐藏在对话、语⽓、甚⾄环境声 音 中。 「 这果汁好酸啊」,其实意味着想换别的饮料;听到雷声骤起,就知道该去关窗收⾐;从声 音 辨出是爷爷在说话,会主动问他是否想喝最爱的热茶⽽不是可乐; 在多⼈同时说话的场景中,还要分清谁才是发出指令的⼈。 现在,机器⼈终于能听懂这些「 潜台词」了! 复旦、上海创智学院、与新加坡国立大学 联合发布 RoboOmni ,不仅重新定义了机器⼈交互的「 情境指令」新范 式,更通过全模态端到端的统⼀架构,让机器⼈⾸次具备了「 察⾔观⾊」的认知能力。 论文标题: RoboOmni: Proactive Robot Manipulation in Omni-modal Context 论⽂地址:https://arx ...