具身交互范式革命 - filings, earnings calls, financial reports, news - Reportify

具身交互范式革命

Search documents

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

机器之心· 2025-11-11 08:40

复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni，统⼀视觉、⽂本、听觉与动作模态，实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据，引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。在⽇常⽣活中，⼈类很少发出⽣硬的命令式指令⸺「把杯子放到桌上」。更多时候，我们的真实意图隐藏在对话、语⽓、甚⾄环境声音中。「这果汁好酸啊」，其实意味着想换别的饮料；听到雷声骤起，就知道该去关窗收⾐；从声音辨出是爷爷在说话，会主动问他是否想喝最爱的热茶⽽不是可乐；在多⼈同时说话的场景中，还要分清谁才是发出指令的⼈。现在，机器⼈终于能听懂这些「潜台词」了！复旦、上海创智学院、与新加坡国立大学联合发布 RoboOmni ，不仅重新定义了机器⼈交互的「情境指令」新范式，更通过全模态端到端的统⼀架构，让机器⼈⾸次具备了「察⾔观⾊」的认知能力。论文标题： RoboOmni: Proactive Robot Manipulation in Omni-modal Context 论⽂地址：https://arx ...

全模态具身智能

具身交互范式革命

OmniAction-LIBERO

全模态具身智能

具身交互范式革命

OmniAction-LIBERO