Workflow
字节发了个机器人全能大模型,带队人李航
量子位·2025-09-06 04:21

闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 机器人终于不用散装大脑了! 字节Seed一个模型就能搞定机器人推理、任务规划和自然语言交互。 经常做机器人的朋友都知道,以前想让机器人干活,得先解决一个烦人的问题—— 模块之间的信息代沟。 能听懂指令和能完成指令可完全不是一回事,以前要让机器人听懂人话,得装个专门的语言交互模块;要让它能避开障碍从客厅走到阳台,又 得搭一套任务规划模块;要想……还得…… 于是不同模块在机器人身上拼凑使用苦开发者久矣。 但现在,字节Seed推出了 Robix视觉——语言单模型 ,把三件事全包了,也不用搞多模块拼接那套了。 所以,这是怎么做到的呢? 核心采用思维链推理和三阶段训练策略 Robix是一款专门给机器人用的模型。核心想法是让一个模型同时搞定三件事: 首先,团队的思路是把机器人系统分为两层,高层认知和底层执行,Robix就是管高层认知的。 琢磨怎么干活(推理) 安排干活步骤(任务规划) 跟人聊天沟通(自然语言交互) 底层(VLA)来执行Robix发出的命令。 而Robix本身也并不是多个模块拼合的散装大脑,而是一个视觉-语言融合的单模型,能同时处理画面、语言,还能把思考 ...