字节提出Robix大模型!三阶训练+统一架构,打破机器人认知瓶颈,真实场景任务完成率领先
机器人大讲堂·2025-09-20 09:44
在现代机器人技术的浪潮中,我们似乎总离那个理想中的 "家庭机器人"还差一步。它们能看、能听,甚至能 跑能跳,却依然难以在真实的家庭、商场或街道中像人类一样应对自如。哪怕硬件再先进、感知再敏锐,一旦 置身于开放、多变的环境中,机器人往往显得笨拙、迟疑,甚至 像是 " 社恐 "附体。 而最近,字节跳动 Seed 团队推出的 Robix ,试图从根本上重新设计这个"大脑"。 究其原因,并不全在 机器人的 "手脚",更在于 其 "大脑"。 当前大多数机器人系统采用分层架构:高层负责思考(比如用大语言模型做任务拆解),底层负责执行。问题 就在于,这些所谓的 "大脑"——比如大语言模型( LLM )或视觉 - 语言模型( VLM ) , 往往只擅长分 解任务,却在面对物理世界的空间关系、位置感知,或是人类的实时打断、多轮对话时,表现得捉襟见肘。 ▍ Robix 统一模型架构:告别 " 机械式应答 " 更直白地说,现有的机器人系统缺乏一种真正意义上的 "智能":它们无法像人一样,在动态环境中同时进行 理解、推理、回应和行动。 Robix 作为 一个统一的视觉 - 语言模型架构 , 与传统分层系统将机器人推理、任务规划和自然 ...