微软发布首个机器人 VLA+ 模型,触觉进入核心架构
感知方面,常规的 VLA 模型主要依赖视觉和语言,而 Rho-alpha 特别强调触觉输入,让机器人摸着干活。 在具体的插头任务演示中,触觉传感器让 Rho-alpha 能接收到机器人与物体接触时得到的反馈信息,然后可以像人一样根据这些反馈调整姿势和力度。 触觉感知的融入,也可以让机器人在面对易碎、高精度和柔性物品时,提高一些执行任务的可靠性,这是常规的 VLA 模型在感知层面相对缺失的能力。 微软介绍道,未来 Rho-alpha 的版本还将加入力感知等更多传感模态,以提升操作精度和安全性。不过官方也提到,虽然扩展感知能力可以使 Rho-alpha 在操作过程中调整机器人的行动路线,但机器人仍然会犯难以恢复的错误。人类操作员可以使用 3D 鼠标等方式介入,让机器人回到正确的轨迹上,而后 将这些加入学习的过程。 当地时间 1 月 21 日,微软研究院正式发布了 Rho-alpha,这是微软首款专为机器人打造的 VLA+ 模型,基于微软 Phi 系列视觉语言模型构建。 Rho-alpha 旨在将日常自然语言指令实时转化为精确的机器人控制信号,让机器人能够执行双手协同等高度复杂的物理任务,摆脱传统机器人系统中依赖 ...