通用视觉语言模型(VLM)

Search documents
π0.5宣布开源!这下机器人泛化难题有解了?
机器人大讲堂· 2025-09-14 04:06
近日美国具身智能公司Physical Intelligence旗下的VLA模型π0.5正式开源,π0.5最核心的能力在于,通过异 构数据协同训练与多模态数据融合,基于优化的模型架构,实现了机器人在复杂现实场景下强大的泛化能力, 使其能理解任务语义、拆解复杂任务流程并精准执行动作。 ▍ π0.5开源模型都有哪些技术亮点? π0.5 的一大技术亮点是采用了异构数据协同训练的方式。该模型整合了来自多个机器人、高级语义预测、网 络数据等多种不同来源的数据,通过协同训练,能够让模型能够实现更广泛的泛化,更好地适应现实世界中的 机器人操作任务。在训练过程中,模型不仅能学习到物理技能的执行方法,还能理解每个技能背后的语义背 景,推断任务的高级结构,甚至可以从其他机器人那里借鉴物理行为经验。 此外π0.5能够将图像观察、语言命令、目标检测、语义子任务预测和低级动作等多模态数据示例进行融合。 这些数据不是简单地叠加在一起,而是在训练中深度融合。比如,图像观察数据让机器人能识别环境中的物体 信息,语言命令数据帮助机器人理解人类意图,目标检测数据能让机器人快速锁定任务相关物体,语义子任务 预测数据可辅助规划任务流程,低级动作数据则 ...