Workflow
多模态及具身大模型在人形机器人上的应用
SIASUNSIASUN(SZ:300024)2025-05-14 15:19

多模态及具身大模型在人形机器人上的应用 20240514 摘要 • 人形机器人本体硬件架构基本确定,行业重心转向 AR 能力和大模型能力 的应用,以满足用户需求,预计 3-5 年内实现硬件与模型的深度融合,并 在生活场景中广泛应用。 • AI Agent 在具身机器人领域扮演"大脑"角色,负责任务决策规划与推理, 通过调用底层硬件设备驱动机器人运动,不同场景应用不同类型的 AI Agent 以提高任务执行效率。 • 主流具身机器人大脑框架分五层级:物理层、训练层、数据层、模型层和 应用层,其中模型层包括语言模型(LLM)、多模态模型(VLM)以及视 觉语言动作模型(VLA)。 • 谷歌 RT 系列模型推动了 VLA 模型发展,但未开源,斯坦福和伯克利大学 开源 AutoOrca 和 Open VLA 模型后加速行业发展,清华大学发布首个可 双臂操作的 RDT 模型,提升操作能力。 • 工业界 VLM 应用主流采用分层级具身大模型架构,如飞利浦 Helix 架构, 避免硬件升级导致软件重新训练的问题,而学术界仍采用完全端到端方法。 • VLA 模型面临数据量不足、任务泛化能力低、光照变化影响大等挑战,引 入 3 ...