大型视觉语言模型(VLM)

Search documents
基于大型VLM的VLA模型如何改一步一步推动机器人操作任务的发展?
具身智能之心· 2025-08-26 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 当机器人 "看懂" 指令还能 "自主干活":大型 VLM 如何改写机器人操作的游戏规则? 你是否想象过这样的场景:对着机器人说一句 "把阳台晾干的衬衫叠好放进衣柜第三层",它就能看懂衣物位置、理解 "叠好""放进" 的动作逻辑,甚至避开衣柜里的 杂物完成任务?放在几年前,这更像科幻电影里的情节 —— 传统机器人要么困在 "预定义任务牢笼" 里,换个新杯子就认不出;要么面对模糊的自然语言指令 "手 足无措",更别提在杂乱的真实环境里灵活调整动作。 但现在,一场由 "视觉 - 语言 - 动作(VLA)模型" 掀起的变革,正在打破这些局限。而这场变革的核心推手,正是我们如今耳熟能详的大型视觉语言模型 (VLM)。 过去,机器人操作的研究总在 "模块化陷阱" 里打转:视觉识别、语言解析、动作控制各成一派,像被割裂的齿轮,很难协同运转。直到大型 VLMs 的 ...