Workflow
SayCan
icon
Search documents
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录· 2025-06-25 04:21
温馨提示 : 点击下方图片,查看运营团队2025年6月最新原创报告(共235页) 说明: 欢迎约稿、刊例合作、行业人士交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号:lietou100w ) 微信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); 正文: 早期小编整理文章 【技术干货】"具身智能 "技术最全解析 , 本篇文章重点解读现阶段大火的 视觉-语言-动作 (VLA)模型, 一种整合视觉(Vision)、语言(Language)和动作(Action)的多模态模型 。 2022年,Google和CMU相继推出"SayCan"、"Instruct2Act" 工作,Transformer模型既看图、又读指令、还能 生成生成动作轨迹成为可能;2023年,随着谷歌DeepMind推出RT-2模型,机器人可以端到端地从给定的语言指 令和视觉信号,直接生成特定的动作,具身智能领域也迎来了一个新名词: VLA(Vision-Language-Action Model,视觉-语言-动作模型)。 如果说过去十年,机器人领域的焦点先后经历了「看得见」的视觉感知、「听得懂」的语言理解, ...
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录· 2025-06-20 04:23
温馨提示 : 点击下方图片,查看运营团队2025年6月最新原创报告(共235页) 说明: 欢迎约稿、刊例合作、行业人士交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号:lietou100w ) 微信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); 正文: 早期小编整理文章 【技术干货】"具身智能 "技术最全解析 , 本篇文章重点解读现阶段大火的 视觉-语言-动作 (VLA)模型, 一种整合视觉(Vision)、语言(Language)和动作(Action)的多模态模型 。 2022年,Google和CMU相继推出"SayCan"、"Instruct2Act" 工作,Transformer模型既看图、又读指令、还能 生成生成动作轨迹成为可能;2023年,随着谷歌DeepMind推出RT-2模型,机器人可以端到端地从给定的语言指 令和视觉信号,直接生成特定的动作,具身智能领域也迎来了一个新名词: VLA(Vision-Language-Action Model,视觉-语言-动作模型)。 VLA模型的整体框架可以被视为VLM与端到端模型的结合体,也被看作是端到端大模型2.0 ...
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
Hu Xiu· 2025-05-06 00:48
从上海到纽约,世界各地的餐厅里都能看到机器人在烹饪食物。它们会制作汉堡、印度薄饼、披萨和炒菜。它们的原理与过去50年机器人制造其他产品的 方式如出一辙:精准执行指令,一遍又一遍地重复相同的操作步骤。 但Ishika Singh想要的不是这种"流水线"式的机器人,而是真正能"做晚饭"的机器人。它应该能走进厨房,翻找冰箱和橱柜,拿出各种食材搭配组合,烹调 出美味的菜肴,然后摆好餐具。对孩子而言,这也许很简单,但没有任何机器人能做到这一点。这需要太多关于厨房的知识,更需要常识、灵活性和应变 能力,但这些能力都超出了传统机器人编程的范畴。 南加州大学计算机科学博士生Singh指出,问题的症结在于机器人学家使用的经典规划流程。"他们需要把每一个动作,以及它的前提条件和预期效果都定 义清楚,"她解释道,"这要求事先设定环境中所有可能发生的情况。"可即使经过无数次试错,编写数千行代码,这样的机器人仍无法应对程序之外的突 发状况。 一个晚餐服务机器人在制定"策略"(执行指令的行动计划)时,不仅要知道当地的饮食文化(当地所谓的"辛辣"究竟指什么),还要熟悉具体厨房环境 (电饭煲是否放在高层的架子上)、服务对象的特殊情况(Hec ...