视觉语言动作模型(VLA)

Search documents
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 11:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...
具身智能:一场需要谦逊与耐心的科学远征
Robot猎场备忘录· 2025-05-20 05:01
温馨提示 : 点击下方图片,查看运营团队2025年最新原创报告(共210页) 说明: 欢迎约稿、刊例合作、行业人士交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号:lietou100w ) 微信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); 正文: 近日,南方科大助理教授周博宇在自己知乎账号" 周指导BoyuZhou "梳理了关于具身智能的若干思考,诸多观点 跟小编不谋而合,特转载分享给大家: 首先要肯定的是,具身智能确实为机器人领域注入了新的研究活力,有望突破机器人的性能上限。具身领域涌现 出众多令人钦佩的青年学者,这里就不一一respect了。 鉴于具身智能与机器人学 存在天然的关联,本文拟立足个人研究视角,以开放的态度分享来自机器人学科背景的 观察与思考。同时我也希望读者能保持开放的态度进行讨论, 尤其反对瞎带节奏,挑起Robotics与具身派别之 争。讨论的意义是如何促进科学发展,不是分出高低贵贱 。 一、学科无需"称王",科学本应共生 有观点认为,传统机器人学有相当一部分的研究重点在于"特别"的机器人或者"特别"的任务,这类"特殊任务研 究"对科学虽然有用 ...