视觉语言动作模型（VLA） - filings, earnings calls, financial reports, news

视觉语言动作模型（VLA）

Search documents

自动驾驶之心· 2025-06-19 11:54

以下是知识星球里面一位同学的提问：请问VLA和VLM的区别是什么？现在推荐学哪个呢？这两者互为表里：点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线大模型已经席卷各个领域，在智能驾驶领域，VLM也正在逐渐铺开落地量产。不少入门的小伙伴也表示，现在大模型太重要了，想要入门学习，但有点拿不准方向。 1、VLM可以理解基础的能力，可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力，最终目的是为了做动作，在自动驾驶中可以理解为自车轨迹预测的能力，通时预测的轨迹又要尽可能的符合人类的理解，这又进一步依赖vision和language的基本能力，比如我要解释这个行为，可以使用思维链的形式一步步推理分析，这里面依赖自动驾驶基础的感知（行人在哪里，2D坐标，3D位置等等）这两者没办法完全独立的学习，我认为的方式应该是先学VLM，再去扩展到VLA VLM接扩散模型就可以预测轨迹，也就是Action，这块就涉及到多模轨迹的好处了，面对不确定的环境，单模的能力有限，多模的上限是更高的最后欢迎大家加入知识星球，硬核资料在星球置 ...

Robot猎场备忘录· 2025-05-20 05:01

温馨提示：点击下方图片，查看运营团队2025年最新原创报告（共210页）说明：欢迎约稿、刊例合作、行业人士交流，行业交流记得先加入 "机器人头条"知识星球，后添加（微信号：lietou100w ）微信；若有侵权、改稿请联系编辑运营（微信：li_sir_2020）；正文：近日，南方科大助理教授周博宇在自己知乎账号" 周指导BoyuZhou "梳理了关于具身智能的若干思考，诸多观点跟小编不谋而合，特转载分享给大家：首先要肯定的是，具身智能确实为机器人领域注入了新的研究活力，有望突破机器人的性能上限。具身领域涌现出众多令人钦佩的青年学者，这里就不一一respect了。鉴于具身智能与机器人学存在天然的关联，本文拟立足个人研究视角，以开放的态度分享来自机器人学科背景的观察与思考。同时我也希望读者能保持开放的态度进行讨论，尤其反对瞎带节奏，挑起Robotics与具身派别之争。讨论的意义是如何促进科学发展，不是分出高低贵贱。一、学科无需"称王"，科学本应共生有观点认为，传统机器人学有相当一部分的研究重点在于"特别"的机器人或者"特别"的任务，这类"特殊任务研究"对科学虽然有用 ...