VLA

Search documents
北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈
雷峰网· 2025-06-20 11:54
" 互联网视频数据是唯一可以 scale up 的道路 。 " 作者丨 郭海惟 编辑丨 陈彩娴 作为一名具身大脑的创业者,卢宗青有着金光闪闪的履历: 他是紧随 DeepMind之后,中国新生代的强化学习研究者。北京大学计算机学院长聘副教授,担任过智源 研究院多模态交互研究中心负责人,负责过首个国家自然科学基金委原创探索计划通用智能体项目,还同 时在NeurIPS、ICLR、ICML等机器学习的国际顶级会议担任领域主席。 早在 2023年,他旗下团队便有利用多模态模型研究通用 Agent 的研究尝试,让 Agent 玩《荒野大镖客 2》和办公,使其成为第一个从零开始在AAA级游戏中完成具体任务的 LLM 智能体。相关论文几经波折, 今年终于被 ICML 2025 录用。不过他自述对那份研究其实不够满意,因为"泛化性不足"。 当完成那些研究以后,卢宗青意识到 "当前的多模态模型缺乏与世界交互的能力"。因为模型缺少学习物 理交互的数据,所以 我们看到的那些泛化的能力本质都是 "抽象"的,它终究无法理解动作和世界的关 系,自然也无法预测世界 。 这如今成为他想在具身智能创业的起点:开发一个通用的具身人工智能模型。 卢 ...
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录· 2025-06-20 04:23
温馨提示 : 点击下方图片,查看运营团队2025年6月最新原创报告(共235页) 说明: 欢迎约稿、刊例合作、行业人士交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号:lietou100w ) 微信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); 正文: 早期小编整理文章 【技术干货】"具身智能 "技术最全解析 , 本篇文章重点解读现阶段大火的 视觉-语言-动作 (VLA)模型, 一种整合视觉(Vision)、语言(Language)和动作(Action)的多模态模型 。 2022年,Google和CMU相继推出"SayCan"、"Instruct2Act" 工作,Transformer模型既看图、又读指令、还能 生成生成动作轨迹成为可能;2023年,随着谷歌DeepMind推出RT-2模型,机器人可以端到端地从给定的语言指 令和视觉信号,直接生成特定的动作,具身智能领域也迎来了一个新名词: VLA(Vision-Language-Action Model,视觉-语言-动作模型)。 VLA模型的整体框架可以被视为VLM与端到端模型的结合体,也被看作是端到端大模型2.0 ...
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 11:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...
ForceVLA:通过力感知MoE增强接触丰富操作的VLA模型
具身智能之心· 2025-06-18 10:41
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiawen Yu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与问题提出 在机器人操作领域,视觉-语言-动作(VLA)模型通过利用预训练的视觉和语言表示,推动了通用机器人 操作的发展。然而,这些模型在处理需要涉及力的精细控制的接触丰富任务时,尤其是在视觉遮挡或动态 不确定性情况下,表现出明显的局限性。现有的VLA模型严重依赖视觉和语言线索,往往忽略了力传感这 一对于精确物理交互至关重要的模态。 人类在操作过程中会自然地整合触觉和本体感受反馈来调整操作策略,但当前的VLA模型在面对插入、工 具使用或装配等任务时,经常在遮挡或视觉条件较差的情况下表现不佳,导致行为脆弱或任务失败。此 外,不同任务阶段对力的要求也不同,如精细抓取、受控插入和顺应性表面接触等,每个阶段都需要不同 形式的力调制,而现有方法缺乏感知和适应这些动态变化的机制。 核心创新点 (一)ForceVLA框架 ...
智能网联汽车ETF(159872)政策与技术共振,车联网基建+高阶自动驾驶双主线凸显
Xin Lang Cai Jing· 2025-06-17 02:25
关联产品: 智能网联汽车ETF(159872),联接基金(A类 021080,C类 021081,I类 022885) 关联个股: 截至06月17日10:01,智能网联汽车ETF(159872.SZ)上涨0.00%,其关联指数CS车联网(930725.CSI)上涨 0.15%;主要成分股中,上汽集团上涨0.63%,万马科技上涨5.39%,千方科技上涨1.36%,移远通信上 涨0.73%,大华股份上涨0.45%。 消息面上,交易商协会于6月16日召开银行间市场支持汽车企业高质量发展座谈会,中国一汽、上汽集 团等9家车企代表参会,探讨行业竞争下的融资需求及优化建议。协会表示将强化债券市场制度创新, 支持车企向智能化、绿色化转型。部分成分股如万马科技、千方科技等涨幅或受此政策预期提振。 券商研究方面,申万宏源指出VLA模型通过整合视觉、语言和行动模块,显著提升了自动驾驶性能, 其平均无接管里程可达50-100公里,远优于传统方案的1-10公里,但该技术对车端芯片算力需求大幅提 升,例如理想汽车在OrinX上部署的VLA模型参数规模达4B,凸显智能网联汽车产业链中算力硬件的核 心地位;中信建投则关注海格通信在智能交通 ...
能干活才是未来!五大先锋公司激辩从实验室到产业化的跨越式突破
机器人圈· 2025-06-11 11:43
在人工智能技术浪潮奔涌的当下,具身智能( Embodied AI)正以破竹之势成为全球科技竞技的核心赛道。 2025年 6月6日,2025北京智源大会 期间, "智源具身智能会客厅"汇聚了 宇树科技、北京人形机器人创新中 心、银河通用、穹彻智能、 Physical Intelligence 等全球顶尖企业,通过技术展示、实机演示与圆桌对话,勾勒 出这一领域的最新图谱。 这场科技盛宴不仅揭示了具身智能在运动控制、环境交互、数据驱动等关键技术的突破,更展现了从实验室原型 到产业落地的清晰路径。 从格斗到叠衣服:机器人开始"干真活" 宇树科技 CEO王兴兴 带来的 G1机器人,以"全球最能打的机器人"标签引发关注。在《CMG世界机器人大赛》 机甲格斗中,G1凭借自主决策算法与高动态运动控制,击败多国劲旅夺冠。王兴兴强调:"格斗不是表演,而是 验证全身协调性、实时决策能力的'炼金石'。"其背后是深度强化学习与动力学模型的融合,使机器人在高速对抗 中实现毫秒级反应。 北京人形机器人创新中心 的天工 2.0则以"马拉松冠军"身份亮相。 总经理 熊友军 展示的数据令人惊叹: 天工 1.0 在 2小时40分钟内完成半程马拉松 ...
对话灵初智能CEO王启斌:让机器人进工厂有意义,让机器人学会打麻将也有意义
Sou Hu Cai Jing· 2025-06-11 08:47
对话灵初智能 CEO 王启斌: 让机器人进工厂有意义 让机器人学会打麻将也有意义 搜狐 科技 超级同ナ (?)L 出品|搜狐科技 作者|常博硕 编辑|杨锦 "吃!""碰!""胡了!" 前不久,一则机器人与人类同桌打麻将的视频流传网络。在持续30分钟的自主决策中,机器人除了能够完成翻牌、摸牌等一系列灵巧的操作,还能根据牌 局状态自主构建出牌策略。 这背后,是灵初智能强化学习算法模型Psi R1,在展示开放场景下机器人处理长程复杂任务的能力。这也是全球首个支持"动作感知-环境反馈-动态决 策"全闭环的端到端具身VLA模型。 具身智能的浪潮席卷全球,机器人逐渐从人类科幻的想象走进产业的黎明。从春晚丢手绢到地库里骑自行车再到上桌打麻将,这个领域里从不缺少激动人 心的瞬间。 在一片"秀肌肉"的喧嚣中,有一个声音吸引了我们的注意。"我们不做简单的、假把式的东西",灵初智能创始人兼CEO王启斌近日与搜狐科技对话时表 示:"我们就是要用稳定、低价的产品去解决朴实的问题。" 灵初智能创立于2024年,创始人除了有着多年产品操盘经验的王启斌,还包括斯坦福大学访问学者、李飞飞的学生陈源培、以及在机器人及无人驾驶领域 有着丰富算法经 ...
热捧与嘲讽交织中 人形机器人公司“顶流”摸索短期出路
Nan Fang Du Shi Bao· 2025-06-09 14:08
宇树科技创始人王兴兴成为今年北京智源大会的"顶流"。6月6日的大会开幕式上,轮到王兴兴发言时,后排观众纷纷起立拍照。等到结束散场,王兴 兴在数名安保人员护送下离场,免于去年"顶流"月之暗面创始人杨植麟被观众层层围困的囧况。 与被公众热捧相伴随的是质疑乃至嘲讽。市场的负面声音,主要针对宇树科技机器人现有能力展示的真实性及其实用价值。这家公司曾一度被调侃 为"CG 动画公司",其人形机器人被唤作"遥控玩具"。 其他人形机器人公司亦未幸免于此。今年春节前后,深圳众擎机器人频频发布"炫技"视频,于是有声音将其与宇树科技一同归入"影视公司"的行列。 该公司创始人赵同阳对此并不忌讳。"我们不会回避外界的质疑,甚至把外界骂得最难听的部分放到公司的屏幕上,让每个工程师看。"他在智源大会 上说,"愤怒产生力量。" 热捧与质疑交织的市场情绪背后,核心指向人形机器人产业推进路线和前景的非共识。非共识包括但不限于:"花拳绣腿"有无意义?落地汽车产线当 下是否是伪命题?具身智能数据短缺"瓶颈"如何缓解?从对这些问题的回答中,亦可窥见人形机器人公司短期内摸索出路的解法。 "花拳绣腿"有无意义? 具身智能模型决定了机器人的智能化水平,但由 ...
智源大会热议人形机器人:技术趋势与商业现实
Zhong Guo Jing Ying Bao· 2025-06-08 13:39
正面回应"秀肌肉"之嫌 今年以来,从春晚跳舞到马拉松比赛、格斗比赛,再到8月即将举行的运动会,人形机器人赛事蔚然成 风的同时,也引发了社会大众的疑问:人形机器人企业是否存在"秀肌肉"、博眼球之嫌? 对于这一犀利的提问,宇树科技创始人、CEO王兴兴在现场正面回应称:"我们的目标一直是通过AI技 术让机器人做各种全身动作,真正解放人类的生产力,但在这个终极目标实现之前,我们先参加一些表 演、一些赛事来向大家展示机器人的情况,并且产生一部分商业价值。" 宇树科技因16台H1机器人在央视春晚表演舞蹈而声名大噪,今年5月下旬又举办了业内首个人形机器人 格斗比赛,宇树机器人G1"AI策算师"夺冠。 通过自然语言发出的语音指令,宇树科技G1机器人展示了格斗组合拳,银河通用机器人Galbot在零售场 景中抓取不同商品,天工机器人则完成水果摆盘的任务……这是在2025年北京智源大会上展示的一些真 实场景。 在过去的一年里,具身智能领域迎来爆发式增长,成为AI与机器人技术融合的核心赛道。《中国经营 报》记者从智源大会了解到,今年首次将具身智能活动部分升级为全天的分论坛,并加入人形机器人的 主题。来自产学研各个领域的代表就具身智能 ...
拆解特斯拉机器人供应链:30 多位从业者看到的泡沫和希望
阿尔法工场研究院· 2025-06-08 13:36
晚一点,好一点 以下文章来源于晚点LatePost ,作者晚点团队 晚点LatePost . 作者 | 李梓楠 来源 | 晚点LatePost 导语 :重新发明了汽车,但还没造出可用的轮子。 今年 4 月中旬,特斯拉采购团队来到宁波一家供应商的厂区,做人形机器人量产前的最后一次审厂。门口一辆车上,盯梢的人对上了车 牌,拍下照片发给 "上线":"特斯拉来审厂了。" 值得这么麻烦。第二个交易日,这家公司股价照例涨停。从特斯拉 2022 年 10 月第一次对外展示人形机器人至今,A 股机器人概念板块 涨了 93%,同期沪深 300 指数只上涨约 1%。 一周后,数千个组装完成的核心零部件在宁波装船,顶着高昂关税,发往美国加州弗里蒙特的特斯拉工厂。 这里没有一点万亿概念板块的样子。弗里蒙特工厂二楼的机器人制造专区,没有手臂和脑袋的机器人系着铁链,挂在架子上。工程师测试 完零件后,会把它们手工拼装成新款人形机器人。地面上散落着电线和塑料包装。 自特斯拉 2022 年亮相机器人后,全球的风险投资者、特斯拉及供应商已为此投入超过 1000 亿元。到目前为止,人形机器人的生产比劳 力士机械表还要手作。据我们了解,特斯拉下的零 ...