VLM - filings, earnings calls, financial reports, news

VLM

Search documents

日经中文网· 2025-06-06 07:55

编者荐语：日经中文网与36氪展开内容交换合作，精选36氪的精彩独家财经、科技、企业资讯，与读者分享。以下文章来源于36氪Pro ，作者李安琪李勤 36氪Pro . 36氪旗下官方账号。深度、前瞻，为1%的人捕捉商业先机。车企的AI辅助驾驶人才饥渴症。文｜李安琪编辑｜李勤封面来源｜日经中文网入职新公司第一天，张杨（化名）被要求"吐露"上家公司的辅助驾驶算法与代码。因没有积极配合，张杨没在新公司待多久就离开了。张杨的前东家是理想汽车，近年因迅速落地辅助驾驶而被行业关注，成为同行重点"探秘"的对象。辅助驾驶的技术演化在持续喷发。从传统的基于规则的方案转向"端到端"模型路线后，车企的人才画像需求发生了极大变化，中国车企像互联网大厂与AI公司一样渴求AI人才。行业竞争激烈而持续。车企内部，团队赛马、立军令状、集体封闭式开发、"做不出来就换人"等，已经成为辅助驾驶部门的常态。在高压的交付压力下，挖角高端人才、解密头部公司的技术，成为企业的一些"水下动作"。尤其今年以来，辅助驾驶第一梯队公司的人才遭到了哄抢。有猎头人士告诉36氪，在端到端、AI大模型这波浪潮中，华为、理想、Mom ...

2025中国高阶智能辅助驾驶最新技术洞察：算力跃迁、数据闭环、VLA与世界模型

EqualOcean· 2025-06-05 05:42

〖亿欧智库算力跃迁、数据闭环、VLA与世界模型 2025中国高阶智能辅助驾驶最新技术洞察 00 亿欧智库 https://www.iyiou.com/research Copyright reserved to EO Intelligence, June 2025 www.iyiou.com 获取更多维度报告数据 (www.iyiou.com) ，请访问亿欧网 ◆◆◆ ◆ ◆◆ ZIX 零售 la CONTENTS 8 中国高阶智能辅助驾驶市场背景 01 1.1 高阶辅驾ODD再扩展 1.2 科技平权与技术普惠 1.3 事故焦虑与安全冗余 1.4 政策护航与理性宣传中国高阶智能辅助驾驶市场背景 01 1.1 高阶辅驾ODD再扩展 1.2 科技平权与技术晋惠 1.3 事故焦虑与安全冗余 1.4 政策护航与理性宣传中国高阶智能辅助驾驶技术洞察 02 中国高阶智能辅助驾驶技术洞察 02 解码算力、 2.1 高阶智能辅助驾驶技术洞察：数据、算法的技术底层逻辑 2.2 高阶智能辅助驾驶算力洞察: ①车端算力;②云端算力 ①数据难题；②数据采集；③定位技术 2.3 高阶智能辅助驾驶数据洞察： ①端到端;②VLA; ...

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

机器之心· 2025-06-01 03:30

机器之心报道编辑：张倩「尽管经过 SFT 的模型可能看起来在进行推理，但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世，学界普遍采用「监督微调 + 强化学习」的两阶段训练范式：先通过推理数据进行监督微调（SFT），再通过强化学习（RL）进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型（LVLM）领域。但近日的一项研究成果却给出了一个惊人的发现：「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径，而 RL 则是在促进真正的多模态推理！」这个发现来自加州大学圣克鲁兹分校和德克萨斯大学达拉斯分校等机构的一个研究团队，他们深入探讨了「SFT+RL」这一经典范式在视觉语言模型开发中的适用性，其中重点关注了两个核心问题：1）SFT 与 RL 在多模态推理中分别产生何种独特作用？2）这种两阶段训练对 LVLM 的推理能力是否确有必要？论文标题： SFT or RL? An Early Investigation into Training ...

VLAA-Thinker-Qwen2.5VL-3B模型

VLAA-Thinker-Qwen2.5VL-3B模型

RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

机器之心· 2025-05-29 04:53

本文共同第一作者为新加坡国立大学博士生铁宸睿和多伦多大学研究助理/本科生孙圣翔。合作者为朱锦轩、刘益伟、郭京翔、胡越、陈浩楠、陈俊廷、吴睿海。通讯作者为新加坡国立大学计算机学院助理教授邵林，研究方向为机器人和人工智能。视觉语言模型（Vision-Language Models, VLMs），为真实环境中的机器人操作任务提供了极具潜力的解决方案。尽管 VLMs 取得了显著进展，机器人仍难以胜任复杂的长时程任务（如家具装配），主要受限于人类演示数据和训练样本的稀缺性。为解决这一问题，研究团队提出 Manual2Skill，一种基于 VLMs 的创新框架，使机器人能通过高级视觉说明书自主理解并执行家具装配任务，模仿人类学习装配的过程。该方法弥合了抽象指令与物理执行之间的鸿沟，显著提升了机器人在真实操作场景中的实用性。目前，该论文已被机器人领域顶级会议 Robotics: Science and Systems XXI（RSS 2025）接收。论文标题：Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furnit ...

Vision-Language Models (VLMs)

Manual2Skill

Robotics

Manual2Skill

Vision-Language Models (VLMs)

Manual2Skill

Robotics

Manual2Skill

「智驾」人才争夺战：帮新员工支付前司百万竞业赔偿

36氪· 2025-05-23 13:58

车企的AI辅助驾驶人才饥渴症。 " 在2024年、2025年初，理想辅助驾驶团队每一个核心人员基本上都会接到20 个以上的猎头电话。"今年5月7日，理想汽车CEO李想在AI Talk中说道。但高端人才的争抢，往往伴随着竞业风险与法律纠纷。据36氪汽车了解，理想汽车今年起诉一名跳槽至同城企业的员工，起诉金额高达千万元级别，最终双方选择私下和解，员工向理想赔偿了一年工资的金额款项。类似的竞业协议诉讼并不少。据36氪了解，理想还起诉了南方一家头部新能源车企员工，双方达成和解后，后者协助员工赔付了超百万元。针对上述信息，理想表示不予置评。竞业、诉讼，已成为当下车企辅助驾驶、AI团队的常用手段，以此防止、延缓技术外溢，同时抑制对手发展。当下，新能源汽车行业产品力趋向同质化，辅助驾驶是为数不多、具备特色与差异化的技术招牌。文｜李安琪编辑｜李勤来源｜ 36氪汽车（ID：EV36Kr）封面来源｜ Unsplash 入职新公司第一天，张杨（化名）被要求"吐露"上家公司的辅助驾驶算法与代码。因没有积极配合，张杨没在新公司待多久就离开了。张杨的前东家是理想汽车，近年因迅速落地辅助驾驶而被行业关注，成 ...

TransDiffuser: 理想VLA diffusion出轨迹的架构

理想TOP2· 2025-05-18 13:08

Diffusion(扩散模型)是一种生成数据的模型，除了Diffusion外，还有其他生成模型，比如GAN(生成对抗网络)、VAE(变分自编码器)等。不同的生成模型在核心思想与生成数据的方法上有区别。 Diffusion的核心思想是通过加噪声(Forward Process)和去噪(Reverse Process)的过程来学习数据的分布。可以想象成一种逆向拼图: 先把一张完整的图片或其他数据打乱成一片模糊，再通过学习如何一步步还原它。去噪的过程是训练一个神经网络，让它去预测每一步的噪声，然后去除噪声，生成目标数据。贾鹏25年3月英伟达GTC上关于理想VLA diffusion出轨迹的表述 VLM是由端到端+VLM两个模型组成的，VLM的两个快慢系统都是输出的轨迹。VLA是一个模型具备快慢思考能力。读者不用被里面的名词吓着，本文经过认真思考，并结合预期的大多数读者的知识储备，做了不少专门解释，逻辑链很清晰，多读几遍能有收获的。本文结构:先解释什么是Diffusion，再分享贾鹏25年3月英伟达GTC上关于理想VLA diffusion出轨迹的表述，最后分享TransDiffuser的架构细节 ...

2 1 Shi Ji Jing Ji Bao Dao· 2025-04-24 13:07

21世纪经济报道记者林典驰深圳报道今年以来，人形机器人的产业化进展飞速。从春晚上"福兮"的精彩表演，到首届人形机器人半程马拉松中"天工"的首次冲线，一时间"街头巷尾"都在讨论人形机器人。要支撑人形机器人与环境感知交互，就离不开具身智能技术的持续突破。尤其是大语言模型（LLM）、视觉语言模型（VLM）以及视觉语言动作端到端模型（VLA）等关键技术的迭代创新，显著提升了机器人在交互感知和泛化能力方面的表现。然而，具身智能前行之路并非坦途，在数据采集、机器人形态应用以及大小脑融合等方面仍面临诸多挑战。因此，厂商们正在从不同的领域切入，解决以上痛点。比如，英特尔和东土科技（300353）等提出大小脑融合解决方案，采用单一芯片架构替代双系统模式，降低整体成本及软件开发、测试、优化与部署成本。破解数据匮乏桎梏 1950年，艾伦·图灵首次提出"具身智能"时，并未引起轰动，直到在近两年才成为科技圈的热词。图灵给出的基本假设是，具身智能是通过与环境交互获得知识并泛化应用能力。英伟达创始人兼CEO黄仁勋则进一步诠释，具身智能是能够理解、推理并与物理世界互动的智能系统，预计其将成为人工智能的下一波 ...

华为诺亚VLM长程具身导航: 全局-自记忆映射与3大记忆模块解析

理想TOP2· 2025-04-23 13:34

以下文章来源于深蓝具身智能，作者深蓝学院-具身君深蓝具身智能 . 深蓝学院旗下专注于具身智能与大模型的资讯与干货分享 "智能体不应被语言或视角束缚，记忆与感知的融合才是自由导航的钥匙" 介绍本文具体工作前，先一起回顾一下现有VLN的分类，如表1所示，大致分为三类：基于大语言模型（LLM）的导航、基于价值地图的导航和基于视觉语言模型（VLM）的导航。 | सेंड | 说明 | 方法 | 优点 | 缺点 | | --- | --- | --- | --- | --- | | 基于LLM的导航 | 构建全局记忆地图,用自然语言 | LFG | 维护全局地 | 缺乏高维语义信息, 削弱空间推理 | | | 描述候选目标点 | VoroNav | 图,使用高 | | | | | ESC | | 能力 | | | 位置,使用LLM生成行动决策 | OpenIMNav | 级推理 | | | 基于价值地 | 根据自我视角观察计算全局价值 | VLFM | 解决长时导 | 价值地图基于局部观察,缺乏全局视 | | 图的导航 | 函数,根据生成 | InstructNav | 航的记忆遗 | 角,导 ...

具身智能

视觉语言模型（VLM）

Artificial Intelligence

MEM2EGO

具身智能

视觉语言模型（VLM）

Artificial Intelligence

MEM2EGO

对话理想智驾郎咸朋、贾鹏，一个后进生，怎么提前交卷了？

晚点LatePost· 2024-08-02 11:53

以下文章来源于晚点Auto ，作者晚点团队晚点Auto . 从制造到创造，从不可能到可能。《晚点LatePost》旗下汽车品牌。智能驾驶，一场昂贵的竞赛开始。决定排位、决定未来。文丨程曼祺窦亚娟编辑丨宋玮先后任职于特斯拉和小鹏的谷俊丽博士说，中国智能驾驶研发进度至少落后特斯拉 1.5 -2 年。理想智驾副总裁郎咸朋认为，差距没那么大，产品体验上理想最多落后半年。理想强调自己做智驾的优势是车多、数据多，小鹏创始人何小鹏则说："如果有人说它有很多车、很多数据" 就能做好自动驾驶，"千万别信，绝对是胡扯"。价格战还在燃烧，中国汽车新势力们又集体挤入了一个新战场——智能驾驶，充满分歧、争议、你追我赶。不是所有车企都买得起这张入场券。智能驾驶 30 亿研发投入起步，逐年递增。理想说，现在一年租卡要 10 亿人民币，将来要 10 亿美元。新势力如此疯狂、不甘落后，是因为他们看到了特斯拉 FSD V12（特斯拉 2024 年 1 月开始大规模推送的完全自动驾驶新版本）的巨大进步，也看到了智驾能力对消费决策的影响。去年 9 月，华为宣布年底推出全国都能开的无图方案，问界同期围绕智驾猛烈宣传。短短一个 ...