Workflow
VLA
icon
Search documents
当我们谈大模型和vla岗位的时候,究竟有哪些内容?(附岗位)
自动驾驶之心· 2025-07-11 11:23
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 这样描述我想大家应该都能理解了,对应岗位的技术基本围绕大模型、diffusion还有数据生成等,是一个值 得投入的研发方向。自动驾驶之心也为大家推荐一些岗位,希望有一定经验的大佬投递。详细公司与级别 欢迎底部咨询我们!!!! 1)大模型研发工程师 base:深圳/上海; 待遇:30k-80k/月 岗位描述: 岗位要求: 最近有小朋友去投大模型和vla相关的岗位,来咨询峰哥。询问两者有什么差异,vla和端到端有什么区别? 这里也和大家做个分享。 首先,所有依赖大模型的方案,都可以叫大模型岗位,包括VLM、VLA这类。自驾领域经常采用qwen这类 大模型做微调,适配自驾场景的理解或者预测。关键技术:微调、轻量化、量化、部署等; 其次VLA的概念还有执行(action,vision+language+action=VLA),VLA可以是属于"端到端"这一概念! 从数据源到执行。业内目前有两种VLA方案,两阶段:基于大模型+Diffusion(比如理想,信息提取+轨迹 输出),单阶段完全基于大模型的方案比如OpenD ...
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
自动驾驶之心· 2025-07-11 06:46
论文链接:https://arxiv.org/pdf/2506.24044 项目链接:https://github.com/JohnsonJiang1996/Awesome-VLA4AD Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends.2025 论文链接:https://arxiv.org/pdf/2506.20966 项目链接:https://github.com/AoqunJin/Awesome-VLA-Post-Training 今天为大家整理了几十篇具身相关的综述,设计数据集、评测、VLA、VLN、强化学习、基础模 型、DP等方向,为大家一览具身发展的路线, 内容出自具身智能之心知识星球。 A Survey on Vision-Language-Action Models: An Action Tokenization Perspective.2025 论文链接:https://arxiv.org/pdf/2507.01925 A Survey on ...
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
具身智能之心· 2025-07-11 00:57
今天为大家整理了几十篇具身相关的综述,设计数据集、评测、VLA、VLN、强化学习、基础模 型、DP等方向,为大家一览具身发展的路线, 内容出自具身智能之心知识星球。 A Survey on Vision-Language-Action Models: An Action Tokenization Perspective.2025 论文链接:https://arxiv.org/pdf/2507.01925 A Survey on Vision-Language-Action Models for Autonomous Driving.2025 论文链接:https://arxiv.org/pdf/2506.24044 Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes.2025 论文链接:https://www.arxiv.org/abs/2408.03539 A Survey on Diffusion Policy for Robotic Manipulation: Taxonomy, Analysis, and ...
DreamVLA:全球首个“世界知识预测”VLA模型,操作成功率近八成
具身智能之心· 2025-07-10 13:16
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Wenyao Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与动机 近年来,视觉-语言-动作(VLA)模型在整合图像生成与动作预测以提升机器人操作的泛化性和推理能力 方面展现出潜力。但现有方法受限于基于图像的预测,存在信息冗余,且缺乏动态、空间和语义等关键世 界知识,难以形成闭环的感知-预测-动作循环。 动态区域预测 :利用光流预测模型识别场景中动态区域(如运动物体、机器人末端执行器),让模型 专注于任务关键的运动区域,避免冗余帧重建。通过CoTracker提取动态区域,训练模型仅重建这些区 域,优化目标为最大化对数似然的证据下界,损失函数为: $${\mathcal{L}}_{d y n}={\frac{1}{|{\mathcal{D}}|}}\sum_{x_{i}\in{\mathcal{D}}}\mathbb{E}_{z\sim Q_{\phi}(z|x_ ...
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-10 12:40
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 端到端自动驾驶 - 下一代智能驾驶量产核心算法 端到端自动驾驶(End-to-End Autonomous Driving)作为目前智驾量产的核心算法,可以分为一段式端到端、二段式端到端两个大的技术方向。自UniAD获得 CVPR Best Paper以来,正式拉开了国内新一轮的智驾军备竞赛。 2024年理想汽车更是宣布E2E+VLM的双系统架构量产! 端到端自动驾驶通过传感器数据输入 (视觉/Lidar等)直接输出自车规划或控制信息,是目前智能驾驶最具代表性的方向。 目前VLM/VLA也是招聘的刚需,3-5年就能冲击百万年薪! 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。UniAD是端到端的最终解吗?显然不是!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 去年我们推出了《首个面向工业级的端到端算法与实战教程》,今年很多小伙伴反馈技术发展太快了,先前的技术方案已经不适合当下的大环境。端到端目前发 展出多个领域技术的方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Trans ...
VLA统一架构新突破:自回归世界模型引领具身智能
机器之心· 2025-07-10 04:26
然而,现有方法多以语言模态为中心,往往忽视了视觉信息蕴含的丰富时序动态与因果结构。 本文来自:王宇琪,中国科学院自动化所博士,研究方向为世界模型,自动驾驶感知与决策等,在 CVPR、NeurIPS、ICCV、 ECCV、ICLR 等顶级会议上发表过多篇论文。 王鑫龙团队,北京智源研究院,研究方向为原生多模态大模型,Emu 系列工作核心负责人。 张兆翔团队,中国科学院自动化研究所,研究方向涵盖世界模型、视觉生成与重建、自动驾驶、具身智能等。 从 Sora 到 Genie2,从语言驱动的视频生成到世界的交互模拟,世界模型正加速成为连接感知、理解与决策的关键基座。随着视觉 - 语 言 - 动作(VLA)模型在具身智能领域的快速发展,多模态之间的边界正被重塑。 论文标题: Unified Vision-Language-Action Model 网站链接: https://robertwyq.github.io/univla.github.io/ 论文链接: https://arxiv.org/abs/2506.19850 代码链接: https://github.com/baaivision/UniVLA 为此,北 ...
VLA爆发!从美国RT-2到中国FiS-VLA,机器人的终极进化
具身智能之心· 2025-07-09 14:38
作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 2025年,全球具身智能赛道爆火,VLA模型成为了绝对的C位。从美国RT-2的开创性突 破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。 2025年,具身智能可真是太火了。 而提到具身智能,不得不提——视觉语言动作模型(Vision-Language-Action,VLA)。 作为具身智能的核心驱动力,VLA正席卷全球,成为研究人员们的「新宠」。 论文链接: https://arxiv.org/pdf/2506.01953 从产业界到学术界,全球的主流公司与研究机构,都在加速向这一方向靠拢,达成了罕见的共识。 在硅谷,诸如谷歌DeepMind、Figure AI、Skild AI、Physical Intelligence等行业领军者,早已 开始发力押注VLA的未来。 几周前,谷歌曾发布了首个离线VLA模型,让机器人不用联网,即可精准操控完成 ...
筹备了半年!端到端与VLA自动驾驶小班课来啦(一段式/两段式/扩散模型/VLA等)
自动驾驶之心· 2025-07-09 12:02
与传统模块化方法不同,端到端系统实现了从传感器输入到车辆规划/控制信息的直接建模,避免了模块化 方法间的误差累积。BEV感知打通了模块化方法间的壁垒,在统一的上帝视角下实现了技术的一次跃迁。 之后UniAD统一了各个感知和规划任务,所有的模块第一次在一个模型中运行起来,至此端到端时代来临~ 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。UniAD是端到端的最终解 吗?显然不是!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 去年我们推出了《首个面向工业级的端到端算法与实战教程》,今年很多小伙伴反馈技术发展太快了,先 前的技术方案已经不适合当下的大环境。端到端目前发展出多个领域技术的方向,需要掌握多模态大模 型、BEV感知、强化学习、视觉Transformer、扩散模型等相关的知识。学习端到端自动驾驶,是一个一站 式强化多领域知识的好机会。但这样的学习路径往往非常痛苦。同时掌握多个领域的知识已经足够困难, 而各领域的论文数量繁多、知识碎片化,入门者往往还没了解各个领域就已然放弃。如何从零散论文中提 炼框架、掌握领域发展趋势,是初学者的常见挑战。同时学习目标驱动导航需要结合实际任务完成 ...
腾讯研究院AI速递 20250709
腾讯研究院· 2025-07-08 15:50
Group 1 - Ruoming Pang, head of Apple's foundational model team, is reported to join Meta's new AI team with an annual compensation in the tens of millions [1] - Pang's departure may be influenced by internal discussions at Apple regarding the introduction of third-party models like OpenAI, leading to team morale issues [1] - Apple's AI team structure will be reorganized under Zhifeng Chen, transitioning to a multi-layer management structure [1] Group 2 - Microsoft has launched Deep Research, a public preview version that utilizes the o3 model and Bing search to create an advanced AI research tool [2] - This AI can automatically deconstruct complex problems, gather the latest authoritative information from the web, and generate auditable research reports [2] - An API interface has been opened for integration into applications, supporting enterprise-level AI platforms across various fields such as research, finance, and healthcare [2] Group 3 - Alibaba has open-sourced the multi-modal reasoning model HumanOmniV2, capable of accurately capturing hidden information in videos and understanding "subtext" [3] - The model incorporates a forced context summarization mechanism, a multi-dimensional reward system driven by large models, and optimization training methods based on GRPO [3] - Alibaba has introduced the IntentBench evaluation benchmark, with HumanOmniV2 achieving an accuracy rate of 69.33%, excelling in understanding complex human intentions [3] Group 4 - PaddleOCR 3.1 has been released, with Wenxin 4.5 enhancing the accuracy of text recognition in 37 languages by over 30%, supporting high-quality automatic data labeling [4] - A new production line, PP-DocTranslation, has been added, combining PP-StructureV3 and Wenxin 4.5 to support translation of Markdown, PDF, and image documents, along with customization of professional terminology [4] Group 5 - A controversy has emerged involving hidden instructions in academic papers aimed at inducing AI to give high scores, with several top universities implicated [6] - Xie Saining, a co-author of one such paper, acknowledged responsibility and apologized, clarifying that he does not endorse such practices [6] - This incident has sparked discussions on academic ethics in the AI era, highlighting the lack of unified standards in AI review processes and the need for reform [6] Group 6 - The Visual Language Action model (VLA) is becoming a core technology for embodied intelligence by 2025, with rapid iterations from Google's RT-2 breakthrough [7] - China's Zhihui Square has partnered with top universities to launch FiS-VLA, innovatively embedding "fast systems" into "slow systems" to address the trade-off between robotic control efficiency and reasoning capability [7] - FiS-VLA has achieved an 8% success rate improvement in simulation tasks and an 11% improvement in real environments, with a control frequency of 21.9Hz, 1.6 times that of the open-source model π0 [7] Group 7 - YouTube co-founder Chen Shijun discussed AI entrepreneurship and long-termism with the Manus team, emphasizing the value of rapid experimentation and risk-taking [8] - Recommendations for AI startups include leveraging first-mover advantages to retain users, creating compound network effects, and exploring areas that larger companies avoid, all within legal boundaries [8] - Key decisions at YouTube included prioritizing user growth over immediate monetization, establishing transparent core metrics, and developing a creator-friendly advertising model while focusing on the "passive experience" of recommendation systems [8] Group 8 - The key shift in acquiring users for AI products is that if a product does not generate social engagement within the first 48 hours, it may fail, making virality a survival threshold rather than a bonus [9] - The success story of selling Base44 for $80 million involved user participation in the development process, encouraging sharing of creations, and strategically choosing LinkedIn as a platform for dissemination, creating a closed loop of development, showcasing, and sharing [9] - The distribution paradigm for AI startups is evolving, with product development becoming a public showcase, niche native creators proving more effective than influencers, and growth metrics becoming assets for dissemination, shifting from "closed-door development" to "public collaboration" [9] Group 9 - U.S. universities are reshaping computer science education, with the CS major potentially becoming more humanities-oriented, emphasizing computational thinking and AI literacy over traditional programming skills [10] - The "Level Up AI" initiative has launched an 18-month curriculum overhaul, where future programming languages may involve "Human," allowing students to complete programming tasks through interaction with AI [10] - Traditional humanities classrooms are facing assessment crises, with educators struggling to identify AI-generated content, leading to a return to handwritten assignments and the development of anti-cheating systems, raising concerns about students' over-reliance on AI affecting their cognitive abilities [10]
融资5亿,90后清华博导做机器人,「外界对我们有不少误解」
36氪· 2025-07-07 11:02
以下文章来源于智能涌现 ,作者邱晓芬 苏建勋 智能涌现 . 直击AI新时代下涌现的产业革命。36氪旗下账号。 "同时做大脑和本体,看起来可能会非常难,但对我来说,因为我都能做,所以这是一个自然选择。" 文 | 邱晓芬 苏建勋 编辑 | 苏建勋 来源| 智能涌现(ID:AIEmergence) 封面来源 | 企业官方 "外界对我们的认知,和我们实际的业务状况,确实存在一定差距。" 在"星动纪元"的北京办公室中,创始人陈建宇对"智能涌现"表示。 "星动纪元"成立于2023年8月,由清华大学交叉信息研究院助理教授陈建宇创办。2025年7月7日,"星动纪元"宣布完成近5亿元A轮融资,由鼎晖CGV资本和 海尔资本联合领投,厚雪资本、华映资本、襄禾资本、丰立智能等跟投,老股东清流资本、清控基金等继续追加投资。 尽管成立至今不过两年,在机器人硬件业务上,"星动纪元"接连发布了灵巧手、轮式、全尺寸人形等产品,这些动向, 让不少人误将星动纪元视作一家机 器人本体公司,甚至"觉得我们是一家灵巧手公司 "。 这不是陈建宇希望公司被贴上的标签。 做一款通用、智能的机器人,是陈建宇在近十年前看到AlphaGo时就定下的目标,这意味着机 ...