Workflow
Mamba
icon
Search documents
地平线陈黎明:智驾业硬件和软件将进一步集成
Guo Ji Jin Rong Bao· 2025-07-11 12:58
陈黎明指出,智能驾驶技术正处于关键发展阶段。从创新曲线来看,当技术处于10%到20% 的阶段时,要么迎来快速增长,要么走向消亡。智能驾驶技术已经迎来了拐点,未来将快速增 长。这一判断基于三点:一是智能驾驶是我国智能网联新能源汽车发展战略的重要组成部分,政 府在电动化和智能化方面都做出了明确规划;二是城区NOA(Navigate on Autopilot)和高速NOA 功能逐渐从高端车型下探至中低端车型,推动了技术的普及和成本降低;三是麦肯锡的统计报告 显示,智能化已成为消费者选择电动车的重要因素,尤其是在高端品牌中,智能驾驶和智能座舱 的属性备受关注。 7月10日至12日,第15届中国汽车论坛在上海嘉定成功举办。 陈黎明分享了地平线在智能驾驶领域的最新研究成果。地平线研发了Vision Mamba算法,该 算法通过引入双向量状态空间和位置编码器,解决了计算和视野问题,具有线性复杂度和全局感 受野,性能显著提升。地平线的Senna架构结合了端到端模型和VLM(Visual Language Model)模 型,提升了系统的泛化能力和决策能力,降低了规划误差和碰撞率。地平线的征程6系列芯片覆 盖低、中、高阶智能驾 ...
2025中国汽车论坛:地平线陈黎明谈智驾新趋势
Sou Hu Cai Jing· 2025-07-11 10:52
Core Insights - The 15th China Automotive Forum will be held in Shanghai from July 10 to 12, 2025, focusing on the theme "Quality Improvement and New Directions for Intelligent Driving" [1] - Dr. Chen Liming, President of Horizon Robotics, delivered a keynote speech discussing the latest research and industry insights in the field of intelligent driving [1] Industry Trends - Intelligent driving is at a critical inflection point in China, driven by three main factors: its significant role in the national strategy for smart connected new energy vehicles, the industry's push for technology democratization, and increasing consumer demand for intelligent features in electric vehicles [3][7] - The functionality of Highway Navigation on Autopilot (NOA) is becoming more user-friendly, while urban NOA is still in a "usable" stage, facing challenges such as complex traffic conditions and system performance issues [7] Technological Innovations - Horizon Robotics has made significant advancements in visual perception algorithms, evolving from traditional methods to the new Vision Mamba algorithm, which improves computational efficiency and resource optimization [11] - The Senna architecture combines end-to-end models with Visual Language Models (VLM), demonstrating over 40% reduction in average planning displacement error and 45% decrease in average collision rates compared to traditional models [14] Chip Technology - The Journey 6 series chips from Horizon Robotics cover a full range of intelligent driving applications, with the Journey 6P chip innovating in areas such as function, floating-point operations, and memory management, effectively reducing system deployment costs [17] Data and Engineering Capabilities - Horizon Robotics has introduced a solution combining reinforcement learning with world models, enabling continuous interaction with the environment for autonomous learning and optimization [19] - The company has achieved ISO 8800 certification for road vehicle safety and AI, providing over 8 million solutions and aiming to exceed 10 million this year, supporting over 200 vehicle models [19] Product Launches - The Horizon SuperDrive (HSD) for urban driving utilizes a one-stage end-to-end model and is set to enter mass production this year, featuring a configuration of 11 cameras and 1 millimeter-wave radar [22] - Horizon Robotics emphasizes its commitment to serving both domestic and global markets, collaborating with major international companies like Bosch and Denso [22]
ICCV25! 上交&中科院MambaFusion: 首个SOTA Mamba多模态3D检测
自动驾驶之心· 2025-07-10 12:40
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今 天 自 动 驾 驶 之 心 为 大 家 分 享 上 交 & 中 科 院 ICCV'25 中 稿 的 最 新 工 作 — MambaFusion ! 首个SOTA的纯Mamba多模态3D检测。 如果您有相关工作需要分 享,请在文末联系我们! 论文作者 | Hanshi Wang等 编辑 | 自动驾驶之心 论文总结 ICCV 2025 中稿的最新工作!本文首次提出了使用纯 Mamba 模块实现高效密集全局融合,并在相机– LiDAR 多模态 3D 目标检测任务上达到SOTA性能。 现有的LiDAR-Camera多模态融合策略往往难以在计算效率、长程建模能力和完整场景信息保留之间取得 平衡;受到状态空间模型和线性注意力的启发,本文尝试利用其线性计算复杂度和长程建模能力来解决 这些挑战,但实验表明,简单采用高效线性方法反而因高度信息丢失导致多模态对齐偏差而性能退化。 为此 ...
VLA爆发!从美国RT-2到中国FiS-VLA,机器人的终极进化
具身智能之心· 2025-07-09 14:38
作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 2025年,全球具身智能赛道爆火,VLA模型成为了绝对的C位。从美国RT-2的开创性突 破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。 2025年,具身智能可真是太火了。 而提到具身智能,不得不提——视觉语言动作模型(Vision-Language-Action,VLA)。 作为具身智能的核心驱动力,VLA正席卷全球,成为研究人员们的「新宠」。 论文链接: https://arxiv.org/pdf/2506.01953 从产业界到学术界,全球的主流公司与研究机构,都在加速向这一方向靠拢,达成了罕见的共识。 在硅谷,诸如谷歌DeepMind、Figure AI、Skild AI、Physical Intelligence等行业领军者,早已 开始发力押注VLA的未来。 几周前,谷歌曾发布了首个离线VLA模型,让机器人不用联网,即可精准操控完成 ...
「Tokens是胡扯」,Mamba作者抛出颠覆性观点,揭露Transformer深层缺陷
机器之心· 2025-07-09 09:52
机器之心编译 原文作者:Albert Gu 编辑:陈陈、杜伟 「Tokenization(分词)是 Transformer 模型为弥补自身缺陷不得不戴上的枷锁。」 近日,Mamba 作者、CMU 助理教授、Cartesia AI 首席科学家 Albert Gu 撰写了一篇新博客,探讨了状态空间模型(SSM)和 Transformer 之间的权衡,并提出了这 样一种观点。 这篇博客改编自 Albert Gu 过去一年来多次进行的一场演讲。虽然演讲内容通俗易懂,面向比较广泛的受众群体,但其中的一些有趣的见解、观点和原理阐释,相 信对专业研究者也不乏启发价值。 在社交媒体 X 上,Albert Gu 抛出了「tokens are bullshit」的观点,并预告了接下来要发布的重大架构进展。 图源: https://x.com/_albertgu/status/1942615020111876248 评论区的很多网友赞成 Albert Gu 的观点,认为移除 tokenization 会在计算效率方面带来积极影响。 状态空间模型 本文首先定义了什么是状态空间模型(State Space Model,SSM)。 1. ...
Mamba一作预告新架构!长文论述Transformer≠最终解法
量子位· 2025-07-09 04:57
一水 发自 凹非寺 量子位 | 公众号 QbitAI Mamba一作最新大发长文! 主题只有一个,即探讨两种主流序列模型—— 状态空间模型(SSMs)和Transformer模型的权衡之术 。 简单介绍下,Mamba就是一种典型的SSMs,它建立在更现代的适用于深度学习的结构化SSM基础上,与经典架构RNN有相似之处。 在最受关注的语言任务上,Mamba-3B超越同等规模的Transformer,与两倍大的Transformer匹敌,因此 被视为Transformer架构的有力挑 战者 。 现在,Mamba一作将自己去年的几场演讲整合成一篇科普长文,向大众分享了如下观点: 而且他还提前剧透, 几天后将发布"架构领域的下一个重大进展" 。 虽然还不知道具体内容,但他目前扔出来的消息已经足够大家抓耳挠腮一段时间了。 因为他提到了一个重要观点—— 注意力机制的缺点实际上并不是它的二次复杂度 。 要知道之前大家都认为,ChatGPT等大模型之所以处理长文本算力消耗巨大,背后原因是Transformer架构中注意力机制的二次复杂度。 而现在,这样的共识或许即将被推翻~ 不过好消息是, 即将推出的新架构能够和Transf ...
Transformer死角,只需500步后训练,循环模型突破256k长度泛化极限
机器之心· 2025-07-08 04:09
机器之心报道 编辑:陈陈、笑寒 线性循环模型(如 Mamba)和线性注意力机制都具备这样一个显著优势:它们能够处理极长的序列,这一能力对长上下文推理任务至关重要。 事实上,这正是它们相较于 Transformer 的关键优势 —— 后者受限于有限的上下文窗口,且在序列长度上的计算复杂度是二次的,成为性能瓶颈。 过去,循环模型面临的主要问题是性能不足:在处理短序列时,它们的表现往往不如 Transformer。然而,随着架构上的一系列突破,循环模型的性能已经显著提 升,在许多任务中已能与 Transformer 媲美,甚至已经被应用于多个工业场景中,如音频建模和代码补全等。 但近期的多项研究发现,循环模型仍存在一个 关键短板 :尽管它们在训练长度范围内表现良好,但在处理超出训练长度的序列时,往往难以泛化,表现明显下 降。 当然不是! 本文,来自 CMU、 Cartesia AI 的研究者证明了通过简单的训练干预,循环模型是完全可以实现长度泛化的。只需 500 步后训练(约占预训练预算的 0.1%),就 能让模型在高达 256k 长度的序列上实现泛化! 因此,循环模型并不是存在根本性缺陷,而是拥有尚未被充分释放的 ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 03:40
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
郭彦东“详解”具身智能:将AGI的能力真正赋予物理世界的机器人
经济观察报· 2025-05-15 13:57
郭彦东预测通用机器人的"iPhone时刻"将在5至7年后到来。 这一预测和百万台产能目标,是基于清醒的行业洞察,还是在 资本与舆论裹挟下的理想化宣言? 作者:郑晨烨 封图:图虫创意 "到2033年,拓展至百万台规模,覆盖工业、物流、家庭服务等多元化场景。"近日,智平方(深 圳 ) 科 技 有 限 公 司 ( 下 称 " 智 平 方 " ) 创 始 人 兼 CEO 郭 彦 东 , 在 公 司 新 一 代 通 用 智 能 机 器 人 AlphaBot 2的发布会上掷出了这句豪言。 对于一家成立刚满两年的初创企业而言,在商业化前景尚未十分明朗的具身智能赛道,立下如此具 体的目标,实属罕见。 从履历上看,郭彦东曾是微软美国总部核心AI团队成员,任职期间主导开发了多款 AI 前沿技术和 产品,其中Custom Vision服务是全球范围内首次将"预训练模型+场景微调"商业化的实践尝试,为 AI技术的大规模应用打开了新思路。 他还在小鹏汽车和OPPO担任过首席科学家和研发高管,这名技术和产业"老兵",选择在人工智能 大模型爆发的节点时刻切入机器人赛道,其核心思考逻辑是"将AGI(通用人工智能)从数字世界 拓展到物理世界" ...
郭彦东“详解”具身智能:将AGI的能力真正赋予物理世界的机器人
Jing Ji Guan Cha Wang· 2025-05-15 12:47
另外,郭彦东也预测通用机器人的"iPhone时刻"将在5至7年后到来。这一预测和百万台产能目标,是基于清醒的行业洞察,还是在资本与舆论裹挟下的理想 化宣言? 近日,带着这些问题,经济观察报记者与郭彦东展开了一场直接对话。 以下是对话实录: 经济观察报记者 郑晨烨 "到2033年,拓展至百万台规模,覆盖工业、物流、家庭服务等多元化场景。"近日,智平方(深圳)科技有限公司(下称"智平方")创始人兼CEO郭彦东, 在公司新一代通用智能机器人AlphaBot 2的发布会上掷出了这句豪言。 对于一家成立刚满两年的初创企业而言,在商业化前景尚未十分明朗的具身智能赛道,立下如此具体的目标,实属罕见。 从履历上看,郭彦东曾是微软美国总部核心AI团队成员,任职期间主导开发了多款 AI 前沿技术和产品,其中Custom Vision服务是全球范围内首次将"预训 练模型+场景微调"商业化的实践尝试,为AI技术的大规模应用打开了新思路。 他还在小鹏汽车和OPPO担任过首席科学家和研发高管,这名技术和产业"老兵",选择在人工智能大模型爆发的节点时刻切入机器人赛道,其核心思考逻辑 是"将AGI(通用人工智能)从数字世界拓展到物理世界"。 ...