Workflow
视觉
icon
Search documents
【招商电子】舜宇光学科技:手机光学创新趋势持续,车载、XR、机器人发展动能强劲
招商电子· 2025-06-24 09:40
车载:智能驾驶发展迅速,驱动2025年车载镜头、摄像模组市场快速增长。车载镜头方面, 公司 预计2024-2025年全球新车单车镜头搭载量将从3.5颗增至超4.3颗,预计2025年全球车载镜头总 需求量超过4亿颗;看好公司凭借自身高技术、高质量、高性价比和快速反应优势,实现全球市占 率进一步提升。 车载摄像模组方面, 公司起步较晚,当前市占率距离全球第一仍有较大差距和成 长空间;公司将从产品结构升级拓展(如像素提升、从环境感知拓展到智能座舱产品线等)、从国 内拓展到欧洲、日韩等国际市场、技术创新引领等持续拓展,目标3-5年成长为全球前三的车载视 觉方案提供商。此外公司 激光雷达、HUD、智能大灯 等亦在快速发展,目前激光雷达项目已有20 多个量产定点、项目总金额超15亿人民币;多款智能车灯产品实现量产交付;新增多个AR-HUD PGU模组项目定点。 手机:高端机型光学影像创新趋势持续,驱动公司产品结构持续改善升级。 全球经济温和复苏,公 司预计25年全球智能手机出货量增速同比微增0.2%至11.75亿部,中国市场同比+2.2%至2.84亿 部;小型化/轻薄化/高性能视频等需求将驱动手机摄像头模组采购金额同比+ ...
特斯拉Robotaxi开启服务
数说新能源· 2025-06-24 03:42
事件: 当地时间6月22日,特斯拉Robotaxi在美国得州首府奥斯汀市正式开启服务。6月23日,特斯拉日内 股价涨幅超10%。 # 车队情况:首批投放35辆、采用量产ModelY 首批Robotaxi的投放量为35辆,由量产Model Y提供服务, 仍配备方向盘和加速、制动踏板,每辆车在副驾驶配备一位安全员。没有方向盘、踏板和控制装置的Cybercab预计 将于2026年上市。 # 运营范围:限定奥斯汀特定区域 特斯拉Robotaxi服务运营时间设定为每日早上6点至午夜,服 务范围限定在奥斯汀中南部的特定地理围栏区域内,避开了城市中较为复杂的十字路口,以确保服务的安全性与稳 定性。 # 客户群体:目前仅面向小部分受邀客户 特斯目前只是向一小批特斯拉的用户和粉丝发出了测试邀请,只有 受到邀请的人才能下载特斯拉的Robotaxi应用。 # 服务费用:固定收取4.2美元 特斯拉Robotaxi服务将固定收取4.2 美元的统一费用。相比之下,在4.3-9.3公里的区间里,Waymo的费用为3.5美元/km。 # 未来规划:快速扩展至1000辆、26年底车队规模达百万辆 按照马斯克的计划,几个月内,Robotaxi车 ...
国内外车企智驾方案对比
2025-06-23 02:09
国内外车企智驾方案对比 20250622 摘要 多家车企加速 L3 级智能驾驶研发,特斯拉在北美已实现完全一体式端到 端方案,国内仍采用模块化方案。华为预计下半年推送一体式端到端方 案,采用多传感器融合路线,比特斯拉更复杂。 下一代视觉语言行动(VLA)模型成为发展重点,参数量预计在 100 亿 以内,旨在通过图像数据直接输出动作,并加入大语言模型解释复杂场 景,目前国内车企多处于研发阶段。 特斯拉采用纯视觉方案,依赖 8 个摄像头实现智能辅助驾驶。其他车企 如华为、Momenta 和小鹏采用多传感器融合路线,但长期震动可能导 致激光雷达精度下降,需要算法补偿。 理想汽车结合 VLA 与端到端模型,使用两片 ORVIS 芯片分别处理场景 理解与复杂情况反馈,但 VRM 模型推理速度较慢。小鹏汽车通过改进 阿里千问的大语言模型进行预训练和后训练。 多数车企放弃高清地图,转而采购精度介于高清地图和传统导航地图之 间的地图。特斯拉领先世界生成技术,模拟多视角镜头并主动标注语义 信息,用于后续训练。 各智驾企业具体技术方案有哪些特点? 特斯拉目前领先,实现完全一体式纯视觉的自动驾驶,但国内采用模块化以适 应交通规则。 ...
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 14:09
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 写在前面 自UniAD(CVPR 2023 Best Paper)问世以来,端到端已经成为当下量产的主流范式。而从去年下半年开始,尤 其是DeepSeek思维链流行以来,视觉-语言-动作(VLA)相关方法伴随着具身智能的爆火,相关论文已经横扫自 动驾驶前沿领域。同时各家主机厂也争先恐后尝试落地研发,理想、文远知行、小米、小鹏等等都在大力尝试量 产。 随着2025年即将过半,学术界和工业界也出现了很多优秀的工作。 所以哪些高质量工作现在应该格外关注?趋势在往什么方向发展?量产应用究竟如何?全都是值得每一位前沿从 业者思考~ 为此,自动驾驶之心采访了学术界和工业界第一线的大佬并做了VLA相关工作的汇总,文章按照发表时间排 序,其中不乏全球顶尖高校团队和工业界研究团队的工作。 并在文末做了一些对当下工作的观点整理,感兴趣 的小伙伴不要错过呦~ 标题:AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adapt ...
FindingDory:具身智能体记忆评估的基准测试
具身智能之心· 2025-06-22 10:56
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 一、研究背景与核心问题 长期记忆缺失 是当前具身智能体的关键瓶颈。尽管视觉语言模型(VLMs)在规划与控制任务中表现突 出,但其 处理跨时空的多模态观察数据 能力严重受限: 核心矛盾 :具身智能需整合长期历史经验(如"找到昨天未整理的玩偶"),但缺乏针对性评估框架。 二、基准设计创新点 2.1 任务架构 作者丨 Karmesh Yadav等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 动态环境交互 记忆推理验证 输入限制 :主流VLMs仅能处理数百张图像(远低于真实场景的千帧级输入) 评估缺陷 :现有视频QA基准(如EgoSchema)依赖选择题形式,无法评估 物体操纵/导航 等需细粒 度推理的具身任务 记忆-动作脱节 :传统方法孤立评估记忆召回与决策执行,忽视二者在具身环境中的耦合性 动态环境构建 :脚本代理在Habitat模拟器中执行物体抓取-放置(Pick-and-Place),产生 ...
上海交大最新!DyNaVLM:零样本、端到端导航框架
具身智能之心· 2025-06-22 10:56
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zihe Ji等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与优化目标 在自主智能体领域,导航是一项基础且关键的能力,它需要融合空间推理、实时决策以及对动态环境的适 应能力。尽管人类能在复杂环境中轻松导航,但在人工系统中复现这一能力仍面临巨大挑战。传统导航方 法常将问题分解为感知、推理、规划和控制等模块化组件,虽依赖专业算法处理子任务,但存在泛化性 差、可扩展性不足以及实际部署困难等问题,因其严重依赖特定任务的工程设计和僵化的流程。 近年来,视觉语言模型(VLM)的发展为导航领域带来了新的可能,它通过在单一框架内整合感知与推 理,为解决传统方法的弊端提供了新思路。然而,VLM在具身导航中的应用仍受限于空间粒度和上下文推 理能力的不足。基于此,本研究提出了DyNaVLM,这是一种零样本、端到端的导航框架,其核心目标是让 VLM无需微调或接触导航特定数据,就能直接作为导航策略使 ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能/场景/方法论全解析~
自动驾驶之心· 2025-06-22 01:35
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...
CVPR'25 | 感知性能飙升50%!JarvisIR:VLM掌舵, 不惧恶劣天气
具身智能之心· 2025-06-21 12:06
以下文章来源于AI生成未来 ,作者AI生成未来 AI生成未来 . 领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等AI领域前沿技术 编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 论文链接: https://arxiv.org/pdf/2504.04158 项目主页: https://cvpr2025-jarvisir.github.io/ Github仓库: https://github.com/LYL1015/JarvisIR Huggingface Online Demo: https://huggingface.co/spaces/LYL1015/JarvisIR 背景与动机 在自动驾驶等现实应用场景中,视觉感知系统常常受到多种天气退化(如雨、雾、夜间、雪)的影响。 传统的单任务方法依赖特定先验知识,而 all-in-one 方法只能解决有限的退化组合同时又存在严重的 领域差异,难以应对复 ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能、场景、方法论全解析~
具身智能之心· 2025-06-21 12:06
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
量子位· 2025-06-21 06:07
Core Insights - The article discusses the development of the ViLaSR-7B model, which enhances spatial reasoning capabilities in large vision-language models (LVLMs) through a novel "Drawing to Reason in Space" paradigm, achieving significant improvements in various spatial reasoning tasks [1][17][33]. Group 1: Model Performance - ViLaSR-7B achieved an average improvement of 18.4% across five major spatial reasoning benchmarks, including maze navigation and video spatial reasoning [3][25]. - The model reached a 45.4% accuracy on the VSI-Bench, outperforming the Qwen2.5-VL-7B by 12.7% [26]. Group 2: Training Framework - The model employs a three-stage training framework: 1. Cold-start training establishes basic visual operation capabilities [22]. 2. Reflective rejection sampling enhances self-correction and reflection abilities [23]. 3. Reinforcement learning optimizes overall reasoning capabilities and drawing operation efficiency [24]. Group 3: Reasoning Paradigms - The article highlights a shift from the traditional "visual-to-text" reasoning paradigm to the "Thinking with Images" paradigm, which allows models to actively manipulate images during reasoning [10][15]. - This new paradigm addresses limitations in the traditional approach, such as loss of critical details and temporal information during the visual encoding process [11][16]. Group 4: Human-like Reasoning Strategies - ViLaSR-7B demonstrates human-like spatial reasoning strategies, such as reference-based measurement reasoning and systematic cross-frame object tracking [30][32]. - The model's ability to identify and utilize reference objects for accurate measurements reflects a mature reasoning process similar to human problem-solving [31].