视觉

Search documents
大会发布 | 世界人工智能大会青年菁英交流会学术研究成果征集通知
3 6 Ke· 2025-07-03 02:53
Group 1 - The event aims to promote academic exchange and innovation collaboration among global youth AI researchers, responding to the theme of the World Artificial Intelligence Conference [3] - The initiative seeks to provide a high-standard academic exchange platform for young scholars and technology developers, facilitating the collision of academic ideas and the transformation and dissemination of research results [3] Group 2 - The call for submissions focuses on cutting-edge explorations in the field of artificial intelligence, covering areas such as large models, generative AI, computer vision, reinforcement learning, AI ethics, and interdisciplinary applications [4][5][6][7][8] - Submissions can take the form of academic posters or preprint papers, with specific guidelines for each format, including visual presentation requirements and structural expectations for research papers [8][9] Group 3 - Selected works will be showcased at the World Artificial Intelligence Conference, with opportunities for authors to present their findings and engage with industry leaders [10] - Authors may apply for direct recommendations to top international journals, including Nature Machine Intelligence, with expedited review processes for recommended papers [10][14] Group 4 - Submission materials must include a title, author information, and either a poster design file or a full preprint paper, along with a brief research highlight summary [11] - The submission deadline is July 10, 2025, with notifications of review results by July 15, 2025, and the conference scheduled for July 27, 2025, in Shanghai [12]
实验室10篇论文被ICCV 2025录用
自动驾驶之心· 2025-07-02 13:54
Core Insights - The article discusses the acceptance of 10 papers from a laboratory at the 20th ICCV International Conference on Computer Vision, highlighting advancements in 3D vision and related technologies [25]. Paper Summaries Paper 1: Domain-aware Category-level Geometry Learning Segmentation for 3D Point Clouds - This paper addresses domain generalization in 3D scene segmentation, proposing a framework that couples geometric embedding with semantic learning to enhance model generalization [1]. Paper 2: Hierarchical Variational Test-Time Prompt Generation for Zero-Shot Generalization - The authors introduce a hierarchical variational method for dynamic prompt generation during inference, significantly improving the zero-shot generalization capabilities of visual language models [3]. Paper 3: Knowledge-Guided Part Segmentation - A new framework is proposed that utilizes structural knowledge to enhance the segmentation of fine-grained object parts, improving understanding of complex structures [5][6]. Paper 4: TopicGeo: An Efficient Unified Framework for Geolocation - TopicGeo presents a unified framework for geolocation that improves computational efficiency and accuracy by directly matching query images with reference images [9]. Paper 5: Vision-Language Interactive Relation Mining for Open-Vocabulary Scene Graph Generation - This paper explores a model that enhances the understanding of relationships in open-vocabulary scene graph generation through multimodal interaction learning [11]. Paper 6: VGMamba: Attribute-to-Location Clue Reasoning for Quantity-Agnostic 3D Visual Grounding - The authors propose a mechanism that combines attribute and spatial information to improve the accuracy of 3D visual grounding tasks [13]. Paper 7: Meta-Learning Dynamic Center Distance: Hard Sample Mining for Learning with Noisy Labels - A new metric called Dynamic Center Distance is introduced to enhance the learning process in the presence of noisy labels by focusing on hard samples [15]. Paper 8: Learning Separable Fine-Grained Representation via Dendrogram Construction from Coarse Labels for Fine-grained Visual Recognition - The paper presents a method for learning fine-grained representations from coarse labels without predefined category numbers, enhancing adaptability to dynamic semantic structures [17]. Paper 9: Category-Specific Selective Feature Enhancement for Long-Tailed Multi-Label Image Classification - This research addresses the issue of label imbalance in multi-label image classification by enhancing feature sensitivity for underrepresented categories [19]. Paper 10: Partially Matching Submap Helps: Uncertainty Modeling and Propagation for Text to Point Cloud Localization - The authors redefine the task of text to point cloud localization by allowing partial spatial matches, improving the model's ability to handle real-world ambiguities [21].
从中美对比和商业化速度,看Robotaxi产业链发展
Changjiang Securities· 2025-07-02 11:42
丨证券研究报告丨 行业研究丨专题报告丨运输 [Table_Title] 从中美对比和商业化速度,看 Robotaxi 产业链 发展 报告要点 [Table_Summary] 特斯拉 Robotaxi 服务正式在美国奥斯汀南部启动,首批车队由约 10 辆 2025 款 Model Y SUV 组成,被允许在特定区域运营,特斯拉迈出自动驾驶商业化关键一步,此次试运营是对纯视觉 方案的首次公开验证。中国凭借政策协同性与技术优势,商业化进程与美国头部企业并驾齐驱。 2024 年我国出租车及持证网约车总保有量或在 400-500 万台级别,当前国内头部企业运营 Robotaxi 数量不足 3000 台,对应市场渗透率仍不足 1%。当前政策要求 Robotaxi 商业化试点 需多方联合申报,区域运营权具备稀缺性与排他性,运营商有望享受自动驾驶技术迭代红利。 分析师及联系人 [Table_Author] 韩轶超 鲁斯嘉 胡俊文 SAC:S0490512020001 SAC:S0490519060002 SAC:S0490524120001 SFC:BQK468 请阅读最后评级说明和重要声明 %% %% %% %% rese ...
VQ-VLA:大规模合成数据驱动动作tokenizer,推理速度提升近三倍
具身智能之心· 2025-07-02 10:18
1. 动作表示效率低 :传统连续动作离散化方法(如均匀分桶)难以捕捉复杂时空动态,导致长时域任务 中累积误差增大 2. 数据依赖瓶颈 :真实机器人数据采集成本高,限制模型泛化能力 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yating Wang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 背景 视觉-语言-动作模型(VLA) 在多模态机器人控制中面临两大挑战: 核心贡献 通用动作分词器框架 :提出基于卷积残差VQ-VAE的通用动作分词器框架,替代传统分桶离散化方法。 合成数据驱动缩放 :首次证明动作轨迹的合成-真实域差异极小( Table 3 显示纯合成数据训练的VQ 在真实任务接近混合数据性能),利用超大规模合成数据(100倍于先前工作)训练分词器。 性能全面优化 :显著提升VLA模型的三项核心指标: 成功率 :长时域任务成功率最高提升30%(真实机器人实验 Figure 3 ) 关键技术方案 1. 卷积残差VQ-VA ...
机器人导航的2个模块:视觉语言导航和目标导航有什么区别?
具身智能之心· 2025-07-02 10:18
点击下方 卡片 ,关注" 具身智能 之心 "公众号 说到机器人导航,技术路线已经逐渐从早期传统的建图定位导航,到后期基于大模型方案的导航演变。而 基于大模型方案的导航又分为视觉语言导航和目标导航! 如果说一句话说明这两个任务的区别,视觉语言导航是""听懂指令走对路",目标导航是""看懂世界自己找 路"。 视觉语言导航是什么? 视觉语言导航本质上是个指令跟随的任务。任务囊括了三个方面,理解语⾔指令、感知周围环境,规划运 动策略。一般来说,VLN机器人系统主要由视觉语言编码器,环境历史信息表征,以及动作策略三个模块 构成。 机器人从环境中获取语⾔指令和每⼀步的视觉观测,首先需要同时视觉语⾔编码器从中压缩出有效信息。 采用怎样的编码器,视觉和语言的表征是否应该投影到⼀个共同的表征空间,是否应该首先对语言指令在 指令级别的拆分然后在压缩是其中的关键问题。这其中,采用在大规模数据集上预训练的视觉语⾔模型, 利用LLM做指令拆解和任务拆分是目前主流且前沿的范式。 VLN机器⼈需要逐步获得视觉观测,执行动作,获得新的观测,以此循环,这天然是⼀个序列决策的任 务。那么如何累积历史上获得的信息,判断当前执行到任务的哪个阶段,为 ...
极智嘉 全栈技术筑壁垒掘金仓储自动化黄金赛道
Sou Hu Cai Jing· 2025-07-02 09:30
中国上市公司网/文 北京极智嘉科技股份有限公司(以下简称"极智嘉")今起招股,至7月4日结束,并计划于2025年7月9日正 式在港交所主板挂牌上市。极智嘉本次计划发行140,353,000股H股。其中,香港公开发售14,035,400H 股,国际发售126,317,600股H股。以每股16.80港元的发行价计算,极智嘉将通过本次IPO募集23.58亿港 元。 值得一提的是,极智嘉在本次IPO发行中共引入4名基石投资者、累计认购9130万美元(约7.167亿港元) ——其中,雄安机器人认购4130万美元,Arc Avenue认购2500万美元,保诚旗下Eastspring Investments 认购1500万美元,纵腾集团持有的亿格认购1000万美元。成立于2015年的极智嘉(Geek+)提供一系列 AMR仓储机器人解决方案,旨在赋能仓储履约和工业搬运场景,在大幅提高供应链效率的同时减少对 人工的依赖。 核心技术:软硬件协同创新构筑壁垒 极智嘉通过自主研发构建了覆盖硬件、软件、算法的全栈技术体系,形成显著的技术护城河。 导航与定位技术 极智嘉率先在全球AMR解决方案市场中引入激光视觉融合SLAM技术,该技术融 ...
奥普特(688686)每日收评(07-02)
He Xun Cai Jing· 2025-07-02 09:23
奥普特688686 时间: 2025年7月2日星期三 60.30分综合得分 较强 趋势方向 主力成本分析 94.34 元 当日主力成本 94.93 元 5日主力成本 91.43 元 20日主力成本 86.36 元 60日主力成本 过去一年内该股 涨停 0次 跌停 0 次 北向资金数据 | 持股量549.26万股 | 占流通比4.49% | | --- | --- | | 昨日净买入4.52万股 | 昨日增仓比0.037% | | 5日增仓比0.096% | 20日增仓比0.136% | 技术面分析 周期内涨跌停 97.28 短期压力位 94.62 短期支撑位 97.28 中期压力位 87.08 中期支撑位 股价跌破短期支撑位,短线观望为宜; 目前中期趋势不慎明朗,静待主力资金选择方向 K线形态 ★多方炮★ 2025年07月02日的资金流向数据方面 | 主力资金净流出60.70万元 | | --- | | 占总成交额-1% | | 超大单净流出101.93万元 | | 大单净流入41.23万元 | | 散户资金净流入48.79万 | 关联行业/概念板块 仪器仪表 -0.45%、机器视觉 -1.11%、苹果概念 ...
3000多颗元件十几秒检完 解码“屏”实力背后的智造密码
Yang Shi Xin Wen· 2025-07-02 06:29
超高清视频显示产业是广东十大战略性支柱产业之一。作为这个产业发展试验区的核心区,2024年,广州超高清视频和新型显示产业实现产值超2000亿元, 同比增长近8%,超高清面板、显示模组、偏光片、超高清电视板卡产能居全国前列。活力中国调研行,总台记者带你走进广州的新型显示智能制造工厂。 总台记者 罗平章:说到屏幕,大家首先想到的是什么呢?可能是电视机或者平板电脑,但其实屏幕的应用比想象的要更广泛,这块在许多中小学课堂上广 泛应用的黑板,其实就是一块智能交互屏幕,不仅简单两笔就能够画出一个几何图形,而且能够在三维空间实现对几何体的展开,非常简便、易于理解。 还有我们生活中的智能家电、智能健身器械等,也有智慧屏的应用;甚至小到一副AR眼镜,它的里面也有一块小小的智能屏幕。 而这些智慧屏背后,它的核心零部件很可能就出自我所在的这座智能制造工厂。这里每年生产的显示主板数量超过1000万片,全球每3台电视机就有1台使用 的显示主板来自这家企业。 不仅如此,企业负责人告诉我,基地还同步建设了中试线,让新技术、新材料第一时间就能在生产制造环节进行实验。在智造升级的助推下,企业去年的海 外业务也实现了明显增长。 同时,在这座园区 ...
大模型时代,通用视觉模型将何去何从?
机器之心· 2025-07-02 00:54
正因如此,在这个多模态模型席卷科研与工业的新时代,回顾并总结纯视觉范式下的通用视觉模型研究 仍然是一件十分有意义的事情。 清华大学自动化系鲁继文团队 最近发表于 IJCV 的综述论文系统梳理 了该方向的研究进展,涵盖输入统一方法、任务通用策略、模型框架设计、模型评测应用等内容,希望 能为未来视觉模型的发展提供参考与启发。 然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。如今,多模态大模型兴起,视 觉被看作是语言模型众多输入模态中的一种,视觉模态数据被离散化为 Token,与文本一起被统一建 模,视觉的「独立性」正在被重新定义。 在这种趋势下,传统意义上以视觉任务为核心、以视觉范式为驱动的通用视觉模型研究,似乎正在逐渐 被边缘化。然而,我们认为视觉领域仍应保有自己的特色和研究重点。与语言数据相比,视觉数据具有 结构化强、空间信息丰富等天然优势,但也存在视觉模态间差异大、难替代的挑战。例如:如何统一处 理 2D 图像、3D 点云和视频流等异质输入?如何设计统一的输出表示来同时支持像素级分割和目标检 测等不同任务?这些问题在当前的多模态范式中并未被充分解决。 论文标题: Vision Gener ...
福特CEO:特斯拉很好,我选别人
汽车商业评论· 2025-07-01 23:03
编 译 / 路 行 设 计 / 赵昊然 来 源 / Fortune、Business Insider、EVXL、teslarati等 作 者 / J e ssi c a M a t h e w s 、 K a t h e r i n e L i 、H a y e K e st e l o o、S i m o n A l v a r e z 等 福特首席执行官吉姆·法利(Jim Farley)近日公开支持了Waymo基于激光雷达的自动驾驶技术。 在6月底的阿斯彭思想节(Aspen Ideas Festival)上,他接受了埃隆·马斯克(Elon Musk)传记作者 沃尔特·艾萨克森(Walter Isaacson)的现场提问,对比了特斯拉与Waymo目前的自动驾驶系统,并 被问及哪种 技术路径 "更有道理"。 特斯拉CEO埃隆·马斯克则始终为纯视觉路线辩护,他认为这种方式更贴近人类的驾驶方式。在5月 接受CNBC采访时,马斯克表示:"我们的道路系统本来就是为智能体设计的,更准确地说,是为 生物神经网络加上眼睛设计的。" 此外,成本问题仍是当前自动驾驶技术路线争论中的一个关键点。马斯克曾批评Waymo的系统成本 ...