雷峰网
Search documents
浙江大学研究员彭思达:底层空间感知技术对训练机器人有何作用?丨GAIR 2025
雷峰网· 2025-12-15 07:44
团队主要聚焦于赋予机器人三项基础能力:一是相机定位(Camera Pose Estimation),即让机器人知 道自己在空间中的位置;二是深度估计(Depth Estimation),使机器人了解场景中各物体与自身的距 离;三是物体运动估计(Object Motion Estimation),让机器人感知世界的运动状态。 这些底层空间感知技术有何作用?首先,它们能为机器人提供关键的决策信息。例如,无人机在空间中需 要先知道自身位置、与场景目标的距离,才能实现基础避障;进而还需了解目标物体的运动情况,才能进 行追踪。基于从场景中获取的三维空间信息,机器人的行为规划便能得到有力支持。 其次,这些技术可用于生成训练数据。当前具身智能领域的一大难题是数据匮乏。以往有人尝试仿真或遥 操获取数据,但遥操数据虽好却难以规模化扩展,而仿真技术目前仍与真实世界存在较大差距。 彭思达提出,其实可将人类视作一种特殊形态的机器人——具备完整的身体结构与行为模式。若能发明一 种数据采集设备,将人类日常行为完整记录下来,就相当于获取了机器人所需的行为数据,从而可用于训 练人形机器人。这其中便涉及相机定位、深度估计与物体运动估计等技术。 ...
阿斯麦CEO:中国不可能接受被卡脖子,不如让其保持依赖;国家发文禁止亏本卖车,多家车企响应;月薪100K!京东招募AI芯片人才
雷峰网· 2025-12-15 01:11
要闻提示 1.阿斯麦CEO:中国不可能接受被"卡脖子"不如让其保持依赖,以防自主研发形成竞争力 2. 摩尔线程回应75亿现金管理争议 3.村支书卖农产品小米被投诉?小米紧急辟谣! 4.国家发文禁止亏本卖车,比亚迪、长城、长安、小鹏等多家车企响应 5.百度大搜技术专家王俊峰转岗百度健康,任策略研发部1号位 6.京东招募端侧AI芯片人才:月薪25K-100K 7.手机大厂迟早沦为牙膏厂?罗永浩发文再谈AI手机:让躺着赚钱的大厂睡不着觉 12月13日消息,日前,摩尔线程发布公告,计划使用不超过75亿元的部分闲置募集资金进行现金管理。对于此次现金管理的资金来源,摩尔线程表示,为首 次公开发行股票的募集资金,公司本次募资总额约80亿元,扣除发行费后,实际募集资金净额为75.8亿元。按照此前计划,摩尔线程拟募资80亿元,将投向 3个研发项目,并用于补充流动资金。公告发布后,迅速引发外界热议。 对此,摩尔线程相关负责人称,公司前期已明确披露募资 75 亿的项目计划,有分阶段明确的研发、技术升级等使用安排,将严格按计划推进,项目周期三 年,资金按进度分阶段拨付。因项目分阶段投入,现拟在确保募投顺利、不影响原安排且保障资金安全 ...
东方理工金鑫:如何找到自动驾驶与机器人统一的「空间语言」丨GAIR 2025
雷峰网· 2025-12-14 06:27
" 当AI拥有「思维链」,赋予机器想象力的世界模型训练新范式。 " 作者丨吴彤 编辑丨 林觉民 在人工智能研究正以前所未有的速度迭代的今天,一位研究者如果同时聚焦于世界模型与具身智能这类高度前沿的课题,并且强调产业应用和市场接受度才是 技术真正的试金石,这可能本身就成为了一种值得关注的信号。 宁波东方理工大学助理教授金鑫便是这样一位研究者。 我们近期的一次交流,恰逢他的团队在美国圣地亚哥NeurIPS会议的活动告一段落——他与上海交通大学、布里斯托大学、清华大学等高校的合作者们在那组 织了一场关于"具身世界模型"( Embodied World Models for Decision Making)的研讨会,并有多位学界和产业界大咖受邀参加并作报告。 从早期的图像视频信号处理、压缩等底层视觉任务,到近年聚焦于表征解耦、世界模型、空间智能等方向,金鑫的研究不断从低维信息向高维信息跃迁,不断 尝试新的挑战,试图让机器变得更加智能,更好地理解物理世界并服务实际产业,其研究路径也反映出AI领域逐渐从简单的感知走向更加复杂的认知与决策。 然而,当对话触及这些光环之下的研究内核时,他表现出一种审慎。 "这只是我们团队现阶 ...
GAIR 2025 「数据&一脑多形」分论坛,激辩 AI 演进路径
雷峰网· 2025-12-14 06:27
Core Insights - The article emphasizes the transition of AI from "specialized" to "generalized" language understanding over the past decade, with the next key battle being the expansion of this generality from the realm of language to the physical world [1] Group 1: Data Paradigm Shift - Data is evolving from a traditional "resource" role to a more fundamental "cognitive foundation" and "value carrier" [3] - High-quality, structured, and logically coherent data is becoming essential for defining the cognitive boundaries and aligning the value of models [3][4] - The forum discussed building a more interpretable, credible, and evolutionary knowledge system amidst the data deluge, highlighting data as a core link driving intelligent evolution and harmonious coexistence with society [4] Group 2: One Brain, Many Forms - The "One Brain, Many Forms" paradigm is redefining how intelligence is constructed, moving beyond single models for specific tasks to a unified cognitive core that can dynamically generate various forms for different scenarios [5] - This approach aims to achieve a leap from "specialized intelligence" to "unified intelligence," allowing the same "brain" to understand language, interpret visuals, and manipulate entities while sharing knowledge across different forms [5] Group 3: Embodied Intelligence and Data Collection - The founder of Noitom Robotics, Dr. Dai Ruoli, highlighted the high demand for quality data in the field of humanoid robots and embodied intelligence, emphasizing the relationship between data scale, quality, and model capability [10] - Dr. Dai identified three structural challenges in remote operation as a data acquisition method, pushing the industry to explore more universal and scalable data acquisition paradigms [11][12] - The concept of a "data pyramid" was introduced, stressing the importance of understanding the core value of data at different levels to create sustainable engineering and business paths [12] Group 4: Future of Embodied Data - The CEO of Jishudai Iteration, Tong Xianqiao, predicted an explosive growth in embodied data volume in the coming years, positioning "embodied data services" as a significant opportunity in the robotics sector [15] - Current data collection methods were categorized into two paths: real machine end and simulation end, focusing on various techniques for data acquisition [16] - A platform design approach was proposed to enhance data collection efficiency and optimize deployment, introducing the concept of AI agents for automatic annotation and resource management [17] Group 5: One Brain, Many Forms Discussions - The forum on "One Brain, Many Forms" featured discussions on the development of embodied intelligence and the integration of world models, with participants emphasizing the ongoing exploration phase in the industry [45][46] - The challenges of achieving a universal controller were discussed, with insights on the differences in performance based on hardware capabilities and algorithmic approaches [47] - The panel concluded with reflections on the future of embodied intelligence, highlighting the gap between innovative ideas and practical applications in the industry [48]
AI算力新十年:技术革新、生态协同与商业闭环,共探「下一个寒武纪」之路丨GAIR 2025
雷峰网· 2025-12-13 12:05
Core Viewpoint - The article discusses the evolution of computing power as a fundamental infrastructure and explores the necessary technological paths, ecological strategies, and business logic to navigate through cycles and occupy the top of the future value chain [1][3]. Group 1: Current State and Future of Computing Power - The GAIR 2025 conference focuses on the core of intelligent systems—computing power, examining its architecture, ecosystem, tools, and industrialization for the next decade [2]. - The conference features discussions on the current state and future of domestic computing power, emphasizing the need for a unified approach to overcome existing challenges [6][10]. Group 2: Key Insights from Experts - Tang Zhimin, a prominent figure in the microelectronics field, emphasizes the importance of software-defined computing power to break through chip technology barriers and highlights the critical role of software ecology in the computing chip industry [4][6][8]. - Liu Fangming discusses the challenges faced by domestic large models, advocating for a shift from "barbaric growth" to a more systematic and open ecosystem [10][12]. - Li Xingyu from Suiruan Technology points out that the domestic computing power industry is entering a phase of elimination, where software ecology will be a key determinant of success [14][16]. Group 3: Technological Innovations and Trends - Wang Hua from Moore Threads highlights the necessity of large-scale clusters for training large models, presenting data that shows significant reductions in training time with increased cluster size [19][21]. - Luo Yi from Yuntian Lifei predicts a pivotal shift in AI chip consumption from training to inference by 2025, driven by the explosive demand for inference capabilities [25][27]. - Zhao Zhanxiang from IO Capital discusses the need for diverse technological paths in the face of export controls, emphasizing the importance of system-level architecture and process innovation [30][32]. Group 4: Future Directions and Industry Consensus - The article concludes with a call for continued exploration and innovation in the computing power ecosystem, emphasizing the importance of collaboration among academia, industry, and investment sectors to shape the future landscape [35][39].
GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
雷峰网· 2025-12-13 09:13
" 具身智能爆发第三年,世界模型凝聚了哪些共识? " 作者丨 张进 吴彤 梁丙鉴 刘欣 齐铖湧 编辑丨 林觉民 马晓宁 13 日,第八届 GAIR 全球人工智能与机器人大会世界模型分论坛圆满成功。 这场的演讲嘉宾是在世界模型领域,研究不同方向的五位青年学者,他们带来了五场围绕世界模型的精彩 演讲,话题聚焦通用感知、三维技术、物理模型、世界模型、数字人重建。通过他们的演讲、我们得以窥 见当下围绕着世界模型的研究是多么广泛与丰富。 目前,世界模型的研究尚处于起步阶段,共识尚未形成,有关该领域的研究形成了无数支流,而这股潮流 中,今天到场的几位嘉宾,用他们的智慧和力量给世界模型领域研究带来了不同的启发。 浙江大学研究员彭思达:面向具身智能的通用空间感知技术 在"世界模型"分论坛上,首位演讲者是浙江大学研究员彭思达。他是浙江大学软件学院"百人计划"研究 员、博士生导师,研究方向为三维计算机视觉和计算机图形学。此次他带来的主题演讲是《面向具身智能 的通用空间感知技术》,介绍了其团队近期在赋予机器人通用感知能力方面的多项工作。 团队主要聚焦于赋予机器人三项基础能力:一是相机定位(Camera Pose Estimatio ...
港中深韩晓光:3DGen,人类安全感之战丨GAIR 2025
雷峰网· 2025-12-13 09:13
" 构建世界模型,为什么不能只靠「炼丹」? " 作者丨吴彤 编辑丨 林觉民 在香港中文大学(深圳),助理教授韩晓光的实验室名为GAP,意为"像素、点与多边形的生成与分析"。 现在看来,这个名字,也隐喻着他希望弥合真实世界和虚拟世界之间的"鸿沟"的意思。 2018年,韩晓光加入这所大学时,是当时唯一专注于计算机图形学研究的教师。2024年,他尝试从三维 重建拓展至具身智能与世界模型,又一次如入无人之境。 在小红书上,他的账号@韩晓光,简介仅有两行:港中深理工学院助理教授、图形学与三维视觉。他将小 红书视为传播平台,也视为个人思考的整理场所,会公开讨论"显式3D是否还有必要"、"世界模型为何需 要可解释性"等专业问题,也会记录与学生讨论时获得的启发。 这种直接、平实的分享,吸引了一批对技术本质感兴趣的读者,也代表了韩晓光这类青年教师群体打破学 术边界的自觉实践。从某一种角度看,构建世界模型需要理解真实世界的运行逻辑,而他的线上互动,本 身就是一场持续进行的、小规模的"世界模拟"。 在韩晓光的叙述中,他研究演进是自然发生的。从三维重建到动态生成,再到服务于机器人的虚拟环境构 建,核心始终是"三维内容的生成与理解"。 ...
GAIR 2025 大会首日:AI重构教育、科学与产业的十三重碰撞
雷峰网· 2025-12-13 04:02
" 立于AI技术浪潮的又一个高点,GAIR试图超越对技术本身的讨 论,转而探寻其重塑教育、产业乃至文明的内在力量。 " 作者丨周蕾 赵之齐 张嘉敏 编辑丨周蕾 2025年12月12日,深圳南山。 第八届GAIR全球人工智能与机器人大会主论坛,于上午9:30在深圳南山·博林天瑞喜来登酒店正式拉开帷 幕。本次大会为期两天,由GAIR研究院与雷峰网联合主办,高文院士任指导委员会主席,杨强院士与朱晓 蕊教授任大会主席。 作为粤港澳大湾区的AI标杆盛会,GAIR自2016年创办以来,始终坚守"传承"与"创新"的双重底色——从 学界泰斗的精神传承,到华人顶会主席们的思想接力,再到青年学者的锋芒展露,这里不仅是技术交流的 平台,更是承载中国AI四十年发展记忆的精神家园。 时隔四年,GAIR从海外重返深圳主场。这四年来,大模型掀起巨浪、人工智能迈上更高舞台的四年,知识 生产不再局限于传统路径,产业变革更是按下"加速键"。值此岁末年初的节点,GAIR如期赴约,用一场 高质量的观点碰撞,为行业与大众回顾科技高速的脚步,呈现AI时代的前沿洞见。 12月12日的主论坛,延续GAIR一贯的学术前沿特色,设有: "AI之道:教育的重新定 ...
上海AI Lab胡侠:KV Cache压缩之后,可让价格2万美金的GPU发挥出20万美金的价值丨GAIR 2025
雷峰网· 2025-12-12 07:16
" 将 Key 跟 Value Cache 按照不同的方法压缩,可以让模型不掉 点。 " 作者丨张进 编辑丨 林觉民 目前,不同大模型厂商发布的大语言模型在处理超长上下文方面已经有显著突破,最高的已能支持数百万 Token 的输入,例如 MiniMax-M1、Qwen2.5-1M 系列模型,均支持百万Token(1M)级别的超长上 下文处理能力。 但是这场有关提升大模型上下文长度的"军备赛"依然不会停止,这是一项巨大的工程与效率之战。因为超 长下文为模型智能提供了最广阔的发挥空间——在处理如金融、法律、医疗等领域的长语境任务时表现更 好。所以谁能率先突破更长上下文处理能力,便有机会创造出更大的商业与技术价值。 胡侠团队便针对这一目标提出了一项最新研究方案——"通过有损计算(Lossy Computation)来提高大 语言模型的推理效率"。这项研究的基本思路是,利用大语言模型对来自低精度计算等"有损"操作产生的 噪声具有极强鲁棒性这一特点,主动引入可控的、不损害性能的信息损失,以换取显著的效率提升。 大模型中的"有损计算"是通过有选择地牺牲一部分精度来大幅降低计算或者存储成本,从而提升推理效 率,主要围绕模型 ...
何小鹏打赌:明年VLA追不上FSD,负责人就裸奔;DeepSeek使用走私Blackwell?英伟达回应;魏牌CEO被曝「休假」
雷峰网· 2025-12-12 02:49
要闻提示 NEWS REMIND 1.够猛!何小鹏立赌约:明年VLA追不上FSD,智驾负责人就裸奔 2.DeepSeek使用走私Blackwell芯片训练?英伟达回应:目前还没有看到任何证据 3.针对「行贿」新闻、中兴回应:反对一切形式的腐败行为 4.朱啸虎:腾讯过去20年从不烧钱试错,一直是等大家打明白了才发力 5.突发!魏牌CEO被曝"休假" 6.一骑手骗取苹果 iPhone 16 Pro Max 手机被判刑六个月 7. "国补"明年有望继续,官方定调 2026 年优化"两新"政策实施 8. OpenAI正式发布GPT-5.2!更实用:做表格、写PPT、敲代码等生产力大增 今日头条 HEADLINE NEWS 12月11日消息,据外媒报道,针对有关中国人工智能初创公司DeepSeek使用走私的Blackwell芯片开发 其即将推出的模型的报道,英伟达公司做出了回应。为了在AI竞赛中保持领先地位,美国禁止向中国出口 英伟达的Blackwell 芯片,该芯片被认为是该公司最先进的产品。据报道,DeepSeek 据称正在使用未经 授权偷运进入该国的芯片。 英伟达发言人在一份声明中表示:我们尚未看到任何证据或收到 ...