Workflow
视觉
icon
Search documents
清华&小米团队发布VLA模型综述
理想TOP2· 2025-07-04 02:54
以下文章来源于具身进化 ,作者一起学习 具身进化 . 智启形随,进化无界。 一、 自动驾驶的技术范式演进 自动驾驶技术正从简单的感知-控制,向更高级的认知智能演进,最新的自动驾驶模型可以分为三大范式: ●端到端自动驾驶 (End-to-End AD): 将传感器输入直接映射到驾驶动作。此模式高效但缺乏可解释性,难以处理需要高级推理的"长尾"场景。 ●用于自动驾驶的视觉语言模型 (VLMs for AD): 引入视觉语言模型来理解和解释复杂的交通场景,显著提升了系统的可解释性。但其输出的 语言与车辆的实际控制脱节,存在"行动鸿沟"。 ●用于自动驾驶的视觉-语言-行动模型 (VLA for AD): 当前最新的范式。它在一个统一模型中整合视觉感知、语言理解和动作执行,实现了感 知、推理和行动的闭环。车辆遵循自然语言指令直接输出动作或者轨迹。 二、 VLA自动驾驶模型的核心架构 一个典型的VLA模型由输入、处理、输出三部分构成,旨在无缝整合环境感知、高级指令理解与最终的车辆控制。 1.多模态输入 (Inputs): ○视觉与传感器数据:视觉是系统的核心输入,技术已从早期的单前视摄像头发展到如今的多摄像头环视系统。为 ...
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab
量子位· 2025-07-04 01:42
VScan团队 投稿 量子位 | 公众号 QbitAI 多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越"吃不消": 视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。 为解决这个问题, 腾讯AI Lab联合CMU 提出全新解决方案 VScan 。 该方法聚焦于大规模视觉语言模型推理阶段的效率瓶颈,通过精妙的两阶段视觉token筛选机制,在几乎不损性能的前提下,实现高达2.91x 的推理加速。无需修改模型架构、无需重新训练, 兼容FlashAttention, VScan为业界提供了一种轻量、通用、即插即用的推理加速方案。 为了处理更复杂、更丰富的视觉输入,现有LVLM往往需要编码远超文本Token规模的视觉信息。例如,LLaVA-NeXT在处理高分辨率图像时 会引入多达2,880个视觉Token,而Qwen2.5-VL在应对多图像或视频输入时,甚至能处理高达16,384个视觉Token——这一规模已远远超过 传统语言模型所处理的输入长度。 随着Token数量的激增,输入序列随之拉长,而自注意力机制的计算复杂度呈平方增长,这使得推理阶段 ...
开辟人形机器人赛道要警惕“虚火”
要说今年社会经济生活中最火的事物,除了LABUBU、DeepSeek,就要属春晚上因翻跟头而吸睛的人形机器人了。它不仅"刷屏"整个科技圈,甚 至"火"到2025上海车展上——几乎每个展台都有能打滚的机器狗和会握手的机器人。直至最近,整车和零部件企业布局人形机器人领域的消息仍然不绝于 耳。 "我们租得早,一天两千(元),有些企业车展前一天才租到,每天的租金高达上万(元)。"2025上海车展期间,某零部件企业负责人曾对记者透露。然 而,说到租用人形机器人参展具体能起什么作用,他直言,"就是一个噱头吧,毕竟现在人形机器人这么火,谁都想摆一两台吸引一下关注。" 记者通过调查发现,零部件企业为寻求第二增长曲线,转型人形机器人赛道的同时也要警惕"虚火"。 人形机器人"风口"爆发 今年以来,人形机器人产业风生水起,也带动产业链上下游异常活跃。根据天眼查的统计,近1年来,全国成立23万家机器人相关企业,同比增长22.7%。 各大产业研究机构则纷纷表示,人形机器人迎来量产元年,全球市场规模将呈爆发式增长态势。 国家统计局公布的数据显示,今年5月,中国工业机器人产量同比飙升35.5%,达到69056台;服务机器人产量增长13.8 ...
中美AI差距有多大,AI竞争焦点在哪?《全球人工智能科研态势报告》全球首发
Tai Mei Ti A P P· 2025-07-03 10:36
Core Insights - The report titled "Global AI Research Landscape Report (2015-2024)" analyzes the evolution of AI research over the past decade, highlighting the competitive landscape between China and the United States in AI talent and publication output [2][7]. Group 1: AI Research Trends - The report identifies four distinct phases in AI research: initial phase (2015-2016), rapid development phase (2017-2019), maturity peak phase (2020-2023), and adjustment phase (2024) [4][5]. - The number of AI papers published globally increased significantly, with a peak of 17,074 papers in 2023, representing nearly a fourfold increase from 2015 [5][6]. - The year 2024 is expected to see a decline in publication volume to 14,786 papers, indicating a shift towards more specialized and application-oriented research [6]. Group 2: Talent Distribution - China has emerged as the second-largest hub for AI talent, with a total of 52,000 researchers by 2024, growing at a compound annual growth rate of 28.7% since 2015 [8]. - The United States leads with over 63,000 AI researchers, with significant contributions from institutions like Stanford and MIT, as well as tech giants like Google and Microsoft [8][9]. - Chinese institutions such as the Chinese Academy of Sciences, Tsinghua University, and Peking University are leading in terms of publication output and talent concentration [7][9]. Group 3: Institutional and Corporate Performance - The Chinese Academy of Sciences published 4,639 top-tier papers, while Tsinghua University and Peking University followed closely, showcasing China's institutional strength in AI research [7][9]. - In contrast, U.S. companies like Google, Microsoft, and Meta have a significantly higher average publication output compared to their Chinese counterparts, reflecting a disparity in research investment and output capabilities [9][10]. - The top three U.S. companies published 5,896 papers, which is 1.8 times the output of the top three Chinese companies [9][10]. Group 4: Gender Disparity in AI Talent - The report highlights a significant gender imbalance in AI research, with women making up only 9.3% of AI talent in China compared to 20.1% in the U.S. [12][13]. - Chinese institutions like Tsinghua University and Peking University have low female representation in AI, at 7.88% and 9.18% respectively, compared to 25%-30% in top U.S. institutions [12][13]. Group 5: Future Trends in AI Research - The report indicates that "deep learning" has been the dominant focus in AI research over the past decade, but its growth rate is expected to slow down, suggesting a need for new approaches [14][15]. - Emerging technologies such as "Transformers" are gaining traction, particularly in natural language processing and multimodal AI, indicating a shift in research focus [15]. - The integration of traditional AI fields with deep learning techniques is becoming more prevalent, reflecting a trend towards collaborative and interdisciplinary research [15].
智谱再获10亿融资,推出会看“苏超”的开源新模型
Guan Cha Zhe Wang· 2025-07-03 10:30
(文/陈济深 编辑/张广凯) 7月2日,智谱开放平台产业生态大会在上海浦东张江科学会堂举办。智谱CEO张鹏在主题演讲中发布了智谱携手生态伙伴迈向AGI的两项最新成果:一是开 源发布新一代通用视觉语言模型GLM-4.1V-Thinking,以推理能力为核心突破,刷新10B级别多模态模型性能上限;二是MaaS全新上线Agent聚合平台「应用 空间」,全面激活行业场景中的AI能力,联动Z基金启动Agent开拓者数亿元专项扶持计划。 值得注意的是,本次智谱发布的新模型不仅可以输入一个PPT后自动生成汇报内容、演讲稿;甚至输入一段"苏超"视频,还能得到一段足球解说……如今的 大语言模型不只会看文字,还会看图片、视频。 "AGI(通用人工智能)可以分为5个层次:L1是预训练大模型,L2是对齐、推理,L3是自我学习,L4是自我认知,L5是意识智能。"张鹏指出,视觉推理能 力是L3中很重要的能力。 人类的语言能力、视觉能力、语音能力、行动能力、思考能力、推理能力由大脑统一完成,而AI,正在逐一破解这些能力的密码。 对于打造万卡集群,孙颖解释道:"万卡集群"指的是由上万张如英伟达的H100这样的高性能AI计算加速卡组成的超级计 ...
瑞松科技(688090)每日收评(07-03)
He Xun Cai Jing· 2025-07-03 09:10
瑞松科技688090 时间: 2025年7月3日星期四 57.45分综合得分 较强 趋势方向 主力成本分析 33.23 元 当日主力成本 33.53 元 5日主力成本 31.53 元 20日主力成本 31.25 元 60日主力成本 周期内涨跌停 涨停 2次 跌停 1 次 技术面分析 34.39 短期压力位 32.85 过去一年内该股 在底部出现有上涨可能,在中间出现有可能是上涨中继,顶部出现是复合见顶信号 资金流数据 2025年07月03日的资金流向数据方面 | 主力资金净流入246.93万元 | | --- | | 占总成交额6% | | 超大单净流出24.00万元 | | 大单净流入270.93万元 | | 散户资金净流出55.73万 | 短期支撑位 34.39 中期压力位 29.81 中期支撑位 目前短线趋势不慎明朗,静待主力资金选择方向; 目前中期趋势不慎明朗,静待主力资金选择方向 K线形态 ★多方炮★ 关联行业/概念板块 专用设备 0.57%、机器视觉 0.41%、新能源车 0.80%、机器人概念 0.69%等 风险提示:以上内容仅作为作者或者嘉宾的观点,不代表和讯的任何立场,不构成与和讯相关的任何 ...
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了
机器之心· 2025-07-03 08:01
岑俊,阿里巴巴达摩院具身智能大模型算法研究员,博士毕业于香港科技大学。研究方向主要是:具身智能 VLA 模型,世界模型。 阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图 片、动作理解和生成的全自回归模型。 论文标题:WorldVLA: Towards Autoregressive Action World Model 论文地址:https://arxiv.org/pdf/2506.21539 代码地址:https://github.com/alibaba-damo-academy/WorldVLA 研究简介 近年来,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型的发展成为机器人动作建模研究的重要方向。这类模型通常是在大规模预训练的多模态大语言模 型(Multimodal Large Language Models, MLLMs)基础上,添加一个动作输出头或专门的动作模块,以实现对动作的生成。MLLMs 在感知和决 ...
飞利浦研发团队创业,3D 空间视觉解决方案服务商「智聚芯联」获数千万元 Pre-A 轮融资 | 36氪首发
3 6 Ke· 2025-07-03 06:42
与此同时,裸眼 3D 显示行业也面临诸多挑战。当前,裸眼3D显示的产业化主要受制于极高的硬件成 本、较低的分辨率以及高昂的内容创作成本。特别是在广播电视领域,高效经济地实现从2D到3D内容 的即时转换,构成核心挑战。"针对目前行业的两大痛点,我们提出全栈解决方案,主要就是解决裸眼 3D产品落地最后一公里的问题",「智聚芯联」创始人关宇昕介绍,"我们在成本上的控制,可以让用 户用一杯奶茶钱就可以体验裸眼3D技术,感受不一样的'幻境'世界。" 「智聚芯联」凭借半导体工艺技术,自主研发的光学模组采用纳米压印技术,具有加工精度高、成本 低、适配性强等特点。公司独立研发的「2D - TO - 3D」算法大模型和渲染引擎,能够实现图像的高效 处理和高质量转换。该算法支持环拍相机阵列一秒采集人体 3D 信息,并配合管线构建真实的 3D 数字 人。同时,利用端侧小模型 AIGC 技术,可以通过图像构建逼真的 3D 模型,实现 2D 图像和视频实时 转化处理生成 3D 内容,并适配各类型 3D 显示屏。算法还支持实时动态合成 3D 数字人和 3D 场景信 息,实现「云合影」,并可应用于车载 3D HUD 场景,实现增强型辅助驾 ...
消费电子行业温和复苏前景广阔,泉果基金调研凌云光
Xin Lang Cai Jing· 2025-07-03 05:59
根据披露的机构调研信息2025年6月1日至2025年6月30日,泉果基金对上市公司凌云光进行了调研。基 金市场数据显示,泉果基金成立于2022年2月8日。截至目前,其管理资产规模为170.90亿元,管理基金 数7个,旗下基金经理共6位。旗下最近一年表现最佳的基金产品为泉果旭源三年持有期混合A (016709),近一年收益录得18.93%。截至2025年7月2日,泉果基金近1年回报前8非货币基金业绩表 现如下所示: 与测评系统:为人形机器人企业量产提供出厂质量检测与控制,对每台出厂的机器人进行高效高精度在 线品质与一致性检测,保证机器人出厂质量一致性。 公司会根据行业与客户需求,持续推出更多符合 市场需求的产品与解决方案。 附调研内容:一、泉果基金:公司 7 月份实控人股份解禁,已经作了不减持承诺? 公司实际控制人姚 毅先生及杨艺女士所持 2.24 亿股股份将于 7 月 7 日解禁,但两位实控人经慎重考虑,自愿作出郑重承 诺:自 2025 年 7 月 7 日起未来 12 个月内,不会通过任何方式转让或减持其持有的公司股票。 二、泉 果基金:公司已成功收购 JAI,目前双方的融合进展如何? 凌云光的营销网络以中国 ...
大模型角力视觉推理,推理AI新时代来临
输入一个PPT,自动生成汇报内容、演讲稿;输入一段"苏超"视频,得到一段足球解说……如今的大语 言模型不只会看文字,还会看图片、视频。 7月2日,智谱发布并开源视觉语言大模型GLM-4.1V-Thinking。这款通用推理型大模型支持图像、视 频、文档等多模态输入,可用于复杂认知任务。 "就像人一样。眼睛看到了复杂的视觉信号,不光是简单的信号接收,还可以根据视觉信号进一步推 理,理解复杂的物理世界。"在现场演示时,智谱CEO张鹏介绍道,智谱基于预训练构造了视觉理解模 型,监督微调使其初步具备推理能力,再基于深度学习大幅提高推理能力,在业内首次把推理能力和视 觉理解能力有机结合在一起。 人类不仅希望AI能思考,还希望AI能执行——通过自主智能体的方式,现有的大模型能力能转化成真 正的生产力。 此前,大模型可以用于代码生成;而视觉推理能力使得AI能够"看懂"和"理解"视觉信息,比如用户界面 (UI)的设计图、原型图甚至屏幕截图,可以辅助产品经理生成代码重构用户界面。 "视觉推理能力还可以用于智能体,让它理解GUI(图形用户界面),比如理解手机、PC上复杂的用户 操作界面,形成精准的操作逻辑。"据张鹏介绍,GLM- ...