多模态

Search documents
ICCV25! 上交&中科院MambaFusion: 首个SOTA Mamba多模态3D检测
自动驾驶之心· 2025-07-10 12:40
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今 天 自 动 驾 驶 之 心 为 大 家 分 享 上 交 & 中 科 院 ICCV'25 中 稿 的 最 新 工 作 — MambaFusion ! 首个SOTA的纯Mamba多模态3D检测。 如果您有相关工作需要分 享,请在文末联系我们! 论文作者 | Hanshi Wang等 编辑 | 自动驾驶之心 论文总结 ICCV 2025 中稿的最新工作!本文首次提出了使用纯 Mamba 模块实现高效密集全局融合,并在相机– LiDAR 多模态 3D 目标检测任务上达到SOTA性能。 现有的LiDAR-Camera多模态融合策略往往难以在计算效率、长程建模能力和完整场景信息保留之间取得 平衡;受到状态空间模型和线性注意力的启发,本文尝试利用其线性计算复杂度和长程建模能力来解决 这些挑战,但实验表明,简单采用高效线性方法反而因高度信息丢失导致多模态对齐偏差而性能退化。 为此 ...
商汤科技李星冶:多模态大模型“所见即所得”让人机交互更顺畅
Bei Ke Cai Jing· 2025-07-10 11:49
Core Insights - The article discusses the evolution of artificial intelligence from 1.0 to 2.0, highlighting SenseTime's breakthroughs in multimodal interaction technology and its applications across various sectors [1][2]. Group 1: AI Evolution - SenseTime has transitioned from focusing on computer vision in the AI 1.0 era to promoting multimodal interaction innovations in the AI 2.0 era, driven by the rise of large model technologies in 2023 [1]. - The concept of "seeing is believing" is emphasized, integrating video, images, and voice to enable real-time interaction with humans [1]. Group 2: Applications in Education - In the education sector, SenseTime collaborates with learning device manufacturers to develop interactive devices that utilize real-time algorithms to assist children in solving problems and recognizing errors [2]. - The system supports interactive storytelling for young children by converting images into narratives, and SenseTime has partnered with around 10 schools to create smart campus assistants for managing course schedules and grade inquiries [2]. Group 3: Intelligent Applications - SenseTime's intelligent applications include algorithms that analyze industry data to assist in warehouse leasing scenarios and generate lease management solutions [2]. - In customer service, SenseTime collaborates with well-known operators to create efficient intelligent agents, and in smart home applications, it enhances family interaction through AI technology [2]. - The advantage of multimodal large models lies in enabling smoother interactions beyond text command recognition, utilizing visual and multidimensional information [2].
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
机器之心· 2025-07-10 10:49
DreamPRM 由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MathVista上获得了第一 名。 第一作者为博士生 Qi Cao,通讯作者为该校副教授 Pengtao Xie,团队其他成员还包括王睿一, Ruiyi Zhang 和 Sai Ashish Somayajula。 由于多模态输入(图像 + 文本)构成高维连续与离散信号的混合空间,训练数据与测试数据的分 布偏移(Distribution Shift)远超纯文本场景,导致一般过程奖励模型泛化能力显著下降。 数据集质量失衡。现有开源多模态推理数据集存在大量低价值样本,如冗余模态与低难度问题。 若直接用于训练,噪声数据会稀释过程奖励模型对关键推理步骤(如跨模态逻辑衔接)的监督信 号。 使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖 励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题: 针对上述问题,我们通过双层优化框架,将数据域权重(Domain Weights)作为可学习参数,动态抑 制低质量数据域的影响,同时强化高信息密度数据域(如需要多步跨模态推理的 M3CoT 数据集)的贡 献, ...
Cursor终结者?Grok 4正式登顶!马斯克扬言编程碾压,20万N卡年赚47亿美金!
AI前线· 2025-07-10 07:41
作者| 华卫 、冬梅 时隔 5 个月,Grok 终于再次"更新换代"。 这次,xAI 不仅直接跳过了 Grok 3.5,而且并非只发布一款模型。今天刚发布的是通用模型 Grok 4,能够处理常规任务并进行对话。接下来的三个月时间里,xAI 将陆续发布专为编码任务设计的 Coding Model、多模态代理 Multi-modal Agent 和视频生成模型 Video Generation Model。 目前,Grok 4 已上线,提供三个订阅版本,包括免费的基础版、每月 30 美元的 Supergrok 和每月 300 美元的 Supergrok Heavy。SuperGrok Heavy 订阅用户可提前体验 xAI 计划在未来几个月推出 的一些新产品。 "在所有学科领域,Grok 4 的智能水平都超过了博士生"。发布会上,马斯克吹嘘道, "我们已经没有 测试题可问了,现实是终极的推理测试",他补充说: "有时,它可能缺乏常识,而且它还没有发明 新技术或发现新的物理学,但这只是时间问题。" 直播现场,马斯克身着皮夹克,在 xAI 团队成员的陪同下,详细演示了这款新模型。值得注意的是, 距离产品发布仅数小时前 ...
ICML 2025 | 给AI装上「智能升级插件」!阿里安全-清华大学D-MoLE让模型在持续学习中动态进化
机器之心· 2025-07-10 04:26
本文第一作者为清华大学计算机系的硕士二年级研究生葛晨笛,研究方向为多模态大语言模型、自动机器学习和图机器学习。主要合作者为来自阿里巴巴集 团安全部的樊珈珮、黄龙涛和薛晖。通讯作者为清华大学的朱文武教授、王鑫副研究员。 近日,阿里巴巴集团安全部 - 交互内容安全团队与清华大学针对持续多模态指令微调的联合研究成果被机器学习顶级会议 ICML 2025 收录。本届 ICML 共收到 12,107 篇投稿,录用率为 26.9% 。 一、 研究背景 多模态大语言模型( Multimodal Large Language Models, MLLMs) 通过结合视觉、语音等模态编码器与文本生成模型,展现出处理多模态数据的强大 能力。然而,在实际应用中,预训练的 MLLM 会随着用户需求和任务类型的变化,不断面临新的适配要求。如果直接针对新任务进行微调,模型往往会出 现灾难性遗忘 ( Catastrophic Forgetting) ,即丢失之前掌握的能力。 因此,如何让 MLLM 持续地适应新任务,同时保留过去的知识,成为一个核心挑战,这一问题被称为「持续多模态指令微调」 ( Continual Multimodal In ...
有几个Top具身公司的大模型、强化学习、VLA和具身导航岗位!
具身智能之心· 2025-07-10 03:36
最近和几家公司对接了下,有一些大模型、强化学习、导航相关的职位需求,这里也和大家分享 下。职位比较靠谱,是具身领域的独角兽公司,资金充裕,感兴趣的同学可以底部扫码了解更多。 1)多模态大模型 base:北京、深圳 薪资:40k-80k/月 2.具有机器人感知/导航/操作、AI大语言模型/多模态大模型等领域丰富的从业经验; 3.了解具身智能领域前沿的VLM/VLN/VLA多模态模型算法,对于比较有挑战性的实际问题有自己的 判断和分析解决能力; 4.具有NaVid/MobilityVLA等将多模态大模型技术应用于机器人导航领域的算法研发及落地经验者优 先; 5.扎实的前沿算法研发与高效的工程实现能力,具备技术快速落地的能力; 方向:移动操作、导航、VLA等; 职位描述: 1.从事具身智能多模态大模型前沿算法研发,应用于室内外多个场景的移动操作平台。包括但不限于 具身智能大模型的框架设计、模型优化、面向导航和操作等下游任务的训练和部署等; 2.探索并推动大语言模型和多模态大模型在机器人领域的技术和Demo。 职位要求: 1.计算机科学、人工智能、机器人、控制工程等相关专业硕士及以上学历; 6.具有良好的团队合作能力 ...
元宇宙数字人技术新飞跃:交互、感知与虚拟现实的全面升级
Sou Hu Cai Jing· 2025-07-10 02:22
在科技日新月异的今天,人工智能与数字人技术的深度融合正引领着一场前所未有的交互革命。生成式AI技术,如GPT系列及扩散模型,为数字人赋予了 前所未有的交互能力和形象逼真度,使得它们在与用户的交流中显得更为自然流畅。配合先进的语音合成、表情驱动及实时渲染技术,数字人已不再局限 于静态展示,而是能够活跃在直播、客服等多个动态场景中,展现出强大的应用潜力。 值得注意的是,数字人的自主学习与情感感知能力也在持续提升。借助深度学习算法,数字人能够更好地理解用户需求,提供更加个性化的服务。同时, 情感识别技术的加入,使得数字人能够感知用户的情绪变化,并据此作出恰当的回应,进一步增强了用户体验。 虚拟现实技术的飞速发展,更是为数字人带来了前所未有的真实感和立体感。通过VR设备,观众仿佛能够置身于数字人的世界之中,感受到它们的真实 存在,极大地提升了沉浸感。这一技术不仅应用于数字人领域,还在虚拟试衣、虚拟旅游等多个领域展现出广泛的应用前景。 多模态交互技术的成熟也为数字人的发展注入了新的活力。语音识别、自然语言处理等多种交互方式的融合,使得数字人能够接收和处理来自不同渠道的 信息,实现了更加自然、便捷的人机交互。在直播、客服 ...
深度联动谷歌(GOOGL.US)!三星(SSNLF.US)Galaxy Z Fold7携Gemini AI正式发布
智通财经网· 2025-07-10 01:57
智通财经APP获悉,三星(SSNLF.US)在周三举行的2025新品发布会上正式推出Galaxy Z Fold7,该机型 搭载谷歌(GOOGL.US)Gemini人工智能(AI)引擎,进一步深化了双方的合作关系。 三星移动体验事业部总裁崔元俊表示:"我们全新设计的One UI 8系统以AI为核心打造。如今,多模态 AI技术让我们见证了革命性突破——能够同步理解文本、音频和视觉信息的智能系统。您的设备可以 通过视觉感知理解场景上下文。我们的目标是让AI助手和多模态能力贯穿手机全场景……打造不仅能 理解用户,更能预判需求的智能系统。" "此次我们与谷歌达成了前所未有的深度合作,"他补充道。 据介绍,新一代Galaxy Z Fold7内置多项谷歌Gemini功能,包括Gemini Live实景识别、圈选即搜和高级 AI模式。购机用户可享6个月Google AI Pro会员及2TB云存储空间。 同场发布的还有Galaxy Z Flip7与Z Flip7 FE,起售价分别为1099.99美元和899.99美元,预售及上市时间 与Fold7同步。 三星还推出了更轻薄的新款Galaxy Watch8及Watch8 Clas ...
华泰证券今日早参-20250710
HTSC· 2025-07-10 01:44
Core Insights - The report highlights a potential narrowing of the decline in PPI in the second half of 2025, with June CPI showing a slight improvement to 0.1% year-on-year, compared to a previous value of -0.1% [2] - Global manufacturing PMI has rebounded above the growth line, indicating an overall recovery in manufacturing activity, particularly in developed economies [2] - The report emphasizes the importance of monitoring the performance of various sectors, particularly those expected to benefit from the "anti-involution" policies and improving economic conditions [4] Macroeconomic Overview - June CPI in China improved to 0.1% year-on-year, while PPI decreased by 3.6% year-on-year, indicating a mixed inflationary environment [2] - Global manufacturing PMI showed a notable increase, with developed markets improving while some emerging markets like Vietnam and Indonesia showed marginal declines [2] Sector Analysis Fixed Income - The report discusses the impact of "anti-involution" policies on PPI and CPI, suggesting a potential stabilization in prices, with CPI expected to rise slightly to around 0.5% by Q4 2025 [5] - The report notes that the demand side remains critical for price elasticity, with industry self-discipline and private enterprise willingness being key factors [5] Machinery and Equipment - The report indicates a recovery in excavator sales, with June sales reaching 18,800 units, a year-on-year increase of 13.3%, driven by strong export growth [8] - The growth in second-hand excavator exports is expected to stimulate domestic replacement demand, benefiting leading companies in the sector [8] Agriculture - The report highlights ongoing "anti-involution" efforts in the pig farming industry, which may lead to inventory release and improved profitability for high-quality pig farming companies [9] - The report suggests that the pig farming sector may gradually transition to a phase of high-quality competition, with recommendations for companies like Muyuan Foods and Wens Foodstuffs [9] Renewable Energy and Equipment - The report anticipates strong growth for offshore wind energy, with a significant increase in orders expected to drive performance for leading companies in the sector [19] - The report emphasizes the importance of technological advancements and capacity expansion in the offshore wind sector [19] Electronics and Chemicals - The report forecasts a substantial increase in net profit for Shengquan Group in the first half of 2025, driven by strong demand for electronic materials [20] - The report maintains a positive outlook on the company's growth trajectory, supported by favorable market conditions [20] Company-Specific Insights - Zhaojin Mining is rated as a "buy" with a target price of 23.44 HKD, driven by expected production growth and favorable gold price trends [15] - Harbin Electric is also rated as a "buy," with anticipated recovery in equipment demand across various energy sectors [15] - MGM China is highlighted for its strong performance in the non-gaming segment, benefiting from increased tourist traffic and successful entertainment events [17]
智谱获10亿战略投资 商业化之路仍待开启
Zhong Guo Jing Ying Bao· 2025-07-09 13:23
中经记者 李昆昆 李正豪 北京报道 近日,在智谱开放平台产业生态大会上,浦东创投集团和张江集团宣布对智谱进行总额10亿元的战略投 资,并于近期完成首笔交割。 智谱CEO张鹏透露智谱两则信息:一是开源发布新一代通用视觉语言模型GLM-4.1V-Thinking,以推理 能力为核心突破点,刷新10B级别多模态模型性能上限;二是MaaS全新上线Agent聚合平台"应用空 间",全面激活行业场景中的AI能力,联动Z基金启动Agent开拓者数亿元专项扶持计划。 关于公司经营及发展战略等问题,《中国经营报》记者采访智谱方面,截至发稿,对方尚未回复。 谈及智谱AI的经营情况,爱分析首席分析师李喆告诉记者,受到DeepSeek这些开源大模型影响,智谱 AI业绩情况可能不达预期。我们了解到情况是,2025年年初整个智谱公司经营策略,从"卖模型"向"卖 服务"方向进行调整。一方面是2024年签订的模型项目怎么跟客户解释并完成交付履约工作,另一方面 是2025年新签订项目大部分是模型应用开发类,项目交付压力会比较大。 "瓶颈主要是算力资源利用率低,商业化缺少优势。"李喆说,智谱定位是基础大模型公司,不像其他做 基础大模型的公司(阿 ...