Workflow
多模态大模型
icon
Search documents
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
量子位· 2025-07-08 07:30
MMSearch-R1团队 投稿 量子位 | 公众号 QbitAI 多模态模型学会"按需搜索"! 字节&NTU最新研究, 优化 多模态模型搜索策 略 —— 通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制,首次尝试 基于端到端强化学习的多模态模型自主搜索训练 。 经过训练的模型能够自主判断搜索时机、搜索内容并处理搜索结果,在真实互联网环境中执行多轮按需搜索。 实验结果表明,在知识密集型视觉问答任务 (Visual Question Answering, VQA) 中,MMSearch-R1系统展现出显著优势: 其性能不仅超越同规模模型在传统检索增强生成 (RAG) 工作流下的性能,更 在减少约30%搜索次数的前提 下 , 达 到了更大规模规模模 型做传统RAG的性能水平。 下文将详细解析该研究的研究方法以及实验发现。 具体怎么做到的? 近年来,随着视觉-语言训练数据集在规模和质量上的双重提升,多模态大模型 (Large Multimodal Models, LMMs) 在跨模态理解任务中 展现出卓越的性能,其文本与视觉知识的对齐能力显著增强。 然而,现实世界的信息具有高度动态性和复杂性,单 ...
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 08:59
如果告诉你, AI 在推箱子等游戏场景上训练,能让它在几何推理与图表推理上表现更好,你会相信 吗? 复旦 NLP 实验室联合字节跳动智能服务团队的最新研究给出了一个令人意外的发现: 游戏不仅是娱乐 工具,更是训练 AI 推理能力的宝贵资源。 Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning 论文链接: https://arxiv.org/abs/2505.13886 代码仓库: https://github.com/tongjingqi/Code2Logic 标题: 数据和模型: https://huggingface.co/Code2Logic 引言 高质量多模态推理数据的极度稀缺,制约了视觉语言模型( VLMs )复杂推理能力的提升。那么,有 没有一种低成本又可靠的方法来大规模生成这些数据呢? 复旦与字节的研究团队创新性地提出了一个巧妙的思路: 利用游戏代码自动合成视觉推理数据。 | A | ਟ | E | ч | 0 | - | | --- | --- | --- | --- | --- | ...
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-03 13:36
职位描述 我们正在寻找一位杰出的研究员/科学家,加入我们的前沿探索团队,共同定义和构建下一代自动驾驶与机器人 的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究,该模型将深度融合视觉-语 言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力。 核心职责包括 前沿算法研究与构建:负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架,更将 探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。 核心模型能力攻关:主导模型在以下关键能力上的突破: 多模态场景理解:融合视觉、语言、雷达等多源信息,实现对动态、开放环境的深刻理解和空间感知。 学习与适应机制:深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法,使模型能从海量数据和与环境的 交互中持续学习和进化。 技术愿景与路线图:主导构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并 探索其在自动驾驶和通用机器人领域的统一应用潜力。 复杂语义推理与决策:让模型能够理解模糊、抽象的人类指令,并结合对 ...
vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025
量子位· 2025-07-03 09:00
GenieBlue团队 投稿 量子位 | 公众号 QbitAI 在AI迈入多模态时代的当下, "让大模型上手机" 成为产业落地的焦点。 现有MLLM在手机端部署时常面临两大难题: vivo AI研究院联合港中文以及上交团队 为了攻克这些难题, 从训练数据和模型结构两方面,系统性地分析了如何在MLLM训练中维持纯语言 能力,并基于此提出了GenieBlue——专为移动端手机NPU设计的高效MLLM结构方案。目前已被ICCV 2025接收。 主要贡献和技术亮点 1、现有端侧LLM在支持多模态功能后,纯语言任务准确率下降超10%。GenieBlue通过冻结原始LLM参数,并引入复制的Transformer层和 轻量化的LoRA模块,在多模态训练的过程中保留原始的语言能力。 2、通过大规模微调,GenieBlue达到与主流MLLM相媲美的多模态能力,并完全保留原始纯语言性能。 3、避开当前NPU不支持的MoE架构,采用不共享基座的推理策略。在搭载高通骁龙8 Elite(第四代)芯片的手机上实现流畅运行。 技术背景 1、当前的端侧MLLM无法取得令人满意的纯语言能力 在MATH(客观难题)、AlignBench和MT- ...
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++
机器之心· 2025-07-03 03:26
本文第一作者魏熙林,复旦大学计算机科学技术学院人工智能方向博士生,研究方向是多模态大模型、高效长上下文;目前在上海人工智能实验室实习,指导 mentor 是臧宇航、王佳琦。 一、背景介绍 虽然旋转位置编码(RoPE)及其变体因其长上下文处理能力而被广泛采用,但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。 VideoRoPE++ 这项工作首先进行了全面分析,确定了将 RoPE 有效应用于视频所需的五个关键特性,而先前的工作并未充分考虑这些特性。 作为分析的一部分,这项工作构建了一个全新的评测基准 ——V-RULER,其中的子任务 "带干扰项的大海捞针(Needle Retrieval under Distractor, NRD)" 表明: 当前 RoPE 变体在缺乏合理时间维度建模策略时,容易被周期性干扰项误导,表现不稳定。 左图:为了展示频率分配的重要性,基于 VIAH(a),作者提出了一个更具挑战性的 benchmark: V-RULER,子任务 Needle Retrieval under Distractors 如(b)所 示,其中插入了相似图像作为干扰项。右图:与 M- ...
谷歌推出Gemini Robotics On-Device 大模型,快手开源 keye-VL 多模态模型:AI 动态汇总
China Post Securities· 2025-07-02 13:08
证券研究报告:金融工程报告 研究所 快手于 2025 年 6 月 26 日开源的 Kwai Keye-VL 多模态大模型, 标志着国产多模态技术在视频理解与复杂推理领域的重大突破。该模 型基于 Qwen3-8B 语言模型架构,融合了 SigLIP 初始化的视觉编码 器,通过创新的 3D RoPE(旋转位置编码)技术实现对文本、图像和 视频信息的统一处理,尤其擅长捕捉视频时序变化与动态分辨率输 入,成为全球首个在高考数学卷中取得 140 分成绩的多模态模型。 ⚫ 谷歌开源 AI Agent 框架 Gemini CLI 分析师:肖承志 SAC 登记编号:S1340524090001 Email:xiaochengzhi@cnpsec.com 研究助理:冯昱文 SAC 登记编号:S1340124100011 Email:fengyuwen@cnpsec.com 近期研究报告 《基于宏观经济状态划分的 BL 模型与 ETF 实践》 - 2025.07.01 《反转风格显著,小市值回撤——中 邮因子周报 20250622》 - 2025.06.23 《关注基本面支撑,高波风格占优— —中邮因子周报 20250615》 ...
大模型时代,通用视觉模型将何去何从?
机器之心· 2025-07-02 00:54
正因如此,在这个多模态模型席卷科研与工业的新时代,回顾并总结纯视觉范式下的通用视觉模型研究 仍然是一件十分有意义的事情。 清华大学自动化系鲁继文团队 最近发表于 IJCV 的综述论文系统梳理 了该方向的研究进展,涵盖输入统一方法、任务通用策略、模型框架设计、模型评测应用等内容,希望 能为未来视觉模型的发展提供参考与启发。 然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。如今,多模态大模型兴起,视 觉被看作是语言模型众多输入模态中的一种,视觉模态数据被离散化为 Token,与文本一起被统一建 模,视觉的「独立性」正在被重新定义。 在这种趋势下,传统意义上以视觉任务为核心、以视觉范式为驱动的通用视觉模型研究,似乎正在逐渐 被边缘化。然而,我们认为视觉领域仍应保有自己的特色和研究重点。与语言数据相比,视觉数据具有 结构化强、空间信息丰富等天然优势,但也存在视觉模态间差异大、难替代的挑战。例如:如何统一处 理 2D 图像、3D 点云和视频流等异质输入?如何设计统一的输出表示来同时支持像素级分割和目标检 测等不同任务?这些问题在当前的多模态范式中并未被充分解决。 论文标题: Vision Gener ...
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-01 12:07
核心职责包括 前沿算法研究与构建:负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架,更将 探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。 核心模型能力攻关:主导模型在以下关键能力上的突破: 多模态场景理解:融合视觉、语言、雷达等多源信息,实现对动态、开放环境的深刻理解和空间感知。 职位描述 我们正在寻找一位杰出的研究员/科学家,加入我们的前沿探索团队,共同定义和构建下一代自动驾驶与机器人 的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究,该模型将深度融合视觉-语 言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力。 复杂语义推理与决策:让模型能够理解模糊、抽象的人类指令,并结合对物理世界的空间推理,生成安全、合 理、可解释的行动序列。 学习与适应机制:深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法,使模型能从海量数据和与环境的 交互中持续学习和进化。 技术愿景与路线图:主导构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支 ...
蚂蚁、宁德时代以超30亿元投资哈啰Robotaxi新一轮融资;非夕科技完成C轮亿级美元融资|每周十大股权投资
Sou Hu Cai Jing· 2025-06-30 05:53
投资机遇转瞬即逝,本周值得关注的十大投资交易已被 IT桔子锁定! 屏蔽"互联网噪音",专注重要信息。 编辑|大王管不住嘴 豆包 来源|IT桔子 封面|公众号AI生成 1.非夕科技完成C轮亿级美元融资 非夕科技近日完成C 轮亿级美元融资,由咏归基金、广发信德联合领投,洪泰基金、华控基金等跟投, 老股东持续加码。资金将用于扩产、研发及生态拓展,重点推进自适应机器人在汽车制造、3C 电子等 领域的规模化落地。 6 月 23 日消息,见真机械完成超亿元 A 轮融资,投资方为国泰海通证券、苏创投等。 公司 2016 年成立于长春,是省级专精特新企业。专注航天器部件制造,从事光电仪器制造、卫星部件 装配等业务,凭借先进技术和严格质控体系,在行业内建立良好口碑,2024 年营收过亿元。 公司成立于 2016 年,总部位于上海,由斯坦福大学机器人实验室核心团队创立,首创「自适应机器 人」品类,以「仿人化」力控技术为核心,产品覆盖 7 轴串联机器人 Rizon 拂晓(负载 10kg)、3 轴并 联机器人 Moonlight 玄晖(重复定位精度 ±0.05mm)及穹知 AI 系统。其解决方案已服务广汽、理想、 谷歌等头部企业,2 ...