多模态推理

Search documents
视觉感知驱动的多模态推理,阿里通义提出VRAG,定义下一代检索增强生成
机器之心· 2025-06-03 08:57
在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。 一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型的推理能力。 来自阿里巴巴通义实验室的最新研究成果 ——VRAG-RL(Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning),将强化学习算法引入多模态智能体训练,借助迭代推理和视觉感知空间,全方位提升视觉语言 模型(VLMs)在检索、推理和理解视觉信息方面的能力,为纯视觉检索增强生成任务提供有效解决方案,代码、模型全面开源! Paper 地址:arxiv.org/pdf/2505.22019 Github 地址:https://github.com/Alibaba-NLP/VRAG 为了解决现有 RAG 方法在处理视觉丰富文档时面临的挑战,尤其 ...
券商晨会精华:低估值具身智能应用标的和红利资产继续受青睐
Xin Lang Cai Jing· 2025-06-03 00:49
中信建投表示,人形机器人板块继续分化,前期涨幅较好的标的普遍出现回调,市场聚焦相对有安全边 际的低估值具身智能应用标的。中长期来看,我们建议不拘泥于"人形"深度挖掘"AI+机器人"的投资机 会,包括传感器、灵巧手、机器狗、外骨骼机器人方向。降息背景下,高股息率的红利资产继续受到市 场青睐。出海板块不断有新的上市公司提出H股发行计划,加之创业公司赴港上市数量增多,预计H股 高端制造板块将日益壮大,会吸引更多全球资金。 炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 智通财经6月3日讯,上周五市场全天震荡调整,创业板指领跌。板块方面,猪肉、创新药、银行、 CRO等板块涨幅居前,黄金、草甘膦、可控核聚变、人形机器人、环保设备、消费电子等板块跌幅居 前。截至收盘,沪指跌0.47%,深成指跌0.85%,创业板指跌0.96%。 在今天的券商晨会上,中信建投表示,低估值具身智能应用标的和红利资产继续受青睐;中金公司认 为,多模态推理助力智能驾驶能力升阶;华泰证券表示,关注A50等核心资产:从重估韧性到重估增 长。 中信建投:低估值具身智能应用标的和红利资产继续受青睐 中金公司:多模态推理助力智能驾 ...
中金:多模态推理助力智能驾驶能力升阶,相关主线值得关注
news flash· 2025-06-03 00:32
中金发文称,3月Google Gemini2.5发布,可实现多模态融合推理;4-5月阶跃星辰、商汤、MiniMax先 后发布多模态推理成果,我们认为技术进展意义在于:依托于多模态思维链的加入,多模态、推理模型 两条主线正在实现架构统一,多模态理解能力迎来提振。近期,理想、蔚来等车端交互具备多模态推理 落地场景,技术架构的融合创新有望持续带来应用场景延伸,多模态推理主线值得关注。 ...
中金 | AI智道(9):多模态推理技术突破,向车端场景延伸
中金点睛· 2025-06-02 23:45
文 / 于钟海 , 魏鹳霏 , 肖楷 , 赵丽萍 中金研究 以MiniMax V-Triune新框架成果为例,推理感知统一框架在可拓展性、泛化性初步验证。 V-Triune以三层组件架构实现视觉推理和感知任务统一至强化学 习框架:1)多模态样本数据格式化;2)验证器奖励计算,采用异步客户端-服务器架构,奖励计算和主训练循环解耦;3)数据源级指标监控,便于溯源 和提升稳定性。结合动态IoU奖励机制、冻结ViT参数等工程优化,Orsta系列模型(32B参数)在MEGA-Bench Core基准测试中实现了最高14.1%的性能提 升。 多模态推理助力智能驾驶能力升阶。 在智能驾驶场景,多模态推理是增强道路交通标志识别判断能力、提升复杂场景泛化性的重要途径,正成为头部智 能驾驶企业算法演进的重点。2025年5月30日,蔚来世界模型NVM首个版本正式开启推送,具备全量理解、想象重构和推理能力,能够对实时环境多模信 息进行理解和推演,在选择最优ETC车道通行、停车场自主寻路等场景的性能提升显著。此外,理想自研的VLA大模型亦具备思维链推理能力,以多模态 推理模拟人类驾驶员的思维运作方式。 图表1:MiniMax多模态RL ...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心· 2025-06-01 03:30
机器之心报道 编辑:张倩 「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」 随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式:先通过推理数据进 行监督微调(SFT),再通过强化学习(RL)进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型(LVLM)领域。 但近日的一项研究成果却给出了一个惊人的发现:「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径,而 RL 则是在促进真正的多模态推理!」 这个发现来自加州大学圣克鲁兹分校和德克萨斯大学达拉斯分校等机构的一个研究团队,他们深入探讨了「SFT+RL」这一经典范式在视觉语言模型开发中的适用 性,其中重点关注了两个核心问题:1)SFT 与 RL 在多模态推理中分别产生何种独特作用?2)这种两阶段训练对 LVLM 的推理能力是否确有必要? 论文标题: SFT or RL? An Early Investigation into Training ...
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
机器之心· 2025-05-20 04:58
「三个点电荷 + Q、-2Q 和 + 3Q 等距放置,哪个向量最能描述作用在 + Q 电荷上的净电力方向?」 在解这道题时,我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型,如 GPT-4o,也可能在理解「同性相斥」的基本物理原则时,错误 地判断斥力的方向(例如,错误地将 + 3Q 对 + Q 的斥力方向判断为右下方而非正确的左上方)。 这个看似简单的物理问题,却暴露了多模态大模型一个「致命缺陷」: 当前的 MLLMs 仍然无法进行需要深度视觉与文本融合的复杂多模态推理 !一项最新研究 推出的 EMMA 基准测试,如同一面「照妖镜」,揭示了即使是顶尖 MLLMs 也在这关键能力上显著不足。 目前该研究已被 ICML 2025 接收为 spotlight,代码数据已全部开源 ! 目前已有多个模型 / 方法在 EMMA 上验证其多模态推理能力,研究发现: 即使最先进的模型 ——Gemini-2.5-pro-exp-03-25 ,或者是能够进行视觉工具调用的 o3/o4-mini 模型在 EMMA 上的表现仍然落后人类专家超 20% ! 标题: Can MLLMs Reason in Multi ...
看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一
量子位· 2025-05-14 06:07
一水 发自 凹非寺 量子位 | 公众号 QbitAI 在60个主流基准测试中拿下38项第一! 字节发布 轻量级多模态推理模型Seed1.5-VL ,仅用 532M视觉编码器+200亿活跃参数 就能与一众规模更大的顶尖模型掰手腕,还是能带 图深度思考的那种。 相关技术报告也第一时间公开了。 整体而言,虽然是"以小博大",但新模型在复杂谜题推理、OCR、图表理解、3D空间理解等方面表现出色。 比如猜下图中有几只猫,人眼很容易误将地上的黑猫当成影子: 同时也能用来解答复杂推理谜题,考公党有福了(bushi~ 还能用来玩"看图找茬",速度和准确率双双胜于人类: 当然,以上也基于其强大的OCR识别能力。即便是长度惊人、中英混杂的消费小票,也能分分钟转换成表格。 那么它是如何做到的呢? 532M视觉编码器 + 20B混合专家语言模型 通过深扒技术报告,背后关键主要在于 模型架构 和 训练细节 。 据介绍,Seed1.5-VL由以下三个核心组件组成: SeedViT:用于对图像和视频进行编码; MLP适配器:将视觉特征投射为多模态token; 大语言模型:用于处理多模态输入并执行推理。 模型支持多种分辨率的图像输入,并通过 ...
昆仑万维:一季度营收大幅增长46% AI算力芯片取得突破性进展
Zheng Quan Shi Bao Wang· 2025-04-29 02:00
(原标题:昆仑万维(300418):一季度营收大幅增长46%AI算力芯片取得突破性进展) 4月29日,昆仑万维(300418.SZ)披露2025年一季度业绩报告。报告期内,公司实现营业收入17.6亿元, 同比增长46%,全力推动AI算力芯片、大模型及应用的研发迭代工作,研发费用4.3亿元,同比增长 23%。 截至报告期末,公司AI音乐年化流水收入ARR达到约1200万美金(月流水收入约100万美金);短剧平台 Dramawave年化流水收入ARR达到约1.2亿美金(月流水收入约1000万美金),为收入增长注入强劲动力。 公司全球化战略成效显著,实现海外业务收入16.7亿元,同比增长56%,海外业务收入占比提升至 94%,国际化布局进一步深化。 公司在多模态推理、视频生成、音频生成等关键方向,推出多项颠覆性技术与开源成果。公司发布的 Skywork R1V多模态推理模型达到开源SOTA(State of The Art,当前最佳水平);视频生成领域, SkyReels-V1模型与支持精准表情动作控制的SkyReels-A1算法位居全球领先地位,后者更实现技术突破 性SOTA;AI音乐领域,Mureka V6与全 ...
AI动态跟踪系列(六):OpenAIo3、豆包新品首发,关注原生Agent与多模态推理
Ping An Securities· 2025-04-17 13:10
Investment Rating - The industry investment rating is "Outperform the Market" [1][38]. Core Insights - OpenAI's latest models, o3 and o4-mini, introduce significant advancements in image reasoning and agent capabilities, enhancing the AI programming ecosystem [3][4]. - The competition in the global large model field remains intense, with a strong emphasis on native agent capabilities and multimodal reasoning [34]. - The domestic AI computing power market is expected to see increased acceptance and market share for Chinese AI computing solutions due to ongoing global trade tensions [34]. Summary by Sections OpenAI's New Models - OpenAI released o3 and o4-mini, which are touted as the most intelligent models to date, featuring breakthroughs in image reasoning and agent capabilities [3][4]. - The o3 model has set new state-of-the-art benchmarks in coding, mathematics, and visual perception tasks, outperforming its predecessor o1 by 20% in error rates on complex tasks [5][7]. - The o4-mini model is optimized for fast and cost-effective reasoning, excelling in non-STEM tasks and data science [5]. Doubao 1.5 Model - Doubao 1.5 has reached or is close to the top tier globally in reasoning tasks across mathematics, coding, and science, with enhanced visual understanding capabilities [17][21]. - The Doubao APP, based on the Doubao 1.5 model, can perform "thinking while searching," providing detailed recommendations based on user needs [24][27]. - Doubao's daily token usage has surged to over 12.7 trillion, indicating significant growth and market penetration [18]. Investment Recommendations - The report suggests focusing on AI applications in enterprise services, programming, and office automation, as well as on domestic AI computing power companies [34]. - Recommended stocks in AI applications include companies like Fanwei Network and Kingdee International, while AI computing power recommendations include companies like Haiguang Information and Inspur Information [34].
【海外TMT】优必选极氪5G智慧工厂实训效果突出,有望推动群体智能与规模化应用——海外机器人系列跟踪报告(五)(付天姿/黄铮)
光大证券研究· 2025-03-04 09:36
特别申明: 本订阅号中所涉及的证券研究信息由光大证券研究所编写,仅面向光大证券专业投资者客户,用作新媒体形势下研究 信息和研究观点的沟通交流。非光大证券专业投资者客户,请勿订阅、接收或使用本订阅号中的任何信息。本订阅号 难以设置访问权限,若给您造成不便,敬请谅解。光大证券研究所不会因关注、收到或阅读本订阅号推送内容而视相 关人员为光大证券的客户。 报告摘要 事件: 近日,优必选在极氪5G智慧工厂成功开展全球首例多台、多场景、多任务人形机器人协同实训,通过群体 智能技术实现从"单机自主"向"群体智能"的跨越,探索工业场景下通用人形机器人群体作业解决方案。 群体智能架构体系创新,研发全球首个人形机器人多模态推理大模型 1)技术框架:优必选首次将群体智能技术应用于人形机器人,创新提出人形机器人群脑网络(BrainNet)软 件架构,设计人形智能网联中枢Internet of Humanoids(IoH)。其中BrainNet架构由云端协同的推理型和技 能型节点灵活链接,形成超级大脑和智能小脑。超级大脑基于多模态具身推理大模型,突破智能混合决策 技术,实现复杂产线级任务的高维决策;智能小脑基于Transformer模 ...