Workflow
推理
icon
Search documents
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-08 04:51
本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈。 张祥雨专注于多模态领域,他提出了 DreamLLM 多模态大模型框架,这是业内最早的图文生成理解 一体化的多模态大模型架构之一,基于这个框架,阶跃星辰发布了中国首个千亿参数原生多模态大 模型 Step-1V。此外,他的学术影响力相当突出,论文总引用量已经超过了 37 万次。 一直以来,业界都相当期待一个理解、生成一体化的多模态,但直到今天这个模型还没出现,如何 才能达到多模态领域的 GPT-4 时刻?这一期对谈中,祥雨结合自己在多模态领域的研究和实践历 程,从纯粹的技术视角下分享了自己对多模态领域关键问题的全新思考,在他看来,虽然语言模型 领域的进步极快,但多模态生成和理解的难度被低估了: • 接下来 2-3 年,多模态领域会有两个 GPT-4 时刻:多模态推理和自主学习; • o1 范式的技术本质在于激发出 Meta CoT 思维链:允许模型在关键节点反悔、重试、选择不同分 支,使推理过程从单线变为图状结构。 目录 01 研究主线: 重新回归大模型 • 多模态生成理解一体化难以实现的原因在于,语言对视觉的控制能力弱,图文对齐不精确, ...
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
机器之心· 2025-06-08 03:45
本文主要作者是吕昂和谢若冰。吕昂,中国人民大学博士生,研究方向为语言模型结构优化,导师为严睿教授;谢若冰,腾讯高级研究员,研究方向为大语言模 型、推荐系统。 最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。 研究者解释道,强化学习对下游任务的提升,关键不仅在于奖励的准确性,而更在于模型是否能够产生高质量的思考过程。仅通过奖励模型输出中关键思考词的 出现频率,而非基于答案正确性的奖励,语言模型依然能够在下游任务中取得非常高的峰值表现。这表明,强化学习对下游任务的提升,更多来源于让模型学会 采用恰当的思考路径接近正确答案。而相关的解题基础能力,模型已在预训练阶段获得。因此,预训练阶段的能力提升依然至关重要。 研究者还展示了基于思考模式的极简奖励如何有效校准奖励模型,从而在开放性 NLP 任务中增强语言模型的表现,并使较小的模型也能通过强化学习成功获得思 考能力。 论文地址:https://huggingface.co/papers/2505.22653 代码链接: ...
8个数据集全面胜出!思维链推理刷新图学习表现上限
量子位· 2025-06-08 03:40
GCoT团队 投稿 量子位 | 公众号 QbitAI 图神经网络还能更聪明?思维链提示学习来了! 由于图数据拥有复杂的非线性结构和缺少文本信息,语言模型中的思维链(Chain-of-Thought,CoT)提示 学习方法难以简单直接地应用于图数据。 基于此,来自新加坡管理大学和中国科学技术大学的研究者们提出了 GCo T ——首个应用于无文本图数据 的类思维链提示学习框架。 实验结果表明,GCoT在八个图数据集上的少样本节点分类与图分类任务全面超越现有SOTA方法,尤其在 1-5样本的极少样本设置下表现最为显著。 GCoT方法解析 GCoT的核心思想是将下游的推断过程拆分为多个推断步骤。具体包含: 研究 者们在八个公开 数据集上进行了全面实验以评估和分析GCoT。 整体框架 研究者们将思维链提示学习分为三个部分: 2. 思维构建 为有效利用多层结构信息,研究人员将每一层的嵌入表示做加权求和得到融合后的"思维" 。 3. 基于思维的提示学习Thought conditioned prompt learning 研究人员设计的"思维" 捕获了图中节点的结构知识并用于指导下一步推断。由于每个节点可能具有不同 的特质 ...
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
量子位· 2025-06-07 05:02
ReasonMap团队 投稿 量子位 | 公众号 QbitAI 近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。 然而,一个关键问题仍然值得追问: 多模态大模型(MLLMs),真的能"看懂图"了吗? 特别是在面对结构复杂、细节密集的图像时,它们是否具备细粒度视觉理解与空间推理能力,比如挑战一下高清 地铁图 这种。 为此,来自西湖大学、新加坡国立大学、浙江大学、华中科技大学的团队提出了一个全新的评测基准 ReasonMap 。 看得出来北京、杭州的地铁图难倒了一大片模型。 这是首个聚焦于 高分辨率交通图(主要为地铁图)的多模态推理评测基准,专为评估大模型在理解图像中细粒度的结构化空间信息 方面的 能力而设计。 结果发现,当前主流开源的多模态模型在ReasonMap上面临明显性能瓶颈,尤其在 跨线路路径规划 上常出现视觉混淆或站点遗漏。 而经强化学习后训练的闭源推理模型(如 GPT-o3)在多个维度上 显著优于 现有开源模型,但与人类水平相比仍存在明显差距。 在面对不同国家地区的地铁图中,四个代表性 MLLM(Qwen2.5-VL-72B-I(蓝色)、 I ...
理想司机Agent的一些细节
理想TOP2· 2025-06-06 15:24
:基于2D/3D 信息编码整合进模型后,Agent 具备理解道路标牌【例如,出口,上下坡道,左右 转,电梯口,不允许通行,区域B12345,ABCDEFGG区 etc】的能力,和语音交互感知【左右转,靠边停 车,掉个头,快点慢点,甚至给出先去A区再靠边,或者掉头后再去C区】的能力。简单指令场景依赖的是 本地的多模态LLM,复杂指令是Token化后上云大参量的LLM,将任务拆解后转换成顺序任务后在本地LLM 执行。 :具备自建关联点的能力【我这里为什么不说建地图而是建关联点】有就几个原因:首先更多的 是行车的关联结构,而并非记忆了精准的道路结构。因此车辆在调用这个关联点记忆很像人在地下车库开 车【大概要往哪个地方开,而并非是像Hd map 具有严格的驾驶轨迹限定】,换句话说,关联点建好后。理 论上,给Agent 需求后,会直接进行关联点分析,规划出一条最近的【可以符合通行逻辑】的地下/园区驾 驶轨迹。 当然现在他能力还有限,还是偶尔会出现开错路,然后触发掉头再开【对因为行车模型化 后,理论上可以触发无限制掉头,几乎不会卡死】 :具备感知推理能力,而且怀疑整个AD Max Agent 场景是将行车感知摄像头和泊车 ...
博通(AVGO):营收创单季历史新高,指引25Q3AI收入同比持续高增
CMS· 2025-06-06 15:11
证券研究报告|行业简评报告 2025 年 06 月 06 日 营收创单季历史新高,指引 25Q3 AI 收入同比持续高增 博通(AVGO.O)25Q2 跟踪报告 TMT 及中小盘/电子 事件: 博通(NASDAQ:AVGO)发布 FY2025Q2 季报,第二财季营收 150.04 亿美 元,同比+20%/环比+1%,毛利率为 79.4%,同比+3.2pcts/环比+0.3pct。综合 财报及交流会议信息,总结要点如下: 评论: 1、FY25Q2 营收创单季历史新高,毛利率超指引预期。 风险提示:竞争加剧风险、贸易摩擦风险、景气度变化风险、宏观形势风险。 推荐(维持) 行业规模 FY25Q2 营收 150.04 亿美元,创历史新高,同比+20%/环比+1%,超此前指引 (约 149 亿美元),收入增长得益于 AI 半导体业务的持续强劲以及 VMware 业 务的发展势头;毛利率 79.4%,同比+3.2pcts/环比+0.3pct,高于此前指引(约 78.9%)。库存 20 亿美元,环比增长 6%,库存周转天数 69 天。 2、AI 业务营收同比高增,软件受益 Vmware 增速明显。 1)半导体部门:收入为 ...
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品
量子位· 2025-06-06 13:45
MME团队 投稿 量子位 | 公众号 QbitAI 逻辑推理是人类智能的核心能力,也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现,研 究人员开始探索如何将推理能力引入多模态大模型(MLLMs)。 然而,现有的benchmark大多缺乏对逻辑推理类型的明确分类,以及对逻辑推理的理解不够清晰,常将感知能力或知识广度与推理能力混 淆。 在此背景下,复旦大学及香港中文大学MMLab联合上海人工智能实验室等多家单位,提出了MME-Reasoning,旨在全面的评估多模态大模 型的推理能力。 结果显示,最优模型得分仅60%左右。 MME-Reasoning:全面评估多模态推理能力 根据Charles Sanders Peirce的分类标准,推理分为三类:演绎推理 (Deductive)、归纳推理 (Inductive) 以及溯因推理 (Abductive)。 MME-Reasoning以此分类作为标准来全面的测评多模态大模型的推理能力。 演绎推理 (Deductive reasoning) 使用规则和前提来推导出结论。 归纳推理 (Inductive reas ...
首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
量子位· 2025-06-06 13:45
VL-Rethinker团队 投稿 量子位 | 公众号 QbitAI 1.1 GRPO中的「优势消失」问题 (Vanishing Advantages) 在GRPO算法中,优势信号(advantage)是通过比较同一查询组内不同候选回复的奖励来计算的 。当同一个问题组内所有回答获得相同奖 励(例如,全部正确或全部错误)时,计算得到的优势信号便为零 。研究团队发现,在GRPO训练多模态模型的过程中,随着训练的推进, 出现零优势信号的样本比例显著增加,这种现象被定义为 「优势消失」 (Vanishing Advantages) 。 相比于用于更多高质量推理数据的纯文本推理,Vanishing Advantages在能力较强的多模态模型强化学习时尤其突出。 这种显著的Vanishing Advantages源于两方面原因: 在文本推理领域,以GPT-o1、DeepSeek-R1为代表的 "慢思考" 模型凭借显式反思机制,在数学和科学任务上展现出远超 "快思考" 模型 (如 GPT-4o)的优势。 然而,当战场转移至多模态推理场景时,这些「思维巨匠」却表现平平:GPT-o在MathVista、MathVerse等多模 ...
大模型推理,得讲性价比
虎嗅APP· 2025-06-06 10:10
HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成 为大模型推理提效的关键路径。华为团队重磅 ...