推理

Search documents
中金 | AI智道(9):多模态推理技术突破,向车端场景延伸
中金点睛· 2025-06-02 23:45
文 / 于钟海 , 魏鹳霏 , 肖楷 , 赵丽萍 中金研究 以MiniMax V-Triune新框架成果为例,推理感知统一框架在可拓展性、泛化性初步验证。 V-Triune以三层组件架构实现视觉推理和感知任务统一至强化学 习框架:1)多模态样本数据格式化;2)验证器奖励计算,采用异步客户端-服务器架构,奖励计算和主训练循环解耦;3)数据源级指标监控,便于溯源 和提升稳定性。结合动态IoU奖励机制、冻结ViT参数等工程优化,Orsta系列模型(32B参数)在MEGA-Bench Core基准测试中实现了最高14.1%的性能提 升。 多模态推理助力智能驾驶能力升阶。 在智能驾驶场景,多模态推理是增强道路交通标志识别判断能力、提升复杂场景泛化性的重要途径,正成为头部智 能驾驶企业算法演进的重点。2025年5月30日,蔚来世界模型NVM首个版本正式开启推送,具备全量理解、想象重构和推理能力,能够对实时环境多模信 息进行理解和推演,在选择最优ETC车道通行、停车场自主寻路等场景的性能提升显著。此外,理想自研的VLA大模型亦具备思维链推理能力,以多模态 推理模拟人类驾驶员的思维运作方式。 图表1:MiniMax多模态RL ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
猿大侠· 2025-06-02 04:22
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 04:13
ZJU REAL Lab 投稿 量子位 | 公众号 QbitAI 杯子在我的左边还是右边? 这个对人类来说非常简单的问题,连GPT-4o这样级别的视觉语言大模型 (VLMs) 也可能答错。 ViewSpatial-Bench评估集中 包含5700个问答对,涵盖相机视角与人类视角两种框架下的五种空间定位识别任务 。 究其根本,还是 当前的视觉语言大模型在大规模图文数据中学习到的空间信息往往是片段化的,仅限于静态视角的理解,缺乏多维度、多视 角的空间推理能力 。 因此,当面对需要多视角空间推理的任务时,这些模型们就频频卡壳。 但是,具备稳健的空间推理能力与视角理解能力的AI系统,才能真正成为与人类协作的智能体。 为此,来自浙江大学、电子科技大学和香港中文大学的研究团队提出了 首个系统评估VLM多视角多任务下的空间定位能力的基准体系 —— ViewSpatial-Bench,涵盖五种不同的任务类型,从相机和人类视角出发,全面评估模型的空间推理能力。 同时还并配备了能够生成精确方向标签的自动化3D标注流水线。通过高效的3D方向标注生成流程,实现了超过5700个问答对,覆盖丰富的 3D场景。 通过在多视角空间数据集上的 ...
这8个常见的逻辑谬误,会让我们陷入思维困境
3 6 Ke· 2025-06-02 00:05
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观 点、新风向。 编者按:人类的思维天生就是有偏向的,在逻辑推理方面也有很多漏洞。直观的推理不等于正确的推理,因为 逻辑往往是反直觉的。从"无知"到"有知"的过程,也是思维纠偏的过程。本文介绍了8个常见的逻辑谬误,带 你重新认识推理过程。本文来自编译,希望对您有所启发。 老实说,我在大学里学的多数课程都没什么价值。这倒并不是因为教授不好,或课业毫无意义,而是说我修的 大多数课程,都不会对今后的生活产生太大的影响。 尽管激起了众怒,但教授还是向同学们展示了一些最基本的思考原则: 但是,每隔一段时间,你就会偶然选到一门对人生有重大影响的课程。我在大二时就遇到了这种情况。当时, 我需要从人文系选修一门课,但又不想参与"19世纪40年代浪漫主义文学"之类的研讨会,于是就选了一门听起 来最不像人文学科的课:一门名为"逻辑与推理"的哲学课程。这可能是我这辈子上过的最有价值的一门课。 逻辑是几乎所有人类知识的基石。因此,几个世纪以来,哲学家们一直在逻辑推理方面进行探索。他们的目标 是确定什么是我们可以知道的真理,什么是我们无法知道的真理。 ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 03:40
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心· 2025-06-01 03:30
机器之心报道 编辑:张倩 「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」 随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式:先通过推理数据进 行监督微调(SFT),再通过强化学习(RL)进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型(LVLM)领域。 但近日的一项研究成果却给出了一个惊人的发现:「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径,而 RL 则是在促进真正的多模态推理!」 这个发现来自加州大学圣克鲁兹分校和德克萨斯大学达拉斯分校等机构的一个研究团队,他们深入探讨了「SFT+RL」这一经典范式在视觉语言模型开发中的适用 性,其中重点关注了两个核心问题:1)SFT 与 RL 在多模态推理中分别产生何种独特作用?2)这种两阶段训练对 LVLM 的推理能力是否确有必要? 论文标题: SFT or RL? An Early Investigation into Training ...
从打分器到思考者:RM-R1用推理重塑模型价值判断
机器之心· 2025-05-31 04:00
「知其然,亦知其所以然。」 文章验证了三个核心发现: 1. 规模带来增益:随着模型变大、计算力增强,RM-R1 的推理链训练方法效果越好,性能几乎线性提升; 这句儒家命题强调,真正的理解不仅在于结果,更在于推理过程。如今,在大型语言模型的后训练阶段,奖励模型承担着桥接模型行为与人类价值的重要职 责;但现有模型往往只给出一个分数,却难以解释其依据。缺乏推理的奖励,就如「知其然而不知其所以然」,既难以建立信任,也难以指导更优的学习。 伊利诺伊大学香槟分校的研究团队提出了 RM-R1 框架,将奖励建模重新定义为推理任务,提出了推理奖励模型(Reasoning Reward Models, ReasRMs)。RM-R1 关注于如何通过整合推理能力来增强奖励模型,使其能够更准确地对模型输出进行评估和打分,从而更好地与人类偏好对齐。RM- R1 通过生成结构化的评估标准和推理过程,提升了奖励模型的可解释性和性能。 2. 简单套用旧 RL 策略行不通:想让模型「会推理」,得精准划分问题类型、并对推理过程进行定向蒸馏训练,才能带来真正泛化的提升; 3. 推理比直接输出答案更通用:相比传统的直接监督,RM-R1 的推理能力更稳 ...
阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升
量子位· 2025-05-31 03:34
在推理+搜索方向,通义实验室搜索团队已提出ZeroSearch、OmniSearch等工作,通过在特定的下游任务进行强化学习训练,让大模型在与 环境交互的过程中学习使用搜索引擎。 该团队认为, 仅在特定任务上训练会导致模型的泛化能力受限 ,难以适应更多场景下的检索推理任务。 受BERT模型在预训练过程中使用的掩码 (Mask) 预测任务启发,MaskSearch引入了 检索增强型掩码预测任务 。 也就是让模型使用搜索工具,预测文本中被遮蔽的部分,在预训练过程中有效学习通用的任务分解、推理等智能体策略,同时熟练掌握搜索引 擎的使用方法,为其后续适配多领域任务奠定基础。 通义实验室 投稿 量子位 | 公众号 QbitAI 为提升大模型" 推理+ 搜 索 "能力,阿里通义实验室出手了。 最新研究开源 全新 通用 预训练框架 —— MaskSearch ,在域内及跨域开放域问答任务上均较基线方法取得显著性能提升。 小模型甚至能媲美大模型表现。 不仅如此,MaskSearch可以兼容 监 督微 调 ( S FT) 和强化学习 (RL) 两种训练方法。 通过加入预训练的二阶段训练,MaskSearch相比只在下游任务进行 ...
英伟达20250529
2025-05-29 15:25
英伟达 20250529 摘要 英伟达一季度确认 4.6 亿美元 H20 收入,但因美国出口管制,预计损失 25 亿美元收入,并计提 46.45 亿美元库存和采购承诺减值,对中国 AI 加速器市场准入受限将产生重大不利影响。 Blackwell 产品线增长迅速,贡献近 70%的数据中心计算收入, GB200 系列架构变革支持数据中心规模工作负载,实现最低每令牌推理 成本,主要云服务提供商开始采样 GB300 系统。 AI 工厂部署加速,本季度近 100 个视频驱动 AI 工厂运行,GPU 使用量 翻倍,各行业领导者战略性部署关键主权云项目,如 AT&T、比亚迪等。 游戏业务创下 38 亿美元新高,同比增长 42%,AI PC 笔记本产品线增 加,推出 G Force RTX 5,060 系列 GPU,任天堂 Switch 2 采用 NVIDIA 神经渲染及 AI 技术。 网络业务收入同比增长 64%至 50 亿美元,Spectrum X 产品线年收入 超 80 亿美元,新增 Google Cloud 和 Meta 为客户,推出 Spectrum X 和 Quantum X 硅光子交换机产品。 中国数据中心收入 ...
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
Di Yi Cai Jing· 2025-05-29 14:10
报告显示此前 R1模型幻觉率在21%左右。 在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强 化、幻觉改善和创意写作更好等。 值得一提的是,DeepSeek提到,新版DeepSeek R1 针对"幻觉"问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻 觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。 所谓幻觉即大模型的"胡说八道",此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性 幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。 doubao-1.5-pr 在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已 接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。 gemini-2.5-pro-p1 gemini-2.5-flash-t ...