Workflow
推理
icon
Search documents
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 03:40
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心· 2025-06-01 03:30
机器之心报道 编辑:张倩 「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」 随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式:先通过推理数据进 行监督微调(SFT),再通过强化学习(RL)进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型(LVLM)领域。 但近日的一项研究成果却给出了一个惊人的发现:「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径,而 RL 则是在促进真正的多模态推理!」 这个发现来自加州大学圣克鲁兹分校和德克萨斯大学达拉斯分校等机构的一个研究团队,他们深入探讨了「SFT+RL」这一经典范式在视觉语言模型开发中的适用 性,其中重点关注了两个核心问题:1)SFT 与 RL 在多模态推理中分别产生何种独特作用?2)这种两阶段训练对 LVLM 的推理能力是否确有必要? 论文标题: SFT or RL? An Early Investigation into Training ...
从打分器到思考者:RM-R1用推理重塑模型价值判断
机器之心· 2025-05-31 04:00
「知其然,亦知其所以然。」 文章验证了三个核心发现: 1. 规模带来增益:随着模型变大、计算力增强,RM-R1 的推理链训练方法效果越好,性能几乎线性提升; 这句儒家命题强调,真正的理解不仅在于结果,更在于推理过程。如今,在大型语言模型的后训练阶段,奖励模型承担着桥接模型行为与人类价值的重要职 责;但现有模型往往只给出一个分数,却难以解释其依据。缺乏推理的奖励,就如「知其然而不知其所以然」,既难以建立信任,也难以指导更优的学习。 伊利诺伊大学香槟分校的研究团队提出了 RM-R1 框架,将奖励建模重新定义为推理任务,提出了推理奖励模型(Reasoning Reward Models, ReasRMs)。RM-R1 关注于如何通过整合推理能力来增强奖励模型,使其能够更准确地对模型输出进行评估和打分,从而更好地与人类偏好对齐。RM- R1 通过生成结构化的评估标准和推理过程,提升了奖励模型的可解释性和性能。 2. 简单套用旧 RL 策略行不通:想让模型「会推理」,得精准划分问题类型、并对推理过程进行定向蒸馏训练,才能带来真正泛化的提升; 3. 推理比直接输出答案更通用:相比传统的直接监督,RM-R1 的推理能力更稳 ...
阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升
量子位· 2025-05-31 03:34
在推理+搜索方向,通义实验室搜索团队已提出ZeroSearch、OmniSearch等工作,通过在特定的下游任务进行强化学习训练,让大模型在与 环境交互的过程中学习使用搜索引擎。 该团队认为, 仅在特定任务上训练会导致模型的泛化能力受限 ,难以适应更多场景下的检索推理任务。 受BERT模型在预训练过程中使用的掩码 (Mask) 预测任务启发,MaskSearch引入了 检索增强型掩码预测任务 。 也就是让模型使用搜索工具,预测文本中被遮蔽的部分,在预训练过程中有效学习通用的任务分解、推理等智能体策略,同时熟练掌握搜索引 擎的使用方法,为其后续适配多领域任务奠定基础。 通义实验室 投稿 量子位 | 公众号 QbitAI 为提升大模型" 推理+ 搜 索 "能力,阿里通义实验室出手了。 最新研究开源 全新 通用 预训练框架 —— MaskSearch ,在域内及跨域开放域问答任务上均较基线方法取得显著性能提升。 小模型甚至能媲美大模型表现。 不仅如此,MaskSearch可以兼容 监 督微 调 ( S FT) 和强化学习 (RL) 两种训练方法。 通过加入预训练的二阶段训练,MaskSearch相比只在下游任务进行 ...
英伟达20250529
2025-05-29 15:25
Key Points Summary of NVIDIA's Earnings Call Company Overview - **Company**: NVIDIA - **Date of Call**: May 29, 2025 Core Industry Insights - **Industry**: Semiconductor and AI Technology - **Market Impact**: U.S. export controls are expected to significantly affect NVIDIA's revenue, particularly in the Chinese market, with an anticipated loss of $2.5 billion in revenue due to restrictions on the H20 data center GPU [2][4][26]. Financial Performance - **Q1 2026 Revenue**: NVIDIA reported a strong performance with total revenue of $44 billion, a 69% year-over-year increase. Data center revenue reached $39 billion, up 73% year-over-year [4]. - **H20 Revenue**: Confirmed $460 million in H20 revenue, but faced a $4.5 billion expense due to inventory and procurement obligations write-downs [4][26]. - **Gaming Revenue**: Achieved a record $3.8 billion in gaming revenue, a 42% increase year-over-year [2][18]. - **Network Business**: Revenue grew 64% year-over-year to $5 billion, with the Spectrum X product line exceeding $8 billion in annual revenue [2][13][16]. Product and Technology Developments - **Blackwell Product Line**: Contributed nearly 70% of data center computing revenue, with rapid growth and deployment of NVL 70 dual racks [5][6]. - **AI Factory Deployment**: Nearly 100 AI factories are operational, doubling GPU usage across various industries [7]. - **Nemo Microservices**: Widely adopted across industries, enhancing model accuracy and response times significantly [9]. - **Spectrum X and Quantum X**: New products launched to enhance AI factory scalability and efficiency [16]. Market Challenges and Opportunities - **Export Controls**: Anticipated to create an $8 billion negative impact in Q2, with a total estimated impact of $15 billion [3][26]. - **China Market**: Data center revenue from China is expected to decline significantly due to export restrictions, although over 99% of data center computing revenue comes from U.S. customers [2][17]. - **AI Spending Growth**: Projected near $1 trillion in AI spending over the next few years, driven by infrastructure investments [27]. Strategic Partnerships and Collaborations - **Partnerships**: Collaborated with Yum Brands to implement AI in 500 restaurants, with plans to expand to 61,000 [10]. - **Cybersecurity Solutions**: Leading companies like Checkpoint and CrowdStrike are utilizing NVIDIA's AI-driven security solutions [11][12]. Future Outlook - **Growth Confidence**: Despite challenges, NVIDIA maintains confidence in sustained growth for the year, driven by the removal of AI diffusion rules and strong performance in non-China business segments [30][31]. - **Investment in AI Infrastructure**: Significant investments in domestic manufacturing and AI infrastructure are underway, including new facilities in Arizona and Texas [24]. Additional Insights - **Gaming and AI PC Growth**: The gaming sector continues to thrive with a user base of 100 million, and new AI PC products are being introduced [18]. - **Automotive Sector**: Revenue from automotive reached $567 million, a 72% increase, driven by demand for autonomous driving solutions [20]. - **Professional Visualization**: Revenue in this segment was $509 million, with strong demand for AI workstations [19]. This summary encapsulates the key points from NVIDIA's earnings call, highlighting the company's financial performance, product developments, market challenges, and future outlook.
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
Di Yi Cai Jing· 2025-05-29 14:10
报告显示此前 R1模型幻觉率在21%左右。 在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强 化、幻觉改善和创意写作更好等。 值得一提的是,DeepSeek提到,新版DeepSeek R1 针对"幻觉"问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻 觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。 所谓幻觉即大模型的"胡说八道",此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性 幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。 doubao-1.5-pr 在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已 接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。 gemini-2.5-pro-p1 gemini-2.5-flash-t ...
英伟达电话会全文!黄仁勋:“AI推理爆炸式增长”,痛失H20巨额收入但Blackwell芯片周产7.2万颗GPU
硬AI· 2025-05-29 14:05
图 点击 上方 硬AI 关注我们 英伟达CEO黄仁勋罕见称赞中国AI模型 "DeepSeek R1如ChatGPT般越思考越聪明" ,同时对H20相关影响表示痛 心"500亿中国市场对美关闭" 。尽管英伟达Q2预计将损失H20相关80亿收入,但Blackwell芯片正以周产72,000颗GPU创 纪录速度交付,支撑微软单季处理100万亿Token的"海啸般"推理需求。他信心满满地说:"Blackwell 已全面投产,我们 已经开足马力。我们现在拥有多个重要的增长引擎。" 硬·AI 作者 | 龙 玥 他直言,尽管H20出口限制将对英伟达未来的业务产生重大的不利影响,但Blackwell产品线爬坡速度是公 司历史上最快的,推动了数据中心收入同比增长73%。他表示,英伟达在制造良率方面看到显著改善,机 架出货量正以强劲速度交付。GB300也预计本季度末量产发货。 以下为财报电话会要点内容总结: 01 编辑 | 硬 AI 隔夜,英伟达Q1财报重磅出炉。这家AI芯片巨头扛住了特朗普政府出口限制的压力,业绩总体稳健:Q1 营收超预期增69%,Q2料H20收入减少80亿,但总收入指引顶住出口限制压力。 财报发布后,英伟达C ...
“算力之王”的软肋:187.8亿美元利润 难解英伟达的中国市场焦虑
美东时间5月28日,英伟达公布了2026财年第一财季业绩。尽管面临美国对人工智能芯片出口管制的压力,这家AI芯片巨头依然 交出了超出市场预期的答卷。 财报显示,英伟达当季营收为440.62亿美元,同比增长69%,环比增长12%;净利润为187.75亿美元,同比增长26%,环比下降 15%。 此前,英伟达发布公告称,第一财季将计提减值55亿美元,但是实际上只减值45亿美元。由于中国市场"抢购"需求,本季度H20 影响小于预期。 财报发布后,英伟达股价在盘后交易中上涨近5%,创下四个月以来新高。截至当日收盘,英伟达股价报134.81美元/股,市值约 为3.288万亿美元。在过去一段时间的回调和喧嚣后,资本市场似乎不再疯狂追逐增速,对于各类冲击的看待更加理性,各大机 构也纷纷上调英伟达目标股价。 Blackwell推动增长 具体看核心业务,作为英伟达的核心增长引擎,数据中心业务本季度实现391亿美元营收,同比增长73%,环比增长10%,占总 营收比例高达89%。 这一增长主要得益于全球对AI基础设施的持续需求,英伟达最新的Blackwell架构产品颇为畅销。英伟达首席财务官Colette Kress 表示,在本季度 ...
华为攻克AI推理「想太多」问题!新方法让大模型推理提速60%,准确率还高了
量子位· 2025-05-29 07:19
S-GRPO的全称为序列分组衰减奖励策略优化( S erial- G roup Decaying- R eward P olicy O ptimization),旨在提升大语言模型 (LLM)的推理效率和准确性,解决 冗余思考 问题。 S-GRPO团队 投稿 量子位 | 公众号 QbitAI AI回答问题太慢太长且无用,有没有能让大模型提前停止思考的方法? 华为提出了首个在Qwen3上还有效的高效推理方法—— S-GRPO ,突破了思维链 「冗余思考」 瓶颈。 通过 "串行分组 + 衰减奖励" 的设计,在保证推理准确性的前提下,让模型学会提前终止思考, 推理提速60% ,生成更精确有用的答案。 S-GRPO适合作为当前Post Training(训练后优化)范式中的最后一步,在确保模型预先存在的推理能力不受损害的情况下, 使能模型在思 维链的早期阶段即可生成质量更高的推理路径,并在思考充分后隐式地提前退出 。 S-GRPO对单条完整推理路径进行分段截断 OpenAI o1, Deepseek-R1等推理模型依赖Test-Time Scaling law解决复杂的任务。 然而,过长的思维链序列的生成也显著增加了 ...
【招商电子】英伟达(NVDA.O)FY26Q1跟踪报告:本季H20禁令影响弱于预期,Q2营收指引为450亿美元
招商电子· 2025-05-29 06:51
点击招商研究小程序查看PDF报告原文 事件: 英伟达发布FY26Q1季报,本季营收440.62亿美元,同比+69.18%/环比+12.03%,剔除H20相关 费用影响后毛利率为71.3%,按剔除影响后同比-2.2pcts/环比-7.6pcts。综合财报及交流会议信 息,总结要点如下: 评论: 1、FY26Q1营收符合指引预期,H20禁售费用影响低于公司预期。 FY26Q1营收440.62亿美元,同比+69.18%/环比+12.03%,超指引预期(430亿美元); FY26Q1 non-GAAP毛利率为61%,剔除H20相关费用影响后为71.3%,按剔除影响后同 比-2.2pcts/环比-7.6pcts,毛利率下降主要系H20带来的45亿美元费用影响;非GAAP运营费用 增长6%,系薪酬及员工增加。4月5日英伟达接到美国政府通知,表示H20出口到中国市场需要许 可证,公司在FY26Q1因H20产品库存过剩和采购义务而产生45亿美元的费用,由于部分原材料可 以重复使用所以45亿美元费用低于公司预期,FY26Q1 H20产品营收为46亿美元,在FY26Q1无法 额外交付约25亿美元的H20产品。 2、数据中心部门网 ...