Workflow
推理
icon
Search documents
黄仁勋称AI推理需要更多计算量
news flash· 2025-06-26 01:16
英伟达CEO黄仁勋在英伟达股东大会上表示,推理需要更多计算。仅在过去一年里,tokens(词元)生成 就激增了50到100倍。为了满足这种指数级的激增,大型人工智能工厂正在各地崛起。仅微软在上个季 度就处理了超过100万亿的tokens,是一年前的5倍。(第一财经) ...
8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp
机器之心· 2025-06-25 06:50
作者熊璟,香港大学一年级博士生,师从黄毅教授和孔令鹏教授。已在 ICLR、ICML、NeurIPS、ACL、EMNLP、TMLR等顶级会议/期刊发表论文,研究方向 为高效大语言模型推理与自动定理证明。担任NAACL、EMNLP、ACL、ICML、ICLR、NeurIPS、COLING等会议审稿人。个人主页: https://menik1126.github.io/ 引言:大模型长文本推理的瓶颈与突破 随着大语言模型(LLMs)能力日益提升,AI 对超长文本的理解和处理需求也变得前所未有地重要。然而,目前主流 LLM 虽然依赖旋转位置编码(RoPE)等机 制,在训练阶段能高效处理 4K-8K tokens 级别的上下文,但一旦推理阶段外推遇到如 128K 以上长度的长文本时,模型往往受到显存瓶颈的限制和注意力下沉 (attention sink) 等问题影响,采用常规的文本截断方案容易出现信息遗失,这极大限制了大模型在实际场景中的应用拓展。 业界目前尝试的处理长文本的高效推理主要的瓶颈有两个, 一个是位置编码的长度外推, 再一个是长度外推中的内存瓶颈。 目前的位置编码包括两类:一是基于频率区分的 NTK 插值方 ...
ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
机器之心· 2025-06-25 04:06
本工作共同第一作者 包括: 张亦弛 , 清华大学计算机系三年级博士生,师从朱军教授,研究方向是多模态大模型和大模型安全, 在CVPR、NeurIPS、ICML等顶会发表多篇论文,曾主导开发了首个多模态大模型可信度全面评测基准MultiTrust ; 张思源 , 清 华大学计算机系一年级硕士生,导师是苏航副研究员,研究方向是大模型安全与对齐算法。本文通讯作者是清华大学人工智能学院 董胤蓬助理教授和计算机系朱军教授。 其他合作者来自北航、瑞莱智慧、阿里安全、百川智能等单位。 在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下, " 安全对齐 " 不再只是一个选项,而是每一位模型开 发者与AI落地者都必须正面应对的挑战。然而,如今广泛采用的对齐方式,往往 只是 让 模型在检测到 风险 提示时机械地回复一 句"很抱歉,我无法满足你的请求" ——这种表面看似"安全"的机制,实则脆弱不堪。ICLR 2025 杰出论文首次将这类方法命名为 "浅对齐(Shallow Alignment)" [1] :模型的预测分布仅在 回复 开头做出了 有效 偏移,却从未真正理解潜在的风险语义 。一旦 越狱提示换个包装,模 ...
从PPTV到PPIO,派欧云不止负债越来越高
Bei Jing Shang Bao· 2025-06-24 15:07
2018年PPTV创始人姚欣和前PPTV首席架构师王闻宇联合创立了PPIO派欧云(以下简称"派欧云"),近日这家采用轻资产运营模式的云计算公司赴港递表。 按2024年的相关营收计,派欧云在中国边缘云计算服务提供商中排名第七,市场份额4.1%,前三位分别是天翼云、移动云、阿里云,三家市场份额总计 36.5%。 和集中式云计算平台相比,分布式云计算更适合图像及音视频传输等应用场景,这会否限制这类平台的发展?见仁见智,但2022—2024年派欧云的销售成本 跟着营收一起增长,经调整净亏损小幅收窄又扩大66%,且负债总额和负债净额均逐年上涨、大客户依赖也是客观事实。 销售成本降不下来 根据计算资源的部署方式,云计算可分为集中式和分布式两种模式。 简单来说,集中式云将大量的计算能力集中于数量有限的大型数据中心,从集中的位置向广泛客户群提供计算、存储及网络服务。分布式云将云资源广泛分 布在不同网络层级及地理区域,特征是节点分散且海量。通过分散资源并将其定位于更接近最终用户的位置,可缩短数据传输距离并减少时延。派欧云就是 分布式云计算企业。 2022—2024年派欧云营收从2.86亿元涨到3.58亿元,再增至5.58亿元, ...
AI Lab最新InternSpatia:VLM空间推理数据集,显著提升模型能力
具身智能之心· 2025-06-24 14:09
背景与动机 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 当前视觉语言模型(VLMs)在空间推理任务(如物体位置/大小比较、多视角关系理解)中存在显著不 足。现有数据集存在三大局限: 点击下方 卡片 ,关注" 具身智能 之心 "公众号 核心贡献 作者丨 Nianchen Deng等 1. InternSpatial数据集 编辑丨具身智能之心 规模与结构 : 指令多样性 :支持19种指令格式(Table 1对比) 1. 场景单一性 :数据源集中于室内/室外场景(如SpatialVLM、OSD),缺乏驾驶、具身导航等多样化环 境; 2. 指令格式受限 :仅支持自然语言或区域掩码(如SpatialQA仅用文本,OSD依赖掩码),难以覆盖真实 应用中的多样化查询形式; 3. 多视角监督缺失 :现有数据聚焦单图推理(占比超90%),缺乏跨视角时空关系建模能力。 视觉格式 :原始图/带边界框图/掩码图/编号物体图(Figure 2示例) 1200万QA对(950万单视图 + ...
Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
机器之心· 2025-06-24 14:07
| 机器之心报道 | | --- | | 机器之心编辑部 | 普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。 近期,诸如「长思维链」等技术的兴起,带来了需要模型生成数万个 token 的全新工作负载。 大多数语言模型都基于 Transformer 架构,其在进行自回归解码(即逐字生成文本)时,需要将所有先前 token 的注意力状态存储在一个名为 KV 缓存的 内存区域中。 KV 缓存是模型进行快速推理的基石,但它的大小会随着输入文本的长度线性增长。例如,使用 Llama-3-70B 模型处理一个长度为 128K token 的提示 (这大约相当于 Llama 3 技术报告本身的长度),就需要分配高达 42GB 的内存专门用于存储 KV 缓存。 许多先前的工作意识到了这个问题,并提出了从内存中丢弃(驱逐)部分键值对的方法,以实现所谓的「稀疏注意力」。然而,在一个公平的环境下对它们 进行横向比较却异常困难。 生成过程 = 预填充(对输入进行前向传播并保存键值对)+ 后填充(一次解码一个输出词元)。 有些论文旨在加速预填充阶段;另一些则忽略该阶段,转而致力于最小化后填充阶段的内存开销。同样,有的研究侧 ...
研报 | 英伟达RTX PRO 6000特规版出货受市场关注,但存储器供应紧张成变数
TrendForce集邦· 2025-06-24 04:03
June 24, 2025 产业洞察 TrendForce集邦咨询 近期市场对于NVIDIA RTX PRO 6000系列产品的讨论声量高,预期在需求支撑下,整体出货将有不 俗表现。然而,TrendForce集邦咨询资深研究副总吴雅婷认为,该系列产品受限于存储器供应紧张等 因素,出货量是否能如市场期待,仍有变量。 TrendForce AI服务器 趋势分析 商业洞察 信息精选 TrendForce集邦咨询预期,NVIDIA RTX PRO 6000特规版将于今年下半年推出,吴雅婷分析, NVIDIA的存储器采购策略,为针对不同产品类别多元化供应商布局,HBM主要由SK hynix(SK海 力士)提供、Micron(美光科技)为第二供应商,在LPDDR类别以Micron为主要合作伙伴,GDDR 则仰赖Samsung(三星)供应。 | | HBM | LPDDR5x | GDDR7 | | --- | --- | --- | --- | | Key Supplier | SK hynix | Micron | Samsung | | Note | SK hynix 为主要供应商,但 2025年Micron供应NV ...
热乎出炉的面经,刚面完NVIDIA TRT LLM~
自动驾驶之心· 2025-06-23 11:34
作者 | 笑渐不闻声渐悄 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1918033580103282744 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『求职招聘』技术交流群 本文只做学术分享,如有侵权,联系删文 热乎出炉,刚面完Nvidia TRTLLM。本人bg是做llm推理加速的,主要在做speculative decoding,也 有一篇文章中了ICLR 2025。因为想继续做推理加速,所以尝试性的面了一下Nvidia,看能不能积累 connection。首先得吐槽一下这个面试机制:4位面试官一人面了我一个小时,整整连续面了4个小 时,面完感觉就是一个虚弱无力...然后简单聊一聊面试的问题 第一位面试官:自我介绍,讲一下自己的iclr 25关于spec的工作。面试官问的比较细致,从方法的 设置到evaluation都问到了,然后简单讲了一下自己nips 23的科研工作。感觉面试官对我的科研经 历还是比较满意,随后出了一道coding:n位数字插入任意数量的+,最后 ...
AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」
机器之心· 2025-06-23 07:44
本文共同第一作者为张均瑜与董润沛,分别为伊利诺伊大学厄巴纳-香槟分校计算机科学研究生与博士生;该研究工作在伊利诺伊大学厄巴纳-香槟分校张欢 教授与 Saurabh Gupta 教授,加州大学伯克利分校 Jitendra Malik 教授的指导下完成。 「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,Fast and Slow(2011) 在思维节奏这件事上,人类早已形成一种独特而复杂的模式。 他们提出了一种新的测试时推理调控框架—— AlphaOne ,主张让模型反其道而行:先慢速思考,再快速推理。 令人意外的是,这一策略不依赖任何额外训练,仅需在测试阶段引入一个全局推理调控超参数 α ,即可显著提升模型的推理准确率,同时让生成过程更加 高效紧凑。或许,是时候重新思考: AI 真的需要「像人类」那样思考吗? 看似聪明的推理,其实是不懂停下来的错觉 近年的大型推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,在复 ...
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
量子位· 2025-06-23 04:45
刘宗凯 投稿 量子位 | 公众号 QbitAI 具体的,相较基础模型QwenVL2.5-7B,基于CPGD和15k多模态数学数据MMK12训练的模型MM-Eureka-CPGD-7B在MMK12测试集 (包 括数学,以及训练数据分布外领域的物理、化学、生物) 上平均提升21.8%,在MathVista和MathVision等训练数据分布外领域上也分别提 升8.5%与11.4%,展现了优异的泛化能力。 模型规模扩展到MM-Eureka-CPGD-32B上则进一步在MMK12测试集上超越了o1,值得注意的是,尽管MM-Eureka-CPGD-32B只在数学数 据集上进行RL训练, 但在物理、化学和生物等学科均超过了o1 。 △ 不同模型在MMK12测试集中不同学科上的表现 今年2月,他们推出MM-Eureka系列是最早在多模态领域利用大规模Rule-based RL复现DeepSeek-R1关键能力(例如Visual aha- moment、稳定的回答长度增长)的工作之一,并将模型、代码、高质量多模态数据集MMK12、过程奖励模型MM-PRM全部开源,发布三个 月以来获得了学术界和开源社区广泛关注——模型已被下载 ...