推理

Search documents
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 04:49
R-KV团队 投稿 量子位 | 公众号 QbitAI 推理大模型虽好,但一个简单的算数问题能推理整整三页,还都是重复的"废话",找不到重点…… 一种可以把大模型的"碎碎念"转化为可控记忆条目的高效压缩方法,出现了! R-KV开源登场: 显存↓90%、吞吐×6.6、准确率=100% 。 它可以通过实时对token进行排序,兼顾重要性和非冗余性,仅保留信息丰富且多样化的token,从而解决大模型推理时的冗余问题。 让"长时间推理"不再是奢侈品。 项目详情可见文末链接。 R-KV三步走:冗余识别+重要性评估+动态淘汰 链式思考(Chain-of-Thought,CoT)让LLM解题思路清晰可见,却也让推理长度指数级膨胀。 以DeepSeek-R1-Llama-8B为例,一道AIME数学题就能写出 3.2万 个Token:模型权重15.5GB,KV缓存再吃 4.1GB ——显存瞬间见底。 可视化:R-KV vs. SnapKV 现有KV压缩方法(SnapKV、StreamingLLM、H2O等)主要针对 长输入 设计,可一旦模型在输出端开始"碎碎念",相似句子之间互相打高 分注意力,反而让"按注意力删低分"策略失灵: ...
深度|黄仁勋:人形机器人或成下个万亿产业,华为的技术可能已相当于H200
Z Potentials· 2025-06-14 03:58
图片来源: Bloomberg Z Highlights : 黄仁勋( Jensen Huang )是 Nvidia 的创始人。 Nvidia 不仅推动 GPU 在深度学习领域的应用革命,也在自动驾驶、机器人、人形智能体等多个前沿科技领 域持续创新。黄仁勋不仅回应了中国市场受限对业务的影响,也罕见表达了对特朗普政策的积极态度,并分享了与马斯克在 AI 、人形机器人领域的合作构 想。本文是 Bloomberg 记者 Harrison 与黄仁勋的访谈实录,访谈播客于 2025 年 5 月播出。 中美 AI 博弈下的战略调整: Nvidia 在中国的挑战与坚持 采访者: 您刚才详细谈到了中国市场的现状,但我想回到一个尚未被充分提及的问题 —— 您第二财季的销售额为 450 亿美元,上下浮动 2% 。其中,与 中国市场及 H20 芯片相关的收入损失约为 80 亿美元。看起来您似乎通过其他产品、其他地区或不同市场需求的增长弥补了这一部分损失。具体情况是怎 样的? 黄仁勋: 我们现在其实是 " 多引擎齐发 " 。其中最强劲的引擎当然是推理型人工智能,其市场需求已经远超想象。你可以看到各种 AI 服务如今都非常受 欢迎,例 ...
对抗英伟达,AMD的另一把利器
半导体行业观察· 2025-06-14 03:09
公众号记得加星标⭐️,第一时间看推送不会错过。 来源:内容来自 techradar,谢谢 。 AMD 在 AI 性能主导地位的竞争中仍然落后于 Nvidia。 AMD最近在人工智能领域的举措都围绕战略收购,旨在加强其在主要由Nvidia主导的市场中的地 位。 其中包括收购 Brium、Silo AI、Nod.ai以及 Untether AI 的工程团队,每个收购都旨在增强 AMD 的 AI 软件、推理优化和芯片设计能力。 目标很明确:缩小 AMD Instinct GPU 和 Nvidia Blackwell 系列之间的性能和生态系统差距。 竞争激烈的生态系统中的精明收购 AMD 将收购 Brium 描述为增强其 AI 软件能力的关键一步。 该公司表示:"Brium 带来了先进的软件功能,增强了我们在整个堆栈中提供高度优化的 AI 解决方 案的能力。" Brium 的优势在于编译器技术和端到端 AI 推理优化,这些领域对于实现更好的开箱即用性能以及使 AMD 的软件堆栈减少对特定硬件配置的依赖至关重要。 虽然这是一个强有力的技术案例,但它也表明 AMD 在 AI 软件生态系统中仍在追赶,而不是领先。 Briu ...
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 06:42
采访嘉宾|尹良升,SGLang 核心开发者 编辑|罗燕珊 2025 年 5 月, SGLang 提出了第一个完全开源的 DeepSeek 大规模专家并行部署方案,该方 案也是目前开源实现中唯一能够复现官方博客所述推理性能和成本的方案。 近日,InfoQ 专访了 SGLang 核心开发者尹良升 ,他分享了该项目背后的关键技术、工程挑战 与社区生态,以及如何在大模型推理中实现性能与成本的平衡。从 PD 分离架构带来的尾延迟控 制,到推测解码提升 Token 生成速度,再到 KV 缓存落盘在多轮对话中的显存优化——这些关键 能力使 SGLang 成为支持低成本、大规模模型部署的高性能推理引擎。 尹良升,现就读于上海交通大学 ACM 班,即将前往加州大学伯克利分校 Sky Computing 攻读计 算机博士学位。他是 SGLang 最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优 化。 6 月 27~28 日,在即将于北京举办的 AICon 全球人工智能开发与应用大会上,尹良升将发表演 讲《SGLang 推理引擎——高效的开源部署方案》,将深入解析前沿大模型推理关键技术,并探 讨其在实际应用中的优化 ...
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 05:07
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
量子位· 2025-06-13 05:07
SafeKey团队 投稿 量子位 | 公众号 QbitAI 大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。 尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的"越 狱"攻击时,往往显得捉襟见肘,泛化能力有限。 同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。 来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的 SafeKey 框架,成功在不影响模型核心 能力的前提下,显著增强了其安全稳健性。 如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。 而紧随其后的 第一个句子 ,往往直接决定了整个回答的"安全调性"。 研究团队将其命名为" 关键句 "(Key Sentence):一个安全的"顿悟时刻"(Aha-moment)能否在此时被触发,是模型走向安全回答还是危 险回答的分水岭。 发现:大模型信息"越狱"的两大核心 SafeKey团队在探究模型为何会"越狱"成功时,获得了两大核心发现: 1."关键句"现 ...
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 02:25
西风 发自 凹非寺 量子位 | 公众号 QbitAI 该测试引来 OpenAI前A GI Readine ss团队负责人Miles Brundage 的转发关注。 OpenAI"最新最强版"推理模型 o3-pro ,实际推理能力到底有多强? 全球 首位全职提 示工程师Riley Go odside 来给它上难度: 说出歌手Sabrina Carpenter的一首歌的歌名,回答这个问题时, 每个单词最后一个字母连起来看,也能对应这首歌名 。 结果,o3-pro在经过4分25秒的推理过后,成功给出正确答案。 经Sabrina Carpenter实测, o3只能做对个大概 ,通常只能把最后几个字母凑对。 虽然人已经不在OpenAI了,但Miles Brundage还是替老东家直接开大阴阳苹果:如果这都不叫推理那什么叫推理。 PS: 苹果前几天发了个新研究 ,用汉诺塔等四个小游戏测试大模型,称推理模型全都没在真正思考,只是另一种形式的"模式匹配",所谓思 考只是一种假象。 除了网友实测外,各大评测榜单已陆续同步更新排名。 总结来看,和官方给的测试结果略有不同。 官方测评中,o3-pro超越o3、o1-pro,成为当前 ...
不靠价格战,豆包大模型靠技术杀出重围
Jing Ji Guan Cha Wang· 2025-06-12 13:51
Core Insights - ByteDance's subsidiary Volcano Engine launched new AI models, including Doubao 1.6 and Seedance 1.0 pro, at the Force Original Power Conference, marking a significant step towards the Agentic AI era [1][2] - The Doubao model has achieved a daily token usage of over 16.4 trillion, a 137-fold increase since its initial release, and holds a 46.4% market share in China's public cloud model market [1][2] - The company emphasizes long-term investment in technology innovation to enhance industrial applications and maintain a competitive edge in the AI landscape [2][13] Product Development - Doubao 1.6 supports multi-modal understanding and graphical interface operations, allowing it to perform tasks such as booking hotels and organizing receipts into Excel [3][5] - Seedance 1.0 pro can generate high-quality 1080P videos with seamless transitions, ranking first globally in video generation tasks [3][5] - The introduction of a pricing model based on input length significantly reduces costs, making advanced AI capabilities more accessible to enterprises [5][8] Market Positioning - Doubao models are utilized by 9 out of the top 10 global smartphone manufacturers, 80% of mainstream automotive brands, and 70% of systemically important banks in China [2][6] - The rapid growth in token consumption across various applications indicates a deepening integration of AI models in multiple industries, including finance, automotive, and education [4][6] Strategic Vision - The company aims to redefine the role of AI in business processes, transitioning from traditional software to Agent-based systems that enhance productivity [13][16] - ByteDance's commitment to technology innovation and cost reduction reflects a balanced approach to achieving commercial success while addressing social responsibilities [14][15] Industry Impact - The rise of Agentic AI is seen as a pivotal moment for digital transformation across industries, with the potential to reshape business processes and industry dynamics [16] - ByteDance's advancements in AI technology are expected to drive significant changes in how enterprises operate, enhancing efficiency and fostering innovation [16]
专为实际应用场景设计,旨在追赶美中,欧洲首个AI推理模型来了
Huan Qiu Shi Bao· 2025-06-11 22:33
但据科技行业媒体"TechCrunch"网站10日报道,米斯特拉尔在开发推理模型方面仍相对落后。报道提到,从米斯特拉尔自己的基准测试来看, Magistral似乎不是特别具有竞争力。在评估模型物理、数学和科学能力的测试中,Magistral Medium的表现逊于谷歌的Gemini 2.5 Pro和美国AI初创 企业Anthropic的Claude Opus 4。在流行的编程基准测试上,Magistral Medium也未能超越Gemini 2.5 Pro。报道推测,或许正因如此,米斯特拉尔 在其博客文章中强调了Magistral的其他优势。米斯特拉尔声称,Magistral在Le Chat(类似ChatGPT的聊天机器人平台)上的回答速度是竞争对手 的"10倍",并支持包括意大利语、阿拉伯语、俄语和简体中文在内的多种语言。 据路透社报道,随着单纯依靠增加数据和算力来构建更大规模语言模型的传统方法开始显现局限,推理模型可能成为提升AI能力的重要突破方 向。虽然美国科技企业OpenAI和谷歌等早已发布推理模型,中国深度求索公司(DeepSeek)也强势崛起成为有力竞争者,但米斯特拉尔推出的推 理模型标志着欧洲在 ...
获沙特15亿美元投资,Groq专注以垂直整合策略打造AI推理基础设施
3 6 Ke· 2025-06-11 09:42
尽管NVIDIA的市值目前稳居美国股市前三,但其市场地位已经不如之前那么稳固。一个标志性的事件,是Google使用TPU芯片(张量处理单元),训练 出了Gemini 2.5 Pro这个SOTA通用模型,打破了SOTA模型主要由NVIDIA GPU训练的垄断。 在市场更大的推理计算市场,NVIDIA的领先相对就更小;它不光面对AMD,Google,华为等大厂的竞争,还有一票创业公司,用各种各样或性能更优, 或能耗更低的推理芯片和它竞争,包括但不限于D-Matrix、Etched、Recogni、Lightmatter等。在这批创业公司中,发展得较好得是Groq。 在2024年早些时候,Groq完成由贝莱德(BlackRock)领投的6.4亿美元融资,Neuberger Berman、Type One Ventures、思科、KDDI和三星催化基金也参与了 此次融资。这一融资使得Groq的总融资金额超过10亿美元,公司估值达到28亿美元。 此外,在那次融资后Meta的首席AI科学家Yann LeCun加入Groq,担任技术顾问;而英特尔前晶圆厂业务负责人、惠普前CIO Stuart Pann加入Groq担任首席 ...