Workflow
上下文
icon
Search documents
Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
机器之心· 2025-06-24 14:07
| 机器之心报道 | | --- | | 机器之心编辑部 | 普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。 近期,诸如「长思维链」等技术的兴起,带来了需要模型生成数万个 token 的全新工作负载。 大多数语言模型都基于 Transformer 架构,其在进行自回归解码(即逐字生成文本)时,需要将所有先前 token 的注意力状态存储在一个名为 KV 缓存的 内存区域中。 KV 缓存是模型进行快速推理的基石,但它的大小会随着输入文本的长度线性增长。例如,使用 Llama-3-70B 模型处理一个长度为 128K token 的提示 (这大约相当于 Llama 3 技术报告本身的长度),就需要分配高达 42GB 的内存专门用于存储 KV 缓存。 许多先前的工作意识到了这个问题,并提出了从内存中丢弃(驱逐)部分键值对的方法,以实现所谓的「稀疏注意力」。然而,在一个公平的环境下对它们 进行横向比较却异常困难。 生成过程 = 预填充(对输入进行前向传播并保存键值对)+ 后填充(一次解码一个输出词元)。 有些论文旨在加速预填充阶段;另一些则忽略该阶段,转而致力于最小化后填充阶段的内存开销。同样,有的研究侧 ...
亚马逊云科技大中华区总裁储瑞松:企业实现 Agentic AI 价值的关键在于三大技术准备
AI前线· 2025-06-22 04:39
作者 | 褚杏娟 "我们正处在 Agentic AI 爆发的前夜。"在亚马逊云科技中国峰会上,亚马逊全球副总裁、亚马逊云科 技大中华区总裁储瑞松说道。他表示,过去一年,机器智能已经爆发了,如今 AI 的发展又来到了一 个拐点, "在过去一年,大模型的能力在各个维度都实现了跨越式发展。就连在 2025 年 1 月推出的 HLE — Humanity's Last Exam 上,模型正确率也从刚开始的个位数,迅速发展到如今已经超过 20%。"储瑞 松说道。正如历史上蒸汽机的出现放大和解放了人和动物的肌肉力量,通过在纺织、交通、采矿和冶 炼等领域的应用带来了工业革命。机器智能的爆发则放大和解放了人的大脑智力,其应用也将带来下 一场革命:Agentic AI 的革命。 储瑞松通俗地解释道,Agentic AI 就是 AI 从"我问 AI 答","我说 AI 写",发展到"我说 AI 做"。AI 驱 动的数字员工将像人一样,在各行各业,为企业工作。 Agentic AI 为何爆发 在储瑞松看来,Agentic AI 爆发的原因是多重因素交织的,具体看主要源于以下几个方面。 第一,过去两年多,大模型能力的发展日新月异,已 ...
MiniMax的好日子来了?
Hu Xiu· 2025-06-18 09:41
MiniMax 四处突围,终于撞上了自己的"好日子"。 昨天凌晨,MiniMax正式开源它们的第一个推理模型M1,这款模型虽然在各项基准测试中表现"相貌平平",却拥有业界最长的上下文能力: 100万token输入,8万token输出。除了高调开源M1,另一个消息正在各大AI社区传播:MiniMax正在邀请用户测试它们的通用Agent。 在错失推理模型先发优势后,这家曾被认为是AI六小龙中最稳健的公司,想在下一程赢回来。 现在,它们终于等到了一个正在急剧缩短的时间窗口——Agent爆火的2025年。 那么,MiniMax这回推出的M1以及正在内测的Agent到底实力如何?是否还能在明星AI初创公司和大厂的强敌环伺下"正面突围"? "直面AI"实际上手体验了下,并深度解读了这次的技术报告,"挖出了些"背后的东西。 一、上下文 + Agent能力是新模型的核心 接下来,我们实地测试下MiniMax M1推理模型和MiniMax Agent。 先来说下M1推理模型,它给我的第一个感受就是推理链很长,这其实与最近国产开源的几个前沿大模型的表现很相似,像是前段时间的Qwen 系列以及DeepSeek的最新小版本。它们透露 ...
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 02:32
Core Insights - MiniMax has officially open-sourced its latest large language model, MiniMax-M1, marking a significant development in the AI landscape [2][4] - MiniMax-M1 is recognized as the world's first open-weight large-scale hybrid attention inference model, showcasing substantial breakthroughs in performance and inference efficiency [4][6] Model Specifications - MiniMax-M1 features a parameter scale of 456 billion, with each token activating approximately 45.9 billion parameters, and supports a maximum context length of 1 million tokens, which is 8 times longer than that of DeepSeek R1 [7][12] - The model's computational load (FLOPs) for generating 100,000 tokens is only 25% of that required by DeepSeek R1, indicating a significant advantage in long text processing tasks [7][12] Training and Efficiency - The training of MiniMax-M1 utilized a large-scale reinforcement learning (RL) strategy, optimizing performance across various tasks, including mathematical reasoning and software engineering [9][11] - The complete RL training of MiniMax-M1 was accomplished in three weeks using 512 H800 GPUs, with a cost of approximately $534,700, demonstrating high efficiency and cost-effectiveness [11] Performance Comparison - MiniMax-M1 is available in two versions, with maximum generation lengths of 40K and 80K tokens, and has shown superior performance in complex software engineering, tool usage, and long-context tasks compared to leading open-weight models like DeepSeek-R1 and Qwen3-235B [12][19] - In benchmark tests, MiniMax-M1 outperformed other models in various categories, including long-context understanding and tool usage, establishing itself as a strong contender in the AI model landscape [19]
近期必读!Devin VS Anthropic 的多智能体构建方法论
歸藏的AI工具箱· 2025-06-15 08:02
播客内容由 listenhub 生成,懒得看的话也可以听 昨天最热的的两篇文章是关于多智能体系统构建的讨论。 先是 Anthropic 发布了他们在深度搜索多智能体构建过程中的一些经验,具体:包括多智能体系统的优势、架构概览、提示工程与评估、智能体的有效评估等方 面。 另外一边 Devin 的开发商 Cognition 的一个负责人 Walden 发布文章告诫大家不要构建多智能体,指出一些常见但实际效果不佳的方法,特别是多智能体架构的弊 端。 这篇文章主要就是结合两篇文章看一下 Cognition 提到的多智能体架构弊端和 Anthropic 给出的解决方案 。同时后面也会有两篇文章非常详细的总结。 什么是多智能体 多智能体系统由多个智能体(大型语言模型 [LLM] 自主地循环使用工具)协同工作组成。 在这种系统中,一个主智能体(或协调器)会根据用户查询规划研究过程,然后使用工具创建并行操作的子智能体,这些子智能体同时搜索信息。这种架构允许主 智能体协调整个过程,同时将任务委托给专门的子智能体。 所以具体的步骤一般为: 1. 将工作分解为多个部分 首先是领域选择: 他们将多智能体系统应用于他们认为特别适合并行 ...
AI会颠覆谷歌搜索吗?
新财富· 2025-06-09 08:04
本文约 4300 字,推荐阅读时长 16 分钟,欢迎关注新财富公众号。 2025年一年一度的谷歌I/O大会在5月20日正式落幕。 与以往不同的是,谷歌并没有选择在本次I/O大会上花大篇幅介绍他们最顶尖的AI大模型Gemini 2.5 Pro/Flash 有多么的"超神",而是选择用无数个案例与实机演示,向全球观众展示了一套完整的"AI生 活指南"。 今年的I/O大会可以用这么一句话来概括:量大管饱,不秀肌肉秀技巧。 在每次谷歌大会之前,OpenAI都会发布产品来"狙击"谷歌。但今年OpenAI似乎黔驴技穷了,只推出 了CodeX这样一款不那么领先的编程Agent产品。人们说这一次,谷歌终于找回了自己的脸面,进入 了自己的节奏。 谷歌的龙场悟道,是因为它们重新捡起了自己的拿手绝活——应用生态。 看完了谷歌整场发布会,我们发现谷歌真正想做的,是将AI渗透到每一个C端的生态场景之中,并最 终依靠AI应用的全面包围,自下而上搭地重新建立一个新时代的操作系统。 而在这一方面,谷歌目前没有对手。 0 1 为什么只有谷歌能做到? 2025 年 5 月,苹果高级副总裁 Eddy Cue 在美国司法部针对 Alphabet 提 ...
深度|2.5亿美元估值AI笔记Granola创始人:AI使用习惯正在重构我们的直觉;AI的作用应是增强而非替代人类
Z Potentials· 2025-06-02 04:18
AI 是新时代的思维工具 Patrick : Chris ,我觉得一个很好的开场方式是谈谈你对 " 思维工具 " 这一理念的理解,也就是技术在过去几个世纪里为人类提供的认知工具。显然你正 在构建的就是这类工具之一。我们稍后会深入探讨,但我们第一次交流时,你用 x-y 坐标图作为例子来说明这种 " 思维工具 " 的价值,我当时非常着迷。 也许你可以随意讲讲你对这个方向的思考,以及你为什么如此着迷于它。 Chris : 我非常喜欢这个话题。我认为人类本质上就是 " 制造工具的动物 " ,这是让我们区别于其他动物的关键点之一。回顾历史,有很多发明确实是让 人类能做得更多的工具。其中有一些就是明确的 " 思维工具 " ,比如文字、数学符号。比如罗马数字的计算非常有限,离开算盘的话你很难算到大的数 字。 而我们现在使用的十进制记数法,可以让你轻松进行大数的长除法。还有一个我最喜欢的例子,就是数据可视化。你提到的 Playfair ,那位叫 William Playfair 的人,大概 200 年前,他第一次用图形化方式来展示数据,让人可以用眼睛 " 看 " 到数据。 图片来源: Invest Like the Best ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 03:40
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
多模态长文本理解测评首发:46款模型无一攻克128K难关
量子位· 2025-05-23 06:14
MMLongBench团队 投稿 量子位 | 公众号 QbitAI 多模态长文本理解 有综合性的评判标准了! 来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了 MMLongBench ,旨在全面评估多模态模型 的长文本理解能力。 随着多模态大模型的单次推理的文本窗口快速提升,长上下文视觉-语言模型(Long-Context Vision-Language Models; LCVLMs)应运而 生,使模型能够在单次推理中处理数百张图像与较长的交错文本。 但当前,由于评估多模态长文本的基准测试稀缺,现有的测试集仅关注单个任务,比如大海捞针或者长文档问答。目前尚不清楚现有的模型在 长上下文环境下的 综合表现 ,具体在哪些任务上存在短板,以及它们对不同输入长度变化的适应能力究竟如何。 结果显示,无论闭源还是开源模型,在长上下文视觉-语言任务上都面临较大挑战 ,仍有巨大的提升空间。 此外,进一步的错误分析表明,(1) OCR能力和 (2) 跨模态检索能力仍然是当前LCVLMs在处理长文本时的瓶颈。 多任务多模态长文本测试集 多任务的数据构建 MMLongBench是一个 ...