Workflow
长上下文
icon
Search documents
Gemini 2.5 Pro 负责人:最强百万上下文,做好了能解锁很多应用场景
Founder Park· 2025-06-30 11:47
百万级别的长上下文 一直是 Gemini 系列相较于其他头部大模型的领先优势之一。 更长的上下文 ,带来的是可能产品交互的革新和完全不一样的应用落地场景。 长上下文当前的痛点,以及未来发展方向是什么? 谷歌 DeepMind 长上下文预训练联合负责人Nikolay Savinov 给出了两点预测:一是在当前百万级 token Context 模型质量还没有达到完美之前,盲目地追求更大规模地长上下文意义不大;二是随着成本下 降,千万级别的 token Context 很快会成为标准配置,对于编码等应用场景来说将是革命性的突破。 在近期谷歌的一档播客中,谷歌 DeepMind 资深研究科学家、长上下文预训练联合负责人Nikolay Savinov 与主持人 Logan Kilpatrick 对谈,分享了Gemini 2.5 长上下文技术的核心、与 RAG 之间的关 系、当前的研究瓶颈、以及未来的发展方向等。 对于开发者来说,强烈推荐一读。 TLDR: 在当前百万 token 上下文 远还没有达到完美之前,盲目追求更大规模的长上下文 意义不大。 理解 in-weights memory 和 in-context m ...
Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
机器之心· 2025-06-24 14:07
| 机器之心报道 | | --- | | 机器之心编辑部 | 普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。 近期,诸如「长思维链」等技术的兴起,带来了需要模型生成数万个 token 的全新工作负载。 大多数语言模型都基于 Transformer 架构,其在进行自回归解码(即逐字生成文本)时,需要将所有先前 token 的注意力状态存储在一个名为 KV 缓存的 内存区域中。 KV 缓存是模型进行快速推理的基石,但它的大小会随着输入文本的长度线性增长。例如,使用 Llama-3-70B 模型处理一个长度为 128K token 的提示 (这大约相当于 Llama 3 技术报告本身的长度),就需要分配高达 42GB 的内存专门用于存储 KV 缓存。 许多先前的工作意识到了这个问题,并提出了从内存中丢弃(驱逐)部分键值对的方法,以实现所谓的「稀疏注意力」。然而,在一个公平的环境下对它们 进行横向比较却异常困难。 生成过程 = 预填充(对输入进行前向传播并保存键值对)+ 后填充(一次解码一个输出词元)。 有些论文旨在加速预填充阶段;另一些则忽略该阶段,转而致力于最小化后填充阶段的内存开销。同样,有的研究侧 ...
MiniMax的好日子来了?
Hu Xiu· 2025-06-18 09:41
MiniMax 四处突围,终于撞上了自己的"好日子"。 昨天凌晨,MiniMax正式开源它们的第一个推理模型M1,这款模型虽然在各项基准测试中表现"相貌平平",却拥有业界最长的上下文能力: 100万token输入,8万token输出。除了高调开源M1,另一个消息正在各大AI社区传播:MiniMax正在邀请用户测试它们的通用Agent。 在错失推理模型先发优势后,这家曾被认为是AI六小龙中最稳健的公司,想在下一程赢回来。 现在,它们终于等到了一个正在急剧缩短的时间窗口——Agent爆火的2025年。 那么,MiniMax这回推出的M1以及正在内测的Agent到底实力如何?是否还能在明星AI初创公司和大厂的强敌环伺下"正面突围"? "直面AI"实际上手体验了下,并深度解读了这次的技术报告,"挖出了些"背后的东西。 一、上下文 + Agent能力是新模型的核心 接下来,我们实地测试下MiniMax M1推理模型和MiniMax Agent。 先来说下M1推理模型,它给我的第一个感受就是推理链很长,这其实与最近国产开源的几个前沿大模型的表现很相似,像是前段时间的Qwen 系列以及DeepSeek的最新小版本。它们透露 ...
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 02:32
Core Insights - MiniMax has officially open-sourced its latest large language model, MiniMax-M1, marking a significant development in the AI landscape [2][4] - MiniMax-M1 is recognized as the world's first open-weight large-scale hybrid attention inference model, showcasing substantial breakthroughs in performance and inference efficiency [4][6] Model Specifications - MiniMax-M1 features a parameter scale of 456 billion, with each token activating approximately 45.9 billion parameters, and supports a maximum context length of 1 million tokens, which is 8 times longer than that of DeepSeek R1 [7][12] - The model's computational load (FLOPs) for generating 100,000 tokens is only 25% of that required by DeepSeek R1, indicating a significant advantage in long text processing tasks [7][12] Training and Efficiency - The training of MiniMax-M1 utilized a large-scale reinforcement learning (RL) strategy, optimizing performance across various tasks, including mathematical reasoning and software engineering [9][11] - The complete RL training of MiniMax-M1 was accomplished in three weeks using 512 H800 GPUs, with a cost of approximately $534,700, demonstrating high efficiency and cost-effectiveness [11] Performance Comparison - MiniMax-M1 is available in two versions, with maximum generation lengths of 40K and 80K tokens, and has shown superior performance in complex software engineering, tool usage, and long-context tasks compared to leading open-weight models like DeepSeek-R1 and Qwen3-235B [12][19] - In benchmark tests, MiniMax-M1 outperformed other models in various categories, including long-context understanding and tool usage, establishing itself as a strong contender in the AI model landscape [19]
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 03:40
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
多模态长文本理解测评首发:46款模型无一攻克128K难关
量子位· 2025-05-23 06:14
MMLongBench团队 投稿 量子位 | 公众号 QbitAI 多模态长文本理解 有综合性的评判标准了! 来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了 MMLongBench ,旨在全面评估多模态模型 的长文本理解能力。 随着多模态大模型的单次推理的文本窗口快速提升,长上下文视觉-语言模型(Long-Context Vision-Language Models; LCVLMs)应运而 生,使模型能够在单次推理中处理数百张图像与较长的交错文本。 但当前,由于评估多模态长文本的基准测试稀缺,现有的测试集仅关注单个任务,比如大海捞针或者长文档问答。目前尚不清楚现有的模型在 长上下文环境下的 综合表现 ,具体在哪些任务上存在短板,以及它们对不同输入长度变化的适应能力究竟如何。 结果显示,无论闭源还是开源模型,在长上下文视觉-语言任务上都面临较大挑战 ,仍有巨大的提升空间。 此外,进一步的错误分析表明,(1) OCR能力和 (2) 跨模态检索能力仍然是当前LCVLMs在处理长文本时的瓶颈。 多任务多模态长文本测试集 多任务的数据构建 MMLongBench是一个 ...