Long Context

Search documents
重塑记忆架构:LLM正在安装「操作系统」
机器之心· 2025-07-16 04:21
机器之心报道 编辑:冷猫 超长上下文窗口的大模型也会经常「失忆」,「记忆」也是需要管理的。 众所周知,现代大型语言模型(LLM)的上下文窗口普遍有限 —— 大多数模型只能处理数千到数万 token,比如早期的 GPT-3 仅有~2,048 token。虽然近期有些模 型已经拓展到了百万级甚至千万级 token 窗口(如 Meta 的 Llama 4 Scout 宣称可达 1,000 万 token)。 图中显示了 LLM 上下文窗口大小的演变。 注意: token 数量为近似最大值。「 GPT-4.1 」指的是 2025 年 4 月更新的 GPT-4 ,「 Scout 」是专为长上下文设计的 17B 参数 Llama 4 变体。 LLM 存在一个内在的「记忆缺陷」,即拥有的上下文窗口是有限的,这严重限制了它们在多轮次、多会话的长期交互中维持一致性的能力。 也因此,现代 LLM 普遍难以维持长期记忆。这对很多应用来说实在相当不妙,毕竟记忆是实现反思和规划的关键,也是智能体系统不可或缺的重要组成部分。 基于 LLM 的自主智能体系统概况图,图源 Lil'Log https://lilianweng.github. ...
53万美金训练出顶级AI?揭秘MiniMax的「省钱」绝招
3 6 Ke· 2025-06-20 00:11
Core Insights - MiniMax has launched the world's first large-scale hybrid architecture inference model, MiniMax-M1, which has quickly become one of the top two open-source models globally [1][2] - The MiniMax-M1 model has two versions, MiniMax-M1-40k and MiniMax-M1-80k, with the latter outperforming the former in complex mathematical and coding tasks [2] Model Performance - MiniMax-M1 has gained significant attention in the global tech sector, featuring prominently in major overseas media outlets and discussions on international social platforms [2] - The model demonstrates superior performance across 17 industry-standard evaluation sets, achieving 55.6% and 56.0% on the SWE-bench verification benchmark for MiniMax-M1-40k and MiniMax-M1-80k, respectively [6] - MiniMax-M1 supports the longest context input of 1 million tokens, matching the capabilities of Google Gemini 2.5 Pro and significantly exceeding other models [8][11] Technical Innovations - The model incorporates a unique Lightning Attention neural network architecture and a new reinforcement learning algorithm, CISPO, which reduces training costs to approximately $537,000 [12][22] - The Lightning Attention mechanism allows for linear complexity in processing long sequences, significantly improving efficiency compared to traditional transformer architectures [15][16] Application and Usability - MiniMax-M1 excels in agent tool usage scenarios, leading all open-weight models in the TAU-bench evaluation, which assesses agent capabilities in complex real-world tasks [24] - The model allows developers to describe tool functionalities in a simple XML format, enabling automatic understanding and code generation without extensive prior knowledge [25] Strategic Implications - The open-sourcing of MiniMax-M1 provides a new perspective for the industry, emphasizing the importance of continuous evolution of foundational models for the successful deployment of AI agents [26][27] - MiniMax's focus on business-centric technology development enhances confidence in AI solutions among enterprises, potentially leading to significant growth in the AI market by late 2025 [27][28]
AI创业效率预警:“立即行动”
Di Yi Cai Jing· 2025-06-04 07:16
如果创业者不抢占先机,别人就会。 "立即行动。" 近日,人工智能数据云公司Snowflake(SNOW.N)峰会上,OpenAICEO山姆·奥尔特曼(Sam Altman) 呼吁创业者群体迅速行动,因为他认为2026年将是AI驱动发现的关键年。 奥尔特曼现场表示,过去用户可能习惯了让AI帮忙查资料、润色句子、写段代码,顶多是个帮手。但 在明年的部分场景中,AI将开始帮助人类解决原本解不出的难题。 执行过程中,AI Agent(智能体)成为当下AI落地的重要方式。当大模型成为AI时代的基础设施, Agents将走向哪里?这也是红杉中国近期一场面向企业CEO与技术高管峰会提出的核心问题。 红杉中国合伙人周逵结合近期同样具备热度的具身智能概念表示:无论是"硬"的机器人还是软 的"Agent",共同特点都是在获得信息同时有进一步交付的能力。企业选择Leval 2还是Leval 4的智能目 标,导致的智能能力和商业结果大不相同。 工具属性逐渐落地 "提效"是普通用户对AI的普遍认知,更细化场景中,AI正在带来不同行业场景下的差异性结果。 Revelio Labs是一家专注于劳动力市场数据分析的美国金融科技公司,据该公司 ...