Workflow
HullKVCache
icon
Search documents
卡帕西点赞Transformer内置计算机!每秒3万Token吞吐,拿下世界最难数独
量子位· 2026-03-17 06:10
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI LLM推理已经顶尖,精确计算却跟不上。 这局怎么破? 卡帕西点赞的解决方法来了, 在大模型内部构建一台原生计算机 。 甚至有些还能挑战人类还未解决的数学问题与科学问题。 但有一个始终无法回避的现实是,这些模型在需要 多步骤、长上下文的精确计算任务 中,仍然表现惨淡。 为了弥补这个短板,现在行业上有两种主流的解决方案。 一是 工具调用 ,让模型生成脚本,由外部沙箱解释器执行后返回结果; 新方法不搞外包那一套 (不依赖任何外部工具) ,直接在Transformer权重里内嵌可执行程序。 并通过创新的2维注意力头设计,将大模型的推理效率提升至指数级。 能在普通CPU上实现每秒3万+Token的流式输出。 在Transformer内嵌原生计算机 咱都知道,当前最先进的大模型,拿下奥赛金牌已经不足为奇了。 二是 智能体调度 ,通过外部状态机拆分计算任务,循环调用模型处理上下文。 首先,他们在Transformer权重中实现了一套 现代化RAM计算机与WebAssembly解释器 。 WebAssembly可以理解成一种特别快、特别稳定的底层机器指令,C、C++这些编 ...