HullKVCache - filings, earnings calls, financial reports, news - Reportify

HullKVCache

Search documents

卡帕西点赞Transformer内置计算机！每秒3万Token吞吐，拿下世界最难数独

量子位· 2026-03-17 06:10

闻乐发自凹非寺量子位 | 公众号 QbitAI LLM推理已经顶尖，精确计算却跟不上。这局怎么破？卡帕西点赞的解决方法来了，在大模型内部构建一台原生计算机。甚至有些还能挑战人类还未解决的数学问题与科学问题。但有一个始终无法回避的现实是，这些模型在需要多步骤、长上下文的精确计算任务中，仍然表现惨淡。为了弥补这个短板，现在行业上有两种主流的解决方案。一是工具调用，让模型生成脚本，由外部沙箱解释器执行后返回结果；新方法不搞外包那一套（不依赖任何外部工具），直接在Transformer权重里内嵌可执行程序。并通过创新的2维注意力头设计，将大模型的推理效率提升至指数级。能在普通CPU上实现每秒3万+Token的流式输出。在Transformer内嵌原生计算机咱都知道，当前最先进的大模型，拿下奥赛金牌已经不足为奇了。二是智能体调度，通过外部状态机拆分计算任务，循环调用模型处理上下文。首先，他们在Transformer权重中实现了一套现代化RAM计算机与WebAssembly解释器。 WebAssembly可以理解成一种特别快、特别稳定的底层机器指令，C、C++这些编 ...

大模型精确计算

2维注意力头设计

Artificial Intelligence

大模型精确计算

2维注意力头设计

Artificial Intelligence