GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力
量子位·2026-02-10 07:00
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 不管Pony Alpha是不是智谱的,下一代旗舰大模型 GLM-5 都要来了。 GitHub代码确认,新一代架构细节曝光。 GLM-5采用了DeepSeek-V3/V3.2架构,包括稀疏注意力机制 (DSA)和多Token预测(MTP) ,总参数量745B,是上一代GLM-4.7的2 倍。 | 98 | + | | | --- | --- | --- | | ਰੇਰੇ | | | | | - | if model_arch == "DeepseekV32ForCausalLM": | | 100 | + | if model arch in ["DeepseekV32ForCausalLM", "GlmMoeDsaForCausalLM"]: | | 101 | | from vllm.platforms import current_platform | | 102 | | | | 103 | | capability = current platform.get device capability() | | | ) vllm/config/specu ...