“全球大模型第一股”智谱发布GLM-5技术报告,技术细节全公开

2月22日,"全球大模型第一股"智谱发布了最新一代基础模型GLM-5的技术报告,披露了GLM-5实现性能大 幅跃升的技术细节。 GLM-5是一款旨在推动编程范式从"Vibe Coding"(氛围编程)转向"Agentic Engineering"(智能体工程)的 下一代基础模型,其在编程能力与智能体能力上的表现出色。 据智谱介绍,GLM-5能够实现性能的大幅跃升,主要得益于以下四大技术创新: 第一、更高效的模型"大脑"。引入 DSA 稀疏注意力机制(DeepSeek Sparse Attention, DSA)。这一全新架 构极大降低了训练与推理成本。此前的 GLM-4.5依赖标准 MoE 架构提升效率,而 DSA 机制则使 GLM-5能 够根据 Token 的重要性动态分配注意力资源。在不折损上下文理解和推理深度的前提下,算力开销得以大 幅削减。得益于此,智谱将模型参数规模成功扩展至744B(7440 亿),同时将训练 Token 规模提升至28.5T (28.5 万亿)。 第二、更快的"学习"方式。构建全新的异步 RL 基础设施。基于 GLM-4.5时期 slime 框架"训练与推理解 耦"的设计,智谱的 ...

KNOWLEDGE ATLAS-“全球大模型第一股”智谱发布GLM-5技术报告,技术细节全公开 - Reportify