Seek .-DeepSeek-V3发布-性能比肩头部模型

DeepSeek-V3 发布，性能比肩头部模型 20250106 摘要 Q&A 请介绍一下 DC v3 模型的基本信息和性能表现。 DC v3 是一款混合专家架构的大规模语言模型，参数量达到 671B。该模型在性能上展现出卓越实力，能够媲美一些国外头部大模型。在高级数学推理能力测试如 MAX500 和 AME2024 中，DC v3 甚至超过了 GPT-4 和 Kao3.53 等模型。此外，在代码能力测试集如 CodeBoss 上，DC v3 也表现出色，证明其在处理复杂推理及编程任务方面具有强大能力。 DC v3 在训练成本方面有何优势？ DC v3 的训练成本相对较低。在预训练阶段，该模型在 2048 块 H800 GPU 集群上仅需不到两个月时间完成训练。假设每块 H800 显卡每 GPU 小时租赁价格为 2 美元，总体训练成本约为 557.6 万美元，相比其他大规模语言模型具有明显的成本 • DC v3 是一款参数量达 671B 的混合专家架构大规模语言模型，在 MAX500 和 AME2024 等高级数学推理测试中超越 GPT-4 和 Claude 3.5 等模型，并在 CodeBoss ...