DeepSeek-V3发布-性能比肩头部模型
Seek .(SKLTY) -·2025-01-07 07:20
DeepSeek-V3 发布,性能比肩头部模型 20250106 摘要 Q&A 请介绍一下 DC v3 模型的基本信息和性能表现。 DC v3 是一款混合专家架构的大规模语言模型,参数量达到 671B。该模型在性能 上展现出卓越实力,能够媲美一些国外头部大模型。在高级数学推理能力测试如 MAX500 和 AME2024 中,DC v3 甚至超过了 GPT-4 和 Kao3.53 等模型。此外,在代 码能力测试集如 CodeBoss 上,DC v3 也表现出色,证明其在处理复杂推理及编 程任务方面具有强大能力。 DC v3 在训练成本方面有何优势? DC v3 的训练成本相对较低。在预训练阶段,该模型在 2048 块 H800 GPU 集群上 仅需不到两个月时间完成训练。假设每块 H800 显卡每 GPU 小时租赁价格为 2 美 元,总体训练成本约为 557.6 万美元,相比其他大规模语言模型具有明显的成本 • DC v3 是一款参数量达 671B 的混合专家架构大规模语言模型,在 MAX500 和 AME2024 等高级数学推理测试中超越 GPT-4 和 Claude 3.5 等模型,并 在 CodeBoss ...