全面适配!京东云将DeepSeek推理场景性能提升50%
通过整合DeepEP作为通信后端,针对机内通信使用NVLink传输数据,机间通信使用NVSHMEM接口走 RDMA网络,同时通过灵活的GPU SM数量利用控制,增大GPU算力资源利用率以及减少对计算算子的 性能串。 更低成本更高效率,让大模型真正用起来针对客户大模型的使用需求,京东云vGPU AI算力平台,为用 户提供更高推理性能、更多国产芯片适配、更多高数据安全的大模型服务,让大模型真正用起来。 京东vGPU AI算力平台通过支持Flash MLA的FP8格式来提升推理性能,使单Token的 KV Cache显存占用 相比Multi-head Attention降低57倍,配合最新的投机推理技术,以极低的显存需求,在高并发请求场景 下保证了推理的吞吐量和延迟表现。 此外,针对用于DeepSeek开源的通信库DeepEP,京东云vGPU AI算力平台已全面支持EP模式下的分布 式推理,显著提高推理吞吐。 在DeepSeek为期五天的"开源周"中,其连续开源的五大核心技术(FlashMLA、DeepEP、DeepGEMM、 DualPipe & EPLB、3FS文件系统),惊艳全球。 京东云率先宣布完成对这五项 ...