Workflow
Seek .(SKLTY)
icon
Search documents
全面适配!京东云将DeepSeek推理场景性能提升50%
Zhong Guo Jing Ji Wang· 2025-03-03 09:10
Core Insights - DeepSeek's five core technologies (FlashMLA, DeepEP, DeepGEMM, DualPipe & EPLB, 3FS file system) were showcased during a five-day "Open Source Week," achieving significant global attention [1] - JD Cloud announced full-stack adaptation of these technologies, resulting in a 50% performance improvement in inference scenarios [1][2] Group 1: Technology Enhancements - Flash MLA optimizes GPU memory and computational resources, addressing resource wastage in traditional methods for processing variable-length sequences [1] - The vGPU AI computing platform supports Flash MLA's FP8 format, reducing single Token's KV Cache memory usage by 57 times compared to Multi-head Attention, ensuring high throughput and low latency under high concurrency [1] Group 2: Communication and Performance - JD Cloud's vGPU AI computing platform fully supports distributed inference using the DeepEP communication library, significantly enhancing inference throughput [2] - By integrating DeepEP, JD Cloud utilizes NVLink for intra-machine communication and NVSHMEM for inter-machine communication, improving GPU resource utilization and reducing performance bottlenecks [2] Group 3: Local Deployment and Adaptation - JD Cloud has assisted multiple local governments in deploying DeepSeek based on existing infrastructure, allowing local enterprises to access the service without resource investment [3] - The platform has achieved comprehensive domestic chip adaptation, ensuring self-control from foundational computing to large model applications, including over ten domestic AI computing solutions [2]
运营商DeepSeek加速服务政企-看好云-AI价值重估
2025-03-03 03:15
运营商 DeepSeek 加速服务政企,看好云+AI 价值重估 摘要 Q&A 近期算力板块的市场表现如何?有哪些因素影响了其走势? 上周四和周五,算力板块出现明显下跌。主要原因包括海外英伟达业绩未达到 预期,以及 GPT-4.5 在高成本下未能实现显著效率提升。这些因素导致投资者 对海外算力板块产生顾虑,进而影响到国内算力市场。 • 云计算行业规模效应显著,对标北美 AWS,国内云计算厂商盈利潜力巨大, 尤其软件部分占比高且规模达一定体量时。DeepSeek 通过合理配置算力资 源,实现高效益,为算力过剩厂商提供借鉴。 • 去年三大运营商大量 AI 算力投资(主要偏向 910B)利用率不高,今年 DeepSeek 技术突破提升了 90B 利用率。运营商或将 920B 以 DPC 一体机模 式出售,毛利率可达 15%以上,或通过第三方企业调用算力使用 DeepTag 消纳冗余资源。 • 运营商云计算盈利能力和收入增长潜力被市场低估。去年三大运营商云计 算业务平均增长 14%,今年预计政府和国有企业大规模接入将推动收入显 著增长,增速或提升至 20%-25%。 • 预计 2025 年中国电信营收可能达到 1,30 ...
电子掘金-DeepSeek如何影响推理需求
2025-03-03 03:15
DeepSeek V3 和 R1 延续了 V2 版本中使用的 MOE 多头自注意力机制,通过压缩 KV 存储来降低存储需求。具体操作方法是不对所有的 key 和 value 进行存储, 而是存储一个压缩后的低维变量 C,并将其投影到投影空间。在计算过程中恢 复出 key value 得出原始值,从而大幅降低了存储需求。这种方式将解码过程 中的访存密集型任务转换为计算密集型任务,实现了省存储且无多余训练开销 • DeepSeek V3 和 R1 通过压缩 Key Value 存储,将访存密集型任务转化为计 算密集型任务,降低存储需求且无需额外训练开销。原生稀疏注意力机制 (NIC)优化硬件资源占用,与 MOE 架构形成互补,分别关注局部细节和全 局建模。 • DeepSeek V3 和 R1 在硬件工程化上分离预填充(pre-fill)与解码 (decode)阶段,并采用冗余专家及动态冗余策略优化硬件使用,提高推 理效率和准确性,平衡 GPU 负载。 • DeepSeek V3 和 R1 采用大规模跨节点专家并行方法,降低对单一节点硬件 要求,提高整体吞吐量并降低延时,但增加了网络通信及显存带宽压力, 需要大量 ...
DeepSeek开源周-划重点
2025-03-03 03:15
DeepSeek 开源周:划重点? 摘要 Q&A DeepSeek 开源周的主要内容和目的是什么? DeepSeek 开源周的主要目的是分享从 V2 到 V3 以及 R1 版本中使用的核心模块 和基础设施层面的优化代码。此次开源涵盖了多个方面,包括硬件优化、推理 成本降低、算力提升等。具体来说,第一天开源了 FlashMLA 算法,该算法通过 压缩长文本中的 KV 开始来降低推理成本;第二天涉及专家并行(EP),优化了 不同 GPU 之间的通信和计算负载均衡;第三天则是矩阵乘法运算算子,支持 FP8 精度;第四天重点在于管线并行和专家负载均衡;第五天则是文件管理系 • DeepSeek 开源 FlashMLA 算法,通过压缩长文本 KV 缓存降低推理成本,解 码内核代码基于 Hopper 架构 GPU,摩尔线程已进行国产化迁移,旨在提升 训练效率。 • 专家并行(EP)技术通过将专家分布在不同 GPU 上,利用门控机制和凹凸 凹(auto 2)机制优化通信,支持 FP8 低精度运算,提升大规模模型计算 效率,V3 版本 DMC 分配 256 个专家。 • 管线并行优化将模型层级计算分配到不同 GPU,实现计算 ...
【早知道】小米SU7 Ultra锁单量突破10000台;DeepSeek首次披露:理论成本利润率545%
DeepSeek首次披露:理论成本利润率545%。 特斯拉CEO马斯克:特斯拉未来五年利润增长1000%是可能发生的。 小米SU7 Ultra锁单量已突破10000台,提前完成全年任务。 英国借乌克兰20多亿英镑,泽连斯基要用"俄罗斯的钱"还债。 人民财讯3月3日电,摘要:十四届全国人大三次会议将于3月4日12时举行新闻发布会。 央行等五部门:支持民营企业通过资本市场发展壮大。 2月份制造业采购经理指数(PMI)为50.2%,比上月上升1.1个百分点。 ...
DeepSeek-R1语义一致性表现较好
Zhong Guo Jing Ji Wang· 2025-03-02 23:40
科技日报讯 (记者王祝华)2月25日,记者从世界人工意识协会国际人工智能DIKWP测评标准委员会 获悉,由该协会主导、全球10余个国家与地区的90多家机构和企业参与的《全球首个大语言模型意识水 平"识商"白盒DIKWP测评2025报告(100题版)》(以下简称《报告》)日前出炉。 《报告》的核心亮点在于全球首创的意识水平测评体系。《报告》基于DIKWP模型,从数据、信息、 知识、智慧、意图等方面,构建全链路评估体系。测试题全面覆盖大语言模型的感知与信息处理、知识 构建与推理、智慧应用与问题解决、意图识别与调整四大模块,对主流大语言模型的意识水平进行系统 化、量化深度剖析。 《报告》对当前主流的大语言模型进行了全面测评,包括DeepSeek-V3、ChatGPT-o1、通义千问-2.5、 ChatGPT-4o、Kimi、文心大模型-3.5和Llama-3.1等。测评结果显示,不同模型在不同模块的表现各有千 秋。 例如,感知与信息处理部分主要考察模型在处理原始数据、提取信息和保持语义一致性方面的表现。 ChatGPT-4o和ChatGPT-o1在数据转换和格式处理方面表现出色,体现出稳定性。ChatGPT-o3- ...
DeepSeek如何影响推理需求
2025-03-02 16:46
本次会议为中国国际金融股份有限公司中金公司闭门会议仅限受邀嘉宾参会未经中金公司和演讲嘉宾书面许可任何机构和个人不得以任何形式将会议内容和相关信息独白公布转发转载传播复制编辑修改等 如有上述违法行为重庆公司保留追究相关方法律责任的权利This meeting is a closed-door meeting of China International Capital Corporation Limited, CICC,and only invited guests are allowed to attend.Without the written permission of CICC and the speaker,no organization or individual is allowed to punish, forward, reprint, disseminate, copy, 那么另外呢近期的DeepSeq团队啊我们看到也是推出了新的这个原生吸收注意力机制方法NSA发表了一篇论文那文章提到了其实NSA集成了这个分层字图建模将这个算法创新和硬件对齐的优化相结合来实现高效的常文本建模比较形象的来说呢 ...
事关民营企业!五部门召开座谈会;DeepSeek,消息不断;小米SU7 Ultra首车正式交付……来看周末要闻
来关注周末要闻。 宏观•要闻 央行、证监会等五部门联合召开座谈会 为深入学习贯彻习近平总书记在民营企业座谈会上的重要讲话精神,落实党中央、国务院关于金融支持 民营企业发展的决策部署,2025年2月28日,中国人民银行、全国工商联、金融监管总局、中国证监 会、国家外汇局联合召开金融支持民营企业高质量发展座谈会。中国人民银行党委书记、行长潘功胜, 中央统战部副部长、全国工商联党组书记沈莹,金融监管总局党委委员、副局长周亮,中国证监会党委 委员、副主席李超出席会议并讲话。 会议要求,要实施好适度宽松的货币政策,发挥好结构性货币政策工具作用,强化监管引领,引导金融 机构"一视同仁"对待各类所有制企业,增加对民营和小微企业信贷投放。执行好金融支持民营经济25条 举措,健全民营中小企业增信制度,加快出台规范供应链金融业务政策文件。强化债券市场制度建设和 产品创新,持续发挥"第二支箭"的撬动引领作用。抓好"科创板八条""服务现代化产业体系十六条""并 购六条"等政策落实落地,支持民营企业通过资本市场发展壮大。金融机构要强化金融服务能力建设, 进一步畅通民营企业股、债、贷等多元化融资渠道,加大各类金融资源要素投入,将民营企业 ...
DeepSeek驱动军工AI加速发展
2025-03-02 06:38
The. Good afternoon, investors. It's Friday again. The working day of the week is coming to an end. Welcome to our live broadcast. Today's live broadcast is military-themed. Mai Pei Qi's Little Bridge. Sorry, we are late by half a minute. We are very punctual. Without further ado, let's talk about Now. Since the Spring Festival until now, DeepSeek has been very popular. It has attracted the attention of the whole technology industry to AI and artificial intelligence. In this live broadcast, we will also int ...
如何看待过去一周DeepSeek开源项目的特点及影响
2025-03-02 06:36
如何看待过去一周 DeepSeek 开源项目的特点及影响 20250301 摘要 • DeepSeek 开源周发布数据准备、模型训练和模型推理三大类项目,针对 英伟达 Hopper GPU 架构优化,提升经济效益和用户体验,理论利润率可 达 545%,展示全栈优化能力。 • Flash MLA 针对 Hopper 架构 GPU 优化,减少可变长度序列服务场景的 计算开销,内存绑定达 3,000GB/s,计算绑定达 580KB look 速度,逼近 H800 GPU 上限。 • DBP 是首个开源专家通信并行库,优化 MOE 混合专家模型通信效率,提 升不同专家之间的信息传递速度,加速大规模计算。 • DateEngineer 专为 FP8 精度通用矩阵乘法设计,支持普通和专家混合模 型分组运算,在 H 系列 GPU 卡上实现极致的 FP8 运算速度。 • 双向流水线并行算法通过减少 V3 和 IE 训练时计算与通信重叠时间中的气 泡来提升效率,提高显卡利用率和训练速度,目前仅支持 NVIDIA H 系列 显卡。 • EPLB 通过冗余专家策略优化硬件利用率,在推理阶段减少资源浪费,提 高推理速度和效率,具有较 ...