Workflow
Seek .(SKLTY)
icon
Search documents
DeepSeek发布下一代技术,北大实习生立功
3 6 Ke· 2026-02-27 09:09
DeepSeek又找到突破大模型推理瓶颈的新方法了! 智东西2月27日报道,昨天,DeepSeek发布了一项名为DualPath的全新推理系统方案,直指当前大语言模型在智能体应用场景下遭遇的短板 ——KV缓存存储I/O瓶颈。该方案通过引入双路径加载机制,显著提升系统吞吐量,基本消除了KV缓存的I/O开销。 DualPath的核心创新在于开辟了一条从存储直通解码引擎的新通道。KV缓存不再仅由预填充引擎加载,而是可以加载至解码引擎,再通过计 算网络中的RDMA高效传输至预填充端。这一设计不仅缓解了存储端的压力,还避免了网络拥塞,确保延迟敏感型任务不受干扰。 与全局调度器协同后,DualPath实现了动态平衡两端负载,进一步提升资源利用率。在真实智能体工作负载测试中,DualPath将离线推理吞吐 量提升最高达1.87倍,在线服务吞吐量平均提升1.96倍。 在大规模可扩展性方面,DualPath系统在最多1152张GPU上进行了验证。离线推理从2P4D(2K智能体)扩展到48P96D(48K智能体)实现近 线性扩展,任务完成时间基本保持一致。 值得一提的是,与之前DeepSeek发表的许多研究论文类似,这篇论文的第 ...
DeepSeek 有新消息!
Mei Ri Jing Ji Xin Wen· 2026-02-27 09:06
据媒体2月27日报道,在业界对新一代旗舰模型DeepSeek V4的翘首期盼中,DeepSeek团队却悄然放出了一篇新的学术论 文。 这篇论文由DeepSeek联合北大、清华共同撰写,将研究方向投向了决定大模型实际应用落地的关键一环——推理速度,为 日益复杂的AI智能体,提供一套高效的底层系统解决方案。 具体来说,新论文介绍了一个名为DualPath的创新推理系统,专门针对智能体工作负载下的大模型(LLM)推理性能进行 优化。通过引入"双路径读取KV-Cache(类似记忆缓存)"机制,重新分配存储网络负载,将离线推理吞吐量最高提升 1.87 倍,在线服务的每秒智能体运行数平均提升 1.96 倍。 论文在引言部分提到,大模型正从单轮对话机器人和独立推理模型,快速演进为智能体系统 ——能够自主规划、调用工 具,并通过多轮交互解决实际任务。这种应用范式的转变,推动大模型推理工作负载发生重大变革:从传统的人类-大模型 交互,转向人类-大模型-环境交互,交互轮次可达数十甚至数百轮。 面对传闻,DeepSeek依旧保持其一贯的沉默,目前并未进行任何回应。 此前,DeepSeek被大量用户吐槽风格突变,"变冷淡",从原本细 ...
DeepSeek联合北大、清华发布新论文
Cai Jing Wang· 2026-02-27 08:04
Core Insights - The article discusses a new academic paper released by the DeepSeek team in collaboration with Peking University and Tsinghua University, focusing on inference speed optimization for large language models (LLMs) [1] Group 1: Innovation and Technology - The paper introduces an innovative inference system named DualPath, specifically designed to enhance the inference performance of LLMs under agent workloads [1] - The DualPath system implements a "dual-path reading KV-Cache" mechanism, which reallocates storage network load [1] Group 2: Performance Improvements - The offline inference throughput is reported to have increased by up to 1.87 times [1] - The average number of agent operations per second for online services has improved by 1.96 times [1]
DeepSeek又一论文上新
Di Yi Cai Jing Zi Xun· 2026-02-27 07:58
Core Viewpoint - The DeepSeek team has released a new academic paper focusing on optimizing inference speed for large language models (LLMs), which is crucial for the practical application of AI agents [4][5]. Group 1: Research and Innovation - The paper, co-authored with Peking University and Tsinghua University, introduces an innovative inference system called DualPath, designed to enhance the performance of LLMs under agent workloads [4]. - The DualPath system employs a "dual-path reading KV-Cache" mechanism, redistributing storage network load, resulting in an offline inference throughput increase of 1.87 times and an average increase of 1.96 times in the number of agent operations per second for online services [4][5]. Group 2: Industry Context and Expectations - The introduction of DualPath addresses the significant changes in inference workloads as LLMs evolve from simple dialogue systems to complex agent systems capable of multi-turn interactions, which can reach dozens or even hundreds of rounds [4]. - There is a growing expectation for the release of DeepSeek's next flagship model, DeepSeek V4, with various rumors about its launch timeline ranging from early February to March [6]. - Recent leaks suggest that DeepSeek is testing a V4 Lite model, codenamed "Sealion-lite," which supports a context window of 1 million tokens and native multimodal inference [6]. Group 3: Market Reactions and Concerns - Despite the technical advancements presented in the paper, there is a sentiment in the industry that such optimizations are seen as a necessity due to GPU shortages, with some viewing it as "dirty work" rather than innovative [5]. - Concerns have been raised among investment institutions that the release of the new model could lead to significant market volatility, similar to the previous year's model launch [6].
DeepSeek又一论文上新!新模型V4更近了?
Di Yi Cai Jing· 2026-02-27 07:01
论文延续DeepSeek一贯的风格,在工程化层面将性能优化推向极致。 在业界对新一代旗舰模型DeepSeek V4的翘首期盼中,DeepSeek团队却悄然放出了一篇新的学术论文。 这篇论文由DeepSeek联合北大、清华共同撰写,将研究方向投向了决定大模型实际应用落地的关键一环——推理速度,为日益复杂的AI智能体,提供一套 高效的底层系统解决方案。 论文在引言部分提到,大模型正从单轮对话机器人和独立推理模型,快速演进为智能体系统 ——能够自主规划、调用工具,并通过多轮交互解决实际任 务。这种应用范式的转变,推动大模型推理工作负载发生重大变革:从传统的人类-大模型交互,转向人类-大模型-环境交互,交互轮次可达数十甚至数百 轮。 上下文会跨轮次累积,最终长度可能达到极值。此时模型不需要大量计算,反而需要频繁从硬盘读取历史上下文的 KV-Cache;现有系统中,只有负责预处 理的引擎会读取KV-Cache,它的网卡带宽被占满,而负责生成内容的解码引擎,网卡带宽基本闲置,导致整个系统速度被卡脖子。 因此,论文提出的DualPath,针对智能体工作负载、重新设计现代推理架构中 KV-Cache加载逻辑,解决大模型做智能 ...
【大涨解读】华为产业链:华为加码AI编程,DeepSeek也有望率先适配国产芯片,昇腾有望成为AI算力“第二选择”
Xuan Gu Bao· 2026-02-27 03:12
一、行情 2月27日,华为产业链大涨,华胜天成2连板,格尔软件、新炬网络、拓维信息等多股涨停。 二、事件:华为发布AI新产品,DeepSeek有望率先适配华为芯片 1)2月26日,华为云码道公测版正式发布,提供集代码大模型、IDE、自主开发模式于一体的智能编码解决方案,覆盖多类AI Coding技术,接入GLM-5.0、 DeepSeek-V3.2及华为自研模型,含鸿蒙专属模型。(智通财经) 2)26日,DeepSeekV4Lite模型测试效果大幅提升,支持1M上下文+原生多模态,首批SVG示例传播广泛,目前正由华为等芯片厂商测试。(智东西) 三、机构解读 1)AI编程重塑核心生产力方式,大模型核心技术赋能编程工具。基于大模型的自动化编程与代码生成,AICoding提升软件开发效率与自动化水平。 AI编程的价值集中在:一是提升软件开发的效率和质量;二是降低技术门槛;三是加速项目迭代等周期。大模型编程能力大幅跃进,核心技术赋能 AICoding工具。近年来国内外大模型在编程领域技术能力提升显著,其中Claude和GPT系列大模型在代码生成和部署排名领先,底层技术能力提升正推动AI 编程工具从Copilot(辅助 ...
打破惯例!DeepSeek V4优先适配国产芯片,云计算ETF(159890)盘中拉升获资金抢筹超6600万
Sou Hu Cai Jing· 2026-02-27 02:46
2月27日,国产算力链强势崛起,云计算ETF(159890)开盘拉升涨超1%、目前涨0.74%,成份股表现活跃;拓维信息强势封涨停板,云天励飞大涨13%, 网宿科技、润和软件涨超6%,拓尔思、光环新网、汉得信息、中国软件等多股跟涨。 资金面热度持续攀升。据Wind Level2实时行情结合均价预估,截至发稿,云计算ETF(159890)盘中净流入超6600万元,近5日累计获净申购约5890万元, 规模累破前高。 | | 1.898 +0.014 +0.74% | | | 云计算ETF FILE OLOTOTAL A | | | --- | --- | --- | --- | --- | --- | | | SZSE CNY 10:12:42 交易中 查看L2全景 | | | 00 | | | | 净值走势 | | 交生 | 10.93% 120日 | 16.58' | | 委比 | 82.79% 委差 | 87297 | 5日 | -1.20% 250日 | 38.64 | | 卖五 | 1.902 | 1125 | 20日 | -1.91% 52周高 | 2.1 | | | 1.901 | 10 | 60日 ...
DeepSeek新论文剧透V4新框架,用闲置网卡加速智能体推理性能,打破PD分离瓶颈
3 6 Ke· 2026-02-27 02:29
Core Insights - A new reasoning framework for agents called DualPath has been introduced, which addresses I/O bottlenecks in long-text reasoning scenarios by optimizing the speed of loading KV-Cache from external storage [1][3]. Group 1: DualPath Framework - DualPath changes the traditional Storage-to-Prefill loading mode by introducing a second path, Storage-to-Decode, allowing for more efficient data handling [3][6]. - The framework utilizes idle storage network interface card (SNIC) bandwidth from the decoding engine (DE) to read caches and employs high-speed computing networks (RDMA) to transfer data to the prefill engine (PE), achieving global pooling of storage bandwidth and dynamic load balancing [3][13]. Group 2: Performance Improvements - In tests with a production-level model of 660 billion parameters, DualPath demonstrated a remarkable increase in offline inference throughput by 1.87 times and an average increase in online service throughput by 1.96 times [3][14]. - The framework significantly optimizes first token latency (TTFT) under high load while maintaining stable token generation speed (TPOT) [5][14]. Group 3: Technical Innovations - DualPath allows KV-Cache to be loaded into the decoding engine first, which is then transmitted to the prefill engine, alleviating bandwidth pressure on the prefill side [7][9]. - The architecture includes a central scheduler that dynamically allocates tasks based on I/O pressure and computational load, preventing congestion on any single network interface or computational resource [14][18]. Group 4: Research and Development - The first author of the paper, Wu Yongtong, is a PhD student at Peking University, focusing on system software and large model infrastructure, particularly in optimizing inference systems for large-scale deployment [15][16].
DeepSeek、月之暗面、MiniMax被点“非法提取”,它们做错了吗? | 电厂
Xin Lang Cai Jing· 2026-02-25 10:47
当地时间2月23日,美国大模型公司Anthropic发布官方声明,称旗下大模型Claude遭到了中国模型企业DeepSeek(深度求索)、Moonshot(月之暗面)、 MiniMax(稀宇科技)的"非法提取(illicitly extract)"。 2026开年不到3个月,这已是国产模型第二次陷入此类争议。2月上旬流出的一份OpenAI备忘录曾写道,DeepSeek正借助ChatGPT及其他美国领先AI模型 来进行自身训练。 而本次Anthropic则披露了更多数据,据称三家中国企业以约 2.4万个欺诈账户与Claude进行了超1600万次互动,并以这些对话信息作为训练素材、改进了 国产模型的性能。 点名三家企业隔天,Anthropic即开展了一场直播,展示Claude的最新能力。 与此同时,受到指控的国产三小龙则一片"静悄悄"。迄今,DeepSeek、MiniMax、MoonShot对此均无回应。 三小龙撞上最"MAGA"的美国大模型 根据Anthropic声明,DeepSeek、Moonshot、MiniMax所采用的技术手段名为"蒸馏(distill)"。 这种模型训练手段可追溯至2015年,最早由诺 ...
DeepSeek爆火一周年的寂静
3 6 Ke· 2026-02-25 00:48
这个春节,在所有人都盯着DeepSeek,会不会再度搞事情的时候,DeepSeek罕见地保持了沉默。 这下子,中国AI圈的画风就有些割裂了。一边是智谱、千问、即梦纷纷亮剑,接连发布新模型,争先恐后地展示技术进步。而另一边,则是DeepSeek新 模型缺席春节假期,与一年前R1横空出世、引爆全球关注的高光姿态,形成了鲜明对比。 恰逢R1爆火一周年的时刻,我们回溯了过去一年DeepSeek的动向,会发现V3、DeepSeekMath等系列模型,都未能复刻初代R1的核爆效应。当初那个被冠 以国运级创新、算力焦虑终结者光环的DeepSeek,在2025年的发展轨迹,似乎经历了一场预期的落空。 2025年2月底,R1石破天惊地打开了局面,创下了中国AI模型前所未有的高度。自此,DeepSeek公众热度曲线一路向下,再也未能复现年初的辉煌。 DeepSeek R1的影响力,不用赘述,问世之后长达数月的时间里,创造了消费级AI应用增长速度的新纪录,全国各地也都在反思和探讨,为什么自己没能 孵化出幻方量化这样的科技企业。这种现象级的社会影响力,至今都是独一无二的。 但后续发布模型的热度,都无法跟R1相比。是DeepSeek的 ...