FlashMLA

Search documents
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 03:40
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
DeepSeek开源引领AI普惠化浪潮
Wind万得· 2025-03-02 22:40
以下文章来源于RimeData 来觅数据 ,作者来觅研究院 RimeData 来觅数据 . 全面的一级市场数据平台 导读: 2025年2月24日起,DeepSeek开始为期5天的代码开源周,开源了FlashMLA、DeepEP、DeepGEMM等代码库。2月28日,OpenAI发布其最 新一代基础模型GPT-4.5(非推理模型),号称是迄今为止数据规模最大、知识最为丰富的聊天模型。可见,AI正以惊人的速度在发展。DeepSeek 的开源策略对行业带来哪些影响?全球AI大模型的进展如何?GPT-4.5模型有何特点?行业投融资情况如何?本文尝试分析和探讨。 01 DeepSeek开源策略影响 DeepSeek,全称为杭州深度求索人工智能基础技术研究有限公司,成立于2023年,是一家由知名私募巨头幻方量化孕育而生的创新型科技公司,专 注于开发先进的大语言模型(LLM)及相关技术。自成立以来,DeepSeek已相继发布了多款产品,包括DeepSeek Coder、DeepSeek LLM、 DeepSeek V2、DeepSeek V3、DeepSeek R1等。 2024年12月26日,DeepSeek正式上线De ...
DeepSeek披露,一天成本利润率为545%
华尔街见闻· 2025-03-01 11:17
3月1日中午,DeepSeek在知乎平台发布首条文章,公布模型推理成本利润细节,并披露成本利润率关键信息。DeepSeek称,假定GPU租赁成本为2美元/小时,总 成本为87072美元/天……统计包括网页、App和API在内的所有负载,如果所有tokens全部按照DeepSeek-R1的定价计算,理论上一天的总收入为562027美元,成本 利润率为545%。 文章一经发出,不少网友纷纷在评论区@尤洋。尤洋是潞晨科技创始人。此前,尤洋公开表示,卖DeepSeek API(MaaS)每月亏本4亿元。该消息一度引起轰 动。目前,尤洋已回应称,"由于多人at我,我今天(3月1日)之内会直接地回复一下"。 理论上一天的成本利润率为545% 文章中,DeepSeek首次披露成本利润率关键信息。DeepSeek统计了在24小时统计时段内DeepSeek-V3和R1网页、App和API的所有负载,所有tokens按照DeepSeek- R1的定价,并假定GPU租赁成本为2美元/小时,总成本为87072美元一天。DeepSeek称理论上一天的成本利润率为545%。 其中,DeepSeek称,在最近的24小时里(北京时间2025 ...
DeepSeek宣布:活动正式收官
21世纪经济报道· 2025-02-28 08:46
2月2 8日,国内AI明星企业深度求索(De e pSe e k)为期五天的"开源周"活动正式收官。 "开源周"都发布了什么? 自2月2 4日启动以来,De e pSe e k "开源周"发布的五个项目涵盖了从计算、通信到存储的各个 方面。 2 月 2 4 日 : 首 个 开 源 的 代 码 库 为 F l a s h M L A , 这 是 针 对 H o p p e r G P U 优 化 的 高 效 M L A 解码内核,针对可变长度序列作了优化,目前已投入生产。 2 月 2 5 日 : 宣 布 将 D e e pEP 向 公 众 开 放 。 D e e pEP 是 用 于 M oE ( 混 合 专 家 ) 模 型 训 练 和 推 理 的 EP ( Ex p e rt P a r a l l e l ism , 专 家 并 行 ) 通 信 库 , 可 以 实 现 高 效 且 优 化 的 全 对 全 通信,支持包括F P 8在内的低精度运算,适配现代高性能计算需求。 2月2 6日:宣布开源D e e p G E M M。D e e p G E M M 是一个专为简洁高效的 F P 8 通用矩阵 乘 法 ( ...
与 00 后开源者聊 DeepSeek 开源周:一直开源最强模型,可能是不想赚钱,也可能是想推动更大变化丨开源对话#2
晚点LatePost· 2025-02-27 14:03
"当 AI 足够强大后,开源还是不是一个好选择?" 整理丨刘倩 程曼祺 嘉宾丨美国西北大学 MLL Lab 博士王子涵 ▲扫描上图中的二维码,可收听播客。《晚点聊 LateTalk》#102 期节目。欢迎在小宇宙、喜马拉雅、苹果 Podcast 等渠道关注、收听我们。 《晚点聊 LateTalk》是《晚点 LatePost》 推出的播客节目。"最一手的商业、科技访谈,最真实的从业者思考。" 这是《晚点 LatePost》 「开源对话」系列的第 2 篇。该系列将收录与开源相关的访谈与讨论。系列文章见文末的合集#开源对话。 上周五,DeepSeek 在官方 Twitter 上预告了下一周会连续 5 天开源 5 个代码库,进入 "open-source week"开源周。 目前 DeepSeek 已放出的 4 个库,主要涉及 DeepSeek-V3/R1 相关的训练与推理代码 。 这是比发布技术报告和开源模型权重更深度的开源。 有了训练和推理 工具,开发者才能更好地在自己的系统里,实现 DeepSeek 系列模型的高效表现。 (注:所有 4 个库和后续开源可见 DeepSeek GitHub 中的 Open-Inf ...
DeepSeek开源打碎了谁的饭碗
虎嗅APP· 2025-02-27 10:17
出品|虎嗅科技组 作者|宋思杭 编辑|苗正卿 头图|视觉中国 DeepSeek开源,正在让一波中腰部AI公司、本土芯片公司尝到甜头。 企业大模型落地应用公司53AI创始人杨芳贤最近忙碌程度达到去年同期数倍:春节刚过,大量此前只是咨 询的客户,找到杨芳贤要求尽快进场构建AI应用。"在我们存量客户中,有一半以上都将基座模型切换到 DeepSeek了。"据悉,这些客户多为中大型民营企业。 另一家提供模型场景落地业务的公司创始人则告诉虎嗅,DeepSeek开源后,几个AI应用创业者论坛热火朝 天,人们普遍认为AI应用创业的春天提早来了。而这波热度也吹到了芯片圈,本土芯片头部公司相关人士 告诉虎嗅,来找他们寻求合作的在春节后环比增长了两倍。 但对于大模型六小虎来说,经历了过去一年商业模式的探索,2025年还没等到探索出成熟路线,开源又给 他们造成巨大冲击。 "唯独和DeepSeek做同样事情的人,对他们的冲击是最大的,比如过去一年经常提到的大模型'六小虎'", 常垒资本合伙管理人冯博向虎嗅透露。 某六小虎公司内部,从DeepSeek开源第一天开始,围绕是否开源已经出现激烈争论。摆在他们面前的困扰 是:开源,可能意味着整 ...
刚刚!DeepSeek,硬核发布!
券商中国· 2025-02-27 03:35
DeepSeek又有大动作! 开源周第三天,DeepSeek宣布开源Optimized Parallelism Strategies(优化并行策略)。 Optimized Parallelism Strategies,该策略是为了提高计算效率、减少资源浪费并最大化系统性能而设计的并 行计算方案。这些策略通过合理分配任务、协调资源利用和减少通信开销,实现在多核、分布式或异构系统中 的高效并行执行。 英伟达通过在Blackwell架构上应用TensorRT DeepSeek优化,让具有FP4生产级精度的模型,在MMLU通用智 能基准测试中达到了FP8 模型性能的99.8%。目前,英伟达基于FP4优化的DeepSeek-R1检查点已经在Hugging Face上开源,并且可以通过以下链接访问模型地址:DeepSeek-R1-FP4。 在后训练量化方面,该模型将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT- LLM推理。这一优化使每个参数的位数从8位减少到4位,从而让磁碟空间和GPU显存的需求减少了约1.6倍。 使用TensorRT-LLM部署量化后的FP4权重文件,能够为 ...