模型推理

Search documents
英特尔新显卡拉爆性价比,可本地跑DeepSeek-R1
Guan Cha Zhe Wang· 2025-05-20 15:03
5月19日,在台北国际电脑展(ComputeX)上,英特尔发布了Arc Pro B50和Arc Pro B60两张显卡,起售价仅299美元(约合人民币2156元)。 英特尔官网 价格上,16GB显存的Arc Pro B50售价299美元(约合人民币2156元);24GB显存的Arc Pro B60,售价为500美元(约合人民币3605元)。 性能上,B50面向图形工作站,采用双槽厚度设计,拥有16个Xe核心和128个XMX引擎,可提供高达170 TOPS的峰值运算能力,同时配备16GB显存,显存 带宽为224GB/s,典型主板功耗为70W,支持PCIe 5.0×8连接。在图形工作负载方面,英特尔声称其性能比上一代A50提升了高达3.4倍,并且在MLPerf等一 系列AI推理测试基准上全面超越英伟达的RTX A1000 8GB。 在通用性能方面,锐炫Pro B50相比上一代产品提升50%-130%。其性价比不仅相较锐炫Pro A50、英伟达RTX A1000翻倍提升,比起锐炫Pro A60也略胜一 筹。 英特尔官网 B60则主要面向AI推理工作站,拥有20个Xe核心和160个XMX引擎,峰值TOPS可达197, ...
ICML 2025|如何凭「自动补全」实现100K生成3×加速?
机器之心· 2025-05-18 04:25
在当前大模型推理愈发复杂的时代,如何快速、高效地产生超长文本,成为了模型部署与优化中的一大核心挑战。随着 GPT-o3, DeepSeek R1 等具备 「超级上下文 窗口 」 能力的大模型持续刷新业界记录,百万甚至千万 Token 级别的推理任务已从研究话题迈入现实场景。然而,生成这些超长文本的背后,却隐藏着令人咋舌 的计算成本 —— 长时间的等待、巨大的内存负担以及偶尔重复乏味的输出,严重制约了这些模型的真正潜力。 面对这一挑战,BIGAI NLCo 团队提出了一项全新的推理加速框架 —— TokenSwift ,该工作已成功被 ICML 2025 正式接收!在这项研究中提出了一套可插拔、无 损、高效的生成加速策略,专为 100K Token 级别的长文本推理而设计。在保持原始模型输出一致性的前提下, 加速比达到 3 倍以上 ,极大提升了推理效率。 重新定义超长生成:为什么传统方法 「慢 」? 为了更好地理解 TokenSwift 的意义,我们先看一下目前主流大模型(如 LLaMA、Qwen 等)在长文本生成中的瓶颈所在。 尽管这些模型具备了强大的生成长上下文的能力,但大多数依然采用传统的自回归 (Aut ...
叶子豪、陈天奇等人开源项目FlashInfer入选,MLSys2025最佳论文奖公布
机器之心· 2025-05-14 04:36
机器之心报道 编辑:泽南、+0 今年的两篇最佳论文一作均为华人。 近日,国际系统领域顶会 MLSys 2025 公布了最佳论文奖。 今年的大奖颁发给了来自华盛顿大学、英伟达、Perplexity AI、卡耐基梅隆大学的 FlashInfer,以及瑞典查尔摩斯理工大学的《The Hidden Bloat in Machine Learning Systems》。 对此,英伟达第一时间发出祝贺,并表示「FlashInfer」的「LLM 推理内核能力」已经被集成到 vLLM 项目、SGLang 以及自定义推理引擎中。 FlashInfer FlashInfer 最初是华盛顿大学 Paul G. Allen 计算机科学院、卡耐基梅隆大学及陈天奇的创业公司 OctoAI 共同发起的合作研究项目,旨在创建一个灵活的 大语言模型(LLM)推理内核库,提供 LLM GPU 内核的高性能实现,如 FlashAttention、SparseAttention、PageAttention、Sampling 等。 英伟达表示,首个适用于 DeepSeek MLA 的 Blackwell 内核也出自 FlashInfer。 Flash ...
不到15万元!清华90后团队发布“褐蚁”一体机,已支持阿里最新Qwen3模型|钛媒体AGI
Tai Mei Ti A P P· 2025-04-30 15:09
行云集成电路创始人、CEO季宇 4月30日消息,钛媒体AGI获悉,清华90后创立的北京行云集成电路有限公司(简称"行云集成电路") 宣布,推出全新的一体机产品"褐蚁",仅需最高15万元就可以跑满血版DeepSeek R1/V3大模型,并且对 话速度达到了20token/s。 今天下午,行云集成电路创始人、CEO季宇对钛媒体AGI表示,目前"褐蚁"一体机已经支持阿里最新发 布的Qwen3系列开源大模型,包括顶配版Qwen3-235B-A22B。 具体来说,"褐蚁"一体机有三款不同的配置:最高性价比的"超大杯"褐蚁HY90,搭载双路AMD EPYC 9355服务器、24条 48G 6400M频率内存和NV 5090D计算卡,支持FP8、INT4两种数据精度,在FP8精度 下跑满血版DS能达到21token/s的对话速度,在INT4精度下则能达到28token/s,最高支持128K的上下 文,售价14.9万元;此外,行云集成电路还将推出"大杯"褐蚁HY70、"中杯"褐蚁HY50两个配置版本。 | 型号 | 福盛 HY90 | 褐蚁 HY70 | 褐蚁 HY50 | | --- | --- | --- | --- | ...
终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
机器之心· 2025-04-29 09:14
机器之心发布 机器之心编辑部 当前 AI 领域呈现「端云并发」的发展态势,端侧与云侧大模型各展所长,共同推动着智能发展与应用落地的边界。端侧模型实现本地毫秒级实时响应,云 侧模型依托强大算力支持复杂大规模推理,而两者都离不开高效的推理系统支撑。 在 GTC 2025 上,NVIDIA CEO 黄仁勋强调,大模型计算正从预训练转向推理优化阶段。 随着产业落地加速,推理计算需求正呈现爆发式增长,如何在性 能、成本和响应速度间取得平衡成为关键工程挑战,推理系统正是解决这一问题的核心 。 近日,无问芯穹发起了一次推理系统开源节,连续开源了三个推理工作,包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap,为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开 一一解读: Day 1|SpecEE:基于推测的 Early Exiting 机制,让 AI PC 推理速度起飞 随着 DeepSeek 等开源模型表现出越来越强悍的性能,在 PC 端本地部署大模型的需求持续增长。尽管许多情况下使用云端 ...
14.9万元,满血流畅运行DeepSeek一体机抱回家!清华90后初创出品
量子位· 2025-04-29 04:18
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 满血DeepSeek一体机 ,价格竟然被打到 10万元 级别了! 而且还不是量化版本,正是那个671B参数、最高质量的FP8原版。 △ 左:一体机;右:DeepSeek官网 从视频中不难看出,不仅答案精准,一体机的速度也是肉眼可见地比DeepSeek官网快上一些,粗略估计是已经接近了 22 tokens/s 。 那么这个一体机到底是什么来头? 或许有小伙伴要问了,那跑DeepSeek-R1/V3的 速度 ,能跟官方一较高下吗? 可以的,甚至是 更快 的那种。例如我们提个问题,来感受一下这个feel: 一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?只需回答这个字即可。 不卖关子,它就是由北京 行云集成电路 最新推出的产品—— 褐蚁HY90 ,具体价格定到了 14.9万元 。 而且除了产品,这家公司本身也是有不少的"标签"在身上的,其中最为吸睛或许当属CEO了: 季宇 ,清华90后博士、前华为"天才少年"、计算机学会CCF优博奖获得者。 那么褐蚁HY90具体执行起更多任务时,又会是什么样的效果? 来,更多维度的一波实测走起。 实测10万元级的Deep ...
北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
机器之心· 2025-04-28 08:04
本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、项目管理以及数据整合的主要工作由学生核心团队完成,核心成员包括仇是、郭绍 阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。项目还得到了北京计算科学研究中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。 PHYBench 项目汇聚了来自物理学院及兄弟院系的 200 余名学生,共同承担题目编写、审核及人类基准测试等工作。这支高水平的参与者团队中,包含至少 50 位 全国中学生物理竞赛金牌得主,更有亚洲物理奥赛和国际物理奥赛的金牌获得者。这场大规模、高质量的协作,不仅充分展现了北大学子深厚的学术功底和卓越 的组织协调能力,也为 PHYBench 产出高质量成果提供了坚实保障。 在大语言模型(LLMs)飞速发展的当下,模型的推理能力俨然成为模型能力的代名词。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相继发布,这些大模型凭借强 化学习技术的助力,在许多科学评测基准上频频刷新纪录,甚至声称 "超越人类专家"。 但是,随着模型能力和评测基准的军备竞赛白热化, 越来越多的基准不得不转向生僻的知识点、或者抽象的数学竞赛题。 这些题目虽然能 ...
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线· 2025-04-23 07:28
在人工智能快速演进的浪潮下,大模型正加速重构各行业的技术底座,而 推理性能优化 正成为应对算力挑战、内存瓶颈与通信压力的关键突破口。 当前,大模型推理性能优化主要围绕 模型优化、推理加速与工程优化 在即将于 5 月 23 日 -24 日举办的 AICon 全球人工智能开发与应用大会·上海站 中,我们特别策划了《大模型推理性能优化策略》专题论坛,由阿里云公共云大模型技术服务负责人 王德山 担任专题出品人,现已确认多位业内实践者参与分享。以下为嘉宾阵容及即将带来的精彩议题简介~ 向乾彪 – 腾讯推理架构师 向乾彪在 GPU 推理加速拥有丰富经验。他的技术专长覆盖高性能异构计算及深度性能优化,并在实 践中不断突破前沿技术瓶颈。目前,向乾彪带领团队负责混元大语言模型的推理加速框架 【AngelHCF】 三大方向展开:通过模型量化、剪枝与蒸馏等手段降低计算复杂度、提升推理效率,例如 DeepSeek-R1-Distill-Qwen-32B 采用蒸馏策略,在保持高性能的同时显著压缩资源开销;依托 SGLang、vLLM 等高效推理引擎提升生成速度与系统吞吐能力;同时结合实际业务场景,合理规划 并发策略、优化 GPU 配置 ...
两台运行“满血版”DeepSeek,第四范式推出大模型推理一体机解决方案SageOne IA
IPO早知道· 2025-02-28 04:11
此 外 , 一 体 机 解 决 方 案 还 集 成 了 智 能 算 力 池 化 技 术 , 在 支 持 DeepSeek V3/R1 、 QWen2.5 、 LLama3.3等主流大模型的基础上,企业可灵活在满血版和多个蒸馏模型之间切换,GPU利用率提升 30%以上,推理性能平均提升5-10倍;同时内置大模型应用开发平台,并搭载了丰富的开箱即用AI 应用套件,帮助开发者高效开发企业级的生成式AI应用,让企业享受高效的大模型应用服务,加速AI 智能化落地进程。 具体来讲:SageOne IA大模型推理一体机解决方案,具备三大核心优势: 1) 智能算力池化,资源动态调度,突破物理机架构 大模型应用成本"一降再降"。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,第四范式日前推出大模型推理一体机解决方案SageOne IA,进一步减低了大模 型推理成本。如满血版的DeepSeek V3/R1仅需要两台一体机即可使用。 方案支持企业按需选择DeepSeek V3/R1、QWen2.5、LLama3.3等主流大模型,还预装了丰富的 AI应用套件,包括AIG ...
晚点财经丨任天堂起诉《幻兽帕鲁》制作商侵权;苹果面临欧盟要求其进一步开放 iOS 的威胁
晚点LatePost· 2024-09-19 13:28
吴泳铭说 AI 算力远远不能满足需求。 蔚来计划竞购奥迪在比利时的电动车工厂。 这是大众在比利时的唯一一家工厂,主要生产奥迪 Q8 e-tron,有约 3000 名员工,因为需求疲软, 大众集团 7 月时考虑关闭该厂。据媒体报道,蔚来近几周参观了工厂,并启动了相关的报价准备程 序,准备在下周一向大众汽车提交正式报价。蔚来收购奥迪工厂可能是为应对欧盟对中国电动车加 征关税。 喜茶发布内部信,退出低价内卷。 9 月 18 日喜茶向事业合伙人发布内部信,主题为《为用户创造差异化的品牌和产品》,信中称喜 茶将 "不做同质化产品、不做单纯的低价内卷"。喜茶认为当前茶饮行业的同质化竞争是在消耗用 户对茶饮产品和品牌的热情,差异化是破局的关键,并指出 "门店规模并不是茶饮行业的关键"。 吴泳铭接管阿里巴巴集团和阿里云智能集团已经一年,今天首次在云栖大会登台演讲。他说大模型 推理成本下降速度已经远远超过摩尔定律,一年来通义千问 API 的调用价格下降了 97%,阿里云 还会继续降价。同时 CPU 主导的计算体系正在加速向 GPU 主导转移,新增算力市场超过 50% 的 需求由 AI 驱动产生,过去一年阿里云投资了大量 AI ...