Workflow
SpecEE
icon
Search documents
终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
机器之心· 2025-04-29 09:14
机器之心发布 机器之心编辑部 当前 AI 领域呈现「端云并发」的发展态势,端侧与云侧大模型各展所长,共同推动着智能发展与应用落地的边界。端侧模型实现本地毫秒级实时响应,云 侧模型依托强大算力支持复杂大规模推理,而两者都离不开高效的推理系统支撑。 在 GTC 2025 上,NVIDIA CEO 黄仁勋强调,大模型计算正从预训练转向推理优化阶段。 随着产业落地加速,推理计算需求正呈现爆发式增长,如何在性 能、成本和响应速度间取得平衡成为关键工程挑战,推理系统正是解决这一问题的核心 。 近日,无问芯穹发起了一次推理系统开源节,连续开源了三个推理工作,包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap,为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开 一一解读: Day 1|SpecEE:基于推测的 Early Exiting 机制,让 AI PC 推理速度起飞 随着 DeepSeek 等开源模型表现出越来越强悍的性能,在 PC 端本地部署大模型的需求持续增长。尽管许多情况下使用云端 ...
无问芯穹夏立雪:让算力像水电煤一样成为标准化、高附加值的“拎包入住”基础设施|中国AIGC产业峰会
量子位· 2025-04-29 08:02
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI 当数据与AI的协同链路被打通,如何让算力真正成为驱动数智升级的核心引擎,释放AI的终极潜能? 无问芯穹正是其中深耕AI芯片与算力优化的玩家,在第三届AIGC产业峰会上, 无问 芯穹联合创始人兼C EO夏立雪博士 分享了最新行业心 得: 要实现"算力即生产力",让算力成为标准化、高转化率的"拎包入住"基础设施。让算力像水电煤一样流入到千行百业,流入到千家万户。 夏立雪博士毕业于清华大学电子工程系,长期致力于深度学习系统与AI芯片的前沿研究,入选AI2000人工智能全球最具影响力学者榜单 (芯 片方向Top100) 、斯坦福学科Top2% 科学家榜单。他在大语言模型的压缩加速、生成式AI模型芯片等领域的相关工作,是世界首个面向深 度学习语音合成领域的定制化硬件设计,在国际上处于领先地位。 为了完整体现夏立雪的思考,在不改变原意的基础上,量子位对其演讲内容进行了编辑整理,希望能给你带来更多启发。 中国AIGC产业峰会是由量子位主办的AI领域前沿峰会,20余位产业代表与会讨论。线下参会观众超千人,线上直播观众320万+,累计曝光 2000万+。 话题要点 推理范 ...