Workflow
模块化智能
icon
Search documents
英伟达、DeepSeek集体跟进,18个月前被忽视,如今统治AI推理
3 6 Ke· 2025-11-10 04:11
2024年,北京大学金鑫-刘譞哲团队、加州大学圣地亚哥分校「Hao AI Lab」等提出了DistServe解耦推理理念,短短一年多时间,迅速从实验 室概念成长为行业标准,被NVIDIA、vLLM等主流大模型推理框架采用,预示着AI正迈向「模块化智能」的新时代。 如果说「摩尔定律」认为计算能力每18个月翻倍,如今大模型推理成本的下降速度,已远超「摩尔定律」关于计算能力迭代速度的预测。 这并非只是芯片性能提升之功,更重要的是来自推理系统的自身进化。而加速这一进化的,源自一个在DistServe系统中首次提出并实践的「解耦推理」理 念。 该系统由北大、UCSD等机构于2024年3月推出,并提出了一个简单而大胆的设想: 将大模型的推理过程拆分为「预填充」和「解码」两个阶段,并让它们分别在独立的计算资源池中进行伸缩与调度。 如今,这种解耦推理架构已被NVIDIA、llm-d、vLLM、MoonCake等主流大模型推理框架采用,并开始在大规模、真实推理场景中发挥强大力量。 「Hao AI Lab」由加州大学圣地亚哥分校助理教授Hao Zhang领导,他也是2025年谷歌机器学习与系统青年教师奖的获得者。 「Hao AI ...