Model Studio(百炼平台)

Search documents
阿里云秘密武器亮相顶会:狂砍82%英伟达含量,213块GPU干了1192块的活
量子位· 2025-10-21 23:50
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 阿里云秘密武器亮相顶会SOSP:用新技术砍掉82%的英伟达GPU需求。 一时引起不小关注与讨论。 这项研究由阿里巴巴与北大合作,阿里云CTO周靖人带队。 研究提出最新GPU池化系统Aegaeon,用token级别的自动扩缩容技术,硬是把GPU使用量从1192个"瘦身"到213个。 这项研究出发点在对阿里云自身业务一项观察。 在Model Studio(百炼平台)上,他们发现了一个让人头疼的现象:17.7%的GPU被分配去服务那些几乎没人用的冷门模型,而这些模型只 处理了总请求量的1.35%。 之前要同时运行这些模型时,要么给每个模型单独分配GP,很多冷门模型的GPU经常空着浪费,要么用旧方法让一个GPU跑2-3个模型(因 为GPU 内存不够,跑不了更多),总之资源利用率特别低。 Aegaeon瞄准这一痛点,通过精细化的资源调度,彻底改变了GPU资源分配的游戏规则。 冷门模型占用长尾资源 具体来说,在他们统计的779个模型中,有94.1%的模型属于长尾模型,平均每秒请求量不到0.2个。 与此同时,那些热门模型比如DeepSeek和通义千问虽然请求量大,但也经 ...