Workflow
美团新模型有点东西:像调度外卖运力一样优化大模型
3 6 Ke·2025-09-02 08:15

算力,就像运力一样,也要学会调度。 假如你在深夜点了一份外卖。几分钟后,系统迅速给你派来最近的骑手,他不需要全城出动的大军,只要顺路接单,就能把一碗热汤准时送到你手里。 美团正在把这种"派单逻辑"搬到 AI 世界。 在最新发布的 LongCat-Flash 模型里,算力不再是一股脑砸上去,而是像运力一样被精准调度:复杂问题派更多"高手",简单问题就近解决,最大限度减 少浪费。 美团最近的财报,和所处的竞争环境,让它需要新的故事。而 LongCat-Flash,就是美团递出的第一张筹码:在大模型赛道开打另一场战斗,把百万 tokens 的推理成本压到 0.7 美元。 以下为LongCat-Flash技术文档解读:像管理运力一样管理算力 1 它的总参数规模有 5600 亿,但在实际推理时,每个 token 只需要调用一小部分,大约 18.6B–31.3B。可以把它想象成一个庞大的骑手团队,不是每一单都 要全员出动,而是根据订单的难度,派出最合适的几位骑手去送。这样一来,既能保证覆盖面,又避免了算力浪费。 而所谓"零计算专家",其实就是处理简单任务的捷径。 比如,一单只是送楼下便利店的一瓶水,就不需要总部复杂调度, ...