模型推理成本

Search documents
Flash Attention作者最新播客:英伟达GPU统治三年内将终结
量子位· 2025-09-29 04:57
在最新播客《Unsupervised Learning》中,Tri Dao分享了对GPU市场、推理成本、模型架构以及AI未来趋势的深度洞察,并针对上述"暴 论"展开了有理有据的分析: Tri Dao不仅是 Flash Attention 的作者,而且还是 Mamba 的作者之一。 henry 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达还能"猖狂"多久?——不出三年! 实现AGI需要新的架构吗?——不用,Transformer足矣! "近几年推理成本下降了100倍,未来还有望再降低10倍!" 这些"暴论",出自 Flash Attention 的作者—— Tri Dao 。 同时,他也是TogetherAI的首席科学家、普林斯顿大学教授。 《Semi Analysis》曾盛赞他在英伟达生态中的贡献,是其护城河的重要组成部分。 …… 未来2-3年内,随着针对不同工作负载类别的专用芯片出现——包括低延迟的智能体系统、高吞吐量的批量处理以及互动式聊天机器人 —— AI硬件格局将从NVIDIA当前约90%的主导地位,转向更加多元化的生态系统。 MoE架构、推理优化、模型量化、模型架构和硬件的协同设计等技术促 ...