腾讯混元A13B用130亿参数达到千亿级效果,Flash Attention作者点赞
Hunyuan-A13B团队 投稿 量子位 | 公众号 QbitAI 腾讯混元,在开源社区打出名气了。 最新的 Hunyuan-A13B 模型仅凭借130亿激活参数,能和千亿级大模型掰手腕,引发全球开发者热议。 Flash Attention作者、普林斯顿大学计算机系教授 Tri Dao 都来赞叹它的性能和效率优势。 ArtificialAnlysis 团队还提供了具体性能数据,指出混元A13在其评测基准中领先于Qwen3 8B和14B,但落后于更大模型。能在单H200 GPU上以FP8精度运行。 模型API已经在腾讯云上线,输入价格每百万Tokens仅需0.5元,输出价格为每百万Tokens 2元。 精准卡位"甜蜜点",一张中端GPU就能跑 当前大模型圈有个让人纠结的现象:想要效果好就得用满血版大模型,但一看推理费用直接劝退一大批业务。 腾讯混元这次推出的Hunyuan-A13B,瞄准的就是这个痛点。 这款模型采用了细粒度MoE(混合专家)架构,总参数规模达到800亿,但每次推理只需激活130亿参数。这种设计让它在保持强大智能的同 时,推理吞吐量比同类前沿模型提升超过100%。 再加上原生支持的256K超长 ...