Qwen3小升级即SOTA,开源大模型王座快变中国内部赛了
量子位·2025-07-22 04:35
Qwen官方还透露:这次只是一个小更新!大招很快就来了! 但总归就是,再见Qwen3-235B-A22B,你好 Qwen3-235B-A22B-2507 了。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 开源大模型正在进入中国时间。 Kimi K2风头正盛,然而不到一周,Qwen3就迎来最新升级,235B总参数量仅占Kimi K2 1T规模的四分之一。 基准测试性能上却超越了Kimi K2。 Qwen官方还宣布 不再使用混合思维模式 ,而是分别训练Instruct和Thinking模型。 所以,此次发布的 新模型仅支持非思考模式 ,现在网页版已经可以上线使用了,但通义APP还未见更新。 By the way,这个名字怎么取得越来越复杂了。 先来看看这次的"小更新"都有哪些~ 增强了对256K长上下文的理解能力 新模型是一款因果语言模型,采用MoE架构,总参数量达235B,其中非嵌入参数为234B,推理时 激活参数为22B 。 在官方介绍中显示,模型共包含94层,采用分组查询注意力(GQA)机制,配备64个查询头和4个键值头,并设置128个专家,每次推理时激 活8个专家。 | | | GPT- | C ...