阿里开源通义千问Qwen3:登顶全球最强开源模型,成本仅需DeepSeek-R1三分之一
IPO早知道·2025-04-29 03:01
性能超越DeepSeek-R1、OpenAI-o1。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据 IPO早知道消息, 阿里巴巴 于 4月29日凌晨开源新一代通义千问模型Qwen3(简称千问3), 参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模 型,登顶全球最强开源模型 。千问 3是国内首个"混合推理模型","快思考"与"慢思考"集成进同一 个模型,对简单需求可低算力"秒回"答案,对复杂问题可多步骤"深度思考",大大节省算力消耗。 千问 3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T , 并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中。千问3在推理、指令遵循、工 具调用、多语言能力等方面均大幅增强,即创下所有国产模型及全球开源模型的性能新高:在奥数水 平的AIME25测评中,千问3斩获81.5分,刷新开源纪录;在考察代码能力的LiveCodeBench评测 中,千问3突破70分大关,表现甚至超过Grok3;在评估模型人类偏好对齐的ArenaHard ...