Workflow
混合推理模型
icon
Search documents
杭州致成电子科技有限公司:混合推理模型引领电力计量诊断新范式
Jin Tou Wang· 2025-05-29 00:49
这一技术突破直接推动国家电网台区线损治理水平跃升——应用该平台的区域,计量设备故障率平均降 低35%,线损治理成本下降28%,为电网企业年节省运维成本超亿元。 市场版图:从区域深耕到全国布局 截至2024年,致成电子计量诊断平台已覆盖浙江、北京、上海、四川等13个省份,累计服务用户超2亿 户,占全国智能电表用户总数的34.33%。其中,浙江作为核心市场,服务规模达数千万户,占全省智 能电表用户的近四成,成为区域数字化标杆案例。值得关注的是,致成电子在西南、西北等能源富集地 区的市场渗透率快速提升。在四川,平台深度融入当地"数字电网"建设,助力国网四川电力实现全省低 压台区拓扑自动绘制与故障快速响应;在甘肃、宁夏等新能源高占比省份,平台通过融合光伏出力数 据,创新性解决分布式能源计量偏差难题,相关技术方案被纳入《国家电网新能源计量技术白皮书》。 在国家"双碳"战略与能源数字化转型的浪潮中,电力计量设备的精准诊断与智能化运维成为电网企业降 本增效的核心命题。作为国内领先的能源数字化解决方案提供商,杭州致成电子科技有限公司凭借自主 研发的基于混合推理模型的电力计量设备故障诊断平台,在细分领域实现跨越式发展。截至20 ...
阿里Qwen3大模型登顶开源冠军,中国AI应用即将迎来大爆发?
Sou Hu Cai Jing· 2025-05-01 18:34
人工智能领域又一重大突破! 4月29日,阿里巴巴正式发布新一代通义千问模型——Qwen3(以下称"千问3"),这一发布在全球科技圈引发震动。 千问3的最大亮点在于其卓越的效率与显著降低的成本。据悉,千问3的模型大小仅为相近性能模型的三分之一,但其性能却全面超越了包括R1和OpenAI- o1在内的全球顶尖模型,登顶全球最强开源模型。 值得强调的是,千问3是国内首个"混合推理模型",将"快思考"与"慢思考"有效整合于同一模型中。通俗来说,对于简单问题,千问3能够以低算力实 现"秒回";而面对复杂问题,则能通过多步骤的深度思考,显著节省算力消耗。这一设计实现了推理机制与最低成本之间的最佳平衡。 据悉,千问3开源后,上下游供应链连夜进行适配和调用,NVIDIA、联发科、AMD等多家头部芯片厂商已成功适配千问3。在阿里通义千问模型千问3模 型开源数小时后,华为官方宣布昇腾支持千问3全系列模型部署,开发者在MindSpeed和MindIE中开箱即用,实现千问3的0Day适配。 对此,数据猿第一时间对千问3在数学、代码生成、文字创意上进行了几道简单的实测,先是输入了一道2024年高考数学题。 提问后,页面会显示此次思考所 ...
全球最强开源AI大模型诞生:中国研发,成本只有Deepseek的30%
Xin Lang Cai Jing· 2025-04-30 11:28
众所周知, 自从OpenAI的ChatGPT发布之后,全球就进入了千模大战。 而自从Deeseek推出之后,这些大模型们,又掀起了开源高潮,因为大家发现,开源的大模型,更能够 得到大家的使用。 但与此同时,在AI大模型方面,也有两个方向,一个就是OpenAI们,那就是大力出奇迹,狂堆GPU 卡,用算力来堆出高性能AI。 毕竟像OpenAI、马斯克的AI们,它们又有钱,又能买到最强的GPU卡,没必要没苦硬吃,堆显卡就是 了。 而另外一个方向,则是像Deepseek一样,钱不多,且显卡也受限,只有"四两拨千斤",用最少的显卡, 办最大的事,做出最强的性能。 所以Deepseek打的华尔街是溃不成军,因为用的显卡少,性能却最强。 自从Deepseek推出,国内就进行了一大波的国产GPU替代,因为大家发现不需要英伟达最强大的显卡, 也可以部署强大的模型,一度打破了OpenAI的神话,也打破了英伟达的算力泡沫。 但近日,又产一国产大模型,甩出了王炸,因为它的成本更低,但性能却超过了OpenAI-o1模型,也超 过了Deepseek-R1等,登顶全球第一。 这个模型,就是阿里通义千问大模型 Qwen3(简称千问 3),并 ...
华为昇腾全系列支持Qwen3
news flash· 2025-04-29 10:31
4月29日,在阿里通义千问模型Qwen3(简称千问3)模型开源数小时后,华为计算官方宣布昇腾支持千问 3全系列模型部署,开发者在MindSpeed和MindIE中开箱即用,实现千问3的0Day适配。千问3是国内首 个"混合推理模型","快思考"与"慢思考"集成进同一个模型,对简单需求可低算力"秒回"答案,对复杂 问题可多步骤"深度思考",大大节省算力消耗。(上证报) ...
Qwen3深夜炸场,阿里一口气放出8款大模型,性能超越DeepSeek R1,登顶开源王座
3 6 Ke· 2025-04-29 09:53
今天凌晨,大模型领域最受关注的重磅消息来自阿里 Qwen 团队——他们正式发布了备受期待的全新 Qwen3 系列大模型。 8 大模型齐发! 这 8 款混合推理模型中,包括了 2 个 MOE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B。 其中,Qwen3-235B-A22B 是本次发布中规模最大的旗舰模型,拥有 2350 亿个参数,激活参数超过 220 亿。 在代码、数学和通用能力等多个基准测试中,它的表现不仅超过了 DeepSeek 的 R1 开源模型,还优于 OpenAI 的闭源模型 o1。尤其在软件工程和数学领 域的 ArenaHard 测试(共 500 道题)中,成绩甚至接近了 Google 最新发布的 Gemini 2.5-Pro,可见其实力不容小觑。 | | Qwen3-235B-A22B | Qwen3-32B | OpenAl-o1 | Deepseek-R1 | Grok 3 Beta | Gemini2.5-Pro | Open Al-o3-mini | | --- | --- | --- | --- | --- | --- | --- | --- | | | MO ...
性能超越DeepSeek R1,Qwen3正式登场!阿里一口气放出8款大模型,登顶开源王座!
AI科技大本营· 2025-04-29 09:05
整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 今天凌晨,大模型领域最受关注的重磅消息来自 阿里 Qwen 团队——他们正式发布了备受期待的全 新 Qwen3 系列 大模型。 8 大模型齐发! 这 8 款混合推理模型中,包括了 2 个 MOE 模型: Qwen3-235B-A22B 和 Qwen3-30B-A3B 。 其中,Qwen3-235B-A22B 是本次发布中规模最大的旗舰模型,拥有 2350 亿个参数,激活参数超 过 220 亿。 在代码、数学和通用能力等多个基准测试中,它的表现不仅超过了 DeepSeek 的 R1 开源模型,还 优于 OpenAI 的闭源模型 o1。尤其在软件工程和数学领域的 ArenaHard 测试(共 500 道题)中, 成绩甚至接近了 Google 最新发布的 Gemini 2.5-Pro,可见其实力不容小觑。 不同于以往,这次其一次性开源了多达 8 款混合推理模型,在性能上全面逼近 OpenAI、Google 等 闭源大模型,以及超越了开源大模型 DeepSeek R1,堪称当前最强的开源模型之一,也难怪昨晚 Qwen 团队一直在加班。 | | Qwen3- ...
通义千问 Qwen3 发布,对话阿里周靖人
晚点LatePost· 2025-04-29 08:43
以下文章来源于晚点对话 ,作者程曼祺 晚点对话 . 最一手的商业访谈,最真实的企业家思考。 阿里云 CTO、通义实验室负责人 周靖人 "大模型已经从早期阶段的初期,进入早期阶段的中期,不可能只在单点能力上改进了。" Qwen3 旗舰模型,MoE(混合专家模型)模型 Qwen3-235B-A22B,以 2350 亿总参数、220 亿激活参数,在 多项主要 Benchmark(测评指标)上超越了 6710 亿总参数、370 亿激活参数的 DeepSeek-R1 满血版。更小 的 MoE 模型 Qwen3-30B-A3B,使用时的激活参数仅为 30 亿,不到之前 Qwen 系列纯推理稠密模型 QwQ- 32B 的 1/10,但效果更优。更小参数、更好性能,意味着开发者可以用更低部署和使用成本,得到更好效 果。图片来自通义千问官方博客。 (注:MoE 模型每次使用时只会激活部分参数,使用效率更高,所以有 总参数、激活参数两个参数指标。) Qwen3 发布前,我们访谈了阿里大模型研发一号位,阿里云 CTO 和通义实验室负责人,周靖人。他 也是阿里开源大模型的主要决策者。 迄今为止,Qwen 系列大模型已被累计下载 3 ...
阿里开源通义千问Qwen3:登顶全球最强开源模型,成本仅需DeepSeek-R1三分之一
IPO早知道· 2025-04-29 03:01
性能超越DeepSeek-R1、OpenAI-o1。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据 IPO早知道消息, 阿里巴巴 于 4月29日凌晨开源新一代通义千问模型Qwen3(简称千问3), 参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模 型,登顶全球最强开源模型 。千问 3是国内首个"混合推理模型","快思考"与"慢思考"集成进同一 个模型,对简单需求可低算力"秒回"答案,对复杂问题可多步骤"深度思考",大大节省算力消耗。 千问 3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T , 并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中。千问3在推理、指令遵循、工 具调用、多语言能力等方面均大幅增强,即创下所有国产模型及全球开源模型的性能新高:在奥数水 平的AIME25测评中,千问3斩获81.5分,刷新开源纪录;在考察代码能力的LiveCodeBench评测 中,千问3突破70分大关,表现甚至超过Grok3;在评估模型人类偏好对齐的ArenaHard ...
阿里开源千问3模型 成本仅需DeepSeek-R1三分之一
阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个。 4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能 全面超越R1、OpenAI-o1等全球顶尖模型。 千问3是国内首个"混合推理模型","快思考"与"慢思考"集成进同一个模型,对简单需求可低算力"秒回"答案,对复杂问题可多 步骤"深度思考",大大节省算力消耗。 据了解,千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T ,并在后训练阶段多轮 强化学习,将非思考模式无缝整合到思考模型中。 同时,所有千问3模型都是混合推理模型,API可按需设置"思考预算"(即预期最大深度思考的tokens数量),进行不同程度的思 考,灵活满足AI应用和不同场景对性能和成本的多样需求。 比如,4B模型是手机端的绝佳尺寸;8B可在电脑和汽车端侧丝滑部署应用;32B最受企业大规模部署欢迎,有条件的开发者也 可轻松上手。 千问3为即将到来的智能体Agent和大模型应用爆发提供了更好的支持。 在评估模型Agent能力的BFCL评测中,千问 ...