推理

Search documents
通义千问 Qwen3 发布,对话阿里周靖人
晚点LatePost· 2025-04-29 08:43
以下文章来源于晚点对话 ,作者程曼祺 晚点对话 . 最一手的商业访谈,最真实的企业家思考。 阿里云 CTO、通义实验室负责人 周靖人 "大模型已经从早期阶段的初期,进入早期阶段的中期,不可能只在单点能力上改进了。" Qwen3 旗舰模型,MoE(混合专家模型)模型 Qwen3-235B-A22B,以 2350 亿总参数、220 亿激活参数,在 多项主要 Benchmark(测评指标)上超越了 6710 亿总参数、370 亿激活参数的 DeepSeek-R1 满血版。更小 的 MoE 模型 Qwen3-30B-A3B,使用时的激活参数仅为 30 亿,不到之前 Qwen 系列纯推理稠密模型 QwQ- 32B 的 1/10,但效果更优。更小参数、更好性能,意味着开发者可以用更低部署和使用成本,得到更好效 果。图片来自通义千问官方博客。 (注:MoE 模型每次使用时只会激活部分参数,使用效率更高,所以有 总参数、激活参数两个参数指标。) Qwen3 发布前,我们访谈了阿里大模型研发一号位,阿里云 CTO 和通义实验室负责人,周靖人。他 也是阿里开源大模型的主要决策者。 迄今为止,Qwen 系列大模型已被累计下载 3 ...
不要思考过程,推理模型能力能够更强丨UC伯克利等最新研究
量子位· 2025-04-29 08:02
实验数据显示,在低资源情况 (即少token数量、少模型参数) 或低延迟情况下,Nothinking方法得出的结果均优于Thinking方法的结果, 实现比传统思考方式更好的精度- 延迟权衡。 其他情况下,NoThinking方法在部分数据集上的表现也能超越Thinking。 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 其实…… 不用大段大段思考,推理模型也能有效推理! 是不是有点反常识?因为大家的一贯印象里,推理模型之所以能力强大、能给出准确的有效答案,靠的就是长篇累牍的推理过程。 这个过程往往用时很长,等同于需要消耗大量算力。已经有一些研究尝试提高推理效率,但大多仍依赖显式思考过程。 来自UC伯克利和艾伦实验室团队的最新研究结果打破了这一刻板印象—— 通过简单的prompt绕过「思考」这一过程直接生成解决方案,可能同样有效,甚至更好。 这种方法被称为 "无思考(NoThinking)"方法 。 「思考」和「无思考」 研究团队以DeepSeek-R1-Distill-Qwen模型为基础,提出了NoThinking方法。 咱们先来分辨一下Thinking和NoThinking的区别在哪里。 Thin ...
14.9万元,满血流畅运行DeepSeek一体机抱回家!清华90后初创出品
量子位· 2025-04-29 04:18
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 满血DeepSeek一体机 ,价格竟然被打到 10万元 级别了! 而且还不是量化版本,正是那个671B参数、最高质量的FP8原版。 △ 左:一体机;右:DeepSeek官网 从视频中不难看出,不仅答案精准,一体机的速度也是肉眼可见地比DeepSeek官网快上一些,粗略估计是已经接近了 22 tokens/s 。 那么这个一体机到底是什么来头? 或许有小伙伴要问了,那跑DeepSeek-R1/V3的 速度 ,能跟官方一较高下吗? 可以的,甚至是 更快 的那种。例如我们提个问题,来感受一下这个feel: 一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?只需回答这个字即可。 不卖关子,它就是由北京 行云集成电路 最新推出的产品—— 褐蚁HY90 ,具体价格定到了 14.9万元 。 而且除了产品,这家公司本身也是有不少的"标签"在身上的,其中最为吸睛或许当属CEO了: 季宇 ,清华90后博士、前华为"天才少年"、计算机学会CCF优博奖获得者。 那么褐蚁HY90具体执行起更多任务时,又会是什么样的效果? 来,更多维度的一波实测走起。 实测10万元级的Deep ...
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
机器之心· 2025-04-29 03:22
本文由华东师范大学和小红书联合完成,共同第一作者是华东师范大学在读硕士、小红书 NLP 团队实习生黄文轩和翟子杰,通讯作者是小红书 NLP 团队负责人 曹绍升,以及华东师范大学林绍辉研究员。 多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存 占用逐渐增加,这导致了多模态大模型推理效率的降低。现有的方法通过减少预填充(prefill)阶段的视觉 token 冗余来实现推理加速。遗憾的是,这种在预填充 阶段实现的视觉 token 稀疏化所带来的加速优势,在解码阶段会逐渐减弱。当解码输出的文本 token 数量增多时,这些方法仍然会遇到性能瓶颈。 为了解决上述问题,团队创新性地提出了一个全新的动态视觉 - 文本上下文稀疏化推理加速框架 ——Dynamic-LLaVA。该框架针对多模态大模型在不同推理模式 下(包括预填充阶段以及有无 KV Cache 的解码阶段),设计了定制化的稀疏化推理方案,以实现多模态大模型的高效推理。实验结果表明,Dynamic-LLaVA 在 几乎不损失视觉理解和生成能力的前提 ...
阿里开源通义千问Qwen3:登顶全球最强开源模型,成本仅需DeepSeek-R1三分之一
IPO早知道· 2025-04-29 03:01
性能超越DeepSeek-R1、OpenAI-o1。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据 IPO早知道消息, 阿里巴巴 于 4月29日凌晨开源新一代通义千问模型Qwen3(简称千问3), 参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模 型,登顶全球最强开源模型 。千问 3是国内首个"混合推理模型","快思考"与"慢思考"集成进同一 个模型,对简单需求可低算力"秒回"答案,对复杂问题可多步骤"深度思考",大大节省算力消耗。 千问 3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T , 并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中。千问3在推理、指令遵循、工 具调用、多语言能力等方面均大幅增强,即创下所有国产模型及全球开源模型的性能新高:在奥数水 平的AIME25测评中,千问3斩获81.5分,刷新开源纪录;在考察代码能力的LiveCodeBench评测 中,千问3突破70分大关,表现甚至超过Grok3;在评估模型人类偏好对齐的ArenaHard ...
昆仑万维:一季度营收大幅增长46% AI算力芯片取得突破性进展
Zheng Quan Shi Bao Wang· 2025-04-29 02:00
Core Viewpoint - Kunlun Wanwei (300418.SZ) reported a significant revenue growth of 46% year-on-year in Q1 2025, driven by advancements in AI computing chips and applications [1] Group 1: Financial Performance - The company achieved an operating revenue of 1.76 billion yuan in Q1 2025, marking a 46% increase compared to the previous year [1] - R&D expenses reached 430 million yuan, reflecting a 23% year-on-year growth [1] - The annual recurring revenue (ARR) for AI music reached approximately 12 million USD, with a monthly revenue of about 1 million USD [1] - The ARR for the short drama platform Dramawave was approximately 120 million USD, with a monthly revenue of around 10 million USD [1] - Overseas business revenue amounted to 1.67 billion yuan, showing a 56% increase year-on-year, and accounted for 94% of total revenue [1] Group 2: Technological Advancements - The company launched several disruptive technologies in multi-modal reasoning, video generation, and audio generation, achieving state-of-the-art (SOTA) status in various models [2] - The Skywork R1V multi-modal reasoning model reached open-source SOTA, while the SkyReels-V1 model and SkyReels-A1 algorithm led the global video generation field [2] - In the AI music sector, the Mureka V6 and Mureka O1 models demonstrated a competitive edge, with Mureka O1 surpassing competitors in performance [2] Group 3: AI Chip Development - The company made significant progress in the R&D of AI computing chips, moving towards the goal of "Chinese chips, Kunlun manufacturing" [3] - Kunlun Wanwei acquired a controlling stake in Beijing Aijietek Technology Co., Ltd., completing a full industry chain layout from computing infrastructure to AI applications [3] - The R&D team for AI chips has expanded to nearly 200 employees, covering various fields such as chip design and algorithm development [3] Group 4: Future Prospects - The company plans to launch the Skywork.ai platform in mid-May 2025, which will feature a system of five expert-level AI agents for optimizing various professional tasks [3] - The Opera business segment, including overseas information distribution and metaverse operations, saw a revenue increase of 41% driven by Opera Ads [4] - The company aims to continue advancing AI computing chip development and innovate its AI application matrix to provide leading AI product experiences globally [4]
阿里开源千问3模型 成本仅需DeepSeek-R1三分之一
2 1 Shi Ji Jing Ji Bao Dao· 2025-04-29 00:24
Core Insights - Alibaba has open-sourced over 200 models, achieving a global download count exceeding 300 million, with over 100,000 derivative models of Qwen [6] - The newly released Qwen3 model features a parameter count of 235 billion, significantly reducing costs while outperforming leading models like DeepSeek-R1 and OpenAI-o1 [1][2] Performance Enhancements - Qwen3 has shown substantial improvements in reasoning, instruction adherence, tool invocation, and multilingual capabilities, setting new performance records among domestic and global open-source models [2] - In the AIME25 evaluation, Qwen3 scored 81.5, surpassing previous open-source records, and achieved over 70 points in the LiveCodeBench assessment, outperforming Grok3 [2][3] Model Architecture - Qwen3 employs a mixed expert (MoE) architecture, activating only 22 billion parameters out of 235 billion, which allows for efficient performance with reduced computational costs [1][2] - The model offers various versions, including 30B and 235B MoE models, as well as dense models ranging from 0.6B to 32B, all achieving state-of-the-art performance for their sizes [4] Application and Accessibility - Qwen3 supports the upcoming surge in intelligent agents and large model applications, with a BFCL evaluation score of 70.8, surpassing top models like Gemini2.5-Pro and OpenAI-o1 [5] - The model is open-sourced under the Apache 2.0 license, supporting over 119 languages, and is available for free download on platforms like HuggingFace and Alibaba Cloud [5][6]
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
硬AI· 2025-04-29 00:18
根据摩根士丹利Joseph Moore团队25日发布的报告, 这种强劲的需求主要驱动因素在于token生成量的 增长,自年初以来,token生成量增长了5倍以上 ,这给生态系统带来了巨大压力,并推动了对处理这些 工作负载的投资激增。 点击 上方 硬AI 关注我们 大摩指出,受益于大型语言模型对推理芯片的巨大需求,英伟达面临GPU供不应求局面。但在持续的供应限制、毛利率 压力等负面影响下,大摩轻微下调英伟达目标价至160美元。长期来看,公司增长轨迹依然强劲。 硬·AI 作者 | 张雅琦 编辑 | 硬 AI 过去四周,投资者情绪因宏观经济和供应链风险而恶化,但与此同时,对英伟达GPU核心的需求却因主要 大型语言模型(LLM)对推理芯片的巨大需求而飙升,且这种需求遍及所有地区。 多家AI公司报告用户数量呈爆炸式增长,例如,Open Router等API公司的数据显示,许多公司为满足推 理软件的巨量需求,被迫争抢GPU资源,甚至出现"最后一块GB200"在2025年仅剩一块的状况。 摩根士丹利认为, 这种对推理的需求是关键。 这是由使用模型并产生收入的部分驱动的,证明了推理模 型的扩展是真实存在的,这与仅依赖于风险投 ...
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
机器之心· 2025-04-28 23:04
本篇工作已被电子设计自动化领域顶级会议 DAC 2025 接收,由上海交大计算机学院蒋力教授与刘方鑫助理教授带领的 IMPACT 课题组完成,同时也获得了华为 2012 实验室和上海期智研究院的支持。第一作者是博士生汪宗武与硕士生许鹏。 在通用人工智能的黎明时刻,大语言模型被越来越多地应用到复杂任务中,虽然展现出了巨大的潜力和价值,但对计算和存储资源也提出了前所未有的挑战。在 以 transformer 模型为基础的大模型中,键值缓存虽然用以存代算的思想显著加速了推理速度,但在长上下文场景中成为了存储瓶颈。例如,半精度的 LLaMA-2- 7B 模型权重约 14GB,在上下文长度为 128K 时键值缓存占据 64GB,总和已经接近高端卡 NVIDIA A100 的 80GB 显存容量上限。键值量化可被用于压缩缓存,但 往往受到异常值的干扰,导致模型性能的显著下降。为此,本文的研究者提出了 MILLION,一种基于乘积量化的键值缓存压缩和推理加速设计。 arxiv 链接:https://arxiv.org/abs/2504.03661 开源链接:https://github.com/ZongwuWang/MIL ...
北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
机器之心· 2025-04-28 08:04
本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、项目管理以及数据整合的主要工作由学生核心团队完成,核心成员包括仇是、郭绍 阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。项目还得到了北京计算科学研究中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。 PHYBench 项目汇聚了来自物理学院及兄弟院系的 200 余名学生,共同承担题目编写、审核及人类基准测试等工作。这支高水平的参与者团队中,包含至少 50 位 全国中学生物理竞赛金牌得主,更有亚洲物理奥赛和国际物理奥赛的金牌获得者。这场大规模、高质量的协作,不仅充分展现了北大学子深厚的学术功底和卓越 的组织协调能力,也为 PHYBench 产出高质量成果提供了坚实保障。 在大语言模型(LLMs)飞速发展的当下,模型的推理能力俨然成为模型能力的代名词。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相继发布,这些大模型凭借强 化学习技术的助力,在许多科学评测基准上频频刷新纪录,甚至声称 "超越人类专家"。 但是,随着模型能力和评测基准的军备竞赛白热化, 越来越多的基准不得不转向生僻的知识点、或者抽象的数学竞赛题。 这些题目虽然能 ...