量子位

Search documents
图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight
量子位· 2025-08-01 04:23
henry 发自 凹非寺 量子位 | 公众号 QbitAI Make MCTS Great Again? 如何在 探索(Explore)未知可能性以寻找更优解和利用(Exploit)当前已知最佳方案之间取得平衡,一直是复杂决策和长程规划任务的核 心挑战之一。 一个过于强调探索的系统可能效率低下,在大量平庸选项中徘徊;而一个过于强调利用的系统则可能过早收敛到局部最优,错过全局最佳解。 一个不起眼的迷宫导航任务,却能让一众模型"原形毕露"。 Diffuser和Diffusion Forcing双双翻车,通关率低得可怜。 唯独有一个模型,通关率高达 100%。 而它就来自图灵奖得主Yoshua Bengio与其团队提出的全新方法: 蒙特卡洛树扩散(Monte Carlo Tree Diffusion, MCTD) 。 这个方法将" 上古时代 "的蒙特卡洛树搜索,和当下热门的扩散模型结合在一起,突破了扩散模型在长程任务推理阶段缺乏可扩展性的瓶颈, 并成功入选ICML 2025的Spotlight。 对于扩散模型来说,它虽然能够通过 去噪过程实现高质量、全局一致的序列生成(对数据分布的"利用"), 但缺乏在不确定性下主 ...
字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍
量子位· 2025-08-01 04:23
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 用 扩散模型 写代码,不仅像开了倍速,改起来还特别灵活! 字节Seed最新发布扩散语言模型 Seed Diffusion Preview ,这款模型主要聚焦于代码生成领域,它的特别之处在于采用了离散状态扩散技 术,在推理速度上表现出色。 在H20上,它的代码推理速度能达到 2146tokens/s ,比同类的Mercury和Gemini Diffusion等模型快不少,同时 比同等规模的自回归模型 快5.4倍 ,并且在代码编辑任务中更具优势。 Seed Diffusion Preview以 结构化的代码生成 为实验领域,系统性地验证离散扩散技术路线作为下一代语言模型基础框架的可行性。 下面介绍它的具体技术细节。 核心是两阶段训练学习 自回归模型存在串行解码延迟瓶颈,理论上,扩散模型的并行生成潜力和整体性生成的优势可以解决自回归模型推理速度局限这一痛点。 但理论优势与实际效果还是有差距,离散扩散模型在语言任务中的大规模部署仍面临两大核心瓶颈: 归纳偏置冲突 和 推理效率瓶 颈 。 为解决上述问题,Seed Diffusion Preview采用了四项关键的技 ...
VLM与扩散模型深度整合,图像理解生成编辑三合一模型登场,权重数据训练流程全开源
量子位· 2025-08-01 04:23
Nexus-Gen团队 投稿 量子位 | 公众号 QbitAI VLM和扩散模型被整合到一起了。 ModelScope(魔搭)团队发布 Nexus-Gen V2 ,一个同时支持图像理解、生成和编辑的统一模型,而且模型权重、训练流程和数据集全部 开源。 这事儿有多重要?今年以来,GPT-4o-Image、Gemini、Blip3O这些大厂的统一模型都在证明一件事:把图像理解和生成能力塞进一个模 型,不仅仅是为了省事,更是因为两种任务的有机结合能带来意想不到的效果。 魔搭团队其实早在五月就发布了V1版本,但他们很快发现了问题:图像理解能力相比原始VLM掉点严重,图像生成对提示词太敏感,编辑细 节也保持不好。 于是他们憋了几个月大招,从三个方向全面优化,终于拿出了这个V2版本。 在图像理解上,优化了模型的训练策略,极大程度地保留了VLM的理解能力; 在图像生成上,对所有图像生成样本进行了重标注,采用长短描述同时标注并采样选取的策略,提升了图像生成的鲁棒性,同时加入了中文标 注样本,支持了基于中文的图像生成。 在图像编辑上,团队系统性地研究了图像重建效果与图像编码token数量之间的关系,并设计了全新的编辑方案。经过 ...
又一SOTA级开源模型!阶跃Step-3多模态推理登顶,百万token解码成本不到4毛钱
量子位· 2025-08-01 00:46
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 又一个SOTA基础模型开源,而且依然是国产。 刚刚,阶跃星辰兑现了WAIC上的承诺,将最新多模态推理模型 Step-3正式开源 ! 在MMMU等多个多模态榜单上,它一现身就取得了开源多模态推理模型新SOTA的成绩。 并且速度飞快,在Hopper GPU上每秒可以解码4039个Token (4K上下文、FP8、无MTP) ,是 DeepSeek-V3的174% 。 这一表现,也 给大模型解码设定了新的帕累托前沿 (资源分配的一种理想状态) 。 另外,Step-3采用了模型-Infra一体化设计,因此性价比也极高。 它有321B参数,但可以运行在8块48GB的GPU上,处理多达80万个token。 如果直观比较,Step-3在H20上的解码成本仅有DeepSeek-V3的30%。 Huggingface工程师评价,这种模型-Infra共同设计的理念,代表了一种前进方向。 百万Token解码成本不到4毛 Step-3是一款MoE模型,包含48个专家,总参数量321B,其中316B为语言模型,5B为视觉编码器,激活参数量则为38B(3个专家)。 | | Step ...
Qwen新模型直逼Claude4!可拓展百万上下文窗口,33GB本地即可运行
量子位· 2025-08-01 00:46
"甜品级"的size,但完全"大餐"级的性能。 啥概念? 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 开源编程模型的天花板,要被Qwen3-Coder掀翻了。 今天凌晨, Qwen3-Coder-Flash 也重磅开源! 相当于GPT-4.1级别的能力,还能让你本地使用! 多编程任务超越顶级开源模型,仅略逊于闭源的Claude Sonnet-4、GPT-4.1等。 原生上下文窗口支持256k token,可延长拓展至1 million token。 33GB内存(即中端笔记本)可运行。 有人实测,在苹果M4 Max上通过mlx-lm运行Qwen3-Coder-Flash,每秒可生成4467个token,相当快。 还有人已经火速推出了量化版本,显存不够的童鞋可以来下载使用。 | Open Models | | | | | | Proprietary Models | | --- | --- | --- | --- | --- | --- | --- | | Benchmarks Qwen3-Coder Owen3-Coder | | | Kimi-K2 | DeepSeek-V3 | Claude | ...
小红书提出首个社交大模型:八大社交任务平均提升14.02%
量子位· 2025-08-01 00:46
RedOne训练框架 △ 图1:不同模型在SNS领域上的平均表现 小红书重磅推出 RedOne ——一款面向SNS(社交网络服务)领域的定制化LLM,旨在突破单一任务基线模型的性能瓶颈,并且构建全面 覆盖SNS任务的基座模型。 相较于基础模型,RedOne在8个主要的SNS任务上平均提升14.02%,在SNS双语评测基准上提升7.56%。同时,在线上测试中,相较于单 任务微调的基线模型,RedOne将有害内容检测(Harmful Content Detection)中的曝光率降低11.23%,将浏览后搜索(Post-view Search)中的点击页面率提升14.95%。 随着在线平台和移动应用的高速发展,SNS成为当前信息传播的核心载体,覆盖着交流沟通、知识分享、情感表达等多元场景。然而, SNS的数据与通用领域的文本语料又呈现出截然不同的特征: 小红书NLP团队 投稿 量子位 | 公众号 QbitAI 大模型也能"通人情"? 行业 首个社交大模型 全景解析:既能兼顾社交理解与平台规则,又能洞察理解用户。 1)高度非规范化:缩写、谐音梗、跨语种表达层出不穷; 2)强上下文依赖:同一句话在不同话题或社群文化中 ...
谷歌把整个地球装进大模型!实时观测,按天更新
量子位· 2025-07-31 06:51
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 地球的ChatGPT时刻来了! AEF就像一个虚拟卫星,整合了光学卫星图像、气候模拟等PB级的海量地球观测数据,能够利用多源、离散的数据生成通用的地理空间表 示,让科学家能够 按需创建地球地图 ,毫不费力实现全球测绘和监测。 由它生成的卫星嵌入数据集现已被联合国粮农组织、哈佛森林等超50个全球组织使用。 谷歌DeepMind推出 AlphaEarth Foundations 模型(下面简称AEF),实现高精度绘制地球。 诺奖得主、谷歌DeepMind首席执行官Demis Hassabis表示: 它将为科学家提供近乎实时的地球观测。 该模型主要是解决了 数据过载 和 信息不一致 两大难题。简单来说就是观测数据多但高质量标注数据少,给绘制全球地图带来困难。 实际上,不只是科学家,普通人也能通过AlphaEarth Foundations轻松读懂地球的变化。 从大航海时代到现代,人类花了500年时间绘制地球,而现在AEF的出现让每天重新绘制地球成为现实。 这让前谷歌地图方面的研究员Bilawal Sidhu惊呼:谷歌朝着构建地球版ChatGPT迈出了重要一步。 ...
谢赛宁团队新作打破“多语言诅咒”!MetaCLIP 2支持300多种语言,英语性能反倒提升了
量子位· 2025-07-31 06:51
一水 发自 凹非寺 量子位 | 公众号 QbitAI 谢赛宁团队新作正在引起热议! 一直以来,作为文生图基石的CLIP模型主要基于英文数据训练,但实际上,全球互联网仍有 超过50% 的非英文数据。 为了将CLIP模型进一步扩展,研究人员需要搞定两大"拦路虎": 缺乏处理非英语数据的筛选方法; 现有多语言CLIP的英语性能比纯英语版本差 (即所谓的"多语言诅咒") 。 而谢赛宁团队正是在这两方面取得突破。他们提出了首个基于全球数据从头训练的CLIP—— MetaCLIP 2 ,通过扩展元数据、优化筛选和提 升模型容量,斩获了以下成果: 1. 搭建了能处理 300多种语言 的CLIP数据整理流程。 2. 打破了"多语言诅咒",不仅没有影响英语任务的表现,而且反倒还提升了。 论文一作Yung-Sung Chuang (MIT博士生、现Meta实习生) 激动表示: 是时候告别语言过滤器了! 刚被小扎从OpenAI挖走的Lucas Beyer也出来对这一观点表示认同,顺带还感谢了论文中的引用: 很高兴看到我们提出并始终倡导的 "NoFilter"理念 能在MetaCLIP 2中得到应用。 这也引来了谢赛宁本人的回应: ...
WAIC 2025落幕,AI硬件终于找到突破口
量子位· 2025-07-31 06:51
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 今年WAIC的展厅里,琳琅满目的AI硬件让人目不暇接。 汽车,眼镜,耳机……AI开始在各式各样的终端中纷纷实现商业落地。 其中,最先获得消费者青睐的,非耳机莫属。 今年WAIC现场,AI硬件公司未来智能现场展出了其今年刚刚推出的两款新品 AI会议耳机Pro 3和Air 2 ,其中内置了面向个人商务办公场景 的AI Agent—— viaim大脑 。 闭幕式上,未来智能还作为智能硬件代表企业,成功入选了上海市重点签约项目。 在巨头林立的AI硬件赛道,为什么未来智能成为了AI耳机赛道的优胜者?在AI耳机的战场,他们又是如何打造护城河的? WAIC上,未来智能CEO 马啸 和CTO 王松 分别分享了他们在AI硬件领域的实践经验。 AI硬件,耳机最具落地前景 当下AI硬件产品种类繁多,但许多号称"智能"的硬件功能同质化严重,实际应用场景贫乏,未能充分打动用户。 各路厂商争相在硬件中叠加AI能力,起初的确能够吸引用户注意,但是用户冷静下来开始思考其真实价值后,很多产品就变成了昙花一现。 即便是苹果员工创业、OpenAI投资、估值曾一度高达10亿美元的创企Human ...
阿里闪电入局Agent Infra!智能体新基建亮相WAIC,“超级大脑”开箱即用
量子位· 2025-07-31 06:51
Core Viewpoint - The importance of AI infrastructure in the era of large models is increasingly recognized, with major players like Musk and Zuckerberg making significant investments in computing power and infrastructure [1][3][20]. Group 1: AI Infrastructure Developments - The concept of Agent Infrastructure has been rapidly adopted by leading companies, with AWS launching Amazon Bedrock AgentCore and investing $100 million in AI agent development [3][20]. - Alibaba Cloud has introduced the "Wuying AgentBay," a supercomputer specifically designed for AI agents, which allows developers to easily create and deploy agents with minimal coding [3][7][20]. Group 2: Features of Wuying AgentBay - Wuying AgentBay supports multiple mainstream environments, including Linux, Windows, and Android, providing comprehensive support for automation applications [9]. - It offers various interaction methods, including visual understanding and natural language control, enhancing automation efficiency [11]. - The platform features an upgraded cross-platform data roaming system, ensuring persistent data storage and seamless task switching [12]. - Wuying AgentBay provides enterprise-level security with a secure sandbox environment, preventing unauthorized access to local systems [13]. Group 3: Challenges in Agent Development - The development environment and computing power remain significant challenges for the deployment of AI agents, as local hardware often cannot meet the high demands for concurrent processing and GPU power [15][16]. - The introduction of cloud-based solutions like Wuying AgentBay addresses these challenges by allowing tasks to be executed in high-performance cloud environments, significantly lowering deployment barriers [17][18]. Group 4: Market Position and Future Outlook - Alibaba Cloud's rapid deployment of Agent Infrastructure, with over 1,000 initial testing customers, indicates strong market interest and potential for growth [20]. - The ongoing expansion of AI infrastructure is crucial for the large-scale adoption of AI agents, similar to how mobile applications drove the cloud computing era [20][23]. - According to IDC, Alibaba Cloud is expected to maintain its leading position in China's public cloud service market into the second half of 2024 [22].