Workflow
量子位
icon
Search documents
开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微
量子位· 2025-05-28 07:28
报告+图谱,也让这句"大模型开发生态,是一场现实世界的黑客松",在现场被开发者一遍遍讨论。 是的,在介绍最新的开源生态报告时,蚂蚁开源委员会副主席王旭,就是这么感叹的—— 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 终于!当前的大模型开发生态,被一份报告、完整全景图谱讲清楚了。 就在第十届527蚂蚁技术日上,蚂蚁通过Coding范式、数据、模型部署等角度,对现有开源生态进行了全面完整的大剖析,从数据的视角揭示 了大模型开源生态的演进规律,如果你是大模型开发者或者潜在的开发者, 几乎研究好这份报告可能就够了 。 但这还不够,在报告出炉之前的周末,蚂蚁还发布了2025大模型开源生态全景图,涵盖19个技术领域、135个项目,进一步给出了大模型开 发生态的参考系。 大模型开发生态,是一场现实世界的黑客松。 大模型开源生态,为何是一场实时直播的黑客马拉松? 在去年的QCon(全球软件开发大会)上的报告和量子位的MEET 2025大会中,蚂蚁对开源社区给出了这样的判断: 开源社区的数据可以说既不全面,也不超前于时代,但是,它是跳出公司的一个客观视角。 今年的技术日上,蚂蚁针对开源生态又发布了新的报告,以及新的 ...
5小时满帧玩王者原神!只需2499元拥有电竞级体验,一加手机开大:三块芯片
量子位· 2025-05-28 05:59
白交 发自 成都 量子位 | 公众号 QbitAI 这年头,为了让你玩好游戏,手机厂商直接塞进三块芯片。 生怕你打游戏输得不服气(bushi)。 一加最新手机Ace5至尊系列,配备了由9400系列旗舰芯、灵犀触控芯和电竞Wi-Fi芯片组成的「电竞三芯」。 据说,这是行业首套游戏全链路芯片级硬件解决方案。 得益于这三款芯片,一加Ace5至尊版在安兔兔跑分上达到了3225260,是 目前所有天玑芯片手机的最高分 。 像玩一些这种《王者荣耀》《原神》《崩坏:星穹铁道》重载场景,可以实现 5小时+满帧运行 。 王者里团战打龙也是很顺畅了。 不过平均帧率接近满帧,现在已经不能代表很好的游戏体验了。真实环境中,即便手机是满帧,但仍然会出现卡顿的现象。 由于体验过好,一加 Ace 5 至尊版还成为2025 年《和平精英》职业赛事 PEL 指定用机,真·电竞级手机认证。 此次发布一共发布两款机型,一加 Ace 5 至尊版定价为2499元起,一加 Ace 5 竞速版售价1799元起。 一加直接塞进三块芯片 这三块芯片术业有专攻,它们分别从性能、触控、网络方面来提升游戏体验。 首先来看性能。 此次它搭载了天玑9400+,拥有第二 ...
北大校友王虹,将任法国高等研究所常任教授!2/3前辈为菲尔兹奖得主
量子位· 2025-05-28 05:59
量子位 | 公众号 QbitAI 破解挂谷猜想 的中国女数学家 王虹 ,又有新动向。 这一次,这位出身北大数学系的90后,将 加入法国高等研究所(IHES),担任常任教授 。 什么概念?目前,法国高等研究所只有7位常任教授,5位来自数学领域,另外2位是物理学 家。 鱼羊 发自 凹非寺 这5位数学家每一位都在数学界声名赫赫,包括分别在1998年和2022年获得数学最高奖—— 菲尔兹奖的Maxim Kontsevich和Hugo Duminil-Copin,2018年菲尔兹奖获得者Peter Scholze的合作者Dustin Clausen等等。 再算上历任IHES数学常任教授,13人中共有8人是菲尔兹奖获得者。 官方公布的消息显示: 王虹将于2025年9月1日正式入职。这是IHES和纽约大学的联合任职,她在担任IHES数学常 任教授的同时,也将担任纽约大学柯朗数学科学研究所数学教授。 菲尔兹奖获得者Hugo Duminil-Copin第一时间欢迎了他的新同事: 欢迎王虹加入成为我们的教职员工! 她在纽约大学关于这一成果的讲座,现场被挤得水泄不通: △ 图源:纽约大学 我希望她能在IHES享受我一直珍视的:宁静 ...
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择
量子位· 2025-05-28 04:22
AutoThink团队 投稿 量子位 | 公众号 QbitAI 在日益强调"思维能力"的大语言模型时代, 如何让模型在"难"的问题上展开推理,而不是无差别地"想个不停" ,成为当前智能推理研究的重 要课题。 中国科学院自动化研究所联合鹏城实验室 提出了一种高效的推理策略, 赋予推理大模型根据题目难度自主切换思考模式的能力: 通过一个小小的省略号作为提示词 + 多阶段强化学习,引导大模型自主决定是否深度思考、思考多少。 研究背景:大模型"想太多",是优点还是负担? 在大语言模型快速发展的今天,越来越多的模型开始具备"深度思考能力"。 比如,DeepSeek-R1系列模型引入了一种特别的提示结构:先 ,再 。也就是说,模型在回答之前会"思考"一番,生成一 整段 包含反复自我反思、自我验证 的逻辑推理,然后才给出结论[1]。这种方式是近来提升模型准确率的重要方法。"深度思考"的确带来了好 处,模型不再"张口就答",而是会分析、论证、验证;在复杂问题中,能显著提升答对率,避免"拍脑袋"行为。但是,如果问题本身很简单, 模型还有必要"苦思冥想"一大段吗? 答案是:未必。事实上很多情况下,模型在解决简单任务时也会机械地 ...
阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
量子位· 2025-05-28 04:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 既能提升模型能力,又不显著增加内存和时间成本 ,LLM第三种Scaling Law被提出了。 对于 1.6B模型 ,能实现性能接近4.4B模型, 内存占用仅为后者的1/22,延迟增加量为1/6 。 由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多 token)。 并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。 这就是阿里通义团队提出的 PARSCALE 。 目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。 阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发。 他们将CFG的并行思想从 " 生成阶段的推理优化 " 扩展为 " 训练和推理全流程的「计算缩放」 "。 让我们来扒一扒技术细节。 将CFG的并行思想扩展到计算缩放 PARSCALE对于CFG双路径的灵感迁移 CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生 ...
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
量子位· 2025-05-28 04:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 大模型做数独,总体正确率只有15%??? 继出场自带十篇完整学术论文的 史上首个"AI科学家" 之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。 这次,Sakana AI公布了一个AI模型 解决数独问题能力的排行榜 。 问题集是该公司推出的 全新基准Sudoku-Bench ,包含了 从简单的4x4到复杂的9x9现代数独 问题,旨在考验大模型 创造性推理能力 。 榜单显示,大模型不仅总体正确率只有 15% ,在9×9的现代数独中,即使是高性能模型 o3 Mini High ,正确率也只有2.9%。 | 3 | oluvuu-pollull lesauci kvalu | | --- | --- | | Model | Puzzles Solved | | O3 Mini High | 14.0% | | Gemini 2.5 Pro | 11.0% | | Qwen 3 235B A22B | 8.0% | | Qwen 3 30B A3B | 7.0% | | Grok 3 Mini | 6.0% | ...
港科大Apple新研究:Tokens使用量减少,模型推理还更强了
量子位· 2025-05-28 04:22
Laser团队 投稿 量子位 | 公众号 QbitAI 1+1等于几? 这一研究也在引起了讨论: 现在的大推理模型(LRMs)已经展现出了非凡的推理能力。但是面对这样最简单的数学问题,现有的LRMs仍需要花费1400+的tokens来思 考。 那么有办法让LRMs在推理思考时更快更强吗? 来自港科大、港城、滑铁卢大学和Apple的研究人员,最近提出了 Laser系列新方法 ,实现了更好的模型效率和准确率平衡,做到了两者的 共同显著提升。 经过Laser和它的进阶方法Laser-D、Laser-DE训练后的模型,相较于训练前模型或者其他方法训练的模型,在准确率(Accuracy)和 Tokens使用效率(Efficiency)上,同时取得了显著的提升。 例如在知名复杂数学推理基准AIME24上,Laser-D和Laser-DE方法能够让模型在减少Tokens使用量 63% 的情况下,还继续提升 6.1 的性 能。 同时,研究人员还发现,经过训练的模型的思考过程里,冗余的"self-reflection"的比例大大降低,呈现出了一种更加健康的思考模式。 那么,Laser是如何让大模型推理又快又好的呢? 三大创新实 ...
Claude 4破解困扰人类4年系统bug,30年码龄程序员200小时没搞定,GPT-4.1/Gemini-2.5也做不到
量子位· 2025-05-28 04:22
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 30年码龄程序员4年都没搞定的bug,Claude Opus 4只用几个小时轻松破解了。 全程只需 30个prompt+1次重启 。 而人类在过去4年花了至少200个小时,都没找到这个bug在哪。 一位资深C++程序员的分享,最近火了。 要知道,他曾在FAANG (指Meta、亚马逊、苹果、奈飞、谷歌硅谷五巨头) 担任工程师,如今也是团队中"定海神针"一样的人物。 这个bug不仅困扰他,包括 GPT-4.1、Gemini-2.5以及Claude-3.7 也找不到。 有围观的程序员表示,这种剧情他也经历过! 一个月没解决的bug,用o1-Pro十分钟就搞定了。 Anthropic的开发者关系主管也留言表示,这样的故事可能会越来越常见。 6万行代码重构后出现"白鲸bug" 故事的主角名叫ShelZuuz。 因此,他把这个bug称为 "白鲸bug" 。 这是参考了文学作品《白鲸》中,哈克船长执着半生都在追逐一头行动诡异的白鲸。 这位老哥自称有30年C++开发经验,在目前的团队里承担"技术支援"的角色,大家卡了一周的问题,他当场就能解决。 从他在Reddit上的资 ...
马斯克星舰第九次试飞失败,为测试极限拆除100块隔热瓦,返航途中燃烧解体
量子位· 2025-05-28 02:23
梦晨 西风 发自 凹非寺 量子位 | 公众号 QbitAI 马斯克星舰 第九次 飞行测试,二百万网友在线围观。 原本点火、升空一切顺利,完好无损抵达太空,SpaceX员工已经在欢呼庆祝了。 随后却接连发生意外。 首先是部署卫星测试时 舱 门 无法 打开 ,尚不清楚造成这次事故的原因。 随后星舰 在轨 道 失 控 , 发生严重翻滚 。 进入大气层后,几个摄像机位附近剧烈燃烧,先后失去信号。 最后星舰 在59.3千米高空 彻底失 联 。 随后官方确认飞船已 "快速非计划解体" 。 也标志着2025年星舰发射的连续第三次失败。 尽管如此,马斯克本人还是认为有很大进步。 下面来看具体过程。 星舰空中失联解体 本次测试 首次实现超 重型 助推器 的 重复使用 ,所用助推器B14-2曾在第七次飞行测试中完成发射与回收。该助推器原型编号为B14,复 飞时编号更新为B14-2。 助推器B14-2已完成一次性组件更换 (例如烧蚀隔热层) ,其大部分硬件沿用此前经过测试的部件,包括33台猛禽发动机中的29台。 伴随着一声声倒数,第九次飞行测试点火。助推器的 33台猛禽发动机全部成功点火 。 2分30秒,一级助推器、二级飞船 成功 ...
单卡即可微调大模型!内存占用仅1/8,性能依然拉满 | ICML 2025
量子位· 2025-05-28 02:23
GOAT团队 投稿 量子位 | 公众号 QbitAI 诸如Qwen,GPT,DeepSeek R1等基础大模型已成为现代深度学习的基石。 然而,在应用于具体下游任务时,它们庞大的参数规模使得额外微调成本较高。 为了解决这一问题,近期的研究聚焦于 低秩适应 (LoRA) 方法,通过保持基座模型参数冻 结,仅对新增的小型轻量级适配器进行微调,从而降低微调成本。 尽管LoRA具有较高的效率,然而其微调性能往往不及全量微调。 面对这一挑战, 华中科技大学 和 香港中文大学 团队提出了一项全新的LoRA微调框架—— GOAT ,该工作已成功被 ICML 2025 正式接收。 这项研究提出了一套 自适应奇异值初始化 与 混合专家梯度对齐 策略,成功缓解低秩适应 (LoRA)性能不足的难题,在 25 个多领域任务中实现接近甚至超越全参数微调(Full FT)的效果,同时仅需调整极小比例参数。 低秩适应效果不如预期 传统LoRA通过在预训练权重矩阵中添加低秩适配器(如BA矩阵),大幅减少可训练参数 (通常仅需调整0.1%-5%参数),但其性能往往显著落后于全参数微调。 现有方法通常通过随机初始化或者静态奇异值分解(Singu ...