Workflow
语言模型
icon
Search documents
最新发现!每参数3.6比特,语言模型最多能记住这么多
机器之心· 2025-06-04 04:41
GPT 系列模型的记忆容量约为每个参数 3.6 比特。 语言模型到底能记住多少信息?Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示: 每个 参数大 约 3.6 比特 。一旦达到这个极限,它们就会停止记忆 并开始泛化。 长期以来,记忆与泛化之间的模糊性一直困扰着对模型能力和风险的评估,即区分其输出究竟源于对训练数据的「记忆」 (对其训练数据分布的编码程度) ,还 是对潜在模式的「泛化」理解 (将理解扩展到未见过的新输入)。 这种不确定性阻碍了在模型训练、安全、可靠性和关键应用部署方面的针对性改进。 机器之心报道 编辑:+0、张倩 这就好比我们想知道一个学生考试得了高分,是因为他真的理解了知识点(泛化),能够举一反三,还是仅仅因为他把教科书上的例题和答案都背下来了(记 忆)。 基于此,研究团队提出了一种新方法,用于估计一个模型对某个数据点的「了解」程度,并利用该方法来衡量现代语言模型的容量。 研究团队从形式上将记忆分为两个组成部分: 通过消除泛化部分,可以计算出给定模型的总记忆量,从而估计出模型容量:测量结果估计, GPT 系列模型的容量约为每个参数 3.6 比特 。 研究团队训练了数百个参数量 ...
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
机器之心· 2025-06-04 04:41
强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题?这个问题,学界争论已久:RL 真能让模型学会新的推理 技能吗,还是只是提高了已有知识的调用效率? 过去的研究多数持悲观态度:认为 RL 带来的收益非常有限,有时甚至会让模型「同质化」加重,失去多样性。然而,来自英伟达的这项研究指出,造成这 一现象的根本原因在于:数学、编程等任务在 base model 的训练数据中被过度呈现,以及 RL 训练步数不足。 论文题目:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models 链接:https://arxiv.org/pdf/2505.24864 ProRL 来了!长期训练 = 推理能力质变! 由 NVIDIA 团队提出的 ProRL(Prolonged Reinforcement Learning)框架,将 RL 训练步数从传统的几百步大幅提升至 2000 步以上,释放了小模型潜 藏的巨大潜力。结果令人震惊: KL 正则化 + 周期性策略重置 这一突 ...
11.98万元起售,小鹏MONA M03加推四款新版型升级上市
Bei Jing Shang Bao· 2025-06-04 04:11
北京商报讯(记者 刘晓梦)5月28日,小鹏MONA M03升级上市,并加推四款全新版型,分别为小鹏MONA M03 502长续航Max、小鹏MONA M03 600超长 续航Max,以及小鹏MONA M03 515长续航 Plus、小鹏MONA M03 620超长续航Plus,官方指导价为11.98万—13.98万元。作为MONA系列的进阶产品,本次 更新在智能驾驶、座舱系统、外观配置等多方面集中升级,强化小鹏纯电市场的智能化竞争力。 与此同时,新车首次搭载全球首发的人机共驾功能,实现智能辅助驾驶过程中不强制接管控制,提升人机协同的平滑性与驾驶者掌控感。泊车能力也同步增 强,支持极窄车位、自主出库与全场景车位到车位路径规划,强调智能体验的日常可用性。 智能座舱方面,MONA M03 Max首发天玑系统5.7.0版本,新增超300项功能,语音控制覆盖率超过90%。依托小鹏自研的大语言模型XGPT,座舱实现推 理、百科查询、连续对话等复杂交互,语音响应时间控制在0.9秒内。系统兼容多家主流手机品牌,进一步拓展车机生态的使用边界。 在造型与舒适性方面,新车提供星暮紫、微月灰、星雨青三款原厂新车色,新增两种轮毂设计, ...
共封装光学,达到临界点
半导体行业观察· 2025-06-04 01:09
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容 编译自 semiengineering 。 基于共封装光学器件 (CPO) 的网络交换机已开始商业化,能够以每秒太比特的速度路由信号,但 在光纤到光子 IC 对准、热缓解和光学测试策略方面仍然存在制造挑战。 通过将光电数据转换尽可能靠近数据中心的 GPU/ASIC 交换机,CPO 显著提升了带宽,并降低了 运行生成式 AI 和大型语言模型所需的功耗。采用共封装光学器件有望大幅降低训练 AI 模型的能 源成本,并显著提高数据中心的能源效率。 Amkor Technology 产品营销副总裁 David Clark 表示:"尽管当今的 AI 加速器、GPU 和高容量 网络交换机正在快速突破计算能力的界限,但它们却受到芯片级、主板级、托盘级和机架级互连瓶 颈的制约。CPO通过提供 1 Tbps/mm 的带宽密度,实现更高的前面板端口密度,并在日益拥挤的 数据中心优化宝贵的机架空间,打破了这些限制。" 如今,在数据中心中,计算机机架中的网络交换机由 GPU/ASIC 芯片组成,这些芯片通过 PCB 电连接到机架前端的可插拔光收发器。这些光收发器集成了激光器、光路、 ...
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
量子位· 2025-06-04 00:17
General-Reasoner团队 投稿 量子位 | 公众号 QbitAI 一项新的强化学习方法,直接让Qwen性能大增,GPT-4o被赶超! 来自加拿大滑铁卢大学与TikTok新加坡,M-A-P的华人团队提出了一种全新训练框架: General- Reasoner 。 结果直接让Qwen系列大模型的跨领域推理准确率提升近10%,在多个基准测试中甚至超越GPT-4o。 上图显示出General-Reasoner在多项跨领域评测中显著提升基础模型推理能力。 当前,强化学习(RL)被视为提升模型推理能力的关键手段。其中,Zero-RL方法通过直接训练基础 模型,已在数学和编程等结构化任务上展现出强大效果。 问题是,这些方法往往局限于数据丰富、答案结构清晰的领域,在面对物理、金融或人文社科等更广 泛的领域时,模型难以有效泛化。 接下来看看研究团队是如何解决这些推理难题的? 相较现有方法的关键革新 目前的Zero-RL框架如SimpleRL通常聚焦于单一领域数据,采用简单的规则式答案验证,存在以下不 足: 数据单一 多为数学竞赛或代码任务,泛化能力有限; 验证方式僵化 仅能识别明确结构化答案,无法灵活处理多样化的答 ...
工银瑞信马丽娜:两大方向布局AI核心主线
券商中国· 2025-06-03 23:15
Core Viewpoint - The article emphasizes the ongoing investment trend in artificial intelligence (AI) led by DeepSeek since 2025, with a focus on public funds, particularly the upcoming launch of the 工银科技先锋混合发起式基金 managed by Marina, which targets high-quality companies in the AI industry chain [1][2]. Investment Focus - The new fund will concentrate on two main areas: AI infrastructure and AI semiconductors, as well as AI applications, reflecting the current technological trends driven by large language models [2][8]. - Marina's investment strategy involves identifying companies that benefit from industry trends, focusing on those with high performance growth, valuation flexibility, and competitive barriers [5][6]. Fund Management Background - Marina has a strong academic background in microelectronics and computer science from Peking University and has been with 工银瑞信基金 for 10 years, specializing in technology industry research and investment [3]. - The 工银科技先锋 fund represents Marina's latest move in the AI industry chain, differing from her previous fund, 工银新兴制造, by having a broader investment scope that includes more AI applications [3][4]. Market Trends and Predictions - The article outlines that the current AI investment wave is characterized by the development of large language models, with significant advancements expected in AI applications over the next 3-5 years as model capabilities improve and costs decrease [4][8]. - The article also highlights that the hardware infrastructure in China is catching up, and the gap in model development between China and the US is narrowing, suggesting a potential advantage for domestic applications due to a large internet market and a well-established robotics industry [8][9].
AI 编程终结的不是代码,而是作为「容器」的软件
Founder Park· 2025-06-03 12:56
以下文章来源于范阳 ,作者范阳 范阳 . This is a "living media", 目标是建立一种文化, 使前沿科技和风险投资为人类服务,而不是把人类和生态作为手段。我是一名创业者,科技投资人和内容创 作者,这里也是我学习和成长的地方。 2005 年 YouTube 的「上传」按钮开启了内容创作的民主化时代。而现在,AI 以「描述」这一动词,正在改变我们对于软件的认知与生产方式。 一年后,这个预测逐渐应验。Chris Paik 近期再次发布了一篇博客文章《无限代码的黎明》,顺着这个方向,提出随着大语言模型(LLM)将代码生成的 成本降至趋近于零,传统意义上作为独立「应用程序」或「平台」存在的软件形式将逐渐消失。这篇文章的最核心观点是:软件的终结并非代码的死亡, 而是其作为「容器」的消融。 以下为文章原文,内容略有调整。 原文链接: https://docs.google.com/document/d/1Dm9UrhgaRMu_DjOz5KluO7ibOsPaUVQgwnC5-ccw9_g/mobilebasic 超 4000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者 ...
“互联网女皇”AI报告图解版:AI采用速度前所未有,推理成本暴跌99.7%
3 6 Ke· 2025-06-03 12:14
在隐退五年后,被誉为"互联网女皇"的传奇风险投资家玛丽·米克尔于近日发布长达340页的《AI趋势报告》。这份被业界称为"AI圣 经"的文档,用51次"前所未有"的表述宣告:人工智能革命已进入不可逆的爆发期,人类正站在技术奇点的临界点。 在报告中,米克尔利用大量图表详尽呈现了人工智能技术在开发速度、应用广度、资金投入和使用规模方面的爆炸性增长,并质疑 OpenAI等AI巨头的"烧钱模式"是否能持续下去。 下面,就让我们以图表的形式解读下这份报告的核心内容: 用户的AI采用速度是前所未有的 报告显示, 人工智能时代的来临标志,是AI用户群的激增。 与互联网1.0革命的技术起步于美国,然后稳步向全球扩散不同的是,ChatGPT一下子登上了世界舞台,并在全球大部分地区同时增长。 作为衡量算力的基本计量单位,浮点运算次数在2010年以后开始增速显著增加,年增长率达到360%。 如果以美国计算相关专利授权数量为例,可以发现,第一次加速是在1995年,标志着互联网时代的开始。2004年起,其增速放缓,标志 着互联网时代的发展也开始变慢。在2022年ChatGPT发布之后,专利数量又一次开始爆发式增长,而且比1995年那次更 ...
疯了!我那些怀疑 AI 的程序员朋友,都疯了!网友:越聪明越觉得 LLM 不行
程序员的那些事· 2025-06-03 10:12
关于讨论 AI 编程助手/ LLM 的文章,最近发了几篇: 今天在 HackerNews 看到一篇讨论 AI 辅助编程的文章,再次引爆这个话题了。 早上我刷到这篇文章收藏时也就 600 多个留言,在 18:01 已有 1830 个留言,也是吵得不可开交了。 我那些怀疑 AI 的朋友都疯了 这是一篇关于 AI 辅助编程的诚挚探讨 。 科技公司高管们都在强推大语言模型(LLM)的应用,这策略着实不咋地,但我能理解他们的出发点。 我认识的一些聪明人坚信 AI 不过是昙花一现的潮流,就跟当年的 NFT 热潮差不多。我一直不太敢反驳他们, 毕竟,人家确实比我聪明。但他们的观点站不住脚,值得好好说道说道。有些极有才华的人,纯粹出于抵触情 绪,还在做那些 LLM 早已能出色完成的工作。 就算从今天起,LLM 的发展彻底停滞,它也依然是我职业生涯中第二重要的事物。 重要提醒:我这里只讨论 LLM 对软件开发的影响。至于在艺术、音乐和写作领域,我没啥看法。我倾向 于认同这些领域里质疑者的观点,但在我自己的专业领域,我可不信他们那一套。 先自报家门: 从上世纪 90 年代中期起,我就开始搞软件开发了。最开始写盒装的 C 语言代码 ...
“不用 Cursor和 ChatGPT、手写代码的开发者,怕不是疯了?”
3 6 Ke· 2025-06-03 08:53
从 1990 年代中期就开始从事软件开发的 Thomas Ptacek 写了一篇文章,字里行间透露出一种近乎无奈的挫败感。他精准捕捉了一个经验 丰富的程序员在网上试图为"LLM 其实真的很有用"辩护时所感受到的孤立与无力。他写道: 在我认识的顶尖聪明人里头,不少都坚信 AI 只是一时得势——可以说是 NFT 热潮的又一个翻版。我一直不想反驳他们,因为 人家确实比我水平高。但他们的论点却并不严肃,甚至可以说站不住脚。有些聪明人其实是心里不想承认,自己的很多工作已 经可以被大模型替代乃至完成得更好。 简单来讲,哪怕大语言模型的发展就到目前的水平止步,那它也足以成为我整个职业生涯中亲身见证的第二大技术突破。 Thomas Ptacek 给这篇文章取名为《我那群怀疑 AI 的朋友,都疯了》,一半是吐槽,一半是真情流露。 但问题在于,"疯子"到底是谁? 对支持者来说,疯子是那些到了 2025 年还拒绝使用 AI 辅助开发的人。无独有偶,一位来自 TextToSlides.AI 的工程师在博客中写道: 昨天我看到一个场景让我当场愣住:一位同事坐在工位前,一行一行敲代码,没有 Copilot 自动补全,没有 ChatGPT ...