Transformer
Search documents
前谷歌研究员发文:算力崇拜时代该结束了
机器之心· 2026-01-10 07:00
Core Viewpoint - The article discusses the potential end of the scaling era in AI, emphasizing that merely increasing computational power may not yield proportional improvements in model performance, and highlights the rise of smaller models outperforming larger ones [1][5][7]. Group 1: Trends in AI Development - The belief that scaling computational resources leads to better model performance is being challenged, as evidence shows that larger models do not always outperform smaller ones [8][14]. - The past decade has seen a dramatic increase in model parameters, from 23 million in Inception to 235 billion in Qwen3-235B, but the relationship between parameter count and generalization ability remains unclear [14]. - There is a growing trend of smaller models surpassing larger models in performance, indicating a shift in the relationship between model size and effectiveness [8][10]. Group 2: Efficiency and Learning - Increasing model size is becoming a costly method for learning rare features, as deep neural networks are inefficient in learning from low-frequency data [15]. - High-quality data can reduce the dependency on computational resources, suggesting that improving training datasets can compensate for smaller model sizes [16]. - Recent advancements in algorithms have allowed for significant performance improvements without the need for extensive computational resources, indicating a shift in focus from sheer size to optimization techniques [17][18]. Group 3: Limitations of Scaling Laws - Scaling laws, which attempt to predict model performance based on computational power, have shown limitations, particularly when applied to real-world tasks [20][21]. - The reliability of scaling laws varies across different domains, with some areas showing stable relationships while others remain unpredictable [21][22]. - Over-reliance on scaling laws may lead companies to underestimate the value of alternative innovative approaches in AI development [22]. Group 4: Future Directions - The future of AI innovation may not solely depend on scaling but rather on fundamentally reshaping optimization strategies and exploring new architectures [24]. - There is a noticeable shift towards enhancing performance during the inference phase rather than just during training, indicating a new approach to AI development [25]. - The focus is moving from creating stronger models to developing systems that interact more effectively with the world, highlighting the importance of user experience and system design [27][28].
Transformer已死?DeepMind正在押注另一条AGI路线
3 6 Ke· 2026-01-09 02:42
借鉴人类联想记忆,嵌套学习让AI在运行中构建抽象结构,超越Transformer的局限。谷歌团队强调:优化器与架构互为上下文,协同进化才 能实现真正持续学习。这篇论文或成经典,开启AI从被动训练到主动进化的大门。 「灾难性遗忘」,一个困扰了AI界几十年的幽灵,这一次或许被彻底解决了。 过去一年,AI突飞猛进,绝非夸张的修辞,仅谷歌DeepMind一年的成就,就让人眼花缭乱: 但如果DeepMind要选2025年最重要的研究或产品,那最近火爆的嵌套学习「Nested Learning」必有一席之地。 有网友读过论文之后,发帖表示,这篇论文就是《Attention is All you Need》的「续集」。 如果Transformer开启了Scaling时代,那么嵌套学习,可能正在开启真正的AGI时代。 DeepMind创始人Shane Legg更直接,AGI一路坦途,最新进展就是嵌套学习。 甚至有网友表示,如果要给未来的外星人留一篇论文,必然是这篇《嵌套学习》。 JT Investing @ @JLTinvesting · Nov 27, 2025 What we are seeing today with ...
Transformer能否支撑下一代Agent?
Tai Mei Ti A P P· 2025-12-22 07:39
文 | 划重点KeyPoints,作者 | 李越 12月18日,2025腾讯ConTech大会暨腾讯科技Hi Tech Day正式播出,中国工程院院士、知名专家和学 者、头部科技企业创始人及知名投资人齐聚一堂,共同探讨智能时代的机遇与挑战。 原本能够带领我们通往AGI的Transformer,是否已经触碰到了天花板? 只会做题的优等生 在2017年之前,AI自然语言处理(NLP)的主流方式还是RNN(循环神经网络)和LSTM(长短期记忆 网络)。它们处理信息的方式像一个勤恳的阅读者,必须按顺序一个字一个字地读,效率低下且难以捕 捉长距离的语义关联。 2017年,Google论文《Attention Is All You Need》横空出世,彻底改变了这一切。 Transformer架构抛弃了循环,引入了"自注意力机制"。它不再按顺序阅读,而是能同时关注句子中的所 有词,并计算它们之间的关联权重。 在圆桌论坛环节,当主持人把话筒递给阶跃星辰首席科学家张祥雨,询问关于模型架构未来时,这位学 术大牛抛出了一枚"深水炸弹":现有的Transformer架构无法支撑下一代Agent。 而就在不久前,斯坦福大学教授、"A ...
AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢
3 6 Ke· 2025-12-21 23:25
AI界「双神会」来了!一场NeurIPS 2025炉边谈话,AI教父Hinton和Jeff Dean同台,亲口爆料了AI革命「那些年」,还有更多鲜为人知的轶 事。 NeurIPS 2025那场轰动一时的访谈,如今终于放出来了! AI教父Hinton和DeepMind首席科学家Jeff Dean,两位AI圈关键人物,曾经合作多年的老友聚在一起。 现场,Hinton直接抛出了一个尖锐的问题—— 谷歌是否后悔发表Transformer论文? Jeff Dean给出了干脆的回应,「不后悔!因为它对世界产生了巨大的影响」。 不仅如此,Hinton还公开透露,自己关于Scaling的顿悟,源于Ilya的一场演讲。 在近1小时的对话中,两位大佬回顾了从ML早期突破,到当今塑造该领域的挑战、机遇等等。 他们还分享了,一些非常精彩的轶事—— 从卧室运行AlexNet的两块GPU,到谷歌大脑(Google Brain)的早期岁月。 AI教父Scaling顿悟,来自Ilya 对话的开场,先从一个有趣的共同点开始: 两位Geoff和Jeff都对「反向传播」(backpropagation)着迷。 这一概念的论文虽在1986年于Nat ...
遥遥无期的AGI是画大饼吗?两位教授「吵起来了」
机器之心· 2025-12-21 04:21
Core Viewpoint - The article discusses the limitations of achieving Artificial General Intelligence (AGI) due to physical and resource constraints, emphasizing that scaling alone is not sufficient for significant advancements in AI [3][20][32]. Group 1: Limitations of AGI - Tim Dettmers argues that AGI will not happen because computation is fundamentally physical, and there are inherent limitations in hardware improvements and scaling laws [8][10][12]. - The article highlights that as transistor sizes shrink, while computation becomes cheaper, memory access becomes increasingly expensive, leading to inefficiencies in processing power [11][17]. - The concept of "superintelligence" is critiqued as a flawed notion, suggesting that improvements in intelligence require substantial resources, and thus, any advancements will be gradual rather than explosive [28][29][30]. Group 2: Hardware and Scaling Challenges - The article points out that GPU advancements have plateaued, with significant improvements in performance per cost ceasing around 2018, leading to diminishing returns on hardware investments [16][17]. - Scaling AI models has become increasingly costly, with the need for linear improvements requiring exponential resource investments, indicating a nearing physical limit to scaling benefits [20][22]. - The efficiency of current AI infrastructure is heavily reliant on large user bases to justify the costs of deployment, which poses risks for smaller players in the market [21][22]. Group 3: Divergent Approaches in AI Development - The article contrasts the U.S. approach of "winner-takes-all" in AI development with China's focus on practical applications and productivity enhancements, suggesting that the latter may be more sustainable in the long run [23][24]. - It emphasizes that the core value of AI lies in its utility and productivity enhancement rather than merely achieving higher model capabilities [24][25]. Group 4: Future Directions and Opportunities - Despite the challenges, the article suggests that there are still significant opportunities for improvement in AI systems through better hardware utilization and innovative model designs [39][45][67]. - It highlights the potential for advancements in training efficiency and inference optimization, indicating that current models are not yet fully optimized for existing hardware capabilities [41][43][46]. - The article concludes that the path to more capable AI systems is not singular, and multiple avenues exist for achieving substantial improvements in performance and utility [66][69].
为什么现代 AI 能做成?Hinton 对话 Jeff Dean
3 6 Ke· 2025-12-19 00:47
2025 年 12 月初,圣地亚哥 NeurIPS 大会。 Geoffrey Hinton(神经网络奠基人、2024年诺贝尔物理学奖得主)与Jeff Dean(Google首席科学家、 Gemini模型联合负责人、TPU架构师)的炉边对谈,成为这场大会的重要时刻。 对话聚焦一个关键问题: 现代 AI 为什么能从实验室走向数十亿用户? 从 AlexNet 在学生卧室的两块 GPU 上训练,到 Google 在餐巾纸上算出TPU需求;从学术圈的小众实 验,到支撑全球亿级应用的基础设施。 这是一次对 AI 工业化进程的系统性复盘。 他们给出的答案是:现代 AI 的突破从来不是单点奇迹,而是算法、硬件、工程同时成熟后的系统性涌 现。强算法必须与强基础设施结合,才能真正走向规模化。 看清这条路径,你就能理解AI为什么是今天这个样子。 第一节|AI的突破,起于一块GPU板 Geoffrey Hinton 说,现代 AI 真正的转折,不在某篇论文里,而是在他学生 Alex 的卧室里:两块 NVIDIA GPU 板,插在父母家电脑上,训练图像识别模型。电费,还是家里人掏的。 那是 2012年 ,ImageNet 比赛。 别人 ...
AI大牛张祥雨:Transformer撑不起Agent时代
Di Yi Cai Jing· 2025-12-18 10:52
人脑是"无限流"压缩大师,大模型靠堆层数无法学会人类记忆,到8万Token就不可用了。 "但是很快我们发现了一个巨大的副作用。"张祥雨说,真正的难点是模型的智商会随着文本变化快速下降。"今天的Transformer,不管号称发布出来说支持 到多少Token,基本上到8万个就不可用了。" 这个问题指向了Transformer的一个缺陷,就是它的单向信息流设计。无论输入序列(Context)多长,模型的有效"思考深度"的信息只能从浅层向深层单向 传递,缺乏从深层向浅层的反馈与压缩机制,这与人类大脑"无限流"的记忆机制存在本质差异。 "我今天讲过的每一句话,都是历史上我见过的所有信息的函数。"张祥雨用比喻阐明,"这个函数能用层数固定的网络来表示吗?肯定不可以。"他说人类大 脑能够对从小到大的海量经历进行动态压缩和选择性回溯,而当前Transformer结构无法实现这种类似"无限流"世界的智能处理需求,这制约了AI向具备高度 自主性、能长期持续学习的通用Agent演进。 事实上,当前已经开始有研究者讨论Transformer是否存在根本局限性。就在今年10月,Transformer 架构的共同创造者Llion Jon ...
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
量子位· 2025-12-15 08:05
就像生物进化一样, AI"配方"的设计本质上就是一个不断试错的过程,而进化的速度,取决于"复制"一个新想法所需的时间。 在本次 量子位MEET2026智能未来大会 上,他也将开源视为AI进化的核心加速器—— 若没有开源,行业的进化速度恐怕要慢上一千倍;正是因为有了开源,技术才能像生物适应新环境一样,经历"长期停滞+瞬间爆发"的非线性 跃迁。 编辑部 整理自 MEET2026 量子位 | 公众号 QbitAI 从生物进化的漫长历程到AI技术的疯狂迭代,两者遵循着惊人相似的底层逻辑。 在探寻下一代AI架构的关键时刻,著名的"Kaldi之父"、小米集团首席语音科学家、IEEE Fellow Daniel Povey 提出: 至于如何在未来的竞争中生存,在他看来,大公司最明智的策略是"两条腿走路"—— 一边利用Transformer赋能当下的产品,一边保留资源探索未知,赌中下一个颠覆世界的机会。 为了完整体现Daniel Povey的思考,在不改变原意的基础上,量子位对演讲内容进行了翻译和编辑整理,希望能给你带来更多启发。 MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近 ...
我和辛顿一起发明了复杂神经网络,但它现在需要升级
3 6 Ke· 2025-12-14 23:26
而83岁的谢诺夫斯基,依然在实验室里追问那个问题。 也许没有人比他更适合回答今天AI缺失的那些碎片。他见证了神经网络从"异端"到"改变世界"的全过 程;他既懂物理学的简洁优雅,也懂生物学的复杂混沌;他和辛顿一起打开了AI的大门,又眼看着这 扇门后的世界变得越来越陌生。 1984年的一天,物理学家特伦斯·谢诺夫斯基和心理学家杰弗里·辛顿坐在实验室里,盯着黑板上的方程 发呆。那是AI的第二个寒冬,神经网络陷入僵局。人们都知道多层网络更强大,但没人知道怎么训练 它。 "如果我们把神经网络想象成一团气体呢?"谢诺夫斯基突然说。 这个疯狂的想法最终变成了玻尔兹曼机,这是一个用统计物理学重新定义"学习"的数学模型。它证明了 只要找到合适的能量函数,神经网络就能像气体从高温降到低温一样,自发地调整到最优状态。 这成为现代深度学习的理论基石之一。 但两人后续的志趣却互相有所偏离。辛顿发现了更实用的反向传播算法,带领深度学习走出寒冬,最终 迎来ChatGPT主导的AI时代。而谢诺夫斯基选择了回到神经科学实验室,用几十年时间解剖大脑的每一 个回路,试图回答那个最初的问题:大脑究竟是如何工作的? 40年后,辛顿因玻尔兹曼机获得20 ...
8 年后回到斯坦福,布林复盘谷歌 AI:错在太谨慎
3 6 Ke· 2025-12-14 01:34
"我们搞砸了。" 2025 年 12 月 12 日,斯坦福工程学院百年庆典。 谷歌联合创始人谢尔盖·布林(Sergey Brin)回到母校,坐在讲台中央,开门见山: Transformer论文是我们发的,但我们没有足够认真对待它。 算力没跟上,产品不敢推,就怕聊天机器人说蠢话。 时间回到 2017 年。那一年,Google发布Transformer,技术上领先全球。但 5 年后,率先把大模型变成 产品的,却是 OpenAI。 ChatGPT 横空出世,Claude紧随其后。而谷歌,错过了AI的第一轮爆发。 布林没有回避这段历史。他直言:我也在场,但我们没有行动。 2022 年底,他重新回归Google,亲手参与 Gemini的每一个关键决策。 这一次回到斯坦福,他不讲情怀,只讲三件事: 谷歌错在哪? 现在怎么追? 这场仗,怎么打? 第一节|发明了Transformer,却输给了OpenAI 2017年,Google的研究团队发表了那篇划时代的论文《Attention is All You Need》。Transformer架构由 此诞生,点燃了整个大模型时代。 彼时谷歌内部并非没有察觉其颠覆性意义。Jeff ...