Workflow
Transformer模型
icon
Search documents
Mamba一作预告新架构!长文论述Transformer≠最终解法
量子位· 2025-07-09 04:57
一水 发自 凹非寺 量子位 | 公众号 QbitAI Mamba一作最新大发长文! 主题只有一个,即探讨两种主流序列模型—— 状态空间模型(SSMs)和Transformer模型的权衡之术 。 简单介绍下,Mamba就是一种典型的SSMs,它建立在更现代的适用于深度学习的结构化SSM基础上,与经典架构RNN有相似之处。 在最受关注的语言任务上,Mamba-3B超越同等规模的Transformer,与两倍大的Transformer匹敌,因此 被视为Transformer架构的有力挑 战者 。 现在,Mamba一作将自己去年的几场演讲整合成一篇科普长文,向大众分享了如下观点: 而且他还提前剧透, 几天后将发布"架构领域的下一个重大进展" 。 虽然还不知道具体内容,但他目前扔出来的消息已经足够大家抓耳挠腮一段时间了。 因为他提到了一个重要观点—— 注意力机制的缺点实际上并不是它的二次复杂度 。 要知道之前大家都认为,ChatGPT等大模型之所以处理长文本算力消耗巨大,背后原因是Transformer架构中注意力机制的二次复杂度。 而现在,这样的共识或许即将被推翻~ 不过好消息是, 即将推出的新架构能够和Transf ...
田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索
量子位· 2025-06-19 06:25
Core Viewpoint - The article discusses a new research achievement by a team led by AI expert Tian Yuandong, which introduces a continuous thinking chain model that parallels quantum superposition, enhancing efficiency in complex tasks compared to traditional discrete thinking chains [2][4]. Group 1: Research Findings - Traditional large language models (LLMs) utilize discrete tokens for reasoning, which can be inefficient for complex tasks, requiring O(n^2) decoding steps and often getting stuck in local optima [4]. - Recent studies indicate that using continuous hidden vectors for reasoning can significantly improve performance, although theoretical explanations were previously lacking [5]. - The team demonstrated that a two-layer Transformer with D-step continuous chains of thought (CoTs) can solve directed graph reachability problems, outperforming discrete CoTs models that require O(n^2) decoding steps [7]. Group 2: Methodology - The continuous thinking chain allows for simultaneous encoding of multiple candidate graph paths, akin to breadth-first search (BFS), providing a significant advantage over discrete thinking chains, which resemble depth-first search (DFS) [8]. - A designed attention selector mechanism enables the model to focus on specific positions based on the current token, ensuring effective information extraction [11][12]. - The first layer of the Transformer organizes edge information, while the second layer facilitates parallel exploration of all possible paths [21][22]. Group 3: Experimental Results - The team conducted experiments using a subset of the ProsQA dataset, which required 3-4 reasoning steps to solve, with each node represented as a dedicated token [26]. - The COCONUT model, utilizing a two-layer Transformer, achieved an accuracy close to 100% in solving ProsQA problems, while a 12-layer discrete CoT model only reached 83% accuracy, and a baseline model solved approximately 75% of tasks [27][28]. - The model's behavior was further validated through analysis of attention patterns and continuous thinking representations, supporting the theoretical hypothesis of superposition search behavior [30].
心智×算法 如何“共舞”(瞰前沿·人工智能如何改变科研范式)
Ren Min Ri Bao· 2025-06-13 21:43
近年来,人工智能加速发展,不仅推动人类进入智能时代,也以前所未有的深度和广度影响科学研究的 思维方式和工作模式。数据显示,2019年—2023年,全球AI for Science(人工智能驱动的科学研究)论 文发表年均增长率为27.2%。 挖掘海量数据、助力文献分析、提供科研方案……当人工智能深度融入科研,给科研范式带来了哪些变 化?科学家们怎样利用人工智能做研究?智能时代,知识生产新范式又可能带来什么挑战?本版推 出"瞰前沿·人工智能如何改变科研范式"系列策划,本期聚焦心理学研究领域。 ——编者 心理学和人工智能有啥渊源? 在电影《流浪地球2》中,人工智能MOSS通过分析刘培强颤抖的嘴角和躲闪的眼神,瞬间识破他隐藏 的秘密。 这个科幻场景或许将照进现实——从手机的面部解锁功能,到购物APP的"猜你喜欢",再到心理咨询的 AI助手,心理学与人工智能携手进化。 实际上,心理学与人工智能渊源不小。 记得生理学家巴甫洛夫那只听到铃声就流口水的狗吗?这个经典的"条件反射"实验启发了人工智能领域 最重要的技术之一:强化学习。人工智能AlphaGo战胜人类围棋高手的绝招,本质上就像类似训练的升 级版,通过"吃"掉海量的围 ...
普通人如何月入过万?这五大AI副业方向值得关注
3 6 Ke· 2025-05-27 08:56
人工智能(AI)领域正蓬勃发展。 麦肯锡的一项最新研究发现,企业使用生成式人工智能的比例已从2024年初的65%跃升至今年3月的71%。随着企业用户开始接受它,普通副业者也开始 积极参与。 03.AI视频剪辑 以往手动剪辑视频可能需要数小时,这会带来很多限制。目前,借助Veed.IO或Runway等AI工具,可以在极短时间内完成视频剪辑与调色、场景重组、去 除背景噪音,甚至生成字幕等操作。 借助AI开展副业可以做到更高效,既能增加收入,又能节省时间。下面是一些具体的创意和方向: 01.创建定制化GPT 如果熟悉ChatGPT或类似工具的使用逻辑,就可以利用这些知识为特定领域创建定制化GPT(即生成式预训练Transformer模型)。当聊天机器人生成所需 代码后,将其部署在私有网站上,并向企业提供免费试用,随后采用按月收费的模式。 具体应用场景十分广泛,例如生成法律文件的自动回复、将笔记翻译成正式报告等。最好的方法是针对客户提及的痛点,或通过社交媒体或专业论坛调 研,针对特定的任务,开发自动化解决方案,并且一款工具可以服务数百名面临相同问题的客户。 02.开发AI微型工具 如果没有想法创建定制化GPT,也可以 ...