Attention Mechanism

Search documents
从语言到意识的“一步之遥”,AI究竟要走多远?
腾讯研究院· 2025-06-26 07:58
以下文章来源于追问nextquestion ,作者追问 追问nextquestion . 科研就是不断探索问题的边界 George Musser 作者 张旭晖 编译 人工智能的终极梦想,从来不局限于打造一个能击败国际象棋特级大师的博弈引擎,或是设计出花言巧 语蛊惑人心的聊天机器人。它的真正使命,是成为一面映照人类智慧的明镜,帮助我们更深刻地认识自 我。 科研工作者的目标,也不止于是狭义的人工智能,他们追求的是通用型人工智能 (A GI ) ——一种具有 类人的适应力与创造力的智能系统。 诚然,如今大语言模型 (LLM) 的问题解决能力已然让大多数研究者刮目相看,但它们依然有着明显的 短板,例如缺乏持续学习的能力——一旦完成基于书籍、网络文本等材料的训练后,它们的知识库就被 冻结了,再也无法"更新"。正如AI公司SingularityNET的本·格策尔 (Ben Goertzel) 形象地比喻:"你没法 让大语言模型去上大学,甚至连幼儿园都进不了。"它们通过不了有"机器人高考"之名的综合测验。 "掌握"了语言,离模拟思维还有多远? 在语言处理方面,目前的LLM确实展现出了专家所称的AGI"形式能力":即使你提供 ...
大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起
晚点LatePost· 2025-03-02 06:10
嘉宾 丨 肖朝军、傅天予 整理 丨 程曼祺 上周,DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果,分别是 NSA、MoBA。二者都聚焦对大 模型中 "注意力机制" 的改进。 o 1 、 R 1 等 推 理 模 型 的 出 现,给 了 长 文 本 新 课 题 。 注意力机制是当前大语言模型(LLM)的核心机制。2017 年 6 月那篇开启大语言模型革命的 Transformer 八 子论文,标题就是:Attention Is All You Need(注意力就是你所需要的一切)。 而优化 Attention 的计算效率和效果,又能帮助解决 AI 学界和业界都非常关心的一个问题,就是长文本(long context)。 不管是要一次输入一整本书,让模型能帮我们提炼、理解;还是在生成现在 o1、R1 这类模型需要的长思维 链;又或者是希望模型未来能有越来越长的 "记忆",这都需要长文本能力的支持。 这期节目我们邀请了两位做过 Attention 机制改进的 AI 研究者做嘉宾。 一位是清华计算机系自然语言处理实验室的博士生肖朝军,他是 InfLLM 注意力机制改进的一作,导师是清华 计算机系副教授 ...