Transformer架构

Search documents
大模型专题:大模型架构创新研究报告
Sou Hu Cai Jing· 2025-06-06 11:38
今天分享的是:大模型专题:大模型架构创新研究报告 报告共计:30页 《大模型专题:大模型架构创新研究报告》聚焦大模型架构创新,分析Transformer架构的局限性及行业探索路径。报告指出,随着模型规模扩大, Transformer的二次计算复杂度(O(n²))导致算力消耗激增,长序列处理效率瓶颈凸显,端侧部署受限,行业对其路径依赖引发创新需求,当前主要从 Transformer架构改进和非Transformer架构探索两条路线突破。 Transformer架构改进围绕Attention机制、FFN层及归一化层展开:稀疏注意力、动态注意力等优化计算效率,MoE混合专家分解FFN层提升稀疏连接效率, LongRoPE等技术改进位置编码增强长序列建模。非Transformer架构则包括新型RNN(如RWKV、Mamba)、新型CNN(如Hyena Hierarchy)及其他创新架 构(如RetNet、LFM),其中RWKV通过广义Delta Rule优化状态演化,Mamba利用状态空间模型提升训练效率,RetNet结合状态空间与多头注意力实现并 行计算。 技术发展呈现混合架构趋势,线性Transformer与非T ...
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
3 6 Ke· 2025-05-28 11:59
文|周鑫雨 编辑|苏建勋 预训练还是不是王道?如今AI行业,这是最大的"罗生门"事件。 2023年,模型预训练,还是第一性原理。然而,从OpenAI前首席科学家Ilya公开喊话"预训练已走到尽头",到聚焦强化学习的DeepSeek R1出圈,又昭示着 预训练风光不再。 从人人追捧,到口碑滑坡,预训练境遇的变化,是AI行业"共识"与"非共识"不断流动的一个缩影。 针对AI技术的共识与非共识,2025年5月27日的"技术开放日"上,蚂蚁集团攒了一个交流局。 圆桌对话的参与者,是当下最热的创业者、技术高管和学者: 曹越,视频模型公司Sand.AI创始人,前光年之外联创。2024年7月完成两轮融资后,公司估值已经超过1亿美元; 林俊旸,阿里通义千问(Qwen)技术负责人。从2021年发布的M6,到2025年的Qwen3,他都是名副其实的模型一把手; 孔令鹏,香港大学助理教授、NLP LAB联合主任。其牵头研发的扩散推理模型Dream 7B,成为了开源扩散语言模型的新SOTA。 △图源:作者拍摄 某种意义上,曹越和孔令鹏,都在探寻AI"非共识"的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构,分别应用到 ...
自动驾驶未来技术趋势怎样?李想:现阶段VLA是能力最强的架构
news flash· 2025-05-07 13:27
今晚在《理想A Talk第二季》节目中,理想汽车CEO李想谈及辅助驾驶系统转向VLA架构时表示,VLA 能够解决到全自动驾驶,但是它是否是一个效率最高的方式?是否有效率更高的架构出现?我打个问 号,我认为大概率还是会有的。李想分析指出,因为VLA还是基于transformer架构的。那Transformer是 不是效率最高的一个架构?我觉得这其实后边不知道,它是现阶段效率最高的架构,现阶段VLA是能 力最强的架构。(新浪科技) ...
深度|对话Cerebras CEO:3-5年后我们对Transformer依赖程度将降低,英伟达市占率将降至50-60%
Z Potentials· 2025-04-06 04:55
图片来源: 20VC with Harry Stebbings Z Highlights Andrew Feldman 是 Cerebras 的联合创始人兼首席执行官, Cerebras 是世界上最快的人工智能推理 + 训练平台。本次访谈为他和 20VC 主播 Harry Stebbings 探讨 AI 时代改变芯片构造需求以及行业趋势。 AI 对芯片需求的改变 Harry : 见到你真是太高兴了。我期待这次对话很久了。 Eric 经常向我提起你,一直对你赞不绝口,非常感谢你能接受我的访谈。 Andrew : Harry ,谢谢邀请。很荣幸能参与这个对话。 Harry : 这一定会是场精彩的对话,感觉今天能跟你学到很多。让我们回到 2015 年,当时你和团队在 AI 领域看到了什么机遇,促使你们创立了 Cerebras 公司? Andrew : 我们看到了一种新兴工作负载的崛起 —— 这对计算机架构师而言堪称梦想成真。我们发现了一个值得解决的新问题,这意味着或许可以为此打 造更适配的硬件系统。 2015 年时,我的联合创始人 Gary 、 Sean 、 JP 和 Michael 率先预见了 AI 的兴起。这预 ...
湖南95后女博士,力挑谷歌,要造思考时"不发烧"的AI
创业邦· 2025-03-19 09:28
Core Viewpoint - Lu Xi Technology aims to challenge the dominance of the Transformer architecture in AI by developing a brain-like computing ecosystem, introducing the NLM model that significantly reduces energy consumption while enhancing inference efficiency [2][3][4]. Group 1: Company Overview - Lu Xi Technology was founded in 2023 by two women born in the 1990s, marking it as the first domestic company focused on brain-like computing [2]. - The NLM model, launched in 2024, is the first domestically developed large model using a non-Transformer architecture based on brain-like technology [2][12]. - The company has received approval from the National Internet Information Office for its generative AI services and deep synthesis algorithm services [2][12]. Group 2: Technology and Innovation - The NLM model boasts a reduction in energy consumption by over 80% while improving inference efficiency several times compared to traditional models [12][13]. - Lu Xi Technology's brain-like architecture mimics the human brain's neural structure, allowing for efficient computation and storage by activating only relevant neurons [4][12]. - The company is developing a range of products based on the NEURARK brain-like architecture, including foundational models and industry-specific models, to meet diverse market needs [12][15]. Group 3: Market Position and Strategy - Lu Xi Technology aims to break the dependency on NVIDIA chips by developing its own FPGA and ASIC chips tailored for large models [10][12]. - The company collaborates with various state-owned enterprises and industry leaders to deploy its models across multiple sectors, including healthcare and disaster management [15]. - The company is targeting a significant increase in model parameter scale, aiming to reach 600 billion parameters by 2025, which would bring it closer to the complexity of the human brain [16].