Workflow
Transformer
icon
Search documents
ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!
机器之心· 2025-06-27 08:06
本文第一作者为北京邮电大学副教授、彩云科技首席科学家肖达,其他作者为彩云科技算法研究员孟庆 业、李省平,彩云科技CEO袁行远。 残差连接(residual connections)自何恺明在 2015 年开山之作 ResNet [1] 中提出后,就成为深度 学习乃至 Transformer LLMs 的一大基石。但在当今的深度 Transformer LLMs 中仍有其局限性,限 制了信息在跨层间的高效传递。 彩 云 科 技 与 北 京 邮 电 大 学 近 期 联 合 提 出 了 一 个 简 单 有 效 的 残 差 连 接 替 代 : 多 路 动 态 稠 密 连 接 (MUltiway Dynamic Dense (MUDD) connection),大幅度提高了 Transformer 跨层信息传递的 效率。 大规模语言模型预训练实验表明, 仅增加 0.23% 的参数量和 0.4% 的计算量,采用该架构的 2.8B 参数量 MUDDPythia 模型即可在 0-shot 和 5-shot 评估中分别媲美 6.9B 参数量(~2.4 倍)和 12B 参数量(~4.2 倍)的 Pythia 模型, 表明了 MU ...
国内首个智能化标准单元自动建库工具iCell在宁发布
Nan Jing Ri Bao· 2025-06-18 03:31
Core Insights - The National Integrated Circuit Design Automation Technology Innovation Center has launched the iCell tool, marking a significant advancement in the Electronic Design Automation (EDA) field in China, providing essential support for high-end chip design [1][2] Group 1: iCell Tool Overview - iCell is the first intelligent standard cell automatic library construction tool in China, aimed at enhancing the efficiency of digital chip design [1] - The tool automates the construction of standard cell libraries, which traditionally required hundreds of engineers and several months to complete [1] Group 2: Technological Innovations - iCell employs a Transformer-based pre-training method for transistor layout, leveraging deep learning to optimize design processes [2] - The tool utilizes reinforcement learning and multi-task learning statistical methods to significantly reduce simulation costs and shorten the library construction cycle [2] Group 3: Application and Impact - iCell facilitates process exploration and optimization through design-process interaction, serving as a point tool for advanced process foundries [2] - The tool is currently being applied by leading domestic chip design companies and memory foundries in China [2]
X @Avi Chawla
Avi Chawla· 2025-06-14 20:03
Model Architecture - Explains Transformer vs Mixture of Experts (MoE) in LLMs with visuals [1] - Focuses on clearly explaining Mixture of Experts in LLMs [1]
X @Avi Chawla
Avi Chawla· 2025-06-14 06:30
LLM 技术 - Transformer 与 Mixture of Experts (MoE) 在 LLMs 中的对比分析 [1] - 行业关注 DS (数据科学), ML (机器学习), LLMs (大型语言模型), 和 RAGs (检索增强生成) 的教程和见解 [1] 社交媒体互动 - 鼓励用户分享信息 [1] - 行业专家 Avi Chawla 在社交媒体上分享相关内容 [1]
X @Avi Chawla
Avi Chawla· 2025-06-14 06:30
LLM Architectures - The report compares Transformer and Mixture of Experts (MoE) architectures in Large Language Models (LLMs) [1] - The report provides clear explanations and visuals to illustrate the differences between the two architectures [1] Focus - The report focuses on explaining Transformer and MoE architectures in LLMs [1]
下一个十年,AI的大方向
Hu Xiu· 2025-06-12 01:16
本文来自微信公众号:阿朱说 (ID:azhushuo),作者:吕建伟,原文标题:《大方向》,题图来 自:AI生成 2015年,AlphaGo打败李世石,人工智能出圈,迎来爆发。AI四小龙纷纷创业,大多主打视觉识别。这 也难怪,毕竟2015年以来爆发的人工智能热潮,其导火索是:2009年李飞飞创建图片标注数据集、2012 年辛顿在这个图片识别竞赛中刷分屠榜。 今年是2025年,十年了。大家猛然发现,人工智能已经火了十年了。 回顾过去人工智能火的十年,现在来看,AI四小龙纷纷凋零。 二 现在是2025年6月份,我想回顾一下中国AI在这半年来的进展,我让AI给我列一下目前的中国人工智能 大模型: 百度-文心、阿里-通义、腾讯混元与元宝、字节豆包、幻方-DeepSeek、智谱-GLM、月之暗面-Kimi、百 川、零一万物、MiniMax-ABAB、面壁-CPM、商汤-日日新、科大讯飞-星火、360-智脑、昆仑万维-天 工、华为-盘古…… 三 如果说,AI的2015~2025年这十年是上半场,主打视觉识别,而下半场,2025~2035年这十年,会是视 觉生成吗?视觉识别经历的十年会不会也会如AI四小龙一样尴尬呢? 我又 ...
苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理
AI前线· 2025-06-10 10:05
整理 | 华卫、核子可乐 在今年的 WWDC 全球开发者大会上,苹果推出新一代专为增强 Apple Intelligence 功能所开发的语 言基座模型。经过优化的最新基座模型可在苹果芯片上高效运行,包括一个约 3B 参数的紧凑型模型 和一个基于服务器的混合专家模型,后者为专门针对私有云量身定制的全新架构。 这两大基座模型,均隶属于苹果为支持用户而打造的生成式模型家族。这些模型改进了工具使用与推 理能力,可以理解图像与文本输入,速度更快、效率更高,而且能够支持 15 种语言及平台中集成的 各种智能功能。 据介绍,苹果通过开发新的模型架构来提高这两个模型的效率。对于设备端模型,将整个模型按 5: 3 的深度比分为两块。块 2 中的所有键值(KV)缓存都直接与块 1 最后一层生成的缓存共享,由此 将键值缓存的内存占用量降低了 38.5%,同时显著改善了首个 token 生成时间(time-to-first- token)。 苹果还引入并行轨道专家混合 (PT-MoE) 设计,为服务器端模型开发出一套新架构。此模型由多 个较小的 Transformer(即「轨道」)组成,它们独立处理各 token,仅在各轨道块的输 ...
裁员了,很严重,大家做好准备吧!
猿大侠· 2025-06-04 02:55
Core Viewpoint - The article emphasizes the urgency for technology professionals to adapt to the rapid growth of AI applications, highlighting the need for skills in AI model development and application to avoid job displacement and to seize high-paying opportunities in the industry [1][2]. Group 1: Industry Trends - The demand for AI talent is surging, with major companies like Alibaba and ByteDance actively hiring AI model developers while simultaneously laying off traditional tech roles [1]. - There is a growing consensus among large firms regarding the urgency of accelerating AI application deployment, shifting focus from traditional coding skills to AI model experience [1][2]. Group 2: Learning Opportunities - The article promotes a free training program aimed at equipping participants with AI model application development skills, emphasizing the importance of understanding AI principles, application technologies, and practical project experience [2][4]. - The training includes live sessions with industry experts, covering typical business scenarios, technical architecture, and core principles of AI model technologies such as RAG, Agent, and Transformer [2][11]. Group 3: Career Development - The program offers insights into current job market trends for AI model roles, including salary expectations and career progression strategies from the perspective of hiring managers [6]. - Participants will have access to internal referral opportunities, enhancing their chances of securing high-paying job offers directly from major companies [6][8]. Group 4: Practical Application - The training includes hands-on experience with popular AI applications, allowing participants to build a portfolio of practical projects that can be showcased in job applications [8][11]. - The course aims to bridge the gap between technical knowledge and real-world application, helping participants to effectively implement AI solutions in various business contexts [4][11].
DeepSeek技术溯源及前沿探索报告
Zhejiang University· 2025-05-22 01:20
浙江大学DS系列专题 DeepSeek技术溯源及前沿探索 主讲人:朱强 浙江大学计算机科学与技术学院 人工智能省部共建协同创新中心(浙江大学) https://person.zju.edu.cn/zhuq 1 Outline 一、语言模型 三、ChatGPT 二、Transformer 四、DeepSeek 五、新一代智能体 2 语言模型:终极目标 Language Modeling 对于任意的词序列,计算出这个序列是一句话的概率 我们每天都和语言模型打交道: I saw a cat I saw a cat on the chair I saw a cat running after a dog I saw a ca car I saw a cat in my dream 3 语言模型:基本任务 编码:让计算机理解人类语言 She is my mom 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 只有一个1,其余均为0 One-hot Encoding有什么缺点吗? One-hot Encoding 4 编码:让计算机理解人类语言 Word Embedding A bottle of tez ...
Google首席科学家万字演讲回顾AI十年:哪些关键技术决定了今天的大模型格局?
机器人圈· 2025-04-30 09:10
Google 首席科学家Jeff Dean 今年4月于在苏黎世联邦理工学院发表关于人工智能重要趋势的演讲,本次演讲回顾 了奠定现代AI基础的一系列关键技术里程碑,包括神经网络与反向传播、早期大规模训练、硬件加速、开源生 态、架构革命、训练范式、模型效率、推理优化等。算力、数据量、模型规模扩展以及算法和模型架构创新对AI 能力提升的关键作用。 以下是本次演讲 实录 经数字开物团队编译整理 01 AI 正以前所未有的规模和算法进步改变计算范式 Jeff Dean: 今天我将和大家探讨 AI 的重要趋势。我们会回顾:这个领域是如何发展到今天这个模型能力水平的?在当前的技 术水平下,我们能做些什么?以及,我们该如何塑造 AI 的未来发展方向? 这项工作是与 Google 内外的众多同仁共同完成的,所以并非全是我个人的成果,其中许多是合作研究。有些工作 甚至并非由我主导,但我认为它们都非常重要,值得在此与大家分享和探讨。 我们先来看一些观察发现,其中大部分对在座各位而言可能显而易见。首先,我认为最重要的一点是,机器学习 彻底改变了我们对计算机能力的认知和期待。回想十年前,当时的计算机视觉技术尚处初级阶段,计算机几乎谈 ...