Workflow
注意力机制
icon
Search documents
ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!
AI前线· 2025-07-11 05:20
"情智兼备"是新一代人工智能的重要发展方向,是迈向通用人工智能的关键一步。在人机交互场景中,具备情智的数字人与机器人需要精准解译多模态 交互信息,深度挖掘人类内在情感状态,从而实现更具真实感与自然性的人机对话。然而,面对多模态情感数据语义的高度复杂性,如何有效建模跨模 态关联关系仍是领域内亟待突破的核心挑战。 针对这一技术瓶颈,快手可灵团队与南开大学在「多模态情感理解」领域完成了开创性研究,成功定位了现有多模态大模型在情感线索捕捉中的关键短 板。研究团队从多模态注意力机制的维度切入,提出了新的模块化双工注意力范式,并基于此构建了一个涵盖感知、认知与情感能力的多模态模型'摩达 (MODA)'。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的 21 个基准测试中均实现了显著性能提升。此 外,基于新的注意力机制,'摩达'在角色剖析与规划演绎等人机交互场景中表现出色。目前,该研究成果已被 ICML 2025 收录,并获选焦点论文 (Spotlight,Top 2.6%)。 论文标题:MODA: MOdular Duplex Attention for Multimodal Percep ...
Mamba一作预告新架构!长文论述Transformer≠最终解法
量子位· 2025-07-09 04:57
一水 发自 凹非寺 量子位 | 公众号 QbitAI Mamba一作最新大发长文! 主题只有一个,即探讨两种主流序列模型—— 状态空间模型(SSMs)和Transformer模型的权衡之术 。 简单介绍下,Mamba就是一种典型的SSMs,它建立在更现代的适用于深度学习的结构化SSM基础上,与经典架构RNN有相似之处。 在最受关注的语言任务上,Mamba-3B超越同等规模的Transformer,与两倍大的Transformer匹敌,因此 被视为Transformer架构的有力挑 战者 。 现在,Mamba一作将自己去年的几场演讲整合成一篇科普长文,向大众分享了如下观点: 而且他还提前剧透, 几天后将发布"架构领域的下一个重大进展" 。 虽然还不知道具体内容,但他目前扔出来的消息已经足够大家抓耳挠腮一段时间了。 因为他提到了一个重要观点—— 注意力机制的缺点实际上并不是它的二次复杂度 。 要知道之前大家都认为,ChatGPT等大模型之所以处理长文本算力消耗巨大,背后原因是Transformer架构中注意力机制的二次复杂度。 而现在,这样的共识或许即将被推翻~ 不过好消息是, 即将推出的新架构能够和Transf ...
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 04:35
本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加 速。第二作者为香港中文大学的韩晨夏,研究方向聚焦于计算机体系结构与 AI 系统的高效化设计。 在高质量视频生成任务中,扩散模型(Diffusion Models)已经成为主流。然而,随着视频长度和分辨率的提升,Diffusion Transformer(DiT)模型中的注意力机制 计算量急剧增加,成为推理效率的最大瓶颈。这是因为在视频生成中,DiT 通常使用 3D 全局注意力来建模时空一致性, 虽然效果出色,但计算量会随着 token 数 量呈平方增长 ,带来了巨大的计算负担。在 HunyuanVideo 等视频生成模型中,注意力模块计算时间占比超过 80%,生成仅 8 秒的 720p 视频甚至需要接近一小时 的时间。因此,提升视频生成模型的生成速度成为了迫切的需求。 现有视频生成加速方法,如 Sparse VideoGen(https://arxiv.org/abs/2502.01776)和 AdaSpa(https://arxiv.org/abs/250 ...
MiniMax追着DeepSeek打
Jing Ji Guan Cha Wang· 2025-06-18 11:32
2025年2月,DeepSeek火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元的GPU成本,就 训练出了与OpenAI o1能力不相上下的DeepSeek R1模型,引起行业震撼,不过这一成本数据也引发了广 泛争议。 MiniMax称,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万 美元,这一成本"比最初的预期少了一个数量级"。 MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性 注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性 采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。 经济观察报 记者 陈月芹 6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发 布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训 练成本等维度全面对标DeepSeek R1,甚至是谷歌Gemini 2.5 Pro ...
200亿AI独角兽反击,MiniMax首款推理模型对标DeepSeeK,算力成本仅53万美元
Hua Er Jie Jian Wen· 2025-06-17 11:57
当DeepSeek的推理模型震撼全球AI圈时,一家估值200亿人民币的中国独角兽正悄然磨刀霍霍,准备用仅53万美元的训练成本和颠覆性架构设 计,向这个新贵发起正面挑战。 17日,AI创业公司MiniMax发布了其首款推理模型M1,根据基准评测,M1性能超越国内闭源模型,接近海外最领先模型,部分任务超过 DeepSeek、阿里、字节,以及OpenAI、谷歌和Anthropic等最新最强的开闭源模型。 这场较量的核心不仅在于性能,更在于效率——与DeepSeek R1相比,在生成64K token时,M1消耗的算力不到其50%;在100K token时,仅为其 25%。 MiniMax称,M1的整个强化学习过程仅使用512块英伟达H800 GPU训练三周,租赁成本53.74万美元(约合380万人民币)。这一成本控制"比最 初预期少了一个数量级"。MiniMax创始人&CEO闫俊杰发文表示:"第一次感觉到大山不是不能翻越。" MiniMax-M1:混合专家架构与线性注意力机制 MiniMax-M1采用了混合专家(MoE)架构和线性注意力机制(Lightning Attention),这是对传统Transformer ...
心智×算法 如何“共舞”(瞰前沿·人工智能如何改变科研范式)
Ren Min Ri Bao· 2025-06-13 21:43
近年来,人工智能加速发展,不仅推动人类进入智能时代,也以前所未有的深度和广度影响科学研究的 思维方式和工作模式。数据显示,2019年—2023年,全球AI for Science(人工智能驱动的科学研究)论 文发表年均增长率为27.2%。 挖掘海量数据、助力文献分析、提供科研方案……当人工智能深度融入科研,给科研范式带来了哪些变 化?科学家们怎样利用人工智能做研究?智能时代,知识生产新范式又可能带来什么挑战?本版推 出"瞰前沿·人工智能如何改变科研范式"系列策划,本期聚焦心理学研究领域。 ——编者 心理学和人工智能有啥渊源? 在电影《流浪地球2》中,人工智能MOSS通过分析刘培强颤抖的嘴角和躲闪的眼神,瞬间识破他隐藏 的秘密。 这个科幻场景或许将照进现实——从手机的面部解锁功能,到购物APP的"猜你喜欢",再到心理咨询的 AI助手,心理学与人工智能携手进化。 实际上,心理学与人工智能渊源不小。 记得生理学家巴甫洛夫那只听到铃声就流口水的狗吗?这个经典的"条件反射"实验启发了人工智能领域 最重要的技术之一:强化学习。人工智能AlphaGo战胜人类围棋高手的绝招,本质上就像类似训练的升 级版,通过"吃"掉海量的围 ...
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
量子位· 2025-06-12 01:37
NFD团队 投稿 量子位 | 公众号 QbitAI 在A100上用310M模型,实现 每秒超30帧 自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架—— Next-Frame Diffusion (NFD) 。 通过实现帧内并行采样,帧间自回归的方式,NFD让视频生成在保持较高生成质量的同时,生成效率大幅提升。 或许不久之后的游戏,就是玩家直接跟模型交互打游戏了,无需通过传统的游戏引擎。 比如在《我的世界》中,下面每个视频在NVIDIA A100 GPU上生成 只需约 0.48秒 。 玩家在黑暗的走廊中不断前进: 玩家在攻击小动物后转动视角: 玩家跳跃后放置木块: 玩家跳上草地: 如今,NFD让生成速度又快了几倍。 玩家不停地放置石块: 值得一提的是,前段时间在X上火了的一款基于Minecraft的交互式自回归世界模型—— MineWorld ,也是这个微软研究院的团队做的。 它能够以每秒4-7帧的速度和模型进行交互。 为进一步提高生成效率,研究人员进一步通过以下技术来减少推理时的总采样次数: 引入块状因果注意力机制的Transformer ...
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
机器之心· 2025-06-11 00:24
在大语言模型蓬勃发展的背景下,Transformer 架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题,成为众多研究试图突破的 重点,但 Transformer 在推理时灵活建模长距离上下文的能力,使得许多线性复杂度的替代方案(如 RNN、Linear Attention、SSM 等)难以真正取代它的地位。 尤其是在大语言模型广泛采用 decoder-only 架构之后,自注意力机制的重要性进一步凸显。然而,这种机制也带来新的挑战:推理过程中每一步都需要访问 Key- Value(KV)缓存,该缓存的大小随着生成序列长度线性增长,逐渐成为影响推理效率的关键瓶颈。随着模型参数维度不断扩大,KV 缓存所需的显存和带宽开销 显著上升,限制了模型的推理长度与可支持的 batch size。 值得一提的是,近期由 DeepSeek 团队提出的 MLA 机制,通过在隐空间维度对 KV 缓存进行压缩,显著提升了推理效率,推动了大模型在低资源场景下的高效部 署。但随着生成序列的持续增长,时间维度的冗余信息也逐渐暴露,压缩其所带来的潜力亟待挖掘。然而,如何在保持性能的前提下压缩时间维度,一直受到增 ...
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 11:07
在这个 AI技术日新月异的时代,我们眼看着它不仅在改变生活,更在 改变着 商业规则。 AI可不只是那些冰冷的算法,它现在能像人一样思考、推理,甚至在某些方面 的表现超越了普通人 。这告诉我们,传统的技术和创新模式已经不够用了, 企业要想增长、要保持竞争力,就 需要 换个思路。 AI正在重新定义我们理解和实践商业创新的方式。 最近 , 混沌君旁听了 混沌学园的创始人李善友教授 的重磅 全新课程《认知型创新:从 OpenAI到DeepSeek》 。 这门课从企业创新的角度, 讲述了 全球两大顶尖 AI公司——OpenAI和DeepSeek是如何一步步走到今天的,他们究竟走过了怎样的创新之路。这对于我 们理解AI时代的技术创新和企业创新,提供了清晰且极具价值的路径。 教授 深挖 了 OpenAI最初的愿景和它如何对抗巨头的思路,解密大语言模型是如何诞生的 , 尤其是 AI能力如何从简单积累到惊人"涌现" 。 还 解读 了 DeepSeek如何在资源有限的情况下,走出一条"低成本高性能"的独特道路;更探讨 了 AI时代下,企业应该怎样构建一个能不断"涌现"创新的组织模式, 走向"技术领先"。 扫描下图二维码购买月卡 ...
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 07:35AI Processing
清华大学&面壁智能 投稿 量子位 | 公众号 QbitAI 端侧性价比之王,清华大学和面壁智能团队开源新模型—— MiniCP M 4 ,提供 8B、0.5B 两种参数规模, 仅使用同级别开源模型22%的训练开销 ,就达到了同级别最优性能。 MiniCPM4-8B是 开源首个开源的原生稀疏模型,5%的极高稀疏度加持,让长文本、深思考在端侧真正跑起来。 在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅22%的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。 MiniCPM4-0.5B 在性能上,也展现出以小博大——在MMLU、CEval、BBH、HumanEval等基准测试中,MiniCPM4.0 -0.5B性能超越同级 的Qwen-3-0.6B、Llama 3.2、Gemma3, 并通过 原生QAT技术 实现几乎不掉点的int4量化以及600Token/s的极速推理速度。 在常见端侧芯片,比如Jetson AGX Orin与RTX 4090上,MiniCPM 4可实现长文本处理的5倍常规加速与极限场景下的百倍加速。 请看VCR: 目前团队已公开发布技术报告,该模 ...