Workflow
ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!
AI前线·2025-07-11 05:20

"情智兼备"是新一代人工智能的重要发展方向,是迈向通用人工智能的关键一步。在人机交互场景中,具备情智的数字人与机器人需要精准解译多模态 交互信息,深度挖掘人类内在情感状态,从而实现更具真实感与自然性的人机对话。然而,面对多模态情感数据语义的高度复杂性,如何有效建模跨模 态关联关系仍是领域内亟待突破的核心挑战。 针对这一技术瓶颈,快手可灵团队与南开大学在「多模态情感理解」领域完成了开创性研究,成功定位了现有多模态大模型在情感线索捕捉中的关键短 板。研究团队从多模态注意力机制的维度切入,提出了新的模块化双工注意力范式,并基于此构建了一个涵盖感知、认知与情感能力的多模态模型'摩达 (MODA)'。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的 21 个基准测试中均实现了显著性能提升。此 外,基于新的注意力机制,'摩达'在角色剖析与规划演绎等人机交互场景中表现出色。目前,该研究成果已被 ICML 2025 收录,并获选焦点论文 (Spotlight,Top 2.6%)。 论文标题:MODA: MOdular Duplex Attention for Multimodal Percep ...