大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:机器之心Pro) 从 GPT-4o 开启全能(Omni)交互时代至今,Speech LLM 虽然在拟人化和低延迟上取得了长足进步, 但面临一个令人困扰的现象:当大语言模型(LLM)被赋予 "听觉" 后,它的智商下降了。 即便是同样的底层模型,一旦输入从文本变成语音,其逻辑推理能力(Reasoning)往往会显著衰退。 这种现象被称为"模态推理鸿沟"(Modality Reasoning Gap) 这个难题并非仅存在于学术界,而是 OpenAI、Google、Meta 等行业巨头都在试图跨越的 "天花板": 此前的研究主要试图从两个方向修补这一鸿沟,但都存在缺陷: 为了解决这一核心痛点,香港中文大学(深圳)与微软团队联合提出了TARS(Trajectory Alignment for Reasoning in Speech)。这是一项基于强化学习(RL)的全新对齐框架,它不依赖死记硬背的监督微调, 而是通过对齐 "思维轨迹",成功将语音输入的推理表现100% 恢复甚至超越了纯文本基座水平。 核心痛点:为什么模型 "听" 得越多," ...