模态推理鸿沟
Search documents
大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题
Xin Lang Cai Jing· 2026-01-19 05:48
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:机器之心Pro) 从 GPT-4o 开启全能(Omni)交互时代至今,Speech LLM 虽然在拟人化和低延迟上取得了长足进步, 但面临一个令人困扰的现象:当大语言模型(LLM)被赋予 "听觉" 后,它的智商下降了。 即便是同样的底层模型,一旦输入从文本变成语音,其逻辑推理能力(Reasoning)往往会显著衰退。 这种现象被称为"模态推理鸿沟"(Modality Reasoning Gap) 这个难题并非仅存在于学术界,而是 OpenAI、Google、Meta 等行业巨头都在试图跨越的 "天花板": 此前的研究主要试图从两个方向修补这一鸿沟,但都存在缺陷: 为了解决这一核心痛点,香港中文大学(深圳)与微软团队联合提出了TARS(Trajectory Alignment for Reasoning in Speech)。这是一项基于强化学习(RL)的全新对齐框架,它不依赖死记硬背的监督微调, 而是通过对齐 "思维轨迹",成功将语音输入的推理表现100% 恢复甚至超越了纯文本基座水平。 核心痛点:为什么模型 "听" 得越多," ...
大模型听懂语音却反而变笨?港中深与微软联合解决语音大模型降智问题
机器之心· 2026-01-17 03:24
从 GPT-4o 开启全能(Omni)交互时代至今,Speech LLM 虽然在拟人化和低延迟上取得了长足进步,但面临一个令人困扰的现象: 当大语言模型(LLM)被赋予 "听觉" 后,它的智商下降了。 即便是同样的底层模型,一旦输入从文本变成语音,其逻辑推理能力(Reasoning)往往会显著衰退。这种现象被称为 "模态推理鸿沟"(Modality Reasoning Ga p ) 。 这个难题并非仅存在于学术界,而是 OpenAI、Google、Meta 等行业巨头都在试图跨越的 "天花板": 根据 Big Bench Audio 评测,以 GPT-4o 为例,在纯文本任务(Text-to-Text)的准确率达 92% ;但一旦切换到端到端语音模式(Speech-to-Speech),其得分 跌至 66% 。这中间 26% 的巨大跌幅,就是模型引入语音而付出的代价。 Google Gemini 团队在技术分享中将其定义为 I n telligence Gap ;而 Meta 研究员在 NeurIPS 2025 上更是直言这是一种 Intelligence Regression ,并提出了一 个生动的概念 M ...