大模型听懂语音却反而变笨?港中深与微软联合解决语音大模型降智问题
机器之心·2026-01-17 03:24
从 GPT-4o 开启全能(Omni)交互时代至今,Speech LLM 虽然在拟人化和低延迟上取得了长足进步,但面临一个令人困扰的现象: 当大语言模型(LLM)被赋予 "听觉" 后,它的智商下降了。 即便是同样的底层模型,一旦输入从文本变成语音,其逻辑推理能力(Reasoning)往往会显著衰退。这种现象被称为 "模态推理鸿沟"(Modality Reasoning Ga p ) 。 这个难题并非仅存在于学术界,而是 OpenAI、Google、Meta 等行业巨头都在试图跨越的 "天花板": 根据 Big Bench Audio 评测,以 GPT-4o 为例,在纯文本任务(Text-to-Text)的准确率达 92% ;但一旦切换到端到端语音模式(Speech-to-Speech),其得分 跌至 66% 。这中间 26% 的巨大跌幅,就是模型引入语音而付出的代价。 Google Gemini 团队在技术分享中将其定义为 I n telligence Gap ;而 Meta 研究员在 NeurIPS 2025 上更是直言这是一种 Intelligence Regression ,并提出了一 个生动的概念 M ...