语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%
机器之心·2025-10-17 11:53
想象这样一个场景:同一个 AI 模型,用文字交流时对答如流,一旦开口说话就变得磕磕巴巴、答非所问。这不是假设中的场景,而是当下语音交互系统的真实写 照。 杜克大学和 Adobe 最近发布的 VERA 研究,首次系统性地测量了语音模态对推理能力的影响。研究覆盖 12 个主流语音系统,使用了 2,931 道专门设计的测试题。 核心发现令人意外,最触目惊心的对比来自 OpenAI 的 GPT 家族: 相差 68.7 个百分点,几乎是「学霸」和「学渣」的差距。 这不是个例。研究团队测试了 12 个主流语音系统——从 OpenAI 的 GPT-realtime 到谷歌的 Gemini-native-audio,从亚马逊的 Nova Sonic 到阿里巴巴的 Qwen 音频模 型——无一例外,全部在推理任务上「翻车」。 标题:Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap 论文: arxiv.org/pdf/2509.26542 代码: github.com/linyueqian/VERA GPT ...