AI聊天机器人越聊越“笨”?可能真不是错觉
Sou Hu Cai Jing·2026-02-21 14:26

不知道大家有没有这种感觉:和AI机器人短时间聊天的话还行,时间一长,就感觉对话开始变的前言不搭后语、逻辑不通。 其实这种感觉并不是错觉。 研究人员对包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的 15 款顶尖模型进行了超过 20 万次模拟对话 分析,揭示出一个被称为"迷失会话"的系统性缺陷。 数据显示,这些模型在单次提示任务中的成功率可达 90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约 65%。 研究指出,模型的核心能力仅降低约 15%,但"不可靠性"却飙升 112%。 最近,微软发表的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。 研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。 因此,对于那些依赖 AI 构建复杂对话流程或智能体的开发者而言,这一结论意味着未来将要接受严峻挑战。 再来看看其他消息。 也就是说,AI 大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。 | Short Form | Nam ...

SIASUN-AI聊天机器人越聊越“笨”?可能真不是错觉 - Reportify