AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

腾讯混元AI数字人团队投稿量子位 | 公众号 QbitAI 判断AI是否智能，评价维度如今已不仅限于刷榜成绩。 SAGE ：每个感知智能体都有"人生剧本" 当大模型在"IQ"上不断实现新的突破，"懂人心"、"解人意"开始成为实际应用中，人们对大模型新的要求。所以，AI的"EQ"又该如何评价？由腾讯混元AI数字人团队打造的全新自动化评估框架—— SAGE（Sentient Agent as a Judge），回答了以下的两个问题：在该框架下，最新版GPT-4o表现最好，GPT-4.1、Gemini-2.5系列紧随其后。 SAGE：让AI模拟"有感情的人"，来评测另一个AI SAGE不只是看模型答得好不好，而是构造一个模拟人类心理的"有感知力的"AI智能体，让它像人一样参与多轮对话、模拟情绪变化、生成内心独白，并最终评估对话质量。可以拆解出两个关键词：这位"AI人类"，每轮对话都会认真思考：甚至，它还会给出聊天过程中的"内心独白"：是不是有点像我们和那些"听了半天还是不懂我意思"的朋友聊天的真实感受？如何评价AI是否真正具有"共情力"？—— TA能否理解我的情绪、洞察我的潜台词、在我脆 ...