Workflow
AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一
量子位·2025-05-22 03:21

腾讯混元AI数字人团队 投稿 量子位 | 公众号 QbitAI 判断AI是否智能,评价维度如今已不仅限于刷榜成绩。 SAGE :每个感知智能体都有"人生剧本" 当大模型在"IQ"上不断实现新的突破,"懂人心"、"解人意"开始成为实际应用中,人们对大模型新的要求。 所以,AI的"EQ"又该如何评价? 由腾讯混元AI数字人团队打造的全新自动化评估框架—— SAGE(Sentient Agent as a Judge) ,回答了以下的两个问题: 在该框架下,最新版GPT-4o表现最好,GPT-4.1、Gemini-2.5系列紧随其后。 SAGE:让AI模拟"有感情的人",来评测另一个AI SAGE不只是看模型答得好不好,而是构造一个 模拟人类心理的"有感知力的"AI智能体 ,让它像人一样参与多轮对话、模拟情绪变化、生成 内心独白,并最终评估对话质量。 可以拆解出两个关键词: 这位"AI人类",每轮对话都会认真思考: 甚至,它还会给出聊天过程中的"内心独白": 是不是有点像我们和那些"听了半天还是不懂我意思"的朋友聊天的真实感受? 如何评价AI是否真正具有"共情力"?—— TA能否理解我的情绪、洞察我的潜台词、在我脆 ...