腾讯研究院AI速递 20251215
腾讯研究院·2025-12-14 16:01

生成式AI 一、GPT-5.2上线的24小时,X 大批网友给 GPT-5.2 打差评? 1. OpenAI十周年发布GPT-5.2系列号称"最强专业知识工作模型",但上线24小时后X平台和Reddit用户集体差评, 认为其过于平淡、安全审查过度、情商堪忧; 2. SimpleBench测试显示GPT-5.2得分低于一年前的Claude Sonnet 3.7,在garlic有几个r等简单问题上回答错 误,LiveBench得分低于Opus 4.5和Gemini 3.0; 3. 最受诟病的是安全拒绝机制过于严格,用户反馈模型共情力和语境感知能力下降,在情感支持场景中给出机械且脱 离现实的建议。 https://mp.weixin.qq.com/s/xiOX9i6V-yfnn0pyC6ZlTA 二、OpenAI发布同时,谷歌推出Gemini Deep Research Agent 1. 谷歌在GPT-5.2发布前一小时推出全新版Gemini Deep Research Agent,基于Gemini 3 Pro构建并通过多步强 化学习训练提高准确性减少幻觉; 2. 新版在Humanity's Last Exam测试集 ...