Capability Overhang(能力过剩)
Search documents
GPT-5.2考赢人类,OpenAI警告:大模型能力已过剩,AGI天花板不是AI
3 6 Ke· 2026-01-12 01:08
刚刚,GPT-5.2刷新了一项新纪录! OpenAI联合创始人Greg Brockman发帖称使用GPT-5.2在ARC-AGI-2基准测试上,表现超过了人类基线水平。 在基准测试时技能爆表,但一到实际应用就「掉链子」,OpenAI前首席科学家Ilya Sutskever提到的这种大模型「性能悖论」我们并不陌生。 这也是AGI评估领域一个长期存在的难题——如何区分大模型「真正的推理能力」与「刷题型能力」。 而ARC-AGI-2的出现正好打破了这一难题。 ARC-AGI-2的全称为「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基准的最新升级版本。 该基准由François Chollet(Keras之父、前Google Brain研究员)及其团队在2025年推出,其设计初衷十分明确: 测试AI是否具备AGI所必需的抽象、归纳与迁移推理能力,而非记忆或统计模式匹配。 ARC系列与传统NLP或多模态benchmark最大的不同在于:它没有大规模训练集,每道题目都是从未见过的新任务,因此不存 ...