一文读懂GPT-5的绝招,这是决定AI未来的隐形武器
3 6 Ke·2025-09-16 10:43
在GPT-5发布之前,Information曾报道称,GPT-5的性能提升主要来自其研发出的"通用验证器"(Universal Verifier)。 虽然GPT-5后续的能力升级不及预期,但通用验证器却已经成了大模型的下一个"圣杯",近期内成了AI圈内最近最热的话题之一。 为什么它这么关键? 这主要是因为上一波模型能力提升所倚仗的技术是"可验证奖励强化学习"(Reinforcement learning with verifiable rewards, RLVR)。简单说,就是先从 数学、编程这类有标准答案的问题入手:答对加分,答错扣分,训练效果立竿见影。 但现实世界远比"对"与"错"复杂。比如医疗、教育、创意领域,很多问题根本没有唯一解答,一个"好"的答案可能既要专业可靠,又要体现沟通和共情。 RLVR在这些场景下就显得力不从心,甚至让模型在开放性问题上退步。 要让模型进一步进化,就必须突破"对/错"奖励的限制,让AI能像专家一样在不同领域评估优劣,并将海量非结构化经验数据转化为有效的学习信号。通 用验证器正是为此而生,它被认为可能引发强化学习的下一次范式革新。 今天,就用一篇文章了解当下大语言模型界最重要 ...