OpenAI o1大模型开启新范式|国君热点研究

OpenAI 发布o1大模型（即草莓模型），推理能力大幅提升。国君海外科技、电子、计算机、传媒多个团队观点如下：进一步打开AI应用落地的空间国君海外科技秦和平团队：o1大模型首次证明了语言模型可以进行真正的强化学习，推理能力可沿着Scaling Law而得到提升，走向真正的"智能"。 OpenAI o1是经过强化学习训练来执行复杂推理任务的新型语言模型，o1在回答之前会思考，可以在响应用户前产生一个很长的内部思维链。思维链意味着模型在作出反应之前，花更多时间思考问题，将棘手的步骤分解为更简单的步骤，尝试不同的策略，并认识到自己的错误。这种Scaling束与LLM的预训练显著不同，Scaling重心向后训练&推理转移。o1的性能可通过提高强化学习（训练时计算）和思考时间（测试时计算）而持续提高，扩展这种方法的限制与LLM预训练的限制有很大不同。模型不仅仅拥有训练时的 Scaling Law，还拥有推理层面的 Scaling Law，双曲线的共同增长，将突破之前大模型能力的提升瓶颈。 o1模型验证了算力需求持续性及AI应用落地的光明前景。1）算力持续性：o1通过思维链进行推理，会进行反复试错，推理链较 ...