计算机行业:o1进展追踪与评测:Reasoning能力究竟有多强?
中泰证券·2024-09-19 01:08
中 泰 证 券 研 究 所 专 业 | 领 先 | 深 度 | 诚 信 证 券 研 究 报 告 | 2 0 2 4 . 0 9 . 1 7 | o1进展追踪与评测: Reasoning能力究竟有多强? 分析师:闻学臣 执业证书编号:S0740519090007 Email:wenxc@zts.com.cn 联系人:王雪晴 Email:wangxq03@zts.com.cn 报告摘要 的模型定价为输入$15/1M tokens,输出$60/1M tokens;较gpt-4o输入$5/1M tokens,输出$15/1M tokens定价更高。 训练方式采用强化学习加强CoT,scaling law是否依旧是模型主流迭代方向还需验证追踪。通过强化学习,o1能够改 o1模型带来推理能力的大幅提升,在数学、编程和科学问题中表现最好,有望加速相关应用落地。OpenAI发布o1模 型,开放o1-preview和o1-mini版本给用户,o1-preview版本推理能力更强,o1-mini速度更快,价格便宜80%。GPQA diamond测试中,o1的表现超过了博士学位的人类专家;在我们的测试中,o1在推理类问题中表现普遍 ...