OpenAI揭秘Deep Research实现始末
锦秋集·2025-04-30 07:09
与市面上多数"通用Agent"不同,OpenAI 的 Deep Research 从诞生那一刻起就被锁定在一件事上—— 通过强化 学习,将搜索、浏览、筛选与整合信息的能力内化为模型的原生技能,直接训练进参数里,而不是仅靠 Prompt工程和外部工程组合 。 那么,OpenAI 是如何把这套复杂技能训练进参数里的?他们在数据筹备、强化微调、安全与记忆管理上又摸 索出了哪些最佳实践? OpenAI Deep Research团队核心成员Isa Fulford最近在一个访谈中做了分享: 我们认为这个访谈提供了一个透视 OpenAI 构建旗舰智能体 Deep Research 的独特视角,并提供了一些开发实 践经验,因此锦秋基金( 微信公号锦秋集ID:jqcapital)对本文进行了编译。 01 Deep Research 的起源与目标 OpenAI 团队在强化学习算法刚刚显露锋芒时,放弃了订汉堡、订花那条看似容易衡量的交易型赛道, 转而攻克浏览与知识整合——他们认为整合知识是AGI 必不可少的前置技能, 也因为"纯读取"比"直接 下单"更安全。 数据的质量比数量更重要。 Deep Research 倾向"小而准": ...