Workflow
RL Scaling
icon
Search documents
o3解读:OpenAI发力tool use,Manus们会被模型取代吗?
Founder Park· 2025-04-30 12:31
以下文章来源于海外独角兽 ,作者拾象 海外独角兽 . 研究科技大航海时代的伟大公司。 前段时间, OpenAI 陆续发布了 o 系列最新的两个模型 o3 和 o4-mini。其中, o3 模型 在融合了 tool use 能力后,模型表现已经覆盖了 Agent 产品常用的 use case。 Agent 产品开始分化出两类路线:一类是像 o3 那样把 tool use 通过 CoT 内化到模型中,模型可以用写代码调用的方式执行任务;另一类是类似 Manus, 把工作流程外化成人类 OS 中的 computer use。 同时,OpenAI 也已经把 Agent 产品作为了未来产品商业化收入占比的大头。 o3 这类基础大模型的 tool use 内化能力的提升,是否意味着专用 Agent 产品的技术护城河正在消失? 本篇文章针对于 OpenAI 发布的 o3、o4-mini 模型,开源的 Codex CLI,以及在 API 中使用的 GPT 4.1 进行了解读,尤其是 o3 agentic 和多模态 CoT 新能 力。 Founder Park 正在搭建「 AI 产品市集」社群,邀请从业者、开发人员和创业者,扫 ...
o3 深度解读:OpenAI 终于发力 tool use,agent 产品危险了吗?
海外独角兽· 2025-04-25 11:52
作者:cage, haozhen 我们在 2025 年 Q1 的大模型季报 中提到,在 AGI 路线图上,只有智能提升是唯一主线,因此我们持 续关注头部 AI Lab 的模型发布。上周 OpenAI 密集发布了 o 系列最新的两个模型 o3 和 o4-mini,开 源了 Codex CLI,还推出了在 API 中使用的 GPT 4.1。本文将着重对这些新发布进行解读,尤其是 o3 agentic 和多模态 CoT 新能力。 我们认为 OpenAI 在数次平淡的更新后,终于拿出了有惊艳表现的 o3。融合了 tool use 能力后,模型 表现已经覆盖了 agent 产品常用的 use case。Agent 产品开始分化出两类路线:一类是像 o3 那样把 和 o3 的发布模式一样, OpenAI 的 reasoning model 都是先训练出一个 mini reasoning 版本,再 scale 到 一个 long inference time、full tool use 能力的模型上。 而之前 GPT 模型总是先训练出最大的模型,再蒸 馏到小模型上。这个策略值得探讨其原因,我们的猜测是 RL 算法比较脆弱, ...
从 R1 到 Sonnet 3.7,Reasoning Model 首轮竞赛中有哪些关键信号?
海外独角兽· 2025-03-03 13:10
作者:Cage、Yongxin、Siqi 编辑:Siqi DeepSeek R1 催化 了 reasoning model 的竞争:在过去的一个月里,头部 AI labs 已经发布了三个 SOTA reasoning models:OpenAI 的 o3-mini 和deep research, xAI 的 Grok 3 和 Anthropic 的 Claude 3.7 Sonnet。 随着头部 Al labs 先后释出自己的 reasoning model,新范式的第一轮竞赛暂时告一段落。 各家 reasoning model 各有长板,但都没有拉开大的领先优势:OpenAI 和 xAI 有着最强的 base model 和 竞赛解题能力,Anthropic 更关注真实世界的工程问题,Claude 3.7 Sonnet 的混合推理模型可能会成为 之后各家发布新模型的标准操作。 在这一波新模型密集发布后的间隙,我们对已有的 reasoning models 发布进行了总结梳理,除了平 行比较各些模型的实际能力和长板外,更重要的目标是识别出本轮发布中的关键信号。 整体上,我们还处于 RL Scaling 的早期 ...