Agentic task - filings, earnings calls, financial reports, news

Agentic task

Search documents

Matthew Berman· 2025-08-05 23:02

Model Release & Performance - Anthropic 发布了 Claude Opus 4.1%，是对 Claude Opus 4 的升级，尤其在 Agentic 任务、真实世界编码和推理方面 [1] - SWEBench verified 基准测试中，Claude Opus 4.1% 的得分从 Opus 4 的 72.5% 提升至 74.5%，提升了 2 个百分点 [3] - Terminal Bench 基准测试中，Claude Opus 4.1% 的终端使用能力从 39.2% 提升至 43.3%，提升了 4.1 个百分点 [4] - GPQA Diamond（研究生水平推理）基准测试中，Claude Opus 4.1% 的得分从 79.6% 提升至 80.9%，提升了 1.3 个百分点 [4] - Towbench（Agentic 工具使用）基准测试中，Claude Opus 4.1% 在零售方面的得分从 81.4% 提升至 82.4%，提升了 1 个百分点，但在航空方面从 59.6% 下降至 56%，下降了 3.6 个百分点 [5] - 多语言问答基准测试中，Claude Opus 4.1% 的得分从 88.8% 提升至 89.5%，提升了 0.7 个百分点 [5] - Amy 2025 基准测试中，Claude Opus 4.1% 的得分提升了 2.5 个百分点至 78% [5] Competitive Positioning & Future Outlook - 在 SWEBench 和 Terminal Bench 基准测试中，Claude Opus 4.1% 优于 OpenAI 的 GPT-3 和 Gemini 1.5 Pro [5] - 在 GPQA Diamond 和 Agentic 工具使用基准测试中，Claude Opus 4.1% 不及 OpenAI 的 GPT-3 和 Gemini 1.5 Pro [6] - 在高中数学竞赛基准测试中，Claude Opus 4.1% 的得分低于 OpenAI 的 GPT-3 (88.9%) 和 Gemini 1.5 Pro (88%)，仅为 78% [6] - Claude 目前被广泛认为是市场上最佳的编码模型，尤其擅长 Agentic 编码和 Agent-driven 开发 [7]