Workflow
自我进化
icon
Search documents
大幅降价、无限聊天、编码能力超越人类专家,Claude Opus 4.5重夺最强模型王冠
3 6 Ke· 2025-11-25 01:48
| | Opus 4.5 | Sonnet 4.5 | Opus 4.1 | Gemini 3 Pro | GPT-5.1 | | --- | --- | --- | --- | --- | --- | | Agentic coding | | | | | 76.3% | | SWE-bench Verlfied | 80.9% | 77.2% | 74.5% | 76.2% | 77.9% | | | | | | | Cadea-Max | | Agentic terminal | | | | | 47.6% | | coding | 59.3% | 50.0% | 46.5% | 54.2% | 58.1% | | Terminal-bench 2.0 | | | | | Cochia Max | | | Recal | frisk | lickel | Retal | | | | 88.9% | 86.2% | 86.8% | 85.3% | - | | Agentic tool use | | | | | | | t2-bench | Telecom | Telecore | Telecom | Te ...
开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章
机器之心· 2025-06-04 09:22
智能体技术日益发展,但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流,这极大限制了其创造力、可扩展性与泛化能力。 近期,普林斯顿大学 AI Lab 推出了 Alita ——一个秉持「 极简即是极致复杂 」哲学的通用智能体,通过「 最小化预定义 」与「 最大化自我进化 」的设 计范式,让智能体可以自主思考、搜索和创造其所需要的 MCP 工具。 Alita 目前已在 GAIA validation 基准测试中取得 75.15% pass@1 和 87.27% pass@3 的成绩,一举超越 OpenAI Deep Research 和 Manus 等知名智 能体,成为通用智能体新标杆。Alita 在 GAIA test 上也达到了 72.43% pass@1 的成绩。 极简架构设计,最大自我进化 「让智能体自主创造 MCP 工具而不靠人工预设」,是 Alita 的核心设计理念。 现有的主流智能体系统通常依赖大量人工预定义的工具和复杂的工作流,这种方法有三个关键缺陷: 覆盖范围有限 : 通用智能体面临的现实任务种类繁多,预先定义好所有可能需要的工具既不可行亦不现实。而且预定义工具很容易过拟合 GAI ...