原位自进化
Search documents
Skills刚火,就有零Skill的Agent来了…
3 6 Ke· 2026-01-26 11:40
Skills刚爆火,又有新的Agent范式来搅局了…… 根本不用Skills,也不需要上GitHub翻项目、找工具。直接把需求丢给Agent,它能一边干活,一边给自己造装备。 是的,完全不需要人类伺候,也不用给AI师傅递板手、搬梯子。 工作中遇到啥需要用的装备,Agent能自己直接「进化」出来。 以Gemini 3 Pro为后端,在地狱级评测HLE(Humanity's Last Exam)上一骑绝尘,仅次于GPT5.2-Pro智能体。 在几个高难评测集里,比官方未披露方法的含工具使用的结果,高了将近20分。 甚至还是One take,一口气跑出来的。 这是刚刚新发的一篇论文。 会自己造工具的Agent 发现这篇论文,还是因为前几天刷到了个demo。 第一眼看上去,只是个很普通的交互场景:用户有个任务需求,丢给了Agent一串Prompt。 找找2023届毕业生中,哪些州的ACT考试参与率达到或超过50%,且平均综合分数在20分及以上。并给出这些州中,各州学生达到科学基准的 比例。 然后Agent开始做分析、规划任务,挑选可能会用到的工具。 目前为止,一切都还很正常。 但说实话,感觉这个demo选的任务不是很 ...
Skills刚火,就有零Skill的Agent来了…
量子位· 2026-01-26 10:14
Jay 发自 凹非寺 量子位 | 公众号 QbitAI Skills刚爆火,又有新的Agent范式来搅局了…… 根本 不用Skills,也不需要上GitHub翻项目、找工具 。直接把需求丢给Agent,它能一边干活,一边给自己造装备。 是的,完全不需要人类伺候,也不用给AI师傅递板手、搬梯子。 工作中遇到啥需要用的装备,Agent能自己直接「进化」出来。 以Gemini 3 Pro为后端,在地狱级评测HLE (Humanity's Last Exam) 上一骑绝尘,仅次于GPT5.2-Pro智能体。 在几个高难评测集里,比官方未披露方法的含工具使用的结果,高了将近 20分 。 甚至还是 One take ,一口气跑出来的。 这是刚刚新发的一篇论文。 会自己造工具的Agent 发现这篇论文,还是因为前几天刷到了个demo。 第一眼看上去,只是个很普通的交互场景:用户有个任务需求,丢给了Agent一串Prompt。 它怎么开始自己造工具了??用错了还能修复? 找找2023届毕业生中,哪些州的ACT考试参与率达到或超过50%,且平均综合分数在20分及以上。并给出这些州中,各州学生达到科学 基准的比例。 然后Agen ...