拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?
机器之心·2025-12-24 03:41

此外,在传统强化学习中经常依赖于静态的奖励模型。随着模型的不断训练,它很容易学会如何「讨好」这个固定的打分器,导致 Reward Hacking —— 即分数很高,但审美并没有真正提升。 为了打破这一僵局, JarvisEvo 应运而生。它不仅仅是一个连接 Adobe Lightroom 的自动化工具使用者,更是一次大胆的探索:探索 Agent 如何通过 「内省」,真正实现自我进化。 在迈向通用人工智能的道路上,我们一直在思考一个问题: 现有的 Image Editing Agent,真的「懂」修图吗? 大多数基于 LLM/VLM 的智能体,本质上更像是一个「盲目的指挥官」。它们能流利地写出修图代码或调用 API,但在按下回车键之前,它们看不见画布 上的变化,也无法像人类设计师那样,盯着屏幕皱眉说:「这张对比度拉太高了,得往回收到一点。」这种感知与决策的割裂,直接导致了「指令幻觉」, 或者说模型在进行盲目的「脑补」。由于缺乏视觉反馈,模型往往凭空想象下一步操作,导致结果与用户的初衷南辕北辙。 核心范式转移: 论文标题: JarvisEvo: Towards a Self-Evolving Photo Edit ...