Workflow
交互式强化学习
icon
Search documents
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
量子位· 2025-07-20 02:49
他们提出了个具有任务级奖励(Task-level Reward)的交互式强化学习框架,即Mobile-R1。 而这些奖励只能引导代理预测每一步中最佳的单一动作,因此难以应对不断变化的移动环境。 比如一句指令:"打开飞猪,进入酒店套餐,进入热门直播,找到飞猪超级VIP,并关注主播"。Qwen2.5-VL-3B-Instruct在第二步失败。 淘天集团算法技术-未来生活实验室&点淘算法团队联合提出,采用多回合、任务导向的学习方式,结合在线学习和轨迹纠错,也许能提高 Agent的适应性和探索能力。 Mobile-R1团队 投稿 量子位 | 公众号 QbitAI 现有Mobile/APP Agent的工作可以适应实时环境,并执行动作,但由于它们大部分都仅依赖于动作级奖励(SFT或RL)。 △ 轨迹数据集构造流程 为了确保训练的稳定性,团队提出了一个三阶段训练过程:格式微调、动作级训练和任务级训练。此外引入新的中文基准和高质量轨迹数据 集,证明了该方法在移动代理领域的有效性。 结果Mobile-R1顺利地完成了这一任务。 轨迹数据集 团队使用Qwen2.5-VL-3B执行一系列任务获得初始轨迹,并人工标注这些初始轨迹, ...