给GUI Agent装上「世界模型」:阿里通义用混合数据+统一思维链,让模型学会预判屏幕变化
通义千问团队 投稿 量子位 | 公众号 QbitAI 伴随多模态大模型的发展,GUI Agent正成为人机交互的新范式。 但在实际生产环境中,构建一个高可用、跨平台的GUI Agent面临诸多工程与算法挑战。 真实环境充斥着验证码与异常弹窗导致长轨迹数据极难收集。不同平台如手机、桌面、浏览器的动作空间存在显著差异,混合训练容易引发梯 度冲突。同时,真实任务通常需要模型具备长程记忆、工具调用及多Agent协作能力。 为了解决原生GUI模型在端到端落地中的技术壁垒,阿里巴巴通义实验室开源了新一代多平台GUI Agent框架 Mobile-Agent-v3.5 ,并同步 发布了其背后的原生基座模型家族 GUI-Owl-1.5 。 | Haiyang Xu* T | Xi Zhang* | | Haowei Liu* | Junyang Wang* | Zhaoqing Zhu* | Shengjie | | --- | --- | --- | --- | --- | --- | --- | | Zhou Xuhao Hu | | Feiyu Gao | Junjie Cao | Zihua Wang | Zhiyu ...