Workflow
最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室
量子位·2025-08-25 23:05

Mobile-Agen团队 投稿 量子位 | 公众号 QbitAI 能自动操作手机、电脑的智能体新SOTA来了。 通义实验室 推出 Mobile-Agent-v3 智能体框架,在手机端和电脑端的多个核心榜单上均取得开源最佳。 它不仅能做交互界面的问答、描述、定位,也能一条指令独立完成复杂任务,甚至可以在多智能体框架中无缝扮演不同角色。 PC+Web演示:在Edge浏览器中搜索阿里巴巴的股价。然后在WPS中创建一个新表格,在第一列填写公司名称,在第二列填写股价。 PC演示: 创建一个新的空白演示文稿,然后在第一张幻灯片中以艺术字的形式插入一段文本,内容为"阿里巴巴"。 它既能独当一面,在 AndroidWorld、OSWorld、ScreenSpot等10个主流GUI榜单 中均取得了开源SOTA的水平;也能承担对话、问答、 定位、界面描述等基础任务。 Web演示: 去哔哩哔哩看雷军的视频,然后给第一个视频点赞。 手机演示: 请帮我在小红书上搜索济南旅游攻略,按收藏数排序,并保存第一条笔记。 请帮我在携程上查询济南大明湖风景区的详细信息,包括地址、票价等。 自动化操作手机、电脑成为了各家多模态大模型攻坚的主战场。 ...