AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心·2025-06-27 04:02
近期,吉林大学人工智能学院发布了一项基于强化学习训练的 VLM 智能体最新研究《ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World》。它让视觉语言模型(VLM)真正学会了「自我探索 GUI 环境」。 论文地址:https://arxiv.org/abs/2505.19095 项目地址:https://github.com/niuzaisheng/ScreenExplorer 该工作带来三大核心突破: 作者简介:本文第一作者牛润良是吉林大学人工智能学院博士研究生,研究方向包括大模型智能体、强化学习,专注于 GUI Agent。通讯作者王琪为吉林大学人 工智能学院研究员,研究方向包括数据挖掘、大模型、强化学习。 迈向通用人工智能(AGI)的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型(LLMs)和视觉语言模型(VLMs)的飞速发 展,智能体已展现出令人瞩目的跨领域任务泛化能力。 而在我们触手可及的开放世界环境中,图形用户界面(GUI)无疑是人机交互最普遍 ...