AAAI 2026 Oral|InfiGUI-G1模型来了,刷新GUI Grounding SOTA
机器之心·2026-01-05 06:09
随着多模态大语言模型(MLLM)的飞速发展,能够像人类一样通过视觉输入操作图形用户界面(GUI)的智能体(Agent)正逐渐成为现实。然而,在通往通用 计算机控制的道路上,如何让模型精准地将自然语言指令对应到屏幕上的具体元素 —— 即 GUI Grounding 任务,依然是一大难题。 现有的方法,特别是基于验证奖励的强化学习(RLVR),虽然在提升 "指得准"(空间对齐)方面表现出色,却往往在 "指得对"(语义对齐)上遭遇瓶颈。模型常 常陷入 "自信陷阱",在复杂的语义场景下无法通过有效探索找到正确的功能图标。 从 "空间对齐" 到 "语义对齐":被忽视的探索瓶颈 GUI Grounding 任务的核心是将自然语言指令(如 "打开相机")映射到屏幕上的特定元素坐标。研究团队指出,这一任务可以解构为两个正交的维度: 1. 空间对齐(Spatial Alignment):能否精确地定位到元素(即 "指得准")。 2. 语义对齐(Semantic Alignment):能否识别出功能正确的元素(即 "指得对")。 针对这一痛点,来自浙江大学、香港理工大学及 InfiX.ai 的研究团队提出了一种全新的 自适应探索 ...