AAAI 2026 Oral｜InfiGUI-G1模型来了，刷新GUI Grounding SOTA

随着多模态大语言模型（MLLM）的飞速发展，能够像人类一样通过视觉输入操作图形用户界面（GUI）的智能体（Agent）正逐渐成为现实。然而，在通往通用计算机控制的道路上，如何让模型精准地将自然语言指令对应到屏幕上的具体元素 —— 即 GUI Grounding 任务，依然是一大难题。现有的方法，特别是基于验证奖励的强化学习（RLVR），虽然在提升 "指得准"（空间对齐）方面表现出色，却往往在 "指得对"（语义对齐）上遭遇瓶颈。模型常常陷入 "自信陷阱"，在复杂的语义场景下无法通过有效探索找到正确的功能图标。从 "空间对齐" 到 "语义对齐"：被忽视的探索瓶颈 GUI Grounding 任务的核心是将自然语言指令（如 "打开相机"）映射到屏幕上的特定元素坐标。研究团队指出，这一任务可以解构为两个正交的维度： 1. 空间对齐（Spatial Alignment）：能否精确地定位到元素（即 "指得准"）。 2. 语义对齐（Semantic Alignment）：能否识别出功能正确的元素（即 "指得对"）。针对这一痛点，来自浙江大学、香港理工大学及 InfiX.ai 的研究团队提出了一种全新的自适应探索 ...