多模态智能体评测

Search documents
首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了
机器之心· 2025-06-26 00:30
用于辅助科学研究的大模型智能体,正在悄然发生变化 1 背景与动机 第一作者孙秋实是香港大学计算与数据科学学院博士生,硕士毕业于新加坡国立大学数据科学系。主要研究方向为 Computer-using agents 和 Code intelligence, 在 NLP 和 ML 顶会 ACL,EMNLP,ICLR,COLM 等发表多篇论文。本文的 OS-Copilot 团队此前已发布了 OS-Atlas、OS-Genesis 和 SeeClick 等同系列电脑智 能体研究成果,被广泛应用于学术界与产业实践中。 过去几年,随着 LLMs 和 VLMs 的飞速进步,我们见证了 AI 在自然语言处理、编程、图像理解等领域的广泛应用。而在科学研究这一关乎人类知识积累的关键 场域,基于这些强大模型的智能体正悄然成为科研工作流的 "新型合作者"。 在早期,AI 在科学中的角色往往是 "分析器"—— 帮助分析数据、撰写文献、生成图表。但随着电脑智能体(Computer-Using Agents,也称 CUA)的出现,这一 角色正在发生根本性转变。相比于传统的语言模型助手,这类智能体能够像人类一样操作计算机,通过图形界面点击、拖 ...