多模态智能体评测 - filings, earnings calls, financial reports, news - Reportify

多模态智能体评测

Search documents

首个面向科学任务、真实交互、自动评估的多模态智能体评测环境，ScienceBoard来了

机器之心· 2025-06-26 00:30

用于辅助科学研究的大模型智能体，正在悄然发生变化 1 背景与动机第一作者孙秋实是香港大学计算与数据科学学院博士生，硕士毕业于新加坡国立大学数据科学系。主要研究方向为 Computer-using agents 和 Code intelligence，在 NLP 和 ML 顶会 ACL，EMNLP，ICLR，COLM 等发表多篇论文。本文的 OS-Copilot 团队此前已发布了 OS-Atlas、OS-Genesis 和 SeeClick 等同系列电脑智能体研究成果，被广泛应用于学术界与产业实践中。过去几年，随着 LLMs 和 VLMs 的飞速进步，我们见证了 AI 在自然语言处理、编程、图像理解等领域的广泛应用。而在科学研究这一关乎人类知识积累的关键场域，基于这些强大模型的智能体正悄然成为科研工作流的 "新型合作者"。在早期，AI 在科学中的角色往往是 "分析器"—— 帮助分析数据、撰写文献、生成图表。但随着电脑智能体（Computer-Using Agents，也称 CUA）的出现，这一角色正在发生根本性转变。相比于传统的语言模型助手，这类智能体能够像人类一样操作计算机，通过图形界面点击、拖 ...

多模态智能体评测

科学任务自动化

多模态智能体评测

科学任务自动化