Workflow
多模态智能体能力
icon
Search documents
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
机器之心· 2025-05-27 04:11
在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜 索,或编写/执行代码以操控图像,从而实现「图像中的思考」。 尽管开源研究社区在纯文本的智能体能力方面(比如函数调用和工具集成)已取得显著进展,但涉及图像理解与操作的多模态智能体能力及其对应的评估体系仍 处于起步阶段。 因此,上海交大、上海 AI Lab、港中文、武汉大学的研究团队最新推出的多模态智能体训练方法 Visual-ARFT(Visual Agentic Reinforcement Fine-Tuning) ,专 为赋予视觉语言模型(LVLMs)以「工具智能体」能力而设计。 并且,Visual-ARFT 项目已全面开源(包含训练、评测代码,数据和模型)。如果你对多模态模型、强化学习、视觉语言理解感兴趣,不妨一起来探索更多可能性 吧! Visual-ARFT 让模型不仅能看图、能理解,还能「 动脑推理、动手操作 」,主要包括以下三个方面的核心能力: 如图 1 所示,本文的方法编写并执行 Python 代码以精准读取图像中特定区域的文本(上图),或者通过 ...