强化微调

Search documents
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
机器之心· 2025-05-27 04:11
在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜 索,或编写/执行代码以操控图像,从而实现「图像中的思考」。 尽管开源研究社区在纯文本的智能体能力方面(比如函数调用和工具集成)已取得显著进展,但涉及图像理解与操作的多模态智能体能力及其对应的评估体系仍 处于起步阶段。 因此,上海交大、上海 AI Lab、港中文、武汉大学的研究团队最新推出的多模态智能体训练方法 Visual-ARFT(Visual Agentic Reinforcement Fine-Tuning) ,专 为赋予视觉语言模型(LVLMs)以「工具智能体」能力而设计。 并且,Visual-ARFT 项目已全面开源(包含训练、评测代码,数据和模型)。如果你对多模态模型、强化学习、视觉语言理解感兴趣,不妨一起来探索更多可能性 吧! Visual-ARFT 让模型不仅能看图、能理解,还能「 动脑推理、动手操作 」,主要包括以下三个方面的核心能力: 如图 1 所示,本文的方法编写并执行 Python 代码以精准读取图像中特定区域的文本(上图),或者通过 ...
深度|ARR过亿美金AI招聘00后创始人:未来最有价值的是拥有“反常识性观点”和“品味”的人,人们最应该优化自己的适应性
Z Potentials· 2025-04-24 03:10
图片来源: No Priors Z Highlights Brendan Foody 是 Mercor 的联合创始人兼 CEO ,同时也是一位 Thiel Fellowship 奖学金获得者,他正在推动一场关于 " 人才评估与分配 " 的根本性变革。本文 是 No Priors 主持人 Sarah Guo 和 Elad Gil 与 Brendan Foody 的访谈实录。 AI 赋能人才评估的新范式 Brendan Foody: 谢谢你邀请我。我很高兴能来到这里。 Sarah Guo: 最近六个月你们公司发展得特别快,势头惊人。你能简单介绍一下Mercor到底是做什么的吗? Brendan Foody: 从宏观上来说,我们训练模型来预测一个人能否胜任某项工作,而且比人类判断得更准确。就像人类会审阅简历、面试并决定录用谁一 样,我们用LMS系统自动化了整个过程。 它的效果非常好,以至于所有顶尖AI实验室都在用它来招聘数以千计的工作人员,这些人正是在训练下一代模 型。 Sarah Guo: 那这些实验室现在主要在招聘什么样的技能和职位呢? Brendan Foody: 实际上,是所有具有经济价值的技能。 因为强化 ...