Workflow
大语言模型(LLM)
icon
Search documents
给你一群顶尖AI,如何组队才能发挥最大战力?UIUC用一个新的多智能体协作基准寻找答案
机器之心· 2025-07-09 04:23
朱昆仑是伊利诺伊大学香槟分校(UIUC)计算机科学系的研究生,现隶属于Ulab与Blender Lab,曾在斯坦福大学、卡内基梅隆大学(CMU)与蒙特利尔学习算 法研究所(Mila)进行学术访问。他的研究方向包括大语言模型(LLM)智能体、多智能体系统、AI科学家与工具学习等,在ICML、ICLR、ACL、TMLR等顶 级会议与期刊发表论文10余篇,总引用超过1500次。 他积极参与多个广泛影响的开源项目,包括 OpenManus(RL)、ChatDev(MACNET)、ToolBench 等,累计 在 GitHub 上获得超过 5万+ stars。此外,他曾受邀在 AMD 开发者大会、阿里巴巴云栖大会等重要学术与工业会议中作报告,分享其在AI智能体方面的开源成 果。 这不仅是一个评测集,更是首个能够全面、系统化地评估 LLM 多智能体系统协作与竞争能力的综合性基准。它不仅仅是一套「考题」,而更像一个「模拟 真实社会动态的实验室」,旨在揭示多智能体协作的奥秘,并回答一系列关键问题: …… 论文标题: MultiAgentBench:Evaluating the Collaboration and Compet ...
长思维链里的推理步骤,哪些最关键?三招锁定LLM的「命门句子」
机器之心· 2025-07-09 00:50
机器之心报道 编辑:张倩 思维链里的步骤很重要,但有些步骤比其他步骤更重要,尤其是在一些比较长的思维链中。 找出这些步骤,我们就可以更深入地理解 LLM 的内部推理机制,从而提高模型的可解释性、可调试性和安全性。 但是,这些步骤没有那么好找,因为每个生成的 token 都依赖于之前的所有 token,其计算难以分解。 在最近的一项研究中,来自杜克大学和 Aiphabet 的研究者提出, 在句子层面分析推理痕迹或许是一种有前途的方法 。 作者指出,与 token 相比,句子的连贯性更强,并且往往与 LLM 提取的推理步骤相一致;与段落相比,句子不太可能混淆推理步骤,并且可以作为连接不同步骤 的有效对象。 作者提出了三种互补的方法来分析 LLM 的推理过程,这些方法旨在识别推理过程中的关键步骤,即所谓的「思维锚(thought anchor)」,这些步骤对后续推理过 程具有重大影响。 论文标题:Thought Anchors: Which LLM Reasoning Steps Matter? 论文链接:https://arxiv.org/pdf/2506.19143 第一种是 黑盒方法 。它通过反事实分析衡量句 ...
AI写综述,靠谱吗?
Hu Xiu· 2025-07-04 07:49
当Sam Rodriques还是神经生物学的研究生时,他发现了科学研究中的一个基本问题。他说:"我们说不定已 经拥有了理解人体细胞或大脑的所有必要信息,但不知道到底能否确定这一点,因为没有人类能读完和搞懂 所有这些文献。" 五年后,Rodriques说用人工智能(AI)已经接近解决这个问题。2023年9月,他和初创公司FutureHouse的团 队开发出了一个人工智能系统。这个系统能在几分钟内完成科学知识的总结,准确度超过了维基百科页面 [1]。团队随后用这个系统快速生成了大约17000个人类基因的维基百科式条目,之前它们大多没有详细介绍 页。 Rodriques不是唯一用人工智能来汇总科学知识的人。几十年来,学者们一直在寻找方法来加快文献综述这项 耗时的工作。伦敦国王学院的研究综述专家Iain Marshall说,"综述太长、强度太高,而且经常写完就过时 了。"最近,随着支撑ChatGPT等工具的生成式AI即大语言模型(LLM)的快速发展,人们对自动化综述工作 有了新的期待。 一些较新的基于人工智能的科学搜索引擎已经能通过查找、分类和总结出版物,帮助人们撰写叙述性文献综 述,也就是用文字形式系统地整理研究成 ...
AI:加速能力退化的元凶
3 6 Ke· 2025-07-02 07:16
越依赖LLM,智商越低 自2022年末AI浪潮席卷公众认知以来,相关讨论已汗牛充栋。作为从业二十年的软件工程师,我想谈 谈观察到的两种危险认知。 "LLM是我的好搭档" 不会真的有人把程序当成自己的伙伴,这话的潜台词其实是:LLM能给用户带来巨大收益。 神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技 术、新观点、新风向。 编者按:当业界沉迷于用AI提效的幻象,本文以程序理论与熵增原理揭穿残酷真相:过度依赖LLM正 加速工程师批判性思维退化,而重塑技术敬畏已成生存必修课。文章来自编译。 把LLM当盟友的工程师,往往被迫或主动追求速度至上——对他们而言,交付速度比思考深度更重 要。虽然LLM确实能快速生成代码,但也会伴随着各种长尾风险: 使用LLM的风险 资深工程师失去在攻坚中成长的机会,现有能力逐渐萎缩: "微软研究发现:AI带来的自信常以牺牲批判性思维为代价" "在这个推崇'条件反射式AI使用'的世界,我主张保留编程的手艺本质" "LLM直接给我成品结论,却剥夺了思维成长的过程" 初级工程师永远无法建立核心能力,更遑论培养下一代。 创造剥夺:众多开发者反馈AI夺走了心流状态和 ...
大模型时代,通用视觉模型将何去何从?
机器之心· 2025-07-02 00:54
正因如此,在这个多模态模型席卷科研与工业的新时代,回顾并总结纯视觉范式下的通用视觉模型研究 仍然是一件十分有意义的事情。 清华大学自动化系鲁继文团队 最近发表于 IJCV 的综述论文系统梳理 了该方向的研究进展,涵盖输入统一方法、任务通用策略、模型框架设计、模型评测应用等内容,希望 能为未来视觉模型的发展提供参考与启发。 然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。如今,多模态大模型兴起,视 觉被看作是语言模型众多输入模态中的一种,视觉模态数据被离散化为 Token,与文本一起被统一建 模,视觉的「独立性」正在被重新定义。 在这种趋势下,传统意义上以视觉任务为核心、以视觉范式为驱动的通用视觉模型研究,似乎正在逐渐 被边缘化。然而,我们认为视觉领域仍应保有自己的特色和研究重点。与语言数据相比,视觉数据具有 结构化强、空间信息丰富等天然优势,但也存在视觉模态间差异大、难替代的挑战。例如:如何统一处 理 2D 图像、3D 点云和视频流等异质输入?如何设计统一的输出表示来同时支持像素级分割和目标检 测等不同任务?这些问题在当前的多模态范式中并未被充分解决。 论文标题: Vision Gener ...
只用2700万参数,这个推理模型超越了DeepSeek和Claude
机器之心· 2025-06-30 10:23
机器之心报道 编辑:泽南、陈陈 像人一样推理。 大模型的架构,到了需要变革的时候? 在对复杂任务的推理工作上,当前的大语言模型(LLM)主要采用思维链(CoT)技术,但这些技术存在任务分解复杂、数据需求大以及高延迟等问题。 近日,受到人脑分层和多时间尺度处理机制启发,来自 Sapient Intelligence 的研究者提出了分层推理模型(HRM),这是一种全新循环架构,能够在保持训练稳定 性和效率的同时,实现高计算深度。 具体来说,HRM 通过两个相互依赖的循环模块,在单次前向传递中执行顺序推理任务,而无需对中间过程进行明确的监督:其中一个高级模块负责缓慢、抽象的 规划,另一个低级模块负责处理快速、细致的计算。HRM 仅包含 2700 万个参数,仅使用 1000 个训练样本,便在复杂的推理任务上取得了卓越的性能。 该模型无需预训练或 CoT 数据即可运行,但在包括复杂数独谜题和大型迷宫中最优路径查找在内的挑战性任务上却取得了近乎完美的性能。此外,在抽象与推理 语料库 (ARC) 上,HRM 的表现优于上下文窗口明显更长的大型模型。ARC 是衡量通用人工智能能力的关键基准。 由此观之,HRM 具有推动通用计 ...
为什么说大多数LLM初创企业注定都将失败?
3 6 Ke· 2025-06-30 07:13
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技 术、新观点、新风向。 编者按:当LLM巨头吞噬应用层,套壳创业已成高危游戏。本文揭穿平台幻觉,解剖幸存者基因—— 要么自建壁垒,要么沦为养料。文章来自编译。 大多数AI初创公司都犯了同一个的错误:以为自己是在平台之上搭建业务。但其实,他们是在掠食者 体内筑巢。 一、引言:伪装成跑道的悬崖 AI创业生态正逐渐认清一个残酷现实。过去18个月里,数千家获顶级风投支持的初创公司将未来押注 于一个理念——大语言模型(LLM)是新的应用平台。这个理念极具诱惑力:API容易调用,演示能打 动投资人,套壳创业公司融资快、产品上线更快。 但这些创业公司大多基于认知谬误:误以为模型供应商是类似AWS或iOS的稳定平台。大错特错。模型 供应商不是平台,而是掠食者。 二、模块化的幻象 LLM创业热潮的核心幻觉是可组合性的妄想。创始人以为能像当年企业基于Windows或AWS搞开发那 样,基于Claude、GPT-4或Gemini打造十亿美元级产品。但跟云基础设施不同的是,底层模型供应商在 技术栈里面并非中立层,而是垂直整合的端到端产品公司。 OpenA ...
从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?
机器之心· 2025-06-28 05:22
都是 NPT,用 RL 做预训练的潜力更大吗?为什么强化学习里很少有预训练模型?最流行的 RL 范式有何理论缺陷? 已有成效 的后训练 RL 实现存在什么问题? 2. 硅谷 AI Leaders 近期「暴论」大盘点! 1.从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗? 未来订阅 ChatGPT 就送人形机器人?AGI 为什么可能永远无法实现?为什么 AI 比程序员更显性价比?行业大模型真的没必要 吗?做好研究不如写好推文?OpenAI 和 Nvidia 的「AI 工厂」有何区别? 本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 9 项,国外方面 9 项。 本期通讯总计 23143 字,可免费试读至 9% 机器之心PRO · 会员通讯 Week 26 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- ① LLM 预训练对监督数据的需求趋于无穷,且需要覆盖尽可能所有遇到的问题,同时要求监督信号必须准确无 误,从而保证模型正确性。 ② 两项要求在现实中均难以实现,原因在于高质量人类标注数据 ...
AgentAuditor: 让智能体安全评估器的精确度达到人类水平
机器之心· 2025-06-27 04:02
论文题目: AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents 论文链接: https://arxiv.org/abs/2506.00641 LLM 智能体(LLM Agent)正从 "纸上谈兵" 的文本生成器,进化为能自主决策、执行复杂任务的 "行动派"。它们可以使用工具、实时与环境互动,向着通用人工 智能(AGI)大步迈进。然而,这份 "自主权" 也带来了新的问题:智能体在自主交互中,是否安全? 研究者们为这一问题提出了许多基准(benchmark),尝试评估现有智能体的安全性。然而,这些基准却面临着一个共同的问题:没有足够有效、精准的评估器 (evaluator)。传统的 LLM 安全评估在单纯的评估生成内容上表现优异,但对智能体的复杂的环境交互和决策过程却 "鞭长莫及"。现有的智能体评估方法,无论 是基于规则还是依赖大模型,都面临着 "看不懂"、"看不全"、"看不准" 的困境:难以捕捉微妙风险、忽略小问题累积、对模糊规则感到困惑。基于规则的评估方 法往往仅依靠环境中某个变量的变化来判断是否安全,难以正确识别智能 ...
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 04:02
近期,吉林大学人工智能学院发布了一项基于强化学习训练的 VLM 智能体最新研究《ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World》。它让视觉语言模型(VLM)真正学会了「自我探索 GUI 环境」。 论文地址:https://arxiv.org/abs/2505.19095 项目地址:https://github.com/niuzaisheng/ScreenExplorer 该工作带来三大核心突破: 作者简介:本文第一作者牛润良是吉林大学人工智能学院博士研究生,研究方向包括大模型智能体、强化学习,专注于 GUI Agent。通讯作者王琪为吉林大学人 工智能学院研究员,研究方向包括数据挖掘、大模型、强化学习。 迈向通用人工智能(AGI)的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型(LLMs)和视觉语言模型(VLMs)的飞速发 展,智能体已展现出令人瞩目的跨领域任务泛化能力。 而在我们触手可及的开放世界环境中,图形用户界面(GUI)无疑是人机交互最普遍 ...