语言模型

Search documents
大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI
机器之心· 2025-05-30 04:16
本文第一作者为上海交通大学计算机学院副教授刘卫文,研究方向为大模型智能体,大语言模型,个性化算法等。 近年来,随着大语言模型的快速发展,基于其构建的大模型智能体(LLM Agents)正逐步从技术演示走向实际应用部署。然而,真正实现规模化应用仍面 临诸多瓶颈。使用范围主要集中于专业领域,如代码生成、科研辅助等。在大众、高频、日常的应用场景(如电商、个人助理)中,普及率依然较低。这一 现象引发了一个关键问题: 当前制约大模型智能体实际可用性的真正原因是什么? 上海交通大学联合中科大在本文中指出:现阶段大模型智能体的主要障碍不在于模型能力不足,而在于其「Agentic ROI」尚未达到实用化门槛。 论文题目 :The Real Barrier to LLM Agent Usability is Agentic ROI 论文链接 : https://arxiv.org/pdf/2505.17767 Agentic ROI:大模型智能体实现规模化应用的关键瓶颈 研究团队提出 Agentic ROI(Agentic Return on Investment)这一核心指标,用于衡量一个大模型智能体在真实使用场景中所带来的 ...
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
机器之心· 2025-05-30 04:16
机器之心报道 编辑:Panda 近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我 们介绍的这个名叫 LaViDa ,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。 现目前,几乎所有流行的 VLM 都是基于大型语言模型(LLM)构建的,而这些模型采用的范式是自回归(AR),即按照从左到右的顺序逐一生成 token。 例如,生成一首每行都以特定音节开头的诗歌,或从预定义 JSON 格式的图像中提取结构化信息 —— 这些任务通常需要模型填充或协调整个序列中的内容。即使 使用精心设计的提示词和演示,自回归模型仍然难以稳定地满足此类约束。 近段时间,离散的扩散模型(DM)开始崛起,甚至被许多人认为是自回归 LLM 的一种有力替代,比如我们曾报道过的 首个 8B 扩散大语言模型 LLaDA 、 扩散 推理模型 Dream 7B 以及 首个商业级扩散 LLM Mercury 。 不同于自回归 LLM,扩散模型是将文本生成视为在离散 token 上的扩散过程。会有一个前向过程逐渐将离散文本 token 序列退 ...
人工智能和知识图谱:人工智能中知识图谱的概述
3 6 Ke· 2025-05-30 03:48
知识图谱 (KG) 是由现实世界实体(节点)及其相互关系(边)组成的结构化网络,以机器可读的形式 对知识进行编码。在人工智能领域,知识图谱是语义理解、推理和数据集成的强大工具。它们为人工智 能系统提供上下文,通过链接不同的数据源并揭示隐藏的关系,实现更易于解释、更准确的决策。 知识图谱的概念最初由谷歌 2012 年的知识图谱推广,实际上建立在语义网络和本体领域数十年的研究 基础之上,最早可追溯到 20 世纪 60 年代。如今,知识图谱已广泛应用于各行各业,从支持搜索引擎和 语音助手,到推动科学研究和企业分析的发展。未来的创新将致力于实现知识图谱构建的自动化,增强 推理能力,并将知识图谱与人工智能模型紧密结合,从而构建更值得信赖、更具情境感知能力和更智能 的系统。 定义和结构 知识图谱是一种将知识表示为一组实体(节点)及其之间关系(边)的网络。每个节点通常对应于由唯 一 ID 或 URI 标识的现实世界概念或对象(例如,人物、地点或物品);每条边表示连接两个实体(例 如, Person worksFor Company )的特定关系或谓词。属性 (Attribute) 可以注释节点和边以捕获其他详 细信息(例如 ...
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
机器之心· 2025-05-30 03:28
问题来了:到底是哪个 Agent 出了错?又是在对话流程的哪一环节?调试这样的多智能体系统如同大海捞针,需要翻阅大量复杂日志,极其耗时。 这并非虚构。在多智能体 LLM 系统中,失败常见但难以诊断。随着这类系统愈加普及,我们急需新方法快速定位错误。正因如此,ICML 2025 的一篇 Spotlight 论 文提出了「自动化失败归因(Automated Failure Attribution)」的新研究方向,目标是让 AI 自动回答:是谁、在哪一步导致了失败。 该工作由 Penn State、Duke、UW、Goolge DeepMind 等机构的多位研究人员合作完成。 论文标题:Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems 背景挑战 LLM 驱动的多智能体系统在诸多领域展现出巨大潜力,从自动化助手协同办公到多 Agent 合作完成 Web 复杂操作等。然而,这些系统 脆弱性 也逐渐显现:多个 Agent 之间的误解、信息传递错误或决策不当,都可能导致 ...
2025国际人形机器人技能大赛召开 业内呼吁理性包容机器人行业“成长的烦恼”
Zheng Quan Shi Bao Wang· 2025-05-29 14:07
以"具身智能,未来已来"为主题的2025张江具身智能开发者大会暨2025国际人形机器人技能大赛5月29 日在上海浦东张江举行。2025国际人形机器人技能大赛设置5大赛道,覆盖28个高难度场景,60余支顶 尖参赛队伍和国内外参赛选手共同参赛。本次大赛旨在于集中展示人形机器人解决实际问题的能力和场 景应用落地能力,助力机器人产业向"能看、会说、有智商"进阶。 国家地方共建人形机器人创新中心首席科学家江磊在接受证券时报记者采访时表示,上海聚焦人形机器 人在生产制造、服务场景中的实际应用,强调 "解决实际问题"。本次大赛设定商超、药店、工业制造 等真实场景任务,以场景驱动行业回归实用。江磊说,公众需以包容的心态看待机器人行业发展现状。 行业的快速发展仅有三年左右时间,如同"三岁儿童",需给予它更长的时间发育。 参赛者:理性看待机器人行业发展进度 当天,上海开普勒K2"大黄蜂"团队、北京理工大学急行智学团队、清华大学紫荆战队等60余支顶尖参 赛队伍和国内外参赛选手,在9个比赛场地同步展开激烈角逐。 记者了解到,此次赛事的所有项目均源自企业实际需求,每个赛道都还原了真实应用场景,总体难度较 大。因此,机器人未能完成任务并 ...
Linear-MoE:线性注意力遇上混合专家的开源实践
机器之心· 2025-05-29 11:38
线性序列建模的崛起 近年来随着大语言模型的爆火,旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点,主要包括线性序列建模(如 Linear Attention、SSM、Linear RNN 等)和混合专家(Mixture-of-Experts, MoE)两部分。这两部分分别都有了长足的进步,但两者的结合却鲜少有人研究, 两者结合后的 Linear-MoE 架构开源实现更是完全缺失。 值得一提的是,近期广受好评的 MiniMax-01 模型(使用 Lightning Attention-MoE)和腾讯混元 TurboS 模型(使用 Mamba2-MoE)均属于 Linear-MoE 架构。 来自上海人工智能实验室团队的最新成果 Linear-MoE,首次系统性地实现了线性序列建模与 MoE 的高效结合,并开源了完整的技术框架,包括 Modeling 和 Training 两大部分,并支持层间混合架构。为下一代基础模型架构的研发提供了有价值的工具和经验。 过去两年,线性序列建模技术取得了显著进展,其核心优势在于线性时间复杂度的训练和恒定内存占用的推理。 这类模型主要分为三大类:线性 ...
重新理解Agent的边界与潜力:AI转型访谈录
3 6 Ke· 2025-05-29 10:53
2025年被誉为"Agent元年",从企业级AI助手到个人规划工具,各类Agent如雨后春笋般涌现。然而,尽 管市场热情高涨,Agent仍未形成统一的定义——它究竟是"下一代App",还是更接近"智能协作者"?多 数人仍将其视为传统工具的升级版,但真正的变革潜力或许远超想象。 在这场Agent的探索浪潮中,AI Native公司正尝试突破传统框架,重新定义其边界。它们不再局限于"效 率工具"的定位,而是探索Agent在商业洞察、创意生成、组织变革等领域的深层价值。 在本次访谈中,特赞创始人范凌博士将分享他对Agent的独特见解——通过大语言模型模拟真实用户行 为,让AI不仅回答问题,更能主动构建用户画像、驱动决策流程,甚至暴露人类思维的盲区。这种创 新不仅挑战了我们对Agent的认知,也预示着人机协作的全新模式。 【 核心洞察 】 Atypica.ai与传统Agent最大的不同是什么? 范凌: 传统上,研究人员主要是通过模拟来解决这类复杂问题。以前的模拟主要关注群体行为,就像研究一群 小老鼠那样研究人群的整体趋势。但有了大语言模型后,我们现在可以更好地研究和模拟个人行为。这 就是为什么我们给产品取名叫"Aty ...
重新理解Agent的边界与潜力|AI转型访谈录
腾讯研究院· 2025-05-29 09:28
2025年被誉为"Agent元年",从企业级AI助手到个人规划工具,各类Agent如雨后春笋般涌现。然而, 尽管市场热情高涨,Agent仍未形成统一的定义——它究竟是"下一代App",还是更接近"智能协作 者"?多数人仍将其视为传统工具的升级版,但真正的变革潜力或许远超想象。 在这场Agent的探索浪潮中,AI Native公司正尝试突破传统框架,重新定义其边界。它们不再局限 于"效率工具"的定位,而是探索Agent在商业洞察、创意生成、组织变革等领域的深层价值。 在本次访谈中, 特赞创始人范凌博士 将分享他对Agent的独特见解——通过大语言模型模拟真实用户 行为,让AI不仅回答问题,更能主动构建用户画像、驱动决策流程,甚至暴露人类思维的盲区。这种 创新不仅挑战了我们对Agent的认知,也预示着人机协作的全新模式。 【 核心洞察 】 Atypica.ai与传统Agent最大的不同是什么? 徐思彦: 产品创新: 与传统AI相比,Atypica.ai的创新点是模拟真实的人,用大语言模型研究典型用户,多 个AI助手协同高效低成本进行大规模用户访谈。 发散优先模型: 在推理层做发散优先模型,适合处理商业问题的非共识 ...
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
量子位· 2025-05-29 04:42
LIFEBench团队 投稿 量子位 | 公众号 QbitAI 你是否曾对大语言模型(LLMs)下达过明确的 "长度指令" ? 比如,"写一篇10,000字的长文,详细分析某个议题。"看似简单的要求,实际却往往让这些模型"力不从心": 不是生成内容不足,就是重复啰嗦,甚至直接罢工拒绝生成。 一篇最新研究论文 《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》 对这一问题 进行了深入探讨,提出了一个全新的基准测试集 LIFEBENCH,系统评估大语言模型在长度指令遵循方面的表现。 研究结果揭示:这些看似无所不能的模型在长度指令,特别是长文本生成任务中,表现不尽人意。 当模型被明确要求生成特定长 度的文本时,大多数模型表现糟糕。 接下来,让我们一起来看看这篇论文是如何揭示这些"瓶颈"的! LIFEBENCH:专注长度指令遵循的基准测试 LIFEBENCH,全称" L ength In struction F ollowing E valuation Bench mark",是一套专门评估大语言模型在长度指令下表 ...
搜索Agent最新高效推理框架:吞吐量翻3倍、延迟降至1/5,还不牺牲答案质量丨南开& UIUC研究
量子位· 2025-05-29 01:08
大语言模型(LLM)驱动的搜索智能体,通过动态拆解问题、交错执行"思考"(推理)和"查 找"(检索)来解决复杂任务,展现了惊人能力。 SearchAgent-X团队 投稿 量子位 | 公众号 QbitAI AI越来越聪明,但如果它们反应慢,效率低,也难以满足我们的需求。 然而,这种深度交互的背后,也隐藏着显著的效率痛点。 处理复杂任务时,查得慢、查得不准,都会拖慢整个流程。 来自南开大学和伊利诺伊大学厄巴纳-香槟分校的研究人员深入剖析了这些效率瓶颈,并提出 了一套名为 SearchAgent-X 的高效推理框架。 实践表明,SearchAgent-X实现了 1.3至3.4倍 的吞吐量提升, 延迟降至原来的 1/1.7至 1/5 ,同时不牺牲最终的答案质量。 解析搜索智能体中的两大效率瓶颈因素 研究者发现,看似简单的检索环节,隐藏着两大关键的效率制约因素: 检索精度:并非"越高越好"的微妙平衡 直觉上,检索越准,LLM获取信息质量越高,效率也应该越高。但实际情况是 非单调关系 过低精度 LLM需更多轮检索和推理弥补,总时间增加。 过高精度 检索本身计算资源消耗巨大,拖慢整体速度。 研究表明,系统吞吐量随近似检索 ...