检索增强生成

Search documents
全模态RAG突破文本局限,港大构建跨模态一体化系统
量子位· 2025-06-26 03:43
RAG-Anything团队 投稿 量子位 | 公众号 QbitAI 突破传统检索增强生成(RAG)技术的单一文本局限,实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解。 香港大学黄超教授团队开源多模态智能处理系统RAG-Anything,将碎片化的信息孤岛转化为结构化的知识网络,为智能多模态文档分析开辟 了全新技术路径。 人工智能正在从只会处理文字发展到能够理解多种信息形式,这种变化其实很符合日常工作的实际情况。人们平时接触的信息很少是纯文字 的,更多的是包含图片、表格、图表的综合性文档。这些不同类型的内容——文字说明、图像展示、数据分析、逻辑推理等——相互配合,形 成了一个完整的信息体系。 在各个专业领域里,多模态内容早就成为主流的信息传递方式。学术论文需要用图表和公式来展示研究成果,教学材料用图解让概念更好理 解,财务报告靠各种图表来展现数据变化,医疗记录则包含大量的影像和检测数据。这些视觉化的内容和文字说明互相补充,构成了完整的专 业知识框架。 面对如此复杂的信息形态,传统的单一文本处理方式已无法满足现实各类场景的需求。各行业都迫切需要AI系统具备跨模态的综合理解能力, 能够同时解析文字叙述 ...
卡内基梅隆大学团队:如何全面检测RAG系统鲁棒性?
Sou Hu Cai Jing· 2025-06-08 02:53
| Yixiao Zeng | Tianyu Cao | Danging Wang | | --- | --- | --- | | Carnegie Mellon University | Carnegie Mellon University | Carnegie Mellon University | | jackz@andrew.cmu.edu | tianyuca@andrew.cmu.edu | dangingwandrev cmu.edu | | Xinran Zhao | Zimeng Oiu | Morteza Ziyadi | | Carnegie Mellon University | Amazon | Amazon | | xinranz3@andrey.cmu.edu | zimengqi@amazon.com | mziyadi@amazon.com | | Tongshuang Wu | | Lei Li | | Carnegie Mellon University | | Carnegie Mellon University | | sherryw@andrew.cmu.edu | ...
SIGIR 2025 | 解决扩展和迁移难题,华为新加坡提出InstructRAG,提升高达19%
机器之心· 2025-05-23 06:49
大语言模型(LLM)已成为规划复杂任务的强大工具。虽然现有方法通常依赖于 "思考 - 行动 - 观察"(TAO)过程,但这些方法受限于 LLM 固有的知识局限性。 检索增强生成 (RAG) 则利用外部数据库,将 LLM 生成与检索到的信息相结合。而将 RAG 应用于实际任务规划仍然面临着两个方面的挑战: 1. 可扩展性:通过遍历现有指令并将其组合成新的序列来扩展指令图的范围的能力,帮助 LLM 完成没有预定义路径的任务。 2. 可迁移性:开发能够快速适应新任务的技术,使模型能够从有限的示例中有效地学习。 针对大模型任务规划中的可扩展性与可迁移性挑战,华为2012中央软件院新加坡团队王政博士主导提出了InstructRAG方案,通过多智能体协同的元强化学习架 构,实现了:1)基于强化学习的指令图拓扑扩展;2)元学习驱动的少样本任务迁移。在跨领域的复杂任务测试中(包括多跳推理、具身决策、在线购物和科学 问答),相较现有最优方法取得19.2%的性能提升,并在50%噪声干扰下仅表现出11.1%的性能衰减,展现出较强的复杂场景适用性。 论文标题:InstructRAG: Leveraging Retrieval-Aug ...
领域驱动的 RAG:基于分布式所有权构建精准的企业知识系统
Sou Hu Cai Jing· 2025-05-22 13:37
作者 | George Panagiotopoulos 译者 | 明知山 策划 | 丁晓昀 我们的背景 作为一家在银行技术领域拥有超过 30 年行业经验的领军供应商,我们拥有丰富且极具创新性的代码库,并通过战略性收购不断扩大业务。多年来,我们 一直将自己定位为行业的创新者,但创新的迅猛步伐也为我们带来了在庞大产品线中保持文档一致性与时效性的挑战。 虽然我们代码库的部分模块拥有坚实且管理得当的文档,但仍有部分模块存在文档不清晰或内容过时的问题,这导致我们的销售工程师和客户架构师很难 找到所需的信息。此外,我们的领域专家在各自的专业领域拥有深厚的知识和丰富的经验,但这些宝贵的专业知识往往分散且孤立,难以被系统地整合和 获取。 此前,我们曾尝试通过知识共享计划和培训项目来解决这一问题,但由于文档分散和专业知识孤立,这些努力的效果并不理想。我们还尝试引入基于静态 预定义问题和答案数据库的事实查找工具。然而,这些工具在使用过程中面临一个重大挑战——缺乏上下文信息。通常情况下,如果问题本身或其上下文 (或两者)稍有不同,针对特定问题在特定上下文中的答案就难以复用。为了克服这些获取准确技术信息的障碍,我几个月前决定探索使用 ...
“AI时代,从平凡的事情做起会带来真正的好处”
3 6 Ke· 2025-05-20 01:00
这一浪潮中,全球头部科技公司是如何进行内部重组和员工再培训的?我们又可以对新技术带来的改变 抱有哪些期待? •微软如何看待组织适应业务流程、工作和任务,并从内部做好实施AI战略的准备? •怎样应对新技术中的不确定性,避免潜在的伦理问题? 生成式AI带来的影响惊天动地又深入生活,正在重塑全球经济与职场。一方面,国际货币基金组织 (IMF)指出,这项技术可能会加剧不平等:虽然AI正在激发各个领域的创新,但是占主导地位的技术 参与者在资源和市场份额方面具有明显优势;同时回到职场,IMF表示全球40%的工作岗位,以及发达 经济体中60%的工作岗位将因AI而面临淘汰或变革,组织和个人都应为此做好准备。 基于以上,哈佛商学院教授比尔·科尔与微软现代工作与商业应用业务集团副总裁(Corporate Vice President of Modern Work and Business Applications at Microsoft)贾里德·斯帕塔罗(Jared Spataro)讨论 了以下问题: •AI会为下一代职场与商业生态带来哪些改变? 贾里德·斯帕塔罗:我倾向于认为我们处于一个以AI为助手的时代,个人助手或团体助手 ...
全面拥抱AI后,OceanBase推出开箱即用RAG服务
Nan Fang Du Shi Bao· 2025-05-17 09:32
5月17日,升级AI战略后的国产数据库企业OceanBase迎来了第三届开发者大会。会上,OceanBase发布 面向AI的应用产品PowerRAG,提供开箱即用的RAG(检索增强生成)应用开发能力;全新推出"共享 存储"产品,开创性实现对象存储与事务型数据库(TP)的深度集成。 OceanBase AI战略一号位、CTO杨传辉表示,OceanBase正致力于构建Data×AI能力,面向AI时代推动一 体化数据库向一体化数据底座的战略演进。此前,CEO杨冰曾通过全员信宣布公司全面进入AI时代。 从一体化数据库 向一体化数据底座演进 AI时代带来了新的数据难题,已成为行业共识。蚂蚁集团CTO何征宇在大会分享中指出,海量的互联 网数据成就了今天的大模型,但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限, 且依旧有四大挑战:一是数据的获取成本显著增加,二是严谨的行业数据稀缺且流动困难,三是多模态 数据需要更强的处理能力,四是数据的质量评估难。 面对行业的真实需求,OceanBase正在大胆探索。杨传辉表示,OceanBase致力于从一个一体化数据库向 一个一体化数据底座演进,通过一套引擎同时支持TP/ ...
OpenAI:GPT-5就是All in One,集成各种产品
量子位· 2025-05-17 03:50
一水 发自 凹非寺 量子位 | 公众号 QbitAI GPT-5将会集大成于一体?! 就在发布"最强编程智能体Codex"之后 ,OpenAI又接着在Reddit举行了 "有问必答"活动 。 公司研究副总裁Jerry Tworek,剧透了下一代基础模型GPT-5的最新消息: 为了减少模型切换,未来计划将Codex、Operator、Deep Research和Memory整合在一起 。 Q3 : 团队在使用Codex时,发现了哪些与目前的"氛围编码(vibe coding)"不同的范式转变?开发这个工具的灵感是什么? 除此之外,其他Codex团队成员也纷纷开启了爆料模式,比如: Okk,下面我们一起吃瓜。 回应10大重点问题 Codex最初只是一个附带项目,启动原因是他们意识到在内部工作流中未充分利用好模型; 内部在使用Codex时,编程效率提升了约3倍; OpenAI正在探索灵活的定价方案,包括按需付费; o3-pro或codex-1-pro最终将在团队能力允许的情况下推出; …… 整体而言,OpenAI团队这次主要分享了Codex的详细情况,以及公司未来的发展计划。 为了尽量贴合问答者原意,我们直接以对话 ...
李彦宏说 DeepSeek 幻觉高,是真的吗?
3 6 Ke· 2025-05-02 04:29
李彦宏点名批评DeepSeek幻觉高。这回,他真的没错。但大模型的幻觉问题,又远非错与对那么简单。 DeepSeek-R1作为今年年初的新晋国产开源大模型,以强大的推理能力和更懂国人的文笔,在苹果美区App免费下载排行榜上力压ChatGPT一头,甚至一 度成为"AI"的代言词。 然而,自从R1席卷全网后,关于它经常"胡说八道"的批评就不绝于耳,比如它实在太能编了,让人真真假假分不清。 除了用户端之外,李彦宏及其代表的大厂们也"苦"DeepSeek已久:一方面,大厂不得不依赖DeepSeek的泼天流量导入自身门户入口;另一方面,尽管投入 大量人力物力研发深度推理模型,其成果却难以突破用户心智。 在2025百度AI开发者大会的开幕上,李彦宏直接点出全民AI大模型 DeepSeek-R1 的痛点:"只支持单一模态、幻觉率较高、又慢又贵"。一番犀利评论, 再度引发了各界对DeepSeek-R1以及大模型"幻觉"的评议。 但出现强烈幻觉的并不止DeepSeek一家,OpenAI在其内部测试中发现:o3/o4-mini虽然全面替换了o1系列,但是幻觉现象越来越强了;国内第一个混合推 理模型——阿里通义的Qwen3也在X上 ...
重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
机器之心· 2025-04-28 01:26
机器之心发布 机器之心编辑部 《大规模语言模型:从理论到实践(第 2版)》 是一本理论与实践并重的专业 技术书 ,更是 AI时代不可或缺的知识工具书。 任何人 都能在本 书中找到属于自己的成长路径。 在人工智能浪潮席卷全球的今天,大语言模型正以前所未有的速度推动着科技进步和产业变革。从 ChatGPT 到各类行业应用,LLM 不仅重塑 了人机交互的方式,更成为推动学术研究与产业创新的关键技术。 面对这一飞速演进的技术体系,如何系统理解其理论基础、掌握核心算法与工程实践,已成为每一位 AI 从业者、研究者、高校学子的必修课。 2023 年 9 月,复旦大学张奇、桂韬、郑锐、黄萱菁研究团队面向全球学术界与产业界正式发布了《大规模语言模型:从理论到实践》。短短 两年,大语言模型在理论研究、预训练方法、后训练技术及解释性等方面取得了重要进展。业界对大语言模型的研究更加深入,逐渐揭示出许多 与传统深度学习和自然语言处理范式不同的特点。例如, 大语言模型仅需 60 条数据就能学习并展现出强大的问题回答能力,显示了其惊人的 泛化性 。然而,本书作者们也发现大语言模型存在一定的脆弱性。例如, 在一个拥有 130 亿个参数的模 ...
独家洞察 | API在先进人工智能(AI)集成和金融创新中的关键作用
慧甚FactSet· 2025-03-27 09:20
正是凭借这一卓越能力,API 可以将各个媒体类型与应用程序功能连接起来,确保生成式AI系统能够自 如运用复杂的数据输入。如此一来,开发人员就可以创建更具动态性和多功能性的应用程序,从容应对未 来多样化的数据需求。 特别是在检索增强生成(RAG)领域,API至关重要,它为人工智能模型开启了通向外部数据库的大门,确 保模型中使用的信息是最新且相关的。API直接将外部数据集成到AI模型的响应过程中,提升了模型生成 准确且具备上下文感知能力输出的能力。对话式API则充当了促进用户与AI模型之间无缝交互的接口。 在当今数字化时代,应用程序接口(API)已经成为大型语言模型(LLM)、生成式 AI 以及数据仓库和数据 湖等数据管理系统的重要支柱。 就LLM和生成式AI范畴而言,API能够访问各种数据源,增强了洞察生成和内容创作的能力。对于那些希 望在不颠覆现有基础设施的情况下利用 AI 的企业来说,这种能力至关重要。 高德纳咨询公司(Gartner)预计,到2027年,40%的生成式 AI 解决方案将具备多模态功能。多模态意味着 系统能够处理文本、图像、音频和视频等多种不同类型的数据,在这其中,API 的关键作用愈发凸显 ...