Workflow
大型语言模型
icon
Search documents
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
机器之心· 2025-06-16 04:04
本文共同一作是张翔和曹峻泰。张翔是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和 AI for Science;曹峻泰是英属哥伦比亚大学研究生, 主要研究兴趣集中在大模型推理和可解释性研究;本文通讯作者是来自纽约大学石溪分校的助理教授尤晨羽,以及来自 Meta Gen AI 的研究员丁渡鉴。 近年来,大型语言模型(LLM)在自然语言处理领域取得了革命性进展。然而,其底层的 Transformer 架构在处理复杂推理任务时仍有不足。尽管「思维 链」(CoT)提示技术提供了一条实用路径,但多数方法依赖通用指令,导致提示工程高度依赖反复试验,缺乏理论指导。 图 1 :Prompt 模板深刻影响着答案空间的配置和导航方式。左侧展示了不同的 Prompt(如 Auto-Prompt、RL-Prompt)如何在「Prompt 空间」中进行搜索,而右侧则展示了在特定 Prompt 指导下,如何在「答案空间」中进行搜索以得到解决方案(如 Tree-of-Thought、Graph-of-Thought)。 来自英属哥伦比亚大学、纽约大学石溪分校和浙江大学的研究团队深入剖析了 Prompt 如何在 LLM 的 CoT ...
迈向人工智能的认识论:窥探黑匣子的新方法
3 6 Ke· 2025-06-16 03:46
鉴于上述困难,研究人员正在多个方面进行创新,以更好地理解和控制大型语言模型(LLM)的推理 方式。总体而言,两种互补的策略正在形成: 机械分析和归因:分解模型的内部计算(电路、神经元、注意力头),将特定的决策或步骤归因于特定 的组件。 行为评估和约束:设计评估指标和训练框架,区分真正的推理和表面模式,并鼓励模型在中间步骤中讲 真话。 一个有进展的想法是将 电路级可解释性与思路链验证相结合 。例如,人们可以使用 因果追踪 方法来查 看模型的哪些部分与思路链的每个步骤相对应地被激活,从而检查所声称的推理步骤是否在产生答案的 过程中发挥了因果作用。如果一个模型说:"因此,由于原因 X,选项 C 是正确的",我们可以验证与 原因 X 相关的神经元确实对选项 C 的对数有影响。Anthropic 的工作已经展示了追踪个体特征的可行 性:他们设法识别出能够检测 Claude 是否遵循用户提示的神经元。通过观察模型内部的信息流,他们 有效地 标记出一种"令人担忧的机制" ——模型在生成虚假推理路径时倾向于使用提示。进一步扩展, 我们可以想象一个自动化系统,它实时监控 LLM 的内部激活状态,以便及时发现其是否存在不良行为 ...
“多模态方法无法实现AGI”
AI前线· 2025-06-14 04:06
作者 | Benjamin 译者 | 王强 策划 | 褚杏娟 "将语言投射回思想模型时,我们忽视了支撑我们智能的不言而喻的具身认知。" 首先,虽然奥赛罗的移动可被证明用于推断奥赛罗棋盘的完整状态, 但我们没有理由相信有办法通 过语言描述推断出物理世界的完整画面 。将奥赛罗游戏与物理世界的许多任务区分开来的是, 奥赛 罗本质上位于符号领域,只是使用物理标记来实现,以便于人类玩耍 。一个完整的奥赛罗游戏可以 用纸和笔进行,但人们不能用纸和笔扫地、洗碗或开车。要解决这些任务,你需要超越人类用语言描 述的物理世界概念。这种描述世界的概念是否编码进了正式的世界模型中,或者例如编码进了一个价 值函数,还有待讨论, 但很明显,物理世界中有许多问题不能完全由符号系统表示并用纯粹的符号 操作解决 。 最近生成式人工智能模型的成功让一些人相信人工通用智能(AGI)即将到来。虽然这些模型似乎捕 捉到了人类智能的本质,但它们甚至违背了我们对智能最基本的直觉。它们之所以出现,并非因为它 们是解决智能问题的深思熟虑的解决方案,而是因为它们在我们已有的硬件上有效地扩展了规模。一 些人沉浸在规模扩展的成果中,开始相信这提供了通往 AGI 的 ...
每日机构分析:6月13日
Xin Hua Cai Jing· 2025-06-13 08:29
【机构分析】 汇丰银行外汇策略主管认为,短期内地缘政治风险发酵令风险资产承压,英镑难以独善其身。英镑兑美 元被视为风险敏感型货币,盘中跌至1.3530附近。 汇丰银行:地缘政治风险短期令英镑承压 丹斯克银行:美国30年期国债拍卖结果缓解长期美债需求担忧 北欧斯安银行:预计瑞典央行6月利率决议将降息 RSM首席经济学家指出,美国家电价格的上涨反映了之前进口税时期的成本增加情况。消费者行为对 于判断通胀是否会持续至关重要;如果通胀被证明是暂时的,美联储可能会在今年晚些时候下调其政策 利率;但如果消费者因短期物价波动调整通胀预期,则降息时间可能推迟。 高盛分析师指出,美国数据中心证券化市场规模已从50亿美元激增至300亿美元,这一爆炸性增长短期 主要由云计算资本支出激增、供应紧张局面以及政策支持的推动。分析师预计,数据中心市场将在2026 年年中达到峰值入住率,随后几年将逐步放缓。数据中心证券化市场涵盖资产支持证券(ABS)和商业 抵押贷款支持证券(CMBS)结构。增长主要由配备数千个GPU、为大型语言模型提供算力的设施大规 模投资推动。 摩根大通首席美国经济学家Michael Feroli指出,5月生产者价格指数 ...
迈向人工智能的认识论:真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗
3 6 Ke· 2025-06-13 06:01
如果大型语言模型能够推理,但没有人能够看到它是如何推理的,那么它真的在思考吗? 简而言之,像 GPT-4 这样的大型语言模型 (LLM) 展现出卓越的能力,但其运作方式却如同"黑匣子", 这意味着它们的内部决策过程在很大程度上是不透明的,甚至对其创建者而言也是如此。本 系列文章 综合了近期关于 LLM 可解释性的研究,重点关注这些模型的推理方式、其解释的可靠性(思维链)以 及对安全性和部署的影响。 综合基础研究和最新进展,理解基于 Transformer 的架构中的突发行为和对齐效应。 "没有人真正知道人工智能为何有效"——这一惊人言论抓住了现代人工智能核心的黑箱问题。 如今,像 GPT-4 或 Claude 这样的大型语言模型 (LLM)可以编写代码、通过 测试 并进行复杂的推理,但 即使是它们的创造者也难以解释它们是 如何 得出输出结果的。正如一位人工智能科学家所说:"我们构 建了它,训练了它,但我们不知道它在做什么"。 本文 探讨了近期试图揭示这些黑匣子的研究,重点关 注 推理模型 以及模型内部思维过程与其给出的解释之间经常观察到的脱节。通过综合基础论文和 2023-2025 年关于可解释性、涌现性、思 ...
蔡崇信:DeepSeek取得突破后,阿里巴巴工程师春节无休全力追赶AI浪潮
华尔街见闻· 2025-06-12 10:42
媒体报道,DeepSeek今年1月推出的低成本、功能强大的人工智能模型震惊了全球科技行业后,阿里 巴巴集团的工程师们取消了假期,在春节假期期间继续工作,奋起直追,连夜加班赶进度。 阿里巴巴董事会主席蔡崇信(Joe Tsai)周三在巴黎举行的VivaTech科技大会上表示,中国充满活力的 消费互联网环境,加上本地工程师之间激烈的竞争文化,正不断推动中国在AI领域的创新。 他透露,阿里巴巴是在DeepSeek发布R1模型之后,才意识到自己在AI领域已经落后了。他举例说明了 中国科技行业竞争的激烈程度: "我们看了那篇论文,心想:'天啊,怎么我们落后了?我们之前也在做这些事情啊,'结果就是,我们 的工程主管决定说:'取消春节假期,所有人都留在公司,加班睡办公室,我们要加速开发进度。'几周 之内,我们就推出了自己的版本,也就是Qwen系列模型。它非常具有竞争力"。 作为与马云共同创办阿里巴巴的创始成员之一,尽管蔡崇信近来开始更加坦率地谈论公司所经历的困 难,但同时也表达了对未来发展的乐观态度。上个月在澳门举办的一场科技大会上,他曾提到阿里巴巴 经历了一系列挫折,但也强调公司"正走在一条非常好的路上"。 ⭐星标华尔街见 ...
蔡崇信:DeepSeek取得突破后,阿里巴巴工程师春节无休全力追赶AI浪潮
硬AI· 2025-06-12 07:04
"我们看了那篇论文,心想:'天啊,怎么我们落后了?我们之前也在做这些事情啊,'结果就是,我们的工程主管决定 说:'取消春节假期,所有人都留在公司,加班睡办公室,我们要加速开发进度。'几周之内,我们就推出了自己的版本, 也就是Qwen系列模型。它非常具有竞争力"。 硬·AI 作者 | 赵雨荷 编辑 | 硬 AI 媒体报道,DeepSeek今年1月推出的低成本、功能强大的人工智能模型震惊了全球科技行业后,阿里巴巴 集团的工程师们取消了假期,在春节假期期间继续工作,奋起直追,连夜加班赶进度。 阿里巴巴董事会主席蔡崇信(Joe Tsai)周三在巴黎举行的VivaTech科技大会上表示,中国充满活力的消 费互联网环境,加上本地工程师之间激烈的竞争文化,正不断推动中国在AI领域的创新。 他透露,阿里巴巴是在DeepSeek发布R1模型之后,才意识到自己在AI领域已经落后了。他举例说明了中 国科技行业竞争的激烈程度: 蔡崇信还说,开源大型语言模型(LLMs)将带动人工智能应用的激增,并推动云计算需求的增长。目 前,阿里巴巴正经历"一个巨大考验的时期"之后,进一步聚焦自身庞大业务帝国的重心。 他说,阿里巴巴选择将Qwen系列 ...
喝点VC|a16z谈搜索大变局:搜索迈入由语言模型主导的“生成式引擎优化(GEO)”全新范式
Z Potentials· 2025-06-12 04:24
传统搜索基于链接构建,而GEO的核心是语言。 图片来源: a16z Z Highlights 本文作者 Zach Cohen 和 Seema Amble 是 a16z 的合伙人。 Zach Cohen 专注于企业软件和人工智能领域的投资,特别是生成式 AI 、机器学习基础设施和开发者工 具。 Seema Amble 专注于全球软件即服务( SaaS )和金融科技领域的投资,特别是 B2B 金融科技、支付和垂直行业软件。这篇文章是 Zach Cohen 与 Seema Amble 共同参与的关于生成式搜索技术颠覆传统 SEO 生态的研究,于 2025 年 5 月 28 日发布在 a16z 官网。 我们熟知的搜索时代已近尾声,而营销人员对这一变革的感受颇为复杂。 二十余年来,搜索引擎优化(SEO)始终是网络曝光的核心策略。这一领域催生出完整的产业生态,涵盖关键词堆砌者、反向链接中介、内容优化师、审计 工具及运营这些环节的专业机构。但在2025年,搜索行为正从传统浏览器向大型语言模型(LLM)平台迁移。随着苹果宣布将Perplexity、Claude等原生AI 搜索引擎集成至Safari,谷歌的流量分发垄断地位受到 ...
中科院团队自研大模型,自动设计超强芯片
半导体行业观察· 2025-06-12 00:42
来源:内容编译自arxiv。 处理器芯片设计技术是推动计算机科学及相关领域突破的关键前沿技术。随着信息技术的快速发展, 传统的设计范式面临三大挑战:制造技术的物理约束、日益增长的设计资源需求以及生态系统的日益 多样化。自动化处理器芯片设计已成为应对这些挑战的变革性解决方案。尽管人工智能(AI)领域的 最新突破,尤其是大型语言模型(LLM)技术,为完全自动化的处理器芯片设计开辟了新的可能 性,但为处理器芯片设计建立特定领域的LLM仍然存在巨大的挑战。 本文提出了一种全新的处理器芯片软硬件全自动设计系统——QiMeng。QiMeng 包含三个层次。在 底 层 , 我 们 构 建 了 一 个 面 向 特 定 领 域 的 大 型 处 理 器 芯 片 模 型 (LPCM : Large Processor Chip Model),在架构、训练和推理方面引入了新颖的设计,以应对知识表示缺口、数据稀缺、正确性保 证以及巨大的解空间等关键挑战。 在中间层,我们利用 LPCM 的知识表示和推理能力,开发了硬件设计代理和软件设计代理,以实现 处理器芯片软硬件设计的自动化。目前,QiMeng 的多个组件已经完成,并成功应用于各种顶 ...
中科院团队自研大模型,自动设计超强芯片
半导体行业观察· 2025-06-12 00:41
公众号记得加星标⭐️,第一时间看推送不会错过。 来源:内容编译自arxiv。 处理器芯片设计技术是推动计算机科学及相关领域突破的关键前沿技术。随着信息技术的快速发展, 传统的设计范式面临三大挑战:制造技术的物理约束、日益增长的设计资源需求以及生态系统的日益 多样化。自动化处理器芯片设计已成为应对这些挑战的变革性解决方案。尽管人工智能(AI)领域的 最新突破,尤其是大型语言模型(LLM)技术,为完全自动化的处理器芯片设计开辟了新的可能 性,但为处理器芯片设计建立特定领域的LLM仍然存在巨大的挑战。 本文提出了一种全新的处理器芯片软硬件全自动设计系统——QiMeng。QiMeng 包含三个层次。在 底 层 , 我 们 构 建 了 一 个 面 向 特 定 领 域 的 大 型 处 理 器 芯 片 模 型 (LPCM : Large Processor Chip Model),在架构、训练和推理方面引入了新颖的设计,以应对知识表示缺口、数据稀缺、正确性保 证以及巨大的解空间等关键挑战。 在中间层,我们利用 LPCM 的知识表示和推理能力,开发了硬件设计代理和软件设计代理,以实现 处理器芯片软硬件设计的自动化。目前,Qi ...