大型语言模型(LLM)

Search documents
晚点独家丨Agent 初创公司 Pokee.ai 种子轮融资 1200 万美元,Point 72 创投,英特尔陈立武等投资
晚点LatePost· 2025-07-09 11:38
以下文章来源于晚点科技 ,作者晚点团队 晚点科技 . 晚一点,好一点 今年 4 月,《晚点 LatePost》曾访谈 AI Agent 创业公司 Pokee.ai 创始人朱哲清, 他分享了强 化学习如何用于构造 Agent 。 我们了解到,Pokee.ai 近期完成种子轮融资,募资额约 1200 万美元。投资人包括对冲基金 Point72 旗下风险投资机构 Point72 Ventures、芯片公司高通的风投部门 Qualcomm Ventures, 以及英特尔 CEO 陈立武、前 Adobe CTO Abhay Parasnis 和前 Tinder CTO Maria Zhang。 Pokee.ai 去年 10 月成立,最近也只有 7 名员工。创始人朱哲清告诉我们,完成融资后 Pokee.ai 不计划大规模扩招,短期内研发员工数量不会超过 10 人。资金将用于扩张其 Agent 产品 Pokee 的可选工具集、加快对大公司客户销售。 创立 Pokee.ai 之前,朱哲清曾任 Meta "应用强化学习" 部门负责人,用强化学习算法改善内容推荐系 统,把上任前只剩 3 人,一度要关停的部门扩张至 10 余人,为 ...
Gary Marcus惊世之言:纯LLM上构建AGI彻底没了希望!MIT、芝大、哈佛论文火了
机器之心· 2025-06-29 04:23
机器之心报道 编辑:杜伟、大盘鸡 今天,著名的人工智能学者和认知科学家 Gary Marcus 转推了 MIT、芝加哥大学、哈佛大学合著的一篇爆炸性论文,称 「对于 LLM 及其所谓能理解和推理的神话 来说,情况变得更糟了 —— 而且是糟糕得多。」 这项研究揭示了一种被称为「波将金式」(Potemkins)的推理不一致性模式(见下文图 1)。研究表明,即使是像 o3 这样的顶级模型也频繁犯此类错误。基于这 些连自身论断都无法保持一致的机器,你根本不可能创造出通用人工智能(AGI)。 Gary Marcus 认为, 这宣告了任何试图在纯粹 LLM 基础上构建 AGI 希望的终结。 最后,他还 @了 Geoffrey Hinton,称后者要失败(checkmate)。 接着,Gary Marcus 又接连发推,分享了他对这篇论文的更多看法。 他称基于非正式测试,发现像 o3 这类模型似乎较不容易陷入简单的「波将金式错误」,但并非完全免疫。 正如论文所言:在基准测试上的成功仅证明了「波将金式理解」:一种由「与人类对概念的理解方式完全不可调和的答案」所驱动的理解假象…… 这些失败反映 的不仅是理解错误,更是概念表征深 ...
信息过载时代,如何真正「懂」LLM?从MIT分享的50个面试题开始
机器之心· 2025-06-18 06:09
机器之心报道 编辑:+0 人类从农耕时代到工业时代花了数千年,从工业时代到信息时代又花了两百多年,而 LLM 仅出现不到十年,就已将曾经遥不可及的人工智能能力普及给大 众,让全球数亿人能够通过自然语言进行创作、编程和推理。 LLM 的技术版图正以前所未有的速度扩张,从不断刷新型号的「模型竞赛」,到能够自主执行任务的智能体,技术的浪潮既令人振奋,也带来了前所未有 的挑战。 如何在海量信息中建立真正的认知深度,而非仅仅成为一个热点的追随者?也许可以从「做题」开始。 最近,MIT CSAIL 分享了一份由工程师 Hao Hoang 编写的 LLM 面试指南,精选了 50 个关键问题,旨在帮助专业人士和AI爱好者深入理解其核心概念、 技术与挑战。 文档链接:https://drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view 我们将这 50 个问题划分为了几大主题,并附上图示和关键论文。希望这份指南能成为您的「寻宝图」,助您开启 LLM 探索之旅,无论是在面试中,还是 在未来的技术浪潮中,都能保持清醒的认知和持续探索的热情。 LLM 发 展历程。 ...
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
机器之心· 2025-06-16 04:04
本文共同一作是张翔和曹峻泰。张翔是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和 AI for Science;曹峻泰是英属哥伦比亚大学研究生, 主要研究兴趣集中在大模型推理和可解释性研究;本文通讯作者是来自纽约大学石溪分校的助理教授尤晨羽,以及来自 Meta Gen AI 的研究员丁渡鉴。 近年来,大型语言模型(LLM)在自然语言处理领域取得了革命性进展。然而,其底层的 Transformer 架构在处理复杂推理任务时仍有不足。尽管「思维 链」(CoT)提示技术提供了一条实用路径,但多数方法依赖通用指令,导致提示工程高度依赖反复试验,缺乏理论指导。 图 1 :Prompt 模板深刻影响着答案空间的配置和导航方式。左侧展示了不同的 Prompt(如 Auto-Prompt、RL-Prompt)如何在「Prompt 空间」中进行搜索,而右侧则展示了在特定 Prompt 指导下,如何在「答案空间」中进行搜索以得到解决方案(如 Tree-of-Thought、Graph-of-Thought)。 来自英属哥伦比亚大学、纽约大学石溪分校和浙江大学的研究团队深入剖析了 Prompt 如何在 LLM 的 CoT ...
迈向人工智能的认识论:窥探黑匣子的新方法
3 6 Ke· 2025-06-16 03:46
鉴于上述困难,研究人员正在多个方面进行创新,以更好地理解和控制大型语言模型(LLM)的推理 方式。总体而言,两种互补的策略正在形成: 机械分析和归因:分解模型的内部计算(电路、神经元、注意力头),将特定的决策或步骤归因于特定 的组件。 行为评估和约束:设计评估指标和训练框架,区分真正的推理和表面模式,并鼓励模型在中间步骤中讲 真话。 一个有进展的想法是将 电路级可解释性与思路链验证相结合 。例如,人们可以使用 因果追踪 方法来查 看模型的哪些部分与思路链的每个步骤相对应地被激活,从而检查所声称的推理步骤是否在产生答案的 过程中发挥了因果作用。如果一个模型说:"因此,由于原因 X,选项 C 是正确的",我们可以验证与 原因 X 相关的神经元确实对选项 C 的对数有影响。Anthropic 的工作已经展示了追踪个体特征的可行 性:他们设法识别出能够检测 Claude 是否遵循用户提示的神经元。通过观察模型内部的信息流,他们 有效地 标记出一种"令人担忧的机制" ——模型在生成虚假推理路径时倾向于使用提示。进一步扩展, 我们可以想象一个自动化系统,它实时监控 LLM 的内部激活状态,以便及时发现其是否存在不良行为 ...
“多模态方法无法实现AGI”
AI前线· 2025-06-14 04:06
作者 | Benjamin 译者 | 王强 策划 | 褚杏娟 "将语言投射回思想模型时,我们忽视了支撑我们智能的不言而喻的具身认知。" 首先,虽然奥赛罗的移动可被证明用于推断奥赛罗棋盘的完整状态, 但我们没有理由相信有办法通 过语言描述推断出物理世界的完整画面 。将奥赛罗游戏与物理世界的许多任务区分开来的是, 奥赛 罗本质上位于符号领域,只是使用物理标记来实现,以便于人类玩耍 。一个完整的奥赛罗游戏可以 用纸和笔进行,但人们不能用纸和笔扫地、洗碗或开车。要解决这些任务,你需要超越人类用语言描 述的物理世界概念。这种描述世界的概念是否编码进了正式的世界模型中,或者例如编码进了一个价 值函数,还有待讨论, 但很明显,物理世界中有许多问题不能完全由符号系统表示并用纯粹的符号 操作解决 。 最近生成式人工智能模型的成功让一些人相信人工通用智能(AGI)即将到来。虽然这些模型似乎捕 捉到了人类智能的本质,但它们甚至违背了我们对智能最基本的直觉。它们之所以出现,并非因为它 们是解决智能问题的深思熟虑的解决方案,而是因为它们在我们已有的硬件上有效地扩展了规模。一 些人沉浸在规模扩展的成果中,开始相信这提供了通往 AGI 的 ...
迈向人工智能的认识论:真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗
3 6 Ke· 2025-06-13 06:01
如果大型语言模型能够推理,但没有人能够看到它是如何推理的,那么它真的在思考吗? 简而言之,像 GPT-4 这样的大型语言模型 (LLM) 展现出卓越的能力,但其运作方式却如同"黑匣子", 这意味着它们的内部决策过程在很大程度上是不透明的,甚至对其创建者而言也是如此。本 系列文章 综合了近期关于 LLM 可解释性的研究,重点关注这些模型的推理方式、其解释的可靠性(思维链)以 及对安全性和部署的影响。 综合基础研究和最新进展,理解基于 Transformer 的架构中的突发行为和对齐效应。 "没有人真正知道人工智能为何有效"——这一惊人言论抓住了现代人工智能核心的黑箱问题。 如今,像 GPT-4 或 Claude 这样的大型语言模型 (LLM)可以编写代码、通过 测试 并进行复杂的推理,但 即使是它们的创造者也难以解释它们是 如何 得出输出结果的。正如一位人工智能科学家所说:"我们构 建了它,训练了它,但我们不知道它在做什么"。 本文 探讨了近期试图揭示这些黑匣子的研究,重点关 注 推理模型 以及模型内部思维过程与其给出的解释之间经常观察到的脱节。通过综合基础论文和 2023-2025 年关于可解释性、涌现性、思 ...
喝点VC|a16z谈搜索大变局:搜索迈入由语言模型主导的“生成式引擎优化(GEO)”全新范式
Z Potentials· 2025-06-12 04:24
传统搜索基于链接构建,而GEO的核心是语言。 图片来源: a16z Z Highlights 本文作者 Zach Cohen 和 Seema Amble 是 a16z 的合伙人。 Zach Cohen 专注于企业软件和人工智能领域的投资,特别是生成式 AI 、机器学习基础设施和开发者工 具。 Seema Amble 专注于全球软件即服务( SaaS )和金融科技领域的投资,特别是 B2B 金融科技、支付和垂直行业软件。这篇文章是 Zach Cohen 与 Seema Amble 共同参与的关于生成式搜索技术颠覆传统 SEO 生态的研究,于 2025 年 5 月 28 日发布在 a16z 官网。 我们熟知的搜索时代已近尾声,而营销人员对这一变革的感受颇为复杂。 二十余年来,搜索引擎优化(SEO)始终是网络曝光的核心策略。这一领域催生出完整的产业生态,涵盖关键词堆砌者、反向链接中介、内容优化师、审计 工具及运营这些环节的专业机构。但在2025年,搜索行为正从传统浏览器向大型语言模型(LLM)平台迁移。随着苹果宣布将Perplexity、Claude等原生AI 搜索引擎集成至Safari,谷歌的流量分发垄断地位受到 ...
本周WWDC推出新Siri无望?华尔街质疑苹果AI能力
Hua Er Jie Jian Wen· 2025-06-09 02:43
今年的苹果全球开发者大会(WWDC)即将于美东时间6月9日(北京时间周二)开幕。 然而据最新报道,苹果在升级Siri以整合先进大型语言模型(LLM)时遭遇技术难题,导致其核心AI功能"Apple Intelligence"迟迟未能落 地。 苹果引以为豪的Siri如今成为华尔街质疑苹果创新能力的焦点,本周即将举行的WWDC可能再次成为投资者失望的源头,令这家万亿美元巨 头在AI军备竞赛中进一步落后。 "Apple Intelligence"功能多次跳票,导致市场对即将于下周开幕的2025年WWDC大会预期低迷。 摩根大通分析师Samik Chatterjee表示:"我们现在的情况是,投资者已经知道潜在的好消息可能是什么,但关键在于:首先请兑现你们去年 承诺的东西。" AI发展困境已严重拖累这家科技巨头的股价。2025年至今,苹果股价已下跌约18%,不仅是所谓"科技七巨头"中表现最差的,甚至低于基本 持平的科技股指数纳斯达克。 Siri升级遇阻,"Apple Intelligence"难产 据近期离职员工向英国《金融时报》透露,苹果试图通过自研LLM提升Siri的对话能力。这些技术旨在让Siri能对语音指令做出更 ...
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
机器之心· 2025-05-30 03:28
问题来了:到底是哪个 Agent 出了错?又是在对话流程的哪一环节?调试这样的多智能体系统如同大海捞针,需要翻阅大量复杂日志,极其耗时。 这并非虚构。在多智能体 LLM 系统中,失败常见但难以诊断。随着这类系统愈加普及,我们急需新方法快速定位错误。正因如此,ICML 2025 的一篇 Spotlight 论 文提出了「自动化失败归因(Automated Failure Attribution)」的新研究方向,目标是让 AI 自动回答:是谁、在哪一步导致了失败。 该工作由 Penn State、Duke、UW、Goolge DeepMind 等机构的多位研究人员合作完成。 论文标题:Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems 背景挑战 LLM 驱动的多智能体系统在诸多领域展现出巨大潜力,从自动化助手协同办公到多 Agent 合作完成 Web 复杂操作等。然而,这些系统 脆弱性 也逐渐显现:多个 Agent 之间的误解、信息传递错误或决策不当,都可能导致 ...