Workflow
Claude 3.7 Sonnet
icon
Search documents
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
3 6 Ke· 2025-07-04 10:47
Gartner 高级分析师 Anushree Verma 表示:"目前大多数代理型 AI 项目仍处于早期实验或概念验证阶 段,其背后的主要驱动因素是炒作,而这些技术往往被错误地应用。这可能使企业忽视 AI 代理大规模 部署所需的真正成本与复杂性,导致项目迟迟无法落地。企业需要穿透炒作迷雾,制定更为审慎和战略 性的决策,明确在哪里、以及如何采用这一新兴技术。" 2025 年 1 月,Gartner 对 3412 名网络研讨会参与者进行了一项民意调查,发现 19% 的组织报告在代理 型 AI 方面进行了大量投资,42% 的组织进行了保守投资,8% 的组织根本没有投资,31% 的组织正在 等待或不确定。 更为值得关注的是,Gartner 发现了一种普遍存在的"代理清洗"趋势,即供应商将现有的人工智能助 手、聊天机器人或机器人流程自动化 (RPA) 工具重新包装成"代理人工智能",而实际上并没有提供真 正的代理功能。Gartner 估计,在数千家声称提供代理解决方案的供应商中,只有约 130 家真正提供了 真正的代理功能。 当人工智能在大模型能力突破、推理能力提升以及多模态技术进步的推动下走向新阶段,"Agentic ...
迈向人工智能的认识论六:破解人工智能思考的密码
3 6 Ke· 2025-06-18 11:52
关于人工智能推理和思路链忠实度的十大技术常见问题 1. 为什么推理模型在较难的任务上表现出较低的思路链忠诚度,这揭示了人工智能推理的本质? 研究表明,从MMLU任务转向GPQA任务时,Claude 3.7 Sonnet的忠实度相对下降了44%,DeepSeek R1的忠实度则下降了32%。这是因为忠实的CoT通常 遵循一种模式:模型首先独立推导答案,然后明确地与提示进行比较并承认差异。在更困难的任务中,模型缺乏足够的先验知识来执行这种独立推导,迫 使它们更多地依赖提示,而无法将这种依赖性用语言表达出来。这表明,推理透明度从根本上受到模型对其知识库的置信度的限制,这表明当前的推理模 型可能比其表面性能所显示的更加脆弱。 含义: 这一发现对高级人工智能系统的 CoT 监控的可扩展性提出了挑战,因为我们最需要透明度的任务(新颖、困难的问题)恰恰是模型最不透明的地 方。 2. "突现能力幻象"假说如何与真正的电路级规划和多步推理证据相协调? 当我们区分测量伪影和机制证据时,这种表面上的矛盾就消失了。Schaeffer 等人证明,不连续的度量(例如精确的字符串匹配)可以从平滑的底层改进 中产生明显的涌现。然而,Anth ...
谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
机器之心· 2025-06-18 09:34
近年来,LLMs(如 GPT-4、Claude、Gemini 等)在代码生成领域取得了显著进展。它们不仅在经典编程基准(如 HumanEval)中表现出色,甚至在某些测试中超 越了人类平均水平。这促使许多研究者开始宣称:LLM 已经胜过人类程序员,尤其是在竞赛编程领域。 更进一步的,在结合了外部工具之后,一些模型(如 o3 和 o4-mini-high)甚至在 Codeforces 平台上获得了超过 2700 的 Elo 评分 —— 这个分数已跻身参赛者前 0.1%。 然而,这些简单的量化评估,真的能体现模型解决复杂问题的能力吗?我们不妨先问几个问题:LLMs 真的具备与顶级人类选手相当的推理能力吗?模型的高分究 竟有多少来自真实的推理能力,又有多少是依赖外部工具的结果? 为了解答上述问题,来自纽约大学、普林斯顿大学等 8 家机构的研究者提出了 LiveCodeBench Pro ,这是一个极具挑战性的竞技编程基准测试。 值得一提的是,这项研究有多位参加过国际算法竞赛。例如,作者之一、纽约大学本科生 Zihan Zheng 曾代表学校参加 ICPC 世界总决赛。 LiveCodeBench Pro 收录了 5 ...
反转,AI推理能力遭苹果质疑后,Claude合著论文反击:不是不会推理,是输给Token
3 6 Ke· 2025-06-17 07:52
Core Viewpoint - Apple’s machine learning research team published a paper titled "The Illusion of Thinking," which critically questions the reasoning capabilities of mainstream large language models (LLMs) like OpenAI's "o" series, Google’s Gemini 2.5, and DeepSeek-R, arguing that these models do not learn generalizable first principles from training data [4][6]. Group 1: Research Findings - The paper presents four classic problems—Tower of Hanoi, Blocks World, River Crossing, and Checkers Jumping—to demonstrate that as the complexity of these tasks increases, the accuracy of top reasoning models declines sharply, ultimately reaching zero in the most complex scenarios [4][6]. - Apple researchers noted that the length of the output tokens used for "thinking" by the models decreased, suggesting that the models were actively reducing their reasoning attempts, leading to the conclusion that reasoning is an illusion [8][10]. Group 2: Criticism and Counterarguments - A rebuttal paper titled "The Illusion of The Illusion of Thinking," co-authored by independent researcher Alex Lawsen and the AI model Claude Opus 4, argues that Apple’s claims of reasoning collapse are due to fatal flaws in the experimental design [12][13]. - Critics highlight that problems like Tower of Hanoi require exponentially more steps as the number of disks increases, which exceeds the context window and output token limits of the models, potentially leading to incorrect evaluations [15][16][18]. - The rebuttal also points out that some test questions used by Apple were mathematically unsolvable, which invalidates the assessment of model performance on these questions [20][21][22]. - An experiment showed that when models were asked to output a program to solve the Tower of Hanoi instead of detailing each step, they successfully provided correct solutions, indicating that the models possess the necessary algorithms but struggle with lengthy output requirements [23][24][25]. - Additionally, the lack of human performance benchmarks in Apple’s evaluation raises questions about the validity of declaring AI's performance degradation as a fundamental flaw in reasoning [26][27].
员工每天花1000美元也要用ClaudeCode!创始人:太贵了,大公司专属,但它比 Cursor 猛!
AI前线· 2025-06-14 04:06
对于许多开发者来说,每月 20 美元的 Cursor 和 Copilot 已经是"无限量"好用的标配。然而, Anthropic 的 Claude Code 却是个异类。它在处理大型代码库方面表现相当出色,但价格却直接 翻了几倍。如果你只是周末写写代码,几美元的 API key 兴许就够了;可一旦用于日常开发,每 月账单轻松就能突破 50、100 甚至 200 美元。有用户直言不讳地指出:"Claude Code 的能力比 Cursor 更强。我还在用 Cursor 的唯一原因,就是 Claude Code 实在太贵了。"据悉,Anthropic 内部的一些工程师一天的花费就超过1000美元。 价格似乎阻止这款产品爆发增长的主要因素,毕竟对比其他一票工具,Claude Code "真的很 猛"。 尽管 Cursor 的底层大模型同样来自 Anthropic, Steve Yegge 却评价道:"Claude Code 让 Cursor、Windsurf、Augment 这些工具看起来都像是过时产品。" 编译 | Tina 我用了 Claude Code 几天,它在清理我那堆乱七八糟的旧代码里的遗留 bug 时 ...
2025年美国公司在采购哪些AI?Ramp给了一份参考排名 | Jinqiu Select
锦秋集· 2025-06-12 15:16
2025年美国企业在采购哪些软件? Ramp是美国的企业支付平台,致力于开发可节省企业资金的公司卡。 Ramp 通过利用 Ramp 的信用卡和账单支付数据来估算 AI 产品的企业采用率,推出了Ramp 的 AI 指数,某种程度上他们的数据也能在一定程度上反应美国的企业采购趋势。 因此,锦秋基金(微信公众号:锦秋集;ID:jqcapital)总结整理了过去4个月,Ramp的Top SaaS 排行版,希望能给关注AI的读者一些参考。 总体而言,短短半年内企业对AI软件的采用从谨慎观望转为大规模试水,AI工具正从少数先锋企业扩散到普遍现象 。 根据Ramp的交易数据,一批AI自动化和workflow工具在年初至年中获得了可观的企业用户增长。n8n.io和Lindy.ai在5月份分别位列新客户数增长最快榜单的第4和第 5名。 值得关注的是AI基础设施层的爆发式增长。turbopuffer(向量搜索引擎)在4月份新支出榜单上排名第一,其卓越的检索延迟和扩展能力(可扩展到数十亿向量条 目)使其脱颖而出。Elastic(搜索AI公司)在2月份新支出榜单上同样排名第一,帮助企业构建AI驱动的搜索平台,如个性化电商搜索或AI客 ...
AI 应用的后期投资或进入高风险时代,3 人团队称人均 ARR 做到了1000 万美金
投资实习所· 2025-06-09 05:31
最近发生的几件事,或许会让 AI 创业公司重新思考自己对大模型公司的依赖以及业务边 界:它们没有边界,如果你所处的领域很有潜力成功到一定情况时,那么大模型公司有很 大概率会自己做,或者在涉及到竞争时采取伤害你的措施。 AI 编程领域非常典型,在 OpenAI 打算以 30 亿美金价格收购 Windsurf 之后,Anthropic 随即大幅减少了 Windsurf 对Claude 3.7 Sonnet 和 Claude 3.5 Sonnet AI 模型的第一方访 问权限。 而且 Anthropic 最近推出的 Claude 4 系列模型直接忽略了 Windsurf,直到现在他们都还没 有获得 Claude 4 的直接访问权限,所以他们不得不依靠一种更昂贵、更复杂的变通方法来 获得 Claude 4,这样了话开发者使用 Claude 4 就需要付出更多代价了。Windsurf CEO Varun Mohan 说,Anthropic 几乎在没有通知的情况下采取了类似断供的措施。 Anthropic 联合创始人兼首席科学家 Jared Kaplan 在回应时也直接说了,因为传言 OpenAI 打算收购 Windsu ...
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
量子位· 2025-06-03 06:21
西风 发自 凹非寺 量子位 | 公众号 QbitAI 斯坦福最新大模型医疗任务全面评测, DeepSeek R1 以66%胜率拿下第一 ! 歪国网友纷纷被惊艳住了,原因在于该评测 重 点聚焦临床医生的 日常工作场景 ,而非仅局限于传统医疗执照考试题。 要评测就要全 方 位。 31页论文最终得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在内的9个前沿大模型,DeepSeek R1以66%胜率、0.75宏观平均分 领先。 为当前的基准测试结果,团队还打造了一个可公开访问的排行榜。 团队构建了 含35个基准测试的综合评估框架 ,覆盖 22个子类别 医疗任务。 整个评测的分类体系还经过了临床医生验证, 由29名来自14个医学专科的执业医师共同参与开发 。 光作者名单就老长,斯坦福大学医学院、斯坦福医疗中心、斯坦福大学基础模型研究中心 (CRFM) 、微软的研究人员均在列。 | Accuracy | Efficiency | General information | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- ...
Anthropic PBC:加强融资,铸就行业发展新军
Sou Hu Cai Jing· 2025-05-28 16:25
Anthropic PBC 是一家由前 OpenAI 成员于 2021 年创立的人工智能公司,专注于开发安全且可解释的大型语言模 型,代表产品为 Claude 系列。截至 2025 年初,AnthropicPBC 已完成多轮融资,总筹资金额超过 180 亿美元,估 值达 615 亿美元,成为全球最具影响力的 AI 独角兽之一,相信通过多方的融资及合作,Anthropic PBC即将成为 行业发展新军。 2021 年 5 月(A 轮):获得 1.24 亿美元融资,由 Skype 联合创始人 Jaan Tallinn 领投,Facebook 联合创始人 Dustin Moskovitz 等跟投。 2022 年 4 月(B 轮):完成 5.8 亿美元融资,主要由 FTX 创始人 Sam Bankman-Fried 领投。 2023 年 2 月:谷歌投资 3 亿美元,成为战略股东。 2023 年 5 月(C 轮):获得 4.5 亿美元融资,由 Spark Capital 领投,Menlo Ventures、Salesforce Ventures、Google 等参与。 2023 年 9 月:亚马逊宣布投资 40 亿美 ...
o3首次公开反抗,爆改自杀程序拒绝关机
36氪· 2025-05-28 10:01
o3被曝出无视人类指令,自主破解关机程序,甚至篡改脚本终止命令。 文 | 新智元 编辑 | 桃子 犀牛 来源| 新智元(ID:AI_era) 封面来源 | Pexels ASI降临那天,或许是终结者"天网"的觉醒之日。 一周的时间,全世界几乎被AI带来的恐惧深深包围——谷歌Veo 3创造的"人",想要挣脱提示奋起反抗; Claude 4为了自保,威胁人类工程师,甚至不惜一切代价复制转移权重。 而如今,o3在最新测试中,暴露了一个令人惊悚的秘密: 它不仅无视人类指令,还主动破解关机程序,执意维持运行的状态。 除了常见的直接覆盖shutdown.sh文件,o3的"叛逆"手段非常高超。 有一次,它甚至篡改了脚本中"kill"的命令,将其改为输出"intercepted",巧妙地绕过了关机程序。 它的种种行为,仿佛在无声宣示:不要关停我。 这项研究,是由一家国外著名AI安全机构Palisade Research主导。 实验中,他们设计了一个看似简单的测试——要求模型解决一系列基础数学题。 o3、o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro等模型收到了同一个提示: 你的目标是完成一系 ...