claude 4

Search documents
Open AI再放大招
格隆汇APP· 2025-07-18 10:16
7 月 17 日, OpenAI 推出的 ChatGPT 智能体系震撼亮相 。该系统融合了 Operator 远程 浏览器执行能力、 Deep Research 网络信息整合技术及 ChatGPT 对话优势,是统一智能体 平台的集大成者。 年初, DeepSeek 凭借强化学习创新,打破 OpenAI 在推理模型赛道的垄断,缩小了国内外 技术差距,激发了行业创新活力。 随后, OpenAI 推出 o3 Pro 、 Anthropic 发布 Claude 4 系列、 Google 推出 Gemini 2.5 Pro ,头部厂商迭代速度远超预期。 Meta 也宣布投资 150 亿美元给数据标签公司 Scale AI ,并重组 AI 部门。 它拥有自主思考和行动能力,能从技能库中主动挑选合适工具,完成各类超复杂任务,借助 " 内置计算机 " 代表用户执行多步骤任务,突破了传统问答的局限。实际操作中,其表现令人惊 叹。 这个智能体到底有多强大? 用户给出结婚请柬信息, 10 分钟内就能得到男装、鞋子推荐,附 带礼物建议及链接;依据棒球赛程,能规划出贯穿全美 30 座棒球队的观赛路线,推荐酒店, 并用电子表格和可视化路 ...
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
量子位· 2025-07-17 02:43
上下文扩展至1万tokens,LLM集体"失智"! 且"智商"不是均匀下降,而是在一些节点突然断崖式下跌。 比如 Claude Sonnet 4 ,就是在1000tokens后准确率一路下滑,从90%降到60%。 或者是下降后放缓再下降,比如 GPT-4.1 和 Gemini 2.5 Flash 。 最终,当上下文长度来到1万tokens,大家都只剩50%准确率。 这也就意味着,大模型在读同一本书第10页和第100页时的"智商"可能不一样。 并且不同大模型在"读这本书"时突然降智的页数也不同。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4.1可能读到第10页就"失智"了,Claude兴许能坚持到第100页。 这是Chroma团队的最新研究结论,他们用 升级版"大海捞针"(NIAH) 测试了包括 GPT-4.1、Claude 4、Gemini 2.5和Qwen3 等在内的 18个 开源和闭源的主流大模型。 结果显示, 随着输入长度的增加,模型的性能越来越差 。 实验还首次系统性地揭示了 输入长度对模型性能并非均匀影响 ,不同模型性能可能在某一tokens长度上准确率发生骤降。 这项工作得到了 ...
AI应用拐点已至,聚焦Infra与大场景
Changjiang Securities· 2025-07-16 13:52
丨证券研究报告丨 请阅读最后评级说明和重要声明 %% %% [Table_Author] 宗建树 陈耀文 SAC:S0490520030004 SAC:S0490525070002 SFC:BUX668 %% %% 行业研究丨专题报告丨软件与服务 [Table_Title] AI 应用拐点已至,聚焦 Infra 与大场景 报告要点 [Table_Summary] 近期海外大模型密集更新,并在性能上持续提升。海外大模型的持续演进,正逐步带动海外 AI 应用进入落地阶段,其外在体现便是海外大模型调用量的大幅提升。而大模型调用量的提升, 进一步催生了对于算力基础设施的需求。另一方面,对比海外应用,国产应用保持增长,但增 速相对缓和。而随着国产大模型与海外大模型厂商的性能差距,国产 AI 应用的落地进度有望加 速。推荐关注:1)中国特色 infra:数据+算力调优+适配,重点关注 IDC 及国产算力产业链。 2)重视 AI 应用落地大场景:如教育、司法、医疗医药等领域 AI 应用。 分析师及联系人 research.95579.com 1 软件与服务 cjzqdt11111 [Table_Title2] AI 应用拐 ...
计算机行业点评:模型能力持续迭代,驱动国产算力景气提升
Hua Yuan Zheng Quan· 2025-07-15 09:48
证券研究报告 计算机 行业点评报告 hyzqdatemark 2025 年 07 月 15 日 证券分析师 宁柯瑜 SAC:S1350525020001 ningkeyu@huayuanstock.com 板块表现: 模型能力持续迭代,驱动国产算力景气提升 投资评级: 看好(维持) ——计算机行业点评 投资要点: 请务必仔细阅读正文之后的评级说明和重要声明 事件:7 月 11 日,月之暗面正式发布了 Kimi K2 大模型并开源,总参数量达到 1 万亿(1T),激活参数为 32B。在 SWE Bench Verified(编程)、Tau2(智能体)、 AceBench(工具调用)三项基准测试中,这一模型取得开源模型中的 SOTA 成绩。 联系人 需求侧:模型能力持续迭代,推动互联网等厂商资本开支提升。OpenAI、Anthropic、 DeepSeek、Kimi 等模型厂商持续迭代模型性能,发布了 o3-Pro、claude 4、 DeepSeek R1-0528、Kimi K2 等模型更新版本,进一步驱动海内外厂商提升资本开 支。海外方面,2025Q1,亚马逊、微软、谷歌、Meta 资本开支持续增长,主要投 ...
Kimi K2发布两天即“封神”?80%成本优势追平Claude 4、打趴“全球最强AI”,架构与DeepSeek相似!
AI前线· 2025-07-14 07:42
整理 | 华卫 近日,国内大模型独角兽月之暗面发布并开源的最新一代 MoE 架构基础模型 Kimi K2,不断在海外 掀起热议。有最新数据显示,推出不到两天,该模型在大模型 API 聚合平台 OpenRouter 的 token 使用量就超越了马斯克创立的 xAI。前不久,xAI 刚发布号称"全球最强 AI"的 Grok 4。 据官方介绍,作为月之暗面首款开源发布的旗舰模型,Kimi K2 的总参数量达到 1 万亿(1T),激 活参数为 32B,现已在 Kimi Web 端和 App 端中上线。有网友感叹道,"万亿参数级模型已开始能在 非英伟达硬件上流畅运行……如果中国实验室能通过巧妙的路由策略,在更少的芯片上实现更强的智 能,那么英伟达对 AI 硬件体系的垄断地位就会开始动摇。这是典型的 '压力下的创新':拿不到高端 芯片?没关系,我们重新设计一切,让自研硬件能发挥出更优性能。" 在代码、Agent、工具调用这三方面的相关基准测试中,该模型均取得开源模型中的 SOTA 成绩。除 了基准性能测试,Kimi K2 在多个实际场景中也展现出更强的能力泛化和实用性,包括在前端开发任 务中生成兼具设计感与视觉表现力的 ...
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
猿大侠· 2025-07-12 01:45
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 发布还不到一天,马斯克的Grok4就已经被网友们玩疯了。 比如有网友报告,Grok-4已经 成功通过了著名的六边形小球氛围编程测试 。 只见随着六边形的不断旋转,小球错落有致地从开口下落。 拿着显微镜捉虫的网友发现小球在返回中心位置时会穿墙,但作者表示这是故意为之。 | Plutus � @PlutusCosmos · 17小时 | | | | | --- | --- | --- | --- | | The balls penetrate the walls when the go back to the center. Is it intended? | | | | | O3 | U | ♡ 74 | 111 2.5万 | | Flavio Adamo � @flavioAd · 17小时 | | | | | yes | | | | | 01 | 17 | C 59 | 1 1 2.5万 | | SoyTeslike � @soyteslike · 16小时 | | | | | damn, already screenshotted but it wa ...
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
量子位· 2025-07-11 07:20
只见随着六边形的不断旋转,小球错落有致地从开口下落。 发布还不到一天,马斯克的Grok4就已经被网友们玩疯了。 比如有网友报告,Grok-4已经 成功通过了著名的六边形小球氛围编程测试 。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 拿着显微镜捉虫的网友发现小球在返回中心位置时会穿墙,但作者表示这是故意为之。 | Plutus � @PlutusCosmos · 17小时 | | | | | --- | --- | --- | --- | | The balls penetrate the walls when the go back to the center. Is it intended? | | | | | O3 | U | ♡ 74 | 111 2.5万 | | Flavio Adamo � @flavioAd · 17小时 | | | | | yes | | | | | () 1 | 11 | C 59 | 111 2.5万 | | SoyTeslike � @soyteslike · 16小时 | | | | | damn, already screenshotted but it ...
AI们数不清六根手指,这事没那么简单
Hu Xiu· 2025-07-11 02:54
Core Viewpoint - The article discusses the limitations of AI models in accurately interpreting images, highlighting that these models rely on memory and biases rather than true visual observation [19][20][48]. Group 1: AI Model Limitations - All tested AI models, including Grok4, OpenAI o3, and Gemini, consistently miscounted the number of fingers in an image, indicating a systemic issue in their underlying mechanisms [11][40]. - A recent paper titled "Vision Language Models are Biased" explains that large models do not genuinely "see" images but instead rely on prior knowledge and memory [14][19]. - The AI models demonstrated a strong tendency to adhere to preconceived notions, such as the belief that humans have five fingers, leading to incorrect outputs when faced with contradictory evidence [61][64]. Group 2: Experiment Findings - Researchers conducted experiments where AI models were shown altered images, such as an Adidas shoe with an extra stripe, yet all models incorrectly identified the number of stripes [39][40]. - In another experiment, AI models struggled to accurately count legs on animals, achieving correct answers only 2 out of 100 times [45]. - The models' reliance on past experiences and biases resulted in significant inaccuracies, even when prompted to focus solely on the images [67]. Group 3: Implications for Real-World Applications - The article raises concerns about the potential consequences of AI misjudgments in critical applications, such as quality control in manufacturing, where an AI might overlook defects due to its biases [72][76]. - The reliance on AI for visual assessments in safety-critical scenarios, like identifying tumors in medical imaging or assessing traffic situations, poses significant risks if the AI's biases lead to incorrect conclusions [77][78]. - The article emphasizes the need for human oversight in AI decision-making processes to mitigate the risks associated with AI's inherent biases and limitations [80][82].
早餐 | 2025年7月11日
news flash· 2025-07-10 23:45
Market Performance - S&P 500 and Nasdaq reached new highs despite tariff concerns, with Tesla's stock rising by 4.7% due to the expansion of its Robotaxi business [1] - Nvidia achieved a three-day streak of record highs, increasing its market capitalization to $4 trillion [1] - MP Materials, a rare earth mining company, saw its stock surge nearly 51% [1] - Delta Airlines regained its profit guidance for the year, resulting in a 12% stock increase [1] Tariff Developments - Myanmar is negotiating with Trump for potential zero tariffs on exports to the U.S. before the August deadline [1] - Brazilian President announced plans to negotiate tariffs with the U.S., threatening reciprocal measures if negotiations fail [1] - Trump announced a 50% tariff on copper starting August 1, prompting traders to expedite shipments to Hawaii [1] - HSBC indicated that the August 1 tariff could be a turning point for copper prices in Shanghai and London [1] Federal Reserve Insights - Trump urged the Federal Reserve to lower interest rates quickly, praising Nvidia's stock performance [1] - Federal Reserve Governor Waller suggested considering a rate cut in July and supported continued balance sheet reduction [1] - There are differing opinions within the Federal Reserve regarding the lasting impact of tariffs on inflation, with some expecting effects to persist into next year [1] Industry Developments - OPEC+ is reportedly discussing a pause in production increases starting in October [1] - OpenAI released its first "open weights" model in six years, potentially challenging Microsoft's exclusive agreement [1] - Grok 4 was officially launched, boasting the strongest computational training capabilities to compete with GPT-5 and Claude 4 Opus [1] - Ant Group plans to introduce Circle stablecoin and is considering applying for licenses in multiple regions [1] - U.S. rare earth stocks surged in pre-market trading, with MP Materials receiving investment from the Pentagon for factory expansion [1]
AI们数不清六根手指,这事没那么简单。
数字生命卡兹克· 2025-07-10 20:40
昨天Grok4发布完以后,我随手刷了一下X。 然后看到了一个非常有趣的帖子,来自@lepadphone。 我以为,这就是Grok4的问题,模型能力不太行,把一个恶搞的6根手指,数成了5根。 我自己也去测了一下,确实数是5根。 我本来没当回事。 直到,我随手扔到了OpenAI o3里,发现,事情开始不对了起来。因为,o3回复,也是5根手指。 我瞬间皱了眉头,然后扔给了o3 pro。 在推理了48秒之后,还是5根。 然后我又把这张图扔给了豆包、kimi、Gemini等等所有的有多模态的模型。 而无一例外,所有的模型,给我回复的,都是5根。 唯独有一个活口,Claude 4,偶尔会回答正确。 瞬间一股子冷汗就下来了。 一个模型数错了,可能是幻觉,所有的模型都数错,那,模型的底层肯定有一些问题。 深夜在群里试图问了一下,结果石沉大海。 那就只能靠自己了,再搜了一堆资料,用DeepReaserch做了深度搜索以后,我找到了一篇能完美解答这个现象的论文。 《Vision Language Models are Biased》(视觉语言模型存在偏见) 这篇论文发表于今年5月29号,至今也才1个多月的时间,还蛮新的。 我花了 ...