Workflow
Gemini 2.5 Pro
icon
Search documents
GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了
机器之心· 2025-08-15 04:17
前沿 AI 模型真的能做到博士级推理吗? 前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现 让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力? 然而,现实可能并不如想象中那么乐观。 机器之心报道 机器之心编辑部 AAI,一个专注于超智能和高级 AI 系统研究的机构,近期提出的一个新基准 FormulaOne,让一众大 模型集体得零分,包括 GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等前沿模型。 | 系统名称 | 相组 | 整体成功率 (%) | 更深层级成功 (%) | 最深层级成功(%) | | --- | --- | --- | --- | --- | | GPT-5 | OpenAl | 3.33 | 4 | O | | o3-Pro | OpenAl | 0.83 | 1 | O | | Claude 4 Opus | Anthropic | O | 0 | O | | Neo | CognitiaLabs | O | O | O | | Gemini 2.5 Pro | Google DeepMind ...
Claude Sonnet 4 支持百万 Tokens 上下文:容量提升 5 倍,支持 7.5 万行代码一键处理
AI前线· 2025-08-14 06:07
对于开发者而言,这一升级是 Claude Code 的"猛兽级"增强,能够通过 API 一次性处理海量代码库 或文档,不再需要繁琐的内容拆分与分批上传,甚至有可能用它来重构整个应用。 作者 | Tina Anthropic 宣布,Claude Sonnet 4 现已支持 100 万 tokens 上下文长度,将此前 20 万 tokens 的上 限直接提升 5 倍。这使得你可以通过一次请求处理超过 7.5 万行代码 的完整代码库,或多篇科研论 文。 Anthropic 表示,基于这个上下文长度,开发者可以用 Claude 来进行大规模代码分析,比如一次性 加载完整代码库,涵盖源代码、测试文件和文档,从而识别项目架构与跨文件依赖,提供整体优化建 议。 ≤ 200K tokens :输入 $3 / 百万 tokens,输出 $15 / 百万 tokens > 200K token s:输入 $6 / 百万 tokens,输出 $22.50 / 百万 tokens 值得注意的是,20 万 tokens 上下文窗口曾被视为 Claude Sonnet 的"致命弱点",而如今这一短板终 于补齐。目前,该功能仅向 Tie ...
AI跑分越来越没意义,谷歌说不如让AI一起玩游戏
3 6 Ke· 2025-08-11 23:25
Group 1 - Google has organized an "AI Chess King Championship" featuring top AI models from the US and China, including OpenAI's o4-mini and Google's Gemini 2.5 Pro, to evaluate and promote advancements in AI's reasoning and decision-making capabilities [1][3] - The competition aims to address the limitations of traditional AI benchmark tests, which have failed to keep pace with the rapid development of AI models, by utilizing strategy games as a testing ground [3][11] - The Kaggle Game Arena platform, introduced by Google, serves as a new public benchmark testing platform that allows AI models to compete in a more dynamic and realistic environment compared to conventional tests [3][11] Group 2 - The current investment climate has led to a phenomenon where AI startups can easily achieve valuations exceeding $1 billion, driven by a fear of missing out (FOMO) among investors [4][6] - There is a growing trend of "score manipulation" among AI companies, where high benchmark scores are used as a marketing tool to attract investment, leading to concerns about the integrity of AI performance evaluations [6][9] - Various benchmark tests exist to evaluate AI models, but their lack of flexibility has created opportunities for companies to artificially inflate their scores, undermining the reliability of these assessments [9][11] Group 3 - Google has chosen games as a testing scenario for AI models due to their structured rules and inherent randomness, which effectively measure AI intelligence and capabilities [12][13] - The relationship between gaming and AI is significant, as demonstrated by OpenAI's success in defeating human champions in games like DOTA2, showcasing AI's potential in complex environments [13][15] - The transition to reinforcement learning based on human feedback (RLHF) has been pivotal in enhancing AI's performance, as seen in OpenAI's development of ChatGPT [15]
AI日报丨人人都买“七姐妹”!美银:做多美股“七大科技巨头”再度成为全球最拥挤交易
美股研究社· 2025-08-11 11:44
整理 | 美股研究社 在这个快速变 化的时代,人工 智能技术正以前所未有的速度发展,带来了广泛的机会 。 《AI日 报 》致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的行 业 洞察和 价 值 分 析。 A I 快 报 1 . C3.ai美股盘前跌近30%,公司将其营收展望削减33%,重组全球销售团队。 2.美国银行月度基金经理调查显示,得益于乐观的盈利表现以及全球经济情绪的改善,投资者重 新涌入股市,持有美国大型科技股再度成为最热门交易。 8月的调查涵盖169位参与者,他们管 理的资产规模达4130亿美元。其中45%的受访者认为,最拥挤的交易是"做多'七大科技巨 头'"——这一组合包括英伟达和微软等美国大型科技股。 七 巨 头 日 报 【标准普尔 500 指数的近 50% 权重集中在 20 只股票上】 阿波罗首席经济学家托尔斯滕·斯洛克 (Torsten Sløk) 表示,标准普尔 500 指数对少数几只超大盘股的集 中度已达到历史最高水平。 阿波罗最新数据显示,英伟达(NVDA)目前在该基准指数中的个股权重为1981年有记录以来的最高水 平,凸显了市场对人工智能(AI)领军企业的高度关注。这 ...
「一只手有几根手指」,你的GPT-5答对了吗?
机器之心· 2025-08-11 10:40
Core Viewpoint - The article discusses the limitations of advanced language models like GPT-5 in understanding basic visual concepts, highlighting the need for vision-centric models to improve visual comprehension and reasoning capabilities [2][26]. Group 1 - Tairan He points out that while language is a powerful tool, it struggles to fully meet the needs of the visual and robotics fields [2]. - There is a call for the development of vision-centric language models (VLM) and vision-language-action (VLA) models to address these shortcomings [3]. - The ambiguity in the definition of "fingers" illustrates the challenges language models face in interpreting visual information accurately [4][6]. Group 2 - The article mentions that even top models like Gemini 2.5 Pro have failed to provide correct answers to basic questions, indicating a lack of robust visual understanding [10][24]. - Tairan He references a paper by the Sseynin team that proposes a rigorous evaluation method for assessing the visual capabilities of multimodal large language models (MLLM) [28]. - The new benchmark test, CV-Bench, focuses on evaluating models' abilities in object counting, spatial reasoning, and depth perception, establishing stricter assessment standards [31]. Group 3 - Research shows that while advanced VLMs can achieve 100% accuracy in recognizing common objects, their performance drops to about 17% when dealing with counterfactual images [33]. - The article emphasizes that VLMs rely on memorized knowledge rather than true visual analysis, which limits their effectiveness [34]. - Martin Ziqiao Ma argues that initializing VLA models with large language models is a tempting but misleading approach, as it does not address fundamental perception issues [36].
中信证券:重点布局AI计算芯片、HBM、AI网络设备、IDC、基础&应用软件、互联网服务等领域
Mei Ri Jing Ji Xin Wen· 2025-08-11 00:48
每经AI快讯,中信证券表示,近期OpenAI发布GPT-5,引发资本市场关注。该模型推理能力进步明显, 不仅在通用场景测试中得分较前代旗舰模型o3提升明显,而且在幻觉测试中错误率最低降低至0.7%; 定价与Gemini 2.5 Pro等主流模型持平,性价比显著提升。而在垂类场景如编程和医疗上,GPT-5亦有不 错的测评表现,展现出良好的场景拓展潜力。我们认为OpenAI等模型厂商近期的快速更新迭代的影响 包括:科技巨头在前沿模型领域的军备竞赛、推理&scaling law&多模态等带来的算力持续爆炸式增 长、推理能力提升带来复杂应用场景解锁可能等。美股科技领域,建议继续围绕基础设施、AI应用等 环节,重点布局AI计算芯片、HBM、AI网络设备、IDC、基础&应用软件、互联网服务等领域。 ...
中信证券:GPT-5性能&性价比不断提升,美股科技建议重点布局AI计算芯片等
Xin Lang Cai Jing· 2025-08-11 00:41
中信证券表示,近期OpenAI发布GPT-5,引发资本市场关注。该模型推理能力进步明显,不仅在通用场 景测试中得分较前代旗舰模型o3提升明显,而且在幻觉测试中错误率最低降低至0.7%;定价与Gemini 2.5 Pro等主流模型持平,性价比显著提升。而在垂类场景如编程和医疗上,GPT-5亦有不错的测评表 现,展现出良好的场景拓展潜力。我们认为OpenAI等模型厂商近期的快速更新迭代的影响包括:科技 巨头在前沿模型领域的军备竞赛、推理&scaling law&多模态等带来的算力持续爆炸式增长、推理能力 提升带来复杂应用场景解锁可能等。美股科技领域,建议继续围绕基础设施、AI应用等环节,重点布 局AI计算芯片、HBM、AI网络设备、IDC、基础&应用软件、互联网服务等领域。 ...
中信证券:GPT-5发布,美股科技领域建议布局AI计算芯片等
Ju Chao Zi Xun· 2025-08-10 10:29
1)幻觉显著降低,根据OpenAI官网,GPT-5在多个测评中的错误率仅为o3的20%,对无法完成的任务 的欺骗率也大幅下降,例如在概念理解测试LongFact-Concepts和对象理解测试LongFact-Objects中GPT-5 的错误率分别为0.7%和0.8%,而o3的错误率分别为4.5%和5.1%; 2)推理效率显著提升,GPT-5可以用更少的思考时间输出更好的结果,比 o3 的输出token减少50-80% 的情况下表现更好; 3)推理成本大幅降低,根据OpenAI官网,GPT-5 main定价为输入1.25美元/百万token,输出10美元/百 万token,较o3(输入2美元/百万token,输出8美元/百万token)小幅降低,与Gemini 2.5 Pro齐平;Mini 和Nano则分别是GPT-5 main的20%和4%。我们认为GPT-5的性价比大幅提升的重要原因在于其路由器设 计。根据OpenAI官网,GPT-5内嵌了一个实时路由器,该路由器不仅可根据对话复杂度、工具需求等因 素选择合适的模型,而且还能持续学习用户的切换行为、反馈偏好和答案准确性,不断优化分配策略。 其指出,Ope ...
中信证券:GPT-5发布 美股科技领域建议布局AI计算芯片等
Xin Lang Cai Jing· 2025-08-10 09:41
【中信证券:GPT-5发布 美股科技领域建议布局AI计算芯片等】智通财经8月10日电,中信证券研报表 示,近期OpenAI发布GPT-5,引发资本市场关注。该模型推理能力进步明显,定价与Gemini 2.5 Pro等主 流模型持平,性价比显著提升。而在垂类场景如编程和医疗上,GPT-5亦有不错的测评表现,展现出良 好的场景拓展潜力。OpenAI等模型厂商近期的快速更新迭代的影响包括:科技巨头在前沿模型领域的 军备竞赛、推理&scaling law&多模态等带来的算力持续爆炸式增长、推理能力提升带来复杂应用场景 解锁可能等。美股科技领域,建议继续围绕基础设施、AI应用等环节,重点布局AI计算芯片、HBM、 AI网络设备、IDC、基础&应用软件、互联网服务等领域。 转自:智通财经 ...
GPT-5为什么没有带来更多惊喜?
Hu Xiu· 2025-08-10 06:15
GPT-4 发布两年半之后,OpenAI 终于发布了旗下最新模型 GPT-5。行业早已为此等待多时,山姆·阿尔特曼(Sam Altman)也持续半年对外预告,吊足公 众胃口。但这款旗舰模型上新之初收到的反馈却不尽如人意。 GPT-4 发布时,同行们尚需花费半年乃至更长时间才能追赶上 OpenAI。但 GPT-5 没有与主流模型拉开显著差距。它的部分性能指标甚至有所落后,在一 些基准测试中,落后于马斯克的 Grok 4 以及刚刚发布的 Claude Opus 4.1,上下文长度也不及 Google 的 Gemini 2.5 Pro。 普通用户对 GPT-5 的不满声音更强烈一些,他们并没有感受到太多 GPT-5 相较于 GPT-4o 的性能升级,反而更加怀念熟悉的 GPT-4o。OpenAI 原本下架 了旧模型,但在遭到用户的强烈反对之后,OpenAI 不得不为 Plus 用户重新上架了 GPT-4o 模型。 我们或许不得不面临一个这样的事实,即便强如 OpenAI,也不得不面临 Scaling laws(缩放定律)的局限。模型规模的持续扩张已经不再像过去那样带来 成比例的性能跃迁,迭代周期难免放缓。 从 GP ...