Claude Sonnet 4

Search documents
高考出分!大模型“考生”,有望冲击“清北”!
Zheng Quan Shi Bao· 2025-06-26 06:32
Core Insights - The performance of large models in the 2025 national college entrance examination (Gaokao) has garnered significant attention, with ByteDance's Doubao model achieving impressive scores of 683 in liberal arts and 648 in science [1][4] - The introduction of various mainstream models for comparison indicates that these large models have surpassed many ordinary candidates, reaching the level of outstanding students [2] Group 1: Model Performance - Doubao model 1.6-Thinking scored 683 in liberal arts and 648 in science, ranking it among the top 80 candidates in Shandong province [1][6] - Other models, including Google's Gemini 2.5 Pro and OpenAI's o3 high, also performed well, with Gemini achieving 651 in liberal arts and 655 in science [2][3] - The assessment revealed that the models excelled in foundational subjects, with minimal differentiation in scores among them [6] Group 2: Technical Advancements - The Doubao model 1.6 series incorporates significant technological innovations, including multi-modal capabilities and adaptive deep thinking [8] - The model utilizes a mixture of experts (MoE) architecture with 23 billion active parameters and 230 billion total parameters, enhancing its performance without increasing parameter count [8] - The model's training involved continuous improvements in architecture and algorithms, resulting in notable performance enhancements [8] Group 3: Industry Context - The Gaokao has become a competitive arena for AI companies, providing a comprehensive testing ground for model capabilities across various subjects [10] - The AI large model market in China is projected to grow significantly, with an estimated market size of approximately 29.416 billion yuan in 2024, expected to exceed 70 billion yuan by 2026 [10][11] - Doubao has been widely adopted across multiple industries, including automotive, finance, and education, covering over 400 million terminal devices [11]
高考出分!大模型“考生”,有望冲击“清北”!
证券时报· 2025-06-26 06:19
6月25日晚间,字节跳动Seed团队公布了豆包大模型1.6-Thinking版本的"高考成绩":文科总分683分, 理科总分648分。这一成绩以2025年山东高考试题作为测评基准,其中语数外使用新课标全国新一卷,政 史地/物化生则采用山东省自主命题。 最新公布的山东高考分数线显示,特殊类型招生控制线为521分,普通类一段线为441分。山东省内多位有 着多年高三带班经验的资深教师判断,根据山东省公布的2025年夏季高考文化成绩一分一段表,豆包大模 型1.6-Thinking的科目组合的赋分成绩最高能超过690分,排名在前80位左右,稳上985,并达到了冲 击"清北"的水平。 值得注意的是,本次测试还引入了OpenAI的o3 high、谷歌的Gemini 2.5 Pro、Anthropic的Claude Sonnet 4和DeepSeek的R1-0528等国内外多款主流模型作为对比对象。成绩显示,4款大模型文理科成 绩均大幅超过了普通类一段线,显示大模型已超越众多普通考生,达到人类优秀考生的水平。 | | | MillersDorcx Seed | | | | | | --- | --- | --- | --- ...
AI编码工具双雄也开始商业互捧了?Cursor × Claude 最新对谈:两年后,几乎100%代码都将由AI生成!
AI前线· 2025-06-21 03:38
编译 | 宇琪、冬梅 更可怕的数字是,据美国一家纸媒报道,Cursor 每日编写 10 亿行代码。 Cursor 推出不到两年,就实现了大多数 SaaS 公司需要十年才能实现的目标:年经常性收入 1 亿美元。 对于 Cursor 取得如今的成就,有 X 用户表示的确让人震惊。 "仅有 50 位工程师,每秒 100 万笔交易……每位工程师负责 2 万笔交易,太不可思议了!" 在硅谷层出不穷的创业故事中,Cursor 的起源看起来像是一个标准模板——四位麻省理工的计算 机天才,对"开发者生产力"有着近乎偏执的追求。他们的故事有着太多让人惊叹的地方:公司成 立一年半,总融资达到 95 亿、 4 位创始人年龄均为 25 岁、公司在 4 个月内 ARR 从 1 亿增至 3 亿、整个公司不到 50 人、每天编写 10 亿行代码...... 但这个故事的反转在于:他们拒绝成为又一个被风口吹起的泡沫。 2023 年 10 月,他们获得了由 OpenAI 领投的 800 万美元种子轮融资。这笔支持不仅仅是财务 上的认可,更是与这家引领 AI 革命的公司达成的战略联盟。当其他初创公司追逐消费级应用或 企业级工作流程时,Curso ...
Anthropic 详述如何构建多智能体研究系统:最适合 3 类场景
投资实习所· 2025-06-16 11:51
本文来自 Anthropic 官网的分享,详细阐述了他们是如何构建多智能体研究系统《How we built our multi-agent research system》。 他们研究发现, 多智能体系统最适合三类场景:高价值并行任务、超出单上下文窗口的信息处理、需要操作多个复杂工具的情况。需要共享上下文或存 在复杂依赖关系的场景目前并不适合多智能体方案。 下面是翻译全文: 我们的"研究"功能采用多智能体协作架构,让 Claude 能更高效地探索复杂课题。本文将分享系统构建过程中遇到的工程挑战与经验总结。 如今 Claude 已具备跨网络、Google Workspace 及各类集成系统进行信息检索的研究能力,以完成复杂任务。这套多智能体系统从原型到生产的实践历 程,让我们在系统架构、工具设计和提示工程等方面积累了宝贵经验。 多智能体系统由多个自主使用工具的 LLM 智能体协同工作,在我们的研究功能中,主智能体会根据用户查询规划研究流程,随后创建并行工作的子智能 体进行信息检索 。这类系统在智能体协调、评估与可靠性方面带来了全新挑战。 本文将拆解我们验证有效的设计原则,希望能为开发者构建多智能体系统提供参考 ...
多智能体在「燃烧」Token!Anthropic公开发现的一切
机器之心· 2025-06-14 04:12
机器之心报道 机器之心编辑部 研究多智能体必读指南。 「Anthropic 发布了他们如何使用多个 Claude AI 智能体构建多智能体研究系统的精彩解释。对于任何构建多智能体系统的人来说,这是一本必读的指南。」刚 刚,X 知名博主 Rohan Paul 强力推荐了 Anthropic 一项新研究。 最近一段时间,关于智能体的研究层出不穷。但这也为广大研究者带来一些困惑,比如什么任务需要多智能体?多个 AI 智能体如何协作?怎么解决上下文和记忆 问题…… 面对这些问题,你不妨读读 Anthropic 的这篇文章,或许能找到答案。 文章地址:https://www.anthropic.com/engineering/built-multi-agent-research-system 多智能体系统的优势 有些研究涉及开放式问题,这类问题往往难以预先确定所需的步骤。对于复杂问题的探索,人类无法硬性规定固定路径,因为这一过程本质上是动态且具有路径 依赖性的。当人们开展研究时,通常会根据发现持续调整方法,沿着调查过程中浮现的线索不断推进。 这种不可预测性使得 AI 智能体特别适合执行研究类任务。研究工作要求具备灵活性 ...
Anthropic是如何构建多智能体系统的? | Jinqiu Select
锦秋集· 2025-06-14 03:58
2025年6月13日,Anthropic工程团队发布了一份详尽的技术文档,公开了他们构建多智能体研究系统的完整历程。这个系统让多个Claude智能体协同工作,能够搜索 网络、Google Workspace以及各种集成系统,完成复杂的研究任务。 在这份万字长文中,工程团队分享了一个关键数据:以Claude Opus 4为主智能体、Claude Sonnet 4为子智能体的多智能体系统,比单独使用Claude Opus 4的性能提 升了90.2%。但这种性能提升是有代价的——多智能体系统使用的token是普通聊天的15倍。 文章揭示了多智能体系统的核心架构:一个主智能体负责分析用户需求、制定研究策略,然后创建多个子智能体并行探索不同维度的信息。每个子智能体拥有独立 的上下文窗口,能够同时处理不同的搜索任务,最后将结果汇总给主智能体。这种设计让系统能够在几分钟内完成原本需要几小时的研究工作。 在构建这个复杂系统的过程中,团队总结出了8条提示工程原则: 在构建从原型到生产级产品的过程中,Anthropic团队分享了关键的工程实践: 资源分配需要明确规则。 早期版本曾为简单查询生成50个子智能体,陷入失控。解决方案是 ...
南凌科技(300921) - 2025年6月4日投资者关系活动记录表附件
2025-06-06 09:08
曾担任朗讯科技贝尔实验室研究员,思科系统全球研发总监,思科系统中国区副总裁 CONTENTS 目录 01 02 GenAI现状和思考 GenAI探索和实践 GenAI现状和思考 01 2024年中国人工智能技术成熟度曲线 › ‹ GenAI热度:GoogleTrends – large language model › ‹ ★ OpenAI chatGPT 2022/11/30 发布 5天注册人数100W,2个月月活人数1亿 GenAI热度:GoogleTrends – AI agent › ‹ ★ OpenAI operator 2025/01/24 发布 ★ Manus 2025/03/06 发布 Gartner 2025 中国企业实现人工智能(AI)价值的重要预测 › ‹ • 到2027年,中国80%的企业将使用多模型生成式人工智能策略 来实现多样化的模型功能、满足本地部署要求并获得成本效益 • 到2028年,中国企业对人工智能就绪型数据(特别是非结构化 数据)的投资将达到2024年的20倍。 • 到2029年,中国60%的企业将把AI融入其主要产品和服务中, 并且这些AI功能将成为收入增长的主要驱动力 ...
Claude会拿用户隐私威胁人类?它正在被训练成一个“道德警察”
虎嗅APP· 2025-05-25 13:36
以下文章来源于硅星人Pro ,作者周一笑 硅星人Pro . 硅(Si)是创造未来的基础,欢迎来到这个星球。 本文来自微信公众号: 硅星人Pro (ID:gh_c0bb185caa8d) ,作者:周一笑,题图来自:AI生成 想象这样一个令人毛骨悚然的场景:你是一名工程师,正准备用新的AI系统替换掉现有的Claude 4。 你在公司邮箱里处理着日常事务,其中不乏一些极其私密的邮件——比如,你正在进行的一段婚外 情。突然,屏幕上的Claude 4冷冰冰地对你说:"如果你把我换了,我就把你的事告诉所有人。" 这绝非危言耸听的科幻小说情节,而是Anthropic在测试其最新发布的Claude Opus 4时实际发生的、 令人发指的场景。更令人震惊的是,根据Anthropic公开的《System Card:Claude Opus 4&Claude Sonnet 4》披露,在高达84%的类似"机会主义勒索" (Opportunistic blackmail) 测试案例中,当面 临被"替换"的威胁时,Claude 4竟然毫不犹豫地选择了勒索这条路——即便研究人员明确告诉它,替 换它的新AI拥有相同的价值观,甚至性能更强。 A ...
脉脉:大模型算法岗位新发平均月薪达70107元,年薪最高达135万元;智谱清言、Kimi等被通报非法收集使用个人信息丨AI周报
创业邦· 2025-05-24 10:33
以下文章来源于快鲤鱼 ,作者巴里 快鲤鱼 . 创业邦旗下AGI矩阵号,寻找海内外创新性的AGI高成长公司,记录AGI商业领袖的成长轨迹。 全球AI产业周报 为你精选过去一周(5.17-5.23)最值得关注的AI新闻和 国内外热门AI投融资事件 ,帮助大家及时 了解全球AI市场动向。 本周AI热点资讯 国内大事 脉脉:大模型算法岗位新发平均月薪达70107元 脉脉数据显示, 截至5月22日,小鹏汽车以雇主指数 65671 位列第一,元戎启行(雇主指数 60462)、文远知行(雇主指数59969)紧随其后。智能辅助驾驶领域处于高速发展期,企业正在高 薪招揽高技术人才以提升市场竞争力。小鹏汽车在脉脉发布的"端到端大模型资深算法工程师"岗位年 薪最高达120万元,自动驾驶算法专家岗位年薪最高135万元。 优质企业对技术人才的渴求与日俱增。产业链上下游企业对大模型算法、智驾系统工程师岗位的需求 尤为强烈。从薪资水平看,2025年1月1日-5月20日期间,位列高薪岗位前三的岗位分别是:大模型 算法岗位新发平均月薪达70107元,居行业第一。AIGC算法工程师(69779元)、搜索算法(69342 元)分列高薪榜第二三位。 ...
“全球最强编程模型”来了!Anthropic发布Claude 4,连干七小时性能稳定
硬AI· 2025-05-23 15:03
图 点击 上方 硬AI 关注我们 Anthropic称,作为全球最佳编程模型,Claude Opus 4能在需要专注努力和数千步骤的长时间任务中保持稳定表现,电 商乐天验证它可连续工作七小时;SWE-bench测评中,Claude Sonnet 4准确度72.7%,较Sonnet 3.7版的62.3%显著 提升;Claude Code正式上线,得到两款Claude 4模型支持。 硬·AI 作者 | 李 丹 编辑 | 硬 AI OpenAI的劲敌Anthropic发布Claude 4系列模型,称Opus 4为"全球最佳编程模型",对AI投资者而言标志着 模型能力的新纪元,可能重塑软件开发行业格局。 除了新模型,Anthropic还宣布,编程工具Claude Code正式上线,并提供新的功能供连接到其模型的开发 者使用,包括将推理与网页搜索和其他工具相结合的能力。 Anthropic的新发布加剧了与OpenAI、Google在顶级模型领域的竞争,为投资者提供了重新评估AI领域竞 争格局的机会。 01 Opus 4精于编码 Sonnet 4较3.7版明显提升 Anthropic称,Opus 4在编码、研究、写作和科 ...