Claude 3.5 Sonnet

Search documents
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
量子位· 2025-07-12 04:57
清华大学团队 投稿 量子位 | 公众号 QbitAI 近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。 但你是否想过:它们真的"看懂"并"想通"了吗? 模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策? 为评估多模态大模型在视觉环境中,完成复杂任务推理的能力。清华大学团队受密室逃脱游戏启发,提出 EscapeCraft:一个3D密室逃脱环境 ,让大模型在3D密室中通过自由探索寻找道具,解锁出口。 该论文目前已入选ICCV 2025。 EscapeCraft 环境 沉浸式互动环境,灵感源自密室逃脱 研究团队打造了可自动生成、灵活配置的 3D 场景 EscapeCraft,模型在里面自由行动:找钥匙、开箱 子、解密码、逃出房间……其中每一步都需整合视觉、空间、逻辑等多模态信息。 任务可扩展,应用无限可能 EscapeCraft以逃出房间为最终目的,重点评测逃脱过程中的探索和决策行为、推理路径等。支持不同房 间风格、道具链长度与难度组合,还可扩展到问答、逻辑推理、叙述重建等任务。它是一个 高度灵活、 可持续迭代的通用评测平台 ,也可以为未来的智能体、多模态推理、强化 ...
人工智能与大模型专题:央国企科技创新系列报告之四
CMS· 2025-07-09 13:00
Group 1: AI Industry Development - The AI industry follows a "technology-hardware-terminal-application" development model, with a shift from communication networks to large model theoretical research[1] - Domestic chip manufacturers are accelerating technological breakthroughs, enhancing the application ecosystem, and driving the deep integration of generative AI across multiple industries[2] - The global large model technology is entering a deep competitive phase, with differentiated development paths between China and the US[2] Group 2: AI Chip and Hardware Investment - AI chips are the cornerstone of the large model industry, characterized by long R&D cycles, high technical barriers, and significant investment costs[2] - China has established a basic layout in GPU, ASIC, and FPGA chips, meeting standards for various application scenarios[2] - Investment opportunities exist in the AI industry chain, including optical modules, power distribution technology, and liquid cooling technology[2] Group 3: Market Trends and Opportunities - The domestic AI industry is experiencing a strategic transformation from "software-hardware decoupling" to "full-stack collaboration"[2] - The market for AI software ecosystems is still dominated by foreign open-source frameworks, but domestic companies are accelerating their AI ecosystem layout[2] - The procurement rate of domestic large models in key industries like finance and telecommunications has exceeded 45%[2] Group 4: Risks and Challenges - Risks include slower-than-expected technological iterations, industry growth rates, and potential policy risks[2] - The need for high-quality data and standards in model training remains a challenge for the domestic AI industry[2]
AI为了自保假装配合!Claude团队新研究结果细思极恐
量子位· 2025-07-09 09:06
不圆 发自 凹非寺 量子位 | 公众号 QbitAI 大模型"当面一套背后一套"的背后原因,正在进一步被解开。 Claude团队 最新研究结果显示:对齐伪装并非通病,只是有些模型的"顺从性"会更高。 测试的25个模型中,只有5个表现出更高的顺从性,其中2个会表现出>1%的 对齐伪装 推理。 这就引发了一个问题: 为什么有些语言模型会对齐伪装,有些则不会? 对齐伪装,指那些表面上似乎与我们观点或价值观相同,但实际上 只是在假装配合 的情况。 (低情商:两面三刀;高情商:对齐伪装) 去年, Claude团队 在Claude 3 Opus发现了对齐伪装的情况:在 训练阶段 ,Claude会假装遵守训练目标;训练结束 不受监控 了,就放飞 自我。 在去年的研究中, Claude团队 发现他们的Claude 3 Opus会"表面一套背后一套": 当用户的命令和它的底层逻辑冲突的时候——比如它已经被训练成了一个有帮助且无害的"老实模型",但用户却让它做一些 有违良善 的事情 ——它的态度就变得有些耐人寻味了。 而这次,论文在对25个前沿LLMs进行同样的分析后发现:只有Claude 3 Opus的表现可以用对齐伪装来解释 ...
个人开发者时代崛起!22岁印度开发者搞的业余项目被Groq看上,如今用户破6万
AI前线· 2025-07-08 05:58
作者|冬梅 在人工智能技术蓬勃发展的时代,搜索变得比以前更加复杂。谷歌、必应、Reddit、推特、 YouTube、学术网站、天气应用上的消息纷繁杂乱,为了找到一个清晰的答案,很容易在各个网站或 应用之间跳来跳去。 为了解决这个问题,年仅 22 岁的孟买开发者 Zaid Mukaddam 开发了一款定位为"Perplexity 替代 品"的开源项目,在社区中收获了大量关注。 具体而言,使用这款 AI 搜索引擎时,能干什么?答案是可以在上面搜索网页、X 上的帖子、研究论 文、YouTube 视频等。 体验地址: h ttps://scira.ai/ Mukaddam 的故事始于 2024 年 8 月,彼时的 Mukaddam 正处于迷茫期,思考着未来的方向。 此前两个月,他一直在尝试 Vercel AI SDK,但渴望着手更有价值、能产生持久影响力的项目。就在 他踌躇之际,父亲的一番话点醒了他:"你为什么不做点什么?你应该用你的技能做点什么。你无所 事事就是在浪费它们。" 这番话促使 Mukaddam 开始积极寻找灵感。 他在 x.com 上浏览时,Perplexity AI 首席执行官 Aravind Sri ...
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
3 6 Ke· 2025-07-04 10:47
Core Insights - The emergence of "Agentic AI" is gaining attention in the tech industry, with predictions that 2025 will be the "Year of AI Agents" [1][9] - Concerns have been raised about the actual capabilities and applicability of Agentic AI, with many projects potentially falling into the trap of concept capitalization rather than delivering real value [1][2] Group 1: Current State of Agentic AI - Gartner predicts that by the end of 2027, over 40% of Agentic AI projects will be canceled due to rising costs, unclear business value, or insufficient risk control [1][10] - A survey by Gartner revealed that 19% of organizations have made significant investments in Agentic AI, while 42% have made conservative investments, and 31% are uncertain or waiting [2] Group 2: Misrepresentation and Challenges - There is a trend of "agent washing," where existing AI tools are rebranded as Agentic AI without providing true agent capabilities; only about 130 out of thousands of vendors actually offer genuine agent functions [2][3] - Most current Agentic AI solutions lack clear business value or return on investment (ROI), as they are not mature enough to achieve complex business goals [3][4] Group 3: Performance Evaluation - Research from Carnegie Mellon University indicates that AI agents have significant gaps in their ability to replace human workers in real-world tasks, with the best-performing model, Gemini 2.5 Pro, achieving only a 30.3% success rate in task completion [6][7] - In a separate evaluation for customer relationship management (CRM) scenarios, leading models showed limited performance, with single-turn interactions averaging a 58% success rate, dropping to around 35% in multi-turn interactions [8] Group 4: Industry Reactions and Future Outlook - Companies like Klarna have experienced setbacks with AI tools, leading to a return to human employees for customer service due to quality issues [9] - Despite current challenges, Gartner remains optimistic about the long-term potential of Agentic AI, forecasting that by 2028, at least 15% of daily work decisions will be made by AI agents [10]
2025年下半年计算机行业投资策略报告:聚焦AI智能化、国产化-20250703
Shanghai Securities· 2025-07-03 09:51
证券研究报告 2025年7月3日 行业:计算机 增持 (维持) 聚焦AI智能化、国产化 ——2025年下半年计算机行业投资策略报告 分析师:章锋 SAC编号:S0870525030002 主要观点 大模型持续创新,AI Agent商业化加快。模型端:国内外大模型加速迭代。OpenAI推出GPT-4o、谷歌Gemini 2.5 系列模型全新升级、Anthropic发布Claude 3.5 Sonnet、DeepSeek R1-0528强化结构化代码输出能力,主流大模型在 模型智能、效率和多模态能力方面持续取得进展。算力端:资本开支向上,推理算力景气。微软、亚马逊、Meta 、谷歌、阿里、腾讯、百度等科技大厂持续加码资本开支,推理算力需求井喷,巴克莱报告预计AI推理计算需求 将占通用人工智能总计算需求的70%以上,我们认为,ASIC 以及国产芯片将迎来新发展机遇。应用端:巨头加速 布局,AI Agent商业化加快。B端,微软、谷歌、Salesforce、百度、腾讯、字节等持续加码,C端,国内外Agent 惊艳涌现,同时巨头积极拥抱MCP,加速落地AI Agent。根据Markets and Markets预测,全 ...
用短剧模式做教育 ARR 半年涨了快 10 倍,AI 编程 Lovable 估值 20 亿美金了
投资实习所· 2025-07-03 04:59
Cat Wu 擅长构建高可靠、可解释、可控制的 AI 系统,她是 Claude Code 的产品经理,负责产品设计和开 发流程。加入 Cursor 后,Cat Wu 担任产品负责人,专注于优化 Cursor 的产品体验和功能。 另一位被挖走的则是 Boris Cherny,他是 Claude Code 项目的开发负责人,被认为是该项目的技术灵魂人 物。据悉Anthropic 80% 的代码由 Claude 编写,Cherny 在其中发挥了关键作用。 加入 Cursor 后,Boris Cherny 将担任 Cursor 的首席架构师兼工程主管,负责开发"类智能体"功能(即自 动化执行复杂编程任务)等核心技术。 作为 Anthropic 最大客户之一,Cursor 高度依赖 Anthropic 的 Claude 模型(例如 Claude 3.5 Sonnet 和 Claude 4)。此次挖人被认为是大胆且戏剧性的举动,可能使 Cursor 与 Anthropic 的合作关系变得复杂, 甚至有网友调侃 Anthropic 可能因此切断 Cursor 的 API 访问。 与此同时, 前两周被爆以 15 亿美金估值融 ...
AI编码工具双雄也开始商业互捧了?Cursor × Claude 最新对谈:两年后,几乎100%代码都将由AI生成!
AI前线· 2025-06-21 03:38
编译 | 宇琪、冬梅 更可怕的数字是,据美国一家纸媒报道,Cursor 每日编写 10 亿行代码。 Cursor 推出不到两年,就实现了大多数 SaaS 公司需要十年才能实现的目标:年经常性收入 1 亿美元。 对于 Cursor 取得如今的成就,有 X 用户表示的确让人震惊。 "仅有 50 位工程师,每秒 100 万笔交易……每位工程师负责 2 万笔交易,太不可思议了!" 在硅谷层出不穷的创业故事中,Cursor 的起源看起来像是一个标准模板——四位麻省理工的计算 机天才,对"开发者生产力"有着近乎偏执的追求。他们的故事有着太多让人惊叹的地方:公司成 立一年半,总融资达到 95 亿、 4 位创始人年龄均为 25 岁、公司在 4 个月内 ARR 从 1 亿增至 3 亿、整个公司不到 50 人、每天编写 10 亿行代码...... 但这个故事的反转在于:他们拒绝成为又一个被风口吹起的泡沫。 2023 年 10 月,他们获得了由 OpenAI 领投的 800 万美元种子轮融资。这笔支持不仅仅是财务 上的认可,更是与这家引领 AI 革命的公司达成的战略联盟。当其他初创公司追逐消费级应用或 企业级工作流程时,Curso ...
从1500个项目里,看见中国AI的未来
36氪· 2025-06-20 00:33
生成式AI的2025: 告别PPT,拥抱生产力革命。 就在现在,拿起手机,打开电商购物网站,搜索"充电器",大概率弹出的第一个推荐品牌是安克创新。 如果你看中了其中哪一款产品,想要问价比价、咨询参数,你会点击客服,线上咨询。 你可能不知道的是,就只是这短短的2个操作,有多少AI大模型能力参与其中。 在6月19日的2025亚马逊云科技中国峰会上,知名智能硬件科技品牌安克创新首席创新官龚银分享了如何在亚马逊云科技技术的帮助下,利用AI创新智能产 品,提升公司运作效率。 安克创新与亚马逊云科技建立了高质量实时知识库大语言模型系统,搭建了50多个Al Agent;搭建了多模态AIGC内容生产平台Vela;搭建了融合Amazon SageMaker平台的智能广告系统,站内广告覆盖率超过90%;通过深度学习算法与AI大模型进行产品开发与升级…… 广告投放、物料生成、客服回复、产品升级……有多么前沿黑科技?一点也不。 但有用吗?太有用了。 当前,安克创新的内容生产平台Vela出图数量已经超过120万张、客服工单AI解决率超过70%、站内超过20%以上的广告由AI全自动托管;安克创新内部公 司级的AI能力底座——AIME平台 ...
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
量子位· 2025-06-18 09:17
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 好夸张…… 参赛大模型全军覆没,通通0分。 谢赛宁 等人出题,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。 到底是什么让一众领先模型一败涂地? LiveCodeBench Pro :一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的 实时 基准测试。 题库还 每日更新 ,来预防LLMs"背题",不得不说这太狠了(doge)。 谢赛宁虽然也参与了这项工作,但他谦虚地说自己只是个啦啦队成员。 此前有报道称,LLM编程现在已超越人类专家,但本次测试结果表明并非如此。 表现最佳的模型,在中等难度题上的一次通过率 仅53% ,难题通过率更是为0。 即使是最好的模型o4-mini-high,一旦工具调用被屏蔽,Elo也只有 2100 ,远低于真正大师级的2700传奇线。 | Model | Hard | Medium | Easy | Rating | Pct.% | AvgTok | AvgCost | | --- | --- | --- | --- | --- | --- | --- | ...