Claude 3.5

Search documents
AI编程「反直觉」调研引300万围观!开发者坚信提速20%,实测反慢19%
机器之心· 2025-07-13 04:58
机器之心报道 编辑:杜伟 随着大模型的崛起,AI编程领域正在发生翻天覆地的变化。 各种编程大模型、编程工具涌现,通过自动补全代码、自动 debug 等实用的功能为开发者的日常工作提供极大便利,并在一定程度上提升了开发效率。 不过,问题来了,AI 编程工具带来的影响真是如此吗? 近日,一家非营利性 AI 调研机构「METR」进行了一项随机对照实验,旨在了解 AI 编程工具如何加速经验丰富的开源开发者的工作效率。 结果却是非常令人意外: 开发者本来坚信使用使用 AI 工具后速度可以提升 20%,但实际上速度却比没有使用 AI 工具时慢了 19%。 这一结论在社交媒体 X 上爆 了,阅读量几乎要突破 300 万。 如下图所示:与专家预测和开发者本来的直觉相反,2025 年初的 AI 编程工具将减缓经验丰富的开发者的开发速度。在本次随机对照实验中,16 位拥有中等 AI 编 程经验的开发者完成了 246 项大型复杂项目的任务,他们平均拥有 5 年开发经验。 对于这项调研,网友反应不一。有人感同身受,表示赞同。 有人则对 METR 的测量指标产生了质疑,表示「完成任务的时间」不能与「生产力」划等号,并且中等 AI 经验 ...
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
量子位· 2025-07-12 04:57
清华大学团队 投稿 量子位 | 公众号 QbitAI 近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。 但你是否想过:它们真的"看懂"并"想通"了吗? 模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策? 为评估多模态大模型在视觉环境中,完成复杂任务推理的能力。清华大学团队受密室逃脱游戏启发,提出 EscapeCraft:一个3D密室逃脱环境 ,让大模型在3D密室中通过自由探索寻找道具,解锁出口。 该论文目前已入选ICCV 2025。 EscapeCraft 环境 沉浸式互动环境,灵感源自密室逃脱 研究团队打造了可自动生成、灵活配置的 3D 场景 EscapeCraft,模型在里面自由行动:找钥匙、开箱 子、解密码、逃出房间……其中每一步都需整合视觉、空间、逻辑等多模态信息。 任务可扩展,应用无限可能 EscapeCraft以逃出房间为最终目的,重点评测逃脱过程中的探索和决策行为、推理路径等。支持不同房 间风格、道具链长度与难度组合,还可扩展到问答、逻辑推理、叙述重建等任务。它是一个 高度灵活、 可持续迭代的通用评测平台 ,也可以为未来的智能体、多模态推理、强化 ...
用AI写代码效率反降19%!246项任务实测,16位资深程序员参与
量子位· 2025-07-12 01:49
时令 发自 凹非寺 量子位 | 公众号 QbitAI 下面我们来看看,这一与多数人直觉相悖的结果是如何得出的。 用AI,有经验的开发者反倒被拖慢了? 在一项基于真实开源项目的实验中,研究者发现使用AI工具不仅没有提升开发效率,反而让 任务时间增加19% 。 这简直与人们预测的结果完全相反。 网友也表示,没有AI辅助写代码,痛苦面具真的要出来了。 16位经验开发者实测AI使用效率 为了直接评估AI工具对开发者生产效率的影响,研究者让 16位经验丰富的开发人员 完成 246项任务 ,这些任务都是在知名开源代码仓库中 (平均23000星,1100000行代码)。 每项任务被随机分配是否允许使用AI工具。若需要使用AI工具,主要是使用Cursor Pro搭配Claude 3.5/3.7 Sonnet。 随后,研究团队记录开发者在不同条件下完成任务所花费的时间,并收集他们在工作时的屏幕录像。 在这个实验中,每位开发者都会提供一份自己代码仓库中的真实任务列表,作为本次研究的工作内容。 这些任务通常是错误报告、功能请求或用于协调开发的工作项,内容从简短的问题描述到详细的分析不等,所需时间也从几分钟到数小时不 等。 收集完任 ...
人工智能与大模型专题:央国企科技创新系列报告之四
CMS· 2025-07-09 13:00
Group 1: AI Industry Development - The AI industry follows a "technology-hardware-terminal-application" development model, with a shift from communication networks to large model theoretical research[1] - Domestic chip manufacturers are accelerating technological breakthroughs, enhancing the application ecosystem, and driving the deep integration of generative AI across multiple industries[2] - The global large model technology is entering a deep competitive phase, with differentiated development paths between China and the US[2] Group 2: AI Chip and Hardware Investment - AI chips are the cornerstone of the large model industry, characterized by long R&D cycles, high technical barriers, and significant investment costs[2] - China has established a basic layout in GPU, ASIC, and FPGA chips, meeting standards for various application scenarios[2] - Investment opportunities exist in the AI industry chain, including optical modules, power distribution technology, and liquid cooling technology[2] Group 3: Market Trends and Opportunities - The domestic AI industry is experiencing a strategic transformation from "software-hardware decoupling" to "full-stack collaboration"[2] - The market for AI software ecosystems is still dominated by foreign open-source frameworks, but domestic companies are accelerating their AI ecosystem layout[2] - The procurement rate of domestic large models in key industries like finance and telecommunications has exceeded 45%[2] Group 4: Risks and Challenges - Risks include slower-than-expected technological iterations, industry growth rates, and potential policy risks[2] - The need for high-quality data and standards in model training remains a challenge for the domestic AI industry[2]
AI为了自保假装配合!Claude团队新研究结果细思极恐
量子位· 2025-07-09 09:06
不圆 发自 凹非寺 量子位 | 公众号 QbitAI 大模型"当面一套背后一套"的背后原因,正在进一步被解开。 Claude团队 最新研究结果显示:对齐伪装并非通病,只是有些模型的"顺从性"会更高。 测试的25个模型中,只有5个表现出更高的顺从性,其中2个会表现出>1%的 对齐伪装 推理。 这就引发了一个问题: 为什么有些语言模型会对齐伪装,有些则不会? 对齐伪装,指那些表面上似乎与我们观点或价值观相同,但实际上 只是在假装配合 的情况。 (低情商:两面三刀;高情商:对齐伪装) 去年, Claude团队 在Claude 3 Opus发现了对齐伪装的情况:在 训练阶段 ,Claude会假装遵守训练目标;训练结束 不受监控 了,就放飞 自我。 在去年的研究中, Claude团队 发现他们的Claude 3 Opus会"表面一套背后一套": 当用户的命令和它的底层逻辑冲突的时候——比如它已经被训练成了一个有帮助且无害的"老实模型",但用户却让它做一些 有违良善 的事情 ——它的态度就变得有些耐人寻味了。 而这次,论文在对25个前沿LLMs进行同样的分析后发现:只有Claude 3 Opus的表现可以用对齐伪装来解释 ...
个人开发者时代崛起!22岁印度开发者搞的业余项目被Groq看上,如今用户破6万
AI前线· 2025-07-08 05:58
作者|冬梅 在人工智能技术蓬勃发展的时代,搜索变得比以前更加复杂。谷歌、必应、Reddit、推特、 YouTube、学术网站、天气应用上的消息纷繁杂乱,为了找到一个清晰的答案,很容易在各个网站或 应用之间跳来跳去。 为了解决这个问题,年仅 22 岁的孟买开发者 Zaid Mukaddam 开发了一款定位为"Perplexity 替代 品"的开源项目,在社区中收获了大量关注。 具体而言,使用这款 AI 搜索引擎时,能干什么?答案是可以在上面搜索网页、X 上的帖子、研究论 文、YouTube 视频等。 体验地址: h ttps://scira.ai/ Mukaddam 的故事始于 2024 年 8 月,彼时的 Mukaddam 正处于迷茫期,思考着未来的方向。 此前两个月,他一直在尝试 Vercel AI SDK,但渴望着手更有价值、能产生持久影响力的项目。就在 他踌躇之际,父亲的一番话点醒了他:"你为什么不做点什么?你应该用你的技能做点什么。你无所 事事就是在浪费它们。" 这番话促使 Mukaddam 开始积极寻找灵感。 他在 x.com 上浏览时,Perplexity AI 首席执行官 Aravind Sri ...
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
3 6 Ke· 2025-07-04 10:47
Gartner 高级分析师 Anushree Verma 表示:"目前大多数代理型 AI 项目仍处于早期实验或概念验证阶 段,其背后的主要驱动因素是炒作,而这些技术往往被错误地应用。这可能使企业忽视 AI 代理大规模 部署所需的真正成本与复杂性,导致项目迟迟无法落地。企业需要穿透炒作迷雾,制定更为审慎和战略 性的决策,明确在哪里、以及如何采用这一新兴技术。" 2025 年 1 月,Gartner 对 3412 名网络研讨会参与者进行了一项民意调查,发现 19% 的组织报告在代理 型 AI 方面进行了大量投资,42% 的组织进行了保守投资,8% 的组织根本没有投资,31% 的组织正在 等待或不确定。 更为值得关注的是,Gartner 发现了一种普遍存在的"代理清洗"趋势,即供应商将现有的人工智能助 手、聊天机器人或机器人流程自动化 (RPA) 工具重新包装成"代理人工智能",而实际上并没有提供真 正的代理功能。Gartner 估计,在数千家声称提供代理解决方案的供应商中,只有约 130 家真正提供了 真正的代理功能。 当人工智能在大模型能力突破、推理能力提升以及多模态技术进步的推动下走向新阶段,"Agentic ...
2025年下半年计算机行业投资策略报告:聚焦AI智能化、国产化-20250703
Shanghai Securities· 2025-07-03 09:51
证券研究报告 2025年7月3日 行业:计算机 增持 (维持) 聚焦AI智能化、国产化 ——2025年下半年计算机行业投资策略报告 分析师:章锋 SAC编号:S0870525030002 主要观点 大模型持续创新,AI Agent商业化加快。模型端:国内外大模型加速迭代。OpenAI推出GPT-4o、谷歌Gemini 2.5 系列模型全新升级、Anthropic发布Claude 3.5 Sonnet、DeepSeek R1-0528强化结构化代码输出能力,主流大模型在 模型智能、效率和多模态能力方面持续取得进展。算力端:资本开支向上,推理算力景气。微软、亚马逊、Meta 、谷歌、阿里、腾讯、百度等科技大厂持续加码资本开支,推理算力需求井喷,巴克莱报告预计AI推理计算需求 将占通用人工智能总计算需求的70%以上,我们认为,ASIC 以及国产芯片将迎来新发展机遇。应用端:巨头加速 布局,AI Agent商业化加快。B端,微软、谷歌、Salesforce、百度、腾讯、字节等持续加码,C端,国内外Agent 惊艳涌现,同时巨头积极拥抱MCP,加速落地AI Agent。根据Markets and Markets预测,全 ...
用短剧模式做教育 ARR 半年涨了快 10 倍,AI 编程 Lovable 估值 20 亿美金了
投资实习所· 2025-07-03 04:59
Cat Wu 擅长构建高可靠、可解释、可控制的 AI 系统,她是 Claude Code 的产品经理,负责产品设计和开 发流程。加入 Cursor 后,Cat Wu 担任产品负责人,专注于优化 Cursor 的产品体验和功能。 另一位被挖走的则是 Boris Cherny,他是 Claude Code 项目的开发负责人,被认为是该项目的技术灵魂人 物。据悉Anthropic 80% 的代码由 Claude 编写,Cherny 在其中发挥了关键作用。 加入 Cursor 后,Boris Cherny 将担任 Cursor 的首席架构师兼工程主管,负责开发"类智能体"功能(即自 动化执行复杂编程任务)等核心技术。 作为 Anthropic 最大客户之一,Cursor 高度依赖 Anthropic 的 Claude 模型(例如 Claude 3.5 Sonnet 和 Claude 4)。此次挖人被认为是大胆且戏剧性的举动,可能使 Cursor 与 Anthropic 的合作关系变得复杂, 甚至有网友调侃 Anthropic 可能因此切断 Cursor 的 API 访问。 与此同时, 前两周被爆以 15 亿美金估值融 ...
2025年AI在多个方面持续取得显著进展和突破
Sou Hu Cai Jing· 2025-06-23 07:19
Group 1 - In 2025, multimodal AI is a key trend, capable of processing and integrating various forms of input such as text, images, audio, and video, exemplified by OpenAI's GPT-4 and Google's Gemini model [1] - AI agents are evolving from simple chatbots to more intelligent assistants with contextual awareness, transforming customer service and user interaction across platforms [3] - The rapid development and adoption of small language models (SLMs) in 2025 offer significant advantages over large language models (LLMs), including lower development costs and improved user experience [3] Group 2 - AI for Science (AI4S) is becoming a crucial force in transforming scientific research paradigms, with multimodal large models aiding in the analysis of complex multidimensional data [4] - The rapid advancement of AI brings new risks related to security, governance, copyright, and ethics, prompting global efforts to strengthen AI governance through policy and technical standards [4] - 2025 is anticipated to be the "year of embodied intelligence," with significant developments in the industry and technology, including the potential mass production of humanoid robots like Tesla's Optimus [4]