AUD

Search documents
AI编程「反直觉」调研引300万围观!开发者坚信提速20%,实测反慢19%
机器之心· 2025-07-13 04:58
机器之心报道 编辑:杜伟 随着大模型的崛起,AI编程领域正在发生翻天覆地的变化。 各种编程大模型、编程工具涌现,通过自动补全代码、自动 debug 等实用的功能为开发者的日常工作提供极大便利,并在一定程度上提升了开发效率。 不过,问题来了,AI 编程工具带来的影响真是如此吗? 近日,一家非营利性 AI 调研机构「METR」进行了一项随机对照实验,旨在了解 AI 编程工具如何加速经验丰富的开源开发者的工作效率。 结果却是非常令人意外: 开发者本来坚信使用使用 AI 工具后速度可以提升 20%,但实际上速度却比没有使用 AI 工具时慢了 19%。 这一结论在社交媒体 X 上爆 了,阅读量几乎要突破 300 万。 如下图所示:与专家预测和开发者本来的直觉相反,2025 年初的 AI 编程工具将减缓经验丰富的开发者的开发速度。在本次随机对照实验中,16 位拥有中等 AI 编 程经验的开发者完成了 246 项大型复杂项目的任务,他们平均拥有 5 年开发经验。 对于这项调研,网友反应不一。有人感同身受,表示赞同。 有人则对 METR 的测量指标产生了质疑,表示「完成任务的时间」不能与「生产力」划等号,并且中等 AI 经验 ...
DeepSeek 复盘:128 天后,为什么用户流量一直在下跌?
Founder Park· 2025-07-12 20:19
本篇内容转载自「锦秋集」 semianalysis写了一篇文章,通过深入分析DeepSeek和Anthropic两家公司的策略选择,揭示了一 个行业共同面临的根本挑战:计算资源的稀缺。 DeepSeek R1发布128天后的数据呈现出一个看似矛盾的现象:官方平台用户流失,但第三方托管 的模型使用量却暴增20倍。为什么用户会抛弃价格极低的官方服务,转而选择第三方平台? 本文通过Token经济学这一分析框架找到了答案。 文章指出,AI服务的定价本质上是三个性能指标的权衡游戏。 第一是延迟,即用户发送请求到收到第一个字符的等待时间; 第二是吞吐量,即模型每秒能生成多少个token,直接影响对话的流畅度; 第三是上下文窗口,决定了模型能"记住"多少对话历史,对于分析长文档或大型代码库至关重要。 关键洞察在于:通过调整这三个参数,服务商可以实现任何价格水平。 以下为原文内容。 原文: https://semianalysis.com/2025/07/03/deepseek-debrief-128-days-later/ 超 9000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和 ...
AI的“第二幕”:英伟达4万亿美元市值背后,AI如何从“云端”到日常
Sou Hu Cai Jing· 2025-07-12 05:56
黄仁勋 图片来源:视觉中国 英伟达耗时三十年,才艰难攀上1万亿美元市值的山峰;而从1万亿到4万亿,它却只用了短短两年。 当地时间7月10日,这家全球领先的人工智能芯片供应商的股价收于164.10美元,创下历史新高,成为全球首家市值突破4万亿美元的上市公司。这不仅是AI 第一轮算力竞赛的顶峰,更是一个深刻的产业结构演化信号:AI竞争的核心,已悄然从"谁能训练出最大、最强的模型",转向"谁能让全世界用得起、用得 好模型"。 自2022年生成式AI的浪潮席卷全球以来,大模型的研发驱动了前所未有的基础设施投资热潮。进入2024至2025年,随着AI"推理"任务(即模型的实际应用) 量呈指数级增长,企业端与消费端的AI应用正在全面铺开,科技巨头在AI基础设施领域的竞争也日趋白热化。 英伟达的登顶,是整个AI生态从"训练为王"向"应用为王"战略跃迁的缩影。真正的拐点在于,AI正开始以前所未有的广度和深度,大规模、日常化地融入 普通人的生活与实体企业的生产流程。AI发展的"第二幕",已然开启。 英伟达速度:两年从1万亿到4万亿美元 当地时间7月10日,英伟达市值正式迈过4万亿美元大关,成为全球资本市场的新晋王者。福布斯实时 ...
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
量子位· 2025-07-12 04:57
清华大学团队 投稿 量子位 | 公众号 QbitAI 近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。 但你是否想过:它们真的"看懂"并"想通"了吗? 模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策? 为评估多模态大模型在视觉环境中,完成复杂任务推理的能力。清华大学团队受密室逃脱游戏启发,提出 EscapeCraft:一个3D密室逃脱环境 ,让大模型在3D密室中通过自由探索寻找道具,解锁出口。 该论文目前已入选ICCV 2025。 EscapeCraft 环境 沉浸式互动环境,灵感源自密室逃脱 研究团队打造了可自动生成、灵活配置的 3D 场景 EscapeCraft,模型在里面自由行动:找钥匙、开箱 子、解密码、逃出房间……其中每一步都需整合视觉、空间、逻辑等多模态信息。 任务可扩展,应用无限可能 EscapeCraft以逃出房间为最终目的,重点评测逃脱过程中的探索和决策行为、推理路径等。支持不同房 间风格、道具链长度与难度组合,还可扩展到问答、逻辑推理、叙述重建等任务。它是一个 高度灵活、 可持续迭代的通用评测平台 ,也可以为未来的智能体、多模态推理、强化 ...
Claude团队大揭秘!如何调动多智能体搞深度搜索
量子位· 2025-07-12 04:57
奕然 发自 凹非寺 量子位 | 公众号 QbitAI 如何用多智能体的方法构建深度搜索? 现在,Claude团队把自家最新的心得,对外分享了。 在这篇文章中,它详细展示了如何构建一个 有效的多智能体研究系统 ,这是一个架构,其中主代理(The Lead Agent)会生成和协调子代 理(Subagents),以并行方式探索复杂查询,内容涵盖系统架构、提示工程以及评估方法等。 Claude数据显示了不同行业领域使用此功能的比例——专业领域软件系统开发占比10%,开发和优化专业和技术内容、开发业务增长和创收 策略皆占比8%,协助学术研究和教育材料开发占比7%,研究和审核信息占比5%。 网友们点评: Anthropic团队对AI模型的理解真是killer级别啊。 一起来看看这篇干货教程。 关键架构:协调器-工作器架构 Claude团队使用了协调器-工作器架构,专门用于管理多个智能体之间的任务分配与协作。下图展示了多智能体架构运行情况。 此外,该系统使用 多步搜索 而非静态检索,动态地查找相关信息,适应新的发现,并分析结果来形成高质量的答案。 与单个代理的Claude相比,它在内部评估中成功率达到90%更高,比如,以 ...
180 天狠赚 5.7 亿,8 人团队全员财富自由,最大功臣是 Claude 和 Gemini
AI前线· 2025-07-12 02:50
作者|冬梅 最近有个金额不算特别巨大的收购案在技术圈内引发持续关注:海外互联网巨头 Wix 斥资 8000 万美元(约 5.7 亿人民币)现金,买下一家成立仅 6 个月的 AI 小公司 Base44。 这家公司到底有多神奇?它的创始人身上有着这样几个标签:90 后、独立开发者、白手起家 的"富一代"。 据报道,Base44 作为一家独立公司成立六个月后,用户数量增长至 25 万,并在成立后的三周内 就达到了 1 万。根据 Shlomo 在 X 和 LinkedIn 上的帖子,该公司已实现盈利,即使在支付了高 昂的大语言模型 token 成本(他也公开记录了这一点)后,5 月份仍实现了 18.9 万美元的利 润。 这个时代最大的红利是,AI 降低了创业门槛,普通人也能借助 AI 工具快速变现。 其实在创建 Base44 项目之前,Shlomo 在 AI 创业圈已经小有名气。 Shlomo 今年 31 岁,是一位前端开发者。早在 2017 年,他就与朋友共同创办数据分析公司 Explorium,经过 8 年的发展,Explorium 目前拥有 100 多名员工,并获得全球知名投资机构 Insight Partne ...
用AI写代码效率反降19%!246项任务实测,16位资深程序员参与
量子位· 2025-07-12 01:49
时令 发自 凹非寺 量子位 | 公众号 QbitAI 下面我们来看看,这一与多数人直觉相悖的结果是如何得出的。 用AI,有经验的开发者反倒被拖慢了? 在一项基于真实开源项目的实验中,研究者发现使用AI工具不仅没有提升开发效率,反而让 任务时间增加19% 。 这简直与人们预测的结果完全相反。 网友也表示,没有AI辅助写代码,痛苦面具真的要出来了。 16位经验开发者实测AI使用效率 为了直接评估AI工具对开发者生产效率的影响,研究者让 16位经验丰富的开发人员 完成 246项任务 ,这些任务都是在知名开源代码仓库中 (平均23000星,1100000行代码)。 每项任务被随机分配是否允许使用AI工具。若需要使用AI工具,主要是使用Cursor Pro搭配Claude 3.5/3.7 Sonnet。 随后,研究团队记录开发者在不同条件下完成任务所花费的时间,并收集他们在工作时的屏幕录像。 在这个实验中,每位开发者都会提供一份自己代码仓库中的真实任务列表,作为本次研究的工作内容。 这些任务通常是错误报告、功能请求或用于协调开发的工作项,内容从简短的问题描述到详细的分析不等,所需时间也从几分钟到数小时不 等。 收集完任 ...
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
猿大侠· 2025-07-12 01:45
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 发布还不到一天,马斯克的Grok4就已经被网友们玩疯了。 比如有网友报告,Grok-4已经 成功通过了著名的六边形小球氛围编程测试 。 只见随着六边形的不断旋转,小球错落有致地从开口下落。 拿着显微镜捉虫的网友发现小球在返回中心位置时会穿墙,但作者表示这是故意为之。 | Plutus � @PlutusCosmos · 17小时 | | | | | --- | --- | --- | --- | | The balls penetrate the walls when the go back to the center. Is it intended? | | | | | O3 | U | ♡ 74 | 111 2.5万 | | Flavio Adamo � @flavioAd · 17小时 | | | | | yes | | | | | 01 | 17 | C 59 | 1 1 2.5万 | | SoyTeslike � @soyteslike · 16小时 | | | | | damn, already screenshotted but it wa ...
OpenAI 30亿美元收购案黄了,AI 编程明星公司被谷歌截胡
Hu Xiu· 2025-07-11 23:59
曾被OpenAI相中,开价30亿美元的AI编程初创公司Windsurf,如今转身投奔了Google。 就在刚刚,Google宣布将Windsurf部分高管及工程团队纳入其旗下的DeepMind团队,重点推进"代理式编码"(Agentic Coding)方向的研究。 尽管Google并未获得Windsurf的控股权或股权,但已获得该公司部分技术的非独家使用许可,不过,此次引入团队的具体花费并未透露。 与此同时,Windsurf也迅速完成了内部调整。原商务主管Jeff Wang将出任临时CEO,全球销售副总裁Graham Moreno升任公司总裁,维持其作为独立初创 公司的持续运营。 Google发言人Chris Pappas在接受外媒The Verge采访时表示:"Gemini是当前最强大的模型之一,我们一直在提升其对开发者的价值。很高兴Windsurf团队 的顶尖AI人才能加入我们,推动代理式编码研究向前迈进。" Mohan与Chen也在联合声明中表示,"我们为Windsurf四年来的成就深感自豪,也很期待和这支世界级的团队一起开启新阶段。" DeepMind CEO Demis Hassabis表示祝贺 据 ...
OptimizeRx Bets on AI and Workflow Integration: Will This Pay Off?
ZACKS· 2025-07-11 13:06
Key Takeaways OPRX Q1 revenues rose 11% YoY to $21.9M with $1.5M adjusted EBITDA and raised FY25 guidance. OPRX's DAAP and subscription model drive margin gains, with 80% of FY25 revenues under contract. OPRX cut OpEx by $5M and targets Rule of 40 status, but gross margin dipped on managed services mix.OptimizeRx (OPRX) is making a bold shift toward AI-driven, workflow-integrated solutions, signaling a strategic evolution that could redefine its role in digital pharma communications. On its first-quarter ...