Workflow
量子位
icon
Search documents
每周7亿人都在如何用ChatGPT?OpenAI最全报告来了
量子位· 2025-09-16 00:52
一水 发自 凹非寺 量子位 | 公众号 QbitAI 首份最全ChatGPT用户研究报告来了! 就在刚刚,OpenAI联合哈佛大学经济学家David Deming发表了一篇新论文—— 标题为 《How People Use ChatGPT》 ,详细论述了ChatGPT从2022年11月上线到2025年7月的被使用情况。 为什么要在这个节点推出报告,或许这也和ChatGPT取得的阶段性成果有关。 截至今年7月,ChatGPT的周活跃人数已经超过7亿,每周发送的消息总量达到180亿条。 人们用ChatGPT干什么? 对于第一个问题,首先需要强调一点: 和以往基于问卷调查的方式不同,这一次研究团队主要基于内部对话数据,采用自动化分类器并结合隐私保护方法来分析ChatGPT的实际使 用情况,可以说更科学合理了。 人们都在用ChatGPT干什么? 究竟是谁在用ChatGPT? 具体数据集可以分为三类: 1、Growth数据集:2022年11月~2025年9月所有消费者计划(Free/Plus/Pro)的消息总量与基础人口统计。 2、分类消息样本:2024年5月~2025年6月随机抽取约110万条去标识化消息,用LLM分 ...
GPT-5编程专用版发布!独立连续编程7小时,简单任务提速10倍,VS Code就能用
量子位· 2025-09-16 00:52
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI Codex编程智能体大升级: 推出 GPT-5-Codex 特化版模型,支持 独立连续编程7个小时 。 还有IDE插件版,在 VS Code、Cursor 中都可以使用Codex了。 新模型最牛的地方在于 "真·动态思考" 能力。 与GPT-5任务一开始就决定用多少算力的"路由机制"不同,GPT-5-Codex能在执行任务的过程中实时调整,可能 在处理一个问题5分钟后, AI突然意识到还需要再花一个小时 。 在测试中,OpenAI团队见证了GPT-5-Codex为了完成复杂任务,独立工作超过7小时,期间不断迭代实现、修复测试失败,最终成功交付。 早期测试用户Dan Shipper表示体验好多了,现在可以进行连续对话,像"我们在哪个目录?"这样简单的问题可以立即得到结果,而不是每轮 对话都要等AI思考几分钟。 GPT-5编程专用版 首先来看变成专用版模型GPT-5-Codex。 它针对复杂的实际工程任务进行训练,包括从头构建完整项目、添加功能和测试、调试、执行大规模重构。 在 SWE-bench Verified 上的表现略优于原版GPT-5, ...
2025Q3 AI 100产品榜单报名开启|AI 100
量子位· 2025-09-15 09:25
量子位智库 . 连接AI创新,提供产业研究 进入2025下半年,国内AI产品的竞争格局发生了质变——更激烈,新变量也更多。 一方面,竞争回归 产品本质 。流量营销战鲜有效果,用户开始用实打实的 重复使用 和 持续消费 投票,产品增长回归到了 价值交付 和 体 验细节 。 头部产品在大场景中加强垄断的同时,初创的高度细分产品正抓紧把握时间窗口,抢夺用户心智。 编者荐语: 新一期AI100榜单来了! 以下文章来源于量子位智库 ,作者AI 100组委会 另一方面, 新一代AI-Native 的产品设计正在撬动新蓝海。Multi-agent、AI消费级硬件、Vibe Coding、Deep Research、多模态交互等新 变量加速落地。 新场景、新工作流、新交互方式正在快速萌芽,在分歧与竞争中找寻面向未来的解法。 在过去的三个月,哪些产品在头部屹立不倒?哪些互联网产品加入AI阵营?又有哪些新产品崭露头角? 量子位智库将在2025 Q3的「AI 100」榜单中给出答案,期待你的参与。 一、关于AI 100 「AI 100」是量子位智库推出的 AI产品风向标 系列内容,主要由「旗舰100」和「创新100」双榜单,以及邀 ...
DeepMind哈萨比斯最新认知都在这里了
量子位· 2025-09-15 05:57
不圆 发自 凹非寺 量子位 | 公众号 QbitAI Nano Banana如此火爆,让谷歌DeepMind CEO哈萨比斯在最新访谈中又一次聊起了AGI。 如果我们在未来十年内拥有完全的AGI,将开创一个科学的黄金时代,一种新的文艺复兴。 Nano Banana当然不是AGI,但它也体现了哈萨比斯认为AGI系统所需的一些关键能力和特征。 哈萨比斯曾经预测过我们可能会在2030年左右实现AGI,但亟待突破的瓶颈在于:目前AI系统并非真正的"博士级智能",因为它们仅仅是在某 些领域表现出色,但在其他方面仍会犯简单错误。 并且,今天的AI还没有"真正的创造力",不能提出新的猜想或者假设。 要构建AGI,需要理解我们周围的世界和物理世界,而不仅仅是语言或数学的抽象世界。 虽然面对着上述挑战,但哈萨比斯依然坚信AGI的到来将开启一个"科学的黄金时代",并在能源、健康等多个领域为人类带来巨大益处。 网友表示:迄今为止,这是关于通往AGI之路的挑战和机遇的最真实对话之一。 | C 3 | | | | | --- | --- | --- | --- | | ר ﺭ | | | | | | III 302 | | | | | ...
马斯克的最快AI模型来了
量子位· 2025-09-15 05:57
henry 发自 凹非寺 量子位 | 公众号 QbitAI 最强不敢说,但最快实锤了! 刚刚,xAI发布 Grok 4 Fast ,生成速度高达每秒 75 个 token,比标准版快 10 倍! 从下面的动图中,我们可以直观地看出差距—— solve the trapping rain water leetcode problem using python,just give me the answer 当左边的Grok 4还在说"让我想一下的时候",Grok 4 Fast已经在说:"下一个问题是什么了。" 天下AI,真就唯快不破? 接下来,我们一起看看Grok 4 Fast的实测表现。 网友实测 从网友的测试来看,Grok 4 Fast的确速度惊人。 例如,在网友的测试中,Grok 4 Fast用不到 2秒 就解决了一道经典的LeetCode题: 不仅Python,让Grok 4 Fast用C语言写链表,同样8秒搞定: 除了编程题,像"量子计算机什么时候取代传统计算机"这样的问答,Grok 4 Fast也能瞬间给出答案。 write a linked list in the C programming la ...
只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文
量子位· 2025-09-15 05:57
不圆 发自 凹非寺 量子位 | 公众号 QbitAI 只要科学任务可以评分,AI就能找到超越人类专家的方法,实现SOTA结果? 这是谷歌一篇最新论文里的内容: 使用 大模型+树搜索 ,让AI大海捞针就行。 他们还开发了一个 帮助科学家编写专家级实证软件 的AI系统。 该系统在生物信息学、流行病学、地理空间分析等领域发明的新方法,都达到了SOTA的水平。 网友表示:任何可量化的东西都将被AI征服。 这篇论文目前在X上获得了2.6K赞,引发了广泛的讨论。 让我们一起看看。 Aran Komatsuzaki √ @arankomatsuzaki Google presents an Al system to write expert-level scientific software. Using LLMs + tree search, it invented novel methods in bioinformatics, epidemiology, geospatial analysis & more, often surpassing human SOTA. (1/4) Google 2025-9-9 An ...
谷歌靠Nano Banana超越ChatGPT!登顶苹果App Store第一,玩疯了玩疯了
量子位· 2025-09-15 05:57
一水 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 霸榜苹果应用榜的ChatGPT,终于被真·超越了! 并且不止美区,包括在印度、加拿大、摩洛哥等地,Gemini全部实现登顶。 而一切的一切都要归功于: Nano Banana太好用 (而且免费)。 正如此前"吉卜力玩法"带动ChatGPT用户增长一样,谷歌8月推出的图像生成工具Nano Banana目前也被外界认为是驱动Gemini此轮爆发的 最关键因素。 短短不到一个月,Gemini应用程序在此期间新增用户2300万,Nano Banana也被用于编辑超过5亿张图片。 甚至DeepMind CEO哈萨比斯也在最新采访中表示,Nano Banana是同类产品中最好的。 Nano Banana掀起破圈热潮之后,谷歌Gemini登顶成新王。 而像包括Vercel CEO在内的网友们,更是对Nano Banana的作用大力肯定: | Guillermo Rauch & @ @rauchg · Sep 14 | | | | | --- | --- | --- | --- | | Well deserved. Nano banana is a step fun ...
腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%
量子位· 2025-09-15 03:59
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 让AI生成的图像更符合人类精细偏好,在32块H20上训练10分钟就能收敛。 腾讯混元新方法让微调的FLUX1.dev模型人工评估的真实感和美学评分提高3倍以上。 当前的扩散模型虽然能通过奖励机制来贴合人类喜好,但存在两个问题:一是优化步骤少,容易出现 "奖励作弊",也就是模型为了拿高分生 成质量差的图;二是需要离线调整奖励模型才能达到好的美学效果,不够灵活。 为此,团队提出两个关键方法: 一个是Direct-Align,通过预先注入噪声,能从任意时间步恢复原图,避免了只在后期步骤优化的局限,减少了 "奖励作弊"。 另一个是语义相对偏好优化(SRPO),它把奖励变成受文本控制的信号,通过添加正面和负面提示词,能在线调整奖励,不用额外数据就能 灵活适配需求。 论文公开后,有开发者评价SRPO看起来就像下一代RLHF。 更重要的是,这种方法支持在整个扩散轨迹上进行优化,而不是像ReFL、DRaFT等方法那样只能在后期步骤训练。 实验发现,仅在后25%时间步训练会导致严重的奖励黑客问题,模型会过度拟合奖励函数的偏好,比如HPSv2偏好红色调、PickScore偏好 ...
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
量子位· 2025-09-15 03:59
OpenAI o3的多轮视觉推理,有开源平替版了。 并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到 数十轮 。 不圆 发自 凹非寺 量子位 | 公众号 QbitAI 这个模型叫Mini-o3,它无需消耗大量训练周期资源,通过恰当的数据、初始化方法和强化学习微调,即可实现长周期视觉搜索能力。由字 节、香港大学团队联合开发。 跨越数十个步骤的深度推理 最近的多模态大模型虽然能通过"图像工具+强化学习"处理视觉问题,但现有开源方案存在很大的短板: 比如推理方式单调、交互轮次受限、遇到需要反复试错的复杂任务就束手无策。 而Mini-o3突破了上述局限——它能够进行 长达数十个步骤的深度多轮推理 ,在高难度视觉搜索任务中达到了当前最佳水平。 这得益于它的三个关键设计: 第一,研究团队构建了视觉探测数据集VisualProbe,包含数千个专为探索式推理设计的视觉搜索难题; 第二,开发了迭代式数据收集流程,让模型能学会深度优先搜索、试错探索、目标维持等多样化推理策略; 第三,提出超轮次掩码策略,在强化学习中避免对达到最大交互轮次的响应进行惩罚,从而平 ...
昔日王者TensorFlow,已死
量子位· 2025-09-15 00:30
Core Viewpoint - The article discusses the decline of TensorFlow as an open-source framework, contrasting it with the rapid rise of PyTorch and other emerging projects in the AI open-source ecosystem [3][8][54]. Group 1: Decline of TensorFlow - TensorFlow's community activity peaked but has since declined to its lowest point, even lower than its inception [3][10]. - Ant Financial's open-source technology committee vice-chairman Wang Xu announced TensorFlow's removal from the latest open-source landscape map, indicating its diminishing relevance [6][8]. - The decline of TensorFlow reflects a broader trend in the AI open-source landscape, where project lifecycles are now measured in days rather than years [10][53]. Group 2: Open-Source Project Dynamics - The latest open-source landscape map (version 2.0) shows a significant turnover, with 39 new projects added and 60 existing projects removed, indicating a rapid evolution in the ecosystem [17][18]. - Projects that fail to maintain community engagement or lag in iteration speed are at risk of being excluded from the landscape [19][20][21]. - The competitive nature of the AI open-source ecosystem emphasizes the need for continuous innovation and effective community management to sustain project viability [24]. Group 3: New Paradigms in Open Source - The definition and operational model of open source are evolving, with some high-activity projects not adhering to traditional open-source licenses [26][30]. - The operational attributes of open source are becoming more pronounced, with platforms like GitHub serving as critical channels for product release and community engagement [31]. - New AI open-source projects are increasingly adopting customized licensing terms to balance community benefits with commercial interests, indicating a shift towards a more pragmatic approach to open source [32][33]. Group 4: Competitive Landscape - The focus of competition in the AI ecosystem has shifted from broad functionality to performance optimization, particularly in model serving and inference efficiency [35][44]. - The decline in activity for agent frameworks suggests a transition from exploratory phases to more practical, performance-driven applications [41][42]. - The emergence of high-performance inference engines highlights the importance of optimizing model serving to reduce operational costs and enhance application viability [43][44]. Group 5: Global Contribution Dynamics - The global AI open-source landscape is characterized by a "dual center" model, with the U.S. and China as the primary contributors, each excelling in different technological domains [46][49]. - U.S. developers lead in infrastructure contributions, while Chinese developers show strong growth in application innovation, driven by local market demands [51][52]. - The evolving contribution dynamics reflect a shift towards application-driven innovation, with real-world needs shaping the development of AI tools and solutions [50].