Workflow
Gemini 2.0 Flash
icon
Search documents
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
3 6 Ke· 2025-07-04 10:47
Gartner 高级分析师 Anushree Verma 表示:"目前大多数代理型 AI 项目仍处于早期实验或概念验证阶 段,其背后的主要驱动因素是炒作,而这些技术往往被错误地应用。这可能使企业忽视 AI 代理大规模 部署所需的真正成本与复杂性,导致项目迟迟无法落地。企业需要穿透炒作迷雾,制定更为审慎和战略 性的决策,明确在哪里、以及如何采用这一新兴技术。" 2025 年 1 月,Gartner 对 3412 名网络研讨会参与者进行了一项民意调查,发现 19% 的组织报告在代理 型 AI 方面进行了大量投资,42% 的组织进行了保守投资,8% 的组织根本没有投资,31% 的组织正在 等待或不确定。 更为值得关注的是,Gartner 发现了一种普遍存在的"代理清洗"趋势,即供应商将现有的人工智能助 手、聊天机器人或机器人流程自动化 (RPA) 工具重新包装成"代理人工智能",而实际上并没有提供真 正的代理功能。Gartner 估计,在数千家声称提供代理解决方案的供应商中,只有约 130 家真正提供了 真正的代理功能。 当人工智能在大模型能力突破、推理能力提升以及多模态技术进步的推动下走向新阶段,"Agentic ...
2天完成人类12年工作,AI自动更新文献综述,准确率碾压人类近15%
量子位· 2025-06-16 10:30
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 当碳基生物还在为写文献综述,打开了一百个浏览器窗口时,隔壁AI已经卷起来了。 (doge) 两天完成人类12年工作 —— 医学研究领域中,系统评价 (SRs) 作为临床决策的黄金标准,平均耗时超过16个月,花费10万美元以上,且容易延长无效或有害治疗方法 的使用。 于是多伦多大学、哈佛医学院等机构联合开发了AI端到端工作流程—— otto-SR 。 结合 GPT-4.1 和 o3-mini 进行筛选和数据提取,仅花费两天时间就完成了传统方法需要12年才能完成的Cochrane系统评价更新。 用于系统综述自动化的智能工作流程 团队引入了一种基于LLM的端到端工作流程 otto-SR ,支持从初始检索到数据分析,完全自动化和人机协作的系统综述流程。 otto-SR首先会收集从原始检索中识别的RIS格式的引用文献,GPT-4.1随即会作为独立评审员进行筛选。 筛选出的文章集合将输入o3-mini-high模型进行数据提取,其中PDF格式将会由Gemini 2.0 flash处理并转换为结构化Markdown文件,并用 于下游任务。 具体而言,可以细分为筛选和提取 ...
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 05:07
KRIS-Bench团队 投稿 量子位 | 公众号 QbitAI 人类在学习新知识时,总是遵循从"记忆事实"到"理解概念"再到"掌握技能"的认知路径。 AI是否也建立了"先记住单词,再理解原理,最后练习应用"的这种知识结构呢? 测评一下就知道了! 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了 KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark)。 首创地 从知识类型的视角 ,对图像编辑模型的推理能力进行系统化、精细化的评测。 借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。 基于认知分层的三大知识范畴 KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从 "物体计数变化"到"化学反应预测 ...
AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
量子位· 2025-06-09 05:24
这一全新基准测试 MMA R 来自上海交通大学、 南洋理工大学、伦敦玛丽皇后大学、字节跳动、2077AI开源基金会等研 究机构。 MMAR 是什么?它有多难? MMAR团队 投稿 量子位 | 公众号 QbitAI 用AI来整理会议内容,已经是人类的常规操作。 不过,你猜怎么着?面对 1000 道多步骤音频推理题时, 30 款AI模型竟然几乎全军覆没,很多开源模型表现甚至接近瞎 猜。 就连表现最好的开源模型Qwen-2.5-Omni,准确率也只有 5 6 .7% ;而闭源选手Gemini 2.0 Flash则以 65.6% 的成绩 一骑绝尘,遥遥领先全场。 MMAR全称是:A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix。 简单来说,它是一个包含 1000个高质量问题 的音频理解评估基准,每个问题都要求模型具备多步骤的深度推理能力。 我们先来看个例子: 问题是:理发师能否听懂英文? 在这段音频中,被理发的人用英语反复强调自己想要的理发效果,另一个人将其翻译成中文来帮助他强调,这说明理发师 不能听懂英 ...
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
量子位· 2025-06-09 03:52
奥特曼使用大模型的方法,竟然是错的? 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 来自沃顿商学院等机构的最新研究发现,备受奥特曼喜爱的 "直接回答"提示,竟然会显著降低模型准确率 。 不过另一方面,这项研究也发现, 在提示词中加入思维链(CoT)命令同样不好用 —— CoT提示对于推理模型非但没有效果提升,反而会增加时间和计算成本。 而一些前沿的非推理模型,CoT提示可以带来效果提升,但答案的不稳定性也随之增加了。 研究团队使用GPQA Diamond数据集,针对现在主流的推理和非推理模型,分别在启用和不启用CoT的情况下进行了测试。 结果就是对于推理模型,CoT的作用十分有限,比如对于o3-mini,CoT带来的准确率提升只有4.1%,但时间却增加了80%。 非推理模型的结果则要复杂一些,但总之要不要用CoT,也需要对收益和投入进行仔细权衡。 所以CoT到底该不该用呢? 实际上,这项研究针对的是用户提示词中的CoT命令,并不包括系统提示词设定,更 不是CoT本身 。 CoT提示词作用有限,甚至还有反效果 结果, 对于非推理模型,CoT提升相比于直接回答,所有模型的平均评分和"51%正确"指标都有 ...
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
量子位· 2025-06-03 06:21
西风 发自 凹非寺 量子位 | 公众号 QbitAI 斯坦福最新大模型医疗任务全面评测, DeepSeek R1 以66%胜率拿下第一 ! 歪国网友纷纷被惊艳住了,原因在于该评测 重 点聚焦临床医生的 日常工作场景 ,而非仅局限于传统医疗执照考试题。 要评测就要全 方 位。 31页论文最终得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在内的9个前沿大模型,DeepSeek R1以66%胜率、0.75宏观平均分 领先。 为当前的基准测试结果,团队还打造了一个可公开访问的排行榜。 团队构建了 含35个基准测试的综合评估框架 ,覆盖 22个子类别 医疗任务。 整个评测的分类体系还经过了临床医生验证, 由29名来自14个医学专科的执业医师共同参与开发 。 光作者名单就老长,斯坦福大学医学院、斯坦福医疗中心、斯坦福大学基础模型研究中心 (CRFM) 、微软的研究人员均在列。 | Accuracy | Efficiency | General information | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- ...
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
量子位· 2025-05-21 10:39
谷歌又放新大招了,将图像生成常用的"扩散技术"引入语言模型, 12秒能生成1万tokens 。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 什么概念?不仅比Gemini 2.0 Flash-Lite更快。 甚至需要不得不在演示过程中 放慢 视频的速度,才能看清生成过程。 这是Google DeepMind推出 Gemini Diffusion :不同于以往大多数语言模型"从左到右"预测文本的生成方式,而是 通过 逐步优化噪声来学习生成输出 。 传统的自回归模型是根据已生成的词序列 逐步预测下一个词 ,每次只能生成一个词或一个token,这种顺序过程很 慢,并且会限制输出的质量和一致性。 而扩散模型的特点则是通过 逐步细化噪声学习生成 ,这种特点会大大提高生成速度,并且减少训练的不确定性。 与以往大多数基于自回归的语言模型不同,Gemini Diffusion在 语言模型中引入了"扩散"技术 ,它不是直接预测文 本,而是通过 逐步细化噪声来学习生成输出 。 这种技术能够让模型在生成过程中 快速迭代 ,并在生成过程中进行 错误纠正 。 Gemini Diffusion就是利用了扩散模型这一优势,将文本生 ...
一个万能文生图提示框架,人人都能成为专业AI设计师
Hu Xiu· 2025-04-07 07:45
Core Insights - The article introduces a universal prompt framework for AI image generation, aiming to bridge the gap between creative ideas and AI capabilities, enabling users to drive design with their thoughts [2][92] - The framework allows even novices to unlock professional-level AI creative abilities without prior knowledge of design or AI [5][6] - It enhances the efficiency and quality of image generation for professional creators by automatically generating and optimizing prompts based on user intent [6][9] Group 1: Framework Advantages - The framework alleviates the "black box" nature of AI image generation, improving the interpretability of prompts and allowing for manual adjustments while learning [7][42] - It automatically generates bilingual prompts in Chinese and English, eliminating the need for manual translation and reducing prompt distortion [8] - Users can achieve significant improvements in image generation quality, comparable to model iterations, by utilizing this framework [9] Group 2: User Interaction and Process - The process is intuitive, allowing users to input vague creative ideas into the framework, which then generates professional prompts for AI [35][39] - The AI can clarify ambiguous user requirements and provide multiple potential prompt options based on its understanding [44][45] - Users can modify and optimize generated images by simply providing additional instructions, making the process more efficient than traditional methods [62][63] Group 3: Application Examples - The article provides examples of how the framework can be applied across various design fields, including interior design, jewelry design, and product rendering, showcasing its versatility [71][75][82] - High-quality visual outputs are achieved through the framework, demonstrating its effectiveness in generating detailed and realistic images [56][60][88] Group 4: Future Implications - The framework represents a significant advancement in human-AI collaboration, transforming vague creative ideas into stunning visual works [92][96] - It emphasizes that AI is not merely a replacement for human creativity but a tool that liberates original creative impulses, enhancing the creative process [98][99]
一家神奇的芯片,要取代英伟达
半导体行业观察· 2025-03-27 04:15
如果您希望可以时常见面,欢迎标星收藏哦~ 该公司正在开发一种全新的计算机芯片,利用电子电路中自然发生的热力学波动(这通常是工程师 的难题),利用它们进行高效的概率计算。 随着人工智能巨头寻求更强大的计算机能力来构建执行人工推理的人工智能模型,以及我们都担心 人工智能惊人的能源需求,这种芯片很可能会受到一些追捧。 Extropic 现已与《连线》杂志分享了更多有关其概率硬件的细节,以及表明其有望在许多数据中心 构建出一种替代传统硅片的产品的结果。该公司的目标是提供一种比当今硬件效率高出三到四个数 量级的芯片,这一壮举将大大减少未来的排放量。 在此前的文章中,我们写了有关 Extropic 奇特背景的故事。我的文章探讨了促成该公司成立的非凡 技术、政治和文化潮流。但 Extropic 的技术值得我们仔细研究。 来源:内容编译自连线,谢谢。 Extropic 不是一家普通的初创公司,但现在也并非正常时期。 Extropic 向我提供的一份技术文档包括来自示波器(一种随时间测量电子电压的仪器)的信号,该 信号显示了概率比特或 p 比特的运行情况。传统计算机比特固定为 1 或 0。p 比特处于任一状态的 概率是一定的, ...