量子位

Search documents
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 10:30
MINT-CoT团队 投稿 量子位 | 公众号 QbitAI 思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型 (MLLMs)中,CoT 同样展现出了巨大潜力。 3. 过度依赖外部功能 像 MVoT 或 Visual SKETCHPAD 等方法,需要借助外部工具或能力来生成或修改图像,训练和推理过程成本高、不通用。 然而,当视觉信息与数学推理结合时,传统的 CoT 方法就显得力不从心了——视觉输入中的数学细节往往被忽略,导致推理结果不准确。 最近,香港中文大学 MMLab 团队正式发布了全新的视觉推理方案——MINT-CoT,专为解决"多模态数学推理"中的难题而设计。 为什么数学视觉推理这么难? 尽管已有一些研究尝试把视觉信息引入 CoT 推理,例如 Visual-CoT、Visual SKETCHPAD、VPT、ICoT 等方法,但在数学场景下依然存 在 三大瓶颈: 1. 粗粒度图像区域选择 大部分方法依赖边界框(Bounding Box)来截取图像区域。但数学图像里的元素(比如坐标轴、几何图形、标注文字等)高度关 ...
2天完成人类12年工作,AI自动更新文献综述,准确率碾压人类近15%
量子位· 2025-06-16 10:30
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 当碳基生物还在为写文献综述,打开了一百个浏览器窗口时,隔壁AI已经卷起来了。 (doge) 两天完成人类12年工作 —— 医学研究领域中,系统评价 (SRs) 作为临床决策的黄金标准,平均耗时超过16个月,花费10万美元以上,且容易延长无效或有害治疗方法 的使用。 于是多伦多大学、哈佛医学院等机构联合开发了AI端到端工作流程—— otto-SR 。 结合 GPT-4.1 和 o3-mini 进行筛选和数据提取,仅花费两天时间就完成了传统方法需要12年才能完成的Cochrane系统评价更新。 用于系统综述自动化的智能工作流程 团队引入了一种基于LLM的端到端工作流程 otto-SR ,支持从初始检索到数据分析,完全自动化和人机协作的系统综述流程。 otto-SR首先会收集从原始检索中识别的RIS格式的引用文献,GPT-4.1随即会作为独立评审员进行筛选。 筛选出的文章集合将输入o3-mini-high模型进行数据提取,其中PDF格式将会由Gemini 2.0 flash处理并转换为结构化Markdown文件,并用 于下游任务。 具体而言,可以细分为筛选和提取 ...
4B Qwen3逆袭671B DeepSeek!字节DAPO微调方法这么猛的吗
量子位· 2025-06-16 06:59
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 4B 小模型极限在哪里? 最新模型 Jan-nano 引起热议,它 在智能体任务上超过671B的最新版DeepSeek-V3 0528 ,在SimpleQA基准上获得 80.7分 。 先来看一下它的实际表现,包括两个任务: 总结一下,Jan-nano的能力包括: 再来看一下官方评估结果,与它同台竞技的不是闭源方案就是DeepSeek-v3这样的671B大型MoE模型。 目前Jan-nano取得最高分80.7%,并且作者透露下一个版本的目标是85%。 对研究某公司目前的扩张情况,该公司的扩张正威胁着另一家公司的市场份额,并撰写一份可能影响金融公司尽职调查流程的MBA水 平报告。 汇总今日财经突发新闻,聚焦令人震惊的消息。 在正确的提示词下,可以进行深度研究 从搜索结果中有效地获取相关信息 针对MCP协议优化,可无缝集成各种MCP服务器调用工具 不过研究团队Menlo Research特别提醒大家,Jan-Nano只是在这一个指标上优于Deepseek-671B,并且在测试中使用了基于MCP的方法。 我们完全理解4B模型有其局限性,但看看它能走到多远总是很有趣 ...
MIT工科生跨界AI,独作论文登Nature:只需3.5小时修复600年前名画
量子位· 2025-06-16 06:59
不过需要揭晓的是,修复后画作并非数字复制品,而是真真切切的原画(doge)。 他在原画表面贴上了一层"遮罩" (很薄的塑料薄膜) —— 一水 发自 凹非寺 量子位 | 公众号 QbitAI MIT理工男跨界艺术,一不小心就以一篇独作论文登上Nature?! 由他设计的AI算法,将原本需要数月/数年才能搞定的名画修复工作,极限压缩至几小时。 Alex Kachkine,打破画作修复只能对原作数字扫描品进行"缝缝补补"的传统艺能,提出一种 "以数字方式修复一幅画,并在物理上实现效果" 的全新方法。 以下面这幅15世纪的油画为例,从左到右依次为受损原画、具体受损类型扫描、修复后画作,一眼看去修复效果确实还不错。 贴上后能直接修复画上的破损、褪色等问题,而且能在不损害原画的情况下,被化学品轻松去除。 当然最最重要的是,由于新方法引入了AI算法,这一修复过程从数年、数月转变为几小时。 拿上面的油画来说,面对5612个需要修复的区域 (需要用57314种不同的颜色填充) ,整个过程从开始到结束耗时 3.5小时 ,这比传统修 复方法快了 约66倍 。 下面揭晓Alex Kachkine修复油画的具体过程。 "缺损越多,新方 ...
工业异常检测新突破,复旦等多模态融合监测入选CVPR 2025
量子位· 2025-06-16 06:59
多模态融合:Real-IAD D³ 的创新之处 Real-IAD D³团队 投稿 量子位 | 公众号 QbitAI 多模态融合检测,工业异常检测领域新突破! 复旦大学、荣旗工业科技、腾讯优图实验室 上海交通大学、上海海洋大学等机构联合发布高精度多模态数据集Real-IAD D³,并基于此数据 集提出了一种创新的多模态融合检测方法。 相关成果已被计算机视觉顶会CVPR 2025收录。 在工业生产中,异常检测是确保产品质量和安全的关键环节。然而,现有的异常检测方法在面对复杂工业环境时,常常因为数据集的局限性而 难以达到理想的检测效果。 为了突破这一瓶颈,研究人员们精心打造了 Real-IAD D³ 数据集,它不仅涵盖了高分辨率的 RGB 图像,还加入了伪 3D 光度立体图像和微 米级精度的 3D 点云数据,为异常检测提供了更丰富的信息。 Real-IAD D³数据集的灵感来源于实际的工业质检场景。在真实的工业生产中,质检人员需要快速、准确地识别出产品表面的各种缺陷,如划 痕、凹陷、裂缝等。这些缺陷不仅种类繁多,而且在不同的光照和材质背景下,其表现形式也各不相同。传统的2D图像检测方法在面对这些 复杂的缺陷时,往往 ...
Scaling Law首次在自动驾驶赛道被验证!小鹏汽车CVPR演讲详解:AI「吃」下6亿秒视频后,智能涌现
量子位· 2025-06-16 04:49
CVPR 2025,小鹏汽车拿出了什么成果 今年的CVPR线下会议在美国田纳西州纳什维尔举办,日期是6.11-6.15。观众老爷们看这篇推送的时候, CVPR才刚刚结束几个小时——新 鲜出炉 。 CVPR的自动驾驶分论坛 (Workshop on Autonomous Driving) ,历年都是业内极具影响力的技术风向标和盛会。比如2022年的WAD, Wayve首次披露了自己低传感器端到端路线方案,马上成为自动驾驶赛道炙手可热的明星公司;再比如,特斯拉最早在CVPR WAD上详细分 享了占用网络技术,随后成为业内悉数跟进的量产方案…… 今年的WAD,中国的 小鹏汽车是唯一一家受邀发表主题演讲的车企 。 贾浩楠 发自 凹非寺 量子位 | 公众号 QbitAI CVPR 2025 ,自动驾驶传来重大进展: Scaling Law , 首次在这条赛道被验证! 来自中国的 小鹏汽车 ,完整拿出了技术方案和AI司机"智能涌现"的成果。 自动驾驶的"ChatGPT时刻",真的要来了吗? 小鹏在演讲前一天,刚刚开启了最新SUV G7 的预售,创造了 量产L3级AI算力第一车 的纪录,单车算力超过2200TOPS,何小鹏 ...
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 04:49
R-KV团队 投稿 量子位 | 公众号 QbitAI 推理大模型虽好,但一个简单的算数问题能推理整整三页,还都是重复的"废话",找不到重点…… 一种可以把大模型的"碎碎念"转化为可控记忆条目的高效压缩方法,出现了! R-KV开源登场: 显存↓90%、吞吐×6.6、准确率=100% 。 它可以通过实时对token进行排序,兼顾重要性和非冗余性,仅保留信息丰富且多样化的token,从而解决大模型推理时的冗余问题。 让"长时间推理"不再是奢侈品。 项目详情可见文末链接。 R-KV三步走:冗余识别+重要性评估+动态淘汰 链式思考(Chain-of-Thought,CoT)让LLM解题思路清晰可见,却也让推理长度指数级膨胀。 以DeepSeek-R1-Llama-8B为例,一道AIME数学题就能写出 3.2万 个Token:模型权重15.5GB,KV缓存再吃 4.1GB ——显存瞬间见底。 可视化:R-KV vs. SnapKV 现有KV压缩方法(SnapKV、StreamingLLM、H2O等)主要针对 长输入 设计,可一旦模型在输出端开始"碎碎念",相似句子之间互相打高 分注意力,反而让"按注意力删低分"策略失灵: ...
20瓦就能运行下一代AI?科学家瞄上了神经形态计算
量子位· 2025-06-16 04:49
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 「西部世界」真的要来了!科学家们正试图 为AI装上人类大脑 。 然而相比之下,自然界最强大的智能体——人类大脑,每天只需消耗约 20瓦 ,仅相当于家用LED灯泡的功率。科学家们不禁思考: 能否让 AI也像人脑一样高效? 答案是: 神经形态计算 。 这项旨在模拟人脑结构和运作方式的前沿技术,正被视为下一代AI的关键方向,其核心目标之一,就是用"灯泡级"的能耗驱动强大的智能。 最新进展由美国国家实验室主导。科学家们正在试图将科幻拉进现实:打造一台占地仅两平方米、神经元数量堪比人脑皮层的超级计算机。 更令人惊叹的是,计算表明,这台神经形态计算机的运行速度可能比生物大脑快 25万到100万倍 ,而功耗仅需 10千瓦 (仅略高于家用空调 的能耗) ,这无疑是对当前AI发展困境的一剂强心剂。 目前人工智能正面临一场"能源危机",随着大语言模型等技术的爆炸式发展,其惊人的耗电量已成为无法忽视的沉重负担。 预测显示,到2027年,仅运行这些模型的电费就可能高达25万亿美元——甚至超过美国当年的GDP。 神经形态计算受其结构和功能启发,采用模仿生物神经网络的节能型电子和光子 ...
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 04:49
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接 突破了benchmark上限 。 还有网友直言,比起大模型竞技场,这套标准才更适合做测试大模型的基准。 经典小游戏成为新Benchmark o3-pro挑战的这两个游戏,出自一套名为 Lmgame 的benchmark,顾名思义就是让大模型玩游戏。 o3-pro挑战的推箱子是从1989年的版本修改而来,在o3-pro之前,评估指标是游戏结束之前推动到目标位置的箱子总数。 具体来说,benchmark中推箱子一共就只做到了被o3-pro突破的第六关;俄罗斯方块则是强行终止的结果,实际上o3-pro根本停不下来。 如果和前SOTA——o3比较,o3-pro的成绩也是直接翻倍。 不过这次o3-pro直接把所有关卡都通了,颇有种"得一百分是因为卷面只有一百分"的感觉。 但也不必担心,测试基准会动态更新,GItHub仓库中半个月前更新的游戏地图还只有四关,原版游戏更是有足足50多个关卡。 而在o3-pro挑战之前,表现最好的 ...
AI ASMR突然火爆全网!3天狂揽近10万粉丝,一条切水果视频播放量破1650万
量子位· 2025-06-15 04:17
视频画面几乎都是用小刀在切一些东西。除了切水果,还有切石头,切宝可梦喷火龙手办…… 这不是唯一一个用AI做ASMR的账号,大家还可以看看这个, 星球大战版AI ASMR : 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 短视频平台熬夜冲浪的我突然发现, AI ASMR突然火了 ?! 大家可以 打开声音 欣赏一下这条切割浆果的视频,它拿下了16500000的浏览量。 这条视频来自洋抖上一个很新的账号。 3天前,它才刚刚发布第一条视频。但3天过去,它凭借11个作品,已经狂揽了97.6k粉丝,收获了360万点赞。 每条视频都不长,内容既不酷炫也不复杂,主题就一个: 用AI做的ASMR视频 。 AI味很浓,但nobody cares 盘了一下11条视频的各种数据,目前最受欢迎的是刀切水果的ASMR视频。 这些水果都不是现实世界里的样子,它们更多像是玻璃制品。 每次刀第一下碰到水果时,能听到两个硬物碰撞的声音。 但当刀切下去的时候,从声音判断,被切的似乎又是真正的水果;从视觉上判断,更像是在切透明水果硬糖。 在第一条视频,也就是AI生成切石头视频的评论区,网友的留言主要是言简意赅地指出: AI做的 | kesv ...