量子位

Search documents
AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入
量子位· 2025-05-30 05:01
AI生图新突破!一个模型同时接受文本和图像输入。 新模型FLUX.1 Kontext使用流匹配架构(Flow Matching),不再是文本编码器和扩散模型各干各的,与此前技术都不同。 最来自之前很火的Black Forest Labs,官方表示这一次能做到真正的上下文生成和编辑。 在编辑能力上,有人在著名的奥特曼尴尬照上P了一个小绿龙。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 在生成能力上,有网友测试的猩猩打羽毛球细节也很丰富。 具体来说FLUX.1 Kontext有4个特性: 这次提供两种模型,专业版FLUX.1 Kontext [pro]更适合快速迭代,可基于之前的编辑 最高配版FLUX.1 Kontext [max],在遵循提示、文字排版和一致性有所提高。 同时推出官方试玩平台Flux Playground,两种型号都可以选用 此外开放权重版FLUX.1 Kontext [dev]提供内测。 角色一致性:可跨场景保留元素 局部编辑:只针对特定部分而不影响其余部分 风格参考:以现有风格生成新场景 交互速度:以最小延迟进行迭代 提示词技巧 第三方平台Replicate对FLUX.1 Kont ...
函数向量对齐技术,让大模型持续学习不“失忆”丨ICLR 2025
量子位· 2025-05-30 05:01
FVG团队 投稿 量子位 | 公众号 QbitAI LLMs为什么总是灾难性遗忘?原来是功能激活在搞怪。 最近来自中国科学技术大学、香港城市大学和浙江大学的联合研究团队,通过对多个语言模型、任务序列和评估指标的系统分析,终于破解了 LLMs的灾难性遗忘之谜—— 遗忘行为具有高度的模型依赖性,而导致遗忘发生的本质却是功能激活的变化。 对此,团队基于函数向量构建遗忘分析框架,刻画和分析LLM内部功能的变化 (其中功能表示模型对某具体任务的处理能力,如求反义词、 乘法计算) ,进一步证实了遗忘并非简单地覆盖已有函数,而是 模型激活了带偏差的新功能 。 研究人员还设计了一种函数向量引导的训练方法 FVG ,在微调过程中可以有效保留并对齐函数向量,并在多个持续学习数据集上显著保护了 模型的通用学习能力和上下文学习能力。 目前相关研究论文已被ICLR2025 oral接收,代码也已在GitHub上公开。 接下来,我们一起来看看详细细节。 大语言模型的"记忆困境" 灾难性遗忘 是指模型在学习新任务时,之前学到的知识被新任务的学习过程所覆盖或干扰,导致模型在旧任务上的性能大幅下降。 例如,一个通用语言模型在学习新增的用户指令 ...
让AI学着“看菜下碟”!港中大等新框架让推理长度减少90%,准确率反增17%
量子位· 2025-05-30 05:01
TON团队 投稿 量子位 | 公众号 QbitAI 人类在面对简单提问时常常不假思索直接回答,只有遇到复杂难题才会认真推理。 如果AI模型也能像人一样决定"要不要思考",效率是否会大大提升? 近日,香港中文大学联合新加坡国立大学Show Lab的研究者提出了一种名为 TON(Think Or Not) 的新颖选择性推理框架,让视觉语言模型(VLM)可以自主判断是否需要显式推 理。 实验表明,在不牺牲准确率的前提下,该方法显著减少了生成的思考链长度,使模型推理过 程更高效。 △ 图1:"要不要思考"的示意 左侧示例问题简单,无需完整推理即可直接得出答案;而传统方法如GRPO仍然生成了冗长 的推理过程。右侧示例问题复杂,需要逐步推理才能得到正确答案。 TON框架令模型能够像人类一样,对简单问题直接作答(跳过冗余思考),对困难问题则给 出详尽的推理过程。 核心创新:引入"是否思考"的决策 TON框架的灵感源自人类决策过程:并非逢问必细想,而是视问题难易选择 思考或不思考 。 现有强化学习方法(如 GRPO,Group Relative Policy Optimization )强调让模型在 回答前生成完整的推理链。 ...
波士顿动力机器人进厂打工现逆天操作!3D感知+实时追踪,人类捣乱完全不带怕的
量子位· 2025-05-29 07:19
西风 发自 凹非寺 量子位 | 公众号 QbitAI 波士顿动力带机器人看世界,Altas重磅升级了! 现在,它具备 3D空间感 知 和 实时物体 追 踪 能力,可以自主执行更复杂的工业任务。 请看Altas在汽车工厂打工VCR: 小哥故意将汽车零部件丢在地上,只见它 36 0°转动头部环 顾四周 ,随后成功识别并将其放入正确位置: (就是偷感好重,笑死) 故意移动装置位置,它也能 精准感知到变化 : 然后依旧稳稳地将零部件放入槽内: 头部和腰部都可360°旋转,干起活来那叫一个麻利: 据介绍,Altas的一系列功能升级源于波士顿动力团队对Altas感知系统进行的全新设计,融合了2D与3D感知技术、物体位姿追踪,以及基 于物理特性的精确校准方案。 网友看到该新成果后纷纷叫好。光是官方在YouTube上发布的视频就引来了 十余万人 围观,点赞量近8 k 。 网友纷纷表示Altas能够观察到物品掉落还会环顾四周观察,这个能力非常炫酷。 除此之外,关于全新能力具体实现,官方发布了技术Blog。 背后技术解析 波士顿动力团队表示,拿起一个汽车零件并将其放入正确的插槽,这一看似简单的任务对于机器人来说实际上并不容易。 ...
视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源
量子位· 2025-05-29 07:19
金磊 整理自 凹非寺 量子位 | 公众号 QbitAI 一个新的Benchmark,竟让大模型在 复杂 视频推理 这事儿上 统统不及格! 这就是腾讯ARC Lab和香港城市大学最新推出的 Video-Holmes —— 如其名,它可以说是视频推理界的 "福尔摩斯测试" , 通过让多模态大模型参与 " 推理杀人凶手 " , " 解析作案意图" 等高难度的推理任 务,以展现他们复杂视频推理能力的边界 。 而且Video-Holmes可以说是规避了现在业内已有的Benchmark痛点,即视频源和问题都偏简单,没法反映推理模型和非推理模型之间的差 距。 值得一提的是,这个Benchmark的 "一键测评懒人包" ,目前已经上线到了GitHub和HuggingFace,有做视频推理相关的小伙伴,可以去挑 战一下了(地址见文末)。 让大模型全军覆没的新Benchmark 正如刚才提到的,现有视频推理基准(如 VCR-Bench、MVBench 等)主要评估模型的视觉感知和接地能力。 举个例子 。 在这个例子中,为了寻找男人真正的死因,模型需要 主动思考 需要关注的视觉信息,并通过 逻辑关联 分散在不同视频片段中的多个相关 ...
华为攻克AI推理「想太多」问题!新方法让大模型推理提速60%,准确率还高了
量子位· 2025-05-29 07:19
S-GRPO的全称为序列分组衰减奖励策略优化( S erial- G roup Decaying- R eward P olicy O ptimization),旨在提升大语言模型 (LLM)的推理效率和准确性,解决 冗余思考 问题。 S-GRPO团队 投稿 量子位 | 公众号 QbitAI AI回答问题太慢太长且无用,有没有能让大模型提前停止思考的方法? 华为提出了首个在Qwen3上还有效的高效推理方法—— S-GRPO ,突破了思维链 「冗余思考」 瓶颈。 通过 "串行分组 + 衰减奖励" 的设计,在保证推理准确性的前提下,让模型学会提前终止思考, 推理提速60% ,生成更精确有用的答案。 S-GRPO适合作为当前Post Training(训练后优化)范式中的最后一步,在确保模型预先存在的推理能力不受损害的情况下, 使能模型在思 维链的早期阶段即可生成质量更高的推理路径,并在思考充分后隐式地提前退出 。 S-GRPO对单条完整推理路径进行分段截断 OpenAI o1, Deepseek-R1等推理模型依赖Test-Time Scaling law解决复杂的任务。 然而,过长的思维链序列的生成也显著增加了 ...
视频实时生成可交互! 两位自动驾驶大牛创业世界模型:40毫秒/帧,无需任何游戏引擎,人人免费可玩
量子位· 2025-05-29 07:19
一水 发自 凹非寺 量子位 | 公众号 QbitAI 李飞飞押注的世界模型领域,迎来两位自动驾驶大牛创业新成果! 无需任何游戏引擎,AI能以40毫秒/帧想象并实时生成视频。 40毫秒/帧啥概念? 人类眨一次眼都需要100~400毫秒,所以现在AI几乎可以一瞬间创造视频了。 而且无需高端显卡,玩家可以实时观看,并与AI生成的世界交互了。 就像是在 探索一个平行宇宙 的感觉~ 那么,新玩家Odyssey究竟有哪些亮点呢? 世界模型≠视频模型 一上来,Odyssey就在最新官方博客中解释: 世界模型≠视频模型 。 他们认为,乍一看世界模型好像是视频生成模型的完美应用,但后者的架构、参数和数据集实际上并不适用于前者。 而除了产品迅速引人关注,更值得说道的还是其背后研发公司。 两位联合创始人 Oliver Cameron 和 Jeff Hawke 均在自动驾驶领域有着深厚从业背景,虽然公司成立不到2年,但一亮相就获得了资本青 睐。 迄今为止,Odyssey已从EQT Ventures、谷歌GV和Air Street Capital等投资机构筹集了 2700万美元 (约合人民币1.9亿),皮克斯创始 人/图灵奖得主Ed ...
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
量子位· 2025-05-29 04:42
梦晨 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 复刻DeepSeek-R1的长思维链推理,大模型强化学习新范式RLIF成热门话题。 UC Berkeley团队共同一作 Xuandong Zhao 把这项成果称为: 大模型无需接触真实答案,仅通过优化自己的信心,就能学会复杂推理。 具体来说,新方法完全不需要外部奖励信号或标注数据,只需使用模型自身的置信程度作为内在奖励信号。 与使用外部奖励信号GRPO相比,新方法在数学任务上不需要标准答案也能提升基础模型性能,在代码任务上表现得更好。 几乎同一时间,另外一篇论文《RENT: Reinforcement Learning via Entropy Minimization》也验证了相似的结论。 作者表示两者的主要区别在于使用 KL散度 和 最小化熵 衡量自信程度。 Dropbox工程副总裁看后表示: Confidence is all you need 。 "自信"驱动的强化学习 长期以来,训练大模型主要依赖两种方式: 要么需要大量人工标注(如ChatGPT的RLHF),要么需要可验证的标准答案(如DeepSeek的RLVR)。 前者成本高昂且可能引入偏 ...
英伟达再创历史纪录!Q1收入增长69%,数据中心贡献89%,游戏业务大涨42%
量子位· 2025-05-29 04:42
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达最新一季度财报出炉,不出所料,依旧亮眼。 而这一切还是在H20芯片受到出口限制影响下实现的。 财报公布后,英伟达股价盘后跳涨。 据了解,英伟达最强性能GB300芯片及相关组件在今年5月开始生产,在第三季度正式推出。这意味着接下来英伟达的营收和毛利率表现更加 值得期待。 但在出口限制的影响下,H20芯片的损失也在扩大,预计下一财季将达到80亿美元。 数据中心、游戏业务均创历史新高 总收入为 441.1亿美元 ,环比增长 12% ,同比增长 69% 。 非GAAP毛利率为 60.5% ,若排除 H20库存相关费用 ,毛利率可达 71.3% 。 数据中心收入占比最大,达到 391亿美元 ,环比增长 10% ,同比增长 73% 。 游戏业务收入为 38亿美元 ,创历史新高,环比增长 48% ,同比增长 42% 。 英伟达2026财年Q1的汇报期为2025年1月30日-2025年4月27日,本次财报表现超出预期。 2026财年Q1营收环比增长12%、同比大涨69%。 研发投入依旧上涨,同比增长46.7%,环比增长7.4%。 在业务划分上,英伟达主要包括四部分。 ...
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
量子位· 2025-05-29 04:42
LIFEBench团队 投稿 量子位 | 公众号 QbitAI 你是否曾对大语言模型(LLMs)下达过明确的 "长度指令" ? 比如,"写一篇10,000字的长文,详细分析某个议题。"看似简单的要求,实际却往往让这些模型"力不从心": 不是生成内容不足,就是重复啰嗦,甚至直接罢工拒绝生成。 一篇最新研究论文 《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》 对这一问题 进行了深入探讨,提出了一个全新的基准测试集 LIFEBENCH,系统评估大语言模型在长度指令遵循方面的表现。 研究结果揭示:这些看似无所不能的模型在长度指令,特别是长文本生成任务中,表现不尽人意。 当模型被明确要求生成特定长 度的文本时,大多数模型表现糟糕。 接下来,让我们一起来看看这篇论文是如何揭示这些"瓶颈"的! LIFEBENCH:专注长度指令遵循的基准测试 LIFEBENCH,全称" L ength In struction F ollowing E valuation Bench mark",是一套专门评估大语言模型在长度指令下表 ...