Workflow
机器之心
icon
Search documents
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
机器之心· 2025-06-01 03:30
本文作者主要来自 Meta 和多所美国高校。第一作者是佐治亚理工机器学习专业的博士生赖柏霖(目前也是 UIUC 的访问学生),导师为 James Rehg 教授(已转 入 UIUC),主要研究方向是多模态学习、生成模型和视频理解,并在 CVPR、ECCV、ACL 等会议发表相关论文。本文工作是赖柏霖在 Meta 的 GenAI 部门实 习时完成。 例如:我们需要模型将一辆普通的汽车变换为兰博基尼,如果训练集中没有包含类似的数据,模型很难仅通过「兰博基尼」四个字推断出其对应的形状、纹理等 视觉特征,同时兰博基尼的特征也很难通过语言来详尽地描述。如今网络的快速普及导致大量新的概念不断涌现,这些没有被包含在训练数据中的新概念对于目 前图像编辑模型的泛化能力是个很大的挑战。 为了解决这一难题,一个直接有效的方法是在文字指令的基础上额外提供一组或多组变换前后的图片作为样例,让模型从中学习用户想要的图像变换,即 few-shot 图像编辑。目前已有的模型都是基于扩散模型开发,然而从图片样例中学习潜在的图像变换需要模型有很强的推理能力,扩散模型生成能力很强但推理能力依然 较弱。 相反地,自回归模型(autoregressi ...
低成本下的高性能模型,是悖论还是可能?
机器之心· 2025-05-31 17:15
1. 低成本下的高性能模型,是悖论还是可能? 机器之心PRO · 会员通讯 Week 22 用户感知的模型「性能下降」是 AI 公司的有意为之?为什么提供免费满血版 deepseek 推理服务的公司并不多?模型成本居 高不下,真的只能靠「精度换算力」吗?量化和剪枝之外,「业界龙凤」 们都有哪些低成本高性能通吃的 「花活」?... 2. 从性能到实战,怎样才算是靠谱的 Agent 产品? --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- ① 这种不满主要体现在逻辑减弱、错误响应增多、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添 加括号以及只记得最近的提示等问题上。 3、公众对大模型公司为省钱而牺牲模型性能的担忧在技术和市场层面不断得到佐证,并在 DeepSeek-R1 满血版的 争议中加剧。 ① 技术分析显示,满血版 DeepSeek-R1 需要多台高性能 GPU 服务器并行支持,仅一次性硬件投入成本就高达数百 万元。为了避免投入额外硬件,或让有限的硬件可以服务更多的用户,部分平台很可能采用了蒸馏版替代,导致模 型的推理能力和稳定性大幅下降。 为什么评估 Agen ...
OpenAI未公开的o3「用图思考」技术,被小红书、西安交大尝试实现了
机器之心· 2025-05-31 06:30
OpenAI 推出的 o3 推理模型,打破了传统文字思维链的边界 —— 多模态模型首次实现将图像直接融入推理过程。它不仅 "看图",还能 "用图思考",开启了视觉与 文本推理深度融合的问题求解方式。例如,面对一张物理试卷图像,o3 能自动聚焦公式区域,分析变量关系,并结合知识库推导出答案;在解析建筑图纸时,o3 可在推理过程中旋转或裁剪局部结构,判断承重设计是否合理。这种 "Thinking with Images" 的能力,使 o3 在视觉推理基准测试 V* Bench 上准确率飙升至 95.7%,刷新了多模态模型的推理上限。 然而,OpenAI 如何赋予 o3 这一能力,学界和工业界仍不得而知。为此, 小红书团队联合西安交通大学, 采用端到端强化学习,在完全不依赖监督微调(SFT) 的前提下,激发了大模型 "以图深思" 的潜能, 构建出多模态深度思考模型 DeepEyes,首次实现了与 o3 类似的用图像进行思考的能力,并已同步开源相关技术细 节,让 "用图像思考" 不再是 OpenAI 专属。 论文地址:https://arxiv.org/abs/2505.14362 项目地址:https://visu ...
从性能到实战,怎样才算是靠谱的 Agent 产品?
机器之心· 2025-05-31 06:30
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 红杉中国团队近日提出了 AI 基准测试工具 Xbench,其双轨测评体系强调了不再单纯执着于测评问题的难度, 而是重点量化 AI 系统在真实场景的效用价值。 目录 01. 基准测试要开始关注 AI 的「业务能力」了? Xbench 是什么来历?为什么评估 Agent 产品需要双轨评估体系?基准测试不能只设计更难的问题?... 02 . 什么是长青评估机制? LLM 与 Agent 产品的测评集有何区别?IRT 如何支撑评估系统的动态更新?... 03. 当前的领先模型在「招聘」和「营销」中的表现如何? 「招聘」和「营销」任务对 Agent 产品有什么要求?Xbench 如何评估 Agent业务能力?国内外领先模型在「招聘」和「营销」 测试中表现如何?... 01 基准测试要开始关注 AI 的「业务能力」了? 红杉中国的研究者近期在论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real- World Evaluations》中介绍了 ...
SSM+扩散模型,竟造出一种全新的「视频世界模型」
机器之心· 2025-05-31 04:00
机器之心报道 编辑:Panda 当状态空间模型遇上扩散模型,对世界模型意味着什么? 在这个 AI 技术与应用大爆发的时代,我们最不缺的就是「热词」,从自回归到扩散模型,从注意力机制到状态空间模型,从思维链到推理模型…… 有时候,其中 一些热词会聚拢一处,为 AI 世界创造出新的可能性。 原因很容易理解: 模型的注意力窗口中已经没有包含原始环境的帧了 。 虽然理论上可以通过更长的上下文窗口来扩展记忆,但这种方法有两大问题: 训练的计算成本会与上下文长度呈二次方增长,使其成本过高; 论文标题:Long-Context State-Space Video World Models 论文地址:https://arxiv.org/pdf/2505.20171 今天我们要介绍的这项研究便是如此,集齐了长上下文、状态空间模型(SSM)、扩散模型、世界模型等「热词」,创造了一种全新的「 视频世界模型 」。该研 究来自斯坦福大学、普林斯顿大学和 Adobe Research,在社交网络上引起了不少关注。 要了解这项研究的贡献,首先需要先界定一下相关概念。在这篇论文中,世界模型(world model)是指用于预测世界状态如何随 ...
从打分器到思考者:RM-R1用推理重塑模型价值判断
机器之心· 2025-05-31 04:00
「知其然,亦知其所以然。」 文章验证了三个核心发现: 1. 规模带来增益:随着模型变大、计算力增强,RM-R1 的推理链训练方法效果越好,性能几乎线性提升; 这句儒家命题强调,真正的理解不仅在于结果,更在于推理过程。如今,在大型语言模型的后训练阶段,奖励模型承担着桥接模型行为与人类价值的重要职 责;但现有模型往往只给出一个分数,却难以解释其依据。缺乏推理的奖励,就如「知其然而不知其所以然」,既难以建立信任,也难以指导更优的学习。 伊利诺伊大学香槟分校的研究团队提出了 RM-R1 框架,将奖励建模重新定义为推理任务,提出了推理奖励模型(Reasoning Reward Models, ReasRMs)。RM-R1 关注于如何通过整合推理能力来增强奖励模型,使其能够更准确地对模型输出进行评估和打分,从而更好地与人类偏好对齐。RM- R1 通过生成结构化的评估标准和推理过程,提升了奖励模型的可解释性和性能。 2. 简单套用旧 RL 策略行不通:想让模型「会推理」,得精准划分问题类型、并对推理过程进行定向蒸馏训练,才能带来真正泛化的提升; 3. 推理比直接输出答案更通用:相比传统的直接监督,RM-R1 的推理能力更稳 ...
250美元起售,还开源,Hugging Face 发布史上最亲民人形机器人
机器之心· 2025-05-31 04:00
机器之心报道 机器之心编辑部 网友笑称: Hugging Face 开源的机器人看起来不太聪明。 伊隆・马斯克曾预测称到 2040 年,全球将有 100 亿台人形机器人在工作,而现在,随着 Hugging Face 正式开源发布两款新的人形机器人,让我们离这一预言成真 又近了一步。 图源:路透社 此次 Hugging Face 开源的两款机器人分别名为 HopeJR 和 Reachy Mini。 其中 HopeJR 是一款全尺寸人形机器人,拥有 66 个驱动自由度,具备行走和手臂移动能力。 而 Reachy Mini 则是一款桌面机器人,可以移动头部、说话、倾听,并可用于测试 AI 应用程序。 至于大家关心的价格,HopeJR 每台售价约为 3,000 美元,而 Reachy Mini 每台售价约为 250 至 300 美元,具体取决于关税。相比于售价 16000 美元的宇树 G1,这 个价格可以说相当良心了。 不过,这些机器人还没有具体的发货时间表。据该公司联合创始人兼首席执行官 Clem Delangue 透露,他们预计至少在今年年底前开始发货首批机器人,目前已开 放等候名单。 总之,此次 Hugging ...
具身进化·无界未来:这场论坛引领具身智能模型革命新浪潮
机器之心· 2025-05-30 09:33
机器之心报道 机器之心编辑部 具身智能持续进化的浪潮下, "具身 AI 模型 +人形机器人"为 AGI 走进物理世界提供了更多可能。多模态大模型的兴起为具身 AI 注入强劲动力,世界模型 的出现也为具身智能训练和测试提供了新范式。如何让机器智能不仅「看懂」物理世界,更能像人类一样理解、规划并操作,是当下学术和业界共同面临的 挑战和机遇。 5 月 29 日,2025 张江具身智能开发者大会暨国际人形机器人技能大赛在上海浦东张江科学会堂顺利举行。作为大会重要组成模块, "具身·无界:智能模 型的范式创新与架构革命"论坛(以下简称"论坛")在上海市经济和信息化委员会、上海市浦东新区人民政府指导下,由上海张江(集团)有限公司主办, 上海张江数智经济发展有限公司、机器之心承办,上海市浦东新区工商联张江人工智能商会协办。 本场论坛汇聚顶尖技术专家、知名高校学者、具身智能明星厂商代表等 10 余位重磅嘉宾,行业领袖深度洞察,技术大咖同台论道,深入探讨具身 AI 与世 界模型、分层决策与端到端路线、具身智能 Scaling Law 等业界热点话题,带来 五 场精彩的主题演讲与一场高质量圆桌对话,论坛由机器之心副主编谢文 菲主 ...
大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI
机器之心· 2025-05-30 04:16
本文第一作者为上海交通大学计算机学院副教授刘卫文,研究方向为大模型智能体,大语言模型,个性化算法等。 近年来,随着大语言模型的快速发展,基于其构建的大模型智能体(LLM Agents)正逐步从技术演示走向实际应用部署。然而,真正实现规模化应用仍面 临诸多瓶颈。使用范围主要集中于专业领域,如代码生成、科研辅助等。在大众、高频、日常的应用场景(如电商、个人助理)中,普及率依然较低。这一 现象引发了一个关键问题: 当前制约大模型智能体实际可用性的真正原因是什么? 上海交通大学联合中科大在本文中指出:现阶段大模型智能体的主要障碍不在于模型能力不足,而在于其「Agentic ROI」尚未达到实用化门槛。 论文题目 :The Real Barrier to LLM Agent Usability is Agentic ROI 论文链接 : https://arxiv.org/pdf/2505.17767 Agentic ROI:大模型智能体实现规模化应用的关键瓶颈 研究团队提出 Agentic ROI(Agentic Return on Investment)这一核心指标,用于衡量一个大模型智能体在真实使用场景中所带来的 ...
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
机器之心· 2025-05-30 04:16
机器之心报道 编辑:Panda 近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我 们介绍的这个名叫 LaViDa ,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。 现目前,几乎所有流行的 VLM 都是基于大型语言模型(LLM)构建的,而这些模型采用的范式是自回归(AR),即按照从左到右的顺序逐一生成 token。 例如,生成一首每行都以特定音节开头的诗歌,或从预定义 JSON 格式的图像中提取结构化信息 —— 这些任务通常需要模型填充或协调整个序列中的内容。即使 使用精心设计的提示词和演示,自回归模型仍然难以稳定地满足此类约束。 近段时间,离散的扩散模型(DM)开始崛起,甚至被许多人认为是自回归 LLM 的一种有力替代,比如我们曾报道过的 首个 8B 扩散大语言模型 LLaDA 、 扩散 推理模型 Dream 7B 以及 首个商业级扩散 LLM Mercury 。 不同于自回归 LLM,扩散模型是将文本生成视为在离散 token 上的扩散过程。会有一个前向过程逐渐将离散文本 token 序列退 ...