机器之心

Search documents
具身智能学界业界思想「惊人的统一」?美团在IROS开了个学术年会
机器之心· 2025-10-21 09:32
机器之心报道 编辑:冷猫 最近机器人和 AI 相关领域的读者或多或少都在关注 IROS。 IROS(IEEE/RSJ International Conference on Intelligent Robots and Systems)由日本机器人学会(RSJ)与 IEEE RAS 于 1988 年联合创办,会议聚焦智能机器人领 域,内容更多以机器人为主。 今年的 IROS 是第二次进入中国内地,在杭州举行。 这次机器之心受邀参加了「2025 美团机器人研究院学术年会」,这次美团的学术年会作为 IROS 的分会场在杭州国际博览中心举办。我们走进了 IROS 会场,感受 浓浓的学术氛围和讨论热情。 这次学术年会以 「机 致生活 (Robotics for better life)」 为主题,具身智能与零售服务的结合,是美团机器人最大的愿景和商业理念。 美团机器人研究院自 2022 年成立以来,致力于搭建连接产业与学术的开放科研平台,推动产学研用的合作发展。近一年来,美团在低空物流、具身智能等核心赛 道上持续加码,推动前沿的学术探索高效转化为可落地的产业价值。 令我们印象深刻的是,美团无人机配送服务已经能够初具规 ...
豆包是如何炼成的?字节放出自研万卡训练系统ByteRobust论文
机器之心· 2025-10-21 09:32
机器之心报道 编辑:Panda 大型语言模型(LLM)训练的核心基础设施是 GPU。现如今,其训练规模已达到数万块 GPU,并且仍在持续扩大。同时,训练大模型的时间也越来越长。例如, 一个 405B 参数模型 LLaMA 3 的预训练,动用了 16,384 块 NVIDIA H100 GPU,耗时 54 天。字节跳动曾使用 12,288 块 GPU 训练了一个 175B 参数的模型。最近, xAI 建立了一个拥有 100,000 块 GPU 的集群以进一步扩大训练规模。 资源规模的扩张也带来了故障的普遍发生(例如 CUDA 错误、NaN 值、任务挂起等),这对训练的稳定性构成了巨大挑战。Meta 曾报告称,在 16,000 块 GPU 上 训练大模型时,硬件故障大约每 2.78 小时发生一次。 对于 LLM 训练,当前的故障诊断和处理实践通常依赖于在发生「故障即停止」 (fail-stop) 事件后进行日志分析和退出码评估,或者独占整个集群进行压力测试。 一旦确定了根本原因,训练任务会通过重新调度的资源和并行配置来恢复,并从远程文件系统重新加载通常由 TB 级数据组成的检查点 (checkpoints)。这种 ...
清华、快手提出AttnRL:让大模型用「注意力」探索
机器之心· 2025-10-21 09:32
Core Insights - The article discusses the advancements in reinforcement learning (RL), particularly focusing on Process-Supervised RL (PSRL) and the introduction of a new framework called AttnRL, which enhances exploration efficiency and performance in reasoning models [3][4][9]. Group 1: Challenges in Traditional Methods - Traditional PSRL methods assign equal reward signals to all tokens, neglecting the fine-grained quality during the reasoning process [7]. - Existing PSRL approaches face significant bottlenecks in exploration efficiency and training costs, leading to high computational expenses [4][10]. Group 2: Introduction of AttnRL - AttnRL introduces an innovative exploration method by utilizing attention mechanisms to guide the reasoning process, allowing the model to branch from high-attention steps [9][12]. - The framework employs Attention-based Tree Branching (ATB), which analyzes the reasoning sequence and calculates Forward Context Influence (FCI) scores to determine the most impactful steps for branching [13][16]. Group 3: Adaptive Sampling Mechanisms - AttnRL incorporates two adaptive sampling mechanisms: difficulty-aware exploration and dynamic batch adjustment, optimizing the learning process by focusing on challenging problems while reducing computational load on simpler ones [20][22]. - The training process is streamlined to a One-Step Off-Policy approach, significantly reducing sampling costs compared to previous PSRL methods [23]. Group 4: Experimental Results - AttnRL demonstrates superior performance across various mathematical reasoning benchmarks, achieving average accuracy rates of 57.2% for 1.5B models and 68.7% for 7B models, outperforming baseline methods like GRPO and TreeRL [28]. - The framework shows improved efficiency in sampling, with a higher effective ratio and better performance in fewer training steps compared to traditional methods [29][31]. Group 5: Future Outlook - The introduction of attention scores in PSRL exploration decisions opens new avenues for enhancing model interpretability and RL research, suggesting that efficiency and intelligence can coexist through more effective exploration strategies [34].
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
机器之心· 2025-10-21 03:43
机器之心报道 编辑:泽南、Panda 「我很喜欢新的 DeepSeek-OCR 论文…… 也许更合理的是,LLM 的所有输入都应该是图像。即使碰巧有纯文本输入,你更应该先渲染它, 然后再输入。」 一夜之间,大模型的范式仿佛被 DeepSeek 新推出的模型给打破了。 昨天下午, 全新模型 DeepSeek-OCR 突然开源 。在该模型的处理过程中,1000 个字的文章能被压缩成 100 个视觉 token,十倍的压缩下精度也可以达到 97%,一 块英伟达 A100 每天就可以处理 20 万页的数据。 这种方式或许可以解决大模型领域目前头疼的长上下文效率问题,更重要的是,如果「看」文本而不是「读」文本最终被确定为正确的方向,也意味着大模型的 范式会发生重要的转变。 GitHub 上, DeepSeek-OCR 项目一晚收获了超过 4000 个 Star 。 因为是开源的小模型,DeepSeek-OCR 第一时间经历了整个 AI 社区的检验,很多大佬在看完论文之后纷纷发表了看法,兴奋之情溢于言表。 OpenAI 联合创始成员之一,前特斯拉自动驾驶总监 Andrej Karpathy 表示,它是一个很好的 OCR ...
RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward
机器之心· 2025-10-21 03:43
但一个朴素而尖锐的问题始终横在面前:当视觉信息变得极其繁复、结构密集,模型究竟能不能「看懂图」?比如以高分辨率地铁图为代表的真实场景,既要求 精细的视觉感知,又要求跨线路、跨站点的空间推理。 来自该团队的前向工作 ReasonMap 首次系统揭示了这一问题:在高分辨率地铁图等真实场景下,即使最先进的 MLLMs 也频繁在跨线路、跨站点的路径规划中出 现「看错线」「漏站」「重复路线」等推理幻觉。 本研究由西湖大学 ENCODE Lab 牵头,联合同济大学、浙江大学和新加坡国立大学共同完成。团队在大模型强化学习与多模态推理方向具有深厚研究基础。 近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。 团队进一步发现,在高分辨率、信息极其密集的地铁图上,仅依靠最终答案给出成败信号的强化学习,很容易陷入奖励极度稀疏的困境:多数输出几乎得不到任 何正反馈,少数「偶然对」的样本又会造成高方差梯度,训练既慢又不稳,这使得模型在长链路路径规划中频繁出现看错线、漏站、甚至重复路线的「幻觉」。 为此,该团队进一步提出 RewardMap:一个围绕真实 map reasoning ...
大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解
机器之心· 2025-10-21 03:43
在大模型微调实践中,SFT(监督微调)几乎成为主流流程的一部分,被广泛应用于各类下游任务和专用场景。比如,在医疗领域,研究人员往往会用领域专属数 据对大模型进行微调,从而显著提升模型在该领域特定任务上的表现。 然而,问题随之而来: SFT 是否会让模型 "遗忘" 原本的通用能力? 过去的研究中,不少文献指出,领域微调固然能带来专用性能的提升,但代价是模型在数学 推理、代码生成、指令跟随等通用 benchmark 上出现显著退化。这种现象被广泛称为 "灾难性遗忘"。然而,这一长期流传的看法或许值得重新审视。 来自 UIUC、Amazon、UT Austin 以及 University at Buffalo 的研究团队最新发布的一项工作就给出了不同的答案。研究表明, 领域特定的 SFT 并不总是会严重削 弱模型的通用能力 。相反,在训练中采用更小的学习率,模型就可能在两方面取得平衡: 换句话说,遗忘问题可能更多源于训练策略的选择,而不是单单 SFT 这一范式本身。 在通用任务上的能力遗忘被大幅缓解; 在目标领域上的表现依然与大学习率相当。 | Jiacheng Lin1, † | Zhongruo Wang2,1 ...
喂了几个月的垃圾推文,大模型得了「脑腐」,这病还治不好
机器之心· 2025-10-21 03:43
机器之心报道 编辑:杨文、+0 天天刷推,大模型的脑子也会坏掉。 终于有研究证明, 互联网上的烂内容会让大模型得「脑腐」 。 相信许多读者对「脑腐」这个词并不陌生,长时间沉浸在碎片化的网络信息中,我们经常会感到注意力下降、思维变钝。 最近,德克萨斯 A&M 大学、德克萨斯大学奥斯汀分校和普渡大学的一篇论文表明,LLM 也会像人类一样,因长期接触垃圾内容而导致「大脑退化」。 研究者将数月的病毒性推特数据(短小、互动性强的帖子)喂给模型,并观察到它们的认知崩溃: 更让人担心的是,即使重新用干净、高质量的数据进行再训练,这些认知上的损伤也无法完全修复,类似「大脑退化」一样的「腐化」现象会持续存在。 这表明,AI 系统就像人类一样,如果长期接触不良信息,可能会导致认知上的永久性变化。 动机 最近几年,「脑腐」这个词突然进入了公众视野,它被用作一种简写,描述无尽的、低质量的、诱导参与的内容如何钝化人类的认知,即通过强迫性的在线消 费,侵蚀专注力、记忆纪律和社交判断力。 如果 LLM 从同样泛滥的互联网信息源中学习,那么一个问题就变得不可避免:当我们持续向模型投喂「数字垃圾食品」时,会发生什么? 研究 LLM 的「脑腐」 ...
刚刚,Anthropic上线了网页版Claude Code
机器之心· 2025-10-21 00:15
| | | 今天凌晨,Anthropic 上线了 「Claude Code on the web」(即网页版 Claude Code) 功能,这种全新的方式可以让用户直接从浏览器中委派编程任务。 博客地址:https://www.anthropic.com/news/claude-code-on-the-web 目前,网页版 Claude Code 处于 Beta 阶段,作为研究预览版向 Pro 和 Max 用户开放使用。 用户可以将多个编程任务交给 Claude 执行,这些任务会在 Anthropic 托管的云端基础设施上运行,非常适合处理 漏洞积压、常规修复或并行开发工作。 对于一些用户来说,网页版 Claude Code 是「迫切需要」的。 并且,允许在浏览器中直接委派编程任务,是迈向高效顺滑软件开发的关键一步。 具体来讲,网页版 Claude Code 具有以下三大亮点: 一是, 并行运行编程任务 。 在网页端使用 Claude Code,用户无需打开终端就能启动编码会话。连接 GitHub 仓库,描述你的需求,Claude 会负责实现。 每个会话都在独立的环境中运行,并具备实时进度追踪功能。用户还可 ...
告别「偏科」,UniVid实现视频理解与生成一体化
机器之心· 2025-10-21 00:15
在视频生成与理解的赛道上,常常见到分头发力的模型:有的专注做视频生成,有的专注做视频理解(如问答、分类、检索等)。而最近, 一个开源项目 UniVid,提出了一个「融合」方向:把理解 + 生成融为一体 —— 他们希望用一个统一的模型,兼顾「看懂视频」+「生成视频」的能力。 这就像把「看图识物」和「画图创作」两件事,交给同一个大脑去做:理解一段文字 + 理解已有视频内容 → 再「画」出新的、连贯的视频 —— 这在技术上挑战 极大。 UniVid 想解决什么问题? UniVid 尝试把视频「理解」与「生成」融合为一体,构建出一个 真正通用的统一视频模型(Unified Video Model), 一个既能「理解」又能「生成」的视频多模 态模型。 论文标题:UniVid: The Open-Source Unified Video Model 论文地址:https://arxiv.org/abs/2509.24200 核心创新 1.统一结构:Adapter-based Unified Architecture 在传统方案中,理解模型和生成模型是完全分开的系统,训练开销大、互通困难。要把它们融合,需要重新训练一个庞大 ...
ICCV 2025 | 扩散模型生成手写体文本行的首次实战,效果惊艳还开源
机器之心· 2025-10-20 09:15
此前,相关研究团队已接连发表「 SDT 」(CVPR 2023) 和「 One-DM」 ( ECCV 2024 ) 两项与手写文本风格化生成相关的研究成果,机器之心均进行了相关报道。 其中「 One-DM」仅凭单张手写样本便能生成与样本风格相似度很高的任意文本。 然而,现有的手写文本生成工作普遍关注「 字符级」生成,也即只生成一个单词或是汉字,如果要生成一整段文本行,则只能将若干个字符拼接合成在一起。这 就像是你在不同纸上写字,把每个字分别裁剪下来,再组合成一行字。这种做法很容易导致字符不对齐,或上或下,或大或小,看起来歪歪扭扭,并不符合人类 的书写习惯。 那么,如果 AI 写的字和你写的字一模一样,你会作何感想?是迫不及待地生成一套属于自己的字体,还是担心签名信息不再可靠,抑或是可惜这项技术没能早点 出现帮你写作业…… 无论如何,这项笔迹模仿的技术的确已日臻成熟。现在,你只需要在纸上写下几个字,AI 就能准确学习并模仿你的笔迹写出任何字。使用 AI 模仿手写文本,不仅 能真实再现书写者风格,轻松创造属于用户个人的字体库,也在字体设计、笔迹验证等诸多领域具有广阔的应用前景。 今天要介绍的是 DiffBrush ...