Workflow
强化学习
icon
Search documents
智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一:同尺寸效果最好
IPO早知道· 2025-07-09 10:01
GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 学科解题:支持对数学、物理、生物、化学等学科问题的看图解题,通过推理给出详细的思考过程; 据 IPO 早 知 道 消 息 , GLM-4.1V-9B-Thinking 凭 借 9B 的 模 型 尺 寸 , 日 前 成 功 登 顶 HuggingFace Trending第一 。 | Hugging Face | Q Search models, datasets, users ... | | | | | --- | --- | --- | --- | --- | | Models 1,851,126 | Filter by name | Full-text search | Add filters | 1J Sort: Trending | | THUDM/GLM-4.1V-9B-Thinking | | | | | | 15. Image-Text-to-Text . . . : 10B = Updated about 15 ...
如何教AI学会反思?
Hu Xiu· 2025-07-09 07:57
今天想跟大家分享一篇有意思的AI论文,标题有点长,叫《反思,重试,奖励:通过强化学习实现自我改进的大语言模型》。 说内容前,我先说说自己是怎么发现这篇论文的。熟悉AI的同学大多知道一个网站叫Hugging Face,这个平台不仅有各种大模型的训练场和技术讨论区, 还开设了一个"每日论文"栏目。由于AI领域如今太过火热,每天都有大量新论文发布,这个栏目就像是一个论文版的"知乎热榜"——作者提交论文,读者 点赞排名。 今天要介绍的这篇论文,是这个栏目6月排行榜的第三位。论文作者并不是一个典型的高校研究学者,而是一家名叫Writer的人工智能创业公司的研究团 队,联合作者一共有八个人。 也许正因为是创业企业的研究团队,所以没有那么在乎学术层面的论文惯例,整个论文加上引用也只有16页,读起来也没有故作高深,非常简单明了。 3个步骤,教会AI从错误中学习 这篇论文——《反思、重试、奖励:通过强化学习实现自我改进的大语言模型》——光是题目,你就能知道这项研究的核心结论是什么。 对我们人类来说,"从错误中学习"是非常重要并且有效的学习方式之一。不信你去网上搜搜看,文具有一个专门的品类就叫"错题本"。我们在求学时,当 一道题 ...
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
量子位· 2025-07-09 04:57
西风 发自 凹非寺 量子位 | 公众号 QbitAI "人类最后的考试"首次 突破30分 ,还是咱国内团队干的! 该测试集是出了名的超难,刚推出时无模型得分能超过10分。 直到最近, 最高分也不过26.9 ,由Kimi-Research和Gemini Deep Research并列取得。 现在,上海交大联合深势科技团队突然发布了一项新研究,在"人类最后的考试" (HLE,Humanity's Last Exam) 上一举拿下 32.1分 , 创下新纪录。 在这项研究中,团队推出 工具增强推理智能体X-Master 、 多智能体工作流系统X-Master s。 划重点:还直接把这套方案给 开源 了。 网友们纷纷感叹现在AI竞赛太激烈,一天一个样。 另外值得一提的是,这项研究 使用了DeepSeek-R1-0528作为驱动智能体的推理模型 ,由此也有网友表示: R1在函数调用上表现仍欠佳,而且在这项研究里甚至没有针对这一点进行微调。但即便如此,只要给它搭配合适的框架,它在HLE这 个难度很高的测试中就能拿到32%的成绩。 虽然大家可能会习惯性地称R1为"最佳基础模型",但我觉得这其实是给V4打下了基础。我敢肯定, ...
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位· 2025-07-09 01:18
Polaris团队 投稿 量子位 | 公众号 QbitAI 4B模型的数学推理能力和顶尖商业大模型差在哪里? 香港大学NLP团队联合字节跳动Seed、复旦大学发布名为 Polaris 的强化学习训练配方: 通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2) 超越了一众商业大模型 ,如Seed-1.5- thinking、Claude-4-Opus和o3-mini-high(25/01/31)。 并且,Polaris-4B的轻量化允许在消费级显卡上部署。 详细的blog、训练数据、模型和代码都已 全部开源 ,链接可见文末。 围绕待训练模型进行参数配置 之前的RL训练配方,如DeepScaleR,已经展示了Scaling RL在较弱基模型上强大的效果。 但对于目前最前沿的开源模型(如Qwen3),Scaling RL是否也能复现如此显著的提升呢? Polaris的研究团队给出了明确回答:可以! 具体来说,Polaris通过仅仅700步的RL训练,成功地 让Qwen3-4B在数学推理任务上接近了其235B版本的表现 。 只要方法得当,RL还存在 ...
斯坦福毕业,用RL做Agent,华人创业团队种子轮融资1200万美元
机器之心· 2025-07-09 00:50
机器之心原创 作者:Youli Pokee AI 公开测试版现已正式上线! 「哈喽,可以听到吗?」北京时间上午 10 点,大洋彼岸的 Pokee.ai 创始人朱哲清接通了我们的连线电话, 此刻他正位于美国西海岸,当地时间为前一日晚上 7 点。 用他的话说最近的状态就是「忙」,非常忙。忙着发布 Agent 产品 Pokee AI 的公开测试版,忙着处理第一 轮融资的各种后续事宜,忙着对核心 4 人组团队「扩张」至 7 人,忙里偷闲在小红书庆祝自己 29 岁生日, 并在评论下认真回复网友提问…… 「忙」,或许不是从最近开始的,往前数 200 多天,那时候也「忙」。忙着成立 Pokee.ai,忙着与 100 多位 投资人聊如何用强化学习模型构建 AI Agent,忙着准备产品内测。 再往前数到 2017 年,依旧是「忙」。一边忙着在斯坦福攻读强化学习方向博士学位。一边忙着在 Meta 工 作,带领团队将强化学习落地到广告竞价、自动内容生成等业务,为公司带来高额增收。 朱哲清似乎已经习惯了「忙」。可他说,创业虽然忙,但有了更多的时间去思考,这是一种全新的体 验…… 创业是从去年 10 月开始的,公司名为 Pokee. ...
具身智能论文速递 | 强化学习、VLA、VLN、世界模型等~
具身智能之心· 2025-07-08 12:54
算法框架: 点击下方 卡片 ,关注" 具身智能 之心 "公众号 强化学习如何提升VLA泛化能力 清华大学、上海期智研究院、北京中关村科学院通过强化学习微调(PPO算法)显著提升视觉-语言-动作模 型(VLA)的泛化能力: 1)执行任务成功率提升42.6%(OOD场景) 2)语义理解任务成功率从61.5%提升至75.0%(未见物体) 3)动态干扰场景成功率从28.6%跃升至74.5%(Tab 3) 主要贡献: 论文标题:What Can RL Bring to VLA Generalization? An Empirical Study 论文链接:https://arxiv.org/pdf/2505.19789 1. 构建了一个严谨且具有挑战性的基准,用于评估 VLA 微调方法在视觉、语义和执行等不同维度上对泛 化能力的影响。 2. 确定 PPO 是优于 GRPO 和 DPO 的 VLA 微调 RL 算法,并讨论了将这些 RL 算法从 LLM/VLM 范式适 配到 VLA 独特需求时的关键挑战。 3. 开发了一种高效的基于 PPO 的 VLA 微调方案,该方案借助共享的 actor-critic 骨干网络、VL ...
重磅分享!VR-Robo:real2sim2real助力真实场景下的机器人导航和运动控制
具身智能之心· 2025-07-08 09:31
点击下方 卡片 ,关注" 具身智能之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 足式机器人的运动控制得益于强化学习与物理仿真的结合, 但其实际应用受限于"仿真与现实差距" , 特别是缺乏真实感视觉渲染阻碍了需RGB感知的高阶任务(如本体感知导航)。 本文提出"真实-仿真- 真实"框架,通过多视角图像进行3D高斯溅射(3DGS)场景重建,构建兼具照片级真实感与物理交互特性 的"数字孪生"仿真环境,实现视觉导航与运动控制的协同学习 。在仿真器中训练强化学习策略执行视 觉目标追踪任务的实验表明, 该方法支持纯RGB输入的仿真到现实策略迁移,并能促进策略在新环境 中的快速适应与高效探索,在家庭和工厂场景中具有应用潜力。 论文标题:VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion 论文链接:https://arxiv.org/abs/2502.01536 项目链接:https://vr-robo.github.io/ ...
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
量子位· 2025-07-08 07:30
MMSearch-R1团队 投稿 量子位 | 公众号 QbitAI 多模态模型学会"按需搜索"! 字节&NTU最新研究, 优化 多模态模型搜索策 略 —— 通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制,首次尝试 基于端到端强化学习的多模态模型自主搜索训练 。 经过训练的模型能够自主判断搜索时机、搜索内容并处理搜索结果,在真实互联网环境中执行多轮按需搜索。 实验结果表明,在知识密集型视觉问答任务 (Visual Question Answering, VQA) 中,MMSearch-R1系统展现出显著优势: 其性能不仅超越同规模模型在传统检索增强生成 (RAG) 工作流下的性能,更 在减少约30%搜索次数的前提 下 , 达 到了更大规模规模模 型做传统RAG的性能水平。 下文将详细解析该研究的研究方法以及实验发现。 具体怎么做到的? 近年来,随着视觉-语言训练数据集在规模和质量上的双重提升,多模态大模型 (Large Multimodal Models, LMMs) 在跨模态理解任务中 展现出卓越的性能,其文本与视觉知识的对齐能力显著增强。 然而,现实世界的信息具有高度动态性和复杂性,单 ...
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 07:30
HumanOmniV2团队 投稿 量子位 | 公众号 QbitAI 在多模态大语言模型(MLLMs)应用日益多元化的今天,对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习(RL) 在增强大语言模型(LLMs)的推理能力方面已展现出巨大潜力,但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。 在深入研究现有技术后,发现在当前多模态推理模型中发现现有的推理路径存在两大核心问题:全局上下文理解不足和捷径问题。 全局上下文理解不足: 当模型无法准确识别或错误解读多模态证据和上下文信息时,便会出现此问题,导致给出不正确的答案。 捷径问题: 指模型在处理多模态输入时,忽视了关键线索,未充分考量多模态信息就直接给出答案,从而导致次优或片面的结果 为彻底解决这些痛点,阿里巴巴通义实验室团队推出 HumanOmniV2 ,强调模型必须在对多模态输入 全局上下文有清晰理解 的 基础上进行推理。这种全局性理解能够有效避免模型遗漏关键多模态线索,确保推理过程的全面性和深入性。 相关代码、模型、数据都开源,地址可在文末获取。 效果展示 问题:这两个人是什么关系? A. 他们想引起人们对该产品的关注。 B. 这两个人是商业伙 ...
RL 圈的夏夜之约!12 人唠嗑局:当强化学习撞上大模型 Agent
机器之心· 2025-07-08 04:09
活动档案速报 主题 :强化学习新范式探索之夜:从基础模型到 Agent 的进阶之路 嘿!RL 圈的潮玩咖看过来! 大模型时代卷起技术狂潮,强化学习(RL)早已不是 "小众玩家",当它牵手大模型智能体,直接开启「王 炸组合」模式!想不想潜入神秘据点,边嗨边聊最 in 的 RL 新范式?7 月 26 日晚, 由机器之心主办、东浩 兰生支持,作为 WAIC 官方活动之一的 「强化学习新范式探索之夜」 热力开启, 咱们组个「技术吐槽局」 +「脑洞开黑局」, 等你带「料」赴约~ 时间 :2025 年 7 月 26 日 19:00-21:10(白天逛完 WAIC 直接转场,不耽误你狂卷干货又能嗨聊技术~) 1.「强化学习 × 大模型智能体」:CP 组合如何原地封神? 2. 训练推理两难:探索新策略 VS 守稳基本盘,怎么选? 3. 对齐评估大考:如何让智能体 "听话又能打"? 已锁定的「技术搭子」阵容 ▪️吴翼 | 清华大学交叉信息研究院助理教授 (学术圈「理论脑洞王」本王) 地点 :上海世博展览馆附近 规模 :仅限 12 位,手慢无!主打一个 "小而精" 的深度贴脸交流,拒绝人海战术,每个人都能疯狂输出! 我们聊什么? ...