强化学习

Search documents
“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录
AI科技大本营· 2025-10-10 09:52
对话嘉宾 | 李建忠、 Lukasz Kaiser 出品 | CSDN(ID:CSDNnews) 今年开年之际,DeepSeek R1 配合前年年末 OpenAI o1 轰炸了整个 AI 圈子,随后强化学习之父 Rich Sutton 荣获图灵奖,又是用一篇论文向大家宣 告了强化学习、经验时代这些词汇将成为 2025 的主题,我们可能都难免这么觉得: 推理模型 的时代已经来了! 但接下来的一个观点却刷新了我的认知:Transformer 核心发明者之一、OpenAI 科学家 Lukasz Kaiser 就直言,目前的推理模型还处在当年 GPT 都 没出来的机器学习阶段, 未来还需要一个 Transformer 创新级别的推理模型。 而近期,这位定义了大模型核心架构的关键人物,就与奇点智能研究院院长、CSDN 高级副总裁李建忠一道,在 CSDN 的《AI 进化论》栏目中展开了一 场关于 "大模型的第一性思考" 的深度对话。 Lukasz Kaiser 是 AI 领域最具影响力的科学家之一,2017 年他与其他七位谷歌同事(后称"Transformer 八子")共同撰写了那篇开创性的论文 《Attention I ...
算力成本大降,马尔可夫思考机来了,LLM推理成本直接降为线性
3 6 Ke· 2025-10-10 07:27
Core Insights - The article discusses the effectiveness and high costs of using reinforcement learning to enhance reasoning capabilities in large language models (LLMs) [1] - A new paradigm called the Markovian Thinker is introduced, which aims to limit the computational complexity associated with reasoning in LLMs by maintaining a fixed state size [4][20] Group 1: Markovian Thinker Concept - The core idea of the Markovian Thinker is to reconstruct the components of reinforcement learning so that the effective state size remains bounded regardless of the total thinking length [4] - This approach allows longer reasoning processes to require only linear computational resources and constant memory, decoupling the duration of model thinking from the amount of context it must handle [4][20] Group 2: Delethink Implementation - Delethink is a reinforcement learning environment that organizes the reasoning process into fixed-size chunks, resetting context at the boundaries of these chunks [4][9] - The implementation of Delethink results in linear scaling for both the generation and backpropagation phases, contrasting with the quadratic scaling seen in traditional LongCoT environments [6][15] Group 3: Experimental Results - Experiments show that even with an 8K chunk size, the DeepSeek R1-Distill 1.5B model trained with Delethink can reason up to 24K tokens, outperforming LongCoT-RL in mathematical benchmark tests [9][12] - The model achieved 49% accuracy on a 96K token reasoning task with minimal additional training steps, demonstrating significant efficiency improvements [14][15] Group 4: Implications for Future Models - The success of the Markovian Thinker indicates that decoupling thinking length from context size could enable next-generation reasoning models to handle millions of tokens effectively [20] - The findings suggest that non-quadratic complexity sequence architectures may greatly benefit reasoning models, as the thinking process can be effectively transformed into a Markovian style [20]
算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性
机器之心· 2025-10-10 06:36
Core Insights - The article discusses the effectiveness and high costs associated with using reinforcement learning to enhance reasoning capabilities in large language models (LLMs) [1] - A new paradigm called the Markovian Thinker is introduced, which aims to prevent quadratic growth in computational requirements by maintaining a fixed state size during reasoning [3][9] Group 1: Markovian Thinker - The Markovian Thinker redefines the structure of reinforcement learning to ensure that the effective state size remains bounded regardless of the total thinking length, leading to linear computational requirements [9][32] - The Delethink framework exemplifies this approach by organizing the reasoning process into fixed-size chunks, resetting context at the boundaries of these chunks [10][12] Group 2: Performance and Efficiency - Experiments show that the Delethink framework allows models to think up to 24K tokens with significant performance improvements over traditional LongCoT methods, even achieving 49% accuracy on complex tasks with 96K tokens [20][23][26] - The computational efficiency of Delethink is highlighted, requiring only 7 H100-months for training compared to 27 H100-months for LongCoT-RL at an average thinking length of 94K tokens [26] Group 3: Implications for Future Models - The success of the Markovian Thinker suggests that decoupling thinking length from context size could enable future reasoning models to handle millions of tokens effectively [32][33] - The findings indicate that non-quadratic complexity architectures may significantly benefit reasoning models, allowing for more efficient processing of thought sequences [33]
DemoGrasp:一次演示是怎么实现灵巧手通用抓取的?
具身智能之心· 2025-10-10 00:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 论文标题 : DemoGrasp: Universal Dexterous Grasping from a Single Demonstration 论文链接 : https://arxiv.org/abs/2509.22149 项目 主 页 : https://beingbeyond.github.io/DemoGrasp/ 分享介绍 点击按钮预约直播 多指灵巧手的通用抓取是机器人操作领域的核心挑战之一。尽管近年来已有方法借助强化学习(RL)成功学习闭环抓取策略,但高维、长时域探索的固 有难题使得复杂的奖励设计与课程设计成为必需,这往往导致其在面对多样物体时难以得到最优解决方案。 本文提出DemoGrasp—— 一种简单且高效的通用灵巧抓取学习方法。 该方法从抓取特定物体的单条成功演示轨迹出发,通过编辑轨迹中的机器人动作来 适配新物体与新姿态:调整腕部姿态可确定抓取位置,调整手部关节角度则可确定抓取方式。 本文将这种轨迹编辑过程构建为单步马尔可夫决策过程(MDP),并在仿真环境中通过RL对适用于数百个物体的 ...
DexCanvas:具身数据的规模、真实、力觉真的突破不了三缺一吗?
具身智能之心· 2025-10-10 00:02
灵巧抓取为什么这么难? 近两年,具身领域在认知、感知和规划层面取得了显著进展,但让机器人在物理世界中实现精细手部操控、像人类一样执行复杂的灵巧操作, 仍是非常大的难题。目前具身领域已经突破了人类语言理解、物体和场景识别、规划具体任务步骤,但在灵活抓握、感知调节力度等方向还存 在很多问题。 真实场景中,灵巧抓取会面临精确控制、高维运动规划和实时适应动态环境等挑战,任务复杂性要求强大的机械设计和先进控制算法。 而灵巧操作背后的硬件主要是灵巧手,又可以分为两类:两指夹爪和多指拟人化手。两指夹具因其可靠性、简单性和易于控制而被广泛使用。 但这类硬件通常只有一个自由度,很难适配一些复杂任务。为此,类人的具备20+自由度的灵巧手应允而生。这些拟人化手更适合与为人类设计 的物体和环境进行交互。 1)现有灵巧抓取与数据采集方案 虽然国内外各大机器人公司都在发布海量数据集:百万级轨迹、千小时演示,但却缺乏相关力控信息。灵巧手数据好像一直脱离不开这样的定 律:scale、真实、力觉只能三选二。 数据获取方式决定了不能既要、又要、还要! 目前灵巧抓取的学习方法主要分为2类:强化学习和模仿学习。 模仿学习无需构建复杂世界模型和设计奖 ...
任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义
晚点Auto· 2025-10-09 12:17
以下文章来源于晚点LatePost ,作者晚点团队 晚点LatePost . 晚一点,好一点 留在智能驾驶,不是因为容易,而是因为更难。 文 丨 魏冰 宋玮 编辑 丨 宋玮 任少卿的头发很有辨识度,浓密、微卷,刘海盖住额头。走进会议室,第一次见他的人把他当成了实习生,知道身 份后调侃说,只有在 AI 创业公司才能看到这么年轻的技术 leader。 "我们就是 AI 公司"——任少卿一本正经的回答。 但他身处的是蔚来,一家还在血海中搏杀的汽车制造商,而他的战场,是智能驾驶。这个反常回答,和他的人生轨 迹相似:总在别人以为答案已定的时候,他偏要走向另一个方向。 2007 年他考入中科大,2016 年博士毕业。期间他提出了 Faster R-CNN(一种基于深度学习的目标检测框架),又 和当时微软亚研院视觉计算组的孙剑、何恺明,博士生张祥雨一起研究 ResNet(残差网络)。后者解决了神经网络 越深越 "失忆" 的难题,让模型可以无限叠加层数,被视为深度学习史上的里程碑。当时任少卿 27 岁。 2016 年,他与曹旭东共同创立自动驾驶公司 Momenta,亲历了自动驾驶最热的创业年代。4 年后,他离开一手创立 的公 ...
开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题
机器之心· 2025-10-08 04:13
它在继承 VeRL 和 BALROG 的基础上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则,引入了一系列专 门优化手段,从而在任务跨度从短暂交互到数百回合时,依然能够实现稳定而高效的训练。 以往的框架(如 VeRL 和 RAGEN)能够较好地处理约 10 回合的任务,verl-agent 则可扩展至 50 回合。而 Verlog 则被设计用于超过 400 回合的环境,使其在复杂的长期决策任务中具备独特优势。 这一能力已在 BabyAI、BabaIsAI 和 Crafter 等高难度领域得到验证。以 Crafter 为例,其回合长度范围在 70 到 400 步之间,平均约为 190 步。在这些充满挑战的环境中,Verlog 都能够开箱即用地展现出强劲的性能。 机器之心报道 机器之心编辑部 AI 时代,智能体对短期对话的处理能力已不再是难题。真正的挑战是让智能体在数百步的探索中依然保持 清晰的推理与稳健的决策。 传统的强化学习框架在几十步内尚能应付,但一旦任务延展至数百步,奖励稀疏、历史冗长、策略崩塌便 接踵而至。 为了应对这些挑战,来自卡内基梅隆大学、香港大学等机构的研究者提出 ...
我们正在找具身领域的合伙人......
具身智能之心· 2025-10-08 02:49
最近收到越来越多合作伙伴和中小公司的诉求,期望具身智能之心团队能够在方案和数采、技术升级、 企业培训等多个方向上赋能。 岗位说明 主要面向具身课程开发、方案研发、硬件研发、培训合作(B端主要面向企业和高校、研究院所培训,C 端面向较多学生、求职类人群)。 联系我们 感兴趣的可以添加微信oooops-life做进一步咨询。 虽然从上半年开始,我们一直在筹办相关事宜。但众人拾柴火焰高,要推动大的行业进步,需要更多优 秀的伙伴加入我们。 现面向全球的具身领域从业者发出邀请函,具身智能之心期望能够和您在技术服务、培训、课程开发与 科研辅导等多个领域展开合作。 我们将提供高额的酬金与丰富的行业资源。 主要方向 包括但不限于:VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态 大模型、仿真、运动控制、端到端、3D感知等多个方向。 ...
“盲眼”机器人在完全看不见的情况下30秒跑酷首秀惊艳!
具身智能之心· 2025-10-07 03:03
作者丨量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 你见过这样的"盲眼"机器人demo吗? 它在完全看不见的情况下——没有摄像头、雷达或任何感知单元——主动搬起9斤重的椅子,爬上1米高的桌子,然后翻跟头跳下。 不光耍酷,干起活来,搬箱子也不在话下。 还能一个猛子跳上桌子。 手脚并用爬坡也照样OK。 这些丝滑小连招来自 亚马逊机器人团队FAR (Frontier AI for Robotics)发布的 首个 人形机器人(足式)研究成果—— OmniRetarget ! OmniRetarget使强化学习策略能够在复杂环境中学习长时程的"移-操一体"(loco-manipulation)技能,并实现从仿真到人形机器人的零样 本迁移。 网友表示:又能跑酷、还能干活,这不比特斯拉的擎天柱强10倍? 接下来,让我们一起看看他们是怎么做到的吧! 基于交互网格的动作重定向方法 总的来说,OmniRetarget是一个开源的数据生成引擎,它将人类演示转化为多样 ...
亚马逊“盲眼”机器人30秒跑酷首秀惊艳!华人学者领衔
量子位· 2025-10-06 05:42
henry 发自 凹非寺 量子位 | 公众号 QbitAI 你见过这样的"盲眼"机器人demo吗? 它在完全看不见的情况下——没有摄像头、雷达或任何感知单元——主动搬起9斤重的椅子,爬上1米高的桌子,然后翻跟头跳下。 不光耍酷,干起活来,搬箱子也不在话下。 还能一个猛子跳上桌子。 手脚并用爬坡也照样OK。 这些丝滑小连招来自 亚马逊机器人团队FAR (Frontier AI for Robotics)发布的 首个 人形机器人(足式)研究成果—— OmniRetarget ! OmniRetarget使强化学习策略能够在复杂环境中学习长时程的"移-操一体"(loco-manipulation)技能,并实现从仿真到人形机器人的零样本 迁移。 网友表示:又能跑酷、还能干活,这不比特斯拉的擎天柱强10倍? 此外,保留任务相关的交互使得数据能够进行高效的数据增强,进而从单个演示推广到不同的机器人本体、地形和物体配置,以减少不同变体 的数据收集成本。 在与其他动作重定向方法的对比中,OmniRetarget在所有关键方面:硬约束、物体交互、地形交互、数据增强表现出了全面的方法优势。 | Methods | Hard Ki ...