Workflow
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
机器之心·2025-09-01 02:49

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的"渲训推一体化"大规模强化学习框架。 人工智能正在经历从 "感知" 到 "行动" 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。 机器之心报道 在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。 OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架, 极大地促进了该领域的发展。 机器之心编辑部 图 1 : OpenAI 在红杉资本闭门会上的分享 然而,当前框架对具身智能的支持仍然受限。相比推理大模型这一类纯大脑模型,具身智能领域存在大脑(侧重推理、长程规划,如RoboBrain)、小脑(侧重执 行、短程操作,如OpenVLA)及大小脑联合(快慢系统,如pi 0.5)等多样模型。 其次, 具身智能除了包含Agentic AI的多步决策 ...