Workflow
多智能体强化学习
icon
Search documents
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
机器之心· 2025-07-03 03:26
本文第一作者为上海交通大学计算机科学四年级博士生万梓煜,主要研究方向为强化学习、基础模型的复杂推理,通讯作者为上海交通大学人工智能学院温颖副 教授和上海人工智能实验室胡舒悦老师。团队其他成员包括来自英属哥伦比亚大学的共同第一作者李云想、Mark Schmidt 教授,伦敦大学学院的宋研、杨林易和 汪军教授,上海交通大学的温潇雨,王翰竟和张伟楠教授。 引言 最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeekR1)。然而,大模型何时产生 "顿悟(AhaMoment)" 的机理仍未明晰。近期多 项研究提出推理模式(reasoning pattern)对于推理能力的重要作用。类似的,本研究认为 大模型复杂推理的能力强弱本质在于元思维能力的强弱。 所谓 "元思维" (meta-thinking),即监控、评估和控制自身的推理过程,以实现更具适应性和有效性的问题解决,是智 ...
机器人顶会RSS 2025奖项公布!大牛Pieter Abbeel领衔研究获杰出Demo奖
机器之心· 2025-06-25 06:50
机器之心报道 机器之心编辑部 恭喜获奖者。 RSS(Robotics: Science and Systems,机器人科学与系统会议)是机器人领域顶级学术会议,自 2005 年起每年举办一次,该会议旨在促进机器人领域的科学研究和 技术应用的发展。 地址:https://roboticsconference.org/program/awards/ 杰出 Demo 论文奖 论文标题:Demonstrating MuJoCo Playground 论文摘要: 该研究提出了 MuJoCo Playground—— 这是一个基于 MJX 构建的完全开源机器人学习框架,其核心设计目标是大幅简化仿真环境搭建、模型训练以及 仿真到现实场景的迁移全流程。研究人员仅需执行简单的「pip install playground」安装命令,即可在单 GPU 硬件上完成分钟级策略训练。 该框架支持四足机器人、人形机器人、灵巧手及机械臂等多类型机器人平台,能够直接基于状态观测或像素级输入实现零样本仿真到现实迁移。 今年大会已于 6 月 21 日至 25 日在美国洛杉矶举行。杰出 Demo 论文奖、杰出系统论文奖、杰出学生论文奖、杰出论文奖 ...
京东集团算法总监韩艾将在 AICon 北京站分享基于强化学习的异构多智能体联合进化算法
AI前线· 2025-06-20 02:47
6 月 27 日 -6 月 28 日, AICon 全球人工智能开发与应用大会北京站 即将拉开帷幕。本次大会 将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、 硅基流动、智象未来、声智科技等 AI 企业的 50+ 资深专家,深度探讨 AI Agent、多模态应用、 推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。 京东集团算法总监韩艾已确认出席并发表题为《 JDAgents-R1:基于强化学习的异构多智能体 联合进化算法 》的主题分享。多智能体强化学习(MARL)已成为处理日益复杂任务的重要范 式。然而,异构智能体之间的联合进化仍面临合作效率低与训练不稳定等挑战。为此,京东提出 了 一 种 面 向 MARL 的 联 合 进 化 算 法 框 架 JDAgents-R1 , 该 方 法 首 次 将 组 相 对 策 略 优 化 (GRPO)应用于异构多智能体的联合训练中。通过迭代优化智能体的大语言模型(LLMs)与自 适应记忆机制,JDAgents-R1 实现了决策能力与记忆能力的动态均衡,并能有效减少重复推理、 加快训练收敛。在通用场景以及商家定 ...
中国AI门派:汪军与他的学生们
投资界· 2025-03-04 07:41
以下文章来源于雷峰网 ,作者赖文昕 雷峰网 . 洞见智能未来,共与产业变迁 中国强化学习研究的半壁江山。 作者 | 赖文昕 编辑丨陈彩娴 来源 | 雷峰网 (ID:leiphone-sz) 作为一支在 AI 领域历经数十年的研究分支,强化学习仍在历久弥新。 从推荐系统到强化学习 2006 年暑假的一个午后,汪军踏上了从荷兰小城代尔夫特开往首都阿姆斯特丹的火 车,他将在阿姆斯特丹换乘飞机,飞往美国西雅图参加第 29 届国际计算机协会信息检 索大会(ACM SIGIR)。 此时的信息检索领域如日中天,加上微软、雅虎和谷歌三巨头最核心的业务也是搜索, ACM SIGIR 每年都能汇集学术界与工业界的最高人才,来开一场信息检索界的"年 会"。 在华盛顿大学的会场里,汪军在一片掌声中获得了最佳博士联盟奖,于博士毕业的前一 年拿下了信息检索领域博士的最高荣誉。 这位意气风发的青年此刻并未想到,自己将会在 15 年后再获得时间检验奖的荣誉提名 ——2021 年的汪军已转向强化学习(RL)数年,作为发起人之一成立了华人强化学习 社区RL China,为国内强化学习研究培养了一批优秀的青年人才,成为领域的"一代宗 师"。 汪军 ...
UCL强化学习派:汪军与他的学生们
雷峰网· 2025-02-27 10:15
2006 年暑假的一个午后,汪军踏上了从荷兰小城代尔夫特开往首都阿姆斯特丹的火车,他将在阿姆斯特丹换 乘飞机,飞往美国西雅图参加第 29 届国际计算机协会信息检索大会(ACM SIGIR)。 " 他们构成中国强化学习研究的半壁江山。 " 作者丨赖文昕 编辑丨陈彩娴 作为一支在 AI 领域历经数十年的研究分支,强化学习仍在历久弥新。 01 从推荐系统到强化学习 此时的信息检索领域如日中天,加上微软、雅虎和谷歌三巨头最核心的业务也是搜索,ACM SIGIR 每年都能 汇集学术界与工业界的最高人才,来开一场信息检索界的"年会"。 在华盛顿大学的会场里,汪军在一片掌声中获得了最佳博士联盟奖,于博士毕业的前一年拿下了信息检索领域 博士的最高荣誉。 这位意气风发的青年此刻并未想到,自己将会在 15 年后再获得时间检验奖的荣誉提名——2021 年的汪军已 转向强化学习(RL)数年,作为发起人之一成立了华人强化学习社区RL China,为国内强化学习研究培养了 一批优秀的青年人才,成为领域的"一代宗师"。 汪军 汪军出生于江苏南京,1993 年从金陵中学毕业后开始在东南大学攻读电子工程专业。本科毕业后,他先在工 业界工作三年 ...