自我控制机制

Search documents
“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制|中国科学院磐石研发团队
量子位· 2025-08-06 05:56
中国科学院磐石研发团队 投稿 量子位 | 公众号 QbitAI 科研er看过来!还在反复尝试材料组合方案,耗时又耗力? 新型 "神经-符号"融合规划器 直接帮你一键锁定高效又精准的科研智能规划。 不同于当前效率低下、盲目性高的传统智能规划方法, 中国科学院磐石研发团队 此次提出的混合规划器,同时融合了神经规划系统和符号规 划系统的优势。 借鉴人类的闭环反馈机制,构建 双向规划机制 ,在表达能力、适应能力、泛化能力以及可解释性上都实现了显著提升。 还能只在正向规划器需要时,自动激活反馈接收,在规划覆盖率和规划效率上均显著优于 OpenAI o1 。 目前该智能规划器已加入"磐石·科学基础大模型",该项目已面向科学领域集成了一系列专用模型。 借鉴人类运动学习的"反馈闭环理念" 基于 Knowledge of Result (KR) 的闭环系统是人类运动学习的关键部分,可以帮助学习者纠正错误,向着目标方向实现有效学习。 在运动学习中KR是执行运动后的增强信息,表明既定目标是否成功,而闭环系统是以反馈、错误检测和错误纠正为核心的过程。 规划任务中的问题、规划器和动作序列可近似对应于人类运动学习中的试验、学习者和行动序 ...