Workflow
分层强化学习
icon
Search documents
南京富岛信息工程申请基于分层强化学习的成品油调合多配方组合方法专利,成本降低
Sou Hu Cai Jing· 2025-12-30 02:57
国家知识产权局信息显示,南京富岛信息工程有限公司申请一项名为"基于分层强化学习的成品油调合 多配方组合方法"的专利,公开号CN121212630A,申请日期为2025年9月。 专利摘要显示,本发明公开了一种基于分层强化学习的成品油调合多配方组合方法,它采取分层强化学 习以实现成品油调合配方选择,其中高层策略负责长期规划与宏观决策,底层策略负责短期执行与实时 控制,高层产量分配作为底层动作约束,底层执行结果通过奖励形式反馈至双方,形成闭环协同优化。 基于本方法进行成品油调合,获得有益效果:成本降低、抗扰动性提升、更加合理利用组分油库存。 来源:市场资讯 天眼查资料显示,南京富岛信息工程有限公司,成立于2002年,位于南京市,是一家以从事仪器仪表制 造业为主的企业。企业注册资本10000万人民币。通过天眼查大数据分析,南京富岛信息工程有限公司 共对外投资了7家企业,参与招投标项目230次,财产线索方面有商标信息5条,专利信息224条,此外企 业还拥有行政许可23个。 声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。 ...
最新分层VLA模型:使用失败的演示数据,也能优化VLA模型!
具身智能之心· 2025-12-05 16:02
作者丨 Jeonguen Park等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 研究背景与核心问题 现有VLA模型的局限 视觉-语言-动作(VLA)模型是机器人操作任务的核心技术,传统模型依赖人类遥控收集的成功演示数据训练,但数据采集过程中自然产生的大量失败尝试(如抓 取不稳定、碰撞等)常被当作噪声丢弃。这些失败数据蕴含着政策脆弱点的关键信息——揭示了哪些动作序列不可行、哪些场景下容易出错,而单纯依赖成功数据 的模型难以应对复杂环境中的不确定性,在未见过的场景中鲁棒性大幅下降。 核心挑战与研究目标 核心挑战在于如何有效整合离线数据中的失败信号:模仿学习(IL)中直接惩罚易失败动作容易扭曲政策,而强化学习(RL)虽能通过奖励信号自然处理失败数 据,但需要合适的框架承载。研究目标是构建一个分层VLA模型,将失败经验转化为结构化学习信号,通过显式的规划机制实现"失败感知推理",在不改变机器人 核 ...