ETH最新CMDP框架亮相ANYmal四足机器人首次实现与人类羽毛球“过招”

机器人与人类协作最为关键的问题在于如何突破物理约束，提升机器人系统的稳定性和安全性。近日苏黎世联邦理工学院机器人系统实验室提出了一套CMDP全新框架，该框架通过约束强化学习在减少约束违反、提升系统鲁棒性方面的明显优势，能够有效提升足式机器人在复杂环境中的运动性能。 | | Reward | Violations per episode | | --- | --- | --- | | PPO (unconstrained) | 24.96 (± 0.67) | 533.44 (± 108.94) | | P30 | 24.13 (± 1.55) | 0.96 (± 1.35) | | N-P30 | 24.13 (± 1.14) | 0.49 (± 0.88) | | PPO-Lagrangian | 23.68 (± 1.87) | 0.99 (± 1.31) | | N-IPO | 24.67 (± 0.84) | 1.33 (± 1.69) | | CRPO | 22.28 (± 1.70) | 0.96 (± 1.22) | | FOCOPS | 22.65 (± 3.02) | 15.82 (+ ...