泛化壁垒
Search documents
王兴兴署名,宇树机器人春晚之后又进化了:单个策略就能学习各种极限动作
机器之心· 2026-03-03 08:14
这种能力的实现过程首先是预训练一个 基于流的生成控制策略(flow-based generative control policy) ,然后针对复杂物理动力学进行 「驱动感知残差强化学 习」(actuation-aware residual RL)的后训练 。其中后训练这一步对于成功实现真实世界的迁移至关重要。 该项目的通讯作者之一、BIGAI 研究科学家 Siyuan Huang 在 X 上表示:「我们花了一整年时间深入研究通用跟踪和极端物理行为之间的障碍。在测试了数十台 G1 机器人之后,我们最终找到了学习和物理执行能力方面的瓶颈。」 编辑|Panda 春晚上, 宇树机器人的武术表演 《武 BOT》给人留下了深刻印象。表演中,人形机器人 G1 和 H2 在快速奔跑中完成了穿插变阵和武术动作,展现出了高动态、 高协同的全自主集群控制技术。 而现在,北京通用人工智能研究院(BIGAI)、宇树、上海交通大学和中国科技大学等机构的一项新研究在这个方向上更推进了一步,提出了 OmniXtreme : 第 一个可以执行各种极限动 作的通用 策略 ,包括连续翻转、极限平衡,甚至可以通过快速接触切换进行霹雳舞。 值得注意 ...