Workflow
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心·2025-08-19 01:54

作者丨 Jeungtao 因为之前做过两年强化学习相关的工作,看到最近VLA也有一些突破,出于个人兴趣,业余时间学习了一下,也做了点笔记,分享到这里。主要是RL的Context 下这两年VLA/Diffusion Policy。最适合有一些RL背景,想了解一些新的进展的朋友阅读。如有疏漏敬请指出。分别从 方法范式 与 应用场景 两个维度展开。 一、方法范式 1. 传统强化学习(RL)/模仿学习 + Sim2Real 2. Diffusion Policy、Flow Matching与VLA模型 个人觉得VLA系列与传统RL一个根本性的区别是RL任务目标输入方式靠reward function,难以描述复杂的任务的过程和目标(比如何折衣服符合人类的喜好,折 好后放到哪里"reward"更大,如何收拾桌面符合人类"整洁"的定义,这些都是比较模糊的,更进一步地,一些长程任务如餐后收拾桌面和洗餐具、洗衣服烘干和 晾晒等,则更难用reward shapping规则化地描述); 编辑丨具身智能之心 原文链接: https://zhuanlan.zhihu.com/p/1940101671704327220 点击下方 卡片 ...