DreamPolicy: A Scalable Unified Policy for Versatile Humanoid Locomotion
任务的依赖性:传统的强化学习需要为每种地形设计特定的奖励函数,导致“一个任务一个策略”
数据利用不足:即使数据量增长,但是传统的强化学习难以有效利用离线数据提升泛化能力。
泛化性差:策略容易过拟合训练地形,在未见地形中表现不佳。
现有解决方案的缺陷:
- 人类运动数据集需要复杂重定向到人形机器人,而且无法直接编码地形约束。
- 策略蒸馏(将一个性能好但是计算开销高的策略压缩给一个较小较高效的策略网络)依赖在线仿真,计算成本较高。
DreamPolicy的框架创新
地形感知的的专家技能收集:
- 在六种单一地形上训练专用的RL策略,生成巨大的离线数据集
- 数据直接捕获人形机器人运动学,包含本地感知,地形高度图,历史状态等
扩散驱动的混动合成
- 使用生成模型框架(DDPM)来预测未来的状态轨迹,条件输入包含历史状态和地形嵌入。
HMI条件化统一策略
- 以扩散模型生成的轨迹为动态目标,优化RL策略。扩散模型和策略优化分离,支持通过数据扩展持续改进。
- HMI隐式编码指的是一种通过扩散模型生成的未来运动轨迹来动态替代传统手工设计奖励函数的技术。核心思想是将地形物理约束,运动风格等复杂目标嵌入到扩散模型生成的轨迹中,从而指导策略学习。