具身智能 | Zhicheng

任务的依赖性：传统的强化学习需要为每种地形设计特定的奖励函数，导致“一个任务一个策略”
数据利用不足：即使数据量增长，但是传统的强化学习难以有效利用离线数据提升泛化能力。
泛化性差：策略容易过拟合训练地形，在未见地形中表现不佳。

现有解决方案的缺陷：

DreamPolicy的框架创新
地形感知的的专家技能收集：

扩散驱动的混动合成

HMI条件化统一策略

以扩散模型生成的轨迹为动态目标，优化RL策略。扩散模型和策略优化分离，支持通过数据扩展持续改进。
HMI隐式编码指的是一种通过扩散模型生成的未来运动轨迹来动态替代传统手工设计奖励函数的技术。核心思想是将地形物理约束，运动风格等复杂目标嵌入到扩散模型生成的轨迹中，从而指导策略学习。