| 应用方向 | 是否适合用 RL | 推荐算法 |
|---|---|---|
| 自主步态生成 | ✅ | PPO / SAC |
| 多地形适应 | ✅ | PPO + Domain Rand |
| 扰动恢复 | ✅ | TD3 / SAC |
| 动力学复杂、控制难 | ✅ | RL + WBC / MPC |
| 纯平地、稳定任务 | ❌(传统控制器足够) | - |
强化学习在双足机器人中的问题和解决方案
| 问题类别 | 具体问题描述 | 典型解决方法 | 说明 |
|---|---|---|---|
| Sim-to-Real Gap | 仿真与现实存在建模差异,策略迁移失败 | Domain Randomization | 训练时随机化仿真参数,提高泛化能力 |
| Domain Adaptation / Fine-tuning | 用少量真实数据微调策略 | ||
| Residual Policy Learning | 用小网络学习偏差残差,补偿仿真误差 | ||
| System Identification | 精准拟合物理参数,减小建模误差 | ||
| 样本效率低 | 学习步态需要大量交互,训练时间长 | Imitation Learning + RL | 先用专家演示加速策略初始化 |
| Offline RL(如 CQL) | 用离线数据训练,减少实物交互 | ||
| Model-based RL / Dynamics model | 引入动力学模型减少试错次数 | ||
| 安全性差 | 实机训练中容易跌倒、损伤硬件 | Safe RL / Shielded RL | 引入安全约束、屏蔽高风险动作 |
| Curriculum Learning | 从简单任务逐步训练,降低跌倒风险 | ||
| 仿真预训练 + 小步实机测试 | 仿真先学好,在现实中逐步上线 | ||
| 不可解释性强 | 策略黑箱、调试难、难验证稳定性 | Hybrid Control (RL + MPC/WBC) | RL 生成参考,稳定由经典控制器保障 |
| 可视化工具(t-SNE, Grad-CAM) | 分析策略结构与决策依据 | ||
| 结构化策略设计 | 将任务拆解成可控子模块组合训练 |
扩散模型在其中的作用
| Sim2Real问题点 | 扩散模型可能解决的问题 | 原理与作用说明 |
|---|---|---|
| 1. 物理环境差异 | 生成更真实、丰富的环境扰动样本 | 扩散模型可以学习仿真环境和真实环境间的差异分布,生成多样化、接近真实环境的状态或扰动样本,丰富训练数据,使策略对真实环境有更好的鲁棒性。 |
| 2. 样本效率低 | 辅助生成高质量模拟数据,提升样本多样性和有效性 | 通过扩散模型生成逼真且多样化的状态转移样本,减少真实环境数据需求,提高训练效率。 |
| 3. 安全风险 | 辅助仿真中生成更接近真实的安全扰动数据,降低实机试错风险 | 利用扩散模型生成多种环境扰动场景,进行安全的仿真训练,避免实机危险。 |
| 4. 策略泛化能力弱 | 通过生成多样化情景样本,增强策略对未见环境的泛化 | 多样化生成可以让RL策略在训练时接触更广泛的状态分布,减少策略过拟合,提升现实适应能力。 |