Zhicheng

Robotics, Learning, and Control

0%

强化学习在双足机器人中的应用

应用方向 是否适合用 RL 推荐算法
自主步态生成 PPO / SAC
多地形适应 PPO + Domain Rand
扰动恢复 TD3 / SAC
动力学复杂、控制难 RL + WBC / MPC
纯平地、稳定任务 ❌(传统控制器足够) -

强化学习在双足机器人中的问题和解决方案

问题类别 具体问题描述 典型解决方法 说明
Sim-to-Real Gap 仿真与现实存在建模差异,策略迁移失败 Domain Randomization 训练时随机化仿真参数,提高泛化能力
Domain Adaptation / Fine-tuning 用少量真实数据微调策略
Residual Policy Learning 用小网络学习偏差残差,补偿仿真误差
System Identification 精准拟合物理参数,减小建模误差
样本效率低 学习步态需要大量交互,训练时间长 Imitation Learning + RL 先用专家演示加速策略初始化
Offline RL(如 CQL) 用离线数据训练,减少实物交互
Model-based RL / Dynamics model 引入动力学模型减少试错次数
安全性差 实机训练中容易跌倒、损伤硬件 Safe RL / Shielded RL 引入安全约束、屏蔽高风险动作
Curriculum Learning 从简单任务逐步训练,降低跌倒风险
仿真预训练 + 小步实机测试 仿真先学好,在现实中逐步上线
不可解释性强 策略黑箱、调试难、难验证稳定性 Hybrid Control (RL + MPC/WBC) RL 生成参考,稳定由经典控制器保障
可视化工具(t-SNE, Grad-CAM) 分析策略结构与决策依据
结构化策略设计 将任务拆解成可控子模块组合训练

扩散模型在其中的作用

Sim2Real问题点 扩散模型可能解决的问题 原理与作用说明
1. 物理环境差异 生成更真实、丰富的环境扰动样本 扩散模型可以学习仿真环境和真实环境间的差异分布,生成多样化、接近真实环境的状态或扰动样本,丰富训练数据,使策略对真实环境有更好的鲁棒性。
2. 样本效率低 辅助生成高质量模拟数据,提升样本多样性和有效性 通过扩散模型生成逼真且多样化的状态转移样本,减少真实环境数据需求,提高训练效率。
3. 安全风险 辅助仿真中生成更接近真实的安全扰动数据,降低实机试错风险 利用扩散模型生成多种环境扰动场景,进行安全的仿真训练,避免实机危险。
4. 策略泛化能力弱 通过生成多样化情景样本,增强策略对未见环境的泛化 多样化生成可以让RL策略在训练时接触更广泛的状态分布,减少策略过拟合,提升现实适应能力。