强化学习在双足机器人中的应用

问题类别	具体问题描述	典型解决方法	说明
Sim-to-Real Gap	仿真与现实存在建模差异，策略迁移失败	Domain Randomization	训练时随机化仿真参数，提高泛化能力
		Domain Adaptation / Fine-tuning	用少量真实数据微调策略
		Residual Policy Learning	用小网络学习偏差残差，补偿仿真误差
		System Identification	精准拟合物理参数，减小建模误差
样本效率低	学习步态需要大量交互，训练时间长	Imitation Learning + RL	先用专家演示加速策略初始化
		Offline RL（如 CQL）	用离线数据训练，减少实物交互
		Model-based RL / Dynamics model	引入动力学模型减少试错次数
安全性差	实机训练中容易跌倒、损伤硬件	Safe RL / Shielded RL	引入安全约束、屏蔽高风险动作
		Curriculum Learning	从简单任务逐步训练，降低跌倒风险
		仿真预训练 + 小步实机测试	仿真先学好，在现实中逐步上线
不可解释性强	策略黑箱、调试难、难验证稳定性	Hybrid Control (RL + MPC/WBC)	RL 生成参考，稳定由经典控制器保障
		可视化工具（t-SNE, Grad-CAM）	分析策略结构与决策依据
		结构化策略设计	将任务拆解成可控子模块组合训练

Sim2Real问题点	扩散模型可能解决的问题	原理与作用说明
1. 物理环境差异	生成更真实、丰富的环境扰动样本	扩散模型可以学习仿真环境和真实环境间的差异分布，生成多样化、接近真实环境的状态或扰动样本，丰富训练数据，使策略对真实环境有更好的鲁棒性。
2. 样本效率低	辅助生成高质量模拟数据，提升样本多样性和有效性	通过扩散模型生成逼真且多样化的状态转移样本，减少真实环境数据需求，提高训练效率。
3. 安全风险	辅助仿真中生成更接近真实的安全扰动数据，降低实机试错风险	利用扩散模型生成多种环境扰动场景，进行安全的仿真训练，避免实机危险。
4. 策略泛化能力弱	通过生成多样化情景样本，增强策略对未见环境的泛化	多样化生成可以让RL策略在训练时接触更广泛的状态分布，减少策略过拟合，提升现实适应能力。