0%

四足机器人论文学习总结

HiLMa-Res: A General Hierarchical Framework via Residual RL for Combining Quadrupedal Locomotion and Manipulation

✅ 1. 提出了一个可泛化的 loco-manipulation 分层强化学习框架

📌 原理:

  • Loco-manipulation 是 locomotion(行走)+ manipulation(操作)的组合问题,控制空间极大,策略难以学习。
  • 将整体任务分层
    • 低层:Locomotion Controller → 学习行走并追踪任意足端轨迹;
      • 用神经网络实现 PPO 策略 输入:包含机器人当前的运动状态、历史状态、外部扰动、目标轨迹(轨迹隐含在相位变量和周期中); 输出:每只脚的期望接触力 / 足端位置(用于力控或位置控); 训练方法:PPO 强化学习算法; 在 Isaac Gym 中高效并行训练; 加了 domain randomization(随机地形、噪声)以增强泛化性; 特征:一旦训练完成,可以直接部署到真实机器人,无需再训练。
    • 高层:Manipulation Planner → 规划残差轨迹,实现操纵任务。
      • 用神经网络实现轨迹规划策略 输入:状态输入:机器人自身状态、目标信息(如目标位置、速度方向); 或图像输入:深度图、摄像头画面(需加 CNN); 输出:每条腿一条 3 阶 Bezier 曲线的控制点(一般是 3~4 个点); CPG 的周期/相位调节参数(例如走路节奏); 训练方法: 同样使用强化学习算法(PPO/DroQ); 奖励函数任务相关,比如推球的方向、推箱位置、避障是否成功; 可接入现实数据再训练(RLPD),提升现实表现; 特点:通用框架 + 不同任务换不同 reward 即可复用。
    • 用低层网络学“怎么走”;用高层网络学“走向哪里、怎么推、怎么跨”。 #### ✅ 好处:
  • 解耦复杂任务 → 降低学习难度;
  • 低层可重用多个任务,高层策略任务特定,实现模块化和迁移能力

✅ 2. 采用任务无关的运动控制器和任务相关的操作规划器

📌 原理:

  • 低层运动控制器(Locomotion Controller)专注于足端轨迹跟踪,不关心上层任务内容。
  • 高层操作规划器只需要设计足端轨迹(residual),来完成具体任务目标。

✅ 实现方式:

  • 低层训练时,只用模拟中随机生成的轨迹训练它追踪;
  • 高层策略负责设计这些轨迹的“形状”(比如球要往左推 → 左脚向外伸);
  • 二者通过轨迹接口(Bezier + CPG)连接,高层给轨迹,低层负责执行。
  • 实现方式:
    • 低层训练时,只用模拟中随机生成的轨迹训练它追踪;
    • 高层策略负责设计这些轨迹的“形状”(比如球要往左推 → 左脚向外伸);
    • 二者通过轨迹接口(Bezier + CPG)连接,高层给轨迹,低层负责执行。

✅ 3. 利用了残差学习(Bezier 曲线)+ CPG(中央模式发生器)来灵活生成轨迹

📌 原理:

  • CPG(Central Pattern Generator):用于生成周期性足端轨迹,如走路、跳跃;
  • Bezier 曲线:高层策略学习残差,用平滑的曲线微调轨迹,实现操作动作(如推、踢、跨越)。

✅ 实现方式:

  • 控制器最终执行的轨迹 = CPG生成的默认轨迹 + Bezier残差轨迹
  • Bezier 的控制点由高层网络输出,调节轨迹形状;
  • 可用较少参数,生成复杂、多样的足端轨迹

✅ 4. 在多个现实任务上验证了方法的通用性与优越性

📌 实验设计原理:

  • 将高层策略迁移到多个任务上,如:
    1. 带球(dribble)
    2. 踩点避障(stepostone)
    3. 推箱(navload)
  • 低层控制器不变,仅更换高层策略 → 验证了框架的模块化和通用性

✅ 成果:

  • 所有任务均能从仿真零样本直接迁移到现实机器人,性能优于多个对比基线(Reward shaping、Motion tracking、AMP 等)。

✅ 5. 支持视觉、状态、多模态输入,适配多种 RL 算法

📌 原理:

  • 高层策略输入是任务相关的信息,具有很强的扩展性;
    • 可接受:
      • 状态向量(如物体位置、机器人速度等);
      • 视觉输入(如深度图);
      • 多模态(状态 + 视觉);
  • 可适配不同类型的 RL 算法,如 PPO、DroQ、RLPD(现实数据驱动)等。

✅ 实现方式:

  • 高层策略结构灵活:可以是 MLP(状态输入)或 CNN+MLP(图像输入);
  • 训练框架可无缝切换不同策略优化器;
  • 利用现实 fine-tuning(如 RLPD)提升现实成功率和样本效率