HiLMa-Res: A General Hierarchical Framework via Residual RL for Combining Quadrupedal Locomotion and Manipulation

✅ 1. 提出了一个可泛化的 loco-manipulation 分层强化学习框架

📌 原理：

Loco-manipulation 是 locomotion（行走）+ manipulation（操作）的组合问题，控制空间极大，策略难以学习。
将整体任务分层：
- 低层：Locomotion Controller → 学习行走并追踪任意足端轨迹；
  - 用神经网络实现 PPO 策略输入：包含机器人当前的运动状态、历史状态、外部扰动、目标轨迹（轨迹隐含在相位变量和周期中）；输出：每只脚的期望接触力 / 足端位置（用于力控或位置控）；训练方法：PPO 强化学习算法；在 Isaac Gym 中高效并行训练；加了 domain randomization（随机地形、噪声）以增强泛化性；特征：一旦训练完成，可以直接部署到真实机器人，无需再训练。
- 高层：Manipulation Planner → 规划残差轨迹，实现操纵任务。
  - 用神经网络实现轨迹规划策略输入：状态输入：机器人自身状态、目标信息（如目标位置、速度方向）；或图像输入：深度图、摄像头画面（需加 CNN）；输出：每条腿一条 3 阶 Bezier 曲线的控制点（一般是 3~4 个点）； CPG 的周期/相位调节参数（例如走路节奏）；训练方法：同样使用强化学习算法（PPO/DroQ）；奖励函数任务相关，比如推球的方向、推箱位置、避障是否成功；可接入现实数据再训练（RLPD），提升现实表现；特点：通用框架 + 不同任务换不同 reward 即可复用。
- 用低层网络学“怎么走”；用高层网络学“走向哪里、怎么推、怎么跨”。 #### ✅ 好处：
解耦复杂任务 → 降低学习难度；
低层可重用多个任务，高层策略任务特定，实现模块化和迁移能力。

✅ 2. 采用任务无关的运动控制器和任务相关的操作规划器

📌 原理：

低层运动控制器（Locomotion Controller）专注于足端轨迹跟踪，不关心上层任务内容。
高层操作规划器只需要设计足端轨迹（residual），来完成具体任务目标。

✅ 实现方式：

低层训练时，只用模拟中随机生成的轨迹训练它追踪；
高层策略负责设计这些轨迹的“形状”（比如球要往左推 → 左脚向外伸）；
二者通过轨迹接口（Bezier + CPG）连接，高层给轨迹，低层负责执行。
实现方式：
- 低层训练时，只用模拟中随机生成的轨迹训练它追踪；
- 高层策略负责设计这些轨迹的“形状”（比如球要往左推 → 左脚向外伸）；
- 二者通过轨迹接口（Bezier + CPG）连接，高层给轨迹，低层负责执行。

✅ 3. 利用了残差学习（Bezier 曲线）+ CPG（中央模式发生器）来灵活生成轨迹

📌 原理：

CPG（Central Pattern Generator）：用于生成周期性足端轨迹，如走路、跳跃；
Bezier 曲线：高层策略学习残差，用平滑的曲线微调轨迹，实现操作动作（如推、踢、跨越）。

✅ 实现方式：

控制器最终执行的轨迹 = CPG生成的默认轨迹 + Bezier残差轨迹；
Bezier 的控制点由高层网络输出，调节轨迹形状；
可用较少参数，生成复杂、多样的足端轨迹。

✅ 4. 在多个现实任务上验证了方法的通用性与优越性

📌 实验设计原理：

将高层策略迁移到多个任务上，如：
1. 带球（dribble）
2. 踩点避障（stepostone）
3. 推箱（navload）
低层控制器不变，仅更换高层策略 → 验证了框架的模块化和通用性。

✅ 成果：

所有任务均能从仿真零样本直接迁移到现实机器人，性能优于多个对比基线（Reward shaping、Motion tracking、AMP 等）。

✅ 5. 支持视觉、状态、多模态输入，适配多种 RL 算法

📌 原理：

高层策略输入是任务相关的信息，具有很强的扩展性；
- 可接受：
  - 状态向量（如物体位置、机器人速度等）；
  - 视觉输入（如深度图）；
  - 多模态（状态 + 视觉）；
可适配不同类型的 RL 算法，如 PPO、DroQ、RLPD（现实数据驱动）等。

✅ 实现方式：

高层策略结构灵活：可以是 MLP（状态输入）或 CNN+MLP（图像输入）；
训练框架可无缝切换不同策略优化器；
利用现实 fine-tuning（如 RLPD）提升现实成功率和样本效率。

Zhicheng

四足机器人论文学习总结

HiLMa-Res: A General Hierarchical Framework via Residual RL for Combining Quadrupedal Locomotion and Manipulation

✅ 1. 提出了一个可泛化的 loco-manipulation 分层强化学习框架

📌 原理：

✅ 2. 采用任务无关的运动控制器和任务相关的操作规划器

📌 原理：

✅ 实现方式：

✅ 3. 利用了残差学习（Bezier 曲线）+ CPG（中央模式发生器）来灵活生成轨迹

📌 原理：

✅ 实现方式：

✅ 4. 在多个现实任务上验证了方法的通用性与优越性

📌 实验设计原理：

✅ 成果：

✅ 5. 支持视觉、状态、多模态输入，适配多种 RL 算法

📌 原理：

✅ 实现方式：