0%
HiLMa-Res:
A General Hierarchical Framework via Residual RL for Combining
Quadrupedal Locomotion and Manipulation
✅ 1.
提出了一个可泛化的 loco-manipulation
分层强化学习框架
📌 原理:
- Loco-manipulation 是 locomotion(行走)+
manipulation(操作)的组合问题,控制空间极大,策略难以学习。
- 将整体任务分层:
- 低层:Locomotion Controller →
学习行走并追踪任意足端轨迹;
- 用神经网络实现 PPO 策略
输入:包含机器人当前的运动状态、历史状态、外部扰动、目标轨迹(轨迹隐含在相位变量和周期中);
输出:每只脚的期望接触力 / 足端位置(用于力控或位置控); 训练方法:PPO
强化学习算法; 在 Isaac Gym 中高效并行训练; 加了 domain
randomization(随机地形、噪声)以增强泛化性;
特征:一旦训练完成,可以直接部署到真实机器人,无需再训练。
- 高层:Manipulation Planner →
规划残差轨迹,实现操纵任务。
- 用神经网络实现轨迹规划策略
输入:状态输入:机器人自身状态、目标信息(如目标位置、速度方向);
或图像输入:深度图、摄像头画面(需加 CNN); 输出:每条腿一条 3 阶
Bezier 曲线的控制点(一般是 3~4 个点); CPG
的周期/相位调节参数(例如走路节奏); 训练方法:
同样使用强化学习算法(PPO/DroQ);
奖励函数任务相关,比如推球的方向、推箱位置、避障是否成功;
可接入现实数据再训练(RLPD),提升现实表现; 特点:通用框架 +
不同任务换不同 reward 即可复用。
- 用低层网络学“怎么走”;用高层网络学“走向哪里、怎么推、怎么跨”。 ####
✅ 好处:
- 解耦复杂任务 → 降低学习难度;
- 低层可重用多个任务,高层策略任务特定,实现模块化和迁移能力。
✅ 2.
采用任务无关的运动控制器和任务相关的操作规划器
📌 原理:
- 低层运动控制器(Locomotion
Controller)专注于足端轨迹跟踪,不关心上层任务内容。
- 高层操作规划器只需要设计足端轨迹(residual),来完成具体任务目标。
✅ 实现方式:
- 低层训练时,只用模拟中随机生成的轨迹训练它追踪;
- 高层策略负责设计这些轨迹的“形状”(比如球要往左推 →
左脚向外伸);
- 二者通过轨迹接口(Bezier +
CPG)连接,高层给轨迹,低层负责执行。
- 实现方式:
- 低层训练时,只用模拟中随机生成的轨迹训练它追踪;
- 高层策略负责设计这些轨迹的“形状”(比如球要往左推 →
左脚向外伸);
- 二者通过轨迹接口(Bezier +
CPG)连接,高层给轨迹,低层负责执行。
✅ 3.
利用了残差学习(Bezier 曲线)+
CPG(中央模式发生器)来灵活生成轨迹
📌 原理:
- CPG(Central Pattern
Generator):用于生成周期性足端轨迹,如走路、跳跃;
- Bezier
曲线:高层策略学习残差,用平滑的曲线微调轨迹,实现操作动作(如推、踢、跨越)。
✅ 实现方式:
- 控制器最终执行的轨迹 = CPG生成的默认轨迹 +
Bezier残差轨迹;
- Bezier 的控制点由高层网络输出,调节轨迹形状;
- 可用较少参数,生成复杂、多样的足端轨迹。
✅ 4.
在多个现实任务上验证了方法的通用性与优越性
📌 实验设计原理:
- 将高层策略迁移到多个任务上,如:
- 带球(dribble)
- 踩点避障(stepostone)
- 推箱(navload)
- 低层控制器不变,仅更换高层策略 →
验证了框架的模块化和通用性。
✅ 成果:
- 所有任务均能从仿真零样本直接迁移到现实机器人,性能优于多个对比基线(Reward
shaping、Motion tracking、AMP 等)。
✅ 5.
支持视觉、状态、多模态输入,适配多种 RL 算法
📌 原理:
- 高层策略输入是任务相关的信息,具有很强的扩展性;
- 可接受:
- 状态向量(如物体位置、机器人速度等);
- 视觉输入(如深度图);
- 多模态(状态 + 视觉);
- 可适配不同类型的 RL 算法,如
PPO、DroQ、RLPD(现实数据驱动)等。
✅ 实现方式:
- 高层策略结构灵活:可以是 MLP(状态输入)或
CNN+MLP(图像输入);
- 训练框架可无缝切换不同策略优化器;
- 利用现实 fine-tuning(如
RLPD)提升现实成功率和样本效率。