Zhicheng

Robotics, Learning, and Control

0%

强化学习

RL研究方向

研究方向 原理关键词 典型应用场景
深度强化学习 深度网络 + Q/V/策略逼近 游戏 AI、自动驾驶、机器人
模型预测 RL 学习环境模型 + 规划 控制系统、医疗、能源优化
多智能体 RL 协同/博弈学习 群体机器人、博弈系统
离线 RL 静态数据训练 + 分布偏差处理 医疗、金融、推荐系统
元强化学习 快速适应新任务 跨任务机器人、个性化推荐
模仿/逆强化学习 专家示范学习 / 奖励反推 自动驾驶、人类行为建模
安全强化学习 加入风险或硬约束优化目标 自动驾驶、电力安全、飞行器
RL + 控制 稳定性分析 + 策略优化 动态系统控制、智能制造
RLHF 人类反馈建模 + 策略微调 对话系统、生成式 AI 优化

强化学习算法对比表

算法名称 类型 策略类型 采样方式 输出形式 样本效率 稳定性 适用任务特点
DQN Value-based ε-greedy Off-policy 离散动作的 Q 值 小规模、离散动作空间任务
DDPG Actor-Critic 确定性策略 Off-policy 连续动作(确定输出) 低~中 低维连续控制,需高样本效率
TD3 Actor-Critic 确定性策略 Off-policy 连续动作 改进版 DDPG,更稳定、抗过估
SAC Actor-Critic 随机策略 Off-policy 连续动作分布 高维连续动作任务,收敛快
PPO Policy-based 随机策略 On-policy 动作分布(clip 更新) 很高 稳定性要求高的任务,机器人控制推荐
TRPO Policy-based 随机策略 On-policy 动作分布(约束更新) 很高 数学严谨,训练慢,较少使用
A3C / A2C Actor-Critic 随机策略 On-policy 动作分布 分布式强化学习、简单任务入门
DroQ Actor-Critic 确定性策略 Off-policy 连续动作 很高 很高 样本利用效率极高的 DDPG 衍生版本
RLPD Finetuning 任意 Off-policy 任意策略 + 现实数据 超高 用于现实世界数据微调策略
BC(行为克隆) Imitation 确定性/概率 无采样 模仿专家动作 离线训练,需专家演示
GAIL Imitation 随机策略 On-policy 生成专家策略 模仿专家分布,样本效率低

说明:

  • On-policy:策略只能使用当前最新数据训练(如 PPO、TRPO);
  • Off-policy:可以使用经验回放,样本效率更高(如 DDPG、SAC);
  • 确定性策略:输出一个具体动作(如 DDPG);
  • 随机策略:输出一个动作分布,从中采样(如 PPO、SAC);
  • 样本效率:表示在给定交互次数下学习效果的好坏;
  • 稳定性:表示训练过程中的易调性、收敛性、鲁棒性。

机器人控制:

场景 推荐算法
稳定性优先 PPO, SAC
样本效率优先 SAC, DroQ, DDPG+TD3
现实部署+微调 RLPD, BC + fine-tune
模仿人类演示 BC(行为克隆)、GAIL

在强化学习(Reinforcement Learning, RL)中,使用什么类型的神经网络取决于任务的输入类型复杂程度状态与动作空间的维度,以及是否涉及图像、时序或物理建模。以下是强化学习中常用的神经网络类型,以及它们的典型应用场景:

强化学习中常见的神经网络类型

网络类型 结构形式 适用场景 优点
MLP(多层感知机) 全连接层(Dense) 状态为向量,连续或离散动作空间(机器人状态控制) 简单高效,是最常用的基本结构
CNN(卷积神经网络) 卷积 + 池化 + flatten 图像类输入(如 Atari 游戏、视觉导航) 适合处理图像特征,参数共享,泛化能力强
RNN / LSTM / GRU 有记忆的循环结构 部分可观环境、序列建模(策略记忆、语音、跳跃控制) 能处理时间序列和历史信息
1D CNN(时间卷积) 在时间维度上做卷积 模拟历史状态输入,如 Dual-History Controller 并行效率高,效果接近 RNN,但训练更稳
Transformer(注意力机制) 自注意力结构 大规模策略建模、长期依赖、多任务策略 支持更强的任务解耦、上下文建模(最新前沿趋势)
GNN(图神经网络) 结构化图输入(如多机器人) 多智能体强化学习、操作手控制结构、物理接触图建模 可建模复杂拓扑结构,适合机械系统、多体系统

具体例子

1. MLP(多层感知机)

🟢 最常见于 PPO、DDPG、SAC 等基础 RL 算法

1
2
输入:状态向量 s(如机器人姿态、速度)
结构:Linear → ReLU → Linear → ReLU → 输出动作均值(或Q值)

2. CNN

🟢 用于视觉输入的强化学习任务

  • 如 Atari 游戏(DQN)、导航任务中的图像输入处理;
  • 模仿卷积感受野提取局部空间特征。

3. RNN / LSTM

🟢 用于部分可观状态(POMDP)、序列预测、跳跃控制等时间相关任务

  • 状态之间不是 Markov 的时候(如机器人跳跃),引入 LSTM 记忆可提升稳定性;
  • 一些策略网络中间会插入 LSTM 层。

4. Transformer(最新趋势)

🟢 像 Decision Transformer、Trajectory Transformer 就用了 GPT 式结构建模行为序列

  • 输入:状态 + 动作 + 奖励序列;
  • 模型输出:下一动作预测;
  • 优点是处理长期依赖与多任务泛化很强。

总结一句话:

在强化学习中,最常用的是 MLP(用于结构化状态输入)CNN(用于图像输入),更复杂任务(如记忆、时序、语言、多任务)会使用 LSTM 或 Transformer,而机械结构建模可能用 图神经网络(GNN)