RL研究方向
| 研究方向 | 原理关键词 | 典型应用场景 |
|---|---|---|
| 深度强化学习 | 深度网络 + Q/V/策略逼近 | 游戏 AI、自动驾驶、机器人 |
| 模型预测 RL | 学习环境模型 + 规划 | 控制系统、医疗、能源优化 |
| 多智能体 RL | 协同/博弈学习 | 群体机器人、博弈系统 |
| 离线 RL | 静态数据训练 + 分布偏差处理 | 医疗、金融、推荐系统 |
| 元强化学习 | 快速适应新任务 | 跨任务机器人、个性化推荐 |
| 模仿/逆强化学习 | 专家示范学习 / 奖励反推 | 自动驾驶、人类行为建模 |
| 安全强化学习 | 加入风险或硬约束优化目标 | 自动驾驶、电力安全、飞行器 |
| RL + 控制 | 稳定性分析 + 策略优化 | 动态系统控制、智能制造 |
| RLHF | 人类反馈建模 + 策略微调 | 对话系统、生成式 AI 优化 |
强化学习算法对比表
| 算法名称 | 类型 | 策略类型 | 采样方式 | 输出形式 | 样本效率 | 稳定性 | 适用任务特点 |
|---|---|---|---|---|---|---|---|
| DQN | Value-based | ε-greedy | Off-policy | 离散动作的 Q 值 | 中 | 高 | 小规模、离散动作空间任务 |
| DDPG | Actor-Critic | 确定性策略 | Off-policy | 连续动作(确定输出) | 高 | 低~中 | 低维连续控制,需高样本效率 |
| TD3 | Actor-Critic | 确定性策略 | Off-policy | 连续动作 | 高 | 高 | 改进版 DDPG,更稳定、抗过估 |
| SAC | Actor-Critic | 随机策略 | Off-policy | 连续动作分布 | 高 | 高 | 高维连续动作任务,收敛快 |
| PPO | Policy-based | 随机策略 | On-policy | 动作分布(clip 更新) | 中 | 很高 | 稳定性要求高的任务,机器人控制推荐 |
| TRPO | Policy-based | 随机策略 | On-policy | 动作分布(约束更新) | 低 | 很高 | 数学严谨,训练慢,较少使用 |
| A3C / A2C | Actor-Critic | 随机策略 | On-policy | 动作分布 | 中 | 中 | 分布式强化学习、简单任务入门 |
| DroQ | Actor-Critic | 确定性策略 | Off-policy | 连续动作 | 很高 | 很高 | 样本利用效率极高的 DDPG 衍生版本 |
| RLPD | Finetuning | 任意 | Off-policy | 任意策略 + 现实数据 | 超高 | 高 | 用于现实世界数据微调策略 |
| BC(行为克隆) | Imitation | 确定性/概率 | 无采样 | 模仿专家动作 | 高 | 高 | 离线训练,需专家演示 |
| GAIL | Imitation | 随机策略 | On-policy | 生成专家策略 | 低 | 中 | 模仿专家分布,样本效率低 |
说明:
- On-policy:策略只能使用当前最新数据训练(如 PPO、TRPO);
- Off-policy:可以使用经验回放,样本效率更高(如 DDPG、SAC);
- 确定性策略:输出一个具体动作(如 DDPG);
- 随机策略:输出一个动作分布,从中采样(如 PPO、SAC);
- 样本效率:表示在给定交互次数下学习效果的好坏;
- 稳定性:表示训练过程中的易调性、收敛性、鲁棒性。
机器人控制:
| 场景 | 推荐算法 |
|---|---|
| 稳定性优先 | PPO, SAC |
| 样本效率优先 | SAC, DroQ, DDPG+TD3 |
| 现实部署+微调 | RLPD, BC + fine-tune |
| 模仿人类演示 | BC(行为克隆)、GAIL |
在强化学习(Reinforcement Learning, RL)中,使用什么类型的神经网络取决于任务的输入类型、复杂程度、状态与动作空间的维度,以及是否涉及图像、时序或物理建模。以下是强化学习中常用的神经网络类型,以及它们的典型应用场景:
强化学习中常见的神经网络类型
| 网络类型 | 结构形式 | 适用场景 | 优点 |
|---|---|---|---|
| MLP(多层感知机) | 全连接层(Dense) | 状态为向量,连续或离散动作空间(机器人状态控制) | 简单高效,是最常用的基本结构 |
| CNN(卷积神经网络) | 卷积 + 池化 + flatten | 图像类输入(如 Atari 游戏、视觉导航) | 适合处理图像特征,参数共享,泛化能力强 |
| RNN / LSTM / GRU | 有记忆的循环结构 | 部分可观环境、序列建模(策略记忆、语音、跳跃控制) | 能处理时间序列和历史信息 |
| 1D CNN(时间卷积) | 在时间维度上做卷积 | 模拟历史状态输入,如 Dual-History Controller | 并行效率高,效果接近 RNN,但训练更稳 |
| Transformer(注意力机制) | 自注意力结构 | 大规模策略建模、长期依赖、多任务策略 | 支持更强的任务解耦、上下文建模(最新前沿趋势) |
| GNN(图神经网络) | 结构化图输入(如多机器人) | 多智能体强化学习、操作手控制结构、物理接触图建模 | 可建模复杂拓扑结构,适合机械系统、多体系统 |
具体例子
1. MLP(多层感知机)
🟢 最常见于 PPO、DDPG、SAC 等基础 RL 算法
1 | 输入:状态向量 s(如机器人姿态、速度) |
2. CNN
🟢 用于视觉输入的强化学习任务
- 如 Atari 游戏(DQN)、导航任务中的图像输入处理;
- 模仿卷积感受野提取局部空间特征。
3. RNN / LSTM
🟢 用于部分可观状态(POMDP)、序列预测、跳跃控制等时间相关任务
- 状态之间不是 Markov 的时候(如机器人跳跃),引入 LSTM 记忆可提升稳定性;
- 一些策略网络中间会插入 LSTM 层。
4. Transformer(最新趋势)
🟢 像 Decision Transformer、Trajectory Transformer 就用了 GPT 式结构建模行为序列
- 输入:状态 + 动作 + 奖励序列;
- 模型输出:下一动作预测;
- 优点是处理长期依赖与多任务泛化很强。
总结一句话:
在强化学习中,最常用的是 MLP(用于结构化状态输入) 和 CNN(用于图像输入),更复杂任务(如记忆、时序、语言、多任务)会使用 LSTM 或 Transformer,而机械结构建模可能用 图神经网络(GNN)。