强化学习 | Zhicheng

RL研究方向

算法名称	类型	策略类型	采样方式	输出形式	样本效率	稳定性	适用任务特点
DQN	Value-based	ε-greedy	Off-policy	离散动作的 Q 值	中	高	小规模、离散动作空间任务
DDPG	Actor-Critic	确定性策略	Off-policy	连续动作（确定输出）	高	低~中	低维连续控制，需高样本效率
TD3	Actor-Critic	确定性策略	Off-policy	连续动作	高	高	改进版 DDPG，更稳定、抗过估
SAC	Actor-Critic	随机策略	Off-policy	连续动作分布	高	高	高维连续动作任务，收敛快
PPO	Policy-based	随机策略	On-policy	动作分布（clip 更新）	中	很高	稳定性要求高的任务，机器人控制推荐
TRPO	Policy-based	随机策略	On-policy	动作分布（约束更新）	低	很高	数学严谨，训练慢，较少使用
A3C / A2C	Actor-Critic	随机策略	On-policy	动作分布	中	中	分布式强化学习、简单任务入门
DroQ	Actor-Critic	确定性策略	Off-policy	连续动作	很高	很高	样本利用效率极高的 DDPG 衍生版本
RLPD	Finetuning	任意	Off-policy	任意策略 + 现实数据	超高	高	用于现实世界数据微调策略
BC（行为克隆）	Imitation	确定性/概率	无采样	模仿专家动作	高	高	离线训练，需专家演示
GAIL	Imitation	随机策略	On-policy	生成专家策略	低	中	模仿专家分布，样本效率低

在强化学习（Reinforcement Learning, RL）中，使用什么类型的神经网络取决于任务的输入类型、复杂程度、状态与动作空间的维度，以及是否涉及图像、时序或物理建模。以下是强化学习中常用的神经网络类型，以及它们的典型应用场景：

网络类型	结构形式	适用场景	优点
MLP（多层感知机）	全连接层（Dense）	状态为向量，连续或离散动作空间（机器人状态控制）	简单高效，是最常用的基本结构
CNN（卷积神经网络）	卷积 + 池化 + flatten	图像类输入（如 Atari 游戏、视觉导航）	适合处理图像特征，参数共享，泛化能力强
RNN / LSTM / GRU	有记忆的循环结构	部分可观环境、序列建模（策略记忆、语音、跳跃控制）	能处理时间序列和历史信息
1D CNN（时间卷积）	在时间维度上做卷积	模拟历史状态输入，如 Dual-History Controller	并行效率高，效果接近 RNN，但训练更稳
Transformer（注意力机制）	自注意力结构	大规模策略建模、长期依赖、多任务策略	支持更强的任务解耦、上下文建模（最新前沿趋势）
GNN（图神经网络）	结构化图输入（如多机器人）	多智能体强化学习、操作手控制结构、物理接触图建模	可建模复杂拓扑结构，适合机械系统、多体系统

🟢 最常见于 PPO、DDPG、SAC 等基础 RL 算法

1 2	输入：状态向量 s（如机器人姿态、速度）结构：Linear → ReLU → Linear → ReLU → 输出动作均值（或Q值）

🟢 用于视觉输入的强化学习任务

🟢 用于部分可观状态（POMDP）、序列预测、跳跃控制等时间相关任务

🟢 像 Decision Transformer、Trajectory Transformer 就用了 GPT 式结构建模行为序列

在强化学习中，最常用的是 MLP（用于结构化状态输入） 和 CNN（用于图像输入），更复杂任务（如记忆、时序、语言、多任务）会使用 LSTM 或 Transformer，而机械结构建模可能用 图神经网络（GNN）。