王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835


《Safe Reinforcement Learning Using Robust Control Barrier Functions》(Emam et al., 2022)(本质上是一种策略约束方法)
提出了一种结合鲁棒控制屏障函数(RCBF)和强化学习的安全强化学习框架,并以Soft Actor-Critic (SAC)为基底,解决训练过程中可能进入不安全状态的问题。
论文核心结构与思路
1. 问题背景
- 强化学习需要大量探索,但这可能会引发安全问题(如机器人撞墙、无人机坠落)。
- 安全强化学习目标:在训练中就保持系统不进入不安全状态,而不是仅最终收敛到安全策略。
2. 方法结构(SAC-RCBF)
📎 系统建模:
考虑扰动控制仿射系统:
[ (t) = f(x(t)) + g(x(t))u(x(t)) + d(x(t)) ]
- (d(x)):未知扰动,用高斯过程(GP)建模。
- 控制目标是:用 RL 找最优策略 ( ),在执行前通过 RCBF 层进行修正,确保安全。
📎 安全模块:RCBF-QP 层
- 用鲁棒控制屏障函数(RCBF)构造约束: [ h(x)^T(f(x) + g(x)u(x)) -(h(x)) - h(x)^T d(x) ]
- 通过二次规划(QP)调整策略输出,最小化修改幅度,确保满足约束。
📎 强化学习部分:Soft Actor-Critic (SAC)
- 引入可微分安全层,可以反向传播梯度,增强策略学习能力。
- 提出两个优化:
- Differentiable RCBF Layer:允许梯度传播:使得策略能够进行自动修正。可微分安全层让“安全修正”变成了策略可以感知和优化的目标,因此是实实在在的“加速 + 提升性能”的方法。
- Model-based rollout:用学习到的模型生成合成数据,加速学习
- 没有可微分安全层:
问题 | 影响 |
---|---|
策略网络不知道“自己动作被改了” | 无法学习“避开”那些不安全动作 |
CBF 修正是黑箱、不可导 | 策略只能“撞墙后被拉回来”,而不是“提前不撞” |
SAC 更新方向可能乱了 | 有效梯度方向被掩盖,学习效率低 |
高维控制系统尤其严重 | RL 很难靠试错探索到“刚刚好不触碰屏障”的策略 |
- 有安全层:
优点 | 结果 |
---|---|
策略能“感知到”安全边界的位置 | 不再只是靠碰撞惩罚、随机试错 |
CBF 修正能“教会”网络如何避开风险 | 把 CBF 的结构性知识反传给策略 |
策略更快收敛、学到更优行为 | 不容易陷入安全/性能折中困境 |
📎 模块化任务学习(Modular Learning)
- 任务 reward 与安全 constraint 解耦,使得训练出的策略具有更强的迁移能力(zero-shot transfer)。
创新点总结
创新点类别 | 内容说明 |
---|---|
✅ 融合方法创新 | 将 RCBF 融入 SAC 中,确保训练过程安全 |
✅ 可微分安全层 | 提出 differentiable RCBF-QP,允许梯度传播 |
✅ 模块化训练思想 | reward 与 safety 解耦,提升策略迁移性 |
✅ 数据效率优化 | 使用部分已学模型做合成 rollout,提升样本效率 |
可改进方向 / 研究机会
- 更多维度扰动建模方法:GP 对高维 d(x) 效率有限,可考虑使用贝叶斯神经网络或 ensemble 模型。
- 更通用的 CBF 设计工具:当前构造 CBF 需先验经验,可引入自动构造或学习 CBF 的方法。
- 现实部署实验验证缺失:目前只在模拟环境中测试,若能在真实机器人上测试更具说服力。
- 与 MPC 的融合探索:框架可拓展为 hybrid RL-MPC,进一步提升实时安全性。
SAC算法:
SAC 是一种最大化奖励 + 最大化动作多样性(熵)的 off-policy 深度强化学习算法,具有高效、稳定、探索性强的特点。
一、SAC 的基本思想
传统强化学习只最大化期望回报:
[ {} ]
不仅希望获得高奖励,还希望策略有足够的“随机性”,保持探索能力。
引入最大熵强化学习目标:
[ {} ]
- ( () = -(a|s) ) 是策略的熵
- ( ):探索与奖励之间的平衡因子
🔍 二、SAC 的结构组成
SAC 有四个主要模块(四个网络):
模块 | 作用 |
---|---|
Actor(策略网络) | 输出当前状态下的概率分布 ( (a |
Q1, Q2 网络(Critic) | 近似动作值函数 ( Q(s, a) ),使用双 Q 避免过高估计 |
Value 网络(可选) | 估计当前状态下的“soft value” ( V(s) )(新版可省略) |
训练使用目标网络(target Q)、经验池(replay buffer)等稳定手段。
四、SAC 的优点
特点 | 描述 |
---|---|
✅ off-policy | 能重复使用旧数据,训练效率高 |
✅ 连续动作空间 | 可用于机器人控制等场景 |
✅ 探索性强 | 保留策略熵,鼓励更多尝试 |
✅ 收敛稳定 | 双 Q + target network 提升稳定性 |
✅ 可扩展 | 可结合可微分安全层(如前文 RCBF) |
关于 “在线 / 离线”强化学习 与 “on-policy / off-policy”
比较点 | 在线 / 离线 | On-policy / Off-policy |
---|---|---|
关注的是? | 数据是否来自当前环境? | 样本是否由当前策略生成? |
数据是否更新? | 在线更新 / 离线固定 | 都可以实时或离线训练 |
能否与环境交互? | 离线不能,在线可以 | 无限制,on/off-policy 都可在线训练 |
是否用 replay buffer? | 不一定(视方法而定) | Off-policy 用,On-policy 通常不用 |
安全应用偏好? | 离线更安全 | 与安全性无直接关系 |
《Learning Safety in Model-Based Reinforcement Learning using MPC and Gaussian Processes》
提出了一种结合 高斯过程(GP)与模型预测控制(MPC) 的 安全强化学习(Safe RL)方法。它的研究目标是在不牺牲性能的前提下,提高策略的安全性。
我将从三个层面来解析:
一、文章的核心创新点分析
1. 使用 GP 回归学习 MPC 参数空间中的安全集
- 提出了一个 用高斯过程回归建模安全约束 的方法,不直接建模系统动力学,而是建模“哪个 MPC 参数组合是安全的”。
- 安全性不再是手工设定的硬约束,而是通过历史数据学习的概率安全区域 SD_D。
👉 创新点:这是将黑箱约束建模方法用于 MPC-RL 中安全约束建模的首个系统性应用。
2. 将 MPC 作为 RL 的函数近似器
- 与传统 RL 使用神经网络不同,该文使用 参数化的 MPC 控制器作为策略表示器。
- 学习的不是控制策略本身,而是 MPC 的参数(如模型参数、约束backoff等)。
👉 创新点:相比 DNN 更可解释,且 MPC 本身具有对约束的原生支持。
3. 提出基于 GP 的安全约束嵌入到策略更新优化问题中
- 在 RL 参数更新时,加入 GP 学习的安全约束 z(θ)≤0z() ,确保新参数落在安全区域。
- 若更新不可行,则逐步 backtrack 安全概率 β,提升可行性。
👉 创新点:结合了 概率安全约束 + 二阶 Q-learning + backtracking β,实现数据驱动的安全探索。
总结
类别 | 内容 |
---|---|
核心创新 | 基于 GP 的安全参数集建模,嵌入 MPC-RL 训练过程 |
关键技术点 | 安全约束函数建模、LSTD Q-learning、贝叶斯优化启发式 |
可改进之处 | GP 初期性能差、高维扩展难、参数空间学习有限 |
潜在创新方向 | 多模型融合、迁移学习、安全 BO 比对、真实机器人部署 |
《Constrained Variational Policy Optimization for Safe Reinforcement Learning》
一、研究背景与问题定义
1.1 安全强化学习的挑战 -
核心问题:在安全关键场景(如机器人控制)中,策略需在最大化奖励的同时满足安全约束(如碰撞避免)。
- 传统方法的局限:
-
原始-对偶方法(Primal-Dual):交替优化策略参数和对偶变量(拉格朗日乘子),存在数值不稳定性和缺乏最优性保证。
(核心思想:把约束优化问题转换为拉格朗日形式,交替优化策略参数(θ)和对偶变量(λ),通过迭代更新使策略参数和对偶变量同时收敛。)
-
泰勒近似方法:通过低阶近似简化约束优化问题,但可能导致约束违反率较高,近似不够精确,可能“形式上满足约束”,但实际策略存在约束违反。
(核心思想:对约束函数进行一阶或二阶泰勒展开,简化约束优化的计算)
-
样本效率低:现有方法多为在线策略(on-policy),难以利用历史数据进行高效学习。
1.2 约束马尔可夫决策过程(CMDP) -
定义:在标准MDP基础上引入约束成本函数集合 (C),目标为:
[ ^* = _{} J_r() J_c() _1 ] 其中 (J_r()) 和 (J_c())
分别为奖励和成本的累积折扣期望(比如摔倒、电量消耗、与人碰撞等)。
二、方法创新:CVPO算法
2.1 概率推断视角的重新建模 -
关键思想:将安全RL问题转化为概率推断问题,通过变分推断和EM算法自然融入约束。
- 概率图模型:引入最优性变量 (O),表示轨迹 ()
的“成功事件”,其似然函数与奖励相关:
[ p(O=1|) (t ^t r_t / ) ] - 证据下界(ELBO):通过变分分布 (q())
最大化下界,同时约束 (q) 属于安全分布族 ({Q}^{_1})。
2.2 算法框架:EM两步优化 E步:凸优化求解变分分布 -
优化目标:在约束下最大化奖励期望,同时限制与旧策略的KL散度:
[ q {q} ] {q} [_q [Q_c(s,a)]] 1, D{KL}(q
| {_i}) _2 ] - 闭式解与强对偶性:
- 通过拉格朗日对偶方法解析求解,得到非参数变分分布的闭式表达式:
[ q^*(a|s) _{_i}(a|s) ( ) ] -
证明优化问题的严格凸性,确保解的唯一性和最优性。
M步:监督学习更新策略 -
目标函数:在信任域内最小化与最优变分分布的KL散度:
[ {} {_q} ] - 实现方式:通过监督学习(如神经网络)拟合
(q^*),支持离线策略(off-policy)数据复用。
三、理论贡献与优势
3.1 理论保证 1. 最优性与可行性:E步的凸优化确保变分分布同时满足奖励最大化和约束条件。 2. 信任域机制:M步的KL约束提供策略更新的鲁棒性保证,避免过度偏离安全区域。 3. 样本效率:离线策略训练减少与环境交互的成本,实验显示样本效率提升高达1000倍。
3.2 对现有方法的改进 - 稳定性:分解为凸优化和监督学习,避免原始-对偶方法的梯度冲突。 - 约束满足性:直接优化安全约束,而非通过惩罚项近似。 - 灵活性:非参数变分分布避免参数化策略的近似误差。