王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835

《Safe Reinforcement Learning Using Robust Control Barrier Functions》（Emam et al., 2022）（本质上是一种策略约束方法）

提出了一种结合鲁棒控制屏障函数（RCBF）和强化学习的安全强化学习框架，并以Soft Actor-Critic (SAC)为基底，解决训练过程中可能进入不安全状态的问题。

论文核心结构与思路

1. 问题背景

强化学习需要大量探索，但这可能会引发安全问题（如机器人撞墙、无人机坠落）。
安全强化学习目标：在训练中就保持系统不进入不安全状态，而不是仅最终收敛到安全策略。

2. 方法结构（SAC-RCBF）

📎 系统建模：

考虑扰动控制仿射系统：

[ (t) = f(x(t)) + g(x(t))u(x(t)) + d(x(t)) ]

(d(x))：未知扰动，用高斯过程（GP）建模。
控制目标是：用 RL 找最优策略 ( )，在执行前通过 RCBF 层进行修正，确保安全。

📎 安全模块：RCBF-QP 层

用鲁棒控制屏障函数（RCBF）构造约束： [ h(x)^T(f(x) + g(x)u(x)) -(h(x)) - h(x)^T d(x) ]
通过二次规划（QP）调整策略输出，最小化修改幅度，确保满足约束。

📎 强化学习部分：Soft Actor-Critic (SAC)

引入可微分安全层，可以反向传播梯度，增强策略学习能力。
提出两个优化：
1. Differentiable RCBF Layer：允许梯度传播：使得策略能够进行自动修正。可微分安全层让“安全修正”变成了策略可以感知和优化的目标，因此是实实在在的“加速 + 提升性能”的方法。
2. Model-based rollout：用学习到的模型生成合成数据，加速学习
没有可微分安全层：

问题	影响
策略网络不知道“自己动作被改了”	无法学习“避开”那些不安全动作
CBF 修正是黑箱、不可导	策略只能“撞墙后被拉回来”，而不是“提前不撞”
SAC 更新方向可能乱了	有效梯度方向被掩盖，学习效率低
高维控制系统尤其严重	RL 很难靠试错探索到“刚刚好不触碰屏障”的策略

有安全层：

优点	结果
策略能“感知到”安全边界的位置	不再只是靠碰撞惩罚、随机试错
CBF 修正能“教会”网络如何避开风险	把 CBF 的结构性知识反传给策略
策略更快收敛、学到更优行为	不容易陷入安全/性能折中困境

📎 模块化任务学习（Modular Learning）

任务 reward 与安全 constraint 解耦，使得训练出的策略具有更强的迁移能力（zero-shot transfer）。

创新点总结

创新点类别	内容说明
✅ 融合方法创新	将 RCBF 融入 SAC 中，确保训练过程安全
✅ 可微分安全层	提出 differentiable RCBF-QP，允许梯度传播
✅ 模块化训练思想	reward 与 safety 解耦，提升策略迁移性
✅ 数据效率优化	使用部分已学模型做合成 rollout，提升样本效率

可改进方向 / 研究机会

更多维度扰动建模方法：GP 对高维 d(x) 效率有限，可考虑使用贝叶斯神经网络或 ensemble 模型。
更通用的 CBF 设计工具：当前构造 CBF 需先验经验，可引入自动构造或学习 CBF 的方法。
现实部署实验验证缺失：目前只在模拟环境中测试，若能在真实机器人上测试更具说服力。
与 MPC 的融合探索：框架可拓展为 hybrid RL-MPC，进一步提升实时安全性。

SAC算法：

SAC 是一种最大化奖励 + 最大化动作多样性（熵）的 off-policy 深度强化学习算法，具有高效、稳定、探索性强的特点。

一、SAC 的基本思想

传统强化学习只最大化期望回报：

[ {} ]

不仅希望获得高奖励，还希望策略有足够的“随机性”，保持探索能力。

引入最大熵强化学习目标：

[ {} ]

( () = -(a|s) ) 是策略的熵
( )：探索与奖励之间的平衡因子

🔍 二、SAC 的结构组成

SAC 有四个主要模块（四个网络）：

模块	作用
Actor（策略网络）	输出当前状态下的概率分布 ( (a
Q1, Q2 网络（Critic）	近似动作值函数 ( Q(s, a) )，使用双 Q 避免过高估计
Value 网络（可选）	估计当前状态下的“soft value” ( V(s) )（新版可省略）

训练使用目标网络（target Q）、经验池（replay buffer）等稳定手段。

四、SAC 的优点

特点	描述
✅ off-policy	能重复使用旧数据，训练效率高
✅ 连续动作空间	可用于机器人控制等场景
✅ 探索性强	保留策略熵，鼓励更多尝试
✅ 收敛稳定	双 Q + target network 提升稳定性
✅ 可扩展	可结合可微分安全层（如前文 RCBF）

关于 “在线 / 离线”强化学习与 “on-policy / off-policy”

比较点	在线 / 离线	On-policy / Off-policy
关注的是？	数据是否来自当前环境？	样本是否由当前策略生成？
数据是否更新？	在线更新 / 离线固定	都可以实时或离线训练
能否与环境交互？	离线不能，在线可以	无限制，on/off-policy 都可在线训练
是否用 replay buffer？	不一定（视方法而定）	Off-policy 用，On-policy 通常不用
安全应用偏好？	离线更安全	与安全性无直接关系

《Learning Safety in Model-Based Reinforcement Learning using MPC and Gaussian Processes》

提出了一种结合 高斯过程（GP）与模型预测控制（MPC） 的 安全强化学习（Safe RL）方法。它的研究目标是在不牺牲性能的前提下，提高策略的安全性。

我将从三个层面来解析：

一、文章的核心创新点分析

1. 使用 GP 回归学习 MPC 参数空间中的安全集

提出了一个 用高斯过程回归建模安全约束 的方法，不直接建模系统动力学，而是建模“哪个 MPC 参数组合是安全的”。
安全性不再是手工设定的硬约束，而是通过历史数据学习的概率安全区域 SD_D。

👉 创新点：这是将黑箱约束建模方法用于 MPC-RL 中安全约束建模的首个系统性应用。

2. 将 MPC 作为 RL 的函数近似器

与传统 RL 使用神经网络不同，该文使用 参数化的 MPC 控制器作为策略表示器。
学习的不是控制策略本身，而是 MPC 的参数（如模型参数、约束backoff等）。

👉 创新点：相比 DNN 更可解释，且 MPC 本身具有对约束的原生支持。

3. 提出基于 GP 的安全约束嵌入到策略更新优化问题中

在 RL 参数更新时，加入 GP 学习的安全约束 z(θ)≤0z() ，确保新参数落在安全区域。
若更新不可行，则逐步 backtrack 安全概率 β，提升可行性。

👉 创新点：结合了 概率安全约束 + 二阶 Q-learning + backtracking β，实现数据驱动的安全探索。

总结

类别	内容
核心创新	基于 GP 的安全参数集建模，嵌入 MPC-RL 训练过程
关键技术点	安全约束函数建模、LSTD Q-learning、贝叶斯优化启发式
可改进之处	GP 初期性能差、高维扩展难、参数空间学习有限
潜在创新方向	多模型融合、迁移学习、安全 BO 比对、真实机器人部署

《Constrained Variational Policy Optimization for Safe Reinforcement Learning》

一、研究背景与问题定义

1.1 安全强化学习的挑战 - 核心问题：在安全关键场景（如机器人控制）中，策略需在最大化奖励的同时满足安全约束（如碰撞避免）。 - 传统方法的局限：
- 原始-对偶方法（Primal-Dual）：交替优化策略参数和对偶变量（拉格朗日乘子），存在数值不稳定性和缺乏最优性保证。 (核心思想：把约束优化问题转换为拉格朗日形式，交替优化策略参数（θ）和对偶变量（λ），通过迭代更新使策略参数和对偶变量同时收敛。) - 泰勒近似方法：通过低阶近似简化约束优化问题，但可能导致约束违反率较高，近似不够精确，可能“形式上满足约束”，但实际策略存在约束违反。（核心思想：对约束函数进行一阶或二阶泰勒展开，简化约束优化的计算） - 样本效率低：现有方法多为在线策略（on-policy），难以利用历史数据进行高效学习。

1.2 约束马尔可夫决策过程（CMDP） - 定义：在标准MDP基础上引入约束成本函数集合 (C)，目标为：
[ ^* = _{} J_r() J_c() _1 ] 其中 (J_r()) 和 (J_c()) 分别为奖励和成本的累积折扣期望（比如摔倒、电量消耗、与人碰撞等）。

二、方法创新：CVPO算法

2.1 概率推断视角的重新建模 - 关键思想：将安全RL问题转化为概率推断问题，通过变分推断和EM算法自然融入约束。 - 概率图模型：引入最优性变量 (O)，表示轨迹 () 的“成功事件”，其似然函数与奖励相关：
[ p(O=1|) (t ^t r_t / ) ] - 证据下界（ELBO）：通过变分分布 (q()) 最大化下界，同时约束 (q) 属于安全分布族 ({Q}^{_1})。

2.2 算法框架：EM两步优化 E步：凸优化求解变分分布 - 优化目标：在约束下最大化奖励期望，同时限制与旧策略的KL散度：
[ q {q} ] {q} [_q [Q_c(s,a)]] 1, D{KL}(q | {_i}) _2 ] - 闭式解与强对偶性：
- 通过拉格朗日对偶方法解析求解，得到非参数变分分布的闭式表达式：
[ q^*(a|s) _{_i}(a|s) ( ) ] - 证明优化问题的严格凸性，确保解的唯一性和最优性。

M步：监督学习更新策略 - 目标函数：在信任域内最小化与最优变分分布的KL散度：
[ {} {_q} ] - 实现方式：通过监督学习（如神经网络）拟合 (q^*)，支持离线策略（off-policy）数据复用。

三、理论贡献与优势

3.1 理论保证 1. 最优性与可行性：E步的凸优化确保变分分布同时满足奖励最大化和约束条件。 2. 信任域机制：M步的KL约束提供策略更新的鲁棒性保证，避免过度偏离安全区域。 3. 样本效率：离线策略训练减少与环境交互的成本，实验显示样本效率提升高达1000倍。

3.2 对现有方法的改进 - 稳定性：分解为凸优化和监督学习，避免原始-对偶方法的梯度冲突。 - 约束满足性：直接优化安全约束，而非通过惩罚项近似。 - 灵活性：非参数变分分布避免参数化策略的近似误差。