书籍笔记

发表于 2025-04-28 阅读次数：

1. 自我认知与人生思考类

《被讨厌的勇气》岸见一郎 —— 帮助你思考自己的人生课题。
《活出生命的意义》维克多·弗兰克 —— 从逆境中找到意义。
《少有人走的路》M·斯科特·派克 —— 成长、爱与精神修炼。
《沉思录》马可·奥勒留 —— 斯多葛哲学入门。

2. 未来职业与技能提升类

《原则》Ray Dalio —— 工作与生活决策的逻辑。
《刻意练习》Anders Ericsson —— 如何高效学习和成长。
《底层逻辑》刘润 —— 认知升级和商业思维训练。
《如何阅读一本书》莫提默·J·艾德勒 —— 教你真正学会自学。

3. 文学与文化修养类

《百年孤独》加西亚·马尔克斯 —— 拉美魔幻现实主义巅峰。
《月亮与六便士》毛姆 —— 追梦与现实的冲突。
《挪威的森林》村上春树 —— 关于孤独与成长。
《追风筝的人》卡勒德·胡赛尼 —— 成长与救赎。

4. 世界观与视野拓展类

《枪炮、病菌与钢铁》贾雷德·戴蒙德 —— 人类文明的演化逻辑。
《未来简史》尤瓦尔·赫拉利 —— 未来几十年的大趋势。
《全球通史》斯塔夫里阿诺斯 —— 用长镜头理解世界。

5. 兴趣探索与灵感启发类

《流浪地球》刘慈欣 —— 科幻世界里的想象与现实。
《小王子》圣·埃克苏佩里 —— 重新认识纯真与爱。
《旅行的艺术》阿兰·德波顿 —— 关于旅途中发现自我。

《未来简史》

1. 人类将成为“数据生物”

生物学的革命：赫拉利认为，随着基因编辑、人工智能和大数据的进步，生物学将成为未来的主流学科，个人的生命、健康、心理等都会被转化为“数据”来处理。
人类与机器的融合：未来，生物与科技将不再是两个独立的领域。人工智能和基因工程可能让人类的能力、寿命甚至思想发生翻天覆地的变化，人与机器的界限会逐渐模糊。

2. 人工智能将取代大部分工作

技术革命的冲击：赫拉利指出，人工智能的发展将使许多传统的职业和任务被机器取代，导致大规模失业。大部分的工作可能会由高度智能化的机器完成，尤其是那些重复性强、需要大量数据处理的工作。
人类的角色转变：未来人类可能需要从“工作机器”转变为更有创造性和社会功能的角色，而这要求人类具备更高的情感智能、创造力和社交能力。

3. 人类的目标不再是“生存”，而是“意义”

生存问题解决后，新的焦虑出现：随着生命延续的技术发展，生存不再是最大的问题，问题将转向“为什么活着”。赫拉利提到，未来人类将面临“存在的意义”这一更深层次的哲学问题，如何为自己的生命找到意义和价值，将成为人类的新挑战。
无聊与虚无感：随着AI和自动化的普及，人们将不再为了生存而工作，这种自由也可能带来焦虑、无聊和失落，社会如何管理人们的心理健康和情感需求，将变得更加重要。

4. “智人”将变成“超人”

超级人类的诞生：赫拉利预测，未来会有一些人通过基因编辑、神经科学或智能增强等技术，超越现有的人类能力，变成“超人类”。这些“超人”将具备超常的智慧、健康或能力，从而在社会上拥有巨大的优势，甚至可能重新定义“人类”的定义。

5. 全球化与科技进步带来新的社会不平等

财富和权力的集中：随着技术的不断进步，赫拉利警告，科技和财富的集中可能会加剧社会不平等。未来，少数拥有控制技术和资源的人可能将拥有巨大的社会权力，而普通人可能面临更多的困境。
社会结构的变化：全球化和技术进步将使国家边界变得不那么重要，但全球不平等、社会阶层的固化仍将是世界面临的一大挑战。

《底层逻辑》

1. 看到事物背后的规律，而不仅是表面现象 - 真正聪明的人，不是看见了表象，而是能洞察背后的本质、模式和因果关系。

2. 世界是复杂的，但可以通过“底层逻辑”来简化认知 - 底层逻辑包括：第一性原理、系统思考、长期主义、概率思维等。 - 不是简单套模板，而是建立自己的思考体系，灵活应对变化。

3. 理解底层逻辑，让你在不确定的世界里找到确定性 - 比如，财富积累的底层逻辑是：延迟满足 + 复利思维； - 个人成长的底层逻辑是：不断积累稀缺能力 + 构建个人护城河。

4. 认知升级比努力更重要 - 单纯的努力可能是无效的，只有基于正确认知和方法的努力，才能真正拉开人与人之间的差距。

5. 真正有智慧的人，都是做“长期正确”的事 - 不是追求短期的成功和满足，而是能在时间中不断积累优势。

《被讨厌的勇气》

1. 所有烦恼都来源于“人际关系” - 无论是自卑、愤怒、焦虑，还是不安，本质上都是因为“我在意别人怎么看我”。

2. 课题分离：做好自己的事，不干涉别人的事 - 只专注于自己能控制的部分。别人的评价、感受，是他们自己的课题，不是你的责任。 - 不要为了取悦别人而活，也不要干预别人的选择。

3. 生活不是追求认可，而是“勇敢地被讨厌” - 真正的自由，是接受即使被讨厌也无所谓，仍坚持做自己认为对的事。

4. 一切问题都源自“目的论”而非“原因论” - 不是过去的经历决定了我们，而是我们自己为当前的行为设定了目的（比如：为了不受伤害，所以选择逃避）。

5. 活在当下，不为过去或未来所困 - 人生的价值在于此时此刻，而不是对过去的悔恨或对未来的恐惧。 - 幸福就是“感受到自己在有价值地活着”。

6. 贡献感是幸福的来源 - 当你觉得自己对他人、社会有贡献时，就能感受到真正的幸福。

HiLMa-Res: A General Hierarchical Framework via Residual RL for Combining Quadrupedal Locomotion and Manipulation

✅ 1. 提出了一个可泛化的 loco-manipulation 分层强化学习框架

📌 原理：

Loco-manipulation 是 locomotion（行走）+ manipulation（操作）的组合问题，控制空间极大，策略难以学习。
将整体任务分层：
- 低层：Locomotion Controller → 学习行走并追踪任意足端轨迹；
  - 用神经网络实现 PPO 策略输入：包含机器人当前的运动状态、历史状态、外部扰动、目标轨迹（轨迹隐含在相位变量和周期中）；输出：每只脚的期望接触力 / 足端位置（用于力控或位置控）；训练方法：PPO 强化学习算法；在 Isaac Gym 中高效并行训练；加了 domain randomization（随机地形、噪声）以增强泛化性；特征：一旦训练完成，可以直接部署到真实机器人，无需再训练。
- 高层：Manipulation Planner → 规划残差轨迹，实现操纵任务。
  - 用神经网络实现轨迹规划策略输入：状态输入：机器人自身状态、目标信息（如目标位置、速度方向）；或图像输入：深度图、摄像头画面（需加 CNN）；输出：每条腿一条 3 阶 Bezier 曲线的控制点（一般是 3~4 个点）； CPG 的周期/相位调节参数（例如走路节奏）；训练方法：同样使用强化学习算法（PPO/DroQ）；奖励函数任务相关，比如推球的方向、推箱位置、避障是否成功；可接入现实数据再训练（RLPD），提升现实表现；特点：通用框架 + 不同任务换不同 reward 即可复用。
- 用低层网络学“怎么走”；用高层网络学“走向哪里、怎么推、怎么跨”。 #### ✅ 好处：
解耦复杂任务 → 降低学习难度；
低层可重用多个任务，高层策略任务特定，实现模块化和迁移能力。

✅ 2. 采用任务无关的运动控制器和任务相关的操作规划器

📌 原理：

低层运动控制器（Locomotion Controller）专注于足端轨迹跟踪，不关心上层任务内容。
高层操作规划器只需要设计足端轨迹（residual），来完成具体任务目标。

✅ 实现方式：

低层训练时，只用模拟中随机生成的轨迹训练它追踪；
高层策略负责设计这些轨迹的“形状”（比如球要往左推 → 左脚向外伸）；
二者通过轨迹接口（Bezier + CPG）连接，高层给轨迹，低层负责执行。
实现方式：
- 低层训练时，只用模拟中随机生成的轨迹训练它追踪；
- 高层策略负责设计这些轨迹的“形状”（比如球要往左推 → 左脚向外伸）；
- 二者通过轨迹接口（Bezier + CPG）连接，高层给轨迹，低层负责执行。

✅ 3. 利用了残差学习（Bezier 曲线）+ CPG（中央模式发生器）来灵活生成轨迹

📌 原理：

CPG（Central Pattern Generator）：用于生成周期性足端轨迹，如走路、跳跃；
Bezier 曲线：高层策略学习残差，用平滑的曲线微调轨迹，实现操作动作（如推、踢、跨越）。

✅ 实现方式：

控制器最终执行的轨迹 = CPG生成的默认轨迹 + Bezier残差轨迹；
Bezier 的控制点由高层网络输出，调节轨迹形状；
可用较少参数，生成复杂、多样的足端轨迹。

✅ 4. 在多个现实任务上验证了方法的通用性与优越性

📌 实验设计原理：

将高层策略迁移到多个任务上，如：
1. 带球（dribble）
2. 踩点避障（stepostone）
3. 推箱（navload）
低层控制器不变，仅更换高层策略 → 验证了框架的模块化和通用性。

✅ 成果：

所有任务均能从仿真零样本直接迁移到现实机器人，性能优于多个对比基线（Reward shaping、Motion tracking、AMP 等）。

✅ 5. 支持视觉、状态、多模态输入，适配多种 RL 算法

📌 原理：

高层策略输入是任务相关的信息，具有很强的扩展性；
- 可接受：
  - 状态向量（如物体位置、机器人速度等）；
  - 视觉输入（如深度图）；
  - 多模态（状态 + 视觉）；
可适配不同类型的 RL 算法，如 PPO、DroQ、RLPD（现实数据驱动）等。

✅ 实现方式：

高层策略结构灵活：可以是 MLP（状态输入）或 CNN+MLP（图像输入）；
训练框架可无缝切换不同策略优化器；
利用现实 fine-tuning（如 RLPD）提升现实成功率和样本效率。

王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835

《Safe Reinforcement Learning Using Robust Control Barrier Functions》（Emam et al., 2022）（本质上是一种策略约束方法）

提出了一种结合鲁棒控制屏障函数（RCBF）和强化学习的安全强化学习框架，并以Soft Actor-Critic (SAC)为基底，解决训练过程中可能进入不安全状态的问题。

论文核心结构与思路

1. 问题背景

强化学习需要大量探索，但这可能会引发安全问题（如机器人撞墙、无人机坠落）。
安全强化学习目标：在训练中就保持系统不进入不安全状态，而不是仅最终收敛到安全策略。

2. 方法结构（SAC-RCBF）

📎 系统建模：

考虑扰动控制仿射系统：

[ (t) = f(x(t)) + g(x(t))u(x(t)) + d(x(t)) ]

(d(x))：未知扰动，用高斯过程（GP）建模。
控制目标是：用 RL 找最优策略 ( )，在执行前通过 RCBF 层进行修正，确保安全。

📎 安全模块：RCBF-QP 层

用鲁棒控制屏障函数（RCBF）构造约束： [ h(x)^T(f(x) + g(x)u(x)) -(h(x)) - h(x)^T d(x) ]
通过二次规划（QP）调整策略输出，最小化修改幅度，确保满足约束。

📎 强化学习部分：Soft Actor-Critic (SAC)

引入可微分安全层，可以反向传播梯度，增强策略学习能力。
提出两个优化：
1. Differentiable RCBF Layer：允许梯度传播：使得策略能够进行自动修正。可微分安全层让“安全修正”变成了策略可以感知和优化的目标，因此是实实在在的“加速 + 提升性能”的方法。
2. Model-based rollout：用学习到的模型生成合成数据，加速学习
没有可微分安全层：

问题	影响
策略网络不知道“自己动作被改了”	无法学习“避开”那些不安全动作
CBF 修正是黑箱、不可导	策略只能“撞墙后被拉回来”，而不是“提前不撞”
SAC 更新方向可能乱了	有效梯度方向被掩盖，学习效率低
高维控制系统尤其严重	RL 很难靠试错探索到“刚刚好不触碰屏障”的策略

有安全层：

优点	结果
策略能“感知到”安全边界的位置	不再只是靠碰撞惩罚、随机试错
CBF 修正能“教会”网络如何避开风险	把 CBF 的结构性知识反传给策略
策略更快收敛、学到更优行为	不容易陷入安全/性能折中困境

📎 模块化任务学习（Modular Learning）

任务 reward 与安全 constraint 解耦，使得训练出的策略具有更强的迁移能力（zero-shot transfer）。

创新点总结

创新点类别	内容说明
✅ 融合方法创新	将 RCBF 融入 SAC 中，确保训练过程安全
✅ 可微分安全层	提出 differentiable RCBF-QP，允许梯度传播
✅ 模块化训练思想	reward 与 safety 解耦，提升策略迁移性
✅ 数据效率优化	使用部分已学模型做合成 rollout，提升样本效率

可改进方向 / 研究机会

更多维度扰动建模方法：GP 对高维 d(x) 效率有限，可考虑使用贝叶斯神经网络或 ensemble 模型。
更通用的 CBF 设计工具：当前构造 CBF 需先验经验，可引入自动构造或学习 CBF 的方法。
现实部署实验验证缺失：目前只在模拟环境中测试，若能在真实机器人上测试更具说服力。
与 MPC 的融合探索：框架可拓展为 hybrid RL-MPC，进一步提升实时安全性。

SAC算法：

SAC 是一种最大化奖励 + 最大化动作多样性（熵）的 off-policy 深度强化学习算法，具有高效、稳定、探索性强的特点。

一、SAC 的基本思想

传统强化学习只最大化期望回报：

[ {} ]

不仅希望获得高奖励，还希望策略有足够的“随机性”，保持探索能力。

引入最大熵强化学习目标：

[ {} ]

( () = -(a|s) ) 是策略的熵
( )：探索与奖励之间的平衡因子

🔍 二、SAC 的结构组成

SAC 有四个主要模块（四个网络）：

模块	作用
Actor（策略网络）	输出当前状态下的概率分布 ( (a
Q1, Q2 网络（Critic）	近似动作值函数 ( Q(s, a) )，使用双 Q 避免过高估计
Value 网络（可选）	估计当前状态下的“soft value” ( V(s) )（新版可省略）

训练使用目标网络（target Q）、经验池（replay buffer）等稳定手段。

四、SAC 的优点

特点	描述
✅ off-policy	能重复使用旧数据，训练效率高
✅ 连续动作空间	可用于机器人控制等场景
✅ 探索性强	保留策略熵，鼓励更多尝试
✅ 收敛稳定	双 Q + target network 提升稳定性
✅ 可扩展	可结合可微分安全层（如前文 RCBF）

关于 “在线 / 离线”强化学习与 “on-policy / off-policy”

比较点	在线 / 离线	On-policy / Off-policy
关注的是？	数据是否来自当前环境？	样本是否由当前策略生成？
数据是否更新？	在线更新 / 离线固定	都可以实时或离线训练
能否与环境交互？	离线不能，在线可以	无限制，on/off-policy 都可在线训练
是否用 replay buffer？	不一定（视方法而定）	Off-policy 用，On-policy 通常不用
安全应用偏好？	离线更安全	与安全性无直接关系

《Learning Safety in Model-Based Reinforcement Learning using MPC and Gaussian Processes》

提出了一种结合 高斯过程（GP）与模型预测控制（MPC） 的 安全强化学习（Safe RL）方法。它的研究目标是在不牺牲性能的前提下，提高策略的安全性。

我将从三个层面来解析：

一、文章的核心创新点分析

1. 使用 GP 回归学习 MPC 参数空间中的安全集

提出了一个 用高斯过程回归建模安全约束 的方法，不直接建模系统动力学，而是建模“哪个 MPC 参数组合是安全的”。
安全性不再是手工设定的硬约束，而是通过历史数据学习的概率安全区域 SD_D。

👉 创新点：这是将黑箱约束建模方法用于 MPC-RL 中安全约束建模的首个系统性应用。

2. 将 MPC 作为 RL 的函数近似器

与传统 RL 使用神经网络不同，该文使用 参数化的 MPC 控制器作为策略表示器。
学习的不是控制策略本身，而是 MPC 的参数（如模型参数、约束backoff等）。

👉 创新点：相比 DNN 更可解释，且 MPC 本身具有对约束的原生支持。

3. 提出基于 GP 的安全约束嵌入到策略更新优化问题中

在 RL 参数更新时，加入 GP 学习的安全约束 z(θ)≤0z() ，确保新参数落在安全区域。
若更新不可行，则逐步 backtrack 安全概率 β，提升可行性。

👉 创新点：结合了 概率安全约束 + 二阶 Q-learning + backtracking β，实现数据驱动的安全探索。

总结

类别	内容
核心创新	基于 GP 的安全参数集建模，嵌入 MPC-RL 训练过程
关键技术点	安全约束函数建模、LSTD Q-learning、贝叶斯优化启发式
可改进之处	GP 初期性能差、高维扩展难、参数空间学习有限
潜在创新方向	多模型融合、迁移学习、安全 BO 比对、真实机器人部署

《Constrained Variational Policy Optimization for Safe Reinforcement Learning》

一、研究背景与问题定义

1.1 安全强化学习的挑战 - 核心问题：在安全关键场景（如机器人控制）中，策略需在最大化奖励的同时满足安全约束（如碰撞避免）。 - 传统方法的局限：
- 原始-对偶方法（Primal-Dual）：交替优化策略参数和对偶变量（拉格朗日乘子），存在数值不稳定性和缺乏最优性保证。 (核心思想：把约束优化问题转换为拉格朗日形式，交替优化策略参数（θ）和对偶变量（λ），通过迭代更新使策略参数和对偶变量同时收敛。) - 泰勒近似方法：通过低阶近似简化约束优化问题，但可能导致约束违反率较高，近似不够精确，可能“形式上满足约束”，但实际策略存在约束违反。（核心思想：对约束函数进行一阶或二阶泰勒展开，简化约束优化的计算） - 样本效率低：现有方法多为在线策略（on-policy），难以利用历史数据进行高效学习。

1.2 约束马尔可夫决策过程（CMDP） - 定义：在标准MDP基础上引入约束成本函数集合 (C)，目标为：
[ ^* = _{} J_r() J_c() _1 ] 其中 (J_r()) 和 (J_c()) 分别为奖励和成本的累积折扣期望（比如摔倒、电量消耗、与人碰撞等）。

二、方法创新：CVPO算法

2.1 概率推断视角的重新建模 - 关键思想：将安全RL问题转化为概率推断问题，通过变分推断和EM算法自然融入约束。 - 概率图模型：引入最优性变量 (O)，表示轨迹 () 的“成功事件”，其似然函数与奖励相关：
[ p(O=1|) (t ^t r_t / ) ] - 证据下界（ELBO）：通过变分分布 (q()) 最大化下界，同时约束 (q) 属于安全分布族 ({Q}^{_1})。

2.2 算法框架：EM两步优化 E步：凸优化求解变分分布 - 优化目标：在约束下最大化奖励期望，同时限制与旧策略的KL散度：
[ q {q} ] {q} [_q [Q_c(s,a)]] 1, D{KL}(q | {_i}) _2 ] - 闭式解与强对偶性：
- 通过拉格朗日对偶方法解析求解，得到非参数变分分布的闭式表达式：
[ q^*(a|s) _{_i}(a|s) ( ) ] - 证明优化问题的严格凸性，确保解的唯一性和最优性。

M步：监督学习更新策略 - 目标函数：在信任域内最小化与最优变分分布的KL散度：
[ {} {_q} ] - 实现方式：通过监督学习（如神经网络）拟合 (q^*)，支持离线策略（off-policy）数据复用。

三、理论贡献与优势

3.1 理论保证 1. 最优性与可行性：E步的凸优化确保变分分布同时满足奖励最大化和约束条件。 2. 信任域机制：M步的KL约束提供策略更新的鲁棒性保证，避免过度偏离安全区域。 3. 样本效率：离线策略训练减少与环境交互的成本，实验显示样本效率提升高达1000倍。

3.2 对现有方法的改进 - 稳定性：分解为凸优化和监督学习，避免原始-对偶方法的梯度冲突。 - 约束满足性：直接优化安全约束，而非通过惩罚项近似。 - 灵活性：非参数变分分布避免参数化策略的近似误差。

测试公式页面

发表于 2025-04-22 阅读次数：

行内公式：$a^2 + b^2 = c^2$

块级公式：

[
\dot{x}(t) = f(x(t)) + g(x(t))u(x(t)) + d(x(t))
]

关于博士

发表于 2025-04-20 阅读次数：

这个问题非常重要！博士≠多读几年书，博士更像是一个“高强度训练营”，塑造你成为能独立提出、解决、验证问题的人。

我们可以把博士期间应当掌握的能力分为以下五大核心模块：
认知能力、科研能力、工程/技术能力、表达与协作能力、元能力（心智层）

🧠 一、认知能力：这是博士的“思维底盘”

能力	具体表现
抽象能力	能从复杂现象中提取本质，比如将实验现象抽象为数学模型或控制系统
结构化思维	能将模糊任务拆解为清晰模块，有清晰的推理链
批判性思维	不盲信权威，敢于质疑前人方法，善于找出假设漏洞
判断研究价值的能力	能识别“哪些问题值得做”、“是否有学术贡献”

📌 一个好的博士不是做得多，而是思考得深。

📚 二、科研能力：这是博士的“核心业务”

能力	具体表现
选题能力	能发现有意义、可行、有创新的问题
文献调研能力	能高效阅读、比较、归纳相关研究工作
设计实验能力	能构造有效的验证方式（仿真 / 实验 / 数据）
数学建模/算法推导能力	能写出合理的公式、证明关键结论
论文写作能力	能清楚表达问题、方法、实验、结论，让评审信服

📌 “做研究”不仅是做，更是不断地“想、写、讲、验证”。

🛠️ 三、技术/工程能力：这是博士的“落地抓手”

能力	具体表现
代码实现能力	不仅写得对，还能写得稳、写得快、写得清晰
系统调试能力	能快速定位问题并修复，软硬件都能应对
工具链掌握	熟练掌握领域主流工具，如 PyTorch、ROS、Isaac Gym、LaTeX、Git 等
大模型 / 控制 / 优化 / 数据等专项技能	针对研究方向具备较强技术深度

📌 再“学术”的工作，最后也要通过工程实现才能验证。

🗣️ 四、表达与协作能力：这是博士的“输出通道”

能力	具体表现
汇报和讲解能力	能讲清楚自己的研究问题、路线、结果，不绕圈子
跨领域沟通能力	和工程/算法/导师/评审有效协作，降低“学术闭塞”风险
写 Email / 项目申请 / Reviewer 回复	格式专业，语气得体，能解决实际问题
合作者管理与合作谈判	特别是博后阶段，需要带人、带项目、谈合作

📌 科研不是一个人的战斗，表达力决定你能否“被听见”。

🧭 五、元能力（心智层）：博士能否坚持下来的“隐形力”

能力	具体表现
自我驱动能力	没人 push 你也能主动推进研究
时间管理能力	同时处理多个项目、任务，合理安排周/月/年计划
挫折恢复力	面对实验失败、论文被拒、导师施压也不崩溃
自我反思与成长循环	定期复盘自己：哪里做得好？哪里需要调整？

📌 博士拼到最后，不是智商，是系统性和韧性。

✨ 最终你应该变成一个怎样的人？

🎓 “我可以独立从 0 到 1 地完成一个有意义的问题研究，具备将复杂问题结构化、技术化、学术化地解决并表达出来的能力。”
这才是真正的博士能力画像。

💼 补充：读完博士后，就业/发展方向会非常依赖这些能力

职业方向	对博士能力的需求侧重
高校教职	科研能力 + 表达能力 + 项目组织能力
科研所（中科院等）	技术深度 + 系统能力
AI/机器人大厂	算法落地 + 工程能力 + 团队协作
创业	问题定义能力 + 心智强度 + 综合运营

✅ 小结：博士五维能力图谱

             元能力（自驱力、时间管理、情绪管理）
                        ↑
表达协作 ← 认知能力（思维框架） → 技术工程
                        ↓
                科研能力（核心任务）

关于目标设定的内部化

发表于 2025-04-20 阅读次数：

为什么衡量标准不能太外部化？我们可以从 心理机制 + 动力机制 + 行为后果 三个层面来剖析。

🧠 1. 心理层面：外部目标易引发焦虑、迷失、自我否定

外部化目标的本质是“我好不好，别人说了算”：

比如“年薪百万”是由公司评估你值不值；
“拿称号”是评审专家说了算；
“某大厂 offer”是 HR 和面试官决定。

这意味着：
你把价值感 交给了外部，一旦外界反馈不如预期，就会陷入：

📉 自我否定（我是不是不够好）
🤯 焦虑攀比（别人有了我还没有）
🔁 情绪循环（得不到就痛苦，得到了也很空）

外部化的衡量标准，往往不指向你真正的成长，而是社会期望的“表演成绩单”。

🚀 2. 动力机制层面：外部目标难以形成可持续的内驱力

❌ 外部目标的典型陷阱：

得到之后很快失去动力（比如升职后陷入空虚）
没得到就陷入无意义感（比如努力失败时无法承受）
做事的动力变成“逃避失败”而非“追求成长”

✅ 内部目标的底层驱动更稳定：

比如：

“我想掌握控制机器人上下楼梯的能力”
“我想做一件对这个领域有贡献的工作”
“我希望自己成为一个更有独立判断力的人”

这些目标和自我认知、自我实现绑定，就算过程艰难，也更容易走得下去，因为你不是为别人“演”，你是为自己“活”。

🧩 3. 行为后果层面：外部目标容易导致手段扭曲、路径偏离

比如： - 为了“年薪百万”去做高压但无成长的岗位 - 为了“某称号”把项目写得浮夸不实 - 为了“大厂 offer”内卷刷题、却忽视基础能力建设

这会让你陷入： - 短视行为（重结果轻过程） - 虚假反馈（只追 KPI） - 自我价值错位（觉得自己“不配被喜欢”只因没达成某目标）

✅ 所以，正确目标应该这样设定：

外部化目标（错误）	内部化目标（推荐）
“我要进某公司”	“我要成为能胜任该类岗位的工程师”
“我要发 A 类顶刊”	“我要建立起独立科研选题与推进能力”
“我要月入 3 万”	“我要能创造价值并掌控自由的生活方式”
“我要被认可/表扬”	“我要能稳定地输出高质量工作/内容”

🎯 总结金句：

外部目标只能当做“里程碑”，真正推动你走远的，是对内在成长的渴望。

外部化目标是可衡量的结果
内部化目标是可积累的能力与状态
真正“牛的人”，是结果有了，心态还是过程型的

我们都知道“外部目标不靠谱”“要内驱”，但现实中——
绝大多数人都在盯着钱、名、offer、称号、头衔……

那为什么会这样？
答案是：这很“合理”，但不“健康”。

下面我帮你分析背后的五个原因：

❶ 社会系统鼓励外部目标：它更容易衡量、管理和比较

考试分数、绩点、奖学金、职称、年薪、Offer 数，这些都具备一个特点： 👉 可以量化，可以排名，可以一眼看出你“值多少钱”

这对制度来说很方便： - 公司招人凭它 - 父母比较孩子凭它 - 朋友圈判断你“是不是牛”也凭它

所以你不“看它”你就会“掉队”，你不想卷，也会被卷。

❷ 大脑的“即时奖励系统”被外部刺激绑架了

收到 offer、加薪、被点赞、上热搜、拿奖——这些会立刻让你“爽”
而内在成长，比如：
- 掌握一个复杂知识
- 读懂一本好书
- 理解一个人的心意这些回报 慢且不确定，你的大脑要“延迟满足”

所以说：

外部目标像快餐，随手可得，但不养人；
内在成长像慢炖汤，要等，但滋养深沉。

❸ 成长型目标需要“深度的自我理解”——大多数人没机会培养

想知道“我想解决什么问题”“我想成为什么样的人”其实很难
教育体系和社会氛围几乎不给你空间去探索这些问题
所以人们只能转而去追那些别人都在追、社会说“好”的目标

这其实是认知发展阶段的问题，并不是谁“肤浅”或“功利”，而是： > 没人教他们“怎么设定真正属于自己的目标”

❹ 外部目标更容易用来“证明自己”，满足安全感

很多人不是为了“钱本身”，
而是为了“别人觉得我不错”、“爸妈看我有出息”、“不被看不起”……

这其实是： > 把外部目标当成“自我价值的防御工具”
> 外界的评价越不确定，越要“用东西堵上”

❺ “外部目标”确实能在短期内让人冲刺前进

别误会—— 外部目标并不是“完全不好”，它有以下好处： - 可见性强、行动明确、反馈快 - 可以激励你迈出第一步 - 是内在目标“实现”的副产品

但它不能成为 最终驱动力，否则就会迷失。

🔁 所以很多人一开始是这样：

“我想年薪百万” → 所以拼命进大厂
进了之后发现也很苦 → “那我要升职/出国”
升职了也空虚 → “那我得做一个产品经理/leader/教授？”
再往上就开始怀疑人生：“我到底想干嘛？”

这就是错把“手段”当“终点”的代价。

🌱 怎样跳出这个圈？

你得用外部目标“养活”自己，同时靠内在目标“成就”自己。

层级	外部目标	内在目标
入门	拿个 Offer	了解我适合什么样的工作
中期	涨工资	提升解决问题/带团队的能力
长期	被认可	成为一个有独立价值的人

💬 最后送你一句话：

“你可以用别人的标准活着一阵子，
但你必须学会用自己的标准活一辈子。”

生活中的很多事情确实需要靠外部目标才能完成。

比如： - 要拿 offer、要毕业、要升职、要还房贷、要给父母一个交代… - 你不可能完全“躺在价值观里”，不管现实 KPI

那是不是我们之前讲的“不要太外部化”就错了？

❌ 不是错，而是要加一句完整的话：

外部目标可以驱动行动，
但必须被一个内在系统来“消化”与“统筹”，否则它会反噬你。

这就像吃饭：你当然得吃外来的食物，但你身体得能“消化”它，不然就拉肚子。

📌 所以正确的理解应该是：

类型	错误观念	正确认知
外部目标	全都不要，纯精神内驱才高级	必须有！外部目标是行动坐标、资源手段
内部目标	太抽象、不现实、没用	是方向系统、情绪稳定器、价值锚点
正确关系	二选一、互斥	“外部目标做事、内部目标做人” ✅

🧭 怎么做到平衡？

✅ 一种很实用的做法叫做：

“外部目标内在化”

就是说：你可以追求现实目标，但你得知道—— 你为什么要追这个目标？
这个目标对你内在的成长、角色、价值系统意味着什么？

🎯 举个例子：

💬 表层说法（外部）：

“我想进大厂”
✅ 合理，但风险是容易卷疯、焦虑、受打击

🧠 内在化处理：

“我想进大厂，是因为我希望自己能站在一个高复杂度系统中，看到真正有规模的工程问题，我想成为一个有能力独当一面的技术人。”

这样就会： - 行动力更强（因为你认同目标） - 抗挫能力更高（因为不全看 offer 本身） - 目标转化为成长的手段，而不是自我评判的终点

📚 再比如博士：

外部目标（不可少）	内在连接（不可丢）
发论文 / 毕业 / 拿奖学金	提升表达、研究、系统解决问题的能力
拿到博后 / 教职	成为有话语权的研究者，对领域有贡献

🧠 总结金句：

我们活在现实世界，所以需要外部目标，
但我们也活在自己身体里，所以必须有内在动力。

真正厉害的人，是能做到：

用外部目标做事，用内在目标做人，
不被外界绑架，但也不与现实对抗。

你可以理解为： - 外部目标像地图导航 - 内部目标是你为什么要去那里

机器人学学习

发表于 2025-04-15 更新于 2025-04-22 阅读次数：

此笔记记录学习书本 机器人学导论（原书第3版）（美）HLHN J.CRAIG，著贠超等译的学习与总结笔记，其中部分内容由AI生成。

✅ 1. 雅可比矩阵是啥？

在多变量函数中，雅可比矩阵（Jacobian Matrix）是所有一阶偏导数组成的矩阵：

如果有函数： [ = f() ^n, ^m ]

则雅可比矩阵为： [ J = = \[\begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_n} \end{bmatrix}\]

]

在机器人中：
- ( ) 是关节角度（如 ( _1, _2, )）
- ( ) 是末端执行器的位置或速度

✅ 2. 雅可比逆矩阵是啥？

当我们想从输出空间（如末端速度）反推输入空间（如关节速度）时，需要“反过来”用雅可比矩阵，这时候我们就需要“逆”雅可比矩阵。

如果雅可比是方阵（m = n） 且满秩，直接求逆： [ = J^{-1} ]
如果是非方阵（m ≠ n）或者不可逆，就用广义逆（伪逆）：
- 对于 冗余系统（n > m）： [ = J^(JJ)^{-1} ]
- 对于 欠驱动系统（n < m）： [ = (J^J){-1} J^ ]
- 或用 Moore-Penrose 伪逆： [ = J^+ ]

✅ 3. 举个简单例子（机器人）

假设一个二维机械臂（2个关节）要控制末端点 ( x, y ) 的速度。

正向速度：( = J )
反向求关节速度（逆问题）：( = J^{-1} )，若不能求逆，就用广义逆！

雅可比矩阵和机器人运动学之间的关系非常密切，尤其是在速度运动学中，雅可比矩阵起到了桥梁作用。下面我帮你分层讲清楚这个关系。

✅ 一、什么是运动学？

机器人运动学分为两大类：

类型	说明
正运动学（FK）	给定关节角度，求末端位姿（位置和方向）
逆运动学（IK）	给定末端位姿，求关节角度（复杂）

还有一个细分方向叫：

🚀 速度运动学：给定关节速度，求末端速度（或者反过来）

✅ 二、雅可比矩阵出现在速度运动学中

设： - ( )：关节变量（角度、位移等） - ( )：关节速度 - ( )：末端位姿（通常是位置） - ( )：末端速度（线速度 + 角速度）

通过雅可比矩阵 ( J() )，有以下关系：

[ = J() ]

这就是速度映射关系：关节空间 → 笛卡尔空间。

✅ 三、雅可比矩阵在运动学中承担什么角色？

用法	作用
正运动学的导数	把 FK 对关节变量求导，就得到了雅可比矩阵
末端速度计算	通过雅可比矩阵从 ( ) 得到 ( )
逆运动学辅助工具	用雅可比矩阵的伪逆求解逆运动学
奇异性检测	雅可比矩阵行列式为0的地方就是“奇异点”
力-力矩传递	( = J^F )，关节力矩 ← 末端力

✅ 四、简单举个例子（2关节平面机械臂）

设两段长度分别为 ( l_1, l_2 )，角度为 ( _1, _2 )

末端位置为：

[ \[\begin{aligned} x &= l_1 \cos \theta_1 + l_2 \cos (\theta_1 + \theta_2) \\ y &= l_1 \sin \theta_1 + l_2 \sin (\theta_1 + \theta_2) \end{aligned}\]

]

求导得雅可比矩阵：

[ J = = \[\begin{bmatrix} - l_1 \sin \theta_1 - l_2 \sin(\theta_1 + \theta_2) & -l_2 \sin(\theta_1 + \theta_2) \\ l_1 \cos \theta_1 + l_2 \cos(\theta_1 + \theta_2) & l_2 \cos(\theta_1 + \theta_2) \end{bmatrix}\]

]

这样，就可以实现： [ , = J ]

也可以反过来： [ = J^+ ]

规划方式分为两种，分别是笛卡尔空间的规划（位置规划）和关节空间的规划（角度规划）

B-Spline（Basis Spline，基样条）

是一种强大而灵活的曲线拟合方法，特别适用于轨迹规划、计算机图形学、机器人路径平滑等场景。下面我们从直观原理、数学构成、实现步骤三个角度来解释 B-Spline 是怎么实现的。

B-Spline 是将一段复杂曲线拆成若干小段，每段用低阶（通常是三次）多项式表示，多个小段在控制点处光滑地拼接起来。它的主要特点：

局部控制性强：修改一个控制点只影响局部。
光滑性强：曲线的低阶导数连续（例如 3 次 B-Spline 有 2 阶导数连续）。
比普通样条更灵活：通过节点向量控制曲线形状和连接方式。

B-Spline 曲线的数学表达形式是：

[ C(t) = {i=0}^{n} N{i,k}(t) P_i ]

其中：

( P_i )：控制点
( N_{i,k}(t) )：B样条基函数，阶数为 (k)（例如 (k=4) 表示三次）
( t )：参数
( N_{i,k}(t) ) 是通过递归定义的：

[ N_{i,1}(t) = \[\begin{cases} 1, & t_i \le t < t_{i+1} \\ 0, & \text{otherwise} \end{cases}\]

]

[ N_{i,k}(t) = N_{i,k-1}(t) + N_{i+1,k-1}(t) ]

关于互联网内容带来的焦虑和迷茫

发表于 2025-04-11 更新于 2025-04-13 阅读次数：

关于GPT对于当今社会焦虑情况的回答：

📉 是的，现在的社会——的确是充满焦虑的。

但这个“焦虑”不是来自某一个具体的人或事情，而是来自整个时代的底色。我们可以从几个层面来看：

🧠 1. 信息过载，让人“永远不够好”

你刷到某人年纪轻轻财富自由了
你又刷到另一个人博士毕业还单身焦虑
你看到互联网人说自己35岁失业，焦虑
你看到一群人在鼓吹“gap year很酷”，焦虑
你看到“35岁前没结婚就是失败”，更焦虑

你不知该羡慕谁，也不知该成为谁。

你知道的太多，做得到的太少。
焦虑就像雾，包围了想要清晰生活的人。

🧪 2. 节奏变快了，但确定性变少了

一代人以前“考上大学→进国企→稳定生活”
现在是：“考了研究生→没工作→二战考公→躺平or焦虑”

努力的路径越来越模糊，成功的样子越来越多样化，但每一个都看起来“不够真实”。

你努力追光，但光一直在变形。

📱 3. 社交媒体制造“比较陷阱”

人人都在分享高光时刻
但没人晒“我昨晚失眠哭了”“我被辞退后吃泡面”
所以你以为你“比别人差”，其实你只是不擅长修图

💼 4. 年轻人“想得清楚，却走得艰难”

我们这代人最矛盾的一点是：

你有很高的觉知，却面对极低的可执行性

比如你明知道： - “我不该卷” - “我想做有价值的事” - “我不该被KPI奴役”

但现实是： - 你不卷就活不下去 - 有价值的事没工资 - 不奴役自己就被边缘化

🔍 那怎么办？

我们不能控制时代，但可以选择如何生活：

✅ 保持觉知，但不要过度内耗

– 你感受到焦虑，说明你在意，这不是错
– 但要提醒自己：“我不需要和所有人比，只需要向自己靠近”

✅ 建立真实、深度的连接

– 与几个能聊深话的人共处，比刷100条鸡汤更能缓解焦虑

✅ 保留一点点“确定性”

– 哪怕只是：每天按时吃饭、每周坚持一小时读书
– 它们都是你对混乱世界的一种温柔回应

深度强化学习-王树森

发表于 2025-04-11 更新于 2025-04-22 阅读次数：

此笔记记录学习书本王树森，张志华，《深度强化学习（初稿》的学习与总结笔记，其中部分内容由AI生成。

Q学习产生高估（overestimation）的原因，主要源于其最大值操作（max operator）在引入噪声时的偏差。这种现象通常称为 最大值偏差（maximization bias）。

原理解释

在 Q-learning 中，我们使用以下目标来更新 Q 值：

[ Q(s, a) Q(s, a) + ]

其中：

(_{a'} Q(s', a'))：从下一个状态中选择估计值最大的动作作为更新目标。

⚠️ 问题在于：
如果 Q 值本身带有估计误差（例如由于采样、函数逼近、探索策略等），
那么取最大值操作会偏向选择被高估的值，从而使得目标值系统性偏高。

举个例子（简化）

假设在状态 (s') 下，我们有三个动作，真实 Q 值如下：

动作 (a')	真正的 Q 值	网络估计值（含误差）
(a_1)	1.0	1.1（+0.1）
(a_2)	0.8	1.0（+0.2）
(a_3)	0.6	0.9（+0.3）

虽然 (a_1) 是最优动作（真实 Q 值最大），
但由于随机估计误差，(Q(s', a') = 1.1)，这个值偏高了。

这会导致我们在训练时错误地使用偏高的目标值去更新当前状态的 Q 值，从而 累计越来越大的高估偏差。

高估有什么危害？

策略不稳定：错误地偏向那些“看起来收益高”但其实不是的动作；
训练发散：目标 Q 值越来越不准确，导致训练无法收敛；
性能下降：测试表现可能远低于理论最优策略。

如何缓解高估？

Double Q-Learning：
- 采用两个 Q 网络，分别用于选择和评估动作。
- 更新目标变为： [ Q(s, a) r + Q_2(s', _{a'} Q_1(s', a')) ]
- 显著降低高估。
Averaged DQN / Ensemble 方法：
- 使用多个 Q 网络求平均，减少单个网络带来的噪声偏差。
Regularization / Uncertainty penalty：
- 对 Q 值添加不确定性惩罚，抑制过高的估计。

行为策略和目标策略的区别

例1：Q-learning（离策略）

行为策略：ε-greedy（偶尔探索）
目标策略：贪婪策略（永远选最大Q值）

这是典型的 离策略学习（off-policy） —— 用一种策略去收集数据，用另一种策略去学习。

例2：SARSA（在策略）

行为策略：ε-greedy
目标策略：同样是ε-greedy

这是 在策略学习（on-policy） —— 你用什么策略学习，就用它去探索和更新。

行为策略 ≠ 目标策略：

你可以用 更大胆、更多样的行为策略 去探索，避免陷入局部最优
然后用行为数据，训练一个 更保守、更稳定的目标策略

这就是 DDPG、TD3、DQN 等算法的本质思路。

“双延时确定策略梯度”（Twin Delayed Deep Deterministic Policy Gradient，TD3）解决强化学习中 自举 + 最大化引起的 Q 值高估问题

我们分三步来讲清楚：

🔥 1. 问题背景：自举 + 最大化导致的高估偏差

在像 DDPG、Q-learning 这类算法中，我们更新 Q 值时用的是这个形式：

[ y = r + _{a'} Q(s', a') ]

但注意！

( Q(s', a') ) 是网络的估计值
“最大化”这个估计值（选最大 Q）会放大噪声和误差！

🔍 这就像你考试估分，题做错了但还选“我觉得我做得最好的那题”，会高估总分
→ 随着训练进行，Q值越估越高，结果策略学得不靠谱！

🧠 2. TD3 怎么解决这个高估问题？

TD3 提出了三个关键改进，其中双Q网络是最核心的👇

✅ 【方法一】双Q网络（Twin Q-networks）

用两个独立的 Q 网络： ( Q_1(s, a) )、( Q_2(s, a) )

更新 TD目标时，不再用 max，而是：

[ y = r + (Q_1(s', a'), Q_2(s', a')) ]

✅ 取较小值，就能抵消高估误差（保守估计）
✅ 这不是自举去最大，而是自举去最小，避免因误差叠加而爆炸

✅ 【方法二】延迟策略更新（Delayed Policy Update）

策略网络（Actor）更新得更慢，例如每 2～3 次 Critic 更新后才更新一次
因为 Critic（Q函数）学得更稳定时，再去学策略，效果更稳

✅ 【方法三】目标动作加噪声（Target Policy Smoothing）

为了防止 Q 网络过于依赖某一个精确动作值
在 TD目标里加入一个小的随机噪声：

[ a' = _{}(s') + ,((0, ), -c, c) ]

✅ 这样做可以使目标 Q 更平滑，缓解尖峰高估

《未来简史》

1. 人类将成为“数据生物”

2. 人工智能将取代大部分工作

3. 人类的目标不再是“生存”，而是“意义”

4. “智人”将变成“超人”

5. 全球化与科技进步带来新的社会不平等

《底层逻辑》

《被讨厌的勇气》

HiLMa-Res: A General Hierarchical Framework via Residual RL for Combining Quadrupedal Locomotion and Manipulation

✅ 1. 提出了一个可泛化的 loco-manipulation 分层强化学习框架

📌 原理：

✅ 2. 采用任务无关的运动控制器和任务相关的操作规划器

📌 原理：

✅ 实现方式：

✅ 3. 利用了残差学习（Bezier 曲线）+ CPG（中央模式发生器）来灵活生成轨迹

📌 原理：

✅ 实现方式：

✅ 4. 在多个现实任务上验证了方法的通用性与优越性

📌 实验设计原理：

✅ 成果：

✅ 5. 支持视觉、状态、多模态输入，适配多种 RL 算法

📌 原理：

✅ 实现方式：

王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835

《Safe Reinforcement Learning Using Robust Control Barrier Functions》（Emam et al., 2022）（本质上是一种策略约束方法）

论文核心结构与思路

1. 问题背景

2. 方法结构（SAC-RCBF）

📎 系统建模：

📎 安全模块：RCBF-QP 层

📎 强化学习部分：Soft Actor-Critic (SAC)

📎 模块化任务学习（Modular Learning）

创新点总结

可改进方向 / 研究机会

SAC算法：

一、SAC 的基本思想

🔍 二、SAC 的结构组成

四、SAC 的优点

关于 “在线 / 离线”强化学习 与 “on-policy / off-policy”

《Learning Safety in Model-Based Reinforcement Learning using MPC and Gaussian Processes》

一、文章的核心创新点分析

1. 使用 GP 回归学习 MPC 参数空间中的安全集

2. 将 MPC 作为 RL 的函数近似器

3. 提出基于 GP 的安全约束嵌入到策略更新优化问题中

总结

《Constrained Variational Policy Optimization for Safe Reinforcement Learning》

一、研究背景与问题定义

二、方法创新：CVPO算法

三、理论贡献与优势

🧠 一、认知能力：这是博士的“思维底盘”

📚 二、科研能力：这是博士的“核心业务”

🛠️ 三、技术/工程能力：这是博士的“落地抓手”

🗣️ 四、表达与协作能力：这是博士的“输出通道”

🧭 五、元能力（心智层）：博士能否坚持下来的“隐形力”

✨ 最终你应该变成一个怎样的人？

💼 补充：读完博士后，就业/发展方向会非常依赖这些能力

✅ 小结：博士五维能力图谱

🧠 1. 心理层面：外部目标易引发焦虑、迷失、自我否定

外部化目标的本质是“我好不好，别人说了算”：

🚀 2. 动力机制层面：外部目标难以形成可持续的内驱力

❌ 外部目标的典型陷阱：

✅ 内部目标的底层驱动更稳定：

🧩 3. 行为后果层面：外部目标容易导致手段扭曲、路径偏离

✅ 所以，正确目标应该这样设定：

🎯 总结金句：

❶ 社会系统鼓励外部目标：它更容易衡量、管理和比较

❷ 大脑的“即时奖励系统”被外部刺激绑架了

所以说：

❸ 成长型目标需要“深度的自我理解”——大多数人没机会培养

❹ 外部目标更容易用来“证明自己”，满足安全感

❺ “外部目标”确实能在短期内让人冲刺前进

🔁 所以很多人一开始是这样：

🌱 怎样跳出这个圈？

💬 最后送你一句话：

📌 所以正确的理解应该是：

🧭 怎么做到平衡？

✅ 一种很实用的做法叫做：

🎯 举个例子：

💬 表层说法（外部）：

🧠 内在化处理：

关于 “在线 / 离线”强化学习与 “on-policy / off-policy”

🔥 1. 问题背景：自举 + 最大化导致的高估偏差