想象一个线上服务,几十个 Worker 线程每秒要读取共享配置几百万次,而写入配置的频率可能还不到每分钟 1 次。这时,你给配置指针加了一把 std::shared_mutex 来保护。压测一跑,却发现读吞吐量比不加锁的裸指针访问低了将近一半。奇怪,明明锁没什么竞争,数据也没怎么改,性能怎么就掉这么厉害?
问题的关键在于 shared_mutex 的读锁并非免费午餐。每次调用 lock_shared(),都需要原子地修改一个共享计数器。当几十个核心同时向同一条缓存行(cache line)发起写操作时,缓存一致性协议的开销足以让性能大打折扣。读操作越频繁,这把锁的成本就越高。
有没有办法把读侧的开销降到零?RCU(Read-Copy-Update) 就是为了解决这个问题而生的。它的核心思想很直观:读线程不加锁,直接读取数据;写线程想修改时,则先拷贝一份数据,在副本上完成修改,最后用一个原子操作将全局指针切换到新数据。旧数据需要等到所有正在读它的线程都结束后,才能安全释放。
这篇文章不深究内核中 RCU 的实现细节,而是聚焦一个更实际的问题:在 C++ 服务器框架中,如何用用户态的 RCU 来保护一个频繁读取、极少修改的共享配置对象? 读完本文,你将获得一套可落地的实现骨架,以及五个必须踩准的关键步骤。
先把 RCU 的核心机制拆成三个动作
RCU 本身不是一个具体的数据结构,而是一套同步协议。这套协议可以归纳为三个核心动作:读、拷贝更新、延迟回收。
读侧的任务极其简单:进入临界区,获取指针,使用数据,然后退出临界区。整个过程不修改任何共享变量,不执行任何原子写操作。至于如何实现“进入”和“退出”,我们会在后续步骤中详细展开。
写侧的逻辑分为三步:
- 拷贝:将当前要修改的数据对象完整拷贝一份。
- 修改:在新拷贝的副本上进行所有修改。注意,旧对象原封不动,任何正在读取它的线程都不会受到干扰。
- 替换:通过一次原子存储(store)操作,将全局指针从旧对象切换到新对象。切换完成的一瞬间,所有新来的读线程看到的就都是新配置了。
这就引出了一个关键问题:旧对象什么时候才能被释放?
答案是不能立刻删除。因为在指针切换的那个瞬间,可能还有线程正拿着旧的指针进行读取操作。我们必须确保所有在切换发生前就已经进入读临界区的线程都安全退出后,旧对象才能被回收。这段必须等待的时间窗口,就叫做宽限期(Grace Period)。
宽限期是 RCU 的灵魂,它解决了一个听起来简单、实现起来却很棘手的问题:如何确切地知道“已经没有人再用旧数据了”。
整个流程可以通过下面的时间轴来理解:
时间轴 →
读线程A: ──[读旧配置]──────────────────────
读线程B: ──[读旧配置]────────────────
读线程C: ──[读新配置]──
写线程: 拷贝 → 修改 → 原子替换指针 → 等待宽限期 → 释放旧对象
↑ ↑
新读者从这里 A和B都退出了
开始看新数据 旧对象可以安全删了
从这个模型可以清晰地看出 RCU 的适用边界:读多写少。读侧的开销几乎为零;而写侧则需要承担拷贝成本、等待宽限期的延迟以及延迟释放旧对象这三笔开销。一旦写操作变得频繁,这些累积的成本就可能变得不可接受。
在 C++ 服务器框架里落地用户态 RCU 的 5 个关键步骤
理解了协议的基本原理后,我们进入工程实现环节。以“保护一个共享配置对象”为具体场景,将用户态 RCU 的落地拆解为以下五步。
第一步:用 std::atomic<Config*> 管理全局配置指针
这一步解决的是“发布”问题——写线程完成修改后,如何让读线程安全、完整地看到新数据。
struct Config {
std::string db_host;
int db_port;
int max_connections;
// ... 其他配置字段
};
std::atomic<Config*> g_config{nullptr};
全局只维护这一个原子指针。读线程使用 load(std::memory_order_acquire) 获取指针,写线程使用 store(std::memory_order_release) 更新指针。acquire-release 内存序配对,确保了读线程在拿到指针后,能看到新对象所有字段的完整写入状态,避免了读到“半新半旧”的撕裂数据。
这里有一个常见的错误做法:尝试用 std::shared_ptr 代替裸指针来实现 RCU。但 shared_ptr 的引用计数本身就是原子操作,这会让读侧重新引入我们费尽心思想要消除的缓存行竞争。因此,在对性能极为敏感的场景下,裸指针加手动生命周期管理是更纯粹、更高效的选择。
第二步:实现读侧临界区——thread_local 计数器方案
读侧的目标是:标记“我正在读配置”这件事,但不修改任何全局共享状态。
实现方案是为每个线程维护一个 thread_local 的嵌套计数器:
struct RcuThreadState {
uint64_t read_count = 0; // 嵌套计数
uint64_t pass_count = 0; // 全局代数快照
};
thread_local RcuThreadState t_rcu_state;
void rcu_read_lock() {
t_rcu_state.read_count++;
}
void rcu_read_unlock() {
t_rcu_state.read_count--;
}
read_count > 0 就表示当前线程正处于读临界区内。rcu_read_lock() 和 rcu_read_unlock() 支持嵌套调用,只有在最外层的 unlock 调用时,才真正意味着“我读完了”。
注意,这两个函数里没有任何原子操作,也没有任何对全局状态的写入。它们仅仅是两次 thread_local 整数的加减。这正是 RCU 读侧性能卓越的根本原因:所有的同步压力都被转移到了写侧。
强烈建议使用 RAII 包装器来管理临界区的进入和退出,以防止因提前返回或异常而导致 unlock 被遗漏:
class RcuReadGuard {
public:
RcuReadGuard() { rcu_read_lock(); }
~RcuReadGuard() { rcu_read_unlock(); }
RcuReadGuard(const RcuReadGuard&) = delete;
RcuReadGuard& operator=(const RcuReadGuard&) = delete;
};
使用时非常简洁:
void handle_request() {
RcuReadGuard guard;
const Config* cfg = g_config.load(std::memory_order_acquire);
// 使用 cfg->db_host, cfg->db_port 等处理请求
// guard 析构时会自动调用 rcu_read_unlock()
}
第三步:写侧的三板斧——拷贝、修改、原子替换
写线程更新配置的流程遵循我们之前提到的三个步骤:
void update_config(std::function<void(Config&)> modifier) {
// 1. 拷贝当前配置
Config* old_cfg = g_config.load(std::memory_order_acquire);
Config* new_cfg = new Config(*old_cfg);
// 2. 在新副本上修改
modifier(*new_cfg);
// 3. 原子替换
g_config.store(new_cfg, std::memory_order_release);
// 4. 等待宽限期,然后释放旧对象
rcu_synchronize();
delete old_cfg;
}
这里有两点需要注意。
第一,写侧需要自行处理并发写的问题。如果有多个线程可能同时更新配置,你需要使用一个普通的互斥锁(Mutex)来保护整个写路径(由于写操作极少,Mutex 不会成为瓶颈),或者使用 CAS(Compare-And-Swap)循环进行乐观更新。RCU 解决的是读写同步,写写互斥仍需额外处理。
第二,rcu_synchronize() 是一个阻塞调用,它会等待宽限期结束。如果写线程不能接受阻塞,可以采用 call_rcu() 模式,将旧对象的释放操作注册到一个回调队列中,由后台线程在宽限期结束后异步执行。
第四步:宽限期检测——这是整个实现最难的部分
前三步的机制相对直观。真正让用户态 RCU 实现变得复杂的是宽限期检测:如何知道所有读线程都已经退出了?
Linux 内核可以利用调度器事件来判断,但用户态程序没有这个特权,必须自己想办法。
一种可行的方案是全局代数 + 线程状态扫描:
std::atomic<uint64_t> g_rcu_generation{0};
// 每个线程进入最外层读临界区时记录当前代数
void rcu_read_lock() {
t_rcu_state.read_count++;
if (t_rcu_state.read_count == 1) {
t_rcu_state.pass_count =
g_rcu_generation.load(std::memory_order_acquire);
}
}
// 注意:这是简化示意。实际实现中 pass_count 和 read_count
// 的写入顺序需要配合内存屏障,防止 synchronize() 扫描时
// 看到 read_count>0 但 pass_count 还未更新的中间状态。
void rcu_synchronize() {
uint64_t new_gen = g_rcu_generation.fetch_add(1,
std::memory_order_acq_rel) + 1;
// 扫描所有注册线程,等它们要么不在读临界区,
// 要么已经看到了新代数
for (auto state : all_thread_states()) {
while (state.read_count > 0
&& state.pass_count < new_gen) {
std::this_thread::yield();
}
}
}
解读一下这段逻辑:写线程在替换指针后调用 rcu_synchronize(),首先将全局代数加1,然后遍历检查每个线程的状态。如果某个线程的 read_count > 0(表示它正在读),并且它的 pass_count < new_gen(表示它在进入读临界区时,还没看到这个新代数,即它可能还在读旧数据),那么写线程就必须等待这个线程退出读临界区。
这个方案的优点是读侧仍然只操作 thread_local 变量,没有全局锁开销。代价是 rcu_synchronize() 需要遍历所有活跃线程的状态,但由于写操作频率极低,这个扫描成本通常是可接受的。
在实际工程中,还有一个关键问题:线程注册和注销。你需要维护一个所有线程状态的全局注册表,每个工作线程启动时注册自己的状态指针,退出时必须注销。如果忘记注销,rcu_synchronize() 将永远等待一个已经不存在的线程,导致程序卡死。
第五步:线程注册与生命周期管理
正确实现线程注册,是用户态 RCU 落地的最后一块拼图。
class RcuDomain {
public:
void register_thread() {
std::lock_guard<std::mutex> lk(mu_);
threads_.push_back(&t_rcu_state);
}
void unregister_thread() {
std::lock_guard<std::mutex> lk(mu_);
threads_.erase(
std::remove(threads_.begin(), threads_.end(),
&t_rcu_state),
threads_.end());
}
void synchronize() {
uint64_t new_gen = g_rcu_generation.fetch_add(1,
std::memory_order_acq_rel) + 1;
std::lock_guard<std::mutex> lk(mu_);
for (auto* state : threads_) {
while (state->read_count > 0
&& state->pass_count < new_gen) {
std::this_thread::yield();
}
}
}
private:
std::mutex mu_;
std::vector<RcuThreadState*> threads_;
};
注册和注销同样应该用 RAII 包装起来,确保线程生命周期内的自动管理:
struct RcuThreadRegistrar {
RcuThreadRegistrar() { g_rcu_domain.register_thread(); }
~RcuThreadRegistrar() { g_rcu_domain.unregister_thread(); }
};
// 在每个 worker 线程的入口函数开头放一行
thread_local RcuThreadRegistrar rcu_registrar;
特别注意线程池场景:如果线程池的线程是常驻的(只复用不销毁),那么只需要在首次使用时注册一次。如果线程是动态创建和销毁的,则必须确保在销毁前正确注销。实际上,liburcu 这个成熟的用户态 RCU 库已经完善地处理了这些边角问题。如果项目对性能和稳定性要求极高,直接使用 liburcu 比自己从头实现更为稳妥。
什么时候该用 RCU,什么时候不该
RCU 并非万能钥匙,它有非常明确的适用场景和局限性:
| 条件 |
RCU 合适吗 |
| 读写比 100:1 以上,读是性能热路径 |
非常合适 |
| 配置/路由表/权限表等“读多写极少”的共享数据 |
非常合适 |
| 读写频率差不多 |
不合适,写侧拷贝+等待宽限期的成本太高 |
| 数据结构很大,拷贝一份代价高昂 |
需要权衡,可考虑分段 RCU 或增量更新 |
| 读临界区很长(读完后还要进行数百毫秒计算) |
会显著延长宽限期,导致旧数据回收变慢 |
另外,需要明确的是,RCU 提供的是最终一致性,而非强一致性。在指针被替换后的一小段宽限期内,那些早已进入读临界区的线程看到的仍然是旧数据。如果你的业务逻辑要求“写操作完成后,所有线程必须立即看到新值”,那么 RCU 就不适合。
落地检查清单
如果你决定在项目中引入用户态 RCU,不妨对照下面这份清单检查一遍:
- [ ] 场景评估:共享数据是否真的“读远多于写”?如果读写比低于 10:1,先评估
shared_mutex 或 Seqlock 是否足够。
- [ ] 指针管理:全局指针是否使用了
std::atomic<T*>?Acquire/Release 内存序是否正确配对?
- [ ] 读侧零开销:读临界区是否只操作了
thread_local 变量?如果读路径上还有全局原子写,RCU 的优势就被削弱了。
- [ ] 写侧串行化:写操作是否有保护(如 Mutex),防止多个写线程同时更新?
- [ ] 宽限期等待:
rcu_synchronize() 是否确实等待了所有注册线程退出旧数据的读临界区?
- [ ] 生命周期管理:线程注册/注销的 RAII 机制是否完备?确保线程退出时一定注销,否则
synchronize() 会永久阻塞。
- [ ] 旧数据释放:旧对象是否保证在
synchronize() 返回之后才被释放?
- [ ] 轮子评估:是否评估过自己实现与直接使用成熟库(如 liburcu)的利弊?后者经过了工业级验证,提供了多种优化策略。
RCU 是一项强大的同步原语,它能将读多写少场景下的同步开销降至近乎为零。理解其核心机制并在C/C++ 等系统编程环境中正确落地,是构建高性能、高并发服务器的必备技能之一。希望这份指南能帮助你更好地驾驭这项技术,解决实际开发中的多线程性能瓶颈。如果你在实践中遇到更复杂的场景,欢迎在云栈社区 与更多开发者交流探讨。
