NUMA 架构在分布式系统中的优化：榨干每一滴性能

2025/3/13 12:09:21 56 0 0 0

啥是 NUMA？先来个“忆苦思甜”

分布式系统，NUMA 的“用武之地”

NUMA 优化，从“数据局部性”下手

1. 数据分区，把“数据”分到“家”

2. 任务调度，让“活儿”找“数据”

3. 内存分配，精打细算“每一寸土地”

4. 缓存策略，让“热数据”更“热”

5. 锁优化，减少“争抢”

6. NUMA 感知工具，事半功倍

举个栗子：Redis 在 NUMA 架构下的优化

总结：NUMA 优化，是个“细致活”

大家好，我是你们的赛博老铁，今天咱们来聊聊 NUMA（Non-Uniform Memory Access，非统一内存访问）架构在分布式系统中的优化，保证干货满满，让你一次看个够！

啥是 NUMA？先来个“忆苦思甜”

在聊 NUMA 之前，咱先得说说 SMP（Symmetric Multi-Processor，对称多处理器）架构。想象一下，早些年，一台服务器里多个 CPU“共享”一个内存，就像几个人围着一个饭桌吃饭。这饭桌（内存）就成了瓶颈，人（CPU）多了，抢饭（访问内存）就慢了，效率自然就低。

为了解决这个问题，NUMA 架构横空出世。NUMA 把内存分成多个“节点”（Node），每个 CPU 也有自己的“本地内存”（Local Memory）。CPU 访问自己的本地内存，那速度，嗖嗖的！但如果要去访问别的 CPU 的“远端内存”（Remote Memory），那可就慢多了，毕竟隔着“千山万水”呢。

这就好比，现在每个人都有了自己的小饭桌，吃自己碗里的（访问本地内存）贼快，但想去别人桌上夹菜（访问远端内存），那可就费劲了。

分布式系统，NUMA 的“用武之地”

分布式系统，顾名思义，就是把一堆服务器“攒”起来，一起干活。这些服务器，往往都是 NUMA 架构的。对于分布式系统开发者来说，怎么用好 NUMA，可是个大问题。用好了，性能起飞；用不好，还不如单机呢！

为啥这么说？你想啊，分布式系统里，数据经常需要在不同服务器之间传来传去。如果没考虑 NUMA，数据一会儿在 A 服务器的本地内存，一会儿又跑到 B 服务器的远端内存，这来回折腾，CPU 都累“吐血”了，性能能好吗？

NUMA 优化，从“数据局部性”下手

所以，NUMA 优化的核心，就是“数据局部性”（Data Locality）。说白了，就是尽量让 CPU 访问自己的本地内存，减少远端内存访问。这就像，尽量吃自己碗里的饭，少去别人桌上夹菜。

怎么做到呢？咱们以分布式数据库和缓存系统为例，掰开了揉碎了讲讲。

1. 数据分区，把“数据”分到“家”

分布式数据库，数据量通常都很大，一台服务器肯定放不下。所以，得把数据“切”成一块一块的，放到不同的服务器上。这个“切”的过程，就叫“数据分区”（Data Partitioning）。

分区的时候，就要考虑 NUMA 了。尽量把相关的数据，放到同一个 NUMA 节点上。比如，一个用户的信息，包括姓名、年龄、地址等等，这些数据最好都放到同一个节点上。这样，当 CPU 处理这个用户的信息时，就可以直接访问本地内存，不用到处“跑腿”了。

2. 任务调度，让“活儿”找“数据”

数据分好“家”了，接下来就是怎么处理这些数据了。在分布式系统里，通常会有很多“任务”（Task）需要执行。这些任务，可能是查询数据、更新数据等等。

任务调度的时候，也要考虑 NUMA。尽量把任务分配给数据所在的节点。比如，一个任务需要查询某个用户的信息，那就把这个任务分配给存储这个用户信息的节点。这样，CPU 就可以直接访问本地内存，不用“舍近求远”了。

3. 内存分配，精打细算“每一寸土地”

在 NUMA 架构下，内存分配也是个技术活。如果随便分配，很容易导致“内存碎片”，降低内存利用率。更严重的是，如果一个线程分配的内存，大部分都在远端节点，那可就惨了，性能会大打折扣。

所以，在分配内存的时候，要尽量从当前 CPU 的本地节点分配。有些编程语言和库，提供了 NUMA 感知的内存分配 API，可以帮助你更好地管理内存。

4. 缓存策略，让“热数据”更“热”

缓存，是提高系统性能的“利器”。在分布式系统中，缓存通常也是分布式的，每个节点都有自己的缓存。

缓存策略，也要考虑 NUMA。尽量把“热数据”（经常被访问的数据）缓存到访问它的 CPU 的本地节点。这样，CPU 就可以直接从本地缓存读取数据，不用访问远端内存，甚至不用访问磁盘了。

5. 锁优化，减少“争抢”

在多线程环境下，为了保证数据的一致性，经常需要使用“锁”（Lock）。但是，锁的使用，也会带来性能开销。尤其是在 NUMA 架构下，如果多个线程频繁地争抢同一个锁，而且这个锁所在的内存还在远端节点，那性能可就“惨不忍睹”了。

所以，要尽量减少锁的争抢。比如，可以使用“细粒度锁”（Fine-Grained Lock），把一个大锁拆成多个小锁，减少锁的冲突。还可以使用“无锁数据结构”（Lock-Free Data Structure），避免使用锁。

6. NUMA 感知工具，事半功倍

工欲善其事，必先利其器。有一些工具，可以帮助你更好地了解和优化 NUMA 相关的性能问题。

numactl： 这是 Linux 系统自带的一个工具，可以用来查看 NUMA 节点的信息，以及控制进程和线程的 CPU 亲和性（CPU Affinity）和内存策略。
perf： 这也是 Linux 系统自带的一个性能分析工具，可以用来分析 CPU 的缓存命中率、内存访问延迟等指标。
Intel VTune Amplifier： 这是 Intel 提供的一个强大的性能分析工具，可以用来分析 NUMA 相关的性能瓶颈。

举个栗子：Redis 在 NUMA 架构下的优化

Redis，大家都不陌生，一个高性能的 key-value 缓存数据库。Redis 本身是单线程的，但是可以通过多进程的方式，来充分利用多核 CPU。

在 NUMA 架构下，可以把多个 Redis 进程绑定到不同的 NUMA 节点上。每个 Redis 进程只负责处理一部分 key，并且尽量把这些 key 对应的数据存储在本地节点的内存中。这样，就可以减少跨节点访问，提高性能。

总结：NUMA 优化，是个“细致活”

NUMA 优化，不是一蹴而就的，需要从多个方面入手，精打细算，才能榨干每一滴性能。记住“数据局部性”这个核心原则，尽量让 CPU 访问自己的本地内存，减少远端内存访问。同时，也要善用工具，分析和定位性能瓶颈。

希望这篇文章，能让你对 NUMA 架构在分布式系统中的优化，有一个更深入的了解。如果你还有什么问题，或者有更好的优化技巧，欢迎在评论区留言，咱们一起交流学习！

赛博老铁 NUMA 分布式系统性能优化

NUMA 架构在分布式系统中的优化：榨干每一滴性能

啥是 NUMA？先来个“忆苦思甜”

分布式系统，NUMA 的“用武之地”

NUMA 优化，从“数据局部性”下手

1. 数据分区，把“数据”分到“家”

2. 任务调度，让“活儿”找“数据”

3. 内存分配，精打细算“每一寸土地”

4. 缓存策略，让“热数据”更“热”

5. 锁优化，减少“争抢”

6. NUMA 感知工具，事半功倍

举个栗子：Redis 在 NUMA 架构下的优化

总结：NUMA 优化，是个“细致活”

啥是 NUMA？先来个“忆苦思甜”

分布式系统，NUMA 的“用武之地”

NUMA 优化，从“数据局部性”下手

1. 数据分区，把“数据”分到“家”

2. 任务调度，让“活儿”找“数据”

3. 内存分配，精打细算“每一寸土地”

4. 缓存策略，让“热数据”更“热”

5. 锁优化，减少“争抢”

6. NUMA 感知工具，事半功倍

举个栗子：Redis 在 NUMA 架构下的优化

总结：NUMA 优化，是个“细致活”

评论点评