深入理解NUMA架构中的锁分片技术：原理、实现与优化实践

2025/3/5 01:32:54 23 0 0 0

1. NUMA架构简述：内存访问的“远近”之分

1.1 NUMA架构的特点

1.2 NUMA架构对程序的影响

2. 锁竞争的“痛点”：为什么锁会成为性能杀手？

2.1 锁竞争带来的问题

2.2 锁竞争的常见场景

3. 锁分片技术：化解锁竞争的“利器”

3.1 锁分片的原理

3.2 锁分片的实现方式

3.3 锁分片 vs. 其他锁优化技术

4. 锁分片在NUMA架构中的优势

4.1 减少跨NUMA节点访问

4.2 提高缓存利用率

4.3 提高并发性能

5. 锁分片的实现案例：基于哈希表的锁分片

5.1 哈希表的锁分片设计

5.2 代码实现（C++）

5.3 代码说明

5.4 案例分析

6. 锁分片的优化技巧与注意事项

6.1 选择合适的锁分片数量

6.2 避免锁的过度细分

6.3 考虑锁的粒度

6.4 避免死锁

6.5 NUMA节点绑定（Affinity）

6.6 监控与调优

7. 总结：拥抱锁分片，释放NUMA架构的潜能

你好，老铁们！我是你们的性能优化老司机。今天咱们聊聊在NUMA（Non-Uniform Memory Access，非一致性内存访问）架构下，如何通过“锁分片”技术来提升多线程程序的性能。这可是个非常实用而且“硬核”的话题，特别是对于那些需要在NUMA架构下进行多线程编程优化的程序猿来说，绝对是干货满满！

1. NUMA架构简述：内存访问的“远近”之分

首先，咱们得简单回顾一下NUMA架构。简单来说，NUMA就是一种多处理器架构，每个处理器都有自己的本地内存。当一个处理器访问其本地内存时，速度非常快，但如果需要访问其他处理器的内存，速度就会慢很多，这就是“非一致性”的体现。

想象一下，你住在北京，你自己的东西放在家里（本地内存），要用的时候很快就能拿到。但如果想用上海朋友的东西（远程内存），就得先坐火车或者飞机，时间肯定会慢很多。NUMA架构的访问延迟也类似，这就是我们要关注的重点。

1.1 NUMA架构的特点

多处理器共享内存：多个处理器共享一个物理内存空间，但每个处理器有自己的本地内存。
访问延迟差异：访问本地内存速度快，访问远程内存速度慢。
缓存一致性协议：为了保证数据一致性，NUMA架构通常采用复杂的缓存一致性协议，例如MESI协议。

1.2 NUMA架构对程序的影响

NUMA架构对多线程程序的影响非常大。如果多个线程竞争同一个锁，并且这些线程分布在不同的NUMA节点上，那么访问共享锁的开销就会变得非常高，因为需要跨NUMA节点进行内存访问。这会导致严重的性能瓶颈，甚至出现“锁竞争”问题。

2. 锁竞争的“痛点”：为什么锁会成为性能杀手？

在多线程编程中，锁是用来保护共享资源的。当多个线程同时访问同一个共享资源时，就需要使用锁来保证数据的一致性。但锁也会带来额外的开销，尤其是当多个线程竞争同一个锁时，这种开销就会变得非常显著，这就是所谓的“锁竞争”。

2.1 锁竞争带来的问题

线程阻塞：当一个线程持有锁时，其他线程必须等待，进入阻塞状态。这会导致CPU空闲，降低系统吞吐量。
上下文切换：线程被阻塞后，操作系统需要进行上下文切换，切换到其他线程执行。上下文切换本身就是一种开销，频繁的上下文切换会降低系统性能。
缓存失效：当一个线程释放锁后，其他线程获取锁时，可能会导致缓存失效，需要从内存中重新加载数据，这会增加内存访问延迟。
NUMA架构下的额外开销：在NUMA架构下，如果线程分布在不同的NUMA节点上，锁竞争还会导致跨NUMA节点的内存访问，进一步增加开销。

2.2 锁竞争的常见场景

共享数据结构：多个线程同时访问同一个共享数据结构，例如链表、哈希表等。
计数器：多个线程需要更新同一个计数器。
全局变量：多个线程需要访问或修改同一个全局变量。

3. 锁分片技术：化解锁竞争的“利器”

锁分片（Lock Stripping 或 Lock Partitioning）是一种常用的锁优化技术，它的核心思想是将一个大的锁分解成多个小的锁。这样，不同的线程就可以访问不同的锁，从而减少锁竞争，提高并发性能。

想象一下，你有一家大型图书馆，只有一个总服务台（大锁），所有读者都得排队办理借书手续。这样效率肯定很低。如果把服务台分成多个（锁分片），每个服务台负责一部分读者，那么效率就会大大提高。

3.1 锁分片的原理

锁分片的原理很简单，就是将一个大的锁分割成多个小的锁。当线程需要访问共享资源时，根据某种规则选择其中一个锁，然后获取该锁。这样，不同的线程就可以并发地访问不同的锁，从而减少锁竞争。

例如，我们可以将一个哈希表分成多个桶（buckets），每个桶对应一个锁。当线程需要访问哈希表时，根据Key的哈希值选择对应的桶，然后获取该桶的锁。这样，不同的线程就可以并发地访问不同的桶，从而减少锁竞争。

3.2 锁分片的实现方式

锁分片的实现方式有很多种，下面介绍几种常见的实现方式：

数组分片：将数据结构分成多个数组，每个数组对应一个锁。例如，将一个数组分成多个子数组，每个子数组对应一个锁。当线程需要访问数组时，根据索引选择对应的子数组，然后获取该子数组的锁。
哈希分片：将数据结构分成多个桶，每个桶对应一个锁。例如，将一个哈希表分成多个桶，每个桶对应一个锁。当线程需要访问哈希表时，根据Key的哈希值选择对应的桶，然后获取该桶的锁。
范围分片：将数据结构分成多个范围，每个范围对应一个锁。例如，将一个排序数组分成多个范围，每个范围对应一个锁。当线程需要访问数组时，根据Key的范围选择对应的锁。
链表分片：将链表分成多个子链表，每个子链表对应一个锁。当线程需要访问链表时，根据Key的哈希值选择对应的子链表，然后获取该子链表的锁。

3.3 锁分片 vs. 其他锁优化技术

锁分片只是锁优化技术中的一种，还有很多其他的锁优化技术，例如：

细粒度锁：将锁的粒度变小，只锁定需要保护的最小范围的数据。
读写锁：允许多个线程同时读取共享资源，但只允许一个线程写入。
无锁数据结构：使用原子操作和CAS（Compare-And-Swap）等技术，避免使用锁。
乐观锁：假设锁竞争不频繁，先进行操作，最后再检查是否有冲突，如果有冲突则重试。

锁分片与其他锁优化技术各有优缺点，需要根据具体的应用场景选择合适的锁优化技术。一般来说，锁分片适用于以下场景：

共享数据结构可以被分成多个独立的子部分。
线程访问共享资源的分布相对均匀。
锁竞争是性能瓶颈的主要原因。

4. 锁分片在NUMA架构中的优势

锁分片技术在NUMA架构中具有独特的优势，主要体现在以下几个方面：

4.1 减少跨NUMA节点访问

通过将锁分片，我们可以将不同的线程绑定到不同的NUMA节点上，从而减少跨NUMA节点的内存访问。例如，我们可以将哈希表的每个桶绑定到一个NUMA节点上，这样，访问不同桶的线程就可以在本地内存中进行操作，避免了跨NUMA节点的内存访问。

4.2 提高缓存利用率

锁分片可以提高缓存的利用率。当一个线程访问本地内存时，数据可以被缓存到处理器的L1、L2和L3缓存中。当其他线程访问同一个锁时，如果锁分片在同一个NUMA节点上，那么数据也可以被缓存在同一个NUMA节点的缓存中，从而减少了内存访问的开销。

4.3 提高并发性能

锁分片可以提高并发性能。通过将锁分片，我们可以将锁竞争分散到不同的锁上，从而减少了锁竞争。这样，多个线程就可以并发地访问共享资源，提高了程序的并发性能。

5. 锁分片的实现案例：基于哈希表的锁分片

为了让大家更好地理解锁分片的实现，咱们来个实战案例：基于哈希表的锁分片。

5.1 哈希表的锁分片设计

我们将哈希表分成多个桶（buckets），每个桶对应一个锁。当线程需要访问哈希表时，根据Key的哈希值选择对应的桶，然后获取该桶的锁。这样，不同的线程就可以并发地访问不同的桶，从而减少锁竞争。

5.2 代码实现（C++）

 #include <iostream>
#include <vector>
#include <mutex>
#include <functional>
#include <thread>
 
// 模拟一个简单的哈希表节点
struct HashNode {
    int key;
    int value;
    HashNode* next;
 
    HashNode(int k, int v) : key(k), value(v), next(nullptr) {}
};
 
class LockStripedHashTable {
public:
    LockStripedHashTable(int num_buckets) : num_buckets_(num_buckets), buckets_(num_buckets) {
        // 初始化桶和锁
        for (int i = 0; i < num_buckets_; ++i) {
            buckets_[i] = nullptr;
        }
        locks_.resize(num_buckets);
    }
 
    ~LockStripedHashTable() {
        // 释放内存
        for (int i = 0; i < num_buckets_; ++i) {
            HashNode* current = buckets_[i];
            while (current) {
                HashNode* next = current->next;
                delete current;
                current = next;
            }
        }
    }
 
    // 插入数据
    void insert(int key, int value) {
        int bucket_index = hash_function(key) % num_buckets_;
        std::lock_guard<std::mutex> lock(locks_[bucket_index]);
 
        HashNode* new_node = new HashNode(key, value);
        new_node->next = buckets_[bucket_index];
        buckets_[bucket_index] = new_node;
    }
 
    // 查找数据
    int find(int key) {
        int bucket_index = hash_function(key) % num_buckets_;
        std::lock_guard<std::mutex> lock(locks_[bucket_index]);
 
        HashNode* current = buckets_[bucket_index];
        while (current) {
            if (current->key == key) {
                return current->value;
            }
            current = current->next;
        }
        return -1; // Not found
    }
 
private:
    int hash_function(int key) {
        // 简单的哈希函数，实际应用中可以使用更复杂的哈希函数
        return key;
    }
 
    int num_buckets_;
    std::vector<HashNode*> buckets_;
    std::vector<std::mutex> locks_;
};
 
// 测试代码
int main() {
    int num_threads = 4;
    int num_buckets = 16;
    LockStripedHashTable hash_table(num_buckets);
 
    std::vector<std::thread> threads;
    for (int i = 0; i < num_threads; ++i) {
        threads.emplace_back([&, i]() {
            for (int j = i * 1000; j < (i + 1) * 1000; ++j) {
                hash_table.insert(j, j * 2);
            }
        });
    }
 
    for (auto& thread : threads) {
        thread.join();
    }
 
    // 验证结果
    for (int i = 0; i < 10; ++i) {
        int value = hash_table.find(i * 1000 + 10);
        if (value != -1) {
            std::cout << "Key: " << i * 1000 + 10 << ", Value: " << value << std::endl;
        }
    }
 
    return 0;
}

5.3 代码说明

HashNode 结构体：定义了哈希表的节点，包含Key、Value和指向下一个节点的指针。
LockStripedHashTable 类：实现了基于锁分片的哈希表。
- num_buckets_：桶的数量，决定了锁的数量。
- buckets_：一个 HashNode 指针的向量，用于存储哈希表的桶。
- locks_：一个 std::mutex 的向量，每个桶对应一个锁。
- insert(int key, int value)：插入数据。首先计算Key的哈希值，然后根据哈希值选择对应的桶，获取该桶的锁，最后将数据插入到该桶中。
- find(int key)：查找数据。首先计算Key的哈希值，然后根据哈希值选择对应的桶，获取该桶的锁，最后在桶中查找数据。
- hash_function(int key)：哈希函数，用于计算Key的哈希值。
main 函数：创建了多个线程，每个线程插入一定量的数据到哈希表中。验证了插入操作和查找操作的正确性。

5.4 案例分析

在这个案例中，我们使用了锁分片技术来优化哈希表的并发性能。通过将哈希表分成多个桶，每个桶对应一个锁，我们可以减少锁竞争，提高并发性能。当多个线程访问不同的桶时，它们可以并发地访问不同的锁，而不会互相阻塞。即使在NUMA架构下，锁分片也能减少跨NUMA节点的访问，提升性能。

6. 锁分片的优化技巧与注意事项

虽然锁分片技术能有效提升性能，但在实际应用中，还需要注意一些优化技巧和注意事项：

6.1 选择合适的锁分片数量

锁分片的数量（即锁的个数）对性能有很大影响。如果锁的数量太少，那么锁竞争仍然会很严重；如果锁的数量太多，那么锁的开销也会增加。选择合适的锁分片数量需要根据具体的应用场景和硬件配置进行调整。通常情况下，锁的数量应该与CPU核心数或线程数相匹配。

6.2 避免锁的过度细分

虽然锁分片可以减少锁竞争，但锁的过度细分也会带来负面影响。例如，如果将一个简单的计数器分成多个锁，那么每次更新计数器都需要获取多个锁，这会增加锁的开销。因此，在进行锁分片时，需要根据具体的应用场景进行权衡，避免锁的过度细分。

6.3 考虑锁的粒度

锁的粒度是指锁保护的数据范围。锁的粒度越小，锁竞争的可能性就越小，但锁的开销也会增加。在进行锁分片时，需要根据具体的应用场景选择合适的锁的粒度。例如，在哈希表中，我们可以对每个桶加锁，也可以对桶中的每个元素加锁。

6.4 避免死锁

在多线程编程中，死锁是一个常见的问题。当多个线程互相等待对方持有的锁时，就会发生死锁。在进行锁分片时，需要特别注意避免死锁。例如，在获取多个锁时，应该按照一定的顺序获取，避免出现循环等待的情况。

6.5 NUMA节点绑定（Affinity）

为了更好地利用NUMA架构的优势，可以将线程绑定到特定的NUMA节点上。这样，线程访问本地内存的概率就会增加，从而减少跨NUMA节点的内存访问。在Linux系统中，可以使用pthread_setaffinity_np函数来设置线程的CPU亲和性。

 #include <pthread.h>
#include <unistd.h>
#include <iostream>
 
void set_thread_affinity(pthread_t thread, int cpu_id) {
    cpu_set_t cpuset;
    CPU_ZERO(&cpuset);
    CPU_SET(cpu_id, &cpuset);
    int rc = pthread_setaffinity_np(thread, sizeof(cpu_set_t), &cpuset);
    if (rc != 0) {
        std::cerr << "Error setting thread affinity: " << rc << std::endl;
    }
}

在上面的代码中，set_thread_affinity 函数可以将线程绑定到指定的CPU核心上。你可以根据NUMA节点的配置，将线程绑定到不同的NUMA节点上，从而优化性能。

6.6 监控与调优

在进行锁分片后，需要对程序的性能进行监控和调优。可以使用一些性能分析工具，例如perf、gprof等，来分析程序的性能瓶颈，并根据分析结果进行优化。例如，可以监控锁的争用情况，如果锁的争用仍然很严重，那么可以考虑增加锁的数量，或者调整锁的粒度。

7. 总结：拥抱锁分片，释放NUMA架构的潜能

锁分片技术是一种非常有用的锁优化技术，尤其是在NUMA架构下，可以显著减少锁竞争，提高并发性能。通过理解锁分片的原理、实现方式和优化技巧，我们可以更好地利用NUMA架构的优势，提高多线程程序的性能。

记住，在实际应用中，我们需要根据具体的应用场景和硬件配置选择合适的锁分片数量、锁的粒度，并注意避免死锁。同时，还需要进行性能监控和调优，不断优化程序的性能。

希望今天的分享能帮助你更好地理解和应用锁分片技术。如果你在实践中遇到问题，欢迎随时交流，咱们一起探讨，共同进步！

最后，我想说，性能优化是一个持续学习和实践的过程。希望大家能够在编程的道路上不断探索，不断提升自己的技能！

咱们下次再见！

性能优化老司机 NUMA架构锁分片多线程编程性能优化并发编程

	#include <iostream>
	#include <vector>
	#include <mutex>
	#include <functional>
	#include <thread>

	// 模拟一个简单的哈希表节点
	struct HashNode {
	int key;
	int value;
	HashNode* next;

	HashNode(int k, int v) : key(k), value(v), next(nullptr) {}
	};

	class LockStripedHashTable {
	public:
	LockStripedHashTable(int num_buckets) : num_buckets_(num_buckets), buckets_(num_buckets) {
	// 初始化桶和锁
	for (int i = 0; i < num_buckets_; ++i) {
	buckets_[i] = nullptr;
	}
	locks_.resize(num_buckets);
	}

	~LockStripedHashTable() {
	// 释放内存
	for (int i = 0; i < num_buckets_; ++i) {
	HashNode* current = buckets_[i];
	while (current) {
	HashNode* next = current->next;
	delete current;
	current = next;
	}
	}
	}

	// 插入数据
	void insert(int key, int value) {
	int bucket_index = hash_function(key) % num_buckets_;
	std::lock_guard<std::mutex> lock(locks_[bucket_index]);

	HashNode* new_node = new HashNode(key, value);
	new_node->next = buckets_[bucket_index];
	buckets_[bucket_index] = new_node;
	}

	// 查找数据
	int find(int key) {
	int bucket_index = hash_function(key) % num_buckets_;
	std::lock_guard<std::mutex> lock(locks_[bucket_index]);

	HashNode* current = buckets_[bucket_index];
	while (current) {
	if (current->key == key) {
	return current->value;
	}
	current = current->next;
	}
	return -1; // Not found
	}

	private:
	int hash_function(int key) {
	// 简单的哈希函数，实际应用中可以使用更复杂的哈希函数
	return key;
	}

	int num_buckets_;
	std::vector<HashNode*> buckets_;
	std::vector<std::mutex> locks_;
	};

	// 测试代码
	int main() {
	int num_threads = 4;
	int num_buckets = 16;
	LockStripedHashTable hash_table(num_buckets);

	std::vector<std::thread> threads;
	for (int i = 0; i < num_threads; ++i) {
	threads.emplace_back([&, i]() {
	for (int j = i * 1000; j < (i + 1) * 1000; ++j) {
	hash_table.insert(j, j * 2);
	}
	});
	}

	for (auto& thread : threads) {
	thread.join();
	}

	// 验证结果
	for (int i = 0; i < 10; ++i) {
	int value = hash_table.find(i * 1000 + 10);
	if (value != -1) {
	std::cout << "Key: " << i * 1000 + 10 << ", Value: " << value << std::endl;
	}
	}

	return 0;
	}

	#include <pthread.h>
	#include <unistd.h>
	#include <iostream>

	void set_thread_affinity(pthread_t thread, int cpu_id) {
	cpu_set_t cpuset;
	CPU_ZERO(&cpuset);
	CPU_SET(cpu_id, &cpuset);
	int rc = pthread_setaffinity_np(thread, sizeof(cpu_set_t), &cpuset);
	if (rc != 0) {
	std::cerr << "Error setting thread affinity: " << rc << std::endl;
	}
	}

深入理解NUMA架构中的锁分片技术：原理、实现与优化实践

1. NUMA架构简述：内存访问的“远近”之分

1.1 NUMA架构的特点

1.2 NUMA架构对程序的影响

2. 锁竞争的“痛点”：为什么锁会成为性能杀手？

2.1 锁竞争带来的问题

2.2 锁竞争的常见场景

3. 锁分片技术：化解锁竞争的“利器”

3.1 锁分片的原理

3.2 锁分片的实现方式

3.3 锁分片 vs. 其他锁优化技术

4. 锁分片在NUMA架构中的优势

4.1 减少跨NUMA节点访问

4.2 提高缓存利用率

4.3 提高并发性能

5. 锁分片的实现案例：基于哈希表的锁分片

5.1 哈希表的锁分片设计

5.2 代码实现（C++）

5.3 代码说明

5.4 案例分析

6. 锁分片的优化技巧与注意事项

6.1 选择合适的锁分片数量

6.2 避免锁的过度细分

6.3 考虑锁的粒度

6.4 避免死锁

6.5 NUMA节点绑定（Affinity）

6.6 监控与调优

7. 总结：拥抱锁分片，释放NUMA架构的潜能

1. NUMA架构简述：内存访问的“远近”之分

1.1 NUMA架构的特点

1.2 NUMA架构对程序的影响

2. 锁竞争的“痛点”：为什么锁会成为性能杀手？

2.1 锁竞争带来的问题

2.2 锁竞争的常见场景

3. 锁分片技术：化解锁竞争的“利器”

3.1 锁分片的原理

3.2 锁分片的实现方式

3.3 锁分片 vs. 其他锁优化技术

4. 锁分片在NUMA架构中的优势

4.1 减少跨NUMA节点访问

4.2 提高缓存利用率

4.3 提高并发性能

5. 锁分片的实现案例：基于哈希表的锁分片

5.1 哈希表的锁分片设计

5.2 代码实现（C++）

5.3 代码说明

5.4 案例分析

6. 锁分片的优化技巧与注意事项

6.1 选择合适的锁分片数量

6.2 避免锁的过度细分

6.3 考虑锁的粒度

6.4 避免死锁

6.5 NUMA节点绑定（Affinity）

6.6 监控与调优

7. 总结：拥抱锁分片，释放NUMA架构的潜能

评论点评