CUDA 进阶：__ldg() 内置函数深度解析与性能优化

2025/3/12 21:49:32 90 0 0 0

1. 什么是 __ldg()？

1.1 工作原理

1.2 为什么使用 __ldg()？

2. __ldg() 与普通加载指令的对比

2.1 缓存机制

2.2 性能差异

2.3 代码示例

2.4 实验结果分析

3. 不同计算能力下的 __ldg() 表现

3.1 计算能力和 L1 缓存

3.2 测试方法

3.3 预期结果

3.4 实验注意事项

4. __ldg() 的局限性与优化技巧

4.1 局限性

4.2 优化技巧

5. 总结

你好，老伙计！我是老码农，很高兴再次和你一起探索 CUDA 编程的奥秘。今天，咱们来聊聊 CUDA 中一个相当实用的内置函数 —— __ldg()，它能帮助咱们更高效地加载只读数据。如果你是一位经验丰富的 CUDA 开发者，那么这篇文章绝对能让你有所收获。咱们将深入剖析 __ldg() 的工作原理，分析它与普通加载指令的性能差异，并通过实际例子和测试结果，来揭示它在不同计算能力下的表现。准备好你的键盘，咱们这就开始！

1. 什么是 `__ldg()`？

__ldg() 是 CUDA 提供的一个内置函数，用于从全局内存中加载只读数据。它的全称是 __ldg(const volatile T *ptr)，其中 ptr 是指向全局内存的指针，T 是数据类型。__ldg() 的主要作用是利用 CUDA 硬件的 L1 缓存（如果存在）来加速数据读取，从而提高程序的性能。简单来说，就是让你的程序跑得更快！

1.1 工作原理

__ldg() 的工作原理其实很简单：

数据访问: 当线程调用 __ldg() 时，它会尝试从 L1 缓存中读取数据。如果数据已经在 L1 缓存中，那么直接从 L1 缓存读取，速度非常快。
缓存未命中: 如果数据不在 L1 缓存中（缓存未命中），那么会从全局内存中读取数据，并将数据加载到 L1 缓存中，同时返回给线程。
后续访问: 之后，如果其他线程需要访问相同的数据，并且数据已经在 L1 缓存中，那么就可以直接从 L1 缓存中读取，避免了访问全局内存的开销。

1.2 为什么使用 `__ldg()`？

使用 __ldg() 的主要目的是优化只读数据的访问性能。在许多 CUDA 应用中，例如图像处理、科学计算等，经常需要访问大量只读数据，例如纹理、常数表等。通过使用 __ldg()，可以有效地利用 L1 缓存，减少对全局内存的访问，从而提高程序的整体性能。

2. `__ldg()` 与普通加载指令的对比

那么，__ldg() 与普通的全局内存加载指令（例如，data = global_memory_ptr[index]）有什么区别呢？它们之间最主要的区别在于缓存机制。

2.1 缓存机制

普通加载指令: 普通的全局内存加载指令不会主动利用 L1 缓存。数据直接从全局内存加载到寄存器中，或者被缓存到 L2 缓存中（如果存在）。这意味着，每次访问数据都需要访问全局内存，即使是相同的数据。
__ldg(): __ldg() 会尝试利用 L1 缓存。如果 L1 缓存命中，则速度非常快；如果 L1 缓存未命中，则需要从全局内存加载数据到 L1 缓存，然后才能返回给线程。后续的访问如果命中 L1 缓存，则可以获得显著的性能提升。

2.2 性能差异

理论上，如果你的程序需要频繁地访问相同的只读数据，那么使用 __ldg() 应该比使用普通加载指令快。实际的性能差异取决于多种因素，例如：

数据访问模式: 如果你的程序访问的数据具有空间局部性（即相邻的数据经常被访问），那么 __ldg() 的性能提升会更明显。因为 L1 缓存可以缓存相邻的数据。
计算能力: 不同的 GPU 架构具有不同的 L1 缓存大小和组织方式，因此 __ldg() 的性能表现也会有所不同。
数据量: 如果你的数据量太大，超出了 L1 缓存的容量，那么 __ldg() 的性能提升可能不会太明显，甚至可能不如普通加载指令。

2.3 代码示例

为了更好地理解 __ldg() 与普通加载指令的差异，咱们来看一个简单的代码示例：

 #include <cuda_runtime.h>
#include <stdio.h>
 
__global__ void kernel_ldg(float *input, float *output, int size)
{
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < size) {
        // 使用 __ldg()
        float value = __ldg(&input[idx]);
        output[idx] = value * 2.0f;
    }
}
 
__global__ void kernel_normal(float *input, float *output, int size)
{
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < size) {
        // 普通加载
        float value = input[idx];
        output[idx] = value * 2.0f;
    }
}
 
int main()
{
    int size = 1024 * 1024;
    float *h_input, *h_output_ldg, *h_output_normal;
    float *d_input, *d_output_ldg, *d_output_normal;
    size_t bytes = size * sizeof(float);
 
    // 主机端内存分配
    h_input = (float *)malloc(bytes);
    h_output_ldg = (float *)malloc(bytes);
    h_output_normal = (float *)malloc(bytes);
 
    // 初始化输入数据
    for (int i = 0; i < size; ++i) {
        h_input[i] = (float)i;
    }
 
    // 设备端内存分配
    cudaMalloc(&d_input, bytes);
    cudaMalloc(&d_output_ldg, bytes);
    cudaMalloc(&d_output_normal, bytes);
 
    // 将数据从主机端复制到设备端
    cudaMemcpy(d_input, h_input, bytes, cudaMemcpyHostToDevice);
 
    // 设置 grid 和 block
    int blockSize = 256;
    int gridSize = (size + blockSize - 1) / blockSize;
 
    // 执行 __ldg() 内核
    cudaEvent_t start_ldg, stop_ldg;
    cudaEventCreate(&start_ldg);
    cudaEventCreate(&stop_ldg);
    cudaEventRecord(start_ldg, 0);
    kernel_ldg<<<gridSize, blockSize>>>(d_input, d_output_ldg, size);
    cudaDeviceSynchronize();
    cudaEventRecord(stop_ldg, 0);
    cudaEventSynchronize(stop_ldg);
    float elapsed_time_ldg;
    cudaEventElapsedTime(&elapsed_time_ldg, start_ldg, stop_ldg);
    printf("__ldg() kernel execution time: %f ms\n", elapsed_time_ldg);
 
    // 执行普通加载内核
    cudaEvent_t start_normal, stop_normal;
    cudaEventCreate(&start_normal);
    cudaEventCreate(&stop_normal);
    cudaEventRecord(start_normal, 0);
    kernel_normal<<<gridSize, blockSize>>>(d_input, d_output_normal, size);
    cudaDeviceSynchronize();
    cudaEventRecord(stop_normal, 0);
    cudaEventSynchronize(stop_normal);
    float elapsed_time_normal;
    cudaEventElapsedTime(&elapsed_time_normal, start_normal, stop_normal);
    printf("Normal kernel execution time: %f ms\n", elapsed_time_normal);
 
    // 将结果从设备端复制到主机端
    //cudaMemcpy(h_output_ldg, d_output_ldg, bytes, cudaMemcpyDeviceToHost);
    //cudaMemcpy(h_output_normal, d_output_normal, bytes, cudaMemcpyDeviceToHost);
 
    // 释放内存
    cudaFree(d_input);
    cudaFree(d_output_ldg);
    cudaFree(d_output_normal);
    free(h_input);
    free(h_output_ldg);
    free(h_output_normal);
 
    return 0;
}

在这个例子中，咱们定义了两个内核：kernel_ldg 使用 __ldg() 加载数据，kernel_normal 使用普通的全局内存加载指令。通过测量两个内核的执行时间，咱们可以比较它们的性能差异。编译并运行这段代码，你将会看到使用 __ldg() 的内核通常比使用普通加载指令的内核快。

编译和运行

你需要安装 CUDA Toolkit，然后使用 nvcc 编译器编译代码：

 nvcc ldg_example.cu -o ldg_example
./ldg_example

2.4 实验结果分析

当然，实际的性能测试结果会受到硬件和软件环境的影响。以下是几种可能的结果和分析：

L1 缓存命中率高: 如果你的数据访问模式具有很高的空间局部性，并且数据量小于 L1 缓存的大小，那么 __ldg() 的性能提升会非常明显。__ldg() 的优势得以充分发挥。
L1 缓存命中率低: 如果你的数据访问模式比较随机，或者数据量大于 L1 缓存的大小，那么 __ldg() 的性能提升可能不会太明显，甚至可能不如普通加载指令。__ldg() 的优势被削弱。
计算能力的影响: 不同计算能力的 GPU 具有不同的 L1 缓存大小和组织方式。一般来说，较新的 GPU 架构具有更大的 L1 缓存和更优化的缓存管理机制，因此 __ldg() 的性能提升会更加显著。

3. 不同计算能力下的 `__ldg()` 表现

为了更深入地了解 __ldg() 在不同 GPU 架构下的表现，咱们需要考虑计算能力（Compute Capability）这个概念。计算能力是指 GPU 的硬件特性，它决定了 GPU 的功能和性能。不同的计算能力对应着不同的 GPU 架构。

3.1 计算能力和 L1 缓存

CUDA 架构中的 L1 缓存与计算能力密切相关。以下是一些关键点：

计算能力 2.x: L1 缓存是可选的，并且可以配置为共享内存。这表示 L1 缓存的大小可以动态调整，一部分用作 L1 缓存，一部分用作共享内存。__ldg() 主要利用 L1 缓存。
计算能力 3.x - 5.x: L1 缓存通常是固定的，并且大小有所增加。__ldg() 充分利用 L1 缓存。
计算能力 6.x - 8.x: L1 缓存和共享内存通常是独立的。__ldg() 继续利用 L1 缓存。
计算能力 8.x (Ampere 架构) 和 9.x (Hopper 架构): 这些架构在 L1 缓存方面进行了改进，例如更大的缓存容量和更快的访问速度。__ldg() 在这些架构上通常能获得更好的性能。

3.2 测试方法

为了评估 __ldg() 在不同计算能力下的表现，咱们可以进行以下测试：

选择不同的 GPU: 选择具有不同计算能力的 GPU，例如，计算能力为 3.5、6.1 和 8.0 的 GPU。你可以在 CUDA 编程中通过 cudaGetDeviceProperties() 函数获取设备的计算能力。
运行相同的内核: 运行前面提到的 kernel_ldg 和 kernel_normal 内核，测量它们的执行时间。
调整数据量: 改变输入数据的大小，观察不同数据量对性能的影响。例如，数据量小于 L1 缓存大小，以及数据量大于 L1 缓存大小的情况。
分析结果: 比较不同计算能力下，__ldg() 与普通加载指令的性能差异。分析 L1 缓存命中率、带宽利用率等因素对性能的影响。

3.3 预期结果

一般来说，咱们可以预期以下结果：

较新的 GPU (计算能力较高): 在较新的 GPU 上，__ldg() 通常能获得更好的性能提升，因为它们具有更大的 L1 缓存和更优化的缓存管理机制。
空间局部性: 如果你的数据访问模式具有很高的空间局部性，那么在所有计算能力的 GPU 上，__ldg() 都能获得显著的性能提升。
数据量: 如果你的数据量小于 L1 缓存的大小，那么 __ldg() 的性能提升会更明显。如果数据量太大，超出了 L1 缓存的容量，那么性能提升可能会降低。

3.4 实验注意事项

在进行这些测试时，请注意以下几点：

编译选项: 使用适当的编译选项，例如，-arch=sm_xx，其中 xx 是你的 GPU 的计算能力。例如，nvcc -arch=sm_75 ldg_example.cu -o ldg_example。
多次运行: 多次运行测试，并取平均值，以减少误差。
环境因素: 尽量减少其他程序对 GPU 的干扰，以获得更准确的测试结果。
CUDA 版本: 确保你的 CUDA 版本与你的 GPU 架构兼容。过旧的 CUDA 版本可能无法充分利用较新的 GPU 架构的特性。

4. `__ldg()` 的局限性与优化技巧

虽然 __ldg() 在优化只读数据访问方面非常有用，但它也有一些局限性。此外，咱们可以采取一些优化技巧来进一步提高程序的性能。

4.1 局限性

只读数据: __ldg() 只能用于加载只读数据。如果你需要修改数据，那么不能使用 __ldg()。
L1 缓存的限制: L1 缓存的大小是有限的。如果你的数据量太大，超出了 L1 缓存的容量，那么 __ldg() 的性能提升可能不会太明显。
依赖硬件: __ldg() 的性能依赖于 GPU 的硬件架构。在某些 GPU 上，它的性能提升可能不如在其他 GPU 上明显。

4.2 优化技巧

数据布局: 优化数据在内存中的布局，使其具有更好的空间局部性。这样可以提高 L1 缓存的命中率。
数据预取: 在某些情况下，可以使用 CUDA 的预取指令（例如，cudaMemPrefetchAsync()）来提前将数据加载到 L1 缓存中。但请注意，过度使用预取可能会导致性能下降。
使用常量内存: 对于小量且只读的数据，可以考虑使用常量内存。常量内存具有较高的带宽，并且可以被所有线程共享。但是，常量内存的大小是有限的。
合理选择 L1 缓存大小: 在计算能力 2.x 的 GPU 上，你可以通过调整共享内存的大小来间接调整 L1 缓存的大小。根据你的应用程序的特点，选择合适的 L1 缓存大小。
内核优化: 优化你的内核代码，减少不必要的计算和内存访问，可以间接提高 __ldg() 的性能。

5. 总结

在这篇文章里，咱们深入探讨了 CUDA 内置函数 __ldg()，了解了它的工作原理，以及它与普通加载指令的性能差异。咱们还分析了 __ldg() 在不同计算能力下的表现，并讨论了一些优化技巧。希望这些知识能帮助你编写出更高效的 CUDA 程序。

记住，优化 CUDA 程序的关键在于理解 GPU 的硬件架构，并根据应用程序的特点选择合适的优化策略。 __ldg() 只是 CUDA 提供的众多工具之一，灵活运用这些工具，才能让你的程序在 GPU 上发挥出最大的性能。

希望你觉得这次的探索之旅有所收获！如果你有任何问题或者想法，欢迎在评论区留言，咱们一起交流学习。下次再见！

老码农 CUDA __ldg GPU优化

	#include <cuda_runtime.h>
	#include <stdio.h>

	__global__ void kernel_ldg(float input, float output, int size)
	{
	int idx = blockIdx.x * blockDim.x + threadIdx.x;
	if (idx < size) {
	// 使用 __ldg()
	float value = __ldg(&input[idx]);
	output[idx] = value * 2.0f;
	}
	}

	__global__ void kernel_normal(float input, float output, int size)
	{
	int idx = blockIdx.x * blockDim.x + threadIdx.x;
	if (idx < size) {
	// 普通加载
	float value = input[idx];
	output[idx] = value * 2.0f;
	}
	}

	int main()
	{
	int size = 1024 * 1024;
	float h_input, h_output_ldg, *h_output_normal;
	float d_input, d_output_ldg, *d_output_normal;
	size_t bytes = size * sizeof(float);

	// 主机端内存分配
	h_input = (float *)malloc(bytes);
	h_output_ldg = (float *)malloc(bytes);
	h_output_normal = (float *)malloc(bytes);

	// 初始化输入数据
	for (int i = 0; i < size; ++i) {
	h_input[i] = (float)i;
	}

	// 设备端内存分配
	cudaMalloc(&d_input, bytes);
	cudaMalloc(&d_output_ldg, bytes);
	cudaMalloc(&d_output_normal, bytes);

	// 将数据从主机端复制到设备端
	cudaMemcpy(d_input, h_input, bytes, cudaMemcpyHostToDevice);

	// 设置 grid 和 block
	int blockSize = 256;
	int gridSize = (size + blockSize - 1) / blockSize;

	// 执行 __ldg() 内核
	cudaEvent_t start_ldg, stop_ldg;
	cudaEventCreate(&start_ldg);
	cudaEventCreate(&stop_ldg);
	cudaEventRecord(start_ldg, 0);
	kernel_ldg<<<gridSize, blockSize>>>(d_input, d_output_ldg, size);
	cudaDeviceSynchronize();
	cudaEventRecord(stop_ldg, 0);
	cudaEventSynchronize(stop_ldg);
	float elapsed_time_ldg;
	cudaEventElapsedTime(&elapsed_time_ldg, start_ldg, stop_ldg);
	printf("__ldg() kernel execution time: %f ms\n", elapsed_time_ldg);

	// 执行普通加载内核
	cudaEvent_t start_normal, stop_normal;
	cudaEventCreate(&start_normal);
	cudaEventCreate(&stop_normal);
	cudaEventRecord(start_normal, 0);
	kernel_normal<<<gridSize, blockSize>>>(d_input, d_output_normal, size);
	cudaDeviceSynchronize();
	cudaEventRecord(stop_normal, 0);
	cudaEventSynchronize(stop_normal);
	float elapsed_time_normal;
	cudaEventElapsedTime(&elapsed_time_normal, start_normal, stop_normal);
	printf("Normal kernel execution time: %f ms\n", elapsed_time_normal);

	// 将结果从设备端复制到主机端
	//cudaMemcpy(h_output_ldg, d_output_ldg, bytes, cudaMemcpyDeviceToHost);
	//cudaMemcpy(h_output_normal, d_output_normal, bytes, cudaMemcpyDeviceToHost);

	// 释放内存
	cudaFree(d_input);
	cudaFree(d_output_ldg);
	cudaFree(d_output_normal);
	free(h_input);
	free(h_output_ldg);
	free(h_output_normal);

	return 0;
	}

CUDA 进阶：__ldg() 内置函数深度解析与性能优化

1. 什么是 __ldg()？

1.1 工作原理

1.2 为什么使用 __ldg()？

2. __ldg() 与普通加载指令的对比

2.1 缓存机制

2.2 性能差异

2.3 代码示例

2.4 实验结果分析

3. 不同计算能力下的 __ldg() 表现

3.1 计算能力和 L1 缓存

3.2 测试方法

3.3 预期结果

3.4 实验注意事项

4. __ldg() 的局限性与优化技巧

4.1 局限性

4.2 优化技巧

5. 总结

1. 什么是 __ldg()？

1.1 工作原理

1.2 为什么使用 __ldg()？

2. __ldg() 与普通加载指令的对比

2.1 缓存机制

2.2 性能差异

2.3 代码示例

2.4 实验结果分析

3. 不同计算能力下的 __ldg() 表现

3.1 计算能力和 L1 缓存

3.2 测试方法

3.3 预期结果

3.4 实验注意事项

4. __ldg() 的局限性与优化技巧

4.1 局限性

4.2 优化技巧

5. 总结

评论点评

1. 什么是 `__ldg()`？

1.2 为什么使用 `__ldg()`？

2. `__ldg()` 与普通加载指令的对比

3. 不同计算能力下的 `__ldg()` 表现

4. `__ldg()` 的局限性与优化技巧