深入理解Shared Memory：结构、Bank组织与性能优化

2025/3/12 19:29:26 46 0 0 0

1. 什么是Shared Memory？

1.1 Shared Memory的优势

1.2 Shared Memory的劣势

2. Shared Memory的内部结构：Bank与Bank冲突

2.1 Bank的组织方式

2.2 Bank冲突：性能杀手

2.2.1 Bank冲突的类型

2.2.2 Bank冲突的例子

2.3 Bank冲突的危害

3. Bank冲突的避免与优化

3.1 数据布局的调整

3.1.1 线性访问

3.1.2 Padding（填充）

3.1.3 矩阵转置

3.2 代码优化

3.2.1 线程同步

3.2.2 合并访问

3.3 代码示例：避免2D数组的Bank冲突

4. 实例分析：卷积操作中的Shared Memory优化

4.1 卷积操作的基本原理

4.2 卷积操作的Shared Memory优化策略

4.3 代码示例：卷积操作的Shared Memory优化

5. 总结与展望

你好，我是老码农。今天我们来聊聊GPU编程中一个非常重要的概念——Shared Memory（共享内存）。对于想要在GPU上开发高性能应用的程序员来说，理解并熟练运用Shared Memory是必不可少的。它就像GPU的“高速缓存”，能够极大地提高数据访问速度，从而提升程序的整体性能。

1. 什么是Shared Memory？

首先，让我们明确一下Shared Memory的定义。Shared Memory是位于GPU芯片上的一个高速、小容量的存储区域，它被同一线程块（Thread Block）内的所有线程共享。与全局内存（Global Memory）相比，Shared Memory的访问速度要快得多，通常快几十甚至上百倍。这使得Shared Memory成为优化GPU程序性能的关键。

1.1 Shared Memory的优势

高速访问： 这是Shared Memory最显著的优势。由于它位于GPU芯片上，物理距离短，因此访问速度非常快。
线程间通信： Shared Memory允许同一线程块内的线程进行数据共享和通信，这对于实现复杂的并行算法至关重要。
减少全局内存访问： 通过将常用的数据加载到Shared Memory中，可以减少对全局内存的访问，从而降低延迟和带宽压力，提高程序性能。

1.2 Shared Memory的劣势

容量有限： Shared Memory的容量通常很小，例如，CUDA架构中，每个线程块的Shared Memory大小是有限的（通常为48KB或更大，具体取决于GPU型号）。因此，我们需要仔细选择哪些数据需要存储在Shared Memory中。
仅限于线程块内共享： Shared Memory只能在同一线程块内的线程之间共享，不同的线程块之间无法直接访问彼此的Shared Memory。如果需要跨线程块的数据共享，需要使用全局内存或者其他同步机制。
手动管理： 与全局内存不同，Shared Memory的分配和管理需要程序员手动进行，这增加了编程的复杂性。

2. Shared Memory的内部结构：Bank与Bank冲突

Shared Memory并非一个整体，它被划分为多个被称为“Bank”（库）的独立存储单元。这种Bank的组织方式对于Shared Memory的性能至关重要。理解Bank的结构以及Bank冲突，是优化Shared Memory使用的关键。

2.1 Bank的组织方式

Shared Memory被组织成多个Bank，每个Bank都有自己的地址空间。一个Bank可以独立地提供数据，就像一个独立的小型存储器。当一个线程需要访问Shared Memory时，它会通过地址来定位数据所在的Bank。如果多个线程同时访问不同的Bank，那么这些访问可以并行进行，从而提高访问效率。

例如，假设Shared Memory被分为16个Bank。如果线程0访问Bank 0的数据，线程1访问Bank 1的数据，线程2访问Bank 2的数据，等等，那么所有这些访问都可以同时进行，而不会发生冲突。

2.2 Bank冲突：性能杀手

Bank冲突是指多个线程同时访问同一个Bank中的不同地址。在这种情况下，Shared Memory无法并行地处理这些访问请求，需要将它们串行化，这会大大降低访问速度，从而导致性能下降。

2.2.1 Bank冲突的类型

完全冲突（Full Bank Conflict）： 多个线程同时访问同一个Bank中的同一地址。这是最糟糕的情况，所有线程都需要等待，直到该地址被处理完。
部分冲突（Partial Bank Conflict）： 多个线程同时访问同一个Bank中的不同地址。虽然不像完全冲突那样严重，但也需要串行化处理，影响性能。

2.2.2 Bank冲突的例子

让我们通过一个例子来更好地理解Bank冲突。假设我们有一个2D数组，需要将其加载到Shared Memory中，然后进行处理。如果我们按照行优先的顺序加载数据，并且Shared Memory的Bank数量与数组的列数不匹配，就可能发生Bank冲突。

例如，假设数组的列数为16，Shared Memory也有16个Bank。如果线程0加载数组的第一行，线程1加载数组的第二行，以此类推。那么，同一列的元素将位于同一个Bank中。如果我们需要对同一列的元素进行访问，就会发生Bank冲突。

2.3 Bank冲突的危害

Bank冲突会极大地降低Shared Memory的有效带宽，进而影响程序的整体性能。在某些情况下，Bank冲突可能导致性能下降几十甚至上百倍。因此，避免Bank冲突是优化Shared Memory使用的核心目标之一。

3. Bank冲突的避免与优化

避免Bank冲突是优化Shared Memory性能的关键。以下是一些常用的方法：

3.1 数据布局的调整

调整数据在Shared Memory中的布局是避免Bank冲突的常用方法。通过改变数据的存储方式，可以确保同一Bank中的数据不会被多个线程同时访问。

3.1.1 线性访问

如果线程以线性方式访问Shared Memory，并且步长与Bank的数量互质，那么就可以避免Bank冲突。例如，如果Shared Memory有16个Bank，线程以步长1访问数据，就可以避免冲突。

3.1.2 Padding（填充）

在数据之间添加填充，可以改变数据的存储方式，从而避免Bank冲突。例如，在上面的2D数组的例子中，我们可以在每行末尾添加一些填充，使得每行的数据长度不是16的倍数，从而避免同一列的元素位于同一个Bank中。

3.1.3 矩阵转置

对于矩阵操作，可以使用矩阵转置的方法来避免Bank冲突。通过转置矩阵，可以改变数据的存储方式，使得同一Bank中的数据不会被多个线程同时访问。

3.2 代码优化

除了调整数据布局之外，还可以通过代码优化来避免Bank冲突。

3.2.1 线程同步

在某些情况下，可以使用线程同步来避免Bank冲突。例如，在访问Shared Memory之前，可以使用__syncthreads()函数来确保所有线程都完成了前面的操作，从而避免冲突。

3.2.2 合并访问

将多个独立的内存访问合并成一个访问，可以减少Bank冲突的可能性。例如，如果需要访问相邻的几个元素，可以一次性读取它们，而不是多次读取。

3.3 代码示例：避免2D数组的Bank冲突

让我们通过代码示例来演示如何避免2D数组的Bank冲突。假设我们有一个16x16的2D数组，需要将其加载到Shared Memory中，然后进行处理。为了避免Bank冲突，我们可以在每行末尾添加一个填充。

 #include <cuda_runtime.h>
#include <stdio.h>
 
__global__ void matrixAdd(float *A, float *B, float *C, int width, int height) {
  // 每个线程处理一个元素
  int x = blockIdx.x * blockDim.x + threadIdx.x;
  int y = blockIdx.y * blockDim.y + threadIdx.y;
 
  if (x < width && y < height) {
    C[y * width + x] = A[y * width + x] + B[y * width + x];
  }
}
 
__global__ void matrixMulShared(float *A, float *B, float *C, int width, int height) {
    __shared__ float As[16][18]; // 添加了填充
    __shared__ float Bs[18][16]; // 添加了填充
 
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;
    float sum = 0;
 
    for (int i = 0; i < width / blockDim.x; ++i) {
        // 加载A到共享内存，并添加填充
        As[threadIdx.y][threadIdx.x] = A[row * width + i * blockDim.x + threadIdx.x];
        // 加载B到共享内存，并添加填充
        Bs[threadIdx.y][threadIdx.x] = B[(i * blockDim.y + threadIdx.y) * width + col];
 
        __syncthreads();
 
        for (int k = 0; k < blockDim.x; ++k) {
            sum += As[threadIdx.y][k] * Bs[k][threadIdx.x];
        }
        __syncthreads();
    }
 
    if (row < height && col < width) {
        C[row * width + col] = sum;
    }
}
 
int main() {
  int width = 16;
  int height = 16;
  size_t size = width * height * sizeof(float);
 
  float *h_A, *h_B, *h_C;
  float *d_A, *d_B, *d_C;
 
  // 分配主机内存
  h_A = (float *)malloc(size);
  h_B = (float *)malloc(size);
  h_C = (float *)malloc(size);
 
  // 初始化主机内存
  for (int i = 0; i < width * height; ++i) {
    h_A[i] = (float)i;
    h_B[i] = (float)(width * height - i);
  }
 
  // 分配设备内存
  cudaMalloc((void **)&d_A, size);
  cudaMalloc((void **)&d_B, size);
  cudaMalloc((void **)&d_C, size);
 
  // 复制数据到设备
  cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);
  cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);
 
  // 设置网格和块
  dim3 blockDim(16, 16);
  dim3 gridDim((width + blockDim.x - 1) / blockDim.x, (height + blockDim.y - 1) / blockDim.y);
 
  // 调用内核函数
  matrixAdd<<<gridDim, blockDim>>>(d_A, d_B, d_C, width, height);
  cudaDeviceSynchronize();
 
  // 将结果复制回主机
  cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);
 
  // 打印结果（可选）
  for (int i = 0; i < height; ++i) {
    for (int j = 0; j < width; ++j) {
      printf("%f ", h_C[i * width + j]);
    }
    printf("\n");
  }
 
  // 释放内存
  free(h_A);
  free(h_B);
  free(h_C);
  cudaFree(d_A);
  cudaFree(d_B);
  cudaFree(d_C);
 
  return 0;
}

在这个例子中，我们定义了两个内核函数：matrixAdd和matrixMulShared。matrixAdd函数用于演示基本的矩阵加法，而matrixMulShared函数则用于演示使用Shared Memory进行矩阵乘法，并避免Bank冲突。在matrixMulShared函数中，我们定义了两个共享内存数组As和Bs，并在数组的声明中添加了填充。通过添加填充，我们可以改变数据的存储方式，从而避免Bank冲突。

在main函数中，我们分配了主机内存和设备内存，初始化了数据，设置了网格和块的维度，并调用了内核函数。最后，我们将结果复制回主机，并释放了内存。

4. 实例分析：卷积操作中的Shared Memory优化

卷积操作是图像处理和深度学习中常用的操作。在GPU上进行卷积操作时，Shared Memory可以发挥巨大的作用，显著提高性能。

4.1 卷积操作的基本原理

卷积操作是将一个卷积核（kernel）应用于输入图像的每个像素，计算像素及其邻近像素的加权和。卷积核通常是一个小的矩阵，例如3x3或5x5。对于每个像素，卷积操作会将卷积核覆盖的区域与卷积核的对应元素相乘，然后将所有乘积相加，得到新的像素值。

4.2 卷积操作的Shared Memory优化策略

在GPU上进行卷积操作时，可以将输入图像和卷积核加载到Shared Memory中，然后让每个线程块处理一部分输出像素。以下是优化策略：

加载数据到Shared Memory： 将输入图像和卷积核加载到Shared Memory中。由于Shared Memory的访问速度非常快，这可以减少对全局内存的访问，从而提高性能。
线程块划分： 将输出图像划分成多个线程块，每个线程块处理一部分输出像素。
数据共享： 同一线程块内的线程可以共享Shared Memory中的数据，从而避免重复加载数据。
Bank冲突避免： 根据卷积核的大小和图像的布局，调整数据在Shared Memory中的布局，避免Bank冲突。

4.3 代码示例：卷积操作的Shared Memory优化

 #include <cuda_runtime.h>
#include <stdio.h>
 
// 卷积核大小
#define KERNEL_SIZE 3
 
__global__ void convolution(float *input, float *kernel, float *output, int width, int height) {
    // 线程索引
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
 
    // 共享内存，用于存储输入图像的局部区域
    __shared__ float tile[KERNEL_SIZE][KERNEL_SIZE];
 
    // 确保线程在有效范围内
    if (x < width - KERNEL_SIZE + 1 && y < height - KERNEL_SIZE + 1) {
        // 加载输入图像的局部区域到共享内存
        for (int i = 0; i < KERNEL_SIZE; ++i) {
            for (int j = 0; j < KERNEL_SIZE; ++j) {
                int row = y + i;
                int col = x + j;
                if (row >= 0 && row < height && col >= 0 && col < width) {
                    tile[i][j] = input[row * width + col];
                } else {
                    tile[i][j] = 0; // 边界填充
                }
            }
        }
 
        // 计算卷积结果
        float sum = 0.0f;
        for (int i = 0; i < KERNEL_SIZE; ++i) {
            for (int j = 0; j < KERNEL_SIZE; ++j) {
                sum += tile[i][j] * kernel[i * KERNEL_SIZE + j];
            }
        }
 
        // 将结果存储到输出图像
        output[y * (width - KERNEL_SIZE + 1) + x] = sum;
    }
}
 
int main() {
    // 输入图像大小
    int width = 64;
    int height = 64;
    size_t inputSize = width * height * sizeof(float);
 
    // 卷积核大小
    size_t kernelSize = KERNEL_SIZE * KERNEL_SIZE * sizeof(float);
 
    // 输出图像大小
    int outputWidth = width - KERNEL_SIZE + 1;
    int outputHeight = height - KERNEL_SIZE + 1;
    size_t outputSize = outputWidth * outputHeight * sizeof(float);
 
    // 主机端数据
    float *h_input, *h_kernel, *h_output;
 
    // 设备端数据
    float *d_input, *d_kernel, *d_output;
 
    // 分配主机内存
    h_input = (float *)malloc(inputSize);
    h_kernel = (float *)malloc(kernelSize);
    h_output = (float *)malloc(outputSize);
 
    // 初始化数据
    for (int i = 0; i < width * height; ++i) {
        h_input[i] = (float)i;
    }
    for (int i = 0; i < KERNEL_SIZE * KERNEL_SIZE; ++i) {
        h_kernel[i] = 1.0f / (KERNEL_SIZE * KERNEL_SIZE);
    }
 
    // 分配设备内存
    cudaMalloc((void **)&d_input, inputSize);
    cudaMalloc((void **)&d_kernel, kernelSize);
    cudaMalloc((void **)&d_output, outputSize);
 
    // 复制数据到设备
    cudaMemcpy(d_input, h_input, inputSize, cudaMemcpyHostToDevice);
    cudaMemcpy(d_kernel, h_kernel, kernelSize, cudaMemcpyHostToDevice);
 
    // 设置网格和块
    dim3 blockDim(8, 8);
    dim3 gridDim((outputWidth + blockDim.x - 1) / blockDim.x, (outputHeight + blockDim.y - 1) / blockDim.y);
 
    // 调用内核函数
    convolution<<<gridDim, blockDim>>>(d_input, d_kernel, d_output, width, height);
    cudaDeviceSynchronize();
 
    // 将结果复制回主机
    cudaMemcpy(h_output, d_output, outputSize, cudaMemcpyDeviceToHost);
 
    // 释放内存
    free(h_input);
    free(h_kernel);
    free(h_output);
    cudaFree(d_input);
    cudaFree(d_kernel);
    cudaFree(d_output);
 
    return 0;
}

在这个例子中，我们定义了一个convolution内核函数，用于执行卷积操作。在内核函数中，我们使用了Shared Memory来存储输入图像的局部区域。每个线程块加载输入图像的一个局部区域到Shared Memory中，然后计算该区域的卷积结果。通过使用Shared Memory，我们可以减少对全局内存的访问，从而提高性能。

5. 总结与展望

Shared Memory是GPU编程中一个非常重要的概念。通过理解Shared Memory的内部结构、Bank组织方式以及Bank冲突，我们可以编写出更高效的GPU程序。避免Bank冲突，合理地调整数据布局，是优化Shared Memory性能的关键。

在实际应用中，我们需要根据不同的场景选择合适的优化策略。例如，对于矩阵乘法，可以使用Shared Memory进行分块计算，从而提高性能。对于图像处理，可以使用Shared Memory加载局部区域的数据，从而减少对全局内存的访问。

随着GPU技术的不断发展，Shared Memory的容量和带宽也在不断提高。未来，Shared Memory将在GPU编程中发挥越来越重要的作用。对于想要在GPU上开发高性能应用的程序员来说，深入理解Shared Memory是必不可少的。

希望这篇文章能够帮助你更好地理解Shared Memory。如果你有任何问题，欢迎随时提出。加油，老铁们！

老码农 GPU Shared Memory Bank冲突 CUDA 性能优化

	#include <cuda_runtime.h>
	#include <stdio.h>

	__global__ void matrixAdd(float A, float B, float *C, int width, int height) {
	// 每个线程处理一个元素
	int x = blockIdx.x * blockDim.x + threadIdx.x;
	int y = blockIdx.y * blockDim.y + threadIdx.y;

	if (x < width && y < height) {
	C[y * width + x] = A[y * width + x] + B[y * width + x];
	}
	}

	__global__ void matrixMulShared(float A, float B, float *C, int width, int height) {
	__shared__ float As[16][18]; // 添加了填充
	__shared__ float Bs[18][16]; // 添加了填充

	int row = blockIdx.y * blockDim.y + threadIdx.y;
	int col = blockIdx.x * blockDim.x + threadIdx.x;
	float sum = 0;

	for (int i = 0; i < width / blockDim.x; ++i) {
	// 加载A到共享内存，并添加填充
	As[threadIdx.y][threadIdx.x] = A[row * width + i * blockDim.x + threadIdx.x];
	// 加载B到共享内存，并添加填充
	Bs[threadIdx.y][threadIdx.x] = B[(i * blockDim.y + threadIdx.y) * width + col];

	__syncthreads();

	for (int k = 0; k < blockDim.x; ++k) {
	sum += As[threadIdx.y][k] * Bs[k][threadIdx.x];
	}
	__syncthreads();
	}

	if (row < height && col < width) {
	C[row * width + col] = sum;
	}
	}

	int main() {
	int width = 16;
	int height = 16;
	size_t size = width * height * sizeof(float);

	float h_A, h_B, *h_C;
	float d_A, d_B, *d_C;

	// 分配主机内存
	h_A = (float *)malloc(size);
	h_B = (float *)malloc(size);
	h_C = (float *)malloc(size);

	// 初始化主机内存
	for (int i = 0; i < width * height; ++i) {
	h_A[i] = (float)i;
	h_B[i] = (float)(width * height - i);
	}

	// 分配设备内存
	cudaMalloc((void **)&d_A, size);
	cudaMalloc((void **)&d_B, size);
	cudaMalloc((void **)&d_C, size);

	// 复制数据到设备
	cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);
	cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);

	// 设置网格和块
	dim3 blockDim(16, 16);
	dim3 gridDim((width + blockDim.x - 1) / blockDim.x, (height + blockDim.y - 1) / blockDim.y);

	// 调用内核函数
	matrixAdd<<<gridDim, blockDim>>>(d_A, d_B, d_C, width, height);
	cudaDeviceSynchronize();

	// 将结果复制回主机
	cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);

	// 打印结果（可选）
	for (int i = 0; i < height; ++i) {
	for (int j = 0; j < width; ++j) {
	printf("%f ", h_C[i * width + j]);
	}
	printf("\n");
	}

	// 释放内存
	free(h_A);
	free(h_B);
	free(h_C);
	cudaFree(d_A);
	cudaFree(d_B);
	cudaFree(d_C);

	return 0;
	}

	#include <cuda_runtime.h>
	#include <stdio.h>

	// 卷积核大小
	#define KERNEL_SIZE 3

	__global__ void convolution(float input, float kernel, float *output, int width, int height) {
	// 线程索引
	int x = blockIdx.x * blockDim.x + threadIdx.x;
	int y = blockIdx.y * blockDim.y + threadIdx.y;

	// 共享内存，用于存储输入图像的局部区域
	__shared__ float tile[KERNEL_SIZE][KERNEL_SIZE];

	// 确保线程在有效范围内
	if (x < width - KERNEL_SIZE + 1 && y < height - KERNEL_SIZE + 1) {
	// 加载输入图像的局部区域到共享内存
	for (int i = 0; i < KERNEL_SIZE; ++i) {
	for (int j = 0; j < KERNEL_SIZE; ++j) {
	int row = y + i;
	int col = x + j;
	if (row >= 0 && row < height && col >= 0 && col < width) {
	tile[i][j] = input[row * width + col];
	} else {
	tile[i][j] = 0; // 边界填充
	}
	}
	}

	// 计算卷积结果
	float sum = 0.0f;
	for (int i = 0; i < KERNEL_SIZE; ++i) {
	for (int j = 0; j < KERNEL_SIZE; ++j) {
	sum += tile[i][j] * kernel[i * KERNEL_SIZE + j];
	}
	}

	// 将结果存储到输出图像
	output[y * (width - KERNEL_SIZE + 1) + x] = sum;
	}
	}

	int main() {
	// 输入图像大小
	int width = 64;
	int height = 64;
	size_t inputSize = width * height * sizeof(float);

	// 卷积核大小
	size_t kernelSize = KERNEL_SIZE * KERNEL_SIZE * sizeof(float);

	// 输出图像大小
	int outputWidth = width - KERNEL_SIZE + 1;
	int outputHeight = height - KERNEL_SIZE + 1;
	size_t outputSize = outputWidth * outputHeight * sizeof(float);

	// 主机端数据
	float h_input, h_kernel, *h_output;

	// 设备端数据
	float d_input, d_kernel, *d_output;

	// 分配主机内存
	h_input = (float *)malloc(inputSize);
	h_kernel = (float *)malloc(kernelSize);
	h_output = (float *)malloc(outputSize);

	// 初始化数据
	for (int i = 0; i < width * height; ++i) {
	h_input[i] = (float)i;
	}
	for (int i = 0; i < KERNEL_SIZE * KERNEL_SIZE; ++i) {
	h_kernel[i] = 1.0f / (KERNEL_SIZE * KERNEL_SIZE);
	}

	// 分配设备内存
	cudaMalloc((void **)&d_input, inputSize);
	cudaMalloc((void **)&d_kernel, kernelSize);
	cudaMalloc((void **)&d_output, outputSize);

	// 复制数据到设备
	cudaMemcpy(d_input, h_input, inputSize, cudaMemcpyHostToDevice);
	cudaMemcpy(d_kernel, h_kernel, kernelSize, cudaMemcpyHostToDevice);

	// 设置网格和块
	dim3 blockDim(8, 8);
	dim3 gridDim((outputWidth + blockDim.x - 1) / blockDim.x, (outputHeight + blockDim.y - 1) / blockDim.y);

	// 调用内核函数
	convolution<<<gridDim, blockDim>>>(d_input, d_kernel, d_output, width, height);
	cudaDeviceSynchronize();

	// 将结果复制回主机
	cudaMemcpy(h_output, d_output, outputSize, cudaMemcpyDeviceToHost);

	// 释放内存
	free(h_input);
	free(h_kernel);
	free(h_output);
	cudaFree(d_input);
	cudaFree(d_kernel);
	cudaFree(d_output);

	return 0;
	}

深入理解Shared Memory：结构、Bank组织与性能优化

1. 什么是Shared Memory？

1.1 Shared Memory的优势

1.2 Shared Memory的劣势

2. Shared Memory的内部结构：Bank与Bank冲突

2.1 Bank的组织方式

2.2 Bank冲突：性能杀手

2.2.1 Bank冲突的类型

2.2.2 Bank冲突的例子

2.3 Bank冲突的危害

3. Bank冲突的避免与优化

3.1 数据布局的调整

3.1.1 线性访问

3.1.2 Padding（填充）

3.1.3 矩阵转置

3.2 代码优化

3.2.1 线程同步

3.2.2 合并访问

3.3 代码示例：避免2D数组的Bank冲突

4. 实例分析：卷积操作中的Shared Memory优化

4.1 卷积操作的基本原理

4.2 卷积操作的Shared Memory优化策略

4.3 代码示例：卷积操作的Shared Memory优化

5. 总结与展望

1. 什么是Shared Memory？

1.1 Shared Memory的优势

1.2 Shared Memory的劣势

2. Shared Memory的内部结构：Bank与Bank冲突

2.1 Bank的组织方式

2.2 Bank冲突：性能杀手

2.2.1 Bank冲突的类型

2.2.2 Bank冲突的例子

2.3 Bank冲突的危害

3. Bank冲突的避免与优化

3.1 数据布局的调整

3.1.1 线性访问

3.1.2 Padding（填充）

3.1.3 矩阵转置

3.2 代码优化

3.2.1 线程同步

3.2.2 合并访问

3.3 代码示例：避免2D数组的Bank冲突

4. 实例分析：卷积操作中的Shared Memory优化

4.1 卷积操作的基本原理

4.2 卷积操作的Shared Memory优化策略

4.3 代码示例：卷积操作的Shared Memory优化

5. 总结与展望

评论点评