PostgreSQL 声明式分区：庖丁解牛，深入内部实现原理

2025/3/7 14:06:06 41 0 0 0

PostgreSQL 声明式分区：庖丁解牛，深入内部实现原理

1. 声明式分区：是什么，为什么？

2. 分区表的元数据管理：藏身何处？

3. 查询优化器：如何利用分区信息进行分区裁剪？

4. DML 操作：INSERT、UPDATE、DELETE 的处理流程

4.1 INSERT

4.2 UPDATE

4.3 DELETE

5. 总结：声明式分区的“黑盒”不再神秘

附：进一步探索

PostgreSQL 声明式分区：庖丁解牛，深入内部实现原理

PostgreSQL 的声明式分区（Declarative Partitioning）自 10.0 版本引入以来，已成为管理大型数据库表的利器。它允许你将一个逻辑大表分解成多个物理小表（分区），从而提高查询性能、简化数据维护。但你是否曾好奇过，这看似“魔法”般的功能背后，究竟是如何运作的？

今天，咱们就来一起“庖丁解牛”，深入 PostgreSQL 声明式分区的内部实现原理，一探究竟。

1. 声明式分区：是什么，为什么？

在深入原理之前，我们先快速回顾一下声明式分区的基本概念和优势。

是什么？

声明式分区允许你通过 CREATE TABLE 语句中的 PARTITION BY 子句，定义分区规则。你可以根据范围（RANGE）、列表（LIST）或哈希（HASH）等方式，将数据分散到不同的分区中。PostgreSQL 会自动处理数据的路由和管理。

为什么？

性能提升： 通过分区裁剪（Partition Pruning），查询优化器可以只扫描相关的分区，而不是整个表，从而显著减少 I/O 操作，提高查询速度。
维护简化： 可以针对单个分区进行维护操作，如备份、恢复、删除等，而无需影响整个表。
数据归档： 可以将旧数据或不常访问的数据迁移到单独的分区，方便管理和归档。

2. 分区表的元数据管理：藏身何处？

了解了声明式分区的基础，我们来看看 PostgreSQL 是如何管理这些分区信息的。这些信息，就藏在系统目录表中。

pg_class： 存储所有表（包括分区表和分区）的基本信息，如表名、OID、所属关系等。对于分区表，relkind 字段的值为 'p'，表示 partitioned table；对于分区，relkind 字段的值为 'r'，表示 ordinary table。
pg_partitioned_table： 专门存储分区表的详细信息，如分区策略（RANGE、LIST、HASH）、分区键表达式、分区数量等。
pg_inherits： 存储表之间的继承关系。对于声明式分区，分区表会“继承”分区，pg_inherits 表中会记录这种继承关系。inhparent 字段指向分区表的 OID，inhrelid 字段指向分区的 OID。
pg_attribute： 存储表的列信息。分区表和分区都会有自己的列定义，存储在 pg_attribute 中。

通过查询这些系统目录表，你可以获取到分区表和分区的各种元数据信息。例如，你可以通过以下查询获取分区表的分区策略和分区键：

 SELECT partstrat, partkey
FROM pg_partitioned_table
WHERE partrelid = 'your_partitioned_table'::regclass;

3. 查询优化器：如何利用分区信息进行分区裁剪？

分区裁剪是声明式分区性能提升的关键。那么，查询优化器是如何利用分区信息，实现分区裁剪的呢？

PostgreSQL 的查询优化器在生成执行计划时，会进行以下步骤：

识别分区表： 优化器会检查查询中涉及的表是否为分区表（通过 pg_class.relkind）。
提取分区键约束： 优化器会分析查询条件（WHERE 子句），提取出与分区键相关的约束条件。
生成分区约束： 基于分区键约束和分区表的定义（pg_partitioned_table），优化器会生成针对每个分区的约束条件。
分区裁剪： 优化器会比较每个分区的约束条件和查询条件。如果某个分区的约束条件与查询条件不兼容（即不可能包含满足查询条件的数据），则该分区会被裁剪掉，不参与后续的扫描。
生成执行计划： 优化器会为剩余的分区生成执行计划，进行数据扫描和处理。

举个例子，假设我们有一个按日期范围分区的表 sales：

 CREATE TABLE sales (
    id INT,
    sale_date DATE,
    amount NUMERIC
) PARTITION BY RANGE (sale_date);
 
CREATE TABLE sales_2022 PARTITION OF sales
    FOR VALUES FROM ('2022-01-01') TO ('2023-01-01');
 
CREATE TABLE sales_2023 PARTITION OF sales
    FOR VALUES FROM ('2023-01-01') TO ('2024-01-01');

如果我们执行以下查询：

SELECT * FROM sales WHERE sale_date >= '2023-05-01' AND sale_date < '2023-06-01';

优化器会识别出 sales 是分区表，并提取出 sale_date 的约束条件。然后，它会比较每个分区的约束条件：

sales_2022：'2022-01-01' <= sale_date < '2023-01-01'，与查询条件不兼容，被裁剪。
sales_2023：'2023-01-01' <= sale_date < '2024-01-01'，与查询条件兼容，保留。

最终，优化器只会扫描 sales_2023 分区，从而大大减少了 I/O 操作。

4. DML 操作：INSERT、UPDATE、DELETE 的处理流程

了解了查询优化器如何利用分区信息，我们再来看看 DML 操作（INSERT、UPDATE、DELETE）在分区表上的处理流程。

4.1 INSERT

对于 INSERT 操作，PostgreSQL 会根据插入数据的值和分区表的定义，将其路由到正确的分区。

计算分区键值： 根据 INSERT 语句中提供的数据，计算分区键的值。
查找目标分区： 根据分区键值和分区表的定义（pg_partitioned_table），查找匹配的分区。
插入数据： 将数据插入到目标分区中。

如果找不到匹配的分区，PostgreSQL 会抛出错误。

4.2 UPDATE

UPDATE 操作稍微复杂一些，因为它可能涉及跨分区的数据移动。

定位原始数据： 根据 UPDATE 语句的 WHERE 子句，定位需要更新的数据所在的原始分区。
计算新分区键值： 如果 UPDATE 语句修改了分区键的值，则需要计算新的分区键值。
判断是否需要跨分区移动： 如果新的分区键值与原始分区不匹配，则需要将数据从原始分区移动到新的目标分区。
执行更新或移动：
- 如果不需要跨分区移动，则直接在原始分区上更新数据。
- 如果需要跨分区移动，则先从原始分区删除数据，然后将数据插入到新的目标分区。

4.3 DELETE

DELETE 操作相对简单，PostgreSQL 会根据 WHERE 子句，定位需要删除的数据所在的分区，然后直接从该分区删除数据。

5. 总结：声明式分区的“黑盒”不再神秘

通过本文的“庖丁解牛”，相信你已经对 PostgreSQL 声明式分区的内部实现原理有了更深入的了解。从元数据管理到查询优化，再到 DML 操作，我们揭开了声明式分区“黑盒”的面纱，看到了其背后的精妙设计。

掌握这些原理，不仅能帮助你更好地理解和使用声明式分区，还能让你在遇到分区相关问题时，能够更快速地定位和解决。希望本文能为你带来一些启发和帮助，让你在 PostgreSQL 的道路上更进一步！

附：进一步探索

如果你想进一步探索 PostgreSQL 声明式分区的奥秘，可以参考以下资源：

PostgreSQL 官方文档：https://www.postgresql.org/docs/current/ddl-partitioning.html
PostgreSQL 源代码：https://git.postgresql.org/gitweb/?p=postgresql.git;a=tree
PostgreSQL 社区邮件列表和论坛

祝你在 PostgreSQL 的学习和实践中不断进步！

铁头程序猿 PostgreSQL 分区数据库

	SELECT partstrat, partkey
	FROM pg_partitioned_table
	WHERE partrelid = 'your_partitioned_table'::regclass;

	CREATE TABLE sales (
	id INT,
	sale_date DATE,
	amount NUMERIC
	) PARTITION BY RANGE (sale_date);

	CREATE TABLE sales_2022 PARTITION OF sales
	FOR VALUES FROM ('2022-01-01') TO ('2023-01-01');

	CREATE TABLE sales_2023 PARTITION OF sales
	FOR VALUES FROM ('2023-01-01') TO ('2024-01-01');

PostgreSQL 声明式分区：庖丁解牛，深入内部实现原理

PostgreSQL 声明式分区：庖丁解牛，深入内部实现原理

1. 声明式分区：是什么，为什么？

2. 分区表的元数据管理：藏身何处？

3. 查询优化器：如何利用分区信息进行分区裁剪？

4. DML 操作：INSERT、UPDATE、DELETE 的处理流程

4.1 INSERT

4.2 UPDATE

4.3 DELETE

5. 总结：声明式分区的“黑盒”不再神秘

附：进一步探索

PostgreSQL 声明式分区：庖丁解牛，深入内部实现原理

1. 声明式分区：是什么，为什么？

2. 分区表的元数据管理：藏身何处？

3. 查询优化器：如何利用分区信息进行分区裁剪？

4. DML 操作：INSERT、UPDATE、DELETE 的处理流程

4.1 INSERT

4.2 UPDATE

4.3 DELETE

5. 总结：声明式分区的“黑盒”不再神秘

附：进一步探索

评论点评