PostgreSQL 分区表从入门到放弃？不，看这篇就够了！

2025/3/7 13:46:39 32 0 0 0

啥是 PostgreSQL 分区表？

为啥要用分区表？

分区表都有啥类型？

1. 范围分区 (Range Partitioning)

2. 列表分区 (List Partitioning)

3. 哈希分区 (Hash Partitioning)

4. 复合分区

分区表使用注意事项

总结

补充：分区表的查询优化

啥是 PostgreSQL 分区表？

你想想啊，咱们平时用的表，数据都堆一块儿，就像一个大仓库，啥都往里塞。数据少了还好，一旦数据量爆炸，几百万、几千万甚至上亿条，那查起来可就费劲了，跟大海捞针似的。PostgreSQL 这时候就给我们提供了个好东西——分区表。

分区表，顾名思义，就是把一个大表，按照一定的规则，拆成若干个小块，每个小块就是一个“分区”。这些分区，物理上是独立的文件，逻辑上还是一个整体，你操作的时候，感觉跟操作一个普通表没啥区别。就像你把仓库分成了几个区域，每个区域放不同的东西，找起来就方便多了。

为啥要用分区表？

分区表可不是花架子，它能给我们带来实实在在的好处：

性能起飞：查询的时候，PostgreSQL 只需要扫描相关的分区，不用全表扫描，速度蹭蹭往上涨。特别是那些经常按时间、地区等条件查询的场景，效果更明显。
管理方便：可以针对单个分区进行备份、恢复、优化等操作，不用动整个表，省时省力。
维护轻松：可以删除、添加分区，灵活调整数据分布，适应业务变化。
存储优化：可以把不同的分区放到不同的磁盘上，分散 I/O 压力，提高整体性能。

分区表都有啥类型？

PostgreSQL 提供了几种不同的分区方式，各有各的特点，咱们来挨个瞅瞅：

1. 范围分区 (Range Partitioning)

范围分区，就是按照某个字段的范围来划分分区。比如，按时间范围，把每个月的数据放到一个分区；按地区范围，把每个省份的数据放到一个分区。这是最常用的一种分区方式。

举个栗子：

假设咱们有个订单表 orders，里面记录了订单的创建时间 created_at。咱们可以按月分区，每个月的数据放到一个分区里：

 CREATE TABLE orders (
    order_id SERIAL PRIMARY KEY,
    customer_id INT,
    created_at TIMESTAMP
) PARTITION BY RANGE (created_at);
 
-- 创建分区
CREATE TABLE orders_2023_01 PARTITION OF orders
    FOR VALUES FROM ('2023-01-01') TO ('2023-02-01');
 
CREATE TABLE orders_2023_02 PARTITION OF orders
    FOR VALUES FROM ('2023-02-01') TO ('2023-03-01');
 
-- ... 其他月份的分区

这样，查询 2023 年 1 月份的订单，PostgreSQL 就只会扫描 orders_2023_01 这个分区，速度快多了。

2. 列表分区 (List Partitioning)

列表分区，就是按照某个字段的特定值来划分分区。比如，按订单状态，把“已完成”、“待支付”、“已取消”等状态的订单放到不同的分区。

举个栗子：

假设咱们有个订单表 orders，里面记录了订单的状态 status。咱们可以按状态分区，每个状态的数据放到一个分区里：

 CREATE TABLE orders (
    order_id SERIAL PRIMARY KEY,
    customer_id INT,
    status VARCHAR(20)
) PARTITION BY LIST (status);
 
-- 创建分区
CREATE TABLE orders_completed PARTITION OF orders
    FOR VALUES IN ('completed');
 
CREATE TABLE orders_pending PARTITION OF orders
    FOR VALUES IN ('pending');
 
CREATE TABLE orders_canceled PARTITION OF orders
    FOR VALUES IN ('canceled');

这样，查询所有“已完成”的订单，PostgreSQL 就只会扫描 orders_completed 这个分区。

3. 哈希分区 (Hash Partitioning)

哈希分区，就是按照某个字段的哈希值来划分分区。PostgreSQL 会根据你指定的哈希函数和分区数，自动把数据分配到不同的分区里。这种分区方式，数据分布比较均匀，适合那些没有明显范围或列表特征的数据。

举个栗子：

假设咱们有个用户表 users，里面记录了用户的 ID user_id。咱们可以按用户 ID 的哈希值分区，分成 4 个分区：

 CREATE TABLE users (
    user_id INT PRIMARY KEY,
    username VARCHAR(50)
) PARTITION BY HASH (user_id);
 
-- 创建分区
CREATE TABLE users_0 PARTITION OF users
    FOR VALUES WITH (MODULUS 4, REMAINDER 0);
 
CREATE TABLE users_1 PARTITION OF users
    FOR VALUES WITH (MODULUS 4, REMAINDER 1);
 
CREATE TABLE users_2 PARTITION OF users
    FOR VALUES WITH (MODULUS 4, REMAINDER 2);
 
CREATE TABLE users_3 PARTITION OF users
    FOR VALUES WITH (MODULUS 4, REMAINDER 3);

这样，PostgreSQL 会自动把用户数据均匀地分配到这 4 个分区里。

4. 复合分区

除了上面这三种基本的分区方式，PostgreSQL 还支持复合分区，就是把多种分区方式组合起来使用。比如，先按时间范围分区，再按地区列表分区。

举个栗子：

假设咱们有个日志表 logs，里面记录了日志的时间 created_at 和地区 region。咱们可以先按月分区，再按地区分区：

 CREATE TABLE logs (
    log_id SERIAL PRIMARY KEY,
    created_at TIMESTAMP,
    region VARCHAR(20),
    message TEXT
) PARTITION BY RANGE (created_at);
 
-- 创建月份分区
CREATE TABLE logs_2023_01 PARTITION OF logs
    FOR VALUES FROM ('2023-01-01') TO ('2023-02-01') PARTITION BY LIST (region);
 
CREATE TABLE logs_2023_02 PARTITION OF logs
    FOR VALUES FROM ('2023-02-01') TO ('2023-03-01') PARTITION BY LIST (region);
 
-- ... 其他月份的分区
 
-- 创建地区分区
CREATE TABLE logs_2023_01_north PARTITION OF logs_2023_01
    FOR VALUES IN ('north');
 
CREATE TABLE logs_2023_01_south PARTITION OF logs_2023_01
    FOR VALUES IN ('south');
 
-- ... 其他月份和地区的分区

这样，查询 2023 年 1 月份北方地区的日志，PostgreSQL 就只会扫描 logs_2023_01_north 这个分区。

分区表使用注意事项

分区表虽好，但也不是万能的，使用的时候要注意以下几点：

分区键选择要慎重：分区键的选择，直接影响到分区的效果。要根据实际的查询场景，选择合适的字段作为分区键。一般来说，经常作为查询条件的字段，比较适合作为分区键。
分区数量要适中：分区数量太少，起不到分区的效果；分区数量太多，会增加管理的复杂度。要根据数据量和查询负载，合理设置分区数量。
分区维护要及时：随着业务的变化，数据分布可能会发生变化，要及时调整分区策略，比如添加、删除分区，或者合并、拆分分区。
数据迁移： 如果您想将现有表转为分区表, PostgreSQL目前没有直接提供ALTER TABLE之类的语法直接转换，你需要重新创建分区表，再将旧数据导入到新表。可以使用INSERT INTO ... SELECT语句进行数据迁移。
索引： 可以在每个分区上单独创建索引，也可以在父表上创建全局索引。全局索引会跨所有分区，但可能不如分区本地索引高效。根据实际查询情况选择。
外键： 分区表可以作为外键的引用表，但分区表本身不能包含外键约束。这是因为外键约束需要检查整个表，而分区表的数据分布在多个分区中。

总结

PostgreSQL 分区表，是优化大数据量查询、提高数据库性能的利器。掌握了分区表的原理和使用方法，你就能更好地管理和维护你的数据库，让你的应用跑得更快、更稳。希望这篇文章能帮你更好地理解和使用PostgreSQL分区表，别再“从入门到放弃”啦！

如果你还有什么疑问，或者想了解更多关于PostgreSQL的知识，欢迎留言讨论！

补充：分区表的查询优化

使用了分区表后，PostgreSQL 会自动进行分区剪裁（Partition Pruning），只扫描相关的分区。但是，为了确保分区剪裁生效，你的查询条件必须包含分区键。比如我们之前的orders表按created_at分区，那么查询时最好带上created_at的条件:

 -- 高效的查询，会进行分区剪裁
SELECT * FROM orders WHERE created_at >= '2023-01-01' AND created_at < '2023-02-01';
 
-- 不高效的查询，会扫描所有分区
SELECT * FROM orders WHERE customer_id = 123;

所以，设计查询语句时，要尽量利用分区键，才能充分发挥分区表的优势。

爱写代码的PG迷 PostgreSQL 分区表数据库优化

	CREATE TABLE orders (
	order_id SERIAL PRIMARY KEY,
	customer_id INT,
	created_at TIMESTAMP
	) PARTITION BY RANGE (created_at);

	-- 创建分区
	CREATE TABLE orders_2023_01 PARTITION OF orders
	FOR VALUES FROM ('2023-01-01') TO ('2023-02-01');

	CREATE TABLE orders_2023_02 PARTITION OF orders
	FOR VALUES FROM ('2023-02-01') TO ('2023-03-01');

	-- ... 其他月份的分区

	CREATE TABLE users (
	user_id INT PRIMARY KEY,
	username VARCHAR(50)
	) PARTITION BY HASH (user_id);

	-- 创建分区
	CREATE TABLE users_0 PARTITION OF users
	FOR VALUES WITH (MODULUS 4, REMAINDER 0);

	CREATE TABLE users_1 PARTITION OF users
	FOR VALUES WITH (MODULUS 4, REMAINDER 1);

	CREATE TABLE users_2 PARTITION OF users
	FOR VALUES WITH (MODULUS 4, REMAINDER 2);

	CREATE TABLE users_3 PARTITION OF users
	FOR VALUES WITH (MODULUS 4, REMAINDER 3);

	CREATE TABLE logs (
	log_id SERIAL PRIMARY KEY,
	created_at TIMESTAMP,
	region VARCHAR(20),
	message TEXT
	) PARTITION BY RANGE (created_at);

	-- 创建月份分区
	CREATE TABLE logs_2023_01 PARTITION OF logs
	FOR VALUES FROM ('2023-01-01') TO ('2023-02-01') PARTITION BY LIST (region);

	CREATE TABLE logs_2023_02 PARTITION OF logs
	FOR VALUES FROM ('2023-02-01') TO ('2023-03-01') PARTITION BY LIST (region);

	-- ... 其他月份的分区

	-- 创建地区分区
	CREATE TABLE logs_2023_01_north PARTITION OF logs_2023_01
	FOR VALUES IN ('north');

	CREATE TABLE logs_2023_01_south PARTITION OF logs_2023_01
	FOR VALUES IN ('south');

	-- ... 其他月份和地区的分区

	-- 高效的查询，会进行分区剪裁
	SELECT * FROM orders WHERE created_at >= '2023-01-01' AND created_at < '2023-02-01';

	-- 不高效的查询，会扫描所有分区
	SELECT * FROM orders WHERE customer_id = 123;

PostgreSQL 分区表从入门到放弃？不，看这篇就够了！

啥是 PostgreSQL 分区表？

为啥要用分区表？

分区表都有啥类型？

1. 范围分区 (Range Partitioning)

2. 列表分区 (List Partitioning)

3. 哈希分区 (Hash Partitioning)

4. 复合分区

分区表使用注意事项

总结

补充：分区表的查询优化

啥是 PostgreSQL 分区表？

为啥要用分区表？

分区表都有啥类型？

1. 范围分区 (Range Partitioning)

2. 列表分区 (List Partitioning)

3. 哈希分区 (Hash Partitioning)

4. 复合分区

分区表使用注意事项

总结

补充：分区表的查询优化

评论点评