PostgreSQL Autovacuum 调优：在高并发场景下，如何设置 autovacuum_max_workers 才能更给力？

2025/3/8 08:50:45 51 0 0 0

1. Autovacuum 是什么？为什么它很重要？

1.1 为什么要清理数据？

1.2 Autovacuum 的工作内容

1.3 Autovacuum 的重要性

2. autovacuum_max_workers：并发调度的关键

2.1 为什么需要并发？

2.2 并发带来的好处

2.3 并发的潜在问题

3. 如何合理设置 autovacuum_max_workers？

3.1 评估数据库负载

3.2 调整前的准备工作

3.3 初始设置建议

3.4 高并发场景下的特殊考虑

3.5 实际案例分析

3.6 总结

4. 监控 Autovacuum 的运行状态

4.1 使用系统视图监控

4.2 使用监控工具

4.3 监控的关键指标

5. 总结和建议

大家好，我是老 K。今天我们来聊聊 PostgreSQL 数据库中一个非常重要的配置：autovacuum_max_workers。这个参数对于数据库的性能和稳定性至关重要，尤其是在高并发的场景下。我会用最通俗易懂的方式，结合实际案例，带你深入理解如何合理设置它，让你的 PostgreSQL 数据库跑得更欢畅！

1. Autovacuum 是什么？为什么它很重要？

在深入 autovacuum_max_workers 之前，我们先来了解一下 Autovacuum 本身。简单来说，Autovacuum 是 PostgreSQL 数据库的“清洁工”，它负责自动清理和分析数据库中的数据，确保数据库的健康和高效。

1.1 为什么要清理数据？

随着数据的不断增加和更新，数据库中会产生大量的“垃圾”，主要包括：

已删除的数据： 当你执行 DELETE 语句时，数据并不会立即从磁盘上移除，而是被标记为“已删除”。
已更新的数据： 当你执行 UPDATE 语句时，实际上是创建了一个新的数据行，而旧的数据行同样被标记为“已删除”。
索引碎片： 频繁的插入、更新和删除操作会导致索引变得碎片化，降低查询效率。

这些“垃圾”会占用存储空间，降低查询性能，甚至导致数据库事务 ID 耗尽，最终导致数据库停止服务！

1.2 Autovacuum 的工作内容

Autovacuum 主要执行以下两个任务：

Vacuum (清理)： 移除已删除的数据，释放磁盘空间，并更新系统表中的统计信息。
Analyze (分析)： 收集数据库表的统计信息，用于优化查询计划。统计信息包括表的大小、行数、列的分布等， PostgreSQL 的查询优化器会根据这些信息来选择最佳的查询执行计划。

1.3 Autovacuum 的重要性

如果忽略 Autovacuum，你的数据库将会：

磁盘空间耗尽： 无法及时清理垃圾数据。
查询性能下降： 索引碎片化和统计信息不准确导致查询计划变差。
事务 ID 耗尽： 严重情况下，数据库会因为事务 ID 耗尽而无法写入数据，最终导致数据库崩溃。

所以，Autovacuum 是确保 PostgreSQL 数据库稳定运行的必备组件，而合理配置 Autovacuum 参数，特别是 autovacuum_max_workers，是提升数据库性能的关键。

2. `autovacuum_max_workers`：并发调度的关键

autovacuum_max_workers 参数定义了可以同时运行的 Autovacuum 进程的最大数量。默认值通常是 3，这意味着 PostgreSQL 会同时启动最多 3 个 Autovacuum 进程来处理不同的表。

2.1 为什么需要并发？

试想一下，如果只有一个 Autovacuum 进程，它需要逐个处理数据库中的所有表。当数据库中有大量表，或者某些表的清理任务非常耗时时，Autovacuum 的效率就会成为瓶颈。通过增加 autovacuum_max_workers，可以并行处理多个表，从而加快整个 Autovacuum 的速度，减少对数据库性能的影响。

2.2 并发带来的好处

加速清理速度： 并发处理多个表，减少清理总时间。
更及时地更新统计信息： 确保查询优化器获得最新的统计信息，从而生成更优的查询计划。
降低延迟： 及时清理数据，减少对查询性能的影响，降低查询延迟。

2.3 并发的潜在问题

当然，增加 autovacuum_max_workers 并非越多越好。过多的并发进程可能会导致以下问题：

资源竞争： Autovacuum 进程需要消耗 CPU、I/O 和内存资源。如果并发进程过多，可能会导致资源竞争，反而降低整体性能。
锁冲突： Autovacuum 在清理和分析表时会获取表级别的锁。过多的并发进程可能会导致锁冲突，阻塞正常的数据库操作。
系统负载过高： 并发进程会增加系统的负载，如果系统资源不足，可能会导致性能下降，甚至系统崩溃。

3. 如何合理设置 `autovacuum_max_workers`？

设置 autovacuum_max_workers 需要根据实际情况进行调整。下面我将结合高并发场景，分享一些设置的经验和建议。

3.1 评估数据库负载

首先，你需要评估数据库的负载情况。包括：

CPU 使用率： 数据库的 CPU 使用率是否达到瓶颈？
I/O 使用率： 数据库的 I/O 使用率是否达到瓶颈？
内存使用率： 数据库的内存使用率是否接近上限？
数据库连接数： 数据库的并发连接数是多少？
数据更新频率： 数据库的数据更新频率有多高？例如，每秒钟有多少插入、更新和删除操作？

你可以通过 pg_stat_database、pg_stat_all_tables、pg_statio_all_tables 等系统视图来获取这些信息，或者使用一些监控工具（例如 pgAdmin、Prometheus + Grafana 等）来实时监控数据库的各项指标。

3.2 调整前的准备工作

在调整 autovacuum_max_workers 之前，建议你：

备份数据库配置文件： 备份 postgresql.conf 文件，以便出现问题时可以恢复。
确定数据库版本： 不同版本的 PostgreSQL 可能在 Autovacuum 行为上有所差异，请查阅官方文档，了解当前版本的 Autovacuum 相关参数和行为。
进行测试： 在测试环境中进行调整和测试，验证调整后的效果，确保不会对生产环境造成影响。

3.3 初始设置建议

基于 CPU 核数： 一个比较通用的做法是，将 autovacuum_max_workers 设置为 CPU 核数的一半或者 1/3。例如，如果你的服务器有 8 个 CPU 核心，可以先将 autovacuum_max_workers 设置为 4 或者 2。这可以保证 Autovacuum 进程不会过度占用 CPU 资源，影响数据库的正常运行。
监控和调整： 设置完 autovacuum_max_workers 后，你需要持续监控数据库的性能指标。如果发现 CPU 或 I/O 负载过高，或者锁冲突频繁，可以适当减少 autovacuum_max_workers 的值。如果发现 Autovacuum 无法及时完成清理任务，可以适当增加 autovacuum_max_workers 的值。

3.4 高并发场景下的特殊考虑

在高并发场景下，数据更新非常频繁，需要更及时地清理和分析数据。以下是一些特殊考虑：

更激进的清理策略： 可以适当调小 autovacuum_vacuum_scale_factor 和 autovacuum_vacuum_threshold 参数，让 Autovacuum 更频繁地运行。这两个参数控制着 Autovacuum 触发的条件。autovacuum_vacuum_scale_factor 表示需要清理的元组占表总元组数的比例，autovacuum_vacuum_threshold 表示需要清理的元组的最小数量。
优化索引： 频繁的更新和删除操作会导致索引碎片化。定期优化索引，可以提高查询性能。可以使用 REINDEX 命令重建索引，或者使用一些工具来分析和优化索引。
调整清理和分析的频率： 可以通过 autovacuum_analyze_scale_factor、autovacuum_analyze_threshold、autovacuum_vacuum_cost_limit 等参数来调整清理和分析的频率和资源消耗。autovacuum_analyze_scale_factor 和 autovacuum_analyze_threshold 控制着 Autovacuum 分析的触发条件。autovacuum_vacuum_cost_limit 控制着 Autovacuum 的 I/O 消耗。
考虑使用分区表： 对于大型表，可以考虑使用分区表。分区表可以将数据分成多个小表，可以提高清理和查询的效率。
设置 maintenance_work_mem： 适当调大 maintenance_work_mem 参数，可以提高 Autovacuum 的效率。这个参数控制着 Autovacuum 进程可以使用的内存大小。

3.5 实际案例分析

让我们来看几个实际案例，看看如何根据不同的场景来调整 autovacuum_max_workers。

案例一：

场景： 电商平台，高峰时段并发连接数超过 1000，数据更新非常频繁。
问题： 数据库 CPU 负载较高，查询响应时间变慢。
分析： 数据更新频繁导致 Autovacuum 任务积压，清理和分析不及时。
解决方案：
1. 将 autovacuum_max_workers 增加到 8（服务器有 16 个 CPU 核心）。
2. 调小 autovacuum_vacuum_scale_factor 和 autovacuum_vacuum_threshold，让 Autovacuum 更频繁地运行。
3. 调大 maintenance_work_mem。
4. 定期优化索引。
5. 监控数据库性能，根据实际情况调整参数。

案例二：

场景： 内容管理系统，数据更新量相对较少，但表结构复杂，索引较多。
问题： Autovacuum 运行时间较长，影响数据库性能。
分析： 索引较多导致 Autovacuum 分析时间较长。
解决方案：
1. 适度增加 autovacuum_max_workers（例如从 3 增加到 4）。
2. 优化索引，删除不必要的索引。
3. 监控 Autovacuum 的运行情况，调整参数。

案例三：

场景： 报表系统，数据量巨大，但更新频率较低，查询负载高。
问题： 查询性能慢，Autovacuum 运行时间对查询的影响不大。
分析： 数据库的瓶颈在于查询性能，而不是 Autovacuum。
解决方案：
1. 适当增加 autovacuum_max_workers (例如从 3 增加到 4)。
2. 优化查询语句和索引。
3. 考虑使用更高效的查询计划。
4. 增加硬件资源 (例如内存和 SSD)。

3.6 总结

设置 autovacuum_max_workers 是一个动态调整的过程，需要根据实际情况进行评估和优化。没有一成不变的“最佳”设置，需要根据你的数据库负载、数据更新频率、表结构、硬件资源等因素，进行综合考虑和调整。

4. 监控 Autovacuum 的运行状态

仅仅设置好 autovacuum_max_workers 并不够，你还需要监控 Autovacuum 的运行状态，确保它正常工作，并根据实际情况进行调整。

4.1 使用系统视图监控

PostgreSQL 提供了多个系统视图，可以用来监控 Autovacuum 的运行状态：

pg_stat_all_tables： 可以查看每个表的 Vacuum 和 Analyze 的统计信息，包括清理的行数、分析的行数、最后一次 Vacuum 和 Analyze 的时间等。
pg_stat_database： 可以查看数据库级别的 Vacuum 和 Analyze 的统计信息，包括 Vacuum 和 Analyze 的总时间、扫描的行数等。
pg_autovacuum： (PostgreSQL 12 及以上版本) 可以查看 Autovacuum 进程的详细信息，包括进程 ID、状态、正在处理的表等。
pg_locks： 可以查看数据库中的锁信息，包括锁的类型、锁定的对象、获取锁的进程等。通过监控锁信息，可以判断 Autovacuum 是否导致了锁冲突。

你可以使用 SQL 查询这些系统视图，来获取 Autovacuum 的运行状态信息。例如：

 -- 查看每个表的 Vacuum 和 Analyze 统计信息
SELECT schemaname, relname, n_live_tup, n_dead_tup, last_vacuum, last_analyze
FROM pg_stat_all_tables
WHERE n_dead_tup > 0  -- 筛选出有死亡元组的表
ORDER BY n_dead_tup DESC;
 
-- 查看数据库级别的 Vacuum 和 Analyze 统计信息
SELECT datname, vacuum_count, autovacuum_count, analyze_count
FROM pg_stat_database
WHERE datname = current_database();
 
-- 查看 Autovacuum 进程的详细信息 (PostgreSQL 12 及以上版本)
SELECT pid, schemaname, relname, phase, start_time
FROM pg_autovacuum;

4.2 使用监控工具

除了系统视图，你还可以使用一些监控工具来实时监控 Autovacuum 的运行状态，例如：

pgAdmin： pgAdmin 是一个流行的 PostgreSQL 数据库管理工具，可以用来查看数据库的各项指标，包括 Autovacuum 的运行状态。
Prometheus + Grafana： Prometheus 是一个开源的监控系统，Grafana 是一个开源的数据可视化工具。你可以使用 Prometheus 收集 PostgreSQL 的监控数据，然后使用 Grafana 创建仪表盘，实时展示 Autovacuum 的运行状态。
第三方监控工具： 还有一些第三方的监控工具，例如 Datadog、New Relic 等，可以提供更全面的数据库监控功能。

4.3 监控的关键指标

在监控 Autovacuum 的运行状态时，你需要关注以下几个关键指标：

死亡元组数量： 死亡元组是指已经删除或更新但尚未被 Vacuum 清理的元组。如果死亡元组数量持续增加，说明 Autovacuum 清理速度不够快。
Vacuum 和 Analyze 的频率： 监控 Vacuum 和 Analyze 的频率，确保它们能够及时清理和分析数据。
Vacuum 和 Analyze 的耗时： 监控 Vacuum 和 Analyze 的耗时，如果耗时过长，可能会影响数据库的性能。
锁冲突： 监控锁冲突，确保 Autovacuum 不会阻塞正常的数据库操作。
CPU 和 I/O 负载： 监控 CPU 和 I/O 负载，确保 Autovacuum 进程不会过度占用系统资源。

通过监控这些关键指标，你可以及时发现 Autovacuum 的问题，并根据实际情况进行调整。

5. 总结和建议

在本文中，我们详细介绍了 PostgreSQL 数据库中 autovacuum_max_workers 参数的含义、重要性、设置方法和监控方法。下面我来总结一下核心要点，并给出一些建议：

理解 Autovacuum 的作用： Autovacuum 是 PostgreSQL 数据库的“清洁工”，负责清理和分析数据，确保数据库的健康和高效。
autovacuum_max_workers 的作用： 定义了可以同时运行的 Autovacuum 进程的最大数量，影响 Autovacuum 的并发处理能力。
合理设置 autovacuum_max_workers： 需要根据数据库的负载、数据更新频率、表结构、硬件资源等因素，进行综合考虑和调整。通常可以设置为 CPU 核心数的一半或 1/3，在高并发场景下，需要更激进的清理策略。
监控 Autovacuum 的运行状态： 使用系统视图或监控工具，监控死亡元组数量、Vacuum 和 Analyze 的频率和耗时、锁冲突、CPU 和 I/O 负载等关键指标，及时发现问题并进行调整。
持续优化： 设置 autovacuum_max_workers 是一个持续优化的过程，需要根据实际情况进行评估和调整。

建议：

从小处着手： 调整 autovacuum_max_workers 时，从小值开始，逐渐增加，避免一次性调整过大导致问题。
测试先行： 在测试环境中进行调整和测试，验证调整后的效果，确保不会对生产环境造成影响。
定期优化： 定期检查 Autovacuum 的运行状态，根据实际情况进行调整，确保数据库的性能和稳定性。
结合其他参数： autovacuum_max_workers 只是 Autovacuum 调优的一个方面，还需要结合其他参数（例如 autovacuum_vacuum_scale_factor、autovacuum_vacuum_threshold、maintenance_work_mem 等）进行综合调整。
深入学习： PostgreSQL 的 Autovacuum 机制非常复杂，建议深入学习相关知识，理解其工作原理，才能更好地进行调优。

希望这篇文章能帮助你更好地理解和使用 autovacuum_max_workers，让你的 PostgreSQL 数据库在高并发场景下也能稳定、高效地运行！如果你有任何问题，欢迎在评论区留言，我们一起探讨！

老K PostgreSQL Autovacuum 数据库调优

	-- 查看每个表的 Vacuum 和 Analyze 统计信息
	SELECT schemaname, relname, n_live_tup, n_dead_tup, last_vacuum, last_analyze
	FROM pg_stat_all_tables
	WHERE n_dead_tup > 0 -- 筛选出有死亡元组的表
	ORDER BY n_dead_tup DESC;

	-- 查看数据库级别的 Vacuum 和 Analyze 统计信息
	SELECT datname, vacuum_count, autovacuum_count, analyze_count
	FROM pg_stat_database
	WHERE datname = current_database();

	-- 查看 Autovacuum 进程的详细信息 (PostgreSQL 12 及以上版本)
	SELECT pid, schemaname, relname, phase, start_time
	FROM pg_autovacuum;

PostgreSQL Autovacuum 调优：在高并发场景下，如何设置 autovacuum_max_workers 才能更给力？

1. Autovacuum 是什么？为什么它很重要？

1.1 为什么要清理数据？

1.2 Autovacuum 的工作内容

1.3 Autovacuum 的重要性

2. autovacuum_max_workers：并发调度的关键

2.1 为什么需要并发？

2.2 并发带来的好处

2.3 并发的潜在问题

3. 如何合理设置 autovacuum_max_workers？

3.1 评估数据库负载

3.2 调整前的准备工作

3.3 初始设置建议

3.4 高并发场景下的特殊考虑

3.5 实际案例分析

3.6 总结

4. 监控 Autovacuum 的运行状态

4.1 使用系统视图监控

4.2 使用监控工具

4.3 监控的关键指标

5. 总结和建议

1. Autovacuum 是什么？为什么它很重要？

1.1 为什么要清理数据？

1.2 Autovacuum 的工作内容

1.3 Autovacuum 的重要性

2. autovacuum_max_workers：并发调度的关键

2.1 为什么需要并发？

2.2 并发带来的好处

2.3 并发的潜在问题

3. 如何合理设置 autovacuum_max_workers？

3.1 评估数据库负载

3.2 调整前的准备工作

3.3 初始设置建议

3.4 高并发场景下的特殊考虑

3.5 实际案例分析

3.6 总结

4. 监控 Autovacuum 的运行状态

4.1 使用系统视图监控

4.2 使用监控工具

4.3 监控的关键指标

5. 总结和建议

评论点评

2. `autovacuum_max_workers`：并发调度的关键

3. 如何合理设置 `autovacuum_max_workers`？