PostgreSQL 死元组清理疑难杂症：autovacuum 失效的常见原因与解决之道

2025/3/8 08:00:35 256 0 0 0

PostgreSQL 死元组清理疑难杂症：autovacuum 失效的常见原因与解决之道

各位 PostgreSQL 进阶用户和 DBA 们，大家好！相信你在日常运维中，或多或少都遇到过 PostgreSQL 数据库膨胀、性能下降的问题。其中，死元组（dead tuples）堆积无法及时清理，往往是“罪魁祸首”之一。今天，我们就来深入聊聊 PostgreSQL 的 autovacuum 机制，以及它在某些情况下“失灵”的原因，并提供实用的排查思路和解决方案。

什么是死元组？

在 PostgreSQL 中，当我们更新或删除一行数据时，并不会立即从磁盘上物理删除旧版本的数据。PostgreSQL 采用的是多版本并发控制（MVCC）机制，旧版本的数据（即死元组）会被标记为“已删除”，但仍然保留在表中，以便其他事务可以访问到旧版本的数据，实现事务的隔离性。

这些死元组会占用磁盘空间，降低查询性能。因此，PostgreSQL 需要一种机制来清理这些死元组，这就是 VACUUM 的作用。而 autovacuum 则是 PostgreSQL 自动执行 VACUUM 的后台进程。

autovacuum 的工作原理

autovacuum 会定期扫描数据库中的表，检查死元组的数量是否超过了阈值。如果超过了阈值，autovacuum 就会对该表执行 VACUUM 操作，清理死元组，回收磁盘空间。

autovacuum 的触发条件主要有两个：

死元组数量超过阈值：
- autovacuum_vacuum_threshold：固定阈值，默认为 50。
- autovacuum_vacuum_scale_factor：比例阈值，默认为 0.2（即 20%）。
- 实际阈值 = autovacuum_vacuum_threshold + autovacuum_vacuum_scale_factor * 表的总行数。
插入操作超过阈值 (针对toast表):
- autovacuum_vacuum_insert_threshold: 固定阈值，默认 -1，表示禁用。
- autovacuum_vacuum_insert_scale_factor: 比例阈值, 默认0.2。
- 实际阈值 = autovacuum_vacuum_insert_threshold + autovacuum_vacuum_insert_scale_factor * 表的总行数。

autovacuum 还会受到其他一些参数的影响，例如 autovacuum_max_workers（最大工作进程数）、autovacuum_naptime（休眠时间）等。这些参数的合理配置，对于 autovacuum 的效率至关重要。

autovacuum 失效的常见原因

尽管 autovacuum 是一个非常强大的工具，但在某些情况下，它可能无法有效地清理死元组。以下是一些常见的原因：

长事务阻塞： 这是最常见的原因之一。如果一个事务长时间运行（例如，一个长时间运行的查询或一个未提交的事务），它会阻止 autovacuum 清理该事务所涉及的表中的死元组。因为 MVCC 机制需要保留旧版本的数据，以保证该事务能够看到一致的数据快照。
- 排查方法： 使用 pg_stat_activity 视图查看当前正在运行的事务，找出长时间运行的事务。
```
SELECT pid, state, query_start, now() - query_start AS duration, query
FROM pg_stat_activity
WHERE state != 'idle'
ORDER BY duration DESC;
```
- 解决方案： 优化长时间运行的查询，及时提交事务，避免事务长时间处于打开状态。如果必须有长事务，考虑使用pg_terminate_backend()终止阻塞的进程(谨慎使用)。
备库复制延迟： 在主备复制环境中，如果备库复制延迟过大，备库上的旧快照可能会阻止主库上的 autovacuum 清理死元组。因为备库可能需要访问旧版本的数据来进行数据同步。
- 排查方法： 使用 pg_stat_replication 视图查看复制延迟。
```
SELECT *
FROM pg_stat_replication;
```
- 解决方案： 优化网络连接，提高备库的性能，减少复制延迟。也可以配置 hot_standby_feedback = on, 允许standby节点反馈给primary节点哪些旧的元组仍然需要, 让primary节点能够更激进的清理。
死锁： 死锁会导致事务回滚，产生大量的死元组。如果死锁频繁发生，可能会导致 autovacuum 来不及清理。
- 排查方法： 查看 PostgreSQL 日志，查找死锁相关的错误信息。
- 解决方案： 优化应用程序逻辑，避免死锁的发生。调整 deadlock_timeout 参数。
autovacuum 参数配置不当： 如果 autovacuum 的参数配置不合理，例如 autovacuum_vacuum_threshold 或 autovacuum_vacuum_scale_factor 设置过大，或者 autovacuum_max_workers 设置过小，都可能导致 autovacuum 无法及时触发或执行效率低下。
- 排查方法： 查看 autovacuum 相关的参数配置。
```
SHOW autovacuum_vacuum_threshold;
SHOW autovacuum_vacuum_scale_factor;
SHOW autovacuum_max_workers;
```
- 解决方案： 根据实际情况调整 autovacuum 参数。建议根据表的实际大小和更新频率，单独为大表或频繁更新的表设置 autovacuum_vacuum_threshold 和 autovacuum_vacuum_scale_factor。
  可以使用以下SQL语句为单个表设置参数
```
ALTER TABLE your_table_name SET (autovacuum_vacuum_threshold = 1000);
ALTER TABLE your_table_name SET (autovacuum_vacuum_scale_factor = 0.1);
```
表上存在排他锁： 如果一个表上存在排他锁（例如，ALTER TABLE 操作），autovacuum 将无法对该表执行 VACUUM 操作。
- 排查方法： 使用 pg_locks 视图查看当前存在的锁。
```
SELECT * FROM pg_locks WHERE relation = 'your_table_name'::regclass;
```
- 解决方案： 尽量避免在业务高峰期执行 ALTER TABLE 等会产生排他锁的操作。如果必须执行，尽量缩短操作时间。
TOAST 表问题: 对于包含大量大对象（如文本、图像等）的表，其 TOAST 表可能也会积累大量死元组。autovacuum 默认情况下可能不会积极清理 TOAST 表。
- 排查方法: 使用 pg_class 和 pg_toast 视图检查 TOAST 表的大小和死元组情况。
```
SELECT relname, reltuples, relpages, reltoastrelid
FROM pg_class
WHERE relkind = 't'; -- 't' 表示 TOAST 表

-- 查看 TOAST 表的详细信息
SELECT *
FROM pg_toast.pg_toast_YOUR_TOAST_TABLE_OID;
```
- 解决方案： 调整 TOAST 表的 autovacuum_vacuum_threshold 和 autovacuum_vacuum_scale_factor 参数, 或者手动对TOAST执行VACUUM。
autovacuum 被禁用： 在某些情况下，autovacuum 可能会被意外禁用。
- 排查方法：
```
SHOW autovacuum;
```
- 解决方案：
```
ALTER SYSTEM SET autovacuum = on;
SELECT pg_reload_conf();
```
硬件资源不足：如果服务器的 CPU、内存、磁盘 I/O 等资源不足，autovacuum 的执行效率会受到影响，甚至无法正常工作。
- 排查方法：使用系统监控工具（如 top、iostat、vmstat 等）监控服务器的资源使用情况。
- 解决方案：升级硬件或优化系统配置。

案例分析

案例 1：

一家电商公司发现他们的订单表（orders）越来越大，查询性能也越来越慢。他们检查了 PostgreSQL 的配置，发现 autovacuum 已经开启，但订单表中的死元组数量仍然很高。

经过排查，他们发现有一个长时间运行的报表查询，每天都会查询最近一个月的所有订单数据。这个查询一直处于运行状态，阻止了 autovacuum 清理订单表中的死元组。

解决方案：优化报表查询，将查询时间缩短到几分钟以内。同时，他们还调整了 autovacuum 参数，降低了 autovacuum_vacuum_scale_factor，使得 autovacuum 更频繁地触发。

案例 2：

一个社交网站发现他们的用户头像表（user_avatars）膨胀严重。这张表存储了用户的头像图片，使用了 TOAST 表来存储大对象。

经过排查，他们发现 autovacuum 并没有频繁地清理 user_avatars 表的 TOAST 表。他们为这张表单独设置了更小的autovacuum_vacuum_threshold 和 autovacuum_vacuum_scale_factor，问题得到解决。

总结与最佳实践

autovacuum 是 PostgreSQL 中一个非常重要的后台进程，它可以自动清理死元组，回收磁盘空间，提高查询性能。但是，autovacuum 并非万能的，它可能会受到各种因素的影响而失效。

要确保 autovacuum 正常工作，我们需要：

监控 autovacuum 的运行状态： 定期检查 autovacuum 的日志，查看是否有错误信息。
监控数据库的性能： 关注数据库的膨胀情况、查询性能等指标。
监控长事务： 及时发现并处理长时间运行的事务。
监控复制延迟： 确保主备复制的延迟在可接受范围内。
合理配置 autovacuum 参数： 根据实际情况调整 autovacuum_vacuum_threshold、autovacuum_vacuum_scale_factor、autovacuum_max_workers 等参数。
避免死锁： 优化应用程序逻辑，避免死锁的发生。
避免长时间持有排他锁： 尽量避免在业务高峰期执行 ALTER TABLE 等会产生排他锁的操作。
定期手动执行 VACUUM FULL： 对于一些无法通过 autovacuum 有效清理的表，可以定期手动执行 VACUUM FULL 操作。但要注意，VACUUM FULL 会锁定表，影响业务的正常运行，因此需要在业务低峰期执行。
使用连接池: 连接池可以复用数据库连接，减少频繁创建和销毁连接的开销，也有助于减少未提交事务的可能性。

希望这篇文章能够帮助你更好地理解 PostgreSQL 的 autovacuum 机制，解决死元组清理的难题。如果你有任何问题或建议，欢迎留言交流！

Postgres极客 PostgreSQL autovacuum 死元组

PostgreSQL 死元组清理疑难杂症：autovacuum 失效的常见原因与解决之道