Redis Cluster 真香！故障转移详解，看完这篇就够了！

2025/3/12 00:26:17 27 0 0 0

Redis Cluster 真香！故障转移详解，看完这篇就够了！

为什么要用 Redis Cluster？

Redis Cluster 的高可用基石：主从复制

Redis Cluster 的故障转移流程

1. 故障检测：谁来判断主节点挂了？

2. 选举新的主节点：谁来接替？

3. 从节点切换：新官上任

4. 通知客户端：主节点换人了！

故障转移过程中的注意事项

总结

Redis Cluster 真香！故障转移详解，看完这篇就够了！

大家好，我是爱琢磨的程序猿老王。

你是不是也经常被 Redis 的高可用性问题困扰？单机版 Redis 挂了，整个服务都得瘫痪，想想都头大。别担心，今天老王就带你彻底搞懂 Redis Cluster 的故障转移机制，让你从此告别单点故障的噩梦！

为什么要用 Redis Cluster？

在聊故障转移之前，咱们先来聊聊为什么要用 Redis Cluster。简单来说，Redis Cluster 就是为了解决单机 Redis 的两个核心问题：

容量限制： 单机 Redis 的内存容量是有限的，当数据量超过内存大小时，要么加内存（成本高！），要么只能忍痛删除部分数据（业务受损！）。
单点故障： 单机 Redis 一旦宕机，整个服务就不可用了，这对于很多关键业务来说是无法接受的。

Redis Cluster 通过数据分片（Sharding）和主从复制（Replication）解决了这两个问题。

数据分片： 将数据分散存储到多个 Redis 节点上，每个节点只负责一部分数据，这样就突破了单机 Redis 的容量限制。
主从复制： 每个主节点（Master）可以配置多个从节点（Slave），当主节点宕机时，可以自动将一个从节点提升为新的主节点，继续提供服务，保证了高可用性。

Redis Cluster 的高可用基石：主从复制

Redis Cluster 的高可用性，首先要归功于它的主从复制机制。这跟单机版的 Redis 主从复制基本一样，咱们简单回顾一下：

数据同步： 从节点启动后，会向主节点发送 SYNC 命令（Redis 2.8 之后是 PSYNC），主节点收到命令后，会执行 BGSAVE 生成 RDB 快照文件，并将快照文件发送给从节点。从节点接收到快照文件后，会加载快照文件，将自己的数据库状态恢复到与主节点一致。
命令传播： 在数据同步完成后，主节点会将之后接收到的所有写命令都发送给从节点，从节点执行这些命令，保持与主节点的数据一致。

有了主从复制，当主节点宕机时，就可以从从节点中选出一个新的主节点，继续提供服务。但是，问题来了：

如何判断主节点真的宕机了？
如果有多个从节点，应该选择哪个从节点作为新的主节点？
如何通知客户端，主节点已经发生了变化？

这些问题，就是 Redis Cluster 的故障转移机制要解决的。

Redis Cluster 的故障转移流程

Redis Cluster 的故障转移流程，主要分为以下几个步骤：

故障检测
选举新的主节点
从节点切换
通知客户端

下面，咱们来详细解读每个步骤。

1. 故障检测：谁来判断主节点挂了？

Redis Cluster 中的每个节点都会定期向其他节点发送 PING 命令，并接收其他节点的 PONG 回复。如果一个节点在一定时间内没有收到某个节点的 PONG 回复，就会将该节点标记为 疑似下线（PFAIL） 状态。

这里要注意，PFAIL 只是一个节点自己的判断，并不能代表其他节点的意见。为了避免误判，Redis Cluster 采用了一种类似于“投票”的机制来确认节点是否真的下线。

当一个节点认为某个主节点 PFAIL 时，它会向集群中的其他节点发送 FAILOVER_AUTH_REQUEST 消息，请求其他节点投票。如果一个主节点收到了超过半数（N/2 + 1）的其他主节点的投票，认为它确实下线了，那么这个主节点就会被标记为 已下线（FAIL） 状态。

举个例子，假设一个 Redis Cluster 有 5 个主节点，如果一个主节点收到了至少 3 个其他主节点的投票，认为它下线了，那么这个主节点就会被标记为 FAIL。

2. 选举新的主节点：谁来接替？

当一个主节点被标记为 FAIL 后，就需要从它的从节点中选举出一个新的主节点。选举过程是由从节点发起的。

每个从节点都会检查自己与主节点的断开连接的时间，如果超过了一定的阈值（cluster-node-timeout * cluster-slave-validity-factor），并且主节点仍然处于 FAIL 状态，那么这个从节点就会认为自己有资格参与选举。

选举过程也采用了类似于“投票”的机制。每个有资格参与选举的从节点都会向其他节点发送 FAILOVER_AUTH_REQUEST 消息，请求其他节点投票给自己。

投票的规则如下：

每个主节点只有一票，并且只能投给第一个向它发送 FAILOVER_AUTH_REQUEST 消息的从节点。
从节点会根据自己复制数据的偏移量（Replication Offset）来决定投票的优先级。偏移量越大，说明从节点的数据越新，优先级越高。

当一个从节点收到了超过半数（N/2 + 1）的主节点的投票，它就会赢得选举，成为新的主节点。

3. 从节点切换：新官上任

赢得选举的从节点会执行以下操作，完成角色切换：

停止复制： 执行 SLAVEOF NO ONE 命令，停止复制原来的主节点。
移除故障主节点的槽位： 将故障主节点负责的槽位（Slot）指派给自己。
广播消息： 向集群中的其他节点广播 PONG 消息，通知其他节点自己已经成为了新的主节点。

4. 通知客户端：主节点换人了！

当客户端向故障主节点发送命令时，会收到一个 MOVED 错误，这个错误包含了新的主节点的地址和端口。客户端需要根据这个信息，重新连接到新的主节点，才能继续访问数据。

故障转移过程中的注意事项

故障转移过程虽然是自动的，但是有一些细节需要我们特别注意：

cluster-node-timeout 参数： 这个参数决定了节点被判定为 PFAIL 的超时时间。如果设置得太短，可能会导致频繁的故障转移；如果设置得太长，又会导致服务不可用的时间变长。需要根据实际情况进行调整。
cluster-slave-validity-factor 参数： 这个参数影响从节点参与选举的资格。如果设置为 0，则所有从节点都有资格参与选举；如果设置得太大，可能会导致数据较旧的从节点被选举为新的主节点，造成数据丢失。
网络分区： 如果集群发生了网络分区，可能会导致多个主节点同时存在，造成数据不一致。为了避免这种情况，建议将 Redis Cluster 部署在同一个机房内，并且保证网络连接的稳定性。
客户端重试机制 客户端需要实现重试机制，在收到 MOVED 错误后，需要重试并连接到新节点。
脑裂问题: 脑裂是分布式系统中常见的问题，Redis Cluster 也不例外. 脑裂发生时，可能存在多个主节点，造成数据写入冲突。虽然Redis Cluster 尽力避免了脑裂问题, 但是网络分区仍有可能导致脑裂. 生产环境中，建议设置min-replicas-to-write 参数, 强制要求主节点拥有一定数量的正常从节点，减少脑裂发生的概率.

总结

Redis Cluster 的故障转移机制是保证其高可用性的关键。通过主从复制、故障检测、选举和从节点切换等一系列操作，Redis Cluster 可以在主节点宕机的情况下，自动将一个从节点提升为新的主节点，继续提供服务。

希望通过这篇文章，你已经对 Redis Cluster 的故障转移机制有了更深入的了解。如果你还有其他问题，欢迎在评论区留言，老王会尽力为你解答！

记住，实践出真知，赶紧动手搭建一个 Redis Cluster，亲自体验一下它的强大功能吧！

爱琢磨的程序猿老王 Redis Cluster 高可用故障转移

Redis Cluster 真香！故障转移详解，看完这篇就够了！

Redis Cluster 真香！故障转移详解，看完这篇就够了！

为什么要用 Redis Cluster？

Redis Cluster 的高可用基石：主从复制

Redis Cluster 的故障转移流程

1. 故障检测：谁来判断主节点挂了？

2. 选举新的主节点：谁来接替？

3. 从节点切换：新官上任

4. 通知客户端：主节点换人了！

故障转移过程中的注意事项

总结

Redis Cluster 真香！故障转移详解，看完这篇就够了！

为什么要用 Redis Cluster？

Redis Cluster 的高可用基石：主从复制

Redis Cluster 的故障转移流程

1. 故障检测：谁来判断主节点挂了？

2. 选举新的主节点：谁来接替？

3. 从节点切换：新官上任

4. 通知客户端：主节点换人了！

故障转移过程中的注意事项

总结

评论点评