【Redis】集群
集群 (Cluster)
基本概念
哨兵模式,提高了系统的可用性.但是真正用来存储数据的还是 master
和 slave
节点.所有的数据都需要存储在单个 master 和 slave 节点中.
如果数据量很大,接近超出了 master
/ slave
所在机器的物理内存,就可能出现严重问题了.
虽然硬件价格在不断降低,一些中大厂的服务器内存已经可以达到 TB 级别了,但是 1TB 在当前这个 “大数据” 时代,俨然不算什么,有的时候我们确实需要更大的内存空间来保存更多的数据.如何获取更大的空间? 加机器即可! 所谓 “大数据” 的核心,其实就是一台机器搞不定了,用多台机器来搞.
Redis 的集群就是在上述的思路之下,引入多组 Master
/ Slave
,每一组 Master
/ Slave
存储数据全集的一部分,从而构成一个更大的整体,称为 Redis 集群 (Cluster).
假定整个数据全集是 1 TB,引入三组 Master / Slave 来存储.那么每一组机器只需要存储整个数据全集的 1/3 即可.
在上述图中,
- Master1 和 Slave11 和 Slave12 保存的是同样的数据.占总数据的 1/3
- Master2 和 Slave21 和 Slave22 保存的是同样的数据.占总数据的 1/3
- Master3 和 Slave31 和 Slave32 保存的是同样的数据.占总数据的 1/3
这三组机器存储的数据都是不同的.
每个 Slave 都是对应 Master 的备份(当 Master 挂了,对应的 Slave 会补位成 Master).
每个红框部分都可以称为是一个分片 (Sharding).
如果全量数据进一步增加,只要再增加更多的分片,即可解决.
数据分片算法
Redis cluster 的核心思路是用多组机器来存数据的每个部分.那么接下来的核心问题就是,给定一个数据(一个具体的 key),那么这个数据应该存储在哪个分片上? 读取的时候又应该去哪个分片读取?
围绕这个问题,业界有三种比较主流的实现方式.
1.哈希求余
设有 N 个分片,使用 [0, N-1] 这样序号进行编号.针对某个给定的 key,先计算 hash 值,再把得到的结果 % N,得到的结果即为分片编号.
例如, N 为 3.给定 key 为 hello,对 hello 计算 hash 值(比如使用 md5 算法),得到的结果为 bc4b2a76b9719d91 ,再把这个结果 % 3,结果为 0,那么就把 hello 这个 key 放到 0 号分片上.
后续如果要取某个 key 的记录,也是针对 key 计算 hash,再对 N 求余,就可以找到对应的分片编号了.
- 优点: 简单高效,数据分配均匀.
- 缺点: 一旦需要进行扩容, N 改变了,原有的映射规则被破坏,就需要让节点之间的数据相互传输,重新排列,以满足新的映射规则.此时需要搬运的数据量是比较多的,开销较大.
N 为 3 的时候, [100, 120] 这 21 个 hash 值的分布 (此处假定计算出的 hash 值是一个简单的整数,方便肉眼观察)
当引入一个新的分片, N 从 3 => 4 时,大量的 key 都需要重新映射. (某个 key % 3 和 % 4 的结果不一样,就映射到不同机器上了).
2.一致性哈希算法
为了降低上述的搬运开销,能够更高效扩容,业界提出了“一致性哈希算法”。
key 映射到分片序号的过程不再是简单求余了,而是改成以下过程:
-
第一步,把 0 -> 2^32 - 1 这个数据空间,映射到一个圆环上,数据按照顺时针方向增长。
-
第二步,假设当前存在三个分片,就把分片放到圆环的某个位置上。
-
第三步,假定有一个 key,计算得到 hash 值 H,那么这个 key 映射到哪个分片呢?规则很简单,就是从 H 所在位置,顺时针往下找,找到的第一个分片,即为该 key 所从属的分片。
这就相当于,N 个分片的位置,把整个圆环分成了 N 个管辖区间。Key 的 hash 值落在某个区间内,就归对应区间管理。
在这个情况下,如果扩容一个分片,如何处理呢?
原有分片在环上的位置不动,只要在环上新增排一个分片位置即可。此时,只需要把 0 号分片上的部分数据,搬运给 3 号分片即可。1 号分片和 2 号分片管理的区间都是不变的。
- 优点:大大降低了扩容时数据搬运的规模,提高了扩容操作的效率。
- 缺点:数据分配不均匀(有的多有的少,数据倾斜)。
哈希槽(hash slots)算法
为了解决上述问题(搬运成本高和数据分配不均匀 ),Redis cluster 引入了哈希槽(hash slots)算法。
hash_slot = crc16(key) % 16384
其中 crc16 也是一种 hash 算法。
假设当前有三个分片,一种可能的分配方式:
- 0号分片:[0, 5461],共5462个槽位
- 1号分片:[5462, 10923],共5462个槽位
- 2号分片:[10924, 16383],共5460个槽位
这里的分片规则是很灵活的。每个分片持有的槽位也不一定连续。
每个分片的节点使用位图来表示自己持有哪些槽位。对于16384个槽位来说,需要2048个字节(2KB)大小的内存空间表示。
如果需要进行扩容,比如新增一个3号分片,就可以针对原有的槽位进行重新分配。 比如可以把之前每个分片持有的槽位,各拿出一点,分给新分片。
一种可能的分配方式:
- 0号分片:[0, 4095],共4096个槽位
- 1号分片:[5462, 9557],共4096个槽位
- 2号分片:[10924, 15019],共4096个槽位
- 3号分片:[4096, 5461] + [9558, 10923] + [15019, 16383],共4096个槽位
我们在实际使用Redis集群分片的时候,不需要手动指定哪些槽位分配给某个分片,只需要告诉某个分片应该持有多少个槽位即可,Redis会自动完成后续的槽位分配,以及对应的key搬运的工作。
此处还有两个问题:
-
问题一:Redis集群是最多有16384个分片吗?
并非如此。如果一个分片只有一个槽位,这对于集群的数据均匀其实是难以保证的。
实际上Redis的作者建议集群分片数不应该超过1000。
而且,16000这么大规模的集群,本身的可用性也是一个大问题。一个系统越复杂,出现故障的概率是越高的。 -
问题二:为什么是16384个槽位?
Redis作者的答案- Normal heartbeat packets carry the full configuration of a node, that can be replaced in an idempotent way with the old in order to update an old config. This means they contain the slots configuration for a node, in raw form, that uses 2k of space with 16k slots, but would use a prohibitive 8k of space using 65k slots.
- At the same time, it is unlikely that Redis Cluster would scale to more than 1000 master nodes because of other design tradeoffs.
-
So 16k was in the right range to ensure enough slots per master with a max of 1000 masters, but a small enough number to propagate the slot configuration as a raw bitmap easily. Note that in small clusters, the bitmap would be hard to compress, because when N is small, the bitmap would have slots/N bits set. That is a large percentage of bits set.
翻译过来大概意思是:
- 节点之间通过心跳包通信。心跳包中包含了该节点持有哪些slots。这个是使用位图这样的数据结构表示的。表示16384(16k)个slots,需要的位图大小是2KB。如果给定的slots数更多了,比如65536个了,此时就需要消耗更多的空间,8KB位图表示了。8KB,对于内存来说不算什么,但是在频繁的网络心跳包中,还是一个不小的开销。
- 另一方面,Redis集群一般不建议超过1000个分片。所以16k对于最大1000个分片来说是足够用的,同时也会使对应的槽位配置位图体积不至于很大。
集群搭建(基于docker)
接下来基于docker,搭建一个集群。每个节点都是一个容器。
拓扑结构如下:
🚨注意!
此处我们先创建出11个redis节点.其中前9个用来演示集群的搭建.
后两个用来演示集群扩容.
第一步:创建目录和配置
创建 redis-cluster/
目录,内部创建两个文件
redis-cluster/
├── docker-compose.yml
├── generate.sh
generate.sh 内容如下
for port in $(seq 1 9); \
do \
mkdir -p redis${port}/ \
touch redis${port}/redis.conf
cat << EOF > redis${port}/redis.conf
port 6379
bind 0.0.0.0
protected-mode no
appendonly yes
cluster-enabled yes
cluster-config-file nodes.conf
cluster-node-timeout 5000
cluster-announce-ip 172.30.0.10${port}
cluster-announce-port 6379
cluster-announce-bus-port 16379
EOF
done# 注意 cluster-announce-ip 的值有变化.
for port in $(seq 10 11); \
do \
mkdir -p redis${port}/ \
touch redis${port}/redis.conf
cat << EOF > redis${port}/redis.conf
port 6379
bind 0.0.0.0
protected-mode no
appendonly yes
cluster-enabled yes
cluster-config-file nodes.conf
cluster-node-timeout 5000
cluster-announce-ip 172.30.0.1${port}
cluster-announce-port 6379
cluster-announce-bus-port 16379
EOF
done
执行命令
bash generate.sh
生成目录如下:
redis-cluster/
├── docker-compose.yml
├── generate.sh
├── redis1
│ └── redis.conf
├── redis10
│ └── redis.conf
├── redis11
│ └── redis.conf
├── redis2
│ └── redis.conf
├── redis3
│ └── redis.conf
├── redis4
│ └── redis.conf
├── redis5
│ └── redis.conf
├── redis6
│ └── redis.conf
├── redis7
│ └── redis.conf
├── redis8
│ └── redis.conf
└── redis9└── redis.conf
其中 redis.conf
每个都不同.以 redis1
为例:
区别在于每个配置中配置的 cluster-announce-ip
是不同的,其他部分都相同.
port 6379
bind 0.0.0.0
protected-mode no
appendonly yes
cluster-enabled yes
cluster-config-file nodes.conf
cluster-node-timeout 5000
cluster-announce-ip 172.30.0.101
cluster-announce-port 6379
cluster-announce-bus-port 16379
后续会给每个节点分配不同的 ip 地址.
配置说明:
cluster-enabled yes
开启集群.cluster-config-file nodes.conf
集群节点生成的配置.cluster-node-timeout 5000
节点失联的超时时间.cluster-announce-ip 172.30.0.101
节点自身 ip.cluster-announce-port 6379
节点自身的业务端口.cluster-announce-bus-port 16379
节点自身的总线端口.集群管理的信息交互是通过这个端口进行的.
第二步:编写 docker-compose.yml
- 先创建
networks
,并分配网段为172.30.0.0/24
- 配置每个节点.注意配置文件映射,端口映射,以及容器的 ip 地址.设定成固定 ip 方便后续的观察和操作.
此处的端口映射不配置也可以,配置的目的是为了可以通过宿主机 ip + 映射的端口进行访问.通过容器自身 ip:6379 的方式也可以访问.
version: '3.7'
networks:mynet:ipam:config:- subnet: 172.30.0.0/24services:redis1:image: 'redis:5.0.9'container_name: redis1restart: alwaysvolumes:- ./redis1:/etc/redis/ports:- 6371:6379- 16371:16379command:redis-server /etc/redis/redis.confnetworks:mynet:ipv4_address: 172.30.0.101redis2:image: 'redis:5.0.9'container_name: redis2restart: alwaysvolumes:- ./redis2:/etc/redis/ports:- 6372:6379- 16372:16379command:redis-server /etc/redis/redis.confnetworks:mynet:ipv4_address: 172.30.0.102redis3:image: 'redis:5.0.9'container_name: redis3restart: alwaysvolumes:- ./redis3:/etc/redis/ports:- 6373:6379- 16373:16379command:redis-server /etc/redis/redis.confnetworks:mynet:ipv4_address: 172.30.0.103redis4:image: 'redis:5.0.9'container_name: redis4restart: alwaysvolumes:- ./redis4:/etc/redis/ports:- 6374:6379- 16374:16379command:redis-server /etc/redis/redis.confnetworks:mynet:ipv4_address: 172.30.0.104redis5:image: 'redis:5.0.9'container_name: redis5restart: alwaysvolumes:- ./redis5:/etc/redis/ports:- 6375:6379- 16375:16379command:redis-server /etc/redis/redis.confnetworks:mynet:ipv4_address: 172.30.0.105redis6:image: 'redis:5.0.9'container_name: redis6restart: alwaysvolumes:- ./redis6:/etc/redis/ports:- 6376:6379- 16376:16379command:redis-server /etc/redis/redis.confnetworks:mynet:ipv4_address: 172.30.0.106redis7:image: 'redis:5.0.9'container_name: redis7restart: alwaysvolumes:- ./redis7:/etc/redis/ports:- 6377:6379- 16377:16379command:redis-server /etc/redis/redis.confnetworks:mynet:ipv4_address: 172.30.0.107redis8:image: 'redis:5.0.9'container_name: redis8restart: alwaysvolumes:- ./redis8:/etc/redis/ports:- 6378:6379- 16378:16379command:redis-server /etc/redis/redis.confnetworks:mynet:ipv4_address: 172.30.0.108redis9:image: 'redis:5.0.9'container_name: redis9restart: alwaysvolumes:- ./redis9:/etc/redis/ports:- 6379:6379- 16379:16379command:redis-server /etc/redis/redis.confnetworks:mynet:ipv4_address: 172.30.0.109redis10:image: 'redis:5.0.9'container_name: redis10restart: alwaysvolumes:- ./redis10:/etc/redis/ports:- 6380:6379- 16380:16379command:redis-server /etc/redis/redis.confnetworks:mynet:ipv4_address: 172.30.0.110redis11:image: 'redis:5.0.9'container_name: redis11restart: alwaysvolumes:- ./redis11:/etc/redis/ports:- 6381:6379- 16381:16379command:redis-server /etc/redis/redis.confnetworks:mynet:ipv4_address: 172.30.0.111
第三步:启动容器
docker-compose up -d
第四步:构建集群
启动一个 docker 客户端.
💖 此处是把前 9 个主机构建成集群,3 主 6 从.后 2 个主机暂时不用.
redis-cli --cluster create 172.30.0.101:6379 172.30.0.102:6379 172.30.0.103:6379 172.30.0.104:6379 172.30.0.105:6379 172.30.0.106:6379 172.30.0.107:6379 172.30.0.108:6379 172.30.0.109:6379 --cluster-replicas 2
--cluster create
表示建立集群.后面填写每个节点的 ip 和地址.--cluster-replicas 2
表示每个主节点需要两个从节点备份.
执行之后,容器之间会进行加入集群操作.
日志中会描述哪些是主节点,哪些从节点跟随哪个主节点.
>>> Performing hash slots allocation on 9 nodes...
Master[0] -> Slots 0 - 5460
Master[1] -> Slots 5461 - 10922
Master[2] -> Slots 10923 - 16383
Adding replica 172.30.0.105:6379 to 172.30.0.101:6379
Adding replica 172.30.0.106:6379 to 172.30.0.101:6379
Adding replica 172.30.0.107:6379 to 172.30.0.102:6379
Adding replica 172.30.0.108:6379 to 172.30.0.102:6379
Adding replica 172.30.0.109:6379 to 172.30.0.103:6379
Adding replica 172.30.0.104:6379 to 172.30.0.103:6379
M: e4f37f8f0ea0dafc58434999975716613910e51 172.30.0.101:6379slots:[0-5460] (5461 slots) master
M: 5f71983ad52cc7077ce8874ae1c4f9c23d9f502c 172.30.0.102:6379slots:[5461-10922] (5462 slots) master
M: b3c0a96f6a206088ecea639147b6fcf903afe872 172.30.0.103:6379slots:[10923-16383] (5461 slots) master
S: 85025819223f12615046c54d89f510e9cd0444a1 172.30.0.104:6379replicates b3c0a96f6a206088ecea639147b6fcf903afe872
S: 2e5dc211288784ba55d554a377b87bfe2b5398db 172.30.0.105:6379replicates e4f37f8f0ea0dafc58434999975716613910e51
S: 29f05d98982bd3df05d0222091e4b8ef9569f424 172.30.0.106:6379replicates e4f37f8f0ea0dafc58434999975716613910e51
S: 3584840ac704c3e0e16f3bdcca3f7ebe6f6e8e80 172.30.0.107:6379replicates 5f71983ad52cc7077ce8874ae1c4f9c23d9f502c
S: 0a889103b35db2a6e82e8c09904bbef310cff3b1 172.30.0.108:6379replicates 5f71983ad52cc7077ce8874ae1c4f9c23d9f502c
S: 00ba82bed6abeb015116d51d1af7fcbb1609d03ad 172.30.0.109:6379replicates b3c0a96f6a206088ecea639147b6fcf903afe872
Can I set the above configuration? (type 'yes' to accept): yes
>>> Nodes configuration updated
>>> Assign a different config epoch to each node
>>> Sending CLUSTER MEET messages to join the cluster
Waiting for the cluster to join
...
>>> Performing Cluster Check (using node 172.30.0.101:6379)
M: e4f37f8f0ea0dafc58434999975716613910e51 172.30.0.101:6379slots:[0-5460] (5461 slots) master2 additional replica(s)
M: 5f71983ad52cc7077ce8874ae1c4f9c23d9f502c 172.30.0.102:6379slots:[5461-10922] (5462 slots) master2 additional replica(s)
S: 2e5dc211288784ba55d554a377b87bfe2b5398db 172.30.0.105:6379slots: (0 slots) slavereplicates e4f37f8f0ea0dafc58434999975716613910e51
S: 0a889103b35db2a6e82e8c09904bbef310cff3b1 172.30.0.108:6379slots: (0 slots) slavereplicates 5f71983ad52cc7077ce8874ae1c4f9c23d9f502c
S: 3584840ac704c3e0e16f3bdcca3f7ebe6f6e8e80 172.30.0.107:6379slots: (0 slots) slavereplicates 5f71983ad52cc7077ce8874ae1c4f9c23d9f502c
S: 85025819223f12615046c54d89f510e9cd0444a1 172.30.0.104:6379slots: (0 slots) slavereplicates b3c0a96f6a206088ecea639147b6fcf903afe872
S: 00ba82bed6abeb015116d51d1af7fcbb1609d03ad 172.30.0.109:6379slots: (0 slots) slavereplicates b3c0a96f6a206088ecea639147b6fcf903afe872
S: 29f05d98982bd3df05d0222091e4b8ef9569f424 172.30.0.106:6379slots: (0 slots) slavereplicates e4f37f8f0ea0dafc58434999975716613910e51
M: b3c0a96f6a206088ecea639147b6fcf903afe872 172.30.0.103:6379slots:[10923-16383] (5461 slots) master2 additional replica(s)
[OK] All nodes agree about slots configuration.
>>> Check for open slots...
>>> Check slots coverage...
[OK] All 16384 slots covered.
见到下方的 [OK]
说明集群建立完成.
此时,使用客户端连上集群中的任何一个节点,都相当于连上了整个集群.
- 客户端后面要加上
-c
选项,否则如果 key 没有落到当前节点上,是不能操作的.-c
会自动把请求重定向到对应节点. - 使用
cluster nodes
可以查看到整个集群的情况.
# redis-cli -h 172.30.0.101 -p 6379 -c
172.30.0.101:6379> CLUSTER nodes
5f71983ad52cc7077ce8874ae1c4f9c23d9f502c 172.30.0.102:6379@16379 master - 0 1682595475560 8 connected 5461-10922
2e5dc211288784ba55d554a377b87bfe2b5398db 172.30.0.105:6379@16379 slave e4f37f8f0ea0dafc58434999975716613910e51 0 1682595475560 5 connected
0a889103b35db2a6e82e8c09904bbef310cff3b1 172.30.0.108:6379@16379 slave 5f71983ad52cc7077ce8874ae1c4f9c23d9f502c 0 1682595475560 8 connected
3584840ac704c3e0e16f3bdcca3f7ebe6f6e8e80 172.30.0.107:6379@16379 slave 5f71983ad52cc7077ce8874ae1c4f9c23d9f502c 0 1682595475560 7 connected
85025819223f12615046c54d89f510e9cd0444a1 172.30.0.104:6379@16379 slave b3c0a96f6a206088ecea639147b6fcf903afe872 0 1682595475560 4 connected
e4f37f8f0ea0dafc58434999975716613910e51 172.30.0.101:6379@16379 myself,master - 0 1682595475000 1 connected 0-5460
00ba82bed6abeb015116d51d1af7fcbb1609d03ad 172.30.0.109:6379@16379 slave b3c0a96f6a206088ecea639147b6fcf903afe872 0 1682595475560 9 connected
29f05d98982bd3df05d0222091e4b8ef9569f424 172.30.0.106:6379@16379 slave e4f37f8f0ea0dafc58434999975716613910e51 0 1682595475560 6 connected
b3c0a96f6a206088ecea639147b6fcf903afe872 172.30.0.103:6379@16379 master - 0 1682595475560 3 connected 10923-16383
172.30.0.101:6379> set k1 1
-> Redirected to slot [12706] located at 172.30.0.103:6379
OK
172.30.0.103:6379> get k1
"1"
主节点宕机
示例
手动停止一个 master 节点,观察效果。
比如上述拓扑结构中,可以看到 redis1 redis2 redis3 是主节点,随便挑一个停掉。
docker stop redis1
连上 redis2,观察结果。
172.30.0.102:6379> CLUSTER NODES
e4f37f8f0ea0dafc58434999975716613910e51 172.30.0.101:6379@16379 master,fail - 1682599172883 1682599170000 1 connected
0a889103b35db2a6e82e8c09904bbef310cff3b1 172.30.0.108:6379@16379 slave 5f71983ad52cc7077ce8874ae1c4f9c23d9f502c 0 1682603356508 8 connected
5f71983ad52cc7077ce8874ae1c4f9c23d9f502c 172.30.0.102:6379@16379 myself,master - 0 1682603350000 2 connected 5461-10922
29f05d98982bd3df05d0222091e4b8ef9569f424 172.30.0.106:6379@16379 slave 2e5dc211288784ba55d554a377b87bfe2b5398db 0 1682603357512 10 connected
00ba82bed6abeb015116d51d1af7fcbb1609d03ad 172.30.0.109:6379@16379 slave b3c0a96f6a206088ecea639147b6fcf903afe872 0 1682603344126 9 connected
b3c0a96f6a206088ecea639147b6fcf903afe872 172.30.0.103:6379@16379 master - 0 1682603353600 3 connected 10923-16383
2e5dc211288784ba55d554a377b87bfe2b5398db 172.30.0.105:6379@16379 master - 0 1682603357000 5 connected 0-5460
3584840ac704c3ee016f3bdcca3f7ebe6f6e8e80 172.30.0.107:6379@16379 slave 5f71983ad52cc7077ce8874ae1c4f9c23d9f502c 0 1682603357512 7 connected
85025819223f12615046c54d89f510e9cd0444a1 172.30.0.104:6379@16379 slave b3c0a96f6a206088ecea639147b6fcf903afe872 0 1682603357608 4 connected
可以看到,101 已经提示 fail,然后原本是 slave 的 105 成了新的 master。
如果重新启动 redis1
docker start redis1
再次观察结果. 可以看到 101 启动了,仍然是 slave.
172.30.0.102:6379> CLUSTER NODES
e4f37f8f0ea0dafc58434999975716613910e51 172.30.0.101:6379@16379 slave 2e5dc211288784ba55d554a377b87bfe2b5398db 0 1682603944000 10 connected
0a889103b35db2a6e82e8c09904bbef310cff3b1 172.30.0.108:6379@16379 slave 5f71983ad52cc7077ce8874ae1c4f9c23d9f502c 0 1682603944628 8 connected
5f71983ad52cc7077ce8874ae1c4f9c23d9f502c 172.30.0.102:6379@16379 myself,master - 0 1682603944000 2 connected 5461-10922
29f05d98982bd3df05d0222091e4b8ef9569f424 172.30.0.106:6379@16379 slave 2e5dc211288784ba55d554a377b87bfe2b5398db 0 1682603943625 10 connected
00ba82bed6abeb015116d51d1af7fcbb1609d03ad 172.30.0.109:6379@16379 slave b3c0a96f6a206088ecea639147b6fcf903afe872 0 1682603943126 9 connected
b3c0a96f6a206088ecea639147b6fcf903afe872 172.30.0.103:6379@16379 master - 0 1682603943600 3 connected 10923-16383
2e5dc211288784ba55d554a377b87bfe2b5398db 172.30.0.105:6379@16379 master - 0 1682603944025 5 connected 0-5460
3584840ac704c3ee016f3bdcca3f7ebe6f6e8e80 172.30.0.107:6379@16379 slave 5f71983ad52cc7077ce8874ae1c4f9c23d9f502c 0 1682603945131 7 connected
85025819223f12615046c54d89f510e9cd0444a1 172.30.0.104:6379@16379 slave b3c0a96f6a206088ecea639147b6fcf903afe872 0 1682603944628 4 connected
可以使用 cluster failover
进行集群恢复. 也就是把 101 重新设定成 master. (登录到 101 上执行)
处理流程
1. 故障判定
集群中的所有节点,都会周期性的使用心跳包进行通信.
- 节点 A 给节点 B 发送 ping 包,B 就会给 A 返回一个 pong 包. ping 和 pong 除了
message type
属性之外,其他部分都是一样的. 这里包含了集群的配置信息(该节点的 id,该节点从属于哪个分片,是主节点还是从节点,从属于谁,持有哪些 slots 的位图…). - 每个节点,每秒钟,都会给一些随机的节点发起 ping 包,而不是全发一遍. 这样设定是为了避免在节点很多的时候,心跳包也非常多(比如有 9 个节点,如果全发,就是 9 * 8 有 72 组心跳了,而且这是按照 N^2 这样的级别增长的).
- 当节点 A 给节点 B 发起 ping 包,B 不能如期回应的时候,此时 A 就会尝试重置和 B 的 tcp 连接,看能否连接成功. 如果仍然连接失败,A 就会把 B 设为 PFAIL 状态(相当于主观下线).
- A 判定 B 为 PFAIL 之后,会通过 redis 内置的 Gossip 协议,和其他节点进行沟通,向其他节点确认 B 的状态. (每个节点都会维护一个自己的 “下线列表”, 由于视角不同,每个节点的下线列表也不一定相同).
- 此时 A 发现其他很多节点,也认为 B 为 PFAIL,并且数目超过总集群个数的一半,那么 A 就会把 B 标记成 FAIL (相当于客观下线), 并且把这个消息同步给其他节点(其他节点收到之后,也会把 B 标记成 FAIL).
至此,B 就彻底被判定为故障节点了.
某个或者某些节点宕机,有的时候会引起整个集群都宕机 (称为 fail 状态).
以下三种情况会出现集群宕机:
- 某个分片,所有的主节点和从节点都挂了.
- 某个分片,主节点挂了,但是没有从节点.
- 超过半数的 master 节点都挂了.
核心原则是保证每个 slots 都能正常工作(存取数据).
2. 故障迁移
上述例子中,B 故障,并且 A 把 B FAIL 的消息告知集群中的其他节点.
- 如果 B 是从节点,那么不需要进行故障迁移.
- 如果 B 是主节点,那么就会由 B 的从节点 (比如 C 和 D) 触发故障迁移了.
所谓故障迁移,就是指把从节点提拔成主节点,继续给整个 redis 集群提供支持.
具体流程如下:
- 从节点判定自己是否具有参选资格. 如果从节点和主节点已经太久没通信(此时认为从节点的数据和主节点差异太大了), 时间超过阈值,就失去竞选资格.
- 具有资格的节点,比如 C 和 D,就会先休眠一定时间. 休眠时间 = 500ms 基础时间 + [0, 500ms] 随机时间 + 排名 * 1000ms. offset 的值越大,则排名越靠前(越小).
- 比如 C 的休眠时间到了,C 就会给其他所有集群中的节点,进行拉票操作. 但是只有主节点才有投票资格.
- 主节点就会把自己的票投给 C (每个主节点只有 1 票). 当 C 收到的票数超过主节点数目的一半,C 就会晋升成主节点. (C 自己负责执行 slaveof no one,并且让 D 执行 slaveof C).
- 同时,C 还会把自己成为主节点的消息,同步给其他集群的节点. 大家也都会更新自己保存的集群结构信息.
上述选举的过程,称为 Raft 算法,是一种在分布式系统中广泛使用的算法. 在随机休眠时间的加持下,基本上就是谁先唤醒,谁就能竞选成功.
集群扩容
扩容是一个在开发中比较常遇到的场景。
随着业务的发展,现有集群很可能无法容纳日益增长的数据。此时给集群中加入更多新的机器,就可以使存储的空间更大了。
所谓分布式的本质,就是使用更多的机器,引入更多的硬件资源。
第一步:把新的主节点加入到集群
上面已经把 redis1 - redis9 重新构成了集群。接下来把 redis10 和 redis11 也加入集群。
此处我们把 redis10 作为主机,redis11 作为从机。
redis-cli --cluster add-node 172.30.0.110:6379 172.30.0.101:6379
🌟 add-node
后的第一组地址是新节点的地址。第二组地址是集群中的任意节点地址。
执行结果
>>> Adding node 172.30.0.110:6379 to cluster 172.30.0.101:6379
>>> Performing Cluster Check (using node 172.30.0.101:6379)
M: 00d319e23ef76a4d51e74600c42ee2a371ae81f6 172.30.0.101:6379slots:[0-5460] (5461 slots) master2 additional replica(s)
S: e34911c57d7605903de84ec05b3deac611aaef7e 172.30.0.105:6379slots: (0 slots) slavereplicates 00d319e23ef76a4d51e74600c42ee2a371ae81f6
S: 6cf48cc11d0171b6ab1b418808473167acd7986e 172.30.0.106:6379slots: (0 slots) slavereplicates 00d319e23ef76a4d51e74600c42ee2a371ae81f6
S: fd18c7f164b09ec563f4573ec9d6466e6769221e 172.30.0.108:6379slots: (0 slots) slavereplicates b3f2ba758318f4bd54031c98c01d7a6155ff43d3
M: 579282abe81b3f20ffd17d5a1956cdca3b0e71b0 172.30.0.103:6379slots:[10923-16383] (5461 slots) master2 additional replica(s)
S: e9ea79b1326ea5a75a1701d5c12a0f6081c1d043 172.30.0.109:6379slots: (0 slots) slavereplicates 579282abe81b3f20ffd17d5a1956cdca3b0e71b0
S: 628d1ec9eceef6760b9038c4fbc83ee92430062ac 172.30.0.107:6379slots: (0 slots) slavereplicates b3f2ba758318f4bd54031c98c01d7a6155ff43d3
M: b3f2ba758318f4bd54031c98c01d7a6155ff43d3 172.30.0.102:6379slots:[5461-10922] (5462 slots) master2 additional replica(s)
S: 2a248acb47f0036655397897f9800c70ea22514f 172.30.0.104:6379slots: (0 slots) slavereplicates 579282abe81b3f20ffd17d5a1956cdca3b0e71b0
[OK] All nodes agree about slots configuration.
>>> Check for open slots...
>>> Check slots coverage...
[OK] All 16384 slots covered.
>>> Send CLUSTER MEET to node 172.30.0.110:6379 to make it join the cluster.
[OK] New node added correctly.
此时的集群状态如下,可以看到 172.30.0.110
这个节点已经成为了集群中的主节点。
127.0.0.1:6379> CLUSTER NODES
b3f2ba758318f4bd54031c98c01d7a6155ff43d3 172.30.0.102:6379@16379 master - 0 1683183720184 2 connected 5461-10922
e34911c57d7605903de84ec05b3deac611aaef7e 172.30.0.105:6379@16379 slave 00d319e23ef76a4d51e74600c42ee2a371ae81f6 0 1683183722189 5 connected
522a1bd88a1a9084e6919fa88f4bf1c3655ad837 172.30.0.110:6379@16379 master - 0 1683183720000 10 connected
579282abe81b3f20ffd17d5a1956cdca3b0e71b0 172.30.0.103:6379@16379 master - 0 1683183723804 3 connected 10923-16383
00d319e23ef76a4d51e74600c42ee2a371ae81f6 172.30.0.101:6379@16379 master - 0 1683183721185 1 connected 0-5460
6cf48cc11d0171b6ab1b418808473167acd7986e 172.30.0.106:6379@16379 slave 00d319e23ef76a4d51e74600c42ee2a371ae81f6 0 1683183720000 6 connected
e9ea79b1326ea5a75a1701d5c12a0f6081c1d043 172.30.0.109:6379@16379 myself,slave 579282abe81b3f20ffd17d5a1956cdca3b0e71b0 0 1683183720000 9 connected
fd18c7f164b09ec563f4573ec9d6466e6769221e 172.30.0.108:6379@16379 slave b3f2ba758318f4bd54031c98c01d7a6155ff43d3 0 1683183720684 8 connected
2a248acb47f0036655397897f9800c70ea22514f 172.30.0.104:6379@16379 slave 579282abe81b3f20ffd17d5a1956cdca3b0e71b0 0 1683183722088 4 connected
628d1ec9eceef6760b9038c4fbc83ee92430062ac 172.30.0.107:6379@16379 slave b3f2ba758318f4bd54031c98c01d7a6155ff43d3 0 1683183720000 7 connected
第二步:重新分配 slots
redis-cli --cluster reshard 172.30.0.101:6379
🌟 reshard
后的地址是集群中的任意节点地址。
另外,注意单词拼写,是 reshard
(重新切分),不是 reshared
(重新分享),不要多写个 e。
执行之后,会进入交互式操作,redis 会提示用户输入以下内容:
- 多少个 slots 要进行 reshard?(此处我们填写 4096)
- 哪个节点来接收这些 slots?(此处我们填写
172.30.0.110
这个节点的集群节点 id) - 这些 slots 从哪些节点搬运过来?(此处我们填写 all,表示从其他所有的节点都进行搬运)
执行结果如下
How many slots do you want to move (from 1 to 16384)? 4096
What is the receiving node ID? 522a1bd88a1a9084e6919fa88f4bf1c3655ad837
Please enter all the source node IDs.Type 'all' to use all the nodes as source nodes for the hash slots.Type 'done' once you entered all the source nodes IDs.
Source node #1: all
确定之后,会初步打印出搬运方案,让用户确认。
之后就会进行集群的 key 搬运工作。这个过程涉及到数据搬运,可能需要消耗一定的时间。
⚠️ 在搬运 key 的过程中,对于那些不需要搬运的 key,访问的时候是没有任何问题的。但是对于需要搬运的 key,进行访问可能会出现短暂的访问错误 (key 的位置出现了变化)。
随着搬运完成,这样的错误自然就恢复了。
第三步:给新的主节点添加从节点
光有主节点了,此时扩容的目标已经初步达成。但是为了保证集群可用性,还需要给这个新的主节点添加从节点,保证该主节点宕机之后,有从节点能够顶上。
redis-cli --cluster add-node 172.30.0.111:6379 172.30.0.101:6379 --cluster-slave --cluster-master-id [172.30.0.110 节点的 nodeId]
执行完毕后,从节点就已经被添加完成了。