ETCD 学习使用
1 ETCD请求从节点会直接写入么?
不会,会发给主节点执行
2 ETCD一个个节点启动,集群是如何建立的?
--initial-cluster-state=new 静态启动,一次性组建
--initial-cluster 提供节点列表 使用 new 模式时,必须一次性提供所有成员的完整信息
--initial-cluster-state=existing 动态发现,逐步扩展
这种方式允许你从一个节点开始,然后逐步添加新节点来扩展集群
一旦集群成功建立它会从本地磁盘加载已持久化的集群成员信息,然后主动去联系集群中的其他节点,重新加入。
对集群成员的增删改操作,都应该使用 etcdctl member 命令来完成,而不是直接修改启动参数。
3 ETCD的选举机制是怎么实现的?
节点会有三个状态:Leader、Follower、Candidate
当一个节点启动时,会先成为Candidate状态,然后会发起选举,选举成功后成为Leader状态,选举失败后成为Follower状态。
选举机制是基于Paxos算法实现的,选举成功后,Leader会向所有Follower发送心跳,如果Follower在一定时间内没有收到心跳,则认为Leader宕机,会发起选举。
当Leader宕机时,如果是三个节点中的另外两个节点同时发起选举,票数不能过半,选举失败,两个节点会等待一个随机的选举超时时间,然后再次发起选举。率先超时
的节点会通过选举成为新的Leader。
4 ETCD的集群的数据是怎么同步的?
当Leader节点收到写请求时,会先写入本地磁盘,然后会广播给所有Follower节点,Follower节点收到广播后,会写入本地磁盘,并返回成功。如果这时收到了混合响应,
一个成功,一个失败后,只要超过半数leader会认为成功并提交写入。同时会给返回失败的客户端发送更早的写入,持续地推动落后节点同步。
关键配置参数
--snapshot-count:触发快照的提交条目数量(默认 100,000)。
--max-snapshots:保留的最大快照文件数(默认 5),超过后会删除旧的快照。
--max-wals:保留的最大 WAL 文件数(默认 5)。
--wal:WAL 文件的存放目录。
--data-dir:数据目录,包含 WAL 和 snap 子目录。
5 ETCD的集群的成员是怎么管理的?
# 列出成员
docker exec -it etcd-node1 etcdctl member list
# 添加新成员
docker exec -it etcd-node1 etcdctl member add node4 --peer-urls="http://192.168.100.91:2360"
# 移除成员
docker exec -it etcd-node1 etcdctl member remove <member-id>
6 ETCD的集群命令测试
echo ""
echo "=== 检查集群健康状态 ==="
docker exec -it etcd-node1 etcdctl --endpoints=http://192.168.100.91:2379,http://192.168.100.91:2369,http://192.168.100.91:2389 endpoint health -w table
echo ""
echo "=== 集群状态 ==="
docker exec -it etcd-node1 etcdctl --endpoints=http://192.168.100.91:2379,http://192.168.100.91:2369,http://192.168.100.91:2389 endpoint status -w table
echo ""
echo "=== 测试数据写入同步 ==="
echo "在节点1写入数据..."
docker exec etcd-node1 etcdctl --endpoints=http://192.168.100.91:2369 put cluster_test "cluster_test"
echo "从节点2读取数据..."
docker exec etcd-node2 etcdctl --endpoints=http://192.168.100.91:2379 get cluster_test
echo "从节点3读取数据..."
docker exec etcd-node3 etcdctl --endpoints=http://192.168.110.190:2389 get cluster_test
echo ""
echo "=== 测试节点故障 ==="
echo "停止节点1..."
docker stop etcd-node1
echo "查看集群状态..."
docker exec -it etcd-node2 etcdctl --endpoints=http://192.168.100.91:2369,http://192.168.100.91:2379,http://192.168.100.91:2389 endpoint status -w table
docker exec -it etcd-node2 etcdctl --endpoints=http://192.168.100.91:2379 endpoint status -w table
docker exec -it etcd-node2 etcdctl --endpoints=http://192.168.100.91:2389 endpoint status -w table
echo "添加数据..."
docker exec etcd-node2 etcdctl --endpoints=http://192.168.100.91:2369,http://192.168.100.91:2379,http://192.168.100.91:2389 put stop1 "stop1"
echo "读取数据..."
docker exec etcd-node2 etcdctl --endpoints=http://192.168.100.91:2379 get stop1
docker exec etcd-node2 etcdctl --endpoints=http://192.168.100.91:2389 get stop1
echo "恢复节点1..."
docker start etcd-node1
echo "节点1读取数据,查看同步..."
docker exec etcd-node1 etcdctl --endpoints=http://192.168.100.91:2369 get stop1
echo ""
echo "=== 测试节点故障超过一半 ==="
echo "停止节点2 和 3..."
docker stop etcd-node2
docker stop etcd-node3
echo "查看集群状态..."
docker exec -it etcd-node1 etcdctl --endpoints=http://192.168.100.91:2369,http://192.168.100.91:2379,http://192.168.100.91:2389 endpoint status -w table
echo "添加数据..."
docker exec etcd-node1 etcdctl --endpoints=http://192.168.100.91:2369 put stop23 "etcd" // 尝试写入,不可写
echo "恢复节点2..."
docker start etcd-node2
echo "添加数据..."
docker exec etcd-node1 etcdctl --endpoints=http://192.168.100.91:2379 put stop23 "etcd" // 尝试写入,可写
echo "恢复节点3..."
docker start etcd-node3
echo "从节点1读取数据..."
docker exec etcd-node1 etcdctl --endpoints=http://192.168.100.91:2389 get stop23
7 GOLANG实例代码
配置重试策略
cli, err := clientv3.New(clientv3.Config{
Endpoints: []string{
"http://192.168.100.91:2369",
"http://192.168.100.91:2379",
"http://192.168.100.91:2389",
},
DialTimeout: 5 * time.Second,
// 重试配置
Retry: clientv3.RetryConfig{
Enable: true,
// 遇到网络错误时重试
OnNetworkErrors: true,
// 重试次数
MaxAttempts: 3,
// 退避策略
BackoffWaitTime: 100 * time.Millisecond,
},
})
手动检查端点健康状态
func checkEndpointsHealth(cli *clientv3.Client) {
for _, endpoint := range cli.Endpoints() {
ctx, cancel := context.WithTimeout(context.Background(), 2*time.Second)
_, err := cli.Status(ctx, endpoint)
cancel()
if err != nil {
fmt.Printf("端点不可用: %s, 错误: %v\n", endpoint, err)
} else {
fmt.Printf("端点健康: %s\n", endpoint)
}
}
}
