当前位置: 首页 > news >正文

高可用、高性能、高扩展集群核心区别详解以及高可用介绍

一、高可用、高性能、高扩展集群核心区别对照表

维度高可用集群(HA)高性能集群(HP)高扩展集群(Scalable)
核心目标系统不中断
(SLA ≥ 99.95%)
处理更快
(高吞吐、低延迟)
规模可增长
(用户/数据/流量线性扩展)
关键指标MTTR(恢复时间)
故障切换时长
服务可用率
QPS/TPS
P99/P999 延迟
CPU/IO 利用率
扩容成本
单分片负载
架构演进平滑度
主要手段冗余 + 自动故障转移
(主从、多副本、多活)
并行计算 + 资源优化
(异步IO、无锁、GPU加速)
架构拆分 + 水平扩展
(X/Y/Z 三轴模型)
技术重点- 健康检查
- 脑裂防护(Quorum)
- 数据一致性(WAL、半同步)
- 多AZ部署
- 连接池/协程
- 多级缓存
- 本地性优化(数据+计算同节点)
- RDMA/eRDMA 网络
- 无状态服务
- 服务/数据分片
- 自动扩缩容(HPA)
- 松耦合接口
典型架构- Redis 主从
- MySQL MGR
- K8s 多副本 + 探针
- 同城双活
- Flink 实时计算集群
- GPU 训练集群
- 高并发下单服务(异步+分片)
- 微服务(Y轴)
- Redis Cluster(Z轴)
- 分库分表(TDDL/ShardingSphere)
三轴映射X轴为主(冗余副本)
Y轴辅助(故障隔离)
X+Z轴协同
(多副本扛流量 + 分片扛写)
X/Y/Z 全面应用
(按阶段动态组合)
成本特征中:需冗余资源,但运维相对成熟高:依赖高性能硬件(GPU/NVMe/RDMA)初期低(X轴),后期高(Y/Z需人力+治理)
失败表现服务中断、数据丢失响应慢、超时、队列堆积扩容困难、热点打爆、重构成本高
典型场景支付、登录、核心交易链路双11下单、AI推理、实时风控用户从10万增长到1亿的全生命周期系统

一句话总结三者关系:

  • 高可用(HA):“不能挂” —— 系统要稳,挂了也能秒级恢复。
  • 高性能(HP):“不能慢” —— 请求要快,百万并发也能丝滑响应。
  • 高扩展(Scalable):“不能卡住” —— 业务增长时,架构能平滑演进,不推倒重来。

经验

  • 大促保障 = HA + HP(稳 + 快)
  • 长期成功 = Scalable + HA(能长大 + 不崩)
  • 三者不是互斥,而是分阶段、分场景的组合拳
    • 初创期:先保证 可用(HA)
    • 成长期:优化 性能(HP)
    • 成熟期:构建 扩展性(Scalable)

附:决策流程图(简化版)

业务是否允许中断?├─ 否 → 优先建设 **高可用集群**(HA)└─ 是 → 继续用户请求是否延迟敏感?├─ 是 → 优化 **高性能集群**(HP)└─ 否 → 继续业务是否持续增长(用户/数据/功能)?├─ 是 → 规划 **高扩展集群**(Scalable,启动X/Y/Z拆分)└─ 否 → 当前架构可能已足够

二、三大集群介绍

1.高可用集群

一、什么是高可用集群(HA Cluster)?

高可用集群(High Availability Cluster, HA Cluster)是指通过冗余设计 + 故障自动转移机制,使系统在部分节点或组件失效时,仍能持续对外提供服务,最大限度减少业务中断时间

核心目标
MTTR(平均恢复时间) → 趋近于0
SLA ≥ 99.95%(全年不可用时间 ≤ 4.38小时)

在阿里体系中,HA 不是单一技术,而是X/Y/Z三轴协同的结果

  • X轴提供实例冗余(如主从复制);
  • Y轴实现故障域隔离(避免雪崩);
  • Z轴保障分片级可用(单分片故障不影响全局)。

二、高可用集群的核心原则

原则说明阿里实践
冗余性关键组件至少2副本Redis主从、MySQL MGR、K8s多副本Deployment
自动故障检测心跳/健康检查实时监控基于etcd或ZooKeeper的Leader选举
快速故障转移(Failover)秒级切换,用户无感强制主从切换 ≤ 10秒(Redis)、K8s Pod重建 ≤ 30秒
数据一致性保障避免脑裂、数据丢失Quorum仲裁、WAL日志同步、TCC事务
可观测性故障可追踪、可复盘全链路监控 + 自动根因分析(ARMS + SLS)

三、常见高可用集群类型及实现方式

1. 主备集群(Active-Standby)
  • 模式:一主一备(或多备),主节点处理请求,备节点热/温备。
  • 适用:数据库(MySQL、Redis)、消息队列(RocketMQ主从)。
  • 命令示例(Redis主从):
    # 从节点配置(强制10秒超时)
    replicaof 10.10.1.100 6379
    repl-timeout 10
    replica-read-only yes
  • 风险点:主节点写瓶颈、切换延迟。

2. 主主集群(Active-Active)
  • 模式:多个节点均可读写,通过同步机制保持一致。
  • 适用:高写入场景(如订单创建),但需强一致性协议。
  • 方案
    • MySQL:MGR(MySQL Group Replication) + 半同步复制
    • 缓存:Redis Cluster(多主分片)
  • 注意:需解决写冲突问题,通常按Z轴分片规避(如user_id路由到固定主节点)。

3. 无状态服务集群(Stateless HA)
  • 模式:服务无本地状态,任意副本可处理请求。
  • 实现:Kubernetes Deployment + Service + Liveness/Readiness Probe
  • 配置示例
    apiVersion: apps/v1
    kind: Deployment
    spec:replicas: 5strategy:type: RollingUpdatetemplate:spec:containers:- name: applivenessProbe:httpGet:path: /healthport: 8080initialDelaySeconds: 10periodSeconds: 5
  • 优势:扩缩容灵活,故障自愈快。

4. 有状态服务集群(Stateful HA)
  • 模式:服务依赖本地状态(如数据库、Kafka),需持久化+有序管理。
  • 实现:Kubernetes StatefulSet + PVC + Headless Service
  • 典型应用:ZooKeeper、Etcd、TiDB、RocketMQ Broker
  • 关键要求
    • 稳定网络标识(Pod名固定)
    • 有序启停(避免脑裂)
    • 持久化存储(云盘/本地SSD)

四、高可用集群的关键技术组件

组件作用阿里常用方案
负载均衡器流量分发 + 健康检查LVS、Nginx、SLB(云负载均衡)
服务注册与发现动态感知节点状态Nacos、ZooKeeper、etcd
分布式协调选主、锁、配置同步etcd(K8s底层)、ZooKeeper
健康检查实时探测节点可用性HTTP/TCP探针、脚本检测
自动恢复故障节点重建或剔除K8s自愈、ECS自动替换

五、典型故障场景与应对策略

故障类型风险阿里应对方案
节点宕机服务中断K8s自动重建Pod;Redis从节点升主
网络分区(脑裂)数据不一致Quorum仲裁(如etcd多数派);强制单主
主从延迟读到旧数据设置min-replicas-to-write;读走主库
资源耗尽(OOM/CPU)服务雪崩Y轴资源隔离 + HPA自动扩缩容
Z轴热点分片单分片过载动态分片迁移 + 热点Key自动探测

📉 历史教训:2019年某核心服务因未设min-replicas-to-write=1,主节点写入成功但从节点未同步即宕机,导致数据丢失
整改:所有关键写操作强制同步至少1个从节点。


六、高可用集群设计 Checklist(上线红线)

  •  关键服务至少2副本(X轴冗余)

  •  配置Liveness/Readiness健康探针
  •  主从/主主集群设置合理超时(如repl-timeout ≤ 10s
  •  有状态服务使用StatefulSet + 持久化存储
  •  跨AZ部署(至少2个可用区)
  •  Y轴隔离:独立资源配额、DB、缓存
  •  Z轴服务:Key带hash tag,防止单分片热点
  •  开启binlog(MySQL)或AOF(Redis),保障可恢复
  •  接入统一监控(ARMS/Prometheus)与告警

七、演进建议:从基础HA到极致可用

阶段能力目标
L1:基础冗余主从 + 负载均衡避免单点故障
L2:自动恢复K8s自愈 + 健康检查故障秒级恢复
L3:多活容灾单元化 + 同城双活可用区级故障无损
L4:混沌工程定期故障注入演练验证HA有效性

经验:大促前,所有P0系统必须通过L3级高可用验证,包括模拟AZ宕机、主库宕机、网络延迟等场景。

传送门:高性能集群https://blog.csdn.net/m0_66705547/article/details/153471942?spm=1011.2415.3001.10575&sharefrom=mp_manage_link

http://www.dtcms.com/a/494979.html

相关文章:

  • 【Linux网络】初识网络,网络的基础概念
  • 手机端网站动效类怎么做seo搜索优化 指数
  • 递归与迭代——力扣101.对称二叉树
  • 中扬立库 × 宁波卡帝亚:小家电之乡的仓储革命,破解制造仓储瓶颈
  • Linux《网络基础》
  • 网络层(IP)
  • 近红外相机在半导体制造领域的应用
  • 网站制作 深圳信科网络公司对比网站
  • 百度旗下所有app列表温州seo排名优化
  • 怎样做让百度收录网站域名设计方案翻译
  • 【whistle】whistle的安装和代理配置
  • 智能油脂润滑系统:降低维护成本与提升生产效率的双赢之道
  • CC17-加油站
  • 【办公类-120-01】20251016 UIBOT下载小说做成docx
  • RestTemplate发送Post请求报错:414 URI Too Long
  • 热力图:从逸出数据到宏观模式识别
  • 解决 gf / gau 与 Oh-My-Zsh 别名冲突的两种办法
  • 开源链动2+1模式、AI智能名片与S2B2C商城小程序:社群经济的数字化重构路径
  • 【详解vtkVoxelContoursToSurfaceFilter】:从有序XY平面轮廓生成三维表面
  • 版本控制器Git
  • 网站版建设南通制作企业网站
  • 网站后台管理系统的重要技术指标收录快的门户网站
  • 降本增效:如何用RustFS将企业存储TCO降低50%?
  • 当AI遇到信息系统:以AI+用户推荐的标签生命周期为例——标签为什么需要“死亡“?
  • 数据结构入门 (九):线索的“寻路”指引 —— 详解线索二叉树
  • wordpress 织梦十堰网站优化
  • Vue+ts 如何实现父组件和子组件通信
  • 广告制作网站源码高端网站设计公司
  • cpp-stub工作原理详细举例解析
  • 香港服务器CPU中E5和Gold的区别