当前位置：首页 > news >正文

高可用集群：5分钟掌握核心要点

news 2025/10/18 14:34:14

高可用性集群（HA Cluster）是一项关键的服务器集群技术，其核心目标是通过冗余和自动故障转移机制，最大限度地减少服务中断时间，确保业务连续性。

下面这个表格概括了HA集群的核心组成部分，可以帮助你快速建立整体认知。

组件类别	关键要素	核心作用简述
节点与网络	集群节点（通常至少2个）、心跳网络（私有网络）、公用网络	节点是提供服务的服务器；心跳网络用于节点间健康检查；公用网络对外提供服务。
资源与服务	虚拟IP（VIP）、应用程序（如数据库、Web服务）、共享存储	这些是集群需要保护的具体对象，故障转移的实质就是这些资源在不同节点间的迁移。
集群软件层	消息与成员关系层（如 Corosync）、资源管理器（如 Pacemaker）、资源代理（RA）	软件负责心跳检测、决策和执行故障转移操作，是集群的“大脑”和“神经”。
关键机制	故障检测与转移（Failover）、仲裁机制、隔离（Fencing/STONITH）	确保能快速发现故障，公正地决定由谁接管服务，并彻底隔离故障节点以防数据损坏。

根据资源调度策略的不同，HA集群主要有以下几种工作模式，适用于不同场景：

主备模式（Active/Passive）：这是最经典的模型。同一时间只有一台服务器（Active）对外提供服务，另一台服务器（Standby/Passive）处于空闲备份状态。当主节点故障时，备节点接管服务。优点是切换逻辑简单，数据一致性易于保证；缺点是备份节点平时不承担负载，资源有浪费。
双主模式（Active/Active）：集群中的所有节点都处于活动状态，同时处理业务。它们可以运行不同的服务，也可以共同承担同一服务的负载（需结合负载均衡器）。当某个节点故障时，其负载会被分配到其他存活节点。优点是资源利用率高；缺点是实现相对复杂，需要确保应用本身支持并行处理。
N+M 模式：这是主备模式的扩展。由 N 个活动节点和 M 个备用节点组成。当任何一个活动节点故障时，都可以由其中一个空闲的备用节点接管。这是在资源成本和可用性之间的一种弹性平衡。

在设计和部署HA集群时，需要重点关注以下几个核心问题：

脑裂（Split-Brain）：这是指集群中的节点之间因为网络故障（如心跳线中断）而无法通信，但每个节点本身都还在运行。它们会误认为其他节点已经宕机，从而都尝试去接管服务并占用资源（如共享存储），这将导致数据损坏和服务混乱。
隔离（Fencing/STONITH）：为了解决脑裂问题，必须引入隔离机制。其核心思想是彻底地将被认定为故障的节点与集群隔离开，最常见的方式是切断其电源（STONITH）。这确保了故障节点无法再访问共享资源，从而保证数据安全。
仲裁（Quorum）：集群通过投票机制来避免脑裂。通常，集群中超过半数（多数派）的节点被认为拥有“法定票数”（Quorum），有权继续运行服务。因此，建议集群节点总数配置为奇数（如3个），这样在网络分区时，更容易产生一个明确的多数派，而少数派节点则会自动停止服务。

在Linux生态中，有以下常见的HA集群软件组合：

HA集群的可靠性通常用“几个9”来衡量，即系统在一年时间里的可用性百分比：