当前位置: 首页 > news >正文

分布式协议与算法实战-理论篇

开篇词」想成为分布式高手?那就先把协议和算法

如果一个人想真正搞懂分布式技术,开发出一个分布式系统,最先需要掌握的就是这部分知识。

分布式算法是分布式技术中的核心

因为分布式系统里,最重要的事情,就是如何选择或设计适合的算法,解决一致性和可用性相关的问题了。

现阶段,掌握分布式算法也是你面试架构师、技术专家等高端岗位时的敲门砖。

将课程划分了三个模块,分别是理论篇、协议和算法篇以及实战篇。

  • 其中,理论篇,我会带你搞懂分布式架构设计核心且具有“实践指导性”的基础理论,这里面会涉及典型的分布式问题,以及如何认识分布式系统中相互矛盾的特性,帮助你在实战中根据场景特点选择适合的分布式算法。
  • 协议和算法篇,会让你掌握它们的原理、特点、适用场景和常见误区等。比如,你以为开发分布式系统使用 Raft 算法就可以了,其实它比较适合性能要求不高的强一致性场景;又比如在面试时,如果被问到“Paxos 和 Raft 的区别在哪里”,你都会在第二部分中找到答案。
  • 实战篇,教你如何将所学知识落地,我会带你掌握分布式基础理论和分布式算法在工程实践中的应用。比如,剖析 InfluxDB 企业版的 CP架构和 AP 架构的设计和背后的思考,以及 Raft、Quorum NWR、Anti-Entropy 等分布式算法的具体实现。
    从实战篇中,你可以掌握如何根据场景特点选择适合的分布式算法,以及如何使用和实现分布式算法的实战技巧。这样,当你需要据场景特点选择适合的分布式算法时,就能举一反三,独立思考,设计开发了。

除此之外,我还会带你剖析 Hashicorp Raft 的实现,并以一个分布式KV 系统的开发实战为例,来聊聊如何使用 Raft 算法实际开发一个分布式系统,以此让你全面拥有分布式算法的实战能力。
总体来说,学完这次课程,你会有以下几个收获:

  1. 破除你对分布式协议和算法的困惑,帮助你建立信心;
  2. 可落地的 4 大分布式基础理论;
  3. 8 个最常用的分布式协议和算法;
  4. 3 大实战案例手把手教学;
  5. 以实战为中心的分布式内容体系。

01丨拜占庭将军问题:有叛徒的情况下,如何才能达成共识?

那么接下来,我就以战国时期六国抗秦的故事为主线串联起整篇文章,让你读懂、学透。

战国时期,齐、楚、燕、韩、赵、魏、秦七雄并立,后来秦国的势力不断强大起来,成了东方六国的共同威胁。于是,这六个国家决定联合,全力抗秦,免得被秦国各个击破。一天,苏秦作为合纵长,挂六国相印,带着六国的军队叩关函谷,驻军在了秦国边境,为围攻秦国作准备。但是,因为各国军队分别驻扎在秦国边境的不同地方,所以军队之间只能通过信使互相联系,这时,苏秦面临了一个很严峻的问题:如何统一大家的作战计划?
万一一些诸侯国在暗通秦国,发送误导性的作战信息,怎么办?如果信使被敌人截杀,甚至被敌人间谍替换,又该怎么办?这些都会导致自己的作战计划被扰乱,然后出现有的诸侯国在进攻,有的诸侯国在撤退的情况,而这时,秦国一定会趁机出兵,把他们逐一击破的。

所以,如何达成共识,制定统一的作战计划呢?苏秦他很愁。

这个故事,是拜占庭将军问题的一个简化表述,苏秦面临的就是典型的共识难题,也就是如何在可能有误导信息的情况下,采用合适的通讯机制,让多个将军达成共识,制定一致性的作战计划?

你可以先停下来想想,这个问题难在哪儿?我们又是否有办法,帮助诸侯国们达成共识呢?

二忠一叛的问题

为了便于你理解和层层深入,我先假设只有 3 个国家要攻打秦国,这三个国家的三位将军,咱们简单点儿,分别叫齐、楚、燕。同时,又因为秦国很强大,所以只有半数以上的将军参与进攻,才能击败敌人(注意,这里是假设哈,你别较真),在这个期间,将军们彼此之间需要通过信使传递消息,然后协商一致之后,才能在同一时间点发动进攻。

举个例子,有一天,这三位将军各自一脸严肃地讨论明天是进攻还是撤退,并让信使传递信息,按照“少数服从多数”的原则投票表决,两个人意见一致就可以了,比如:

  1. 齐根据侦查情况决定撤退;
  2. 楚和燕根据侦查信息,决定进攻。

那么按照原则,齐也会进攻。最终,3 支军队同时进攻,大败秦军。
在这里插入图片描述
可是,问题来了:一旦有人在暗通秦国,就会出现作战计划不一致的情况。比如齐向楚、燕分别发送了“撤退”的消息,燕向齐和楚发送了“进攻”的消息。撤退:进攻 =1:1,无论楚投进攻还是撤退,都会成为 2:1,这个时候还是会形成一个一致性的作战方案。
但是,楚这个叛徒在暗中配合秦国,让信使向齐发送了“撤退”,向燕发送了“进攻”,那么:

  1. 燕看到的是,撤退:进攻 =1:2;
  2. 齐看到的是,撤退:进攻 =2:1。

按照“少数服从多数”的原则,就会出现燕单独进攻秦军,当然,最后肯定是因为寡不敌众,被秦军给灭了。
在这里插入图片描述
在这里,你可以看到,叛将楚通过发送误导信息,非常轻松地干扰了齐和燕的作战计划,导致这两位忠诚将军被秦军逐一击败。这就是所说的二忠一叛难题。那么苏秦应该怎么解决这个问题呢?我们来帮苏秦出出主意。

苏秦该怎么办?

解决办法一:口信信息型拜占庭问题之解

首先,三位将军都分拨一部分军队,由苏秦率领,苏秦参与作战计划讨论并执行作战指令。这样,3 位将军的作战讨论,就变为了 4 位将军的作战讨论,这能够增加讨论中忠诚将军的数量。

然后呢,4 位将军还约定了,如果没有收到命令,就执行预设的默认命令,比如“撤退”。除此之外,还约定一些流程来发送作战信息、执行作战指令,比如,进行两轮作战信息协商。为什么要执行两轮呢?先卖个关子,你一会儿就知道了。

第一轮:

  1. 先发送作战信息的将军作为指挥官,其他的将军作为副官;
  2. 指挥官将他的作战信息发送给每位副官;
  3. 每位副官,将从指挥官处收到的作战信息,作为他的作战指令;如果没有收到作战信息,将把默认的“撤退”作为作战指令。

第二轮:

  1. 除了第一轮的指挥官外,剩余的3位将军将分别作为指挥官,向另外2位将军发送作战信息;
  2. 然后,这3位将军按照“少数服从多数”,执行收到的作战指令。

为了帮助你直观地理解苏秦的整个解决方案,我来演示一下作战信息协商过程。而且,我会分别以忠诚将军和叛将先发送作战信息为例来演示, 这样可以完整地演示叛将对作战计划干扰破坏的可能性。

首先是 3 位忠诚的将军先发送作战信息的情况。

为了演示方便,假设苏秦先发起作战信息,作战指令是“进攻”。那么在第一轮作战信息协商中,苏秦向齐、楚、燕发送作战指令“进攻”。
在这里插入图片描述
在第二轮作战信息协商中,齐、楚、燕分别作为指挥官,向另外 2 位发送作战信息“进攻”,因为楚已经叛变了,所以,为了干扰作战计划,他就对着干,发送“撤退”作战指令。

在这里插入图片描述
最终,齐和燕收到的作战信息都是“进攻、进攻、撤退”,按照原则,齐和楚与苏秦一起执行作战指令“进攻”,实现了作战计划的一致性,保证了作战的胜利。

那么,如果是叛徒楚先发送作战信息,干扰作战计划,结果会有所不同么?我们来具体看一看。在第一轮作战信息协商中,楚向苏秦发送作战指令“进攻”,向齐、燕发送作战指令“撤退”。

在这里插入图片描述
然后,在第二轮作战信息协商中,苏秦、齐、燕分别作为指挥官,向另外两位发送作战信息。

在这里插入图片描述
最终,苏秦、齐和燕收到的作战信息都是“撤退、撤退、进攻”,按照原则,苏秦、齐和楚一起执行作战指令“撤退”,实现了作战计划的一致性。也就是说,无论叛将楚如何捣乱,苏秦、齐和燕,都执行一致的作战计划,保证作战的胜利。

这个解决办法,其实是兰伯特在论文《The Byzantine Generals Problem》中提到的口信消息型拜占庭问题之解:如果叛将人数为 m,将军人数不能少于 3m + 1 ,那么拜占庭将军问题就能解决了。
不过,作者在论文中没有讲清楚一些细节,为了帮助你阅读和理解论文,在这里我补充一点:
这个算法有个前提,也就是叛将人数 m,或者说能容忍的叛将数 m,是已知的。在这个算法中,叛将数 m 决定递归循环的次数(也就是说,叛将数 m 决定将军们要进行多少轮作战信息协商),即 m+1 轮(所以,你看,只有楚是叛变的,那么就进行了两轮)。你也可以从另外一个角度理解:n 位将军,最多能容忍 (n - 1) / 3 位叛将。关于这个公式,你只需要记住就好了,推导过程你可以参考论文。
不过,这个算法虽然能解决拜占庭将军问题,但它有一个限制:如果叛将人数为 m,那么将军总人数必须不小于 3m + 1。

在二忠一叛的问题中,在存在 1 位叛将的情况下,必须增加 1 位将军,将 3 位将军协商共识,转换为 4 位将军协商共识,这样才能实现忠诚将军的一致性作战计划。那么有没有办法,在不增加将军人数的时候,直接解决二忠一叛的难题呢?

解决办法二:签名消息型拜占庭问题之解

其实,苏秦还可以通过签名的方式,在不增加将军人数的情况下,解决二忠一叛的难题。首先,苏秦要通过印章、虎符等信物,实现这样几个特性:

  1. 忠诚将军的签名无法伪造,而且对他签名信息的内容进行任何更改都会被发现;
  2. 任何人都能验证将军签名的真伪。

这时,如果忠诚的将军,比如齐先发起作战信息协商,一旦叛将小楚修改或伪造收到的作战信息,那么燕在接收到楚的作战信息的时候,会发现齐的作战信息被修改,楚已叛变,这时他执行齐发送的作战信息。
在这里插入图片描述
如果叛变将军楚先发送误导的作战信息,那么齐和燕将发现楚发送的作战信息是不一致的,知道楚已经叛变。这个时候,他们可以先处理叛将,然后再重新协商作战计划。

在这里插入图片描述
这个解决办法,是兰伯特在论文中提到的签名消息型拜占庭问题之解。而通过签名机制约束叛将的叛变行为,任何叛变行为都会被发现,也就会实现无论有多少忠诚的将军和多少叛将,忠诚的将军们总能达成一致的作战计划。

我想,如果当时苏秦能够具备分布式系统设计的思维,掌握这几种算法,应该就不用担心作战计划被干扰了吧。

内容小结

本节课,为了帮助你理解拜占庭将军问题,我讲了苏秦协商作战的故事,现在让我们跳回现实世界,回到计算机世界的分布式场景中:

  1. 故事里的各位将军,你可以理解为计算机节点;
  2. 忠诚的将军,你可以理解为正常运行的计算机节点;
  3. 叛变的将军,你可以理解为出现故障并会发送误导信息的计算机节点;
  4. 信使被杀,可以理解为通讯故障、信息丢失;5. 信使被间谍替换,可以理解为通讯被中间人攻击,攻击者在恶意伪
    造信息和劫持通讯。

这样一来,你是不是就理解了计算机分布式场景中面临的问题,并且知道了解决的办法呢?

那么我想强调的是,拜占庭将军问题描述的是最困难的,也是最复杂的一种分布式故障场景,除了存在故障行为,还存在恶意行为的一个场景。你要注意,在存在恶意节点行为的场景中(比如在数字货币的区块链技术中),必须使用拜占庭容错算法(Byzantine Fault Tolerance,BFT)。除了故事中提到两种算法,常用的拜占庭容错算法还有:PBFT 算法,PoW 算法(为了重点突出,这些内容我会在后面讲解)。

而在计算机分布式系统中,最常用的是非拜占庭容错算法,即故障容错算法(Crash Fault Tolerance,CFT)。CFT 解决的是分布式的系统中存在故障,但不存在恶意节点的场景下的共识问题。 也就是说,这个场景可能会丢失消息,或者有消息重复,但不存在错误消息,或者伪造消息的情况。常见的算法有 Paxos 算法、Raft 算法、ZAB 协议(这些内容我同样会在后面讲解)。

那么,如何在实际场景选择合适的算法类型呢?答案是:如果能确定该环境中各节点是可信赖的,不存在篡改消息或者伪造消息等恶意行为(例如 DevOps 环境中的分布式路由寻址系统),推荐使用非拜占庭容错算法;反之,推荐使用拜占庭容错算法,例如在区块链中使用PoW 算法。

02丨CAP理论:分布式系统的PH试纸,用它来测酸碱度

每次要开发分布式系统的时候,就会遇到一个非常棘手的问题,那就是如何根据业务特点,为系统设计合适的分区容错一致性模型,以实现集群能力。这个问题棘手在当发生分区错误时,应该如何保障系统稳定运行,不影响业务。

这和我之前经历的一件事比较像,当时,我负责自研InfluxDB 系统的项目,接手这个项目后,我遇到的第一个问题就是,如何为单机开源版的 InfluxDB 设计分区容错一致性模型。 因为 InfluxDB 有 META和 DATA 两个节点,它们的功能和数据特点不同,所以我还需要考虑这两个逻辑单元的特点,然后分别设计分区容错一致性模型。

那个时候,我想到了 CAP 理论,并且在 CAP 理论的帮助下,成功地解决了问题。讲到这儿,你可能会问了:为什么 CAP 理论可以解决这个问题呢?

因为在我看来,CAP 理论是一个很好的思考框架,它对分布式系统的特性做了高度抽象,比如抽象成了一致性、可用性和分区容错性,并对特性间的冲突(也就是 CAP 不可能三角)做了总结。一旦掌握它,你就像拥有了引路人,自然而然就能根据业务场景的特点进行权衡,设计出适合的分区容错一致性模型。

那么问题来了:我说的一致性、可用性和分区容错性是什么呢?它们之间有什么关系?你又该如何使用 CAP 理论来思考和设计分区容错一致性模型呢?

CAP 三指标

CAP 理论对分布式系统的特性做了高度抽象,形成了三个指标:

  1. 一致性(Consistency)
  2. 可用性(Availability)
  3. 分区容错性(Partition Tolerance)

CAP 不可能三角

CAP 不可能三角说的是对于一个分布式系统而言,一致性(Consistency)、可用性(Availability)、分区容错性(PartitionTolerance)3 个指标不可兼得,只能在 3 个指标中选择 2 个。
在这里插入图片描述

如何使用 CAP 理论

只要有网络交互就一定会有延迟和数据丢失,而这种状
况我们必须接受,还必须保证系统不能挂掉。所以就像我上面提到的,节点间的分区故障是必然发生的。也就是说,分区容错性(P)是前提,是必须要保证的。
现在就只剩下一致性(C)和可用性(A)可以选择了:要么选择一致性,保证数据绝对一致;要么选择可用性,保证服务可用。那么 CP 和 AP 的含义是什么呢?

  1. 当选择了一致性(C)的时候,如果因为消息丢失、延迟过高发生了网络分区,部分节点无法保证特定信息是最新的,那么这个时候,当集群节点接收到来自客户端的写请求时,因为无法保证所有节点都是最新信息,所以系统将返回写失败错误,也就是说集群拒绝新数据写入。
  2. 当选择了可用性(A)的时候,系统将始终处理客户端的查询,返回特定信息,如果发生了网络分区,一些节点将无法返回最新的特定信息,它们将返回自己当前的相对新的信息。

大部分人对 CAP 理论有个误解,认为无论在什么情况下,分布式系统都只能在 C 和 A 中选择 1 个。 其实,在不存在网络分区的情况下,也就是分布式系统正常运行时(这也是系统在绝大部分时候所处的状态),就是说在不需要 P 时,C 和 A 能够同时保证。只有当发生分区故障的时候,也就是说需要 P 时,才会在 C 和A 之间做出选择。而且如果各节点数据不一致,影响到了系统运行或业务运行(也就是说会有负面的影响),推荐选择 C,否则选 A。

那么我当时是怎么根据场景特点,进行 CAP 权衡,设计适合的分布式系统呢?为了便于你理解,我先来说说背景。
开源版的 InfluxDB,缺乏集群能力和可用性,而且,InfluxDB 是由META 节点和 DATA 节点 2 个逻辑单元组成,这 2 个节点的功能和数据特点不同,需要我们分别为它们设计分区容错一致性模型。

在这里插入图片描述
InfluxDB程序的逻辑架构示意图

我具体是这么设计的:

  1. 作为分布式系统,分区容错性是必须要实现的,不能因为节点间出现了分区故障,而出现整个系统不能用的情况。
  2. 考虑到META节点保存的是系统运行的关键元信息,比如数据库名、表名、保留策略信息等,所以必须保持所有节点的一致性,这样才能避免由于各节点元信息不一致,导致时序数据记录不一致或者影响系统运行。比如,数据量Telegraf的信息在一些节点上存在,在另外一些节点上不存在,那么将导致向某些节点写入时序数据记录失败,所以,我选择CAP理论中的C和P,采用CP结构。
  3. DATA 节点保存的是具体的时序数据记录,比如一条记录 CPU 负载的时序数据,“cpu_usage,host=server01,location=cn-sz
    user=23.0,system=57.0”。虽然不是系统运行相关的元信息,但服务会被访问频繁,水平扩展、性能、可用性等是关键,所以,我选择了 CAP 理论中的 A 和 P,采用 AP 架构。

你看,我用 CAP 理论进行思考,并分别设计了 InfluxDB 的 META 节点和 DATA 节点的分区容错一致性模型,而你也可以采用类似的思考方法,设计出符合自己业务场景的分区容错一致性模型。
那么假设我当时没有受到 CAP 理论的影响,或者对 CAP 理论理解不深入,DATA 节点不采用 AP 架构,而是直接使用了现在比较流行的分区容错一致性算法,比如使用 Raft 算法,会有什么痛点呢?

  1. 受限于Raft的强领导者模型。所有请求都在领导者节点上处理,整个集群的性能等于单机性能。这样会造成集群接入性能低下,无法支撑海量或大数据量的时序数据。
  2. 受限于强领导者模型,以及Raft的节点和副本一一对应的限制,无法实现水平扩展,分布式集群扩展了读性能,但写性能并没有提升。这样就出现写性能低下,和因为架构上的限制,无法提升写性能的问题。
  3. Raft的“一切以领导者为准”的日志复制特性,会导致DATA节点丢数据,出现时序数据记录缺失的问题。

最后我想再次强调的是,一致性不等同于完整性, 有些技术团队基于数据完整性的考虑,使用 Raft 算法实现 DATA 节点的数据的分布式一致性容错,恰恰是这个设计,会导致 DATA 节点丢数据。我希望你能注意到这一点。
那么在这里,我也想考考你:如果 META 节点采用 AP 架构,会有什么痛点呢?你可以思考一下。

03丨ACID理论:CAP的酸,追求一致性

提到 ACID,我想你并不陌生,很多同学也会觉得它容易理解,在单机上实现 ACID 也不难,比如可以通过锁、时间序列等机制保障操作的顺序执行,让系统实现 ACID 特性。但是,一说要实现分布式系统的 ACID 特性,很多同学就犯难了。那么问题来了,为什么分布式系统的 ACID 特性在实现上,比较难掌握呢?

在我看来,ACID 理论是对事务特性的抽象和总结,方便我们实现事务。你可以理解成:如果实现了操作的 ACID 特性,那么就实现了事务。而大多数人觉得比较难,是因为分布式系统涉及多个节点间的操作。加锁、时间序列等机制,只能保证单个节点上操作的 ACID 特性,无法保证节点间操作的 ACID 特性。

那么怎么做才会让实现不那么难呢?答案是你要掌握分布式事务协议,比如二阶段提交协议和 TCC(Try-Confirm-Cancel)。这也是我接下来重点和你分享的内容。
不过在带你了解二阶段提交协议和 TCC 之前,咱们先继续看看苏秦的故事,看这回苏秦又遇到了什么事儿。

最近呢,秦国按捺不住自己躁动的心,开始骚扰魏国边境,魏王头疼,向苏秦求助,苏秦认为“三晋一家亲”,建议魏王联合赵、韩一起对抗秦国。但是这三个国家实力都很弱,需要大家都同意联合,一致行动,如果有任何一方不方便行动,就取消整个计划。

根据侦查情况,明天发动反攻胜算比较大。苏秦想协调赵、魏、韩,明天一起行动。那么对苏秦来说,他面临的问题是,如何高效协同赵、魏、韩一起行动,并且保证当有一方不方便行动时,取消整个计划。

在这里插入图片描述
苏秦面对的这个新问题,就是典型的如何实现分布式事务的问题,赵、魏、韩明天攻打秦,这三个操作组成一个分布式事务,要么全部执行,要么全部不执行。

了解了这个问题之后,我们看看如何通过二阶段提交协议和 TCC,来帮助苏秦解决这个难题。

二阶段提交协议

二阶段提交协议,顾名思义,就是通过二阶段的协商来完成一个提交操作,那么具体是怎么操作的呢?

首先,苏秦发消息给赵,赵接收到消息后就扮演协调者
(Coordinator)的身份,由赵联系魏和韩,发起二阶段提交:
在这里插入图片描述
赵发起二阶段提交后,先进入提交请求阶段(又称投票阶段)。 为了方便演示,我们先假设赵、魏、韩明天都能去攻打秦国:
在这里插入图片描述
也就是说,第一步,赵分别向魏、韩发送消息:“明天攻打秦国,方便吗?”

第二步,赵、魏、韩,分别评估明天能否去攻打秦国,如果能,就预留时间并锁定,不再安排其他军事活动。

第三步,赵得到全部的回复结果(包括他自己的评估结果),都是YES。

赵收到所有回复后,进入提交执行阶段(又称完成阶段), 也就是具体执行操作了,大致步骤如下:
在这里插入图片描述
首先,赵按照“要么全部执行,要么放弃”的原则,统计投票结果,因为所有的回复结果都是YES,所以赵决定执行分布式事务,明天攻打秦国。
然后,赵通知魏、韩:“明天攻打秦国”。
接到通知之后,魏、韩执行事务,明天攻打秦国。
最后,魏、韩将执行事务的结果返回给赵。
这样一来,赵就将事务执行的结果(也就是赵、魏、韩明天一起攻打秦国),返回给苏秦,那么,这时苏秦就解决了问题,协调好了明天的作战计划。

在这里,赵采用的方法就是二阶段提交协议。在这个协议中:

  1. 你可以将“赵明天攻打秦国、魏明天攻打秦国、韩明天攻打秦国”,理解为一个分布式事务操作;
  2. 将赵、魏、韩理解为分布式系统的三个节点,其中,赵是协调者(Coordinator),将苏秦理解为业务,也就是客户端;
  3. 将消息理解为网络消息;
  4. 将“明天能否攻打请过,预留时间”,理解为评估事务中相遇操作的对象和对象状态,是否准备好,能否提交新操作。

需要注意的是,在第一阶段,每个参与者投票表决事务是放弃还是提交。一旦参与者投票要求提交事务,那么就不允许放弃事务。也就是说,在一个参与者投票要求提交事务之前,它必须保证能够执行提交协议中它自己那一部分,即使参与者出现故障或者中途被替换掉。这个特性,是我们需要在代码实现时保障的。

还需要你注意的是,在第二个阶段,事务的每个参与者执行最终统一的决定,提交事务或者放弃事务。这个约定,是为了实现ACID中的原子性。

二阶段提交协议最早是用来实现数据库的分布式事务的,不过现在最常见的协议是XA协议。这个协议是X/Open国际联盟基于二阶段提交协议提出的,也叫做X/Open Distributed Transaction Processing(DTP)模型,比如MySQL就是通过MySQL XA实现了分布式事务。

但是不管是原始的二阶段提交协议,还是XA协议,都存在一些问题:

  1. 在提交请求阶段,需要预留资源,在资源预留期间,其他人不能操作(比如,XA在第一阶段会将相关资源锁定);
  2. 数据库时独立的系统。

因为上面这两点,我们无法根据业务特点弹性地调整锁的粒度,而这些都会影响数据库的并发性能。那用什么办法可以解决这些问题呢?答案就是TCC。

TCC(Try-Confirm-Cancel)

TCC是Try(预留)、Confirm(确认)、Cancel(撤销)3个操作的简称,它包含了预留、确认或撤销这2个阶段。那么你如何使用TCC协议,解决苏秦面临的问题呢?

首先,我们先进入到预留阶段,大致的步骤如下:

在这里插入图片描述
第一步,苏秦分别发送消息通知赵、魏、韩,让他们预留明天的时间和相关资源。然后苏秦实现确认操作(明天攻打秦国),和撤销操作(取消明天攻打秦国)。
第二步,苏秦收到赵、魏、韩的预留答复,都是 OK。

如果预留阶段的执行都没有问题,就进入确认阶段,大致步骤如下:
在这里插入图片描述
第一步,苏秦执行确认操作,通知赵、魏、韩明天攻打秦国。
第二步,收到确认操作的响应,完成分布式事务。

如果预留阶段执行出错,比如赵的一部分军队还在赶来的路上,无法出兵,那么就进入撤销阶段,大致步骤如下:
在这里插入图片描述
第一步,苏秦执行撤销操作,通知赵、魏、韩取消明天攻打秦国的计划。
第二步,收到撤销操作的响应。
你看,在经过了预留和确认(或撤销)2 阶段的协商,苏秦实现这个分布式事务:赵、魏、韩三国,要么明天一起进攻,要么明天都按兵不动。

其实在我看来,TCC 本质上是补偿事务,它的核心思想是针对每个操作都要注册一个与其对应的确认操作和补偿操作(也就是撤销操作)。 它是一个业务层面的协议,你也可以将 TCC 理解为编程模型,TCC 的 3 个操作是需要在业务代码中编码实现的,为了实现一致性,确认操作和补偿操作必须是等幂的,因为这 2 个操作可能会失败重试。

另外,TCC 不依赖于数据库的事务,而是在业务中实现了分布式事务,这样能减轻数据库的压力,但对业务代码的入侵性也更强,实现的复杂度也更高。所以,我推荐在需要分布式事务能力时,优先考虑现成的事务型数据库(比如 MySQL XA),当现有的事务型数据库不能满足业务的需求时,再考虑基于 TCC 实现分布式事务。

内容小结

本节课我主要带你了解了实现分布式系统 ACID 特性的方法,二阶段
提交协议和 TCC,我希望你明确这样几个重点。

  1. 二阶段提交协议,不仅仅是协议,也是一种非常经典的思想。二阶段提交在达成提交操作共识的算法中应用广泛,比如 XA 协议、TCC、Paxos、Raft 等。我希望你不仅能理解二阶段提交协议,更能理解协议背后的二阶段提交的思想,当后续需要时,能灵活地根据二阶段提交思想,设计新的事务或一致性协议。
  2. 幂等性,是指同一操作对同一系统的任意多次执行,所产生的影响均与一次执行的影响相同,不会因为多次执行而产生副作用。常见的实现方法有 Token、索引等。它的本质是通过唯一标识,标记同一操作的方式,来消除多次执行的副作用。
  3. Paxos、Raft 等强一致性算法,也采用了二阶段提交操作,在“提交请求阶段”,只要大多数节点确认就可以,而具有 ACID 特性的事务,则要求全部节点确认可以。所以可以将具有 ACID 特性的操作,理解为最强的一致性。

另外,我想补充一下,三阶段提交协议,虽然针对二阶段提交协议的“协调者故障,参与者长期锁定资源”的痛点,通过引入了询问阶段和超时机制,来减少资源被长时间锁定的情况,不过这会导致集群各节点在正常运行的情况下,使用更多的消息进行协商,增加系统负载和响应延迟。也正是因为这些问题,三阶段提交协议很少被使用,所以,你只要知道有这么个协议就可以了。
最后我想强调的是,你可以将 ACID 特性理解为 CAP 中一致性的边界,最强的一致性,也就是 CAP 的酸(Acid)。根据 CAP 理论,如果在分布式系统中实现了一致性,可用性必然受到影响。比如,如果出现一个节点故障,则整个分布式事务的执行都是失败的。实际上,绝大部分场景对一致性要求没那么高,短暂的不一致是能接受的,另外,也基于可用性和并发性能的考虑,建议在开发实现分布式系统,如果不是必须,尽量不要实现事务,可以考虑采用强一致性或最终一致性。

04丨BASE理论:CAP的碱,追求可用性

很多同学可能喜欢使用事务型的分布式系统,或者是强一致性的分布式系统,因为使用起来很方便,不需要考虑太多,就像使用单机系统一样。但是学了 CAP 理论后,你肯定知道在分布式系统中要实现强一致性必然会影响可用性。比如,在采用两阶段提交协议的集群系统中,因为执行提交操作,需要所有节点确认和投票。

所以,集群的可用性是每个节点可用性的乘积,比如,假设 3 个节点的集群,每个节点的可用性为 99.9%,那么整个集群的可用性为99.7%,也就是说,每个月约宕机 129.6 分钟,这是非常严重的问题。 而解决可用性低的关键在于,根据实际场景,尽量采用可用性优先的 AP 模型。

讲到这儿,可能会有一些同学“举手提问”:这也太难了,难道没有现成的库或者方案,来实现合适的 AP 模型?是的,的确没有。因为它是一个动态模型,是基于业务场景特点妥协折中后设计实现的。不过,你可以借助 BASE 理论帮助你达成目的。

在我看来,BASE 理论是 CAP 理论中的 AP 的延伸,是对互联网大规模分布式系统的实践总结,强调可用性。几乎所有的互联网后台分布式系统都有 BASE 的支持,这个理论很重要,地位也很高。一旦掌握它,你就能掌握绝大部分场景的分布式系统的架构技巧,设计出适合业务场景特点的、高可用性的分布式系统。

而它的核心就是基本可用(Basically Available)和最终一致性
(Eventually consistent)。也有人会提到软状态(Soft state),在我看来,软状态描述的是实现服务可用性的时候系统数据的一种过渡状态,也就是说不同节点间,数据副本存在短暂的不一致。你只需要知道软状态是一种过渡状态就可以了,我们不多说。

那么基本可用以及最终一致性到底是什么呢?你又如何在实践中使用BASE 理论提升系统的可用性呢?这些就是本节课的重点了。

实现基本可用的4板斧

可以把基本可用理解成,当系统节点出现大规模故障
的时候,比如专线的光纤被挖断、突发流量导致系统过载(出现了突发事件,服务被大量访问),这个时候可以通过服务降级,牺牲部分功能的可用性,保障系统的核心功能可用。

就拿 12306 订票系统基本可用的设计为例,这个订票系统在春运期间,因为开始售票后先到先得的缘故,会出现极其海量的请求峰值,如何处理这个问题呢?

咱们可以在不同的时间,出售不同区域的票,将访问请求错开,削弱请求峰值。比如,在春运期间,深圳出发的火车票在 8 点开售,北京出发的火车票在 9 点开售。这就是我们常说的流量削峰。

另外,你可能已经发现了,在春运期间,自己提交的购票请求,往往会在队列中排队等待处理,可能几分钟或十几分钟后,系统才开始处理,然后响应处理结果,这就是你熟悉的延迟响应。 你看,12306 订票系统在出现超出系统处理能力的突发流量的情况下,会通过牺牲响应时间的可用性,保障核心功能的运行。

而 12306 通过流量削峰和延迟响应,是不是就实现了基本的可用呢?现在它不会再像最初的时候那样,常常 404 了吧?

再比如,你正负责一个互联网系统,突然出现了网络热点事件,好多用户涌进来,产生了海量的突发流量,系统过载了,大量图片因为网络超时无法显示。那么这个时候你可以通过哪些方法,保障系统的基本可用呢?

相信你马上就能想到体验降级, 比如用小图片来替代原始图片,通过降低图片的清晰度和大小,提升系统的处理能力。

然后你还能想到过载保护, 比如把接收到的请求放在指定的队列中排队处理,如果请求等待时间超时了(假设是 100ms),这个时候直接拒绝超时请求;再比如队列满了之后,就清除队列中一定数量的排队请求,保护系统不过载,实现系统的基本可用。

你看,和 12306 的设计类似,只不过你负责的互联网系统是通过牺牲部分功能的可用性,保障核心功能的运行。

我说了这么多,主要是想强调:基本可用在本质上是一种妥协,也就是在出现节点故障或系统过载的时候,通过牺牲非核心功能的可用性,保障核心功能的稳定运行。

我希望你能在后续的分布式系统的开发中,不仅掌握流量削峰、延迟响应、体验降级、过载保护这 4 板斧,更能理解这 4 板斧背后的妥协折中,从而灵活地处理不可预知的突发问题。

带你了解了基本可用之后,我再来说说 BASE 理论中,另一个非常核心的内容:最终一致性。

最终的一致

最终一致性是说,系统中所有的数据副本在经过一段时间
的同步后,最终能够达到一个一致的状态。也就是说,在数据一致性上,存在一个短暂的延迟。

几乎所有的互联网系统采用的都是最终一致性,只有在实在无法使用最终一致性,才使用强一致性或事务,比如,对于决定系统运行的敏感元数据,需要考虑采用强一致性,对于与钱有关的支付系统或金融系统的数据,需要考虑采用事务。

你可以将强一致性理解为最终一致性的特例,也就是说,你可以把强一致性看作是不存在延迟的一致性。在实践中,你也可以这样思考
如果业务的某功能无法容忍一致性的延迟(比如分布式锁对应的数据),需要实现的是强一致性;如果能容忍短暂的一致性的延迟(比如 QQ 状态数据),就可以考虑最终一致性。

那么如何实现最终一致性呢?你首先要知道它以什么为准,因为这是实现最终一致性的关键。一般来说,在实际工程实践中有这样几种方式:

  1. 以最新写入的数据为准,比如 AP 模型的 KV 存储采用的就是这种方式;
  2. 以第一次写入的数据为准,如果你不希望存储的数据被更改,可以以它为准。

那实现最终一致性的具体方式是什么呢?常用的有这样几种。

  1. 读时修复:在读取数据时,检测数据的不一致,进行修复。比如Cassandra 的 Read Repair 实现,具体来说,在向 Cassandra 系统查询数据的时候,如果检测到不同节点的副本数据不一致,系统就自动修复数据。
  2. 写时修复:在写入数据,检测数据的不一致时,进行修复。比如Cassandra 的 Hinted Handoff 实现。具体来说,Cassandra 集群的节点之间远程写数据的时候,如果写失败就将数据缓存下来,然后定时重传,修复数据的不一致性。
  3. 异步修复:这个是最常用的方式,通过定时对账检测副本数据的一致性,并修复。

在这里,我想强调的是因为写时修复不需要做数据一致性对比,性能消耗比较低,对系统运行影响也不大,所以我推荐你在实现最终一致性时优先实现这种方式。而读时修复和异步修复因为需要做数据的一致性对比,性能消耗比较多,在开发实际系统时,你要尽量优化一致性对比的算法,降低性能消耗,避免对系统运行造成影响。

另外,我还想补充一点,在实现最终一致性的时候,我推荐同时实现自定义写一致性级别(All、Quorum、One、Any), 让用户可以自主选择相应的一致性级别,比如可以通过设置一致性级别为 All,来实现强一致性。

如何使用BASE理论

我以自研 InfluxDB 系统中 DATA 节点的集群实现为例,带你来使用BASE 理论。咱们先来看看如何保障基本可用。
DATA 节点的核心功能是读和写,所以基本可用是指读和写的基本可用。那么我们可以通过分片和多副本,实现读和写的基本可用。也就是说,将同一业务的数据先分片,然后再以多份副本的形式分布在不同的节点上。比如下面这张图,这个 3 节点 2 副本的集群,除非超过一半的节点都故障了,否则是能保障所有数据的读写的。
在这里插入图片描述
那么如果实现最终一致性呢?就像我上文提到的样子,我们可以通过写时修复和异步修复实现最终一致性。另外,还实现自定义写一致性级别,支持 All、Quorum、One、Any 4 种写一致性级别,用户在写数据的时候,可以根据业务数据的特点,设置不同的写一致性级别。

内容小结

本节课我主要带你了解了BASE理论,以及BASE理论的应用,我希望你明确几个重点:

  1. BASE理论是对CAP中一致性和可用性权衡的结果,它来源于对大规模互联网分布式系统实践的总结,是基于CAP定理逐步演化而来的。它的核心思想是,如果不是必须的话,不推荐实现事务或强一致性,鼓励可用性和性能优先,根据业务的场景特点,来实现非常弹性的基本可用,以及实现数据的最终一致性。
  2. BASE理论主张通过牺牲部分功能的可用性,实现整体的基本可用,也就是说,通过服务降级的方式,努力保障极端情况下的系统可用性。
  3. ACID理论是传统数据库常用的设计理念,追求强一致性模型
    BASE理论支持的是大型分布式系统,通过牺牲强一致性获得高可用性。BASE理论在很大程度上,解决了事务型系统在性能、容错、可用性等方面痛点。另外我再多说一句,BASE理论在NoSQL中应用广泛,是NoSQL系统设计的事实上的理论支撑。

最后我强调一下,对于任何集群而言,不可预知的故障的最终后果,都是系统过载。如何设计过载保护,实现系统在过载时的基本可用,是开发和运营互联网后台的分布式系统的重中之重。那么我建议你,在开发实现分布式系统,要充分考虑如何实现基本可用。


文章转载自:

http://N6ZbTMmu.pxLqL.cn
http://lBqnR8XM.pxLqL.cn
http://WhVBGj1e.pxLqL.cn
http://8sceVdFO.pxLqL.cn
http://v0njt30C.pxLqL.cn
http://9ZquBLG2.pxLqL.cn
http://joT9obmE.pxLqL.cn
http://1pTBQg8k.pxLqL.cn
http://HN1pAWGi.pxLqL.cn
http://LMBeOCcD.pxLqL.cn
http://hsCTwPPe.pxLqL.cn
http://YTbN5YWF.pxLqL.cn
http://77DI3CB6.pxLqL.cn
http://8cfAia9J.pxLqL.cn
http://gcrpSk3V.pxLqL.cn
http://YqSoqNOg.pxLqL.cn
http://Ji7UFuAX.pxLqL.cn
http://ojkjpspT.pxLqL.cn
http://yQO4673o.pxLqL.cn
http://OVR4cHUa.pxLqL.cn
http://ScO4Wvfr.pxLqL.cn
http://zVJbq6wr.pxLqL.cn
http://UfOD7b9d.pxLqL.cn
http://0FErcJ4V.pxLqL.cn
http://U0aG3uEY.pxLqL.cn
http://AQbv53kK.pxLqL.cn
http://uiMXKs1F.pxLqL.cn
http://DlicvEub.pxLqL.cn
http://59VJEGMS.pxLqL.cn
http://P7X23R0p.pxLqL.cn
http://www.dtcms.com/a/382872.html

相关文章:

  • 《sklearn机器学习——数据预处理》生成多项式特征
  • XLua教程之入门篇
  • java学习笔记----标识符与变量
  • C7.1:谐振和调谐的含义
  • 代码随想录学习(一)——数组理论基础
  • Windows 平台上基于 MCP 构建“文心一言+彩云天气”服务实战
  • leetcode38(二叉树的最大深度)
  • PyTorch实战(7)——循环神经网络
  • 【LeetCode hot100|Week2】滑动窗口,子串
  • Web与Nginx网站服务(改)
  • Qt Designer与事件处理
  • 347. 前 K 个高频元素
  • Qt之快捷键、事件处理、自定义按键——完成记事本项目
  • 【微服务】SpringBoot 整合Kafka 项目实战操作详解
  • spring-kafka消费异常处理
  • 长城杯2025
  • Android BLE 蓝牙扫描完全指南:使用 RxAndroidBle框架
  • CKS-CN 考试知识点分享(3)---Dockerfile 安全最佳实践
  • 新一代控制理论框架:人机环境系统控制论
  • easyPoi实现动表头Excel的导入和导出
  • 【Zephyr电源与功耗专题】13_PMU电源驱动介绍
  • Coze源码分析-资源库-创建知识库-后端源码-应用/领域/数据访问
  • React Server Components (RSC) 与 App Router 简介:Next.js 的未来范式
  • 状态机SMACH相关教程介绍与应用案例分析——机器人操作进阶系列之一
  • Grafana与Prometheus实战
  • godot+c#操作godot-sqlite并加解密
  • Scikit-learn 机器学习:构建、训练与评估预测模型
  • React学习教程,从入门到精通,React 组件核心语法知识点详解(类组件体系)(19)
  • Java分布式编程:RMI机制
  • 5-12 WPS JS宏 Range数组规范性测试