共识算法-Mencius详解

共识算法-Mencius详解针对上述问题 Mencius 通过副本轮转做某个实例的 leader 的模式来将负载分摊 并降低消息的复杂性及轮次 以在 client 高负载的情况下提高吞吐量 在 client 低负载的情况下降低延迟

一、背景

paxos存在(1)负载不均衡,如:leader节点的计算(cpu、内存等计算资源)和网络(acceptor间除了转发请求几乎无交流,但leader和acceptor间交流密切,带宽消耗大)的负载大于其它节点;(2)地域分布式系统网络异构导致高延迟(区域内交互开销小,区域间交互开销大,如果leader和client不在一个区域内的话更加凸显该问题)等问题。

针对上述问题,Mencius通过副本轮转做某个实例的leader的模式来将负载分摊,并降低消息的复杂性及轮次,以在client高负载的情况下提高吞吐量,在client低负载的情况下降低延迟。

二、算法实现

首先,Mencius存在以下假设:

  1. 副本故障后会恢复;
  2. 不可靠的故障检测(一个副本可能被错误地怀疑崩溃);
  3. 异步FIFO的通信信道(消息最终会有序地送达,如tcp)。

Mencius的核心是让每个副本按照某种特定的策略轮流成为不同实例的leader(在Mencius中被称为Coordinator),并且每个副本都知道该策略,也就是每个副本都知道某一个实例是属于谁的,若实例a被分配给副本n,那么称副本n是实例aCoordinator(协调者)。假设有三个副本,我们可以设置策略为副本0被分配下标为3n的实例,副本1被分配下标为3n+1的实例,副本2被分配下标为3n+2的实例,这样便可以得知每个副本所拥有的实例:

  • replica 0 : 0 3 6 9 .etc
  • replica 1 : 1 4 7 10 .etc
  • replica 2 : 2 5 8 11 .etc

当然,我们也可以根据副本的计算性能、网络拓补结构、副本在网络中的位置、业务的地域分布等因素设计更加合理的策略,使条件更好的副本可以被分配更多的实例

在这里插入图片描述

上图是Mencius的消息类型以及在不同情况下的交互模式。

  • 如果一切正常,每个副本会在其协调(被分配)的实例进行如上图instance 0对应的流程。可以简单地将sugg看作accept消息,acc看作accepted消息(或accept-ACK),learn看作commit消息,与multi-paxos的leader的提议流程一致;
  • 如果某一副本在其协调(被分配)的实例上的提议进度落后于其它副本,则会通知其它副本跳过该实例来降低提交的延迟,如上图instance 1P1向其它副本广播skip消息,使所有副本在1号实例上提交no-op来跳过该实例;
  • 如果副本P0怀疑副本P2故障,P0会代替P2撤销(revoke一部分P2协调的实例(撤销P2的提议权),如上图instance 2P0首先对该实例进行Prepare阶段,尝试恢复P2提议的已达成共识的提案,若该实例没有达成共识,则会提议no-op,流程与一轮完整的paxos一致。

需要注意的是:

  • 在某一实例上提交no-op命令就意味着跳过该实例,因为执行no-op命令不会导致状态的变化;
  • 一个实例除了能接受其对应Coordinator提议的命令外,还可以接受其它副本的提议的 no-op命令,用于故障处理中其它副本对该副本进行revoke
  • revoke通常会预先为多个被怀疑故障的副本未来的实例提交no-op命令,可以在该副本故障恢复前的有限时间内保证该故障不会影响到命令的提交;
  • 上图中的流程带有误导性,实际上实例的推进并不一定按照顺序来,如果副本P0比较活跃,而副本P1P2一直没有收到客户端发来的请求的话,可能实例0、3、6已经都被提交,但实例1、2、4、5一直是空着的,这就会导致实例3、6无法正常apply。

总结来说:

  • suggest过程:由协调者对其协调的实例发起,类似multi-paxos中leader的两阶段提交
  • skip过程:由协调者对其协调的实例发起,通过对该实例提交no-op命令实现跳过该实例的作用,可以减少掉队者对整个共识进度的影响
  • revoke过程:由怀疑其它副本故障的副本对被怀疑故障的副本发起,是完整的一轮paxos过程,如果prepare阶段没有学习到有效的值,将提议no-op以跳过该实例

skip是协调者跳过自己协调的实例,revoke是其它副本帮助跳过被怀疑故障的副本协调的实例,根本目的都是为了防止某副本协调的实例进度慢而阻塞apply

每个副本P都会维护一个变量Ip,记录该副本下个协调的实例的索引,由于所有副本都知道实例分配策略,即知道每个实例的分配情况,因此每当一个副本针对Ip对应的实例发送sugg请求后就会更新Ip为该副本下一个协调实例的索引。

然而,如果一个副本在提议的进展中远远落后于其它副本,则会导致其他副本无法正常apply后续的命令,会使整个系统按照最慢的副本的进展执行,即容易受到掉队者影响。

这里给出一个极端的例子,假设副本P0进展很慢,只推进到10号实例(10号实例还没有提交),但P2已经推进到10000号实例了,这就会导致(10, 10000]之间的实例无法正常应用,此时P0就是掉队者,整个系统的进度取决于P0的进度

为了降低掉队者对整个系统的影响,Mencius引入了skip消息用于进展落后的副本跳过自己协调的部分实例。当一个副本p接收到对于实例iSUGGEST消息时(假设i>Ip),在响应之前,p会将Ip更新为p协调的实例中大于i的实例里最小的那个,称为I’p 。之后,p会对[Ip, I’p)内自己协调的实例执行skip操作,但即使将多个skip消息合成一个消息发送,也需要一次广播。因此,Mencius不再采用分离的skip过程,而是将skip语义融合在SUGGEST消息和ACCEPT消息中,当副本p收到q包含实例序号iACCEPT消息后,隐含了q之后不会在小于i的实例中提议的语义;同理,当副本p接收到序号大于IpSUGGEST请求后,也不会单独广播skip请求跳过[Ip, I’p)内自己协调的实例,而是等到其下次提议时,将skip语义附加在SUGGEST消息中,隐含了p之后不会在小于I’p的实例中提议的语义。

假设存在4个副本R0R1R2R3R0R1发送了针对i实例的SUGGEST请求(i大于IR1)。在采取分离skip的模式下,当R1接收到该提议请求后,会广播skip消息,此时R0R2R3就会知道R1不会在小于i的实例中提议;而在优化后的模式下,当R1接收到该提议请求后,不会广播skip消息,会先通过ACCEPT信息告诉R0之后R1不会在小于i的实例中提议,然后等到下次R1提议时,再通过SUGGEST消息告诉R2R3之后R1不会在小于i的实例中提议,在降低消息复杂度的同时,却延迟了skip语义的传递

需要注意,异步FIFO的通信信道是算法实现的前提

由于优化后的模式延迟了skip语义的传递,会导致skip的可见性问题。假设有三个副本R0R1R2R0一直活跃,而R1R2一直空闲。此时R0通过ACCEPT信息可以得知R1R2skip情况,因此可以正常apply;然而,R1只能通过R2SUGGEST消息获取R2跳过了哪些实例,但R2空闲,一直不发SUGGEST消息,因此在R1看来,R2协调的实例一直是空的,所以R1的apply会被阻塞,也会导致R1R0之间状态机的不一致,R2同理。

为此,Mencius引入了阈值ατ,如果副本R1R2未发送的skip信息积累超过α,或已经有τ的时间没有对R2发送SUGGEST进行同步,R1就单独对R2发送skip信息进行同步。这样,便可以在有限的时间内使无相互交流的副本同步skip信息。

至此,副本便拥有一个较为合理的机制在自己掉队时跳过一部分自己协调的实例以追平进度。然而,如果一个副本出现了故障,那么它在有限的时间内一定会成为掉队者,但其并不能主动skip自己协调的实例,因此Mencius引入了revoke机制,即当一个副本R0怀疑副本R1出现故障时,会替R1跳过落后的实例。

当副本p怀疑副本q故障时,p会对[Cq, Ip]区间内q协调的实例执行revoke流程(Cqq协调的最小没有被p所learn的实例的索引)。这样,p便可帮q跳过一部分落后的实例以保证流程不会被阻塞。然而,该机制只着重于当下,可能会导致revoke的频繁执行,因为我们并不清楚q什么时候能恢复,经过一次revoke只能保证当前的p能顺利apply实例,下一次p提议后apply可能又被阻塞,需要等下一次的revoke流程。因此Mencius会在执行revoke流程的时候提前revoke一部分实例(顺便revoke一部分Ipq协调的实例),以保证在未来有限的时间内可以做到无延迟提交。当副本p怀疑副本q故障时,这里设定常数β,当Cq < Ip + β时,p会对[Cq, Ip + ]区间内q协调的实例执行revoke流程,这样可以保证p至少帮q提前revokeβ个实例,即保证在未来一段时间内q不会因为掉队而阻塞其它副本的apply流程。

然而,也存在p错误地怀疑q故障的情况,也就是q实际上没故障。如果副本pi实例上提议一个不为no-op的值v,但p发现在i实例上no-op命令已经被选中了(也就是有其它副本revoke了该实例),p将重复提议直到v被提交。因此,只要q不被永久地错误怀疑故障,v最终都会提交。

三、算法时延

在一切正常的情况下,Mencius可以在一次消息交互中提交请求(SUGGEST请求与ACCEPT响应),但在高争用的情况下则会提高到两次消息交互,如下图:

在这里插入图片描述

在上图中,P0P1并发提议,其中P00号实例提议xP11号实例提议y,这里我们假设通讯的耗时一致,不然单论信息交互的次数意义不大。此时,我们可以左右平移P1的三次通讯(整体平移),这里需要注意两个极值点:

  • P1通讯整体向右平移,直至P1学习y的点(即P1接收到P0发来的ACCEPT消息的点)超过P1学习x的点(即P1接收到P0发来的LEARN消息的点),此时直接是顺序学习的情况,x并没有阻塞y的提交,高争用没有对此造成影响;
  • P1通讯整体向左平移,直至P0接收到P1发来的SUGGEST消息的点早于P0发送SUGGEST消息的点,此时P0就不能成功在0号实例提议x。根据Mencius,当P0接收到P1发来的针对1号实例SUGGEST消息后,IP0会跳过0号实例,指向大于1P0协调的最小的实例序号,即skip0号实例。

在这里插入图片描述

因此,在高争用环境下存在延迟提交的平移范围如上图所示,即以x为基准点的P1通讯流程可以以整体在点bc之间平移。点x在点c前时才存在延时提交,因为此时P1需要等待学习x值之后才可以提交y值,因此延迟后P1的时延为点a到点c之间的距离,很明显,当x点取左极值的时候P1的整体时延最大,为2轮信息交互。

今天的文章 共识算法-Mencius详解分享到此就结束了,感谢您的阅读。
编程小号
上一篇 2025-01-05 08:11
下一篇 2025-01-05 08:06

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/102625.html