一、背景
paxos存在(1)负载不均衡,如:leader节点的计算(cpu、内存等计算资源)和网络(acceptor间除了转发请求几乎无交流,但leader和acceptor间交流密切,带宽消耗大)的负载大于其它节点;(2)地域分布式系统网络异构导致高延迟(区域内交互开销小,区域间交互开销大,如果leader和client不在一个区域内的话更加凸显该问题)等问题。
针对上述问题,Mencius通过副本轮转做某个实例的leader的模式来将负载分摊,并降低消息的复杂性及轮次,以在client高负载的情况下提高吞吐量,在client低负载的情况下降低延迟。
二、算法实现
首先,Mencius存在以下假设:
- 副本故障后会恢复;
- 不可靠的故障检测(一个副本可能被错误地怀疑崩溃);
- 异步FIFO的通信信道(消息最终会有序地送达,如tcp)。
Mencius的核心是让每个副本按照某种特定的策略轮流成为不同实例的leader(在Mencius中被称为Coordinator),并且每个副本都知道该策略,也就是每个副本都知道某一个实例是属于谁的,若实例a
被分配给副本n
,那么称副本n
是实例a
的Coordinator
(协调者)。假设有三个副本,我们可以设置策略为副本0
被分配下标为3n
的实例,副本1
被分配下标为3n+1
的实例,副本2
被分配下标为3n+2
的实例,这样便可以得知每个副本所拥有的实例:
- replica
0
:0 3 6 9 .etc
- replica
1
:1 4 7 10 .etc
- replica
2
:2 5 8 11 .etc
当然,我们也可以根据副本的计算性能、网络拓补结构、副本在网络中的位置、业务的地域分布等因素设计更加合理的策略,使条件更好的副本可以被分配更多的实例
上图是Mencius的消息类型以及在不同情况下的交互模式。
- 如果一切正常,每个副本会在其协调(被分配)的实例进行如上图
instance 0
对应的流程。可以简单地将sugg
看作accept
消息,acc
看作accepted
消息(或accept-ACK
),learn
看作commit
消息,与multi-paxos的leader的提议流程一致; - 如果某一副本在其协调(被分配)的实例上的提议进度落后于其它副本,则会通知其它副本跳过该实例来降低提交的延迟,如上图
instance 1
,P1
向其它副本广播skip
消息,使所有副本在1号实例上提交no-op
来跳过该实例; - 如果副本
P0
怀疑副本P2
故障,P0
会代替P2
撤销(revoke
)一部分P2
协调的实例(撤销P2
的提议权),如上图instance 2
。P0
首先对该实例进行Prepare
阶段,尝试恢复P2
提议的已达成共识的提案,若该实例没有达成共识,则会提议no-op
,流程与一轮完整的paxos一致。
需要注意的是:
- 在某一实例上提交
no-op
命令就意味着跳过该实例,因为执行no-op
命令不会导致状态的变化;- 一个实例除了能接受其对应Coordinator提议的命令外,还可以接受其它副本的提议的
no-op
命令,用于故障处理中其它副本对该副本进行revoke
;revoke
通常会预先为多个被怀疑故障的副本未来的实例提交no-op
命令,可以在该副本故障恢复前的有限时间内保证该故障不会影响到命令的提交;- 上图中的流程带有误导性,实际上实例的推进并不一定按照顺序来,如果副本
P0
比较活跃,而副本P1
与P2
一直没有收到客户端发来的请求的话,可能实例0、3、6已经都被提交,但实例1、2、4、5一直是空着的,这就会导致实例3、6无法正常apply。
总结来说:
suggest
过程:由协调者对其协调的实例发起,类似multi-paxos中leader的两阶段提交skip
过程:由协调者对其协调的实例发起,通过对该实例提交no-op
命令实现跳过该实例的作用,可以减少掉队者对整个共识进度的影响revoke
过程:由怀疑其它副本故障的副本对被怀疑故障的副本发起,是完整的一轮paxos过程,如果prepare
阶段没有学习到有效的值,将提议no-op
以跳过该实例
skip
是协调者跳过自己协调的实例,revoke
是其它副本帮助跳过被怀疑故障的副本协调的实例,根本目的都是为了防止某副本协调的实例进度慢而阻塞apply
每个副本P
都会维护一个变量Ip,记录该副本下个协调的实例的索引,由于所有副本都知道实例分配策略,即知道每个实例的分配情况,因此每当一个副本针对Ip对应的实例发送sugg
请求后就会更新Ip为该副本下一个协调实例的索引。
然而,如果一个副本在提议的进展中远远落后于其它副本,则会导致其他副本无法正常apply后续的命令,会使整个系统按照最慢的副本的进展执行,即容易受到掉队者影响。
这里给出一个极端的例子,假设副本
P0
进展很慢,只推进到10号实例(10号实例还没有提交),但P2
已经推进到10000号实例了,这就会导致(10, 10000]之间的实例无法正常应用,此时P0
就是掉队者,整个系统的进度取决于P0
的进度
为了降低掉队者对整个系统的影响,Mencius引入了skip
消息用于进展落后的副本跳过自己协调的部分实例。当一个副本p
接收到对于实例i
的SUGGEST
消息时(假设i
>Ip),在响应之前,p
会将Ip更新为p
协调的实例中大于i
的实例里最小的那个,称为I’p 。之后,p
会对[Ip, I’p)内自己协调的实例执行skip
操作,但即使将多个skip
消息合成一个消息发送,也需要一次广播。因此,Mencius不再采用分离的skip
过程,而是将skip
语义融合在SUGGEST
消息和ACCEPT
消息中,当副本p
收到q
包含实例序号i
的ACCEPT
消息后,隐含了q
之后不会在小于i
的实例中提议的语义;同理,当副本p
接收到序号大于Ip的SUGGEST
请求后,也不会单独广播skip
请求跳过[Ip, I’p)内自己协调的实例,而是等到其下次提议时,将skip
语义附加在SUGGEST
消息中,隐含了p
之后不会在小于I’p的实例中提议的语义。
假设存在4个副本
R0
、R1
、R2
、R3
,R0
向R1
发送了针对i
实例的SUGGEST
请求(i
大于IR1)。在采取分离skip
的模式下,当R1
接收到该提议请求后,会广播skip
消息,此时R0
、R2
、R3
就会知道R1
不会在小于i
的实例中提议;而在优化后的模式下,当R1
接收到该提议请求后,不会广播skip
消息,会先通过ACCEPT
信息告诉R0
之后R1
不会在小于i
的实例中提议,然后等到下次R1
提议时,再通过SUGGEST
消息告诉R2
、R3
之后R1
不会在小于i
的实例中提议,在降低消息复杂度的同时,却延迟了skip
语义的传递
需要注意,异步FIFO的通信信道是算法实现的前提
由于优化后的模式延迟了skip
语义的传递,会导致skip
的可见性问题。假设有三个副本R0
、R1
、R2
,R0
一直活跃,而R1
和R2
一直空闲。此时R0
通过ACCEPT
信息可以得知R1
和R2
的skip
情况,因此可以正常apply;然而,R1
只能通过R2
的SUGGEST
消息获取R2
跳过了哪些实例,但R2
空闲,一直不发SUGGEST
消息,因此在R1
看来,R2
协调的实例一直是空的,所以R1
的apply会被阻塞,也会导致R1
和R0
之间状态机的不一致,R2
同理。
为此,Mencius引入了阈值α
与τ
,如果副本R1
向R2
未发送的skip
信息积累超过α
,或已经有τ
的时间没有对R2
发送SUGGEST
进行同步,R1
就单独对R2
发送skip
信息进行同步。这样,便可以在有限的时间内使无相互交流的副本同步skip
信息。
至此,副本便拥有一个较为合理的机制在自己掉队时跳过一部分自己协调的实例以追平进度。然而,如果一个副本出现了故障,那么它在有限的时间内一定会成为掉队者,但其并不能主动skip
自己协调的实例,因此Mencius引入了revoke
机制,即当一个副本R0
怀疑副本R1
出现故障时,会替R1
跳过落后的实例。
当副本p
怀疑副本q
故障时,p
会对[Cq, Ip]区间内q
协调的实例执行revoke
流程(Cq是q
协调的最小没有被p
所learn的实例的索引)。这样,p
便可帮q
跳过一部分落后的实例以保证流程不会被阻塞。然而,该机制只着重于当下,可能会导致revoke
的频繁执行,因为我们并不清楚q
什么时候能恢复,经过一次revoke
只能保证当前的p
能顺利apply实例,下一次p
提议后apply可能又被阻塞,需要等下一次的revoke
流程。因此Mencius会在执行revoke
流程的时候提前revoke
一部分实例(顺便revoke
一部分Ip后q
协调的实例),以保证在未来有限的时间内可以做到无延迟提交。当副本p
怀疑副本q
故障时,这里设定常数β
,当Cq < Ip + β
时,p
会对[Cq, Ip + 2β
]区间内q
协调的实例执行revoke
流程,这样可以保证p
至少帮q
提前revoke
了β
个实例,即保证在未来一段时间内q
不会因为掉队而阻塞其它副本的apply流程。
然而,也存在p
错误地怀疑q
故障的情况,也就是q
实际上没故障。如果副本p
在i
实例上提议一个不为no-op
的值v
,但p
发现在i
实例上no-op
命令已经被选中了(也就是有其它副本revoke
了该实例),p
将重复提议直到v
被提交。因此,只要q
不被永久地错误怀疑故障,v
最终都会提交。
三、算法时延
在一切正常的情况下,Mencius可以在一次消息交互中提交请求(SUGGEST
请求与ACCEPT
响应),但在高争用的情况下则会提高到两次消息交互,如下图:
在上图中,P0
与P1
并发提议,其中P0
向0
号实例提议x
,P1
向1
号实例提议y
,这里我们假设通讯的耗时一致,不然单论信息交互的次数意义不大。此时,我们可以左右平移P1
的三次通讯(整体平移),这里需要注意两个极值点:
- 若
P1
通讯整体向右平移,直至P1
学习y
的点(即P1
接收到P0
发来的ACCEPT
消息的点)超过P1
学习x
的点(即P1
接收到P0
发来的LEARN
消息的点),此时直接是顺序学习的情况,x
并没有阻塞y
的提交,高争用没有对此造成影响; - 若
P1
通讯整体向左平移,直至P0
接收到P1
发来的SUGGEST
消息的点早于P0
发送SUGGEST
消息的点,此时P0
就不能成功在0
号实例提议x
。根据Mencius,当P0
接收到P1
发来的针对1
号实例SUGGEST
消息后,IP0会跳过0
号实例,指向大于1
的P0
协调的最小的实例序号,即skip
了0
号实例。
因此,在高争用环境下存在延迟提交的平移范围如上图所示,即以x
为基准点的P1
通讯流程可以以整体在点b
与c
之间平移。点x
在点c
前时才存在延时提交,因为此时P1
需要等待学习x
值之后才可以提交y
值,因此延迟后P1
的时延为点a
到点c
之间的距离,很明显,当x
点取左极值的时候P1
的整体时延最大,为2轮信息交互。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/102625.html