像Raft这样的分布式存储系统如何在客户端会话期满后过滤请求重复

问题描述

我试图了解即使在客户端会话期满后,基于Raft构建的分布式存储系统也可以重复请求。

我已经阅读了Raft论文的第6.3章,其中讨论了LogCabin(基于Raft构建的分布式存储系统)如何通过维护客户端会话来过滤重复的客户端请求。它维护客户端会话以跟踪应用于领导者状态机的请求,并将针对clientID和SessionID的结果存储在缓存中。因此,当客户端在同一会话中发出相同的请求时,它将仅从缓存中返回响应。每当群集在一个小时内没有收到来自客户端的任何请求时,它将终止客户端会话。

可以说,客户端(Id = 1)向集群发出了一个请求,以将当前活动会话(sessionId = 123)中产品的库存数量增加到3:

{ ProductName = iPod,Count = INC(3) } 

领导者收到了客户请求,并将其复制到大多数跟随者中,将其应用于状态机并缓存了结果,因此,如果客户再次发出相同的请求,则它可以简单地返回缓存的结果作为a重复的请求。

由于某种原因,客户端没有收到集群的“成功”响应。

同一客户(Id = 1)处于非活动状态一个小时,因此领导者终止了该客户会话,并使该客户的缓存条目无效。

一个小时的不活动后,客户端再次回来,并发出相同的请求(重复)以再次处理它。在这种情况下,raft将为客户端创建一个新会话。

现在的问题是,当客户端加入新会话并尝试执行在上一个会话中发出的相同请求时,群集仍如何过滤重复的请求?

筏论文第6.3章将以下内容作为一种解决方案:

第二个问题是如何处理在会话结束后仍继续运行的客户端 过期了我们希望这是一个例外情况;但是总会有一些风险, 因为通常没有办法知道客户何时退出。 一种选择是在没有记录的任何时候为客户端分配一个新会话,但这可能会重复执行在客户端上一个会话过期之前执行的命令。提供更严格 为了保证,服务器需要将新客户端与会话已过期的客户端区分开。什么时候 客户端首先启动,它可以使用RegisterClient RPC向集群注册。这个 分配新客户的会话并返回客户的标识符,该标识符包括在其中 所有后续命令。如果状态机遇到没有会话记录的命令,则它 不处理命令,而是向客户端返回错误。 LogCabin当前崩溃 在这种情况下,客户端(大多数客户端可能不会正常处理会话过期错误 并且正确,但是系统通常必须已经处理了客户端崩溃的问题。

因此,按照上述方法,处理该问题的方法是检查客户端会话是否存在以及由于不活动而导致会话终止。

我发现很难理解如何解决客户在上届会议期满后在新会议中发出的重复请求的问题。还想知道在其他分布式系统中如何处理此类问题。

谢谢。

解决方法

您要指出的不是网络分区问题,并且如果客户端断开连接并提出另一个请求,则系统应该是幂等的。由于已经向集群提出了请求(遵循共识),因此系统的完整性仍然得以维持。客户有责任相应地处理对duplicate request的响应。

但是在网络分区的情况下,如果请求仍在进行中并且 client 节点已断开连接,则系统可以执行以下操作:

  • “头顶射击”技术可从群集中删除该节点。一种这样的技术可能是,从网络中删除该节点,以免造成任何危害。