长连接上的 Grpc 错误:Ping 太多

问题描述

我正在构建一个具有微服务架构的系统,该架构使用 grpc 在服务之间进行通信。一开始我有一个长时间运行的请求,该请求到达一个中央端点,该端点向其他服务发出一堆请求。对中央服务的第一个请求依次等待,直到其他服务完成对它们的请求的计算,然后才能收到来自中央端点的响应。这可能需要几分钟才能完成。问题是我不断收到一个 grpc 错误提示“ping 太多”。我通过以下方式在我的 Go 服务器上设置了 keepalive 参数:

ka_params := keepalive.ServerParameters{
        Time: 10 * time.Second,Timeout: 5 * time.Second,}

opts := []grpc.ServerOption{
    grpc.KeepaliveParams(ka_params),}

s = grpc.NewServer(opts...)

在我的 python 服务器中是这样的:

opts = [("grpc.keepalive_time_ms",10000),("grpc.keepalive_timeout_ms",5000),("grpc.keepalive_permit_without_calls",True),("grpc.http2.max_pings_without_data",0)]
server = grpc.server(futures.ThreadPoolExecutor(max_workers=10),options=opts)

我不知道为什么我收到太多 ping 的错误。由于keepalive,ping不是预期的吗?

解决方法

我想我找到了解决方案。问题的关键在于 python 和 golang grpc 版本具有不同的默认设置,并且 python grpc 的文档很差。

要解决此问题,您必须将 python 服务器上的 max_ping_strikes 设置为 0。python 服务器应具有以下选项:

opts = [("grpc.keepalive_time_ms",10000),("grpc.keepalive_timeout_ms",5000),("grpc.keepalive_permit_without_calls",True),("grpc.http2.max_ping_strikes",0)] 
,

在python服务器端,要配置可接受的keepalive时间段,您需要将“grpc.http2.min_ping_interval_without_data_ms”设置为10秒(考虑到网络延迟,可能会高一点)。

此参数的默认设置为 5 分钟,如果客户端每 10 秒发送一次 ping,则会导致发送带有“too_many_pings”的 GOAWAY 帧。

(此外,服务器端的“grpc.keepalive_time_ms”会导致服务器每 10 秒发送一次 keepalive ping。这可能不是您想要的。)

参考: https://github.com/grpc/grpc/blob/master/doc/keepalive.md