如何解释卡夫卡经纪人报告的延迟指标

问题描述

我正在查看kafka经纪人报告的各种延迟指标,以将它们包括在grafana仪表板上,但是我很难理解所报告的指标。我已经通过JMX导出器将指标导出到了Prometheus。 例如,让我们采用“产生请求的总时间”指标。 (kafka.network:type=RequestMetrics,name=TotalTimeMs,request=Produce)

  1. 当我用以下方法查询普罗米修斯时 "kafka_network_requestmetrics_totaltimems_count{request="Produce"}"

,我得到一些大数字。例如56459366。 大数字是什么意思?

  1. 当我用"kafka_network_requestmetrics_totaltimems{request="Produce"}"查询普罗米修斯时,我得到6行。例如正在关注
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",job="kubernetes-pods",pod="kafka-0",quantile="0.50",request="Produce"}    2
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",quantile="0.75",quantile="0.95",request="Produce"}    3
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",quantile="0.98",request="Produce"}    12.42
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",quantile="0.99",request="Produce"}    21
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",quantile="0.999",request="Produce"} 54 

这些不同的分位数度量是什么意思,我又如何从中计算出平均值?

  1. 经纪人多久更新一次这些指标?

解决方法

该计数只是自代理上升以来所衡量的“生产”请求的数量。经纪人收到的每一份农产品请求,都会计算处理时间。因此,它是一个单调递增的计数器。

不同的6行是百分位。在您的情况下,这意味着对于产品请求的50%(中位数),处理它们的时间最多需要2毫秒。对于75%的请求也是如此。但是,对于您的99%的请求,处理时间最多需要21毫秒。因此,您可以推断出对于中间的24%请求,处理时间在2毫秒至21毫秒之间。 您不能也不应该计算平均值,因为它很容易引起误解,尤其是在测量SLA时(如著名的笑话所言-如果统计学家的头在炉子里,而腿在冰柜里,那么他平均感觉精细...) 您可以找到许多说明差异的信息,例如:https://www.dynatrace.com/news/blog/why-averages-suck-and-percentiles-are-great/

关于这些指标的更新频率-随着请求的到来它们会不断更新。直方图正在使用存储库,以便为最近的样本提供更多的权重(毫无意义地将一周前发生的样本考虑在内)在当前请求时间百分比)。有不同类型的水库,我不知道在这里使用哪种水库,但是为了理解这一概念,您可以阅读这篇文章https://medium.com/expedia-group-tech/your-latency-metrics-could-be-misleading-you-how-hdrhistogram-can-help-9d545b598374