如何解释卡夫卡经纪人报告的延迟指标

问题描述

我正在查看kafka经纪人报告的各种延迟指标，以将它们包括在grafana仪表板上，但是我很难理解所报告的指标。我已经通过JMX导出器将指标导出到了Prometheus。例如，让我们采用“产生请求的总时间”指标。（kafka.network:type=RequestMetrics,name=TotalTimeMs,request=Produce）

当我用以下方法查询普罗米修斯时 "kafka_network_requestmetrics_totaltimems_count{request="Produce"}"

，我得到一些大数字。例如56459366。大数字是什么意思？

当我用"kafka_network_requestmetrics_totaltimems{request="Produce"}"查询普罗米修斯时，我得到6行。例如正在关注

kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",job="kubernetes-pods",pod="kafka-0",quantile="0.50",request="Produce"}    2
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",quantile="0.75",quantile="0.95",request="Produce"}    3
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",quantile="0.98",request="Produce"}    12.42
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",quantile="0.99",request="Produce"}    21
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",quantile="0.999",request="Produce"} 54

这些不同的分位数度量是什么意思，我又如何从中计算出平均值？

经纪人多久更新一次这些指标？

解决方法

该计数只是自代理上升以来所衡量的“生产”请求的数量。经纪人收到的每一份农产品请求，都会计算处理时间。因此，它是一个单调递增的计数器。

不同的6行是百分位。在您的情况下，这意味着对于产品请求的50％（中位数），处理它们的时间最多需要2毫秒。对于75％的请求也是如此。但是，对于您的99％的请求，处理时间最多需要21毫秒。因此，您可以推断出对于中间的24％请求，处理时间在2毫秒至21毫秒之间。您不能也不应该计算平均值，因为它很容易引起误解，尤其是在测量SLA时（如著名的笑话所言-如果统计学家的头在炉子里，而腿在冰柜里，那么他平均感觉精细...）您可以找到许多说明差异的信息，例如：https://www.dynatrace.com/news/blog/why-averages-suck-and-percentiles-are-great/

关于这些指标的更新频率-随着请求的到来它们会不断更新。直方图正在使用存储库，以便为最近的样本提供更多的权重（毫无意义地将一周前发生的样本考虑在内）在当前请求时间百分比）。有不同类型的水库，我不知道在这里使用哪种水库，但是为了理解这一概念，您可以阅读这篇文章https://medium.com/expedia-group-tech/your-latency-metrics-could-be-misleading-you-how-hdrhistogram-can-help-9d545b598374

apache-kafka jmx