使用Prometheus监视Spark 3应用程序

问题描述

围绕使用度量的拉动机制以及如何使用Prometheus监视Spark 3应用程序存在一些非常基本的问题:

  1. Spark-3支持的PrometheusServlet接收器是否包含自应用程序启动以来的所有指标?这些指标是否未汇总?
  2. 接收器中的度量信息存储在何处/如何存储,当Prometheus刮擦终点时会发生什么?如果端点显示自应用程序启动以来的所有度量标准信息,那么对于长时间运行的spark应用程序来说,用于存储这些度量标准的内存不是问题吗?
  3. Prometheus是否在每次重新抓取时都获取所有指标(自应用程序启动以来)?如果不是,它怎么知道最后一次取消的指标?

谢谢。

解决方法

您可以进行设置并亲自查看..:)

无论如何,每个度量标准的行为方式取决于度量标准(天气是https://spark.apache.org/docs/latest/monitoring.html中所述的累积度量或快照(每个度量标准都有说明其类型的标签)

指标的

过去值不会存储,并且由Prometheus定期获取(这是基于拉取的结果)。 Servlet只是以一种兼容Prometheus的方式格式化指标