来自同一池的集群的 Databricks 成本监控

问题描述

我们有一个包含空闲实例的池,我们希望对其进行一些成本监控。池上有空闲实例在运行,因此我们希望将不同团队内部使用的集群链接到同一个池,因为空闲实例无论如何都在运行。

但是,集群标签不会传播到云实例(VM,https://docs.microsoft.com/en-us/azure/databricks/administration-guide/account-settings/usage-detail-tags-azure),因此我们无法监控单独集群的成本。因此,我们无法将完整的 databricks 成本传播给我们组织中使用 databricks 工作区的内部团队。

我们应该如何设置数据块,以便能够将成本传播给正确的内部团队。请注意,我们不想使用单独的池,因为这会导致每个池中都有空闲实例,从而增加 VM 使用成本。

解决方法

是的,目前无法使用内置工具开箱即用。

但 Databricks Labs 最近发布了一个名为 Overwatch 的新项目,该项目允许从多个数据源(诊断日志、事件 API、集群日志等)收集信息,对其进行处理并使其可供使用 - 大致成本分析、性能优化等。这个工具的一大优势是可以获得非常细化的细节,细化到单个 Spark 作业/阶段/任务。例如,您可以计算每个用户、笔记本、集群或作业的大致成本,...

附言请注意,Databricks Labs 项目不是官方产品的一部分,因此在出现问题时没有 SLA,但有一个团队正在研究该工具,试图尽快修复。