问题描述
如何为Azure机器学习(AML)工作区计算“ Gpuutilization”指标?输入什么,用于计算Gpuutilization的方程式是什么?
AML网络门户中的“度量”选项卡显示指定时间段内Gpuutilization的图表,以及该时间段内的平均Gpuutilization。但是,我发现平均Gpuutilization似乎无法准确反映图表中我组织的某些AML工作区的数据。
例如,以下屏幕截图显示了7月1日至31日的Gpuutilization,报告的平均Gpuutilization为54.06。这显然比图表中显示的要高得多。当我从图表中下载数据(共享->下载到Excel)时,我计算出Excel中的平均Gpuutilization为〜11%。为什么会有这样的差异?
我也发现了其他AML工作区的相似差异。但是,8月1日至25日的平均Gpuutilization似乎比7月1日至31日的平均准确。我希望更好地了解AML如何计算一段时间内的平均Gpuutilization,以便我们可以在每个工作区的基础上准确说明我组织的AML GPU使用情况。
解决方法
54.06可能是分配GPU VM时的平均时间。如果将虚拟机释放,Azure监视器将不会获取任何数据。这些缺失值在图表上被插入为零。
要更好地估计利用率,可以检查VM何时停止,并从平均值中排除该时间间隔。