隔离林的LIME ML解释器模式分类或回归异常检测

问题描述

我正试图在我的1000多个文档的数据集中找到异常。我正在使用LIME ML Interpreter来解释模型(隔离林)的预测。在一个参数“模式”下,我可以在分类和回归之间进行选择。我没有一组已知异常的文档。 由于隔离森林是一种无监督的学习方法,而分类是一种有监督的学习,用于将观察分为两个或多个类别,最终我使用了回归。另一方面,我的结果异常或没有异常。

在这里使用什么权利?

最好的问候, 埃勒

解决方法

对于我们来说,我们所做的如下:

  1. 使用隔离林获取异常。
  2. 隔离林返回的处理1和-1作为类标签,并建立一个随机森林分类器。
  3. 将此随机森林分类器传递给LIME以获得异常点的解释。

我们还试图找到一个更好的选择,而不是构建第二级随机森林分类器。

,

与LIME无关,但是可以使用Shapley值为IsolationForest创建类似的解释。参见this answer

,

我看到的另一个选择是在IsoForest树构建期间保留10-20%的数据集。在此保持上对模型进行评分并获得异常评分(或平均树深度),并以此构建解释器。然后,在对新数据进行评分时,LIME会将其视为回归问题...但是我不确定这样做的效果如何...