隔离林的LIME ML解释器模式分类或回归异常检测

问题描述

我正试图在我的1000多个文档的数据集中找到异常。我正在使用LIME ML Interpreter来解释模型（隔离林）的预测。在一个参数“模式”下，我可以在分类和回归之间进行选择。我没有一组已知异常的文档。由于隔离森林是一种无监督的学习方法，而分类是一种有监督的学习，用于将观察分为两个或多个类别，最终我使用了回归。另一方面，我的结果异常或没有异常。

在这里使用什么权利？

最好的问候，埃勒

解决方法

对于我们来说，我们所做的如下：

使用隔离林获取异常。
隔离林返回的处理1和-1作为类标签，并建立一个随机森林分类器。
将此随机森林分类器传递给LIME以获得异常点的解释。

我们还试图找到一个更好的选择，而不是构建第二级随机森林分类器。

与LIME无关，但是可以使用Shapley值为IsolationForest创建类似的解释。参见this answer。

我看到的另一个选择是在IsoForest树构建期间保留10-20％的数据集。在此保持上对模型进行评分并获得异常评分（或平均树深度），并以此构建解释器。然后，在对新数据进行评分时，LIME会将其视为回归问题...但是我不确定这样做的效果如何...

anomaly-detection classification lime python regression