是否可以在隔离林中动态调整污染参数?

问题描述

我使用“隔离林”建立了一个异常检测模型,认设置为污染参数(0.1)。它在我当前的数据集上效果很好,但是现在我拥有结构相同但行数不同的不同文件,并且一旦运行模型,如果不通过手动调整污染参数直到适合它就无法获得准确的结果

我想在获得新文件后立即自动运行模型,但是每个文件中数据中异常值的百分比都不同,而且由于总是需要更改污染参数,因此无法获得良好的结果。有没有一种方法可以在每次有新文件到达时计算新参数,或者该模型不适合我的用例?

解决方法

contamination参数是一个超参数。可以使用hyperparameter optimization进行调整。带有小模型/数据集的scikit学习中的典型方法是使用gridsearch,请参见user guide。假定您具有评估模型性能的可靠定量方法。