自定义插入符号包装指标,可在给定召回率时优化精度

问题描述

是否可以创建自定义的插入符号包度量标准,以在给定的召回率下优化二进制分类的精度?

一些背景: 我正在处理的建模问题(预测住院人数)高度失衡,因为在预测范围内,与未入院者(2%)相比,未入院者(98%)要多得多。因此,我一直在训练集中使用交叉验证对模型中的超参数进行调整,以优化精确召回曲线(AUCPR)下的面积而不是如Saito&Rehmsmeier(2015)The Precision中所建议的ROC下的面积(AUCROC)。评估不平衡数据集上的二进制分类器时,回想图比ROC图更具信息性

然而,在评估测试集的性能时,与度量AUCPR相比,对于最终用户而言,在给定的召回率(%)下估算精度(%)更能说明问题。例如。在30%的召回率下评估准确度(%),可以使最终用户了解他们期望以何种方式对预防录取产生多少预期阳性(和真实阳性)。这些模型的召回率> 30-40%且精度足够高(误报太多),但20-30%的召回率仍然有用。

这意味着分类模型具有很高的所谓早期检索 性能是最有趣的。那就是在高级预测中表现良好的模型(Saito&Rehmsmeier,2015)。如果将超参数调整评估为在30%的召回率下具有最高精度的超参数组合,则可以更好地找到这些模型。

调整到最高AUCPR可能会导致我发现具有较高的后期检索性能(在低排名的预测中表现良好)的模型,在这种情况下,这并不有趣。

我知道可以通过某种方式来解决此问题,但是在我看来,在给定的召回率下优化精度在这种情况下会更好。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)