如何解释列矩阵以找到不平衡数据集的最佳模型?

问题描述

我正在尝试进行二元分类,但我的数据集以 1:7 的比例不平衡。我有 1000 个“1”标签和 6990 个“0”标签

预测“1”标签比“0”更重要,但它也应该尽可能正确地检测“0”标签

我使用了采样技术并使用了不同的模型,如 XGBClassifier、LightGBM、SVM、KNN,我得到了不同的混淆矩阵。在其中一些中,检测“1”标签非常好,但检测“O”不是很好。其他的,“1”和“O”检测都是平均值。

我知道准确率不是评估不平衡数据集的好指标,所以我使用了召回率、f2 分数和 AUC 分数。但是,我仍然不知道哪种模型最好。

根据这些结果,哪个模型最好?

enter image description here

解决方法

一种方法是验证您的模型是否使用不同的 k 折。将您的数据分成 4 或 5 组训练-测试对。获取不同测试的结果并取平均值。这应该能让您更好地了解不同模型的性能。