是否可以仅对 13 个类中的一个类进行过采样?

问题描述

我想知道是否可以仅对一个小班执行 SMOTE 或类似技术。我有一个文本分类问题,其中所有小类都具有良好的准确性(区分它们的独特词),除了其中所有词与其他 13 个类重叠的一类,因此预测准确度非常低(31%) 我正在尝试增加仅此类的样本数量

解决方法

是的,您可以对单个类使用合成过采样。如果您只是想加强少数类的现有分布,SMOTE 可以提供帮助,或者如果您更担心决策面,那么使用 ADASYN 过采样和使用 Majority Tomek Link 删除进行欠采样之类的技术集合可能值得尝试。