问题描述
我有不平衡的数据集 - 不过还不错(850 - 1 级和 450 - 2 级)。然后,我将其拆分(80% 用于训练,20% 用于验证)。我在验证中使用了 SMOTE 技术,因此两个类均等分布 (50%-50%)。
我的理解是我不应该在不平衡的验证集 (20%) 上应用 SMOTE,因为这会在解释矩阵时导致问题(例如准确性),所以我需要保留 20% 的偏差(不平衡)-这是我不确定。
我是否应该继续将我的验证训练集也修改为 50% 到 50%(简单地随机删除大多数样本)
“如果您对训练数据进行过采样以更改训练集中的相对类别频率,则您隐含地告诉分类器期望验证集具有相同的类别频率”。这是它从一个较旧的线程中说的
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)