问题描述
我的文本文档数据集高度不平衡(3%是,87%否),其中包含标题和摘要特征。我已将这些文档转换为带有填充批次的tf.data.Dataset
实体。现在,我正在尝试使用深度学习训练此数据集。使用TensorFlow中的model.fit()
,您可以使用class_weights
参数来处理类不平衡,但是,我正在使用keras-tuner
库来寻找最佳参数。在其超参数调谐器中,它们没有这种选择。因此,我正在寻求其他解决班级失衡的选择。
是否可以选择在keras-tuner
中使用类权重?要添加,我已经在使用precision@recall
指标。我也可以尝试一种数据重采样方法,例如imblearn.over_sampling.SMOTE
,但是正如this Kaggle帖子中提到的那样:
SMOTE似乎无助于改善结果。但是,它使网络学习更快。而且,还有一个大问题,这种方法不能兼容更大的数据集。您必须对嵌入的句子应用SMOTE,这会占用过多的内存。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)