使用Tensorflow数据集和Keras Tuner处理高度不平衡的数据集

问题描述

我的文本文档数据集高度不平衡(3%是,87%否),其中包含标题和摘要特征。我已将这些文档转换为带有填充批次的tf.data.Dataset实体。现在,我正在尝试使用深度学习训练此数据集。使用TensorFlow中的model.fit(),您可以使用class_weights参数来处理类不平衡,但是,我正在使用keras-tuner库来寻找最佳参数。在其超参数调谐器中,它们没有这种选择。因此,我正在寻求其他解决班级失衡的选择。

是否可以选择在keras-tuner中使用类权重?要添加,我已经在使用precision@recall指标。我也可以尝试一种数据重采样方法,例如imblearn.over_sampling.SMOTE,但是正如this Kaggle帖子中提到的那样:

SMOTE似乎无助于改善结果。但是,它使网络学习更快。而且,还有一个大问题,这种方法不能兼容更大的数据集。您必须对嵌入的句子应用SMOTE,这会占用过多的内存。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)