使用Tensorflow数据集和Keras Tuner处理高度不平衡的数据集

问题描述

我的文本文档数据集高度不平衡（3％是，87％否），其中包含标题和摘要特征。我已将这些文档转换为带有填充批次的tf.data.Dataset实体。现在，我正在尝试使用深度学习训练此数据集。使用TensorFlow中的model.fit()，您可以使用class_weights参数来处理类不平衡，但是，我正在使用keras-tuner库来寻找最佳参数。在其超参数调谐器中，它们没有这种选择。因此，我正在寻求其他解决班级失衡的选择。

是否可以选择在keras-tuner中使用类权重？要添加，我已经在使用precision@recall指标。我也可以尝试一种数据重采样方法，例如imblearn.over_sampling.SMOTE，但是正如this Kaggle帖子中提到的那样：

SMOTE似乎无助于改善结果。但是，它使网络学习更快。而且，还有一个大问题，这种方法不能兼容更大的数据集。您必须对嵌入的句子应用SMOTE，这会占用过多的内存。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

imbalanced-data keras keras-tuner python tensorflow