如何有效地对多标签分类问题的记录进行分类?

问题描述

我有一个分类问题,大约有 11000 条文本记录,其中开始的 3000 条记录被分类标记)为 4 个不平衡的类别,如下所示: {类别 1:343,类别 2:1494,类别 3:1069,类别 4:177}

我对这 3000 条文本记录执行了如下任务:

  1. 对数据进行标记化、去除停用词和词形还原文本,并使用词袋模型从中提取 100 个重复率最高的词。
  2. 使用 spaCy 提取了一些可能有助于分析的其他特征。
  3. 对数据进行标准化,以便所有特征都在同一规模上。
  4. 将数据集拆分为训练集 (75%) 和测试集 (25%)。
  5. 使用了各种算法,例如逻辑回归、SVM、决策树、神经网络等,并比较了它们的分数(准确度、Kappa 分数、F1 分数、精确度、召回率)。在所有这些随机森林中,结果证明在这种特定类型的数据上是最好的。

接下来,我想使用这个先前训练的随机森林分类器对所有其他 8000 条记录进行分类

现在,我应该使用所有 3000 条记录重新训练分类器,然后预测新记录,还是应该使用仅在前 3000 条记录的 75% 上训练的模型直接预测记录?

注意:我还尝试使用 SMOTE 对不平衡的类进行采样。但是,在执行 SMOTE 之后,当我尝试预测新记录的结果时,该模型高度高估了记录,而偏向于实际较少的类,即(类别 1 和类别 4)。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)