如何处理具有不同标签或类的重复文本数据?

问题描述

我正在做一个多类文本分类。但是,我有数据在数据集中重复。但是,这些不是重复的,因为它们属于不同的类。数据有效,这两个类彼此接近,重复的文本训练数据不是同一类,而是具有相同共享 URL 的 diff 类。我能做些什么,以便我的文本分类器有效地以更高的概率预测未来的输入,而不与其他对应物共享概率?还有没有其他技巧 注意:只有 10% 的训练数据与 diff 类重复。

解决方法

您要解决的问题不是多类分类,而是multi label classification。有多种方法可以解决多标签分类问题。起点可以在这里:https://scikit-learn.org/stable/modules/multiclass.html