如何处理具有不同标签或类的重复文本数据？

问题描述

我正在做一个多类文本分类。但是，我有数据在数据集中重复。但是，这些不是重复的，因为它们属于不同的类。数据有效，这两个类彼此接近，重复的文本训练数据不是同一类，而是具有相同共享 URL 的 diff 类。我能做些什么，以便我的文本分类器有效地以更高的概率预测未来的输入，而不与其他对应物共享概率？还有没有其他技巧注意：只有 10% 的训练数据与 diff 类重复。

解决方法

您要解决的问题不是多类分类，而是multi label classification。有多种方法可以解决多标签分类问题。起点可以在这里：https://scikit-learn.org/stable/modules/multiclass.html

data-science machine-learning nlp text-classification