问题描述
我的训练数据集质量不一。我对某些数据有更大的信心,即我对人们提供了正确的信息有较高的信心,而在某些数据中,我不太确定。
如何将这些信息传递给分类算法,例如朴素贝叶斯(Naive Bayes)或K最近邻居? 还是应该改用其他算法?
解决方法
我认为您想要做的是为您拥有的每个数据点提供单独的权重(重要性/信心)。
例如,如果您确定一个数据点的质量较高且权重较高,而对其他数据点信心不足,则可以在适合分类器时指定该数据点。
Sklearn为此提供了例如高斯朴素贝叶斯分类器(GaussianNB)。
在这里,您可以在调用fit()
方法时指定sample_weights
。