如何指定对训练数据的信心?

问题描述

我正在使用分类变量对数据进行分类。是人们提供信息的数据。

我的训练数据集质量不一。我对某些数据有更大的信心,即我对人们提供了正确的信息有较高的信心,而在某些数据中,我不太确定。

如何将这些信息传递给分类算法,例如朴素贝叶斯(Naive Bayes)或K最近邻居? 还是应该改用其他算法?

解决方法

我认为您想要做的是为您拥有的每个数据点提供单独的权重(重要性/信心)。

例如,如果您确定一个数据点的质量较高且权重较高,而对其他数据点信心不足,则可以在适合分类器时指定该数据点。

Sklearn为此提供了例如高斯朴素贝叶斯分类器(GaussianNB)。 在这里,您可以在调用fit()方法时指定sample_weights