问题描述
假设我有一个数据集,其特征值是连续的,并且有两个以上可能的标签(例如:下雨、晴天、有风等),我应该在 sklearn 中实现哪种朴素贝叶斯模型?
我在考虑高斯或多项式。然而,多项式适用于离散特征,我尝试了高斯,但结果表明预测的准确性就像随机选择。
感谢您的帮助, 一哥
解决方法
朴素贝叶斯分类 (NBC) 处理离散值。 这意味着您必须离散化所有连续的特征。如需了解详情,请this could help
无论如何,多项式是正确的,因为您有多个标签。但您还应该记住,您必须对标签 (OneHotEncoder in sklearn) 进行单热编码。