使用朴素贝叶斯模型获得良好结果所需的最少特征数量是多少?

问题描述

我一直在读到朴素贝叶斯比许多其他机器学习算法需要更少的特征。但是,使用朴素贝叶斯模型获得良好结果(90% 准确率)所需的最少特征数量是多少?我知道对此没有客观的答案——这取决于你的确切特征以及你特别想学习的内容——但我正在寻找一个数字的大致答案。

我之所以这么问是因为我有一个包含大约 280 个特征的数据集,我想了解这是否太少,无法与朴素贝叶斯一起使用。 (我尝试在我的数据集上运行朴素贝叶斯,虽然我得到了 86% 的准确度,但我不能相信这个数字,因为我的数据不平衡,我相信这可能是造成高准确度的原因。我目前正在尝试解决这个问题。)

如果相关:我正在处理的确切问题是为维基百科文章生成时间标签。维基百科文章的信息框很多时候都包含日期。然而,这个日期多次出现在文章的文本中,但在信息框中却没有。我想使用朴素贝叶斯从我们在文章文本中找到的所有日期中确定应该放在信息框中的日期。每次我找到一个带有日期的句子时,我都会把它变成一个特征向量——列出我在哪个段落中找到它,这个特定日期在文章中出现了多少次等等。我把自己限制在一个小的范围内维基百科文章的子集——只是苹果文章——因此,我只有 280 个左右的功能。知道这是否是足够的数据吗?

谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)