问题描述
与NELA 2018 dataset合作,该文章有7e6篇文章,并对来自独立评估者的来源/发布者的真实性进行了一些评估。我将NewsGuard的总分(临界值60)用作结果变量,并希望对文章进行分类。
目前,我正在为文章内容添加TF-IDF(目前为10000篇文章,平均长度为480个单词),但我想知道是否应该为文章添加单独的TF-IDF标题(平均长度为10个字),然后在模型(NB / SVM)中将两者结合起来。认为文章标题中会嵌入一些重要信息。
这有意义吗?在实践中如何运作?谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)