使用TF-IDF进行假新闻文本分类NELA 2018,分别训练标题和内容有意义吗?

问题描述

NELA 2018 dataset合作,该文章有7e6篇文章,并对来自独立评估者的来源/发布者的真实性进行了一些评估。我将NewsGuard的总分(临界值60)用作结果变量,并希望对文章进行分类

目前,我正在为文章内容添加TF-IDF(目前为10000篇文章,平均长度为480个单词),但我想知道是否应该为文章添加单独的TF-IDF标题(平均长度为10个字),然后在模型(NB / SVM)中将两者结合起来。认为文章标题中会嵌入一些重要信息。

这有意义吗?在实践中如何运作?谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)