使用 tfidf 作为功能

我想使用 n-gram 对两组文档进行分类。一种方法是使用tfidf提取每个文档的重要词，然后制作一个如下所示的csv文件：

document,ngram1,ngram2,ngram3,...,label
1,0.0,0
2,1
...

但是由于文档数量的原因，文件会很大而且很稀疏。另一种方法是合并每组中的所有文档并提取 ngram。之后，我可以计算每个文档中每个 ngram 的出现次数，但我不确定这是最好的方法。请提供您建议的解决方案。

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）