使用 tfidf 作为功能

问题描述

我想使用 n-gram 对两组文档进行分类。一种方法是使用tfidf提取每个文档的重要词,然后制作一个如下所示的csv文件:

document,ngram1,ngram2,ngram3,...,label
1,0.0,0
2,1
...

但是由于文档数量的原因,文件会很大而且很稀疏。另一种方法是合并每组中的所有文档并提取 ngram。之后,我可以计算每个文档中每个 ngram 的出现次数,但我不确定这是最好的方法。请提供您建议的解决方案。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)