我一直在阅读有关文本分类的文章,并发现了几种可用于分类的Java工具,但我仍然想知道:文本分类是否与句子分类相同!
有没有专注于句子分类的工具?
解决方法:
“文本分类”和“句子分类”之间没有正式的区别.毕竟,句子是一种文本.但一般来说,当人们谈论文本分类时,恕我直言,他们意味着更大的文本单位,如文章,评论或演讲.将政治家的演讲分为民主人士或共和党人比分类推文要容易得多.如果每个实例都有大量文本,则不需要为每个训练实例提供所有可以提供给您的信息,并且可以获得非常好的性能.
基本上,如果你在句子语料库中抛出现成的weka分类器,你可能无法获得所需的性能数字.您可能需要使用POS标签,解析树,单词排序,ngrams等来扩充句子中的数据.还可以获得任何相关的元数据,例如创建时间,创建位置,句子作者的属性等.显然,所有这些都取决于你究竟想要分类的是什么……为你准备的功能需要对手头的问题有直觉意义.