词级文本分类

问题描述

我目前正在开展一个项目,在该项目中我有评论,并且评论的某些词被标记(例如不同的情绪和类别,这意味着没有情绪)。 目标是对测试评论的每个单词进行分类。我已经用 Naive Baise 试过了,但它不是很有帮助,因为如果我必须标记文档,我会有更多的词和它们的概率。当我只想标记一个词时,我就有问题了。标签 x 是单词本身的概率。所以信息不多。

我也尝试将单词转换为向量,但例如 TF-IDF 也是基于文档的,不适合单个单词。

我的一个想法是,也许我可以为每个单词制作 XY 坐标,这样我就可以使用它们(连同相关的标签)来训练 SVM。但不幸的是,经过研究,我找不到任何方法。也许整个单词的数量表示为数字 (0-x)y-value 每个单词在所有文本中的频率。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)