问题描述
我目前正在开展一个项目,在该项目中我有评论,并且评论的某些词被标记(例如不同的情绪和类别,这意味着没有情绪)。
目标是对测试评论的每个单词进行分类。我已经用 Naive Baise
试过了,但它不是很有帮助,因为如果我必须标记文档,我会有更多的词和它们的概率。当我只想标记一个词时,我就有问题了。标签 x
是单词本身的概率。所以信息不多。
我也尝试将单词转换为向量,但例如 TF-IDF
也是基于文档的,不适合单个单词。
我的一个想法是,也许我可以为每个单词制作 X
和 Y
坐标,这样我就可以使用它们(连同相关的标签)来训练 SVM
。但不幸的是,经过研究,我找不到任何方法。也许整个单词的数量表示为数字 (0-x)
和 y-value
每个单词在所有文本中的频率。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)