如何使用 word2vec 获取情感标签

问题描述

我正在研究 word2vec 模型以分析报纸语料库。 我有一个 csv,其中包含一些报纸,如标题、期刊和文章内容。 我知道如何训练我的模型以获得最相似的词及其上下文。

但是,我想对此进行情感分析。为了做到这一点,我找到了一些资源,但在示例中的所有测试或训练数据框中,已经有一个列情绪(0 或 1)。您是否可以通过情绪自动对文本进行分类?我的意思是给每个文本加 0 或 1。我进行了搜索,但在 word2vec 或 doc2vec 文档中没有找到任何相关参考资料...

感谢提前!

解决方法

Word2VecDoc2Vec 都只是将单词或单词列表转换为“密集”向量的方法。独自一人,他们不会告诉你情绪。

当您有一个文本并想推断它属于哪个类别时,这称为“文本分类”。具体来说,如果您只有两个类别(例如“正面情绪”与“负面情绪”,或“垃圾邮件”与“非垃圾邮件”),则称为“二元分类”。

Word2VecDoc2Vec 模型的输出可能在该任务中有所帮助,但主要作为某些其他选定“分类器”算法的输入。而且,这样的算法需要每种文本的一些“标记示例”——你在其中提供正确答案——才能工作。因此,您可能需要浏览您的报纸文章语料库,并用您想要的答案标记其中的一堆。

您应该首先研究一些使用 scikit-learn 的示例,Word2Vec 是最流行的带有文本分类工具的 Python 库,甚至没有任何 Doc2Vec 或 {{1}功能,首先。例如,在它的文档中有一个介绍:

Working With Text Data

只有在您使用通用预处理/特征提取/训练/评估步骤设置了一些基本代码并查看了一些实际结果之后,您才应该考虑是否添加基于 Word2Vec 或 {{ 1}} 可能会有所帮助。