如何使用 word2vec 获取情感标签

我正在研究 word2vec 模型以分析报纸语料库。我有一个 csv，其中包含一些报纸，如标题、期刊和文章内容。我知道如何训练我的模型以获得最相似的词及其上下文。

但是，我想对此进行情感分析。为了做到这一点，我找到了一些资源，但在示例中的所有测试或训练数据框中，已经有一个列情绪（0 或 1）。您是否可以通过情绪自动对文本进行分类？我的意思是给每个文本加 0 或 1。我进行了搜索，但在 word2vec 或 doc2vec 文档中没有找到任何相关参考资料...

感谢提前！

Word2Vec 和 Doc2Vec 都只是将单词或单词列表转换为“密集”向量的方法。独自一人，他们不会告诉你情绪。

当您有一个文本并想推断它属于哪个类别时，这称为“文本分类”。具体来说，如果您只有两个类别（例如“正面情绪”与“负面情绪”，或“垃圾邮件”与“非垃圾邮件”），则称为“二元分类”。

Word2Vec 或 Doc2Vec 模型的输出可能在该任务中有所帮助，但主要作为某些其他选定“分类器”算法的输入。而且，这样的算法需要每种文本的一些“标记示例”——你在其中提供正确答案——才能工作。因此，您可能需要浏览您的报纸文章语料库，并用您想要的答案标记其中的一堆。

您应该首先研究一些使用 scikit-learn 的示例，Word2Vec 是最流行的带有文本分类工具的 Python 库，甚至没有任何 Doc2Vec 或 {{1}功能，首先。例如，在它的文档中有一个介绍：

只有在您使用通用预处理/特征提取/训练/评估步骤设置了一些基本代码并查看了一些实际结果之后，您才应该考虑是否添加基于 Word2Vec 或 {{ 1}} 可能会有所帮助。