包含情感的手套词嵌入?

问题描述

我一直在研究词嵌入的情感分析。我读过一些论文,指出词嵌入会忽略文本中词的情感信息。一篇论文指出,在语义相似的前 10 个单词中,大约 30% 的单词具有相反的极性,例如快乐 - 悲伤。

因此,我使用 R 中的 glove 算法在我的数据集(亚马逊评论)上计算词嵌入。然后,我查看了具有余弦相似度的最相似词,我发现实际上每个词在情感上都相似。 (例如,美丽 - 可爱 - 华丽 - 漂亮 - 漂亮 - 爱)。因此,我想知道这怎么可能,因为我期望阅读几篇论文的结果相反。我的发现可能是什么原因?

我读过的许多论文中的两篇:

  • Yu,L. C.,Wang,J.,Lai,K. R. & Zhang,X. (2017)。使用 情绪分析的强度分数。 IEEE/ACM 音频、语音、 和语言处理,26(3),671-681。
  • Tang,D.,Wei,F.,Yang,N.,Zhou,M.,Liu,T. & Qin,B. (2014)。为 Twitter 情感分类学习特定于情感的词嵌入。计算语言学协会第 52 届年会论文集,1:长论文,1555-1565。

解决方法

几个假设: 当你说你计算了 GLoVe 嵌入时,你的意思是你使用了预训练的 GLoVe。 当你说你用余弦相似度看过最相似的词时,你的意思是说与某个词最相似的词/写一些词

词嵌入忽略文本的情感信息

以上声明意味着词嵌入算法(据我所知大多数)不是为了捕捉词的情感而设计或制定的。但是,一般而言,词嵌入算法会将含义相似(基于统计上的接近度和共现)的词映射到彼此附近。例如,“女人”和“女孩”将在嵌入的 n 维空间中彼此靠近。但这并不意味着这里会捕获任何与情感相关的信息。

因此, 词:(美丽 - 可爱 - 华丽 - 漂亮 - 好 - 爱),与某个词在情感上相似并不奇怪。另外,请研究一下相似度分数,这样会更清楚。

语义相似的前 10 个词,大约 30% 的词具有相反的极性

这里,语义与上下文的相关性较小,而情感与上下文的相关性更大。一言难尽。

示例:

杰克:“你的裙子很漂亮,格洛丽亚”! 格洛丽亚:“我的脚好美!”

在这两个句子中,beautiful 带有完全不同的情感,其中 as 将具有相同的嵌入。现在,用(可爱 - 华丽 - 漂亮 - 漂亮)替换美丽,语义事物如其中一篇论文中所述。此外,Word Embeddings 不会捕获情感,因此,其他论文也是如此。

可能发生混淆的点是将两个或多个具有相似含义的词视为在情感上相似。可以在句子级别或文档级别而不是单词级别收集情感信息。