类型错误:“Word2Vec”对象不可下标

问题描述

我正在尝试构建 Word2vec 模型,但是当我尝试为标记重塑向量时,出现此错误。有什么想法吗?

wordvec_arrays = np.zeros((len(tokenized_tweet),100)) 
for i in range(len(tokenized_tweet)):
    wordvec_arrays[i,:] = word_vector(tokenized_tweet[i],100)
wordvec_df = pd.DataFrame(wordvec_arrays) 
wordvec_df.shape

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-101-71156bf1c4a3> in <module>
      1 wordvec_arrays = np.zeros((len(tokenized_tweet),100))
      2 for i in range(len(tokenized_tweet)):
----> 3     wordvec_arrays[i,100)
      4 wordvec_df = pd.DataFrame(wordvec_arrays)
      5 wordvec_df.shape

<ipython-input-100-e3a82e60af93> in word_vector(tokens,size)
      4     for word in tokens:
      5         try:
----> 6             vec += model_w2v[word].reshape((1,size))
      7             count += 1.
      8         except KeyError: # handling the case where the token is not in vocabulary

TypeError: 'Word2Vec' object is not subscriptable

解决方法

自 Gensim 4.0 及更高版本起,Word2Vec 模型不支持下标索引访问(['...']') to individual words. (Previous versions would display a deprecation warning,Method 将在 4.0.0 中删除,使用 self.wv.getitem () 代替`,用于此类用途。)

因此,当您想要访问特定单词时,请通过 Word2Vec 模型的 .wv 属性进行访问,该属性仅包含单词向量。因此,您的(未显示)word_vector() 函数应将其在错误堆栈中突出显示的行更改为:

            vec += model_w2v.wv[word[.reshape((1,size))
,

使用以下方法:

model.wv.get_item()