自定义Word2vec词汇源

问题描述

我正在尝试为List2中包含的LOINC Longname创建一个自定义word2vec。但是,当我试图与列表中存在的“放电摘要”匹配时,用相似的单词搜索时找不到它。我使用的代码如下。如何用单词列表训练模型。

import pandas as pd
import gensim
from gensim import corpora
from pprint import pprint
texts = [[text for text in doc.split()] for doc in List2]

# Create dictionary
#dictionary = corpora.Dictionary(texts)

# Get @R_413_4045@ion about the dictionary
#print(dictionary)

df = pd.DataFrame(list(zip(List1,List2)),columns =['LOINC','LONGNAME'] )
print(List2[0:10])
res = [i.strip("[]").split(",") for i in List2]
print(res[0:5])
model = Word2Vec(List2,min_count=1)
print(model)
words = list(model.wv.vocab)
print(words)
model.save('model.bin')
new_model = Word2Vec.load('model.bin')
print(new_model)
model.wv.most_similar(positive=["discharge summary"])

#print(dictionary.token2id)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)