问题描述
以下代码行中的表达式“ binary = True”的含义和含义:
w2vmodel = gensim.models.KeyedVectors.load_word2vec_format(
'models/GoogleNews-vectors-negative300.bin.gz'),binary=True # <-- this
)
解决方法
由Google原始word2vec.c
程序编写的格式可以选择以纯文本或二进制格式编写。 (本质上,一个浮点值写为人类可读的十进制字符串,另一个写成打包的4字节二进制表示形式,如果将其视为文本/字符,则看起来像是行噪声/奇怪字符。)
如果要读取以二进制模式编写的文件,则需要指定binary=True
,否则文件格式将被错误解释,可能会因错误而失败。成功读取数据后,以后的行为没有其他差异。