使用word2vec嵌入中的表达式“ binary = True”

问题描述

以下代码行中的表达式“ binary = True”的含义和含义:

w2vmodel = gensim.models.KeyedVectors.load_word2vec_format(
    'models/GoogleNews-vectors-negative300.bin.gz'),binary=True  # <-- this
)

解决方法

由Google原始word2vec.c程序编写的格式可以选择以纯文本或二进制格式编写。 (本质上,一个浮点值写为人类可读的十进制字符串,另一个写成打包的4字节二进制表示形式,如果将其视为文本/字符,则看起来像是行噪声/奇怪字符。)

如果要读取以二进制模式编写的文件,则需要指定binary=True,否则文件格式将被错误解释,可能会因错误而失败。成功读取数据后,以后的行为没有其他差异。