如何获得单词列表的三维向量嵌入

问题描述

我被要求为一系列单词创建三维向量嵌入。尽管我了解嵌入是什么并且 word2vec 将能够创建向量嵌入,但我找不到向我展示如何创建 维向量的资源(所有资源都显示比这更多的维度)。

创建文件的格式是:

house    34444     0.3232 0.123213 1.231231
dog    14444    0.76762 0.76767 1.45454

格式为 <token>\t<word_count>\t<vector_embedding_separated_by_spaces>

谁能给我指出一个资源,该资源将向我展示如何在给定一些培训文本的情况下创建所需的文件格式?

解决方法

一旦您决定使用一种编程语言和 word2vec 库,其文档可能会突出显示一个可配置参数,该参数可让您指定它训练的向量的维度。因此,您只需将该参数从其典型值(如 100300)更改为 3

(但请注意,3 维词向量不太可能表现出高维向量的有趣和有用的特性。)

一旦您使用这样的库来创建内存中的向量,以您指定的格式将它们写出来就只是一个文件 IO 问题,与 word2vec 本身无关。在典型的语言中,您需要打开一个新文件进行写入,循环正确打印每一行的数据,然后关闭文件。

(要从 StackOverflow 获得更详细的答案,您需要选择一种特定的语言/库,展示您已经用实际代码尝试过的内容,并展示所取得的结果/错误如何达不到您的目标。 )