电影片名的词嵌入 - Tensorflow Word2Vec Python

问题描述

我试图了解词嵌入的工作原理，并且我第一次使用 Word2Vec (Tensorflow)。具体来说，我有一个 txt 文件（'movies.txt'），里面有 10 部电影，我用它来了解它是如何工作的

Toy Story (1995)
Jumanji (1995)
Grumpier Old Men (1995)
Waiting to Exhale (1995)
Father of the Bride Part II (1995)
Heat (1995)
Sabrina (1995)
Tom and Huck (1995)
Sudden Death (1995)
GoldenEye (1995)

我正在按照 Tensorflow 页面 (Word2Vec) 上的说明逐步操作。

导入包。
设置我的文件路径 (path_to_file = 'movies.txt')
使用非空行构建 tf.data.TextLineDataset。
将文本转换为小写并删除标点符号。
定义词汇量和单词数。
使用文本矢量化层对字符串进行归一化、拆分和映射到整数
在文本数据集上调用 adapt 来创建词汇表。
向量化 text_ds 中的数据。

在第 8 步，我收到一个 ValueError：

text_vector_ds = text_ds.batch(1024).prefetch(AUTOTUNE).map(vectorize_layer).unbatch()

ValueError: squeeze_dims[0] not in [-1,1). for '{{node text_vectorization_3/Squeeze}} = Squeeze[T=DT_STRING,squeeze_dims=[1]](text_vectorization_3/StaticRegexReplace)' with input shapes: [?].

我希望您能帮助我了解错误的含义。它与向量维度有关吗？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

tensorflow tensorflow tensorflow word-embedding word2vec