将csv数据目录转换为word2vec对象

问题描述

我找到了一个 Spotify csv data catalogue,但我想将其转换为 word2vec(特别是曲目标题和艺术家姓名)并在 t-SNE 中显示向量。我看到将 word2vec 结果保存到 csv 是很常见的,但是是否可以将 csv 文件转换为 word2vec 对象?

解决方法

将词向量保存为 CSV 并不常见。

而且,您链接的文件不是典型的密集高维词向量嵌入数据。

相反,Spotify 的分析中有一些命名的、有意义的标量值。 (我看到诸如 danceabilityenergyspeechiness 等)

实际的 word2vec 模型不会通常用这种易于解释的名称来标记值。

这可能仍然是用于聚类/绘图的有趣多维数据,但您在任何时候都不会将其转换为“word2vec 对象”来执行此操作。

(而且,如果您单独从艺术家/标题信息中训练一些词向量,或者使用外部词向量将艺术家/标题转换为词向量维度,结果可能会令人失望——这些词可能没有很好地描述潜在的模式,除了一些非常粗糙的方式,这些方式可以从共享词中明显看出(例如标题中带有“爱”的情歌,或者标题中带有“混音”的情歌更动听,等等) .

您处理这些数据的真正最终目标是什么?