每年预训练的词嵌入

问题描述

我正在执行一项任务,其中在不同时间段内拥有不同版本的词嵌入会很好,例如2013 年、2014 年、2015 年、2016 年 ... 2020 年的嵌入。这是因为我不想通过使用在运行目标任务之前的某个时间段内训练过的嵌入来偏向我的算法,例如当我在 2013 年的数据上运行任务时使用 2019 年的嵌入(即单词将具有不同的含义)。

有没有人知道一个跨时间预训练嵌入的项目?数据类型最好是社交媒体(例如 Twitter)。

解决方法

我之前对类似问题的回答中可能有一些有用的建议/参考:

Word embeddings for the same word from two different texts

,

您可以尝试的一种方法是收集不同年份的 Twitter 数据集并训练自己。 开始寻找这些数据集的最佳点是:https://archive.org/search.php?query=collection%3Atwitterstream&sort=-publicdate