问题描述
对于我的学士论文,我需要在同一个语料库上训练不同的词嵌入算法来对它们进行基准测试。 我正在寻找预处理步骤,但不确定要使用哪些步骤,哪些可能不太有用。
我已经找了一些研究,但也想问问是否有人有这方面的经验。
我的目标是在同一个语料库上训练 Word2Vec、FastText 和 glove Embeddings。现在不太确定是哪一个,但我想到了维基百科或类似的东西。
在我看来:
是逻辑选项。
但我听说停用词移除可能有点棘手,因为由于自动停用词移除可能不适合任何模型/语料库,因此某些嵌入仍有可能包含停用词。
我还没有决定是选择 spacy 还是 nltk 作为库,spacy 更强大,但 nltk 主要用于我正在写的椅子上。
解决方法
预处理就像超参数优化或神经架构搜索。 “我应该使用哪个”没有理论上的答案。该领域的应用部分(NLP)远远领先于理论。您只需运行不同的组合,直到找到最有效的组合(根据您选择的指标)。
是的,维基百科很棒,几乎每个人都在使用它(以及其他数据集)。我试过 spacy 并且它很强大,但我认为我犯了一个错误,我最终编写了自己的标记器,效果更好。天啊。同样,你只需要跳进去尝试几乎所有的东西。与您的顾问确认您有足够的时间和计算资源。