Doc2Vec最相似的向量与输入向量不匹配

问题描述

我有一个约有4万条记录的职位发布数据集。我使用NER字典中的约30 000个技能从描述中提取了技能。每个技能都代表一个唯一的标识符。

发布的技能编号分布如下：

平均15.12 | 标准11.22 | 最低1.00 | 25％7.00 | 50％13.00 | 75％20.00 |

我仅使用技能ID训练了word2vec模型，它或多或少都可以正常工作。我可以找到与给定技能最相似的技能，结果看起来还可以。

但是对于doc2vec模型，我对结果不满意。

我大约有3200个独特的职位，其中大多数职位只有很少的职位，而且其中很多人来自同一领域（“前端开发人员”，“高级javascript开发人员”，“前端工程师”）。我特意去了各种职位，在doc2vec.TaggedDocument（）中用作标签。我的目标是当我在docvecs.most_like（）中输入技能向量时，看到一些相关的职位。

在训练模型后（我尝试了不同时期（100,500,1000）和向量大小（40和100）），有时它可以正常工作，但大多数时候却不起作用。例如，对于诸如[numpy，postgresql，pandas，xgboost，python，pytorch]之类的技能，我会获得与[家庭法院，代理，咨询，社会工作]之类的技能最相似的职位。

数据集大小可能有问题吗？还是文档的大小（我认为我的文字简短）？我还认为我误解了doc2vec机制，而忽略了它。我还想问一问，您是否知道其他（也许更高级）的想法，我将如何从技能集中获得相关职位，并比较两个技能组向量的相近或远近。

UPD：

我的数据中的职位名称是“标签”，技能是“单词”。每个文本都有一个标签。有3200个重复标签的40 000个文档。 7881个唯一技能ID出现在文档中。每个文档的平均技能单词数为15。

我的数据示例：

         job_titles                                             skills
1  business manager                 12 13 873 4811 482 2384 48 293 48
2    java developer      48 2838 291 37 484 192 92 485 17 23 299 23...
3    data scientist      383 48 587 475 2394 5716 293 585 1923 494 3

我的代码示例：

def tagged_document(df):
    #tagging documents
    for index,row in df.iterrows():
        yield gensim.models.doc2vec.TaggedDocument(row['skills'].split(),[row['job_title']])


data_for_training = list(tagged_document(job_data[['job_titles','skills']])

model_d2v = gensim.models.doc2vec.doc2vec(vector_size=50,min_count=2,epochs=100)

model_d2v.train(data_for_training,total_examples=model_d2v.corpus_count,epochs=model_d2v.epochs)

#the skill set contains close skills which represent a front end developer
skillset_ids = '12 34 556 453 1934'.split()                                                  
new_vector = model_d2v.infer_vector(skillset_ids,epochs=100)
model_d2v.docvecs.most_similar(positive=[new_vector],topn=30)

我最近一直在进行实验，发现如果我过滤掉少于10种技能的文档，效果会更好。尽管如此，还是有一些无关紧要的职位出现了。

解决方法

在没有看到您的代码（或至少是其主要选择的草图）的情况下，很难说出自己是否犯了射击脚上的错误，例如常见的“自行管理alpha”以下简陋的在线示例”问题：My Doc2Vec code,after many loops of training,isn't giving good results. What might be wrong?

（您经过测试的epochs的最小数量是100个，这似乎很可疑；当数据集的大小和每个文档的大小都足够时，发布的工作中通常会使用10-20个纪元，尽管可以通过更多次有时有助于处理更薄的数据。）

类似地，从您的描述中还不能完全清楚您的培训文档是什么样的。例如：

tags头衔和words技能是吗？
每个文本都只有一个tag吗？
如果有3,200个唯一tags和30,000个唯一words，难道只有3,200个TaggedDocuments或更多带有重复标题的
每个TaggedDocument的平均技能词数是多少？

此外，如果您将单词向量（用于技能）用作查询向量，则必须确保使用实际训练那些词的训练模式。某些Doc2Vec模式，例如纯PV-DBOW（dm=0）根本不训练单词向量，但它们将以随机初始化的垃圾的形式存在。（要么添加非默认dbow_words=1来添加跳过语法单词训练，要么切换到PV-DM dm=1模式，将确保单词向量在相同的坐标空间中被共同训练。）

doc2vec gensim nlp python word2vec