Doc2Vec最相似的向量与输入向量不匹配

问题描述

我有一个约有4万条记录的职位发布数据集。我使用NER字典中的约30 000个技能从描述中提取了技能。每个技能都代表一个唯一的标识符。

发布的技能编号分布如下:

平均15.12 | 标准11.22 | 最低1.00 | 25%7.00 | 50%13.00 | 75%20.00 |

我仅使用技能ID训练了word2vec模型,它或多或少都可以正常工作。我可以找到与给定技能最相似的技能,结果看起来还可以。

但是对于doc2vec模型,我对结果不满意。

我大约有3200个独特的职位,其中大多数职位只有很少的职位,而且其中很多人来自同一领域(“前端开发人员”,“高级javascript开发人员”,“前端工程师”) 。我特意去了各种职位,在doc2vec.TaggedDocument()中用作标签。我的目标是当我在docvecs.most_like()中输入技能向量时,看到一些相关的职位。

在训练模型后(我尝试了不同时期(100,500,1000)和向量大小(40和100)),有时它可以正常工作,但大多数时候却不起作用。例如,对于诸如[numpy,postgresql,pandas,xgboost,python,pytorch]之类的技能,我会获得与[家庭法院,代理,咨询,社会工作]之类的技能最相似的职位。

数据集大小可能有问题吗?还是文档的大小(我认为我的文字简短)?我还认为我误解了doc2vec机制,而忽略了它。我还想问一问,您是否知道其他(也许更高级)的想法,我将如何从技能集中获得相关职位,并比较两个技能组向量的相近或远近。

UPD:

我的数据中的职位名称是“标签”,技能是“单词”。每个文本都有一个标签。有3200个重复标签的40 000个文档。 7881个唯一技能ID出现在文档中。每个文档的平均技能单词数为15。

我的数据示例:

         job_titles                                             skills
1  business manager                 12 13 873 4811 482 2384 48 293 48
2    java developer      48 2838 291 37 484 192 92 485 17 23 299 23...
3    data scientist      383 48 587 475 2394 5716 293 585 1923 494 3

我的代码示例:

def tagged_document(df):
    #tagging documents
    for index,row in df.iterrows():
        yield gensim.models.doc2vec.TaggedDocument(row['skills'].split(),[row['job_title']])


data_for_training = list(tagged_document(job_data[['job_titles','skills']])

model_d2v = gensim.models.doc2vec.doc2vec(vector_size=50,min_count=2,epochs=100)

model_d2v.train(data_for_training,total_examples=model_d2v.corpus_count,epochs=model_d2v.epochs)

#the skill set contains close skills which represent a front end developer
skillset_ids = '12 34 556 453 1934'.split()                                                  
new_vector = model_d2v.infer_vector(skillset_ids,epochs=100)
model_d2v.docvecs.most_similar(positive=[new_vector],topn=30)

我最近一直在进行实验,发现如果我过滤掉少于10种技能的文档,效果会更好。尽管如此,还是有一些无关紧要的职位出现了。

解决方法

在没有看到您的代码(或至少是其主要选择的草图)的情况下,很难说出自己是否犯了射击脚上的错误,例如常见的“自行管理alpha”以下简陋的在线示例”问题:My Doc2Vec code,after many loops of training,isn't giving good results. What might be wrong?

(您经过测试的epochs的最小数量是100个,这似乎很可疑;当数据集的大小和每个文档的大小都足够时,发布的工作中通常会使用10-20个纪元,尽管可以通过更多次有时有助于处理更薄的数据。)

类似地,从您的描述中还不能完全清楚您的培训文档是什么样的。例如:

  • tags头衔和words技能是吗?
  • 每个文本都只有一个tag吗?
  • 如果有3,200个唯一tags和30,000个唯一words,难道只有3,200个TaggedDocuments或更多带有重复标题的
  • 每个TaggedDocument的平均技能词数是多少?

此外,如果您将单词向量(用于技能)用作查询向量,则必须确保使用实际训练那些词的训练模式。某些Doc2Vec模式,例如纯PV-DBOW(dm=0)根本不训练单词向量,但它们将以随机初始化的垃圾的形式存在。 (要么添加非默认dbow_words=1来添加跳过语法单词训练,要么切换到PV-DM dm=1模式,将确保单词向量在相同的坐标空间中被共同训练。)