问题描述
我有一个约有4万条记录的职位发布数据集。我使用NER字典中的约30 000个技能从描述中提取了技能。每个技能都代表一个唯一的标识符。
发布的技能编号分布如下:
平均15.12 | 标准11.22 | 最低1.00 | 25%7.00 | 50%13.00 | 75%20.00 |
我仅使用技能ID训练了word2vec模型,它或多或少都可以正常工作。我可以找到与给定技能最相似的技能,结果看起来还可以。
但是对于doc2vec模型,我对结果不满意。
我大约有3200个独特的职位,其中大多数职位只有很少的职位,而且其中很多人来自同一领域(“前端开发人员”,“高级javascript开发人员”,“前端工程师”) 。我特意去了各种职位,在doc2vec.TaggedDocument()中用作标签。我的目标是当我在docvecs.most_like()中输入技能向量时,看到一些相关的职位。
在训练模型后(我尝试了不同时期(100,500,1000)和向量大小(40和100)),有时它可以正常工作,但大多数时候却不起作用。例如,对于诸如[numpy,postgresql,pandas,xgboost,python,pytorch]之类的技能,我会获得与[家庭法院,代理,咨询,社会工作]之类的技能最相似的职位。
数据集大小可能有问题吗?还是文档的大小(我认为我的文字简短)?我还认为我误解了doc2vec机制,而忽略了它。我还想问一问,您是否知道其他(也许更高级)的想法,我将如何从技能集中获得相关职位,并比较两个技能组向量的相近或远近。
UPD:
我的数据中的职位名称是“标签”,技能是“单词”。每个文本都有一个标签。有3200个重复标签的40 000个文档。 7881个唯一技能ID出现在文档中。每个文档的平均技能单词数为15。
我的数据示例:
job_titles skills
1 business manager 12 13 873 4811 482 2384 48 293 48
2 java developer 48 2838 291 37 484 192 92 485 17 23 299 23...
3 data scientist 383 48 587 475 2394 5716 293 585 1923 494 3
我的代码示例:
def tagged_document(df):
#tagging documents
for index,row in df.iterrows():
yield gensim.models.doc2vec.TaggedDocument(row['skills'].split(),[row['job_title']])
data_for_training = list(tagged_document(job_data[['job_titles','skills']])
model_d2v = gensim.models.doc2vec.doc2vec(vector_size=50,min_count=2,epochs=100)
model_d2v.train(data_for_training,total_examples=model_d2v.corpus_count,epochs=model_d2v.epochs)
#the skill set contains close skills which represent a front end developer
skillset_ids = '12 34 556 453 1934'.split()
new_vector = model_d2v.infer_vector(skillset_ids,epochs=100)
model_d2v.docvecs.most_similar(positive=[new_vector],topn=30)
我最近一直在进行实验,发现如果我过滤掉少于10种技能的文档,效果会更好。尽管如此,还是有一些无关紧要的职位出现了。
解决方法
在没有看到您的代码(或至少是其主要选择的草图)的情况下,很难说出自己是否犯了射击脚上的错误,例如常见的“自行管理alpha
”以下简陋的在线示例”问题:My Doc2Vec code,after many loops of training,isn't giving good results. What might be wrong?
(您经过测试的epochs
的最小数量是100个,这似乎很可疑;当数据集的大小和每个文档的大小都足够时,发布的工作中通常会使用10-20个纪元,尽管可以通过更多次有时有助于处理更薄的数据。)
类似地,从您的描述中还不能完全清楚您的培训文档是什么样的。例如:
-
tags
头衔和words
技能是吗? - 每个文本都只有一个
tag
吗? - 如果有3,200个唯一
tags
和30,000个唯一words
,难道只有3,200个TaggedDocuments
或更多带有重复标题的 - 每个
TaggedDocument
的平均技能词数是多少?
此外,如果您将单词向量(用于技能)用作查询向量,则必须确保使用实际训练那些词的训练模式。某些Doc2Vec
模式,例如纯PV-DBOW(dm=0
)根本不训练单词向量,但它们将以随机初始化的垃圾的形式存在。 (要么添加非默认dbow_words=1
来添加跳过语法单词训练,要么切换到PV-DM dm=1
模式,将确保单词向量在相同的坐标空间中被共同训练。)