如何从很难找到模式的字符串列表中提取标记

问题描述

我正在从简历数据库中构建模型,我想仅从候选人的简历中提取学位的名称。我最初的方法是找到一个模式并使用正则表达式提取匹配项,但是由于没有明显的模式,我的第二种方法是使用nlp并查看是否有任何标签与我想要的字符串匹配。我还考虑了是否制作了API或python库,该库具有所有可能的学位名称,但没有成功。以下是一些字符串:

'bachelor of Computer Science Engineering University : Anna Un'
'master of information Technology University : Deakin Univer'
'diploma in Management 2016 M.Sc. of Computer Science (“Diplo']
'master of Analytics Concentration: Data handling and manage'
'master of Engineering (Software) University of Melbourne 20'
'bachelor of B USInesS INFOR MATIO N SY stem S – Monash Univer'

但是,如果有帮助,我已经提取了前两个单词并将其标准化为硕士,学士学位和文凭,因为它们的格式不同,例如硕士,硕士等。下面是数据快照,以获取一些信息理念。谢谢

enter image description here

解决方法

我已使用Spacy库完成此操作。有两种方法,您可以查看spacy文档:

  1. 基于规则(基于模式)
  2. 针对您的特定用例的自定义NER培训。

您可以选择上述之一。