训练自定义 NER Spacy 模型需要多少数据/上下文?

问题描述

我正在尝试使用 spacy 和命名实体识别从简历中提取以前的职位。

我想训练 spacy 检测自定义命名实体类型:'JOB'。为此,我有大约 800 个来自 https://www.careerbuilder.com/browse/titles/ 的职位名称可以用作训练数据。

在我的 spacy 训练数据中,我是否需要将这些职位头衔整合到为提供上下文而添加的句子中? 一般来说,在简历中,职位名称有点独立,并不是完整句子的一部分。

此外,如果我需要为 800 个标题中的每一个提供连贯的上下文,这对于我想要做的事情来说太耗时了,所以也许除了 NER 之外还有其他解决方案?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)