训练自定义 NER Spacy 模型需要多少数据/上下文？

我正在尝试使用 spacy 和命名实体识别从简历中提取以前的职位。

我想训练 spacy 检测自定义命名实体类型：'JOB'。为此，我有大约 800 个来自 https://www.careerbuilder.com/browse/titles/ 的职位名称可以用作训练数据。

在我的 spacy 训练数据中，我是否需要将这些职位头衔整合到为提供上下文而添加的句子中？一般来说，在简历中，职位名称有点独立，并不是完整句子的一部分。

此外，如果我需要为 800 个标题中的每一个提供连贯的上下文，这对于我想要做的事情来说太耗时了，所以也许除了 NER 之外还有其他解决方案？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）