简历解析器准确性基准

问题描述

我目前正在使用简历解析器API,该API通过REST API调用批量解析简历,并以JSON提供输出。我正在尝试评估提取的信息(例如,教育,经验,技能,概述)是否适合原始简历。是否有任何命名实体识别管道可以测试准确性?

我尝试计算原始CV和具有特定信息(例如教育,经验,技能,概述)的文本块之间的余弦相似度,但我正在寻找更复杂,更准确的方法来实现这一点。 我最近发现了http://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/, 但我仍然在寻找一些有助于实现简历特定性的内容包括部分和小节。

解决方法

要测试简历解析器的准确性,您确实需要自己构建一个-并不是那么容易。请注意,NER标签/评估只是流程中的一小步。还有许多细微之处可能对您的计分算法似乎无关紧要,但对人类却很重要-例如,知道某个日期范围适用于他们在Microsoft工作的时间,而不是他们在大学学习的时间。

我认为有两种方法:

  1. 只需手动查看输出以获取50份简历,然后手动对输出质量进行评分。
  2. 使用另一个第三方API(大多数将提供免费试用),并以编程方式比较输出。 (例如,尝试https://affinda.com/resume-parser/,它是我最近帮助建立的)