质量检查问题系统中多个正确答案的评估指标

我正在构建质量检查机器，并且我拥有用于此任务的数据。我有一个问题，一个问题可以有2个或更多答案。例如：

问题：“ A必须做什么？”

正确答案：

在我的质量检查模型中，我可以获得k个最佳答案。但是，在某些情况下，不仅k的正确答案数不相等，而且k的一些答案也不正确。

大多数公共数据集，例如SQuAD，triviaQA，都有一对带一个问题和一个答案的对。就我而言，我的问题可以有多个答案。那么，我应该使用哪种评估指标？我可以使用F1分数吗？

评估指标应始终取决于所开发系统的使用方式。 F1分数肯定是一个合理的统计数据，它可以告诉您很多有关正确答案和错误答案的分布情况。

如果您要从系统中提出一个最佳答案，则还应该衡量1个最佳准确性。如果要给出多个答案，则应测量precision at n（即，正确答案在 n 个最佳答案中的比例，实际上是回想起的，但是信息检索人员称其为“精确”））。

如果不确定要提供多少合适的答案，则可能需要绘制ROC curve并计算AUC分数。

相关问答