质量检查问题系统中多个正确答案的评估指标

问题描述

我正在构建质量检查机器,并且我拥有用于​​此任务的数据。我有一个问题,一个问题可以有2个或更多答案。例如:

问题:“ A必须做什么?”

正确答案

  • “必须清洁地板”
  • “必须挂衣服”

在我的质量检查模型中,我可以获得k个最佳答案。但是,在某些情况下,不仅k的正确答案数不相等,而且k的一些答案也不正确。

大多数公共数据集,例如SQuAD,triviaQA,都有一对带一个问题和一个答案的对。就我而言,我的问题可以有多个答案。那么,我应该使用哪种评估指标?我可以使用F1分数吗?

解决方法

评估指标应始终取决于所开发系统的使用方式。 F1分数肯定是一个合理的统计数据,它可以告诉您很多有关正确答案和错误答案的分布情况。

如果您要从系统中提出一个最佳答案,则还应该衡量1个最佳准确性。如果要给出多个答案,则应测量precision at n(即,正确答案在 n 个最佳答案中的比例,实际上是回想起的,但是信息检索人员称其为“精确”) )。

如果不确定要提供多少合适的答案,则可能需要绘制ROC curve并计算AUC分数。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...