是否有包含多个答案的NLP问题答案数据集?

问题描述

我正在建造质量检查机器。我有一个问题,一个问题可能有多个答案,而答案在上下文中位于不同的位置。例如:

问题:克里斯必须做什么?

上下文:....克里斯必须洗碗....(更多文字)....克里斯必须做功课....

正确答案

  • 洗碗
  • 做功课

当我得到一个问题的答案时,我使用聚类算法对重复数据进行重复数据删除并获得“单独的”答案。因此,我需要一个具有一对1问题的数据集-像上面这样的许多答案来评估我的聚类算法和句子嵌入模型。

是否有公共数据集支持一对一个问题-多个正确答案(不重复)?我尝试了MS MARCO,但该数据集中的大多数答案都是重复的。

解决方法

Muc2004 是一个文档级的事件抽取数据集,对于每个事件角色,都有多个答案。例如,

问题:攻击的受害者是谁?

背景:......因为卡洛斯·瓦伦西亚·加西亚的死刑判决是最后一晚......(更多文字)......玛丽亚·埃琳娜·迪亚兹的暗杀......

正确答案:

  • 卡洛斯·瓦伦西亚·加西亚
  • 玛丽亚·埃琳娜·迪亚兹
,

我正在寻找类似的问题解答技术或具有多个非冗余答案的数据集。

这是数据集:https://github.com/mingzhu0527/MASHQA

和论文:https://www.aclweb.org/anthology/2020.findings-emnlp.342.pdf[enter链接描述在这里]1

然而,这篇论文将 QA 的问题作为一个句子分类任务提出,其中的任务实际上是判断上下文中的每个句子是否回答了查询。

现在,如果您的多个答案不是一个句子而是只是短语,我不建议您这样做。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...