信息检索中排名结果的评估

我们如何评估无监督场景中信息检索系统的结果排名？

一种在不存在相关性评估的情况下估计检索到的信息质量的方法是借助查询性能预测（或简称 QPP）。 IR 文献中有大量关于 QPP 的工作，您可以从 SIGIR/CIKM 会议中挖掘。

从广义上讲，它使用的想法是，如果检索到的顶部文档集与集合显着不同，则合理表明检索到的顶部集专注于特定主题，因此可能是相关的，因为本质上相关性是一种属性，它也应该专注于特定主题（这只是一个假设，但这是我们无需评估就能做到的最好的结果）。

一种简单的技术来估计 top-k 文档的独特性，然后检查这些分数的偏度——它们越偏，top-k 与其他文档不同的可能性就越大（因此检索是好的）。

下图（取自此 TOIS paper）显示了如何将标准偏差用作（逆）偏度的度量。左侧分布的 std_dev 较小（该值更接近平均值），因此这是系统无法检索到有用文档的查询示例。

与在两个查询之间进行比较的 QPP 的标准用法相反，在您的情况下，查询是固定的，您基本上会在检索模型之间进行比较（例如，tf-idf 的分数分布可能比 BM25 更不偏斜）。

相关问答