相关模型

问题描述

相关性模型仅基于反馈文档估计相关性反馈。在这种情况下，相关性模型将有较高的概率获得常见词作为其反馈。因此，我认为与其他两个模型相比，关联模型的性能不会很好。但是，我了解到所有这些模型的性能都很好。那是什么原因？

解决方法

"In contrast,the relevance model just estimates the relevance feedback based on feedback documents. In this case,the relevance model would have a higher probability of getting common words as its feedbacks"

这是一种普遍看法，不一定正确。更具体地说，请回想一下相关性模型的估计方程如下：

P(w|R) = \sum_{D \in Top-K} P(w|D) \prod_{t \in Q} P(q|D)

用简单的英语表示-

要计算前K个文档集中术语w的权重-您对前K个文档中的每个文档进行迭代，然后将P(w|D)乘以Q与D的相似度（这是是值\prod_{t \in Q} P(q|D)）。现在，idf因子在表达式P(w|D)中被隐藏。

遵循标准语言模型范例（Jelinek-Mercer或Dirichlet），这不仅是简单的最大似然估计，而且是集合平滑的版本，例如，对于Jelinek-Mercer，这是：

P(w|D) = log(1+ lambda/(1-lambda) * count(w,D)/length(D) * collection_size/cf(t))

这只是基于线性组合的tf * idf的概括-第二个分量collection_size/cf(t)具体表示逆收集频率。

因此，P(w|D)的此表达式可确保具有较高idf值的项在相关性模型估计中倾向于获得较高的权重。除了较高的idf权重之外，由于P（w | D）与P（q | D）的乘积，它们还应与查询词同时出现较高的水平。

feedback information-retrieval relevance

相关模型

问题描述

解决方法

相关问答