问题描述
相关性模型仅基于反馈文档估计相关性反馈。在这种情况下,相关性模型将有较高的概率获得常见词作为其反馈。因此,我认为与其他两个模型相比,关联模型的性能不会很好。但是,我了解到所有这些模型的性能都很好。那是什么原因?
解决方法
"In contrast,the relevance model just estimates the relevance feedback based on feedback documents. In this case,the relevance model would have a higher probability of getting common words as its feedbacks"
这是一种普遍看法,不一定正确。更具体地说,请回想一下相关性模型的估计方程如下:
P(w|R) = \sum_{D \in Top-K} P(w|D) \prod_{t \in Q} P(q|D)
用简单的英语表示-
要计算前K个文档集中术语w
的权重-您对前K个文档中的每个文档进行迭代,然后将P(w|D)
乘以Q与D的相似度(这是是值\prod_{t \in Q} P(q|D)
)。现在,idf
因子在表达式P(w|D)
中被隐藏。
遵循标准语言模型范例(Jelinek-Mercer或Dirichlet),这不仅是简单的最大似然估计,而且是集合平滑的版本,例如,对于Jelinek-Mercer,这是:
P(w|D) = log(1+ lambda/(1-lambda) * count(w,D)/length(D) * collection_size/cf(t))
这只是基于线性组合的tf * idf的概括-第二个分量collection_size/cf(t)
具体表示逆收集频率。
因此,P(w|D)
的此表达式可确保具有较高idf值的项在相关性模型估计中倾向于获得较高的权重。除了较高的idf权重之外,由于P(w | D)与P(q | D)的乘积,它们还应与查询词同时出现较高的水平。