相关模型

问题描述

相关性模型仅基于反馈文档估计相关性反馈。在这种情况下,相关性模型将有较高的概率获得常见词作为其反馈。因此,我认为与其他两个模型相比,关联模型的性能不会很好。但是,我了解到所有这些模型的性能都很好。那是什么原因?

解决方法

"In contrast,the relevance model just estimates the relevance feedback based on feedback documents. In this case,the relevance model would have a higher probability of getting common words as its feedbacks"

这是一种普遍看法,不一定正确。更具体地说,请回想一下相关性模型的估计方程如下:

P(w|R) = \sum_{D \in Top-K} P(w|D) \prod_{t \in Q} P(q|D)

用简单的英语表示-

要计算前K个文档集中术语w的权重-您对前K个文档中的每个文档进行迭代,然后将P(w|D)乘以Q与D的相似度(这是是值\prod_{t \in Q} P(q|D))。现在,idf因子在表达式P(w|D)中被隐藏

遵循标准语言模型范例(Jelinek-Mercer或Dirichlet),这不仅是简单的最大似然估计,而且是集合平滑的版本,例如,对于Jelinek-Mercer,这是:

P(w|D) = log(1+ lambda/(1-lambda) * count(w,D)/length(D) * collection_size/cf(t))

这只是基于线性组合的tf * idf的概括-第二个分量collection_size/cf(t)具体表示逆收集频率。

因此,P(w|D)的此表达式可确保具有较高idf值的项在相关性模型估计中倾向于获得较高的权重。除了较高的idf权重之外,由于P(w | D)与P(q | D)的乘积,它们还应与查询词同时出现较高的水平。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...