用于信息检索的布尔值 vs 频率 vs tf-idf

问题描述

我刚开始接触 IR,想知道使用权重之间是否存在差异。

考虑一个二维矩阵,其中行是文档,列是一个标记(词)。

对于布尔模型,如果文档包含标记,则填充 1,如果单词不包含单词,则填充 0。这很糟糕,因为您无法对文档进行排名。

对于频率模型,不是放置 0/1,而是说明文档包含标记次数。使用这个模型的缺点是什么?我认为如果一个文档多次包含某个标记,那么当我们计算查询与文档的相似度时,标量会缩放得更高(因此理论上,更长的文档会受到青睐)。

为什么 tf-idf 优于频率模型?差异将除以文档的大小乘以查询的大小。这实现了什么?

这些都是权重……但是这些与计算的实际相似度有什么关系?对于相似性,布尔值/频率/td-idf 权重是否以不同的方式计算?我读过的两个是内积与余弦相似度。为什么余弦优于内积?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)