用于信息检索的布尔值 vs 频率 vs tf-idf

我刚开始接触 IR，想知道使用权重之间是否存在差异。

考虑一个二维矩阵，其中行是文档，列是一个标记（词）。

对于布尔模型，如果文档包含标记，则填充 1，如果单词不包含单词，则填充 0。这很糟糕，因为您无法对文档进行排名。

对于频率模型，不是放置 0/1，而是说明文档包含标记的次数。使用这个模型的缺点是什么？我认为如果一个文档多次包含某个标记，那么当我们计算查询与文档的相似度时，标量会缩放得更高（因此理论上，更长的文档会受到青睐）。

为什么 tf-idf 优于频率模型？差异将除以文档的大小乘以查询的大小。这实现了什么？

这些都是权重……但是这些与计算的实际相似度有什么关系？对于相似性，布尔值/频率/td-idf 权重是否以不同的方式计算？我读过的两个是内积与余弦相似度。为什么余弦优于内积？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）