Elasticsearch 在多个索引上打分:dfs_query_then_fetch 返回与 query_then_fetch 相同的分数

问题描述

我在 Elasticsearch 中有多个索引(以及使用 django-elasticsearch-dsl 创建的 Django 中的相应文档)。所有索引都具有以下设置:

    settings = {'number_of_shards': 1,'number_of_replicas': 0}

现在,我尝试在所有 10 个索引中执行搜索。为了检索来自不同索引的结果之间的一致评分,我使用了 dfs_query_then_fetch:

search = Search(index=['mov*'])
search = search.params(search_type='dfs_query_then_fetch')
objects = search.query("multi_match",query='Tom & Jerry',fields=['title','actors'])

由于得分不一致,我得到了糟糕的结果。一个索引中名为“杰瑞和他的朋友汤姆的故事”的书的排名可能高于另一个索引中的卡通“汤姆和杰瑞”。原因是 dfs_query_then_fetch 不起作用。当我删除它或用简单的 query_then_fetch 替换它时,我得到了完全相同的结果和相同的评分。

我也在 URI 请求上对其进行了测试,对于两种搜索类型我总是得到相同的分数。

可能是什么原因?

更新:结果实际上并不相同,但它们只是确实略有不同,例如有dfs的得分为50.1,没有dfs的得分为50.0,而一个指标内的同一模型得分为80.0。

解决方法

如果分片数为1,则dfs_query_then_fetch和query_then_fetch将返回相同的结果。 DFS 查询将对所有分片进行查询,然后根据计算出的分数显示结果,但在这种情况下,只有一个分片。

关于评分,您可能也想看看您的演员领域。另外,如果您使用了自定义分析器和标记器,请告诉我们什么是分析器和标记器?

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...