问题描述
我对Lucene和MongoDB Atlas搜索非常熟悉,并且对查询效率有疑问。
其中哪些查询使用的资源较少?
如果对执行以下任务有更好的查询,请告诉我。
我想返回所有与标题值匹配的电影(sample_mflix)。这些电影必须是特定年份的电影(不应返回该年份以外的任何电影),并且我想返回的电影的movie.awards.nominations和movie.awards.wins均带有“ $ gte”值。 >
第一个查询似乎更复杂(这似乎增加了资源利用率-查询复杂度?)。该查询也不只是返回该年份的值。这使我认为,使用Atlas搜索可能有更好的方法。
第二个查询在不同阶段使用$ search和$ match。它具有简单的Lucene搜索(可能比第一个查询返回更多的电影吗?),并且match运算符将过滤结果。第二个查询更精确-根据我的测试,它符合年份约束。如果我应用极限阶段,这会是更好的解决方案吗?
如果这些查询是在同一场景中执行的,哪一个查询会更有效,为什么(抱歉,第二个查询是针对.net驱动程序格式化的)?
new BsonArray
{
new BsonDocument("$search",new BsonDocument
{
{ "index","nostoreindex" },{ "compound",new BsonDocument
{
{ "must",new BsonDocument("near",new BsonDocument
{
{ "path","year" },{ "origin",2000 },{ "pivot",1 }
}) },{ "must",new BsonDocument("text",new BsonDocument
{
{ "query","poor" },{ "path","title" }
}) },{ "should",new BsonDocument("range","awards.nominations" },{ "gte","awards.wins" },1 }
}) }
} }
})
}
VS
var searchStage =
new BsonDocument("$search",new BsonDocument
{
{ "index",{ "text",new BsonDocument
{
{ "query",title },"title" }
} }
});
var matchStage = new BsonDocument("$match",new BsonDocument("$and",new BsonArray
{
new BsonDocument("year",new BsonDocument("$eq",year)),new BsonDocument("awards.nominations",new BsonDocument("$gte",nominations)),new BsonDocument("awards.wins",awards))
})
);
解决方法
使用Atlas Search时,最好避免在$match
后使用后续的$search
过滤器。这是因为所有数据都需要在id中的mongod中查找,这可能会很慢。
因此,通常,如果可能的话,您尝试将搜索和过滤器保持在“ Lucene”中,以避免额外的IO和比较。
在您的情况下,您使用的是near
,它将按从近到下的顺序返回所有结果。您应该使用range
来过滤这些结果并加快查询速度。
near
用于在结果接近特定值(可以模拟排序)时为您的结果评分更高。例如,如果您想对“ awards.wins”得分更高的结果进行评分,您可能希望添加一个near : { origin: 10000,pivot: 1}
,则该值越接近10000
得分就越高。
new BsonArray
{
new BsonDocument("$search",new BsonDocument
{
{ "index","nostoreindex" },{ "compound",new BsonDocument
{
{ "must",new BsonDocument("range",new BsonDocument
{
{ "path","year" },{ "gte",2000 },{ "lte",2000 }
}) },{ "must",new BsonDocument("text",new BsonDocument
{
{ "query","poor" },{ "path","title" }
}) },{ "should","awards.nominations" },1 }
}) },"awards.wins" },1 }
}) }
} }
})
}