中文查询导致异常高的召回率

问题描述

我们遇到中文查询的意外高召回率。我设法使用仅具有2个属性的简单数据模型重现了最小的用例。

禁止复制

  1. 使用zh-Hans.microsoft分析器为中文产品说明定义属性DescriptionZhCn

  2. 使用DescriptionZhCn

    中的以下值填充两个记录

    Contoso减振接杆

    Contoso缩径接柄

  3. 使用以下选项进行搜索:searchMode = all,queryType = full,searchFields = DescriptionZhCn,api-version = 2019-05-06,搜索参数中包含以下值:

    减振接杆

    缩径接柄

预期

搜索减振接杆时,我只希望记录描述为“ Contoso减振接杆”。在搜索缩径接柄时,我只希望记录“ Contoso缩径接柄”。

实际

搜索减振接杆或缩径接柄意外地返回了两条记录。唯一的普通字符是第三个字符接。

我已经验证了zh-Hans.microsoft分析器的输出,它将两个中文字符串都分成4个标记。例如

减振接杆 => 减 振 接 杆

我的查询仅匹配标记之一。我正在使用searchMode = all。为什么我的查询匹配?这是一个错误吗?任何输入YanooshLiam

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)