在 Solr 中使用不同语言的停用词

问题描述

Solr 在托管架构中为不同语言(如英语、法语、日语等)提供了一些现成的数据类型。

我们使用通用数据类型“text_general”进行字段声明,并使用 stopwards.txt 进行停用词过滤。

    <analyzer type="index">
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
      <filter class="solr.LowerCaseFilterFactory"/>
      <filter class="solr.EdgeNGramFilterFactory" maxGramSize="20" minGramSize="1"/>
    </analyzer>
    <analyzer type="query">
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
      <filter class="solr.SynonymGraphFilterFactory" expand="true" ignoreCase="true" synonyms="synonyms.txt"/>
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
  </fieldType>

在将数据同步到 Solr 核心时,我们正在导入法语、英语、德语蚀刻等领域的不同语言文本。

我的问题是我们是否应该将所有不同语言的停用词使用到同一个“stopwards.txt”文件中,或者 solr 如何使用不同的语言停用词?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)