使用Sphinx进行多语言全文搜索

问题描述

我已经能够设置狮身人面像进行英语全文搜索。但是,我所需要的是多语言文本(印地文-英文),需要在其上创建索引。

关于如何在狮身人面像中实现这一点,我找不到很多。

还是我需要切换到其他数据库

解决方法

通常,您只需要设置charset_table即可包含要搜索的所有单词字符 http://sphinxsearch.com/docs/current/conf-charset-table.html

遗憾的是,默认设置实际上只为英语和俄语定义了良好的字符集表-可以自己为其他语言实现charset_table规则。

维基 http://sphinxsearch.com/wiki/doku.php?id=charset_tables 是否有梵文清单可能有用?

Manticore搜索(在注释中提到)默认情况下确实具有更详细的charset_tables。它的默认“ non_cjk”应支持印地语。可以只在Manticore中使用它,也可以(稍作努力)将其反向移植并在Sphinx中使用。 https://github.com/manticoresoftware/manticoresearch/tree/master/src/charsets

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...