问题描述
我需要启用Sphinx的index_sp(句子和段落索引功能),以便我可以执行“ Word1句子Word2”搜索,即其中两个单词存在于同一句子中,因为当前该单词不起作用并且根据文档对于Sphinx Extended Query Syntax,这是SENTENCE运算符的要求。
但是,由于Sphinx在匹配是否有效以及功能组合方面是如此微妙,并且由于它不是内置选项,所以我想知道是否有经验的人可以告诉我除了尺寸大小以外还有哪些弊端/索引速度,可能是因为我讨厌打破正常的比赛。
解决方法
关于扩展查询语法的情况。您几乎肯定会使用它。它是sphinx唯一的模式(无论如何,早期版本的确有多种查询模式) ...所以它本身不应该令人恐惧。
可能是index_sp的更大问题,它是由HTML Stripper实现的,因此也需要启用html_strip = 1。这很可能会改变查询的行为。 (如果仍然有HTML!)
唯一知道index_sp可能会影响事物的地方是“跨句短语匹配”。
没有index_sp,类似“一二”的查询将匹配文本[一。二],但使用index_sp不会。即。已分成情感,因此不再匹配“短语”。这可能是一件好事,但这是一个改变。 在某些情况下,这可能会影响不是真正的情感分隔符的事物。例如。当它不是真正的句号时,可以分解情感。 Sphinx是一种比较好的制动情绪算法,但并不完美。