问题描述
我想知道有哪些索引库会 适用于代码文档站点,您不能在其中 忽略“标点符号”是无关紧要的。 (在一些 我感兴趣的语言,标点符号可以是的一部分 重要的“词”,例如 Raku 中的一些标准方法名称,例如 “^方法”、“^mro”等)
完整的 unicode/utf-8 支持也很重要,但我怀疑 这是现代软件包中给出的。
解决方法
Manticore Search 是合适的,因为:
- 它支持 low-level tokenization 微调,这对
can't just ignore "punctuation" as insignificant
很重要 - searchdcode.com uses Manticore Search as a backend 证明它也适用于您的情况