我想为我的网站做一个搜索选项,为了好玩,我决定我至少应该尝试自己制作(如果我失败了,总会有谷歌自定义搜索).
问题是,我甚至不知道如何接近这个怪物!以下是要求:
>搜索中不需要所有关键词(如果搜索“大幸福世界”,它还会搜索“大世界”“快乐世界”等)
>常见的拼写错误注意事项(来自数据库,通过编辑差异或预定义的常见错误列表(而不是等于=&而不是等).
>搜索帖子的内容和标题,并在标题上进行检查.
>不要吮吸
我搜索了我的老朋友谷歌,但我发现的唯一合理的事情是关于这个主题的学术水平的论文(英语不是我的母语,我很好,但不是那么好=().
简而言之:有没有人知道一个好的起点,一个教程,一篇文章,一个例子?
提前致谢.
解决方法
如果您想创建自己的搜索引擎,apache lucene是一个成熟的开源库,可以为您处理大部分功能.
使用lucene,首先索引您的信息[使用IndexWriter].这是离线完成,以创建索引.
在serach上 – 您使用IndexSearcher查找与您的查询匹配的文档.
如果你想要一些关于“它是如何工作”的理论知识,你应该在information retrieval阅读更多.一个好的起点是stanford的introduction to information retrieval