问题描述
|
我有超过300,000个文本和html文件的静态集合。我希望能够在其中搜索单词,精确短语和理想的正则表达式模式。我希望搜索速度快。
我认为可以通过查找包含每个单词的文件的唯一单词字典来搜索单词和短语,但是有没有办法使正则表达式快速匹配?
如果存在的话,我不介意使用现有的软件。
解决方法
考虑Lucene http://lucene.apache.org/java/docs/index.html
, 市场上有很多可以帮助您实现所需目标的工具,有些是开源的,有些带有定价的:
开源:
elasticsearch-基于lucene
constellio-基于lucene
Sphinx-基于C ++
Solr-建立在lucene之上
, 您可以查看Microsoft Search Server Express 2010:http://www.microsoft.com/enterprisesearch/searchserverexpress/zh-CN/us/technical-resources.aspx
, http://blog.webdistortion.com/2011/05/29/open-source-search-engines/