如何为300,000个文本文件建立索引以进行搜索?

问题描述

| 我有超过300,000个文本和html文件的静态集合。我希望能够在其中搜索单词,精确短语和理想的正则表达式模式。我希望搜索速度快。 我认为可以通过查找包含每个单词的文件的唯一单词字典来搜索单词和短语,但是有没有办法使正则表达式快速匹配? 如果存在的话,我不介意使用现有的软件。     

解决方法

        考虑Lucene http://lucene.apache.org/java/docs/index.html     ,        市场上有很多可以帮助您实现所需目标的工具,有些是开源的,有些带有定价的: 开源: elasticsearch-基于lucene constellio-基于lucene Sphinx-基于C ++ Solr-建立在lucene之上     ,        您可以查看Microsoft Search Server Express 2010:http://www.microsoft.com/enterprisesearch/searchserverexpress/zh-CN/us/technical-resources.aspx     ,        http://blog.webdistortion.com/2011/05/29/open-source-search-engines/     

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...