我正在与SOLR合作开展一个项目,我们导入一堆(约40k项)丰富的文档,主要是MS Word,Powerpoint,Excel和PDF.
在使用ExtractingRequestHandler时,是否有最佳实践schema.xml和/或solrconfig.xml在SOLR中使用?
我一直在对默认模式进行调整,以尝试在日期修改时间上进行工作,但即使没有这个,我认为很可能存在一个很好的例子,说明当Tika的默认输出足够时这些文件应该如何.
如果没有最佳实践schema.xml和/或solrconfig.xml这样的东西,我也会对好的例子感兴趣,最好是从现有的开源项目甚至是好的博客文章.
欢迎任何指示!