导入富文档时是否有SOLR的最佳实践schema.xml?

我正在与SOLR合作开展一个项目,我们导入一堆(约40k项)丰富的文档,主要是MS Word,Powerpoint,Excel和PDF.

在使用ExtractingRequestHandler时,是否有最佳实践schema.xml和/或solrconfig.xml在SOLR中使用?

我一直在对认模式进行调整,以尝试在日期修改时间上进行工作,但即使没有这个,我认为很可能存在一个很好的例子,说明当Tika的输出足够时这些文件应该如何.

如果没有最佳实践schema.xml和/或solrconfig.xml这样的东西,我也会对好的例子感兴趣,最好是从现有的开源项目甚至是好的博客文章.

欢迎任何指示!

解决方法

在书籍驯服文本(http://www.manning.com/ingersoll/)中你有一些参考
ExtractingRequestHandler.本书是关于使用solr,tika或lucene等开源工具处理文本的.

我读到第5章,到现在为止,本书解释了如何通过修改文件schema.xml来创建不同类型的字段以及在查询或索引中处理来扩展solr功能.

相关文章

php输出xml格式字符串
J2ME Mobile 3D入门教程系列文章之一
XML轻松学习手册
XML入门的常见问题(一)
XML入门的常见问题(三)
XML轻松学习手册(2)XML概念