Nutch+Solr：如何索引嵌入在 HTML 中的 PDF？

问题描述

我正在使用 Nutch+Solr 为内部搜索栏索引我的网站。该网站有许多带有嵌入 PDF 的 HTML 页面，我希望 PDF 中的文本显示在搜索中。在 HTML 中索引文本工作正常，我可以单独索引 PDF，但我想要一个单独的 Solr 文档，其中包含来自 HTML 的文本及其嵌入的 PDF。有没有办法做到这一点？

PDF 的嵌入方式如下：

<object data="path/to/document.pdf#view=FitH" type="application/pdf" width="100%" height="700">
</object>

我想知道该解决方案是否与 Tika 的 EmbeddedDocumentExtractor 有关。但是，我不知道如何在 Nutch 或 Solr 中更改 Tika 的配置。

解决方法

Tika 将 PDF 文件视为链接，EmbeddedDocumentExtractor 用于通过 data URIs 内联的内容。嵌入 PDF 需要修改 Tika 的 HtmlHandler 或 Nutch 的 parse-tika 插件。请注意，Nutch 尚未处理 <object> 元素中的链接，将在 NUTCH-2880 中处理。

apache-tika html nutch nutch pdf pdf pdf solr solr solr