Nutch+Solr:如何索引嵌入在 HTML 中的 PDF?

问题描述

我正在使用 Nutch+Solr 为内部搜索栏索引我的网站。该网站有许多带有嵌入 PDF 的 HTML 页面,我希望 PDF 中的文本显示搜索中。在 HTML 中索引文本工作正常,我可以单独索引 PDF,但我想要一个单独的 Solr 文档,其中包含来自 HTML 的文本及其嵌入的 PDF。有没有办法做到这一点?

PDF 的嵌入方式如下:

<object data="path/to/document.pdf#view=FitH" type="application/pdf" width="100%" height="700">
</object>

我想知道该解决方案是否与 Tika 的 EmbeddedDocumentExtractor 有关。但是,我不知道如何在 Nutch 或 Solr 中更改 Tika 的配置。

解决方法

Tika 将 PDF 文件视为链接,EmbeddedDocumentExtractor 用于通过 data URIs 内联的内容。嵌入 PDF 需要修改 Tika 的 HtmlHandler 或 Nutch 的 parse-tika 插件。请注意,Nutch 尚未处理 <object> 元素中的链接,将在 NUTCH-2880 中处理。