如何在Tika中忽略扫描的图像

问题描述

我正在尝试在tika中解析pdf文件。在一些手写的扫描文档中,tika正在解析文件并返回没有意义的垃圾文本。我正在使用here中的python tika包装器。有什么方法可以忽略包含图像的pdf。 Tesseract OCR解析器已关闭。解析文件后,它不会显示在元数据中。

解决方法

要忽略内联图像,应使用标志“ X-Tika-PDFextractInlineImages:false”

<h1>{{ blog.author.name }} says: </h1>
<h2>{{ blog.title }}</h2>
<p>
    {{ blog.content }}
</p>
<img src="{{ blog.image_path }}">

但老实说,将值设置为false仅对“本地pdf”有意义。

对于扫描的文档,此标志必须设置为true 改善流程的唯一方法是打开ocr并使用OcrStrategy:OCR_ONLY