如何在Tika中忽略扫描的图像

我正在尝试在tika中解析pdf文件。在一些手写的扫描文档中，tika正在解析文件并返回没有意义的垃圾文本。我正在使用here中的python tika包装器。有什么方法可以忽略包含图像的pdf。 Tesseract OCR解析器已关闭。解析文件后，它不会显示在元数据中。

要忽略内联图像，应使用标志“ X-Tika-PDFextractInlineImages：false”

<h1>{{ blog.author.name }} says: </h1>
<h2>{{ blog.title }}</h2>
<p>
    {{ blog.content }}
</p>
<img src="{{ blog.image_path }}">

但老实说，将值设置为false仅对“本地pdf”有意义。

对于扫描的文档，此标志必须设置为true 改善流程的唯一方法是打开ocr并使用OcrStrategy：OCR_ONLY