Tika Server 无法读取 PDF 中的嵌入图像

Hi Tika Server 已使用 tesseract 进行设置，但仍无法读取 PDF 中的嵌入图像。尝试使用两个可用的标题，但没有帮助。

这仅适用于 PDF 文件。而 OCR 适用于其他文件类型/图像。

在这里使用定制的 docker 容器。奇怪的是，部署在另一台机器上的同一个容器可以工作。有没有低级问题的可能？

更新： 比较日志后，似乎 OCP 正在将自定义 HTTP 标头小写，例如 X-Tika...、Postman-Token 到 x-tika...、postman-token 等。谁能帮助我解决可能的问题？

似乎 OCP 将自定义标头小写是导致此问题的原因。 TikaServer 1.25 不支持不区分大小写的 X-Tika 标头。

pdfParserConfig.setExtractInlineImages(true);
pdfParserConfig.setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY);`

将pdf扫描的文档转成图片然后发送到tesseract