如何使用 Apache Tika Server 从 PDF 中提取内嵌图像并将它们保存为文件？

问题描述

有没有办法做到这一点？我在对 http://localhost:9998/tika

的 PUT 请求中使用以下标头

"Content-Type","application/pdf"
"X-Tika-OCRLanguage","eng"
"X-Tika-PDFextractInlineImages","true"
"X-Tika-PDFOcrStrategy","no_ocr"

响应会包含图像吗？如果是这样，我该如何保存它们？

使用 Apache Tika 服务器 1.26

解决方法

响应将是字符串而不是图像标志：PDFOcrStrategy 告诉 tika 使用 ocr（tesseract）或仅尝试从没有 ocr 的文档中提取文本 - 对原生 pdf 很有用

标志：PDFextractInlineImages 告诉 tika 忽略/包含嵌入的图像

所以当你有扫描的pdf时，你应该使用
"X-Tika-PDFextractInlineImages","true" "X-Tika-PDFOcrStrategy","ocr_only" 对于原生 pdf "X-Tika-PDFextractInlineImages","false" "X-Tika-PDFOcrStrategy","no_ocr" 但在这两种情况下，tika 都会返回文本

如果您想从 pdf 文档 IMO 中获取图像，您应该使用 pdf box 或类似的库。 tika 的目标是从输入中返回文本

apache-tika tika-server