想要将tika解析配置为仅对PDF执行OCR

问题描述

我正在尝试操纵tika配置文件（使用tika服务器）以从OCR处理中排除除PDF之外的所有文档。我尝试了多种组合，例如从默认解析器中排除OCR，但将PDF解析器配置为进行内联处理。我尝试配置自动策略。我从默认解析器中排除了PDF和Tesseract。没有运气。我最终运行了两个tika实例，一个实例配置了OCR，一个实例没有配置，并在代码中基于扩展名将文件定向到另一个。我正在使用python tika客户端。有没有更好的办法？更一般而言，是否有全面的指南来配置tika中的解析器参数？我所看到的大部分都是零碎的。谢谢。

解决方法

您知道ocrStrategy吗？

pdfParserConfig.setOcrStrategy(ocrStrategy)

ocrStrategy是枚举-OCRStrategy

您可以为pdf设置值OCR_ONLY 和NO_OCR用于其他文档

apache-tika ocr pdf pdf

想要将tika解析配置为仅对PDF执行OCR

问题描述

解决方法

相关问答