想要将tika解析配置为仅对PDF执行OCR

问题描述

我正在尝试操纵tika配置文件(使用tika服务器)以从OCR处理中排除除PDF之外的所有文档。我尝试了多种组合,例如从默认解析器中排除OCR,但将PDF解析器配置为进行内联处理。我尝试配置自动策略。我从默认解析器中排除了PDF和Tesseract。没有运气。我最终运行了两个tika实例,一个实例配置了OCR,一个实例没有配置,并在代码中基于扩展名将文件定向到另一个。我正在使用python tika客户端。有没有更好的办法?更一般而言,是否有全面的指南来配置tika中的解析器参数?我所看到的大部分都是零碎的。谢谢。

解决方法

您知道ocrStrategy吗?

pdfParserConfig.setOcrStrategy(ocrStrategy)

ocrStrategy是枚举-OCRStrategy

您可以为pdf设置值OCR_ONLY 和NO_OCR用于其他文档

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...