识别pdf类型

问题描述

Apache Tika中是否可以检查pdf类型:纯pdf(纯)或扫描的pdf?

如果不是这样,我可以以某种方式在蒂卡(Tika)引擎盖下使用的tesseract中进行检查

解决方法

到目前为止,我还没有找到确定要扫描的文件是pdf扫描文件还是本机文件的正确解决方案,但是我找到了一种对我有用的解决方法

我尝试在没有OCR和内部图像的情况下提取文本

pdfParserConfig.setExtractInlineImages(false);
pdfParserConfig.setOcrStrategy(NO_OCR);`

对于本机pdf来说,它运行很快且效果很好。因此,当提取的文本不为空时,我会将源文档视为本机文档。在其他情况下(空白响应)是扫描的pdf,然后我使用OCR策略检索文本