识别pdf类型

Apache Tika中是否可以检查pdf类型：纯pdf（纯）或扫描的pdf？

如果不是这样，我可以以某种方式在蒂卡（Tika）引擎盖下使用的tesseract中进行检查

到目前为止，我还没有找到确定要扫描的文件是pdf扫描文件还是本机文件的正确解决方案，但是我找到了一种对我有用的解决方法

我尝试在没有OCR和内部图像的情况下提取文本

pdfParserConfig.setExtractInlineImages(false);
pdfParserConfig.setOcrStrategy(NO_OCR);`

对于本机pdf来说，它运行很快且效果很好。因此，当提取的文本不为空时，我会将源文档视为本机文档。在其他情况下（空白响应）是扫描的pdf，然后我使用OCR策略检索文本