使用Apache Tika进行合理的Tesseract OCR设置…？

问题描述

我正在使用Apache Tika进行文本提取，并且必须处理扫描的PDF图像。所以我正在尝试Tesseract，但在通过良好的默认设置找到任何好的资源时遇到了问题...？

我也遇到了奇怪的后处理工件：

我明白了：

“ och ptensionskos nader”

来自这张图片：

实际上，似乎有些后期处理已将t移至单词的开头，而将其留为空白。对我来说似乎很奇怪，除非有一些非常差的后处理设置，否则为什么要这样做。

这些是我在Apache Tika中的基本设置：

    val pdfConfig: PDFParserConfig = {
      val pdfConf = new PDFParserConfig()
      pdfConf.setocrDPI(150)
      pdfConf.setDetectAngles(false)
      pdfConf.setocrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY)
      pdfConf
    }

    val tesseractOCRConfig: TesseractOCRConfig = {
      val tessConf = new TesseractOCRConfig()
      tessConf.setLanguage("eng+swe")
      tessConf.setEnableImageProcessing(1)
      tessConf.setResize(100) // 100-900 - lower faster.
      // tessConf.setApplyRotation(true)
      tessConf
    }

任何帮助都受到赞赏！

解决方法

跳过/包含内部图像处理也是pdf配置中的重要属性

pdfConf.setExtractInlineImages(true) //for the scanned pdf setting it to false has no sense

在TesseractOCRConfig中，usefil也是setTimeout（）

apache-tika tesseract tesseract tesseract