使用Apache Tika进行合理的Tesseract OCR设置…?

问题描述

我正在使用Apache Tika进行文本提取,并且必须处理扫描的PDF图像。所以我正在尝试Tesseract,但在通过良好的认设置找到任何好的资源时遇到了问题...?

我也遇到了奇怪的后处理工件:

我明白了:

“ och ptensionskos nader”

来自这张图片

input

实际上,似乎有些后期处理已将t移至单词的开头,而将其留为空白。对我来说似乎很奇怪,除非有一些非常差的后处理设置,否则为什么要这样做。

这些是我在Apache Tika中的基本设置:

    val pdfConfig: PDFParserConfig = {
      val pdfConf = new PDFParserConfig()
      pdfConf.setocrDPI(150)
      pdfConf.setDetectAngles(false)
      pdfConf.setocrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY)
      pdfConf
    }

    val tesseractOCRConfig: TesseractOCRConfig = {
      val tessConf = new TesseractOCRConfig()
      tessConf.setLanguage("eng+swe")
      tessConf.setEnableImageProcessing(1)
      tessConf.setResize(100) // 100-900 - lower faster.
      // tessConf.setApplyRotation(true)
      tessConf
    }

任何帮助都受到赞赏!

解决方法

跳过/包含内部图像处理也是pdf配置中的重要属性

pdfConf.setExtractInlineImages(true) //for the scanned pdf setting it to false has no sense

在TesseractOCRConfig中,usefil也是setTimeout()