问题描述
我正在使用Apache Tika进行文本提取,并且必须处理扫描的PDF图像。所以我正在尝试Tesseract,但在通过良好的默认设置找到任何好的资源时遇到了问题...?
我也遇到了奇怪的后处理工件:
我明白了:
“ och ptensionskos nader”
来自这张图片:
实际上,似乎有些后期处理已将t移至单词的开头,而将其留为空白。对我来说似乎很奇怪,除非有一些非常差的后处理设置,否则为什么要这样做。
这些是我在Apache Tika中的基本设置:
val pdfConfig: PDFParserConfig = {
val pdfConf = new PDFParserConfig()
pdfConf.setocrDPI(150)
pdfConf.setDetectAngles(false)
pdfConf.setocrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY)
pdfConf
}
val tesseractOCRConfig: TesseractOCRConfig = {
val tessConf = new TesseractOCRConfig()
tessConf.setLanguage("eng+swe")
tessConf.setEnableImageProcessing(1)
tessConf.setResize(100) // 100-900 - lower faster.
// tessConf.setApplyRotation(true)
tessConf
}
任何帮助都受到赞赏!
解决方法
跳过/包含内部图像处理也是pdf配置中的重要属性
pdfConf.setExtractInlineImages(true) //for the scanned pdf setting it to false has no sense
在TesseractOCRConfig中,usefil也是setTimeout()