linux – tesseract(v3.03)输出为PDF

为什么会返回此错误

root@amd-3700-2gb ~/ocr_test # tesseract -l dan pdf.png out pdf
Tesseract Open Source OCR Engine v3.03 with Leptonica
Error opening data file /usr/local/share/tessdata/osd.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'osd'
Tesseract Couldn't load any languages!
Warning: Auto orientation and script detection requested,but osd language Failed to load

语言清单

root@amd-3700-2gb ~/ocr_test # tesseract --list-langs
List of available languages (3):
eng
dan
dan-frak

输出为txt

这很好,输出文本到out.txt

tesseract -l dan pdf.png out

输出PDF

这会创建out.pdf,但也会返回提到的错误,并且PDF中的可搜索文本没有意义

tesseract -l dan pdf.png out pdf

解决方法

错误消息很明确:它需要osd.traineddata文件.您可以安装或下载Orientation&来自 https://github.com/tesseract-ocr/tessdata的Tesseract脚本检测数据.

相关文章

/etc/sysctl.conf这个目录主要是配置一些系统信息,/etc/sys...
1.作用 useradd或adduser命令用来建立用户帐号和创建用户的起...
它们都是多模式编辑器,不同的是vim 是vi的升级版本,它不仅...
不管是我们在安装软件还是监测软件的使用性能,我们都要随时...
装好Tomcat7后,发现除了本机能访问外界访问不了,岂有此理。...
修改防火墙配置需要修改 /etc/sysconfig/iptables 这个文件,...