问题描述
我正在尝试在Python中使用Tesseract-OCR和OpenCV提取图像的文本部分。我已经附上了一个简单的图片,如下所示。我已经在油漆上创建了此图像,这意味着没有噪音或预处理需求。
场景1:
import PyTesseract
plainText = PyTesseract.image_to_string(Image.open(testScreenshot),lang='tur',config=tessdata_dir_config)
print(plainText)
输出:
İtestöü)
方案2:
import PyTesseract
plainText = PyTesseract.image_to_string(Image.open(testScreenshot),lang='eng',config=tessdata_dir_config)
print(plainText)
输出:
[testou]
仍然,我无法正确捕获非常简单的文本。如果我更改语言设置,它将捕获括号,但是会错过可接受的土耳其语字符。但是,具有土耳其语设置(方案1)的那个是不可接受的,因为它缺少括号。有什么建议吗?
tesseract v5.0.0-alpha.20200328
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)