使用Tesseract-OCR和OpenCV进行字符识别无法捕获'['和']'

问题描述

我正在尝试在Python中使用Tesseract-OCR和OpenCV提取图像的文本部分。我已经附上了一个示例图片,如下所示:

enter image description here

它不能正确捕获'['和']'。该图像的提取输出为( testScreenshot ):

Elektronik Mühendisliği Bölümü 
Ozturkfat)osmaniye.edu.tr 
0328 8271000

预期结果为 [at] ,而不是 fat) 。如果我将语言改为英语而不是土耳其语,则会捕获 fat] 。你不是这很奇怪吗?如何使用土耳其语设置正确捕获为 [at] ? 预先感谢

from PIL import Image
import PyTesseract
plainText = PyTesseract.image_to_string(Image.open(testScreenshot),lang='tur',config=tessdata_dir_config)
print(plainText)

编辑:如果我只给出'['和']',它也不会捕获在括号内。输入图像示例为:

enter image description here

输出

rolfat)
rolfat)

如您所见,图像的右半部分([at])未捕获,因为我删除了开头的文本(rol)。不知何故,它对[和]的字符敏感。与其他字符相比,它们在图像上可能更清晰。这可能是一个原因吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)