问题描述
我正在尝试在Python中使用Tesseract-OCR和OpenCV提取图像的文本部分。我已经附上了一个示例图片,如下所示:
它不能正确捕获'['和']'。该图像的提取输出为( testScreenshot ):
Elektronik Mühendisliği Bölümü
Ozturkfat)osmaniye.edu.tr
0328 8271000
预期结果为 [at]
,而不是 fat)
。如果我将语言改为英语而不是土耳其语,则会捕获 fat]
。你不是这很奇怪吗?如何使用土耳其语设置正确捕获为 [at]
?
预先感谢
from PIL import Image
import PyTesseract
plainText = PyTesseract.image_to_string(Image.open(testScreenshot),lang='tur',config=tessdata_dir_config)
print(plainText)
编辑:如果我只给出'['和']',它也不会捕获在括号内。输入图像示例为:
输出:
rolfat)
rolfat)
如您所见,图像的右半部分([at])未捕获,因为我删除了开头的文本(rol)。不知何故,它对[和]的字符敏感。与其他字符相比,它们在图像上可能更清晰。这可能是一个原因吗?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)