使用Tesseract-OCR和OpenCV进行字符识别无法捕获'['和']'

问题描述

我正在尝试在Python中使用Tesseract-OCR和OpenCV提取图像的文本部分。我已经附上了一个示例图片，如下所示：

它不能正确捕获'['和']'。该图像的提取输出为（ testScreenshot ）：

Elektronik Mühendisliği Bölümü 
Ozturkfat)osmaniye.edu.tr 
0328 8271000

预期结果为 [at] ，而不是 fat) 。如果我将语言改为英语而不是土耳其语，则会捕获 fat] 。你不是这很奇怪吗？如何使用土耳其语设置正确捕获为 [at] ？预先感谢

from PIL import Image
import PyTesseract
plainText = PyTesseract.image_to_string(Image.open(testScreenshot),lang='tur',config=tessdata_dir_config)
print(plainText)

编辑：如果我只给出'['和']'，它也不会捕获在括号内。输入图像示例为：

输出：

rolfat)
rolfat)

如您所见，图像的右半部分（[at]）未捕获，因为我删除了开头的文本（rol）。不知何故，它对[和]的字符敏感。与其他字符相比，它们在图像上可能更清晰。这可能是一个原因吗？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

ocr opencv python-imaging-library python-tesseract tesseract