tesseract是否可以识别图像中不一定是真实单词或与任何人类语言绑定的字母序列?

问题描述

我正在尝试使用tesseract在Python中做到这一点,但它似乎取决于语言能否推断出字符(这是有道理的。)

它是由14个字母组成的序列,带有任何可打印的前800个2字节utf8字符,但是即使识别(OCR)限于latin-1(或更少)字符,也是可以的。

根据此question,似乎不需要适当的单词,但是安装程序要求使用特定语言的培训集。

ps。需要澄清的是: OCR(至少在学术环境中)利用上下文和字典来发现困难的字母。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)