问题描述
我正在尝试使用tesseract在Python中做到这一点,但它似乎取决于语言能否推断出字符(这是有道理的。)
它是由14个字母组成的序列,带有任何可打印的前800个2字节utf8字符,但是即使识别(OCR)限于latin-1(或更少)字符,也是可以的。
根据此question,似乎不需要适当的单词,但是安装程序要求使用特定语言的培训集。
ps。需要澄清的是: OCR(至少在学术环境中)利用上下文和字典来发现困难的字母。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)