OCR不再是问题吗？

根据 Wikipedia,“对拉丁文字的准确识别,打字文本现在被认为是在可以获得清晰成像的应用程序(如扫描打印文档)上的解决问题.”但是,它没有引用.

我的问题是：这是真的吗？目前最先进的技术是如此优秀 – 对于良好的英文文本扫描 – 没有任何重大改进吗？

或者,这个问题的一个不那么主观的形式是：现代OCR系统在识别英文文本以获得高质量扫描时有多准确？

简单地考虑将足够高质量的2d位图分解为矩形,每个矩形包含一组表现良好的,预先指定的字体(参见Omnifont)之一的识别的拉丁字符,这是一个已解决的问题.

开始玩那些参数,例如,古怪的未知字体,嘈杂的扫描,亚洲字符,它开始变得有点片状或需要额外的输入.许多着名的Ominfont系统都不能很好地处理连字.

OCR的主要问题是理解输出.如果这是一个已解决的问题,谷歌图书将提供完美的结果.

相关文章