什么是决定何时使用OCR解析文档的有效方法?

问题描述

我正在使用Apache Tika解析20.000多个文档。我还使用Tesseract对文档进行OCR,因为有些文档是扫描或屏幕截图,我也需要提取它们。 不过,使用OCR Tesseract解析所有文档将需要几天时间。例如,17个文档只用文本花费了12秒,而启用OCR则花费了20分钟。 我现在正在考虑一种识别方法,使用OCR对文档进行天气分析是否值得,也许基于Tika Text输出。

例如如果要扫描PDF,Tika不会使用text_only选项提取任何内容,所以我将使用OCR进行另一次扫描。

如果我收到很多文本并且图片主要是公司徽标等,则不必解析PDF。(我不确定如何自动看到它)

如果是.pptx,我可能会从标题和项目符号处得到一些文本,但是我可能需要图形中的文本。

您是否知道可以基于什么标准来确定天气是否值得使用OCR进行解析?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...