什么是决定何时使用OCR解析文档的有效方法？

问题描述

我正在使用Apache Tika解析20.000多个文档。我还使用Tesseract对文档进行OCR，因为有些文档是扫描或屏幕截图，我也需要提取它们。不过，使用OCR Tesseract解析所有文档将需要几天时间。例如，17个文档只用文本花费了12秒，而启用OCR则花费了20分钟。我现在正在考虑一种识别方法，使用OCR对文档进行天气分析是否值得，也许基于Tika Text输出。

例如如果要扫描PDF，Tika不会使用text_only选项提取任何内容，所以我将使用OCR进行另一次扫描。

如果我收到很多文本并且图片主要是公司徽标等，则不必解析PDF。（我不确定如何自动看到它）

如果是.pptx，我可能会从标题和项目符号处得到一些文本，但是我可能需要图形中的文本。

您是否知道可以基于什么标准来确定天气是否值得使用OCR进行解析？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-tika ocr runtime tesseract