在包含文本的 PDF 上使用 Document AI 仍然包含文本错误

问题描述

使用 Document AI Processor 从 PDF(英语、德语、意大利语)中提取文本效果很好,但有时 OCR 不匹配。特别是在“单词”不是字典中的单词,而是包含字母和数字的部件号的问题时尤其如此(主要是 O 0 L 1 5 S)。有没有办法告诉 Document AI 使用 PDF 中包含的文本(作为文本)。据我所知,Document AI 使用 PDF 页面的图像来识别内容

是否有任何标志可以自定义 Document AI 以使用文本版本或任何其他想法? 我需要使用 Document AI,因为我希望以正确的方式提取文本的结构。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)