在包含文本的 PDF 上使用 Document AI 仍然包含文本错误

问题描述

使用 Document AI Processor 从 PDF（英语、德语、意大利语）中提取文本效果很好，但有时 OCR 不匹配。特别是在“单词”不是字典中的单词，而是包含字母和数字的部件号的问题时尤其如此（主要是 O 0 L 1 5 S）。有没有办法告诉 Document AI 使用 PDF 中包含的文本（作为文本）。据我所知，Document AI 使用 PDF 页面的图像来识别内容。

是否有任何标志可以自定义 Document AI 以使用文本版本或任何其他想法？我需要使用 Document AI，因为我希望以正确的方式提取文本的结构。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

cloud-document-ai pdf pdf pdf