问题描述
我正在将扫描的 PDF 传递到 Google Cloud Document AI OCR。 JSON 响应(或使用 Python API 时返回的 Document 对象)包含结构化格式的 PDF 内容,如 here 所述。我也希望能够输出 PDF 文件(或者 XML,如果更容易的话)。有这样的功能吗?感谢有关可能实现的任何提示。
注意:在我的任务之前,PDF 已经被另一个工具 OCR,但质量不如 Document AI OCR。
谢谢
解决方法
如果其他人正在寻找这个,请分享。 我找到了这个存储库 gcv2hocr,它有一个脚本可以将 Google Cloud Vision 响应(用于图像输入)转换为 hOCR 格式。然后可以使用 hocr-tools 将 hOCR 输出转换为其他格式,包括 PDF。
我认为调整此代码以处理 DocumentAI 响应不会很困难。