AWS Textract 无法识别 PDF 文档第二页的表格

问题描述

我需要使用 AWS Textract 从账单副本中提取表格信息。每次都给我几乎完美的结果,但对于一些PDF文档,它没有给我第二页的表格结果。

使用的代码示例:AWS Official Documentation 第一页的图像(JPEG)是

first

第二页的图像(JPEG)是

second

因此,AWS 将前 20 个条目输出为 CSV。但是对于图像的第二页,CSV 的结果是:

csv output of second page

最重要的是,我在类似类型的 PDF 中发现了相同的结果,其中有 21 个条目,并且一个条目存在于 PDF 的第二页上。我已经使用 PyPDF2 将 pdf 页面合并为一页,但没有解决我的问题。我需要使用任何 OpenCV 工具吗? 请就此类问题向我提出任何可能的建议。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)