问题描述
我需要使用 AWS Textract 从账单副本中提取表格信息。每次都给我几乎完美的结果,但对于一些PDF文档,它没有给我第二页的表格结果。
使用的代码示例:AWS Official Documentation
第一页的图像(JPEG)是
因此,AWS 将前 20 个条目输出为 CSV。但是对于图像的第二页,CSV 的结果是:
最重要的是,我在类似类型的 PDF 中发现了相同的结果,其中有 21 个条目,并且一个条目存在于 PDF 的第二页上。我已经使用 PyPDF2 将 pdf 页面合并为一页,但没有解决我的问题。我需要使用任何 OpenCV 工具吗? 请就此类问题向我提出任何可能的建议。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)