Textract是否可以将pdf图像渲染为excel数据表?

问题描述

我有一个数据表的pdf文件,但这只是一张图像。意思是说,我无法从中复制和粘贴值,并且无法使用OCR。有没有一种方法可以使用textract(或其他服务)将数据表转换为Excel?

解决方法

您可以在部分内容中使用textract,但是无法很好地构造结果。例如,您可以将包含“行”的文本块列出一长串,但是您将需要一种类似于在PDF原始数据表中对其进行结构化的结构。尤其是最后一部分,使这个问题变得颇具挑战性。