使用python将pdf文件转换为带有表格中图像的excel

问题描述

我需要转换的 pdf 文件将在表格中包含图像。我想将pdf表格中的文本和图像转换为excel。请为我推荐合适的库。

解决方法

您需要编写一个脚本来读取和检测字符和 Excel 单元格。您也许可以使用 open-cv 和内置字符识别工具来做到这一点,但我不知道这有多容易。我能想到的另一种方法是制作一个 ML 模型,该模型将从图像中识别 Excel 表格。不过这真的很难,需要很多经验。

,

您可以使用 PikePDF 从 pdf 中提取图像:

from pikepdf import Pdf,PdfImage

filename = "sample.pdf"
example = Pdf.open(filename)

for i,page in enumerate(example.pages):
    for j,(name,raw_image) in enumerate(page.images.items()):
        image = PdfImage(raw_image)
        out = image.extract_to(fileprefix=f"{filename}-page{i:03}-img{j:03}")

提取图像后,您可以使用 OCR 将图像转换为表格

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...