有没有办法在 Python 中从 pdf 中提取图像,同时保留图像在 pdf 中的位置?

问题描述

我需要从 pdf 中提取图像而不会丢失其在 pdf 中的位置。我需要知道图片在哪个页面以及图片在文本中的哪个位置,然后将pdf中的文本和图片保存到json文件中,数据的顺序不变。

解决方法

您可以使用 pdfplumber 并运行此代码:

import pdfplumber

pdf_obj = pdfplumber.open(doc_path)
page = pdf_obj.pages[page_no]
images_in_page = page.images
page_height = page.height
image_bbox = (image['x0'],page_height - image['y1'],image['x1'],page_height - image['y0'])
cropped_page = page.crop(image_bbox)
image_obj = cropped_page.to_image(resolution=400)
image_obj.save(path_to_save_image)

源链接here