问题描述
我有带表的PDF和与表内容有关的图像图。 表格和图片都在同一个页面上。
我已经使用Camelot库提取了表。以及使用Fitz库的图像。 使用Python
现在我想将这些images(.png)上传到任何可能的云服务,并提供相应图像的Web链接到相应表的数据框。
请帮助。
This is how a single Page of PDF looks line.
解决方法
对于任何公共云,您可以使用S3通过BOTO3(python库)存储图像。
将图像存储在AWS S3存储桶中的示例代码:
import boto3
s3 = boto3.client('s3')
bucket = 'your-bucket-name'
file_name = 'location-of-your-image'
key_name = 'name-of-image-in-s3'
s3.upload_file(file_name,bucket,key_name)
要获取上传的文件网址,您可以将其构造为:
s3_url = f"https://{bucket}.s3.{region}.amazonaws.com/{file_name}"
并将 s3_url 存储在数据框中。