如何一次从多个 PDF 文件中提取元数据?

问题描述

我想将 PDF 文件集合中的元数据存储在 CSV 文件中。这是我第一次尝试解决问题的代码

import glob
import PyPDF2

from PyPDF2 import PdfFileReader

import csv
import pandas as pd

pdf_filename = [f for f in glob.glob("/home/imene/Downloads/docs/*.pdf")]

for file in pdf_filename:
    pdfFile = PyPDF2.PdfFileReader(file,'rb')
    info = pdfFile.getDocumentInfo()
    d = {'author': [info.author],'creator': [info.creator],'producer':[info.producer],'subject': [info.subject],'title': [info.title]}
    df = pd.DataFrame(d)
    df.to_csv (r'export_dataframe.csv',header=True)

但是,当我运行上面的代码时,我收到一个错误,指出 info 不是一个可迭代对象。如何解决这个问题?任何帮助将不胜感激。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)