从目录中的pdf文件获取文本

问题描述

我要使用PDFminer从目录中的所有PDF文件中提取文本。我下面的代码仅从一个文件中提取。

from pdfminer.pdfinterp import PDFResourceManager,pdfpageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import pdfpage
from io import StringIO
import os
import re
from ipaddress import IPv4Address
from ipaddress import IPv4Network

def get_pdf_file_content(path):
    resource_manager = PDFResourceManager()
    out_text = StringIO()
    laParams = LAParams()
    text_converter = TextConverter(resource_manager,out_text,laparams=laParams)
    fp = open(os.path.join(path,filename),'rb')
    interpreter = pdfpageInterpreter(resource_manager,text_converter)
    for page in pdfpage.get_pages(fp,pagenos=set(),maxpages=0,password="",caching=True,check_extractable=True):
        interpreter.process_page(page)
    text = out_text.getvalue()
    fp.close()
    text_converter.close()
    out_text.close()
    return text

path = '/botnet_pdf'

for filename in os.listdir(path):
        fh = (get_pdf_file_content(path))

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

pdfminer python-3.x