如何在不附加先前输入的情况下合并和关闭PyPDF

问题描述

合并多个pdf时遇到问题,因为我确实必须在文件夹之间循环并合并匹配的两个文件。 这很容易做到,但是当我:

input1.append(file1)
input2.append(file2)
PDFFileMerger.write(output)

发生合并,但下一次迭代包括先前的输入,依此类推,使最后一个成为一个巨大的pdf文件,使得出现的情况彼此重复

for i in range(nPdfs):
    abr = onlypdf[i]
    abr = abr.replace('.pdf','')
    for j in range(nXl):
        pdf_file = open('SEPTIEMBRE DE 2020/' + onlyfiles[j],'rb')
        read_pdf = pdf.PdfFileReader(pdf_file)
        number_of_pages = read_pdf.getNumPages()
        page = read_pdf.getPage(0)
        page_content = page.extractText()
        if abr in page_content:
            file1 = onlypdf[i]
            file2 = onlyfiles[j]
    print(file1)
    print(file2)
    print(file1+' esta en '+file2)
    input1 = open('Combinadora/documentos/'+file1,'rb')
    input2 = open('SEPTIEMBRE DE 2020/'+file2,'rb')
    merger.append(input1)
    merger.append(input2)
    input1.close()
    input2.close()
    print('archivo creado')
    output = open(abr+'-'+file2,'wb')
    merger.write(output)
    output.close()

这是我的代码,我是否将其拧入循环中?

解决方法

PyPDF是一个很棒的库,但是我在存储方面也遇到了一些问题。因此,通常我会使用单独的流程来创建合并(工作结束后杀死),也可以删除(删除)实际对象。请记住,即使您找到了解决此问题的棘手方法,也可能发生内存泄漏,因此我强烈建议创建和终止进程。