为什么我的文本是直线输出而不是原始文本?

问题描述

我目前正在从事一个项目,该项目要求我仅从PDF中提取文本并将其存储在文本文件中。但是,当我使用以下代码时,它将提取代码,但将所有文本以直线形式输出

from io import StringIO

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,pdfpageInterpreter
from pdfminer.pdfpage import pdfpage
from pdfminer.pdfparser import PDFParser

import textwrap

#from textwrap_example import sample_text

def convert_pdf_to_string(file_path):

    output_string = StringIO()
    with open(file_path,'rb') as in_file:
        parser = PDFParser(in_file)
        doc = PDFDocument(parser)
        rsrcmgr = PDFResourceManager()
        device = TextConverter(rsrcmgr,output_string,laparams=LAParams())
        interpreter = pdfpageInterpreter(rsrcmgr,device)
        for page in pdfpage.create_pages(doc):
            interpreter.process_page(page)

    return(output_string.getvalue())
print((convert_pdf_to_string("SDA334.pdf")))
file1=open("11.txt","a")
file1.write(textwrap.fill(("SDA334.pdf")))
file1.close()

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)