为什么我的文本是直线输出而不是原始文本？

问题描述

我目前正在从事一个项目，该项目要求我仅从PDF中提取文本并将其存储在文本文件中。但是，当我使用以下代码时，它将提取代码，但将所有文本以直线形式输出。

from io import StringIO

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,pdfpageInterpreter
from pdfminer.pdfpage import pdfpage
from pdfminer.pdfparser import PDFParser

import textwrap

#from textwrap_example import sample_text

def convert_pdf_to_string(file_path):

    output_string = StringIO()
    with open(file_path,'rb') as in_file:
        parser = PDFParser(in_file)
        doc = PDFDocument(parser)
        rsrcmgr = PDFResourceManager()
        device = TextConverter(rsrcmgr,output_string,laparams=LAParams())
        interpreter = pdfpageInterpreter(rsrcmgr,device)
        for page in pdfpage.create_pages(doc):
            interpreter.process_page(page)

    return(output_string.getvalue())
print((convert_pdf_to_string("SDA334.pdf")))
file1=open("11.txt","a")
file1.write(textwrap.fill(("SDA334.pdf")))
file1.close()

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

format pdf pdfminer text-files