问题描述
我目前正在从事一个项目,该项目要求我仅从PDF中提取文本并将其存储在文本文件中。但是,当我使用以下代码时,它将提取代码,但将所有文本以直线形式输出。
from io import StringIO
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,pdfpageInterpreter
from pdfminer.pdfpage import pdfpage
from pdfminer.pdfparser import PDFParser
import textwrap
#from textwrap_example import sample_text
def convert_pdf_to_string(file_path):
output_string = StringIO()
with open(file_path,'rb') as in_file:
parser = PDFParser(in_file)
doc = PDFDocument(parser)
rsrcmgr = PDFResourceManager()
device = TextConverter(rsrcmgr,output_string,laparams=LAParams())
interpreter = pdfpageInterpreter(rsrcmgr,device)
for page in pdfpage.create_pages(doc):
interpreter.process_page(page)
return(output_string.getvalue())
print((convert_pdf_to_string("SDA334.pdf")))
file1=open("11.txt","a")
file1.write(textwrap.fill(("SDA334.pdf")))
file1.close()
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)