问题描述
我一直在测试 pdfplumber 和 pdfminer,在这个阶段我不确定我更喜欢哪一个。 Pdfminer 在从非结构化 pdf 中提取文本方面做得更好,但它似乎不太好用。
有谁知道在 pdfminer.six 中逐页提取文本的更简洁方法比下面显示的更简洁吗?
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import pdfpage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import pdfpageInterpreter
from pdfminer.pdfdevice import PDFDevice
fp = open('file','rb')
parser = PDFParser(fp)
document = PDFDocument(parser)
rsrcmgr = PDFResourceManager()
device = PDFDevice(rsrcmgr)
interpreter = pdfpageInterpreter(rsrcmgr,device)
for page in pdfpage.create_pages(document):
interpreter.process_page(page)
谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)