问题描述
我尝试使用pdfminer从pdf提取HTML数据,尽管现在我已成功从同一pdf提取文本,但是在提取HTML数据时遇到错误,我必须进一步过滤数据以将其归类为CSV。这是脚本。
from io import StringIO
from pdfminer.layout import LAParams
from pdfminer.high_level import extract_text_to_fp
output_string = StringIO
with open('mini.pdf','rb') as fn:
extract_text_to_fp(fn,output_string,laparams=LAParams(),output_type='html',codec=None)
这是我得到的错误。 Click Here
解决方法
此代码对我有用。
def convert_html(filename):
output = StringIO()
with open(filename,'rb') as fin:
extract_text_to_fp(fin,output,laparams=LAParams(),output_type='html',codec=None)
Out_txt=output.getvalue()
return Out_txt
,
以这种方式向 StringIO
添加括号:output_string = StringIO()
将调用类构造,代码可以使用此方法