我正在尝试使用pdfminer将数据提取为python中的HTML元素

问题描述

我尝试使用pdfminer从pdf提取HTML数据，尽管现在我已成功从同一pdf提取文本，但是在提取HTML数据时遇到错误，我必须进一步过滤数据以将其归类为CSV。这是脚本。

from io import StringIO  
from pdfminer.layout import LAParams  
from pdfminer.high_level import extract_text_to_fp  

output_string = StringIO  

with open('mini.pdf','rb') as fn:  
    extract_text_to_fp(fn,output_string,laparams=LAParams(),output_type='html',codec=None)

这是我得到的错误。 Click Here

解决方法

此代码对我有用。

def convert_html(filename):
    output = StringIO()
    with open(filename,'rb') as fin:
        extract_text_to_fp(fin,output,laparams=LAParams(),output_type='html',codec=None)
        Out_txt=output.getvalue()
        return Out_txt

以这种方式向 StringIO 添加括号：output_string = StringIO() 将调用类构造，代码可以使用此方法

pdf-conversion pdfminer python python-3.x