我正在尝试使用pdfminer将数据提取为python中的HTML元素

问题描述

我尝试使用pdfminer从pdf提取HTML数据,尽管现在我已成功从同一pdf提取文本,但是在提取HTML数据时遇到错误,我必须进一步过滤数据以将其归类为CSV。这是脚本。

from io import StringIO  
from pdfminer.layout import LAParams  
from pdfminer.high_level import extract_text_to_fp  

output_string = StringIO  

with open('mini.pdf','rb') as fn:  
    extract_text_to_fp(fn,output_string,laparams=LAParams(),output_type='html',codec=None)

这是我得到的错误。 Click Here

解决方法

此代码对我有用。

def convert_html(filename):
    output = StringIO()
    with open(filename,'rb') as fin:
        extract_text_to_fp(fin,output,laparams=LAParams(),output_type='html',codec=None)
        Out_txt=output.getvalue()
        return Out_txt
,

以这种方式向 StringIO 添加括号:output_string = StringIO() 将调用类构造,代码可以使用此方法

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...