Tabula-py 没有正确提取行

问题描述

使用 Tabula-py 提取 pdf 表,它提取所有行但没有正确拆分。以下面的示例pdf进行提取

1

尝试使用以下代码提取

import tabula
import json
import pandas as pd

path = "/GST_OCR input Pdfs/gst3.pdf"
col2str = {'dtype': str}
kwargs = {
        "multiple_tables":True,'pandas_options': col2str,'lattice':False,'guess':False
}
csv_data = tabula.read_pdf(path,pages="all",**kwargs)
# with pd.ExcelWriter(csv_data[1].iloc[0,1]+".xls",engine='xlsxwriter') as writer:
#     for i in range(len(csv_data)):
#         csv_data[i].to_excel(writer,sheet_name=f'Sheet {i+1}')
csv_data[5]

它没有正确提取行,而是创建了未命名的列。' 像这样提取

2

帮我解决这个问题。 提前致谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)