问题描述
使用 Tabula-py 提取 pdf 表,它提取所有行但没有正确拆分。以下面的示例pdf进行提取。
import tabula
import json
import pandas as pd
path = "/GST_OCR input Pdfs/gst3.pdf"
col2str = {'dtype': str}
kwargs = {
"multiple_tables":True,'pandas_options': col2str,'lattice':False,'guess':False
}
csv_data = tabula.read_pdf(path,pages="all",**kwargs)
# with pd.ExcelWriter(csv_data[1].iloc[0,1]+".xls",engine='xlsxwriter') as writer:
# for i in range(len(csv_data)):
# csv_data[i].to_excel(writer,sheet_name=f'Sheet {i+1}')
csv_data[5]
帮我解决这个问题。 提前致谢
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)