问题描述
我正在尝试以 PDF 格式解析我的银行对帐单。我尝试使用 tabula.convert_into()
首先从 PDF 中提取表格作为 csv 文件以供进一步处理。 PDF 文件中有多个页面,我打算将它们合并为一张表格。
import tabula
tabula.convert_into(sourceFile,endFile.csv,output_format="csv",pages="all",java_options="-Dfile.encoding=UTF-8")
但是,检索到的 CSV 文件非常脏: 从哪里可以看出不同的“余额”编号(红色下划线)不在同一列,不同的“存款”编号(黄色突出显示)不在同一列。
它们是从 PDF 文件的不同页面中检索到的,但对我来说看起来很干净,因为“余额”和“存款”数字在不同页面上对齐,没有错位:
无论如何我可以使用 tabula 从 PDF 中检索干净的表格? 我对 python 很陌生,所以感谢您的帮助!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)