如何使用 tabula 从 PDF 中检索干净的表格？

我正在尝试以 PDF 格式解析我的银行对帐单。我尝试使用 tabula.convert_into() 首先从 PDF 中提取表格作为 csv 文件以供进一步处理。 PDF 文件中有多个页面，我打算将它们合并为一张表格。

import tabula
    tabula.convert_into(sourceFile,endFile.csv,output_format="csv",pages="all",java_options="-Dfile.encoding=UTF-8")

但是，检索到的 CSV 文件非常脏：

从哪里可以看出不同的“余额”编号（红色下划线）不在同一列，不同的“存款”编号（黄色突出显示）不在同一列。

它们是从 PDF 文件的不同页面中检索到的，但对我来说看起来很干净，因为“余额”和“存款”数字在不同页面上对齐，没有错位：

无论如何我可以使用 tabula 从 PDF 中检索干净的表格？我对 python 很陌生，所以感谢您的帮助！

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

相关问答