如何使用 tabula 从 PDF 中检索干净的表格?

问题描述

我正在尝试以 PDF 格式解析我的银行对帐单。我尝试使用 tabula.convert_into() 首先从 PDF 中提取表格作为 csv 文件以供进一步处理。 PDF 文件中有多个页面,我打算将它们合并为一张表格。

import tabula
    tabula.convert_into(sourceFile,endFile.csv,output_format="csv",pages="all",java_options="-Dfile.encoding=UTF-8")

但是,检索到的 CSV 文件非常脏:

CSV file retrieved (actual amount masked)

从哪里可以看出不同的“余额”编号(红色下划线)不在同一列,不同的“存款”编号(黄色突出显示)不在同一列。

它们是从 PDF 文件的不同页面中检索到的,但对我来说看起来很干净,因为“余额”和“存款”数字在不同页面上对齐,没有错位:

Previous page,for first half of the table

Second page,for second half of the table

无论如何我可以使用 tabula 从 PDF 中检索干净的表格? 我对 python 很陌生,所以感谢您的帮助!

Example of clean Table,desired target

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...