如何在python的csv输出中的每个表之前包含1行空间并标记页码

问题描述

我正在尝试使用 tabula 包从 pdf 中提取表格。在 Extraction 中,我可以看到页面的每个表,每个表没有任何行空间。

  1. 如何在每个表之间包含行空间。
  2. 还有我应该如何为多个页面保留变量“pageNum=310,311,312”,例如,如果我想从页面 310 到 340 中提取
  3. 如何在每个表格的输出中打印页码

注意:每一页只有一张表

代码

!pip install tabula-py
from tabula import read_pdf
import tabula
from tabula import convert_into

from tabula.io import read_pdf
file = r"URL"

from tabula import convert_into
pageNum=310,312

convert_into(file,"Latest.csv",output_format='csv',pages=pageNum)
print('completed')

当前输出

第 310 页:

A        B           C       D
ID1     22.8 23.5   19.5 .  27.6
ID2    22.8 23.5    19.5 .  27.6
ID3    25.2 23.5    24.8 .  23.9(page 311)
ID4    22.0 20.0    22.2 .  23.5

预期输出

第 310 页:

A        B           C       D
ID1     22.8 23.5   19.5 .  27.6
ID2    22.8 23.5    19.5 .  27.6

第 311 页:

ID3    25.2 23.5    24.8 .  23.9
ID4    22.0 20.0    22.2 .  23.5

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...