问题描述
我正在尝试使用 tabula 包从 pdf 中提取表格。在 Extraction 中,我可以看到页面的每个表,每个表没有任何行空间。
注意:每一页只有一张表
代码:
!pip install tabula-py
from tabula import read_pdf
import tabula
from tabula import convert_into
from tabula.io import read_pdf
file = r"URL"
from tabula import convert_into
pageNum=310,312
convert_into(file,"Latest.csv",output_format='csv',pages=pageNum)
print('completed')
当前输出:
第 310 页:
A B C D
ID1 22.8 23.5 19.5 . 27.6
ID2 22.8 23.5 19.5 . 27.6
ID3 25.2 23.5 24.8 . 23.9(page 311)
ID4 22.0 20.0 22.2 . 23.5
预期输出:
第 310 页:
A B C D
ID1 22.8 23.5 19.5 . 27.6
ID2 22.8 23.5 19.5 . 27.6
第 311 页:
ID3 25.2 23.5 24.8 . 23.9
ID4 22.0 20.0 22.2 . 23.5
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)