如何使用 tabula-py 将 PDF 转换为 excel 成多个表的数据框?

问题描述

我有一个 PDF 文件,其中有几个表格,例如: Table from PDF File

顺便说一句,我了解到我必须从 Java 中使用 tabula-py(注意:我正在研究 Jupyter Notebook 所以,我编码这个: 将熊猫导入为 pd 将 numpy 导入为 np

导入表格 从表格导入 read_pdf

pdf_path = "..\PDFs\pobreza2.pdf" #文件方向

df=tabula.read_pdf(pdf_path,pages="all",stream=True,guess=False,multiple_tables=True) #PDF 有很多页有几个表

我明白了: Output of the code

它就像一个列表而不是一个数据框

那么,我怎样才能把这个表放到一个 Dataframe 中呢?表格有字符串和浮点对象

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)