Tabula中的“ EmptyDataError:没有要从文件解析的列”

问题描述

我正在使用tabula-py进行表提取,并尝试使用下表:

enter image description here

我的代码行是:

tabula_test = tabula.read_pdf(pdf_file,stream = True,pages = pages,multiple_tables = True,output_format = 'dataframe',pandas_options={"header": None,"skiprows" : skip_n})

当我放置skiprows = 7时,因为是标题的行数。然后,我得到了EmptyDataError: No columns to parse from file。否则,仅具有表头的输出即可。我认为问题在于“ Millones de”下方的空白,表格以某种方式标识了界定表头和表内容的行,就像表的末尾一样。

我已经使用了相同pdf的其他页面,并且效果很好,但是特别是在该页面中,表格崩溃了。读到错误后,我认为这是pandas_options中的错误,因此我尝试使用delim_whitespace = True,但是它不起作用。因此,我看到了Tabula文档,并说如果发生错误,只需转换gues = False

tabula_test = tabula.read_pdf(pdf_file,guess = False,"skiprows" : skip_n})

所以我做到了,错误消失了。但是我想知道这是否是克服错误的唯一方法

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...