Tabula中的“ EmptyDataError：没有要从文件解析的列”

问题描述

我正在使用tabula-py进行表提取，并尝试使用下表：

我的代码行是：

tabula_test = tabula.read_pdf(pdf_file,stream = True,pages = pages,multiple_tables = True,output_format = 'dataframe',pandas_options={"header": None,"skiprows" : skip_n})

当我放置skiprows = 7时，因为是标题的行数。然后，我得到了EmptyDataError: No columns to parse from file。否则，仅具有表头的输出即可。我认为问题在于“ Millones de”下方的空白，表格以某种方式标识了界定表头和表内容的行，就像表的末尾一样。

我已经使用了相同pdf的其他页面，并且效果很好，但是特别是在该页面中，表格崩溃了。读到错误后，我认为这是pandas_options中的错误，因此我尝试使用delim_whitespace = True，但是它不起作用。因此，我看到了Tabula文档，并说如果发生错误，只需转换gues = False：

tabula_test = tabula.read_pdf(pdf_file,guess = False,"skiprows" : skip_n})

所以我做到了，错误消失了。但是我想知道这是否是克服错误的唯一方法。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

pandas python tabula