如何使用 Camelot 在 PDF 中搜索文本并获取表格区域?

问题描述

我正在使用 Camelot 从 PDF 中提取表格数据。 Camelot 工作得很好,但我有一个包含多个表的页面,我只需要一个。我想根据正则表达式搜索找到那个。

如果我运行指定表格区域的代码,它会找到表格。 (如果我不指定参数,它假定整个页面一个表)。

table = camelot.read_pdf(file,flavor="stream",pages='5',table_areas=['20,530,550,350'],row_tol=15)

camelot.plot(table[0],kind='contour')

蓝色框是文本。我只关心红框中的文本表。

enter image description here

我的问题:鉴于我知道我要搜索的文本,我如何搜索获取大致的表格区域,然后将其传递给 Camelot?我已经有了用于搜索正则表达式 (PyMuPDF) 的工作代码

由于 Camelot 返回文本,我不得不认为有一种方法可以知道框坐标,但我无法从查看他们的文档中看到它,这里是:

https://camelot-py.readthedocs.io/en/master/api.html#lower-level-classes

我确定有一个 OpenCV 解决方案,但如果可能的话,我想先使用 Camelot。感谢任何帮助。谢谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...