当行数据分为两个单独的页面时，如何从pdf正确提取表格数据？

我的任务是解析pdf中的表格数据。我在 python 中使用“tika”库，这很好，但有一个问题如下：

Pdf 有表格格式的文本，行的一半在第二页结束，这将表的键和值数据分为两个不同的页面，我认为 tika 将这一行视为两个单独的行。

输出将在不正确的键之间添加值。

例如：

str = "这是长键数据 xxxxxxx value xxxxxxxxx 剩余的键数据"

有什么建议吗？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）