当行数据分为两个单独的页面时,如何从pdf正确提取表格数据?

问题描述

我的任务是解析pdf中的表格数据。 我在 python 中使用“tika”库,这很好,但有一个问题如下:

Pdf 有表格格式的文本,行的一半在第二页结束,这将表的键和值数据分为两个不同的页面,我认为 tika 将这一行视为两个单独的行。

enter image description here

输出将在不正确的键之间添加值。

例如:

str = "这是长键数据 xxxxxxx value xxxxxxxxx 剩余的键数据"

有什么建议吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)