问题描述
我的任务是解析pdf中的表格数据。 我在 python 中使用“tika”库,这很好,但有一个问题如下:
Pdf 有表格格式的文本,行的一半在第二页结束,这将表的键和值数据分为两个不同的页面,我认为 tika 将这一行视为两个单独的行。
输出将在不正确的键之间添加值。
例如:
str = "这是长键数据 xxxxxxx value xxxxxxxxx 剩余的键数据"
有什么建议吗?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)