Camelot 无法提取整个表

我使用 Camelot 从我使用 ocrmypdf(500dpi) 从扫描转换为可搜索的 PDF 中提取表格信息。

Camelot 似乎能够识别表格并提取表格内的大部分数据，但似乎无法提取下半部分。本质上，它看到了表格的上半部分，但似乎无法将文本与下半部分分开。

这是有问题的 PDF 中的表格：

但是当我使用 Camelot 的可视化调试方法时，我要求它向我展示它将提取的单词，它似乎将表格的底部识别为一个巨大的块

您可以在此处提供有关改进 Camelots“愿景”的任何指导。

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

相关问答