问题描述
我使用 Camelot 从我使用 ocrmypdf(500dpi) 从扫描转换为可搜索的 PDF 中提取表格信息。
Camelot 似乎能够识别表格并提取表格内的大部分数据,但似乎无法提取下半部分。本质上,它看到了表格的上半部分,但似乎无法将文本与下半部分分开。
这是有问题的 PDF 中的表格:
但是当我使用 Camelot 的可视化调试方法时,我要求它向我展示它将提取的单词,它似乎将表格的底部识别为一个巨大的块
您可以在此处提供有关改进 Camelots“愿景”的任何指导。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)