问题描述
我们一直在尝试从此类PDF的表格中提取信息。主要问题是表的内容未组织或未遵循某种模式。因此,我们使用了不同的软件包,例如:pdftools,tabulizer,teseeract。 主要目标是提取表中的所有信息(从2000个PDF列表中),并以可访问且井井有条的格式将其保存,例如:csv,txt或类似格式。
在此链接中,您可以看到完整的PDF范例:https://www.mapa.gob.es/agricultura/pags/fitos/registro/productos/pdf/24514.pdf
在此先感谢您的帮助或想法!
干杯!
Amaia
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)