问题描述
有各种结构不同的发票格式。现在,我要从中提取一些特定的字段,如发票编号,日期等。但是,字段的位置随几乎每种发票格式而变化。许多甚至都不是表格数据。
我曾尝试使用pdf挖掘器,textract等提取数据,并尝试进行模式匹配,但这不起作用,因为我们有多个具有相似模式的值。
是否有可能将每种类型的发票分类为特定的模型,然后通过提取特定的字段来进行?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)