如何从各种类型的发票中分类和提取特定数据?

问题描述

有各种结构不同的发票格式。现在,我要从中提取一些特定的字段,如发票编号,日期等。但是,字段的位置随几乎每种发票格式而变化。许多甚至都不是表格数据。

我曾尝试使用pdf挖掘器,textract等提取数据,并尝试进行模式匹配,但这不起作用,因为我们有多个具有相似模式的值。

是否有可能将每种类型的发票分类为特定的模型,然后通过提取特定的字段来进行?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)