如何为具有相同标签集的不同文档布局训练自定义模型?

问题描述

我正在尝试了解使用预建发票模型不支持的语言(以法语为例)训练发票自定义模型的最佳方法是什么。

通常情况下,我们会有来自不同供应商的许多不同的发票布局,但在所有这些布局中,我们将提取相同的标签集(发票编号、金额、日期、供应商名称等)。

我应该为每个供应商创建一个模型并进行组合吗? 如果我这样做,我是否需要为所有供应商培训它,或者它是否适用于未经培训的发票,但使用与经过培训的发票相同的措辞?

解决方法

如果您只想获取发票编号、金额、日期等几个字段。您可以尝试预先构建的发票,看看它是否提取了您需要的数据。它尚未接受法语或其他语言发票的培训,质量应该较低,但可能有效。 如果您正在训练自定义模型,则需要为每个提供者训练一个模型,然后将所有单个模型组合成一个组合模型。我建议采用您的顶级提供商并为他们创建模型。

,

我在 MS QA 网站上得到了微软的答复,见下文:
“对于发票(我相信他指的是英文发票),您应该使用预先构建的 Invoice 模型,无需培训 - https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/concept-invoices
如果您需要训练模型而不使用预先构建的模型,则是每个供应商\提供商的模型并组合它们。从顶级提供商开始,以便获得更多覆盖。”

查找有关 MS QA Question 的更多信息。