如何为具有相同标签集的不同文档布局训练自定义模型？

问题描述

我正在尝试了解使用预建发票模型不支持的语言（以法语为例）训练发票自定义模型的最佳方法是什么。

通常情况下，我们会有来自不同供应商的许多不同的发票布局，但在所有这些布局中，我们将提取相同的标签集（发票编号、金额、日期、供应商名称等）。

我应该为每个供应商创建一个模型并进行组合吗？如果我这样做，我是否需要为所有供应商培训它，或者它是否适用于未经培训的发票，但使用与经过培训的发票相同的措辞？

解决方法

如果您只想获取发票编号、金额、日期等几个字段。您可以尝试预先构建的发票，看看它是否提取了您需要的数据。它尚未接受法语或其他语言发票的培训，质量应该较低，但可能有效。如果您正在训练自定义模型，则需要为每个提供者训练一个模型，然后将所有单个模型组合成一个组合模型。我建议采用您的顶级提供商并为他们创建模型。

我在 MS QA 网站上得到了微软的答复，见下文：
“对于发票（我相信他指的是英文发票），您应该使用预先构建的 Invoice 模型，无需培训 - https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/concept-invoices。
如果您需要训练模型而不使用预先构建的模型，则是每个供应商\提供商的模型并组合它们。从顶级提供商开始，以便获得更多覆盖。”

查找有关 MS QA Question 的更多信息。

azure azure azure azure-form-recognizer form-recognizer