问题描述
我想知道在 Azure 表单识别器自定义模型(带标签)中处理同一标记字段的多个实例时是否遗漏了什么?例如,让我们使用以下(非常简化的)文档:
现在,如果我训练一个模型来检测“姓名”、“dob”和“公司”,我最终得到的结果如下:
{
"fields": {
"Name": {
"value_type": "string","label_data": null,"value_data": {
"page_number": 1,"text": "John R. Smith Ronald Johnson.,Esquire","bounding_Box": [
[
0.57,4.435
],[
1.8,6.005
],[
0.57,6.005
]
],"field_elements": null
},"name": "Name","value": "John R. Smith Ronald Johnson.,"confidence": 1
},...
如您所见,Azure 表单识别器结果 JSON 中 Name
字段的每个“实例”之间没有分隔符。我应该如何训练和/或处理 Field 结果,以允许我从文档中提取给定字段的每个实例?
我尝试的第一件事是标记标签名称和文档中某个字段的值并对其进行培训。例如,Name: John R. Smith
和 Name: Ronald Johnson.,Esquire
将是我在 Fott 中标记为此训练示例的 Name
字段的内容。然后,我将在 Name:
上拆分结果。这在理论上似乎很好,但在实践中,与仅选择字段值并对其进行培训相比,我最终得到的准确度非常低。
解决方法
请将它们标记为 Name1 和 Name2 以将它们提取为单独的字段。