训练自定义表单，selectionMark 边界框识别问题

问题描述

在训练自定义表单时，我正在使用 Fott 的当前预览版本。我注意到，在某些情况下，分析布局的能力在识别选择标记方面存在问题。我正在训练一个用于标准美国政府表格 (MCSA-5876) 的模型，因此我们无法更改表格布局。图片上传为jpg，这是本项目的要求。

复选框（方形）似乎可以很好地识别
如果未选中该选项且图像完全不失真，则无线电选项大部分时间都有效
使用 X 填充手写的收音机大部分时间都在工作
来自中间有一个点的填充 PDF 的收音机经常会失败。请注意，这些是以 jpg 而非 pdf 格式发送给我们的。

我尝试对一些填充的 PDF 文件进行分析以进行测试，但就选择标记而言，这些文件的结果甚至比 jpg 还要差。我也尝试过创建自己的模型表单并保存为高分辨率 jpg，但他们体验到的结果与客户的相似。

我正在寻找有关如何提高 selectionMark 准确性的建议。我目前正在为超过 20 张图像的模型设置训练集。我还想知道是否有办法修改初始分析并指定选择的边界框。手动编辑 blob 存储中的 *.ocr.json 文件会起作用吗？但绝对不是理想的解决方案。

我附上了一张图片，显示了我遇到的问题。 MD、DO、Physician Assistant 等收音机没有边界框。其他像高级实践护士和其他从业者一样。如果分析器无法找到它们进行标记，那么当您使用经过训练的模型分析新文档时，它就不会找到它们。因此该值返回为 null。

TIA 丰富

Sample

解决方法

您使用的是最新的表单识别器版本 2.1-preview.3 API 吗？我们正在不断提高我们的提取质量。我尝试了示例表单，并提取了复选框和单选按钮。您能否分享一些您发现未命中的示例（请匿名数据），您也可以联系表单识别器联系我们 formrecog_contact@microsoft.com 或打开支持票，我们可以提供帮助。

使用最新的 FR 试用工具 - https://fott-preview.azurewebsites.net/layout-analyze 突出显示的文本提取和选择标记 [1]：https://i.stack.imgur.com/Wk7yz.jpg

azure azure azure form-recognizer microsoft-cognitive preview preview