Azure 表单识别器响应已从文本中删除所有空格

问题描述

我正在使用 fott.azure 网站上的训练工具来训练我的模型,我能够正确标记字段,但该工具正在删除已识别文本中的所有空格。我也遇到了与 Recognize API 相同的问题。

这是一个例子

实际文本: 美利坚合众国

JSON 响应: UnitedStatesofAmerica

培训工具是否有任何设置可以防止出现此问题?

解决方法

考虑到这一点,不应删除空格。您能否也尝试一下 http://fott-2-1.azurewebsites.net 上最新的 Form Recognizer GA 2.1 版?你能分享你试过的文件吗?请在共享前删除任何 PII。请随时通过表单识别器与我们联系 联系我们 formrecog_contact@microsoft.com

,

FOTT工具会以词级保存标注文本,以示例文本“美利坚合众国”为例,在标签文件中将拆分为四个词:

  1. “United”及其边界框。
  2. “States”及其边界框。
  3. “of”及其边界框。
  4. “美国”及其边界框。

当返回预测结果时,预测字段也会有文字级别的文本。我们可以用空格连接单词来组装整个文本。

这是 FOTT 的设计行为,因此遗憾的是没有用于保留空间的配置。

正如 Neta 提到的,你能不能试试 Form Recognizer 2.1 GA 版本,在这个版本中我相信有字段“text”属性包含预测的整个文本,这可能是你所期望的 :)

https://westus.dev.cognitive.microsoft.com/docs/services/form-recognizer-api-v2-1/operations/GetAnalyzeFormResult

希望对您有所帮助,如果这篇文章没有回答您的问题,请随时使用 Neta 提供的联系信息与我们联系。谢谢!