使用Azure Form Recognizer提取PDF表数据

问题描述

我正在使用Azure From Recognizer处理发票处理项目。所有发票均为PDF格式。我正在使用带有标签自定义表单识别器。我可以从PDF中提取一些数据,例如发票编号,发票日期,金额等,但是我想使用Azure Form Recognizer从pdf中提取表数据,但是它无法正确读取表。

我已经标记了我需要的单元格,并且当表中的行数增加时,它会正确读取该列,但是它无法将每一行的值彼此分开,并将整列作为单个值返回

我尝试提供更多示例,但是仍然无法检测到正确的表。 是否可以使用Azure Form Recognizer从PDF正确提取表数据?

扫描表是我们应用程序的基本要求,它将决定我们是否使用Azure Form Recognizer建立应用程序。

请参见下面的PDF表格图像,并希望从所有列中提取所有行数据。

enter image description here

如果您可以通过一些文档将我们指向正确的方向,那将是有益的。

谢谢

解决方法

请尝试以下-

  1. 不带标签的火车,看看它是否检测到并提取了您需要的表。在此处查看快速入门-https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/python-train-extract?tabs=v2-0

  2. 如果没有标签的火车未检测到他的桌子,并且您正在使用带有标签的火车,并且未自动检测到该桌子,则我们尚不支持对表格进行本地标记。您可以尝试将表标记为键值对,以作为一种提取值的解决方法。将表格标记为键值对时,将每个单元格标记为一个值,因此对于上表,每列应具有5个值-Desc1,Desc2,Desc3 ... Desc5,hours1,hours2,hours3,... Hours5。在这种情况下,您将需要训练具有最大行数的表。

Neta-MSFT