使用表单识别器提取表格数据

问题描述

我正在尝试通过训练不同的表格布局结构来提取表格数据。但是一旦训练完成，如果我试图分析一个具有不同布局的新文件，我将无法获取表格数据。是否是 Azure 认知服务的限制。

解决方法

表格是自动提取的并出现在 JSON 输出的 pageResults 部分，还是在 UX 附近有一个小表格图标？如果您正在标记表格并在表格上进行培训，那么您的培训数据是否所有文档都来自相同的格式和布局？如果不是，您应该为每种文档类型（相同的格式和布局）创建一个模型，然后将所有模型组合成一个模型。

您可以使用 Konfuzio SDK 试用此功能让您开始：

# pip install konfuzio_sdk
# in the working directory
# konfuzio_sdk init

from konfuzio_sdk.api import get_results_from_segmentation

result = get_results_from_segmentation(doc_id=1111,project_id=111)
# result contains the elements per page
tables_first_page = [r for r in result[0] if r['label'] == 'table']

创建一个免费帐户 here 并上传您的训练数据

https://github.com/konfuzio-ai/document-ai-python-sdk/issues/24

azure azure azure azure-cognitive-services form-recognizer