使用表单识别器提取表格数据

问题描述

我正在尝试通过训练不同的表格布局结构来提取表格数据。但是一旦训练完成,如果我试图分析一个具有不同布局的新文件,我将无法获取表格数据。是否是 Azure 认知服务的限制。

解决方法

表格是自动提取的并出现在 JSON 输出的 pageResults 部分,还是在 UX 附近有一个小表格图标?如果您正在标记表格并在表格上进行培训,那么您的培训数据是否所有文档都来自相同的格式和布局?如果不是,您应该为每种文档类型(相同的格式和布局)创建一个模型,然后将所有模型组合成一个模型。

,

您可以使用 Konfuzio SDK 试用此功能 让您开始:

# pip install konfuzio_sdk
# in the working directory
# konfuzio_sdk init

from konfuzio_sdk.api import get_results_from_segmentation

result = get_results_from_segmentation(doc_id=1111,project_id=111)
# result contains the elements per page
tables_first_page = [r for r in result[0] if r['label'] == 'table']

创建一个免费帐户 here 并上传您的训练数据

https://github.com/konfuzio-ai/document-ai-python-sdk/issues/24