AWS Textract - 从格式不规则的 PDF 解析数据

问题描述

我正在与 AWS Textract 合作从 PDF 中提取医疗数据。 API 运行良好,但数据格式不规则,难以解析。例如,在一列中可能有多个标题和与其关联的值。这是一张有助于解释的图表:

标题 1 header2
价值 价值
header3 header4
value3 值 4
value5 值 6

有时会有多个与特定标头相关联的值,有时则不会。有没有人有过处理 PDF 中此类不规则数据并一致地提取信息的经验?

谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)