AWS Textract - 从格式不规则的 PDF 解析数据

我正在与 AWS Textract 合作从 PDF 中提取医疗数据。 API 运行良好，但数据格式不规则，难以解析。例如，在一列中可能有多个标题和与其关联的值。这是一张有助于解释的图表：

标题 1	header2
价值	价值

header3	header4
value3	值 4
value5	值 6

有时会有多个与特定标头相关联的值，有时则不会。有没有人有过处理 PDF 中此类不规则数据并一致地提取信息的经验？

谢谢！

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）