问题描述
我正在与 AWS Textract 合作从 PDF 中提取医疗数据。 API 运行良好,但数据格式不规则,难以解析。例如,在一列中可能有多个标题和与其关联的值。这是一张有助于解释的图表:
标题 1 | header2 |
---|---|
价值 | 价值 |
header3 | header4 |
---|---|
value3 | 值 4 |
value5 | 值 6 |
有时会有多个与特定标头相关联的值,有时则不会。有没有人有过处理 PDF 中此类不规则数据并一致地提取信息的经验?
谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)