如何将 XML 注释 [xmin,ymin,xmax,ymax] 转换为表格区域？

问题描述

我们正在使用 Retinanet 对象检测器模型从我们的表格中检测和提取数据。使用 1000 多个图像注释后，我们得到了一个很好的模型。然而，当我们想要提取数据时，我们的问题就出现了。最常用的是 Camelot，但它的效果不如我们希望的那样好，所以我们尝试使用 tabula。当我们在 area 参数中使用 XML 注释时，它不起作用。环顾四周后，我们看到 tabula 仅使用 PDF 点单位。如何将 XML 点转换为 PDF 点单位？下面的图像检测：

Detected table

解决方法

这取决于retinanet 使用的单位。 PDF 点定义为 1/72 英寸，因此您还需要知道源图像的分辨率（以每英寸点数为单位）。

请记住，Tabula 不适用于光栅（图像）PDF。

见：Converting Pixels and Inches to PostScript Points

data-extraction tabula

如何将 XML 注释 [xmin,ymin,xmax,ymax] 转换为表格区域？

问题描述

解决方法

相关问答