问题描述
我们正在使用 Retinanet 对象检测器模型从我们的表格中检测和提取数据。使用 1000 多个图像注释后,我们得到了一个很好的模型。然而,当我们想要提取数据时,我们的问题就出现了。最常用的是 Camelot,但它的效果不如我们希望的那样好,所以我们尝试使用 tabula。当我们在 area 参数中使用 XML 注释时,它不起作用。环顾四周后,我们看到 tabula 仅使用 PDF 点单位。如何将 XML 点转换为 PDF 点单位?下面的图像检测:
解决方法
这取决于retinanet 使用的单位。 PDF 点定义为 1/72 英寸,因此您还需要知道源图像的分辨率(以每英寸点数为单位)。
请记住,Tabula 不适用于光栅(图像)PDF。