问题描述
我正在使用Amazon Textract进行文本检测或原始文本,表单和表格。
我正在为此上传PDF。
我正在使用坐标从原始文本中获取值。我成功地获得了价值。 但是几天后,该特定块的边界框坐标发生了变化。然后,我的逻辑不起作用。
你们知道为什么这些坐标在变化吗?
这是我在确定坐标后应用逻辑的方法。
if ((item.Geometry.BoundingBox.Top >= 0.92379182 && item.Geometry.BoundingBox.Top <= 0.96)
&& (item.Geometry.BoundingBox.Left >= 0.02470588 && item.Geometry.BoundingBox.Left <= 0.29)
&& (item.Geometry.BoundingBox.Height >= 0.001 && item.Geometry.BoundingBox.Height <= 0.054545)
&& (item.Geometry.BoundingBox.Width >= 0.001 && item.Geometry.BoundingBox.Width <= 0.16))
{
text = text + " " + item.Text;
}
解决方法
Textract背后的机器学习模型可能会发生变化。尽管已经进行了回归测试以确保整体质量不会变差,但这并不是说结果永远不会改变。尤其是像边界框之类的东西,只要感兴趣的区域仍然正确地边界,坐标的微小变化就不会被视为回归。