问题描述
我试图了解Faster RCNN中的rpn网络。
我了解rpn网络的概念,
- 将输入图像传递到经过预先训练的CNN,并以特征图的形式获取输出
- 使要素地图的尺寸固定不变
- 从固定大小的特征图中提取锚点(每个滑动窗口3个不同的比例和比率)。
- 使用两个1×1完全连接的NN查找背景或对象以及边界框坐标(4个值)
- 使用“地面真值”边界框计算“锚定”边界框的IoU,如果IoU> 0.7,则该锚定具有对象,否则,该锚定具有背景。
但是,我不了解输入和输出结构。
例如,我有50张图像,每个图像有5到6个对象,以及标签信息(每个对象的坐标)。
如何生成目标值以训练PRN网络...
在所有博客中,他们都将架构显示为将整个图像馈送到经过预先训练的CNN。
并且,作为rpn的输出,模型必须判断锚点是否具有对象,并且还必须预测锚点中对象的边界框。
为此,如何像在dog / cat或dog / cat / car分类问题中一样准备输入和目标/输出值。
如果我不正确,请让我正确
是的,我们必须裁剪每个图像中的所有对象,并按对象与背景进行二进制分类,以对锚点是否具有对象进行分类
而且,是的,我们必须将数据集中所有图像中每个裁剪对象的地面真实值作为目标,以便rpn网络训练有素,可以预测每个锚点中对象的边界框。
希望,我清楚地解释了我的疑问。
帮我学习这个概念,谢谢
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)