问题描述
我用Keras功能API编写了一个基于Faster R-CNN的区域提议网络的实现,我遇到了一个问题,经过一番搜索我没有找到明确的解决方案。
我有一个自定义层,称为Roi_Projection_Layer
,它将是Keras中的一个自定义层。该层应采用:
- 来自
shape = (None,32,19,512)
(第一维是批处理大小)图像的卷积特征图,以及 -
shape=(None,1,4)
的锚点框,例如sample_anchor_Box = [x_centre,y_centre,Box_width,Box_height]
我希望将这两个明显不同形状的张量传递到Keras层,以便我可以使用锚框的中心和形状作为投影参数,也就是在空间维度上获得特定的3 x 3窗口的特征图,将其传递给模型中的更多层。
我不确定该怎么做。我的一些想法是将锚定框值附加到每个通道的空间尺寸上,即传递空间尺寸(32 * 19 + 4)的特征图,但是我不确定的是,如果您修改输入在严格的Keras层操作之外,一旦模型被编译,模型会缺少该代码吗?任何见解都表示赞赏。
解决方法
由于没有得到答案,因此我将发布尝试/调查信息。
我能够通过子类化keras.layers.Layer来编码ROI投影层,其中输入是单个元组的列表。列表中的第一个元素是一个元组,即该元组的第一个元素是单个图像,第二个元素是[x_min,y_min,width,height]
形式的锚框集合。由于在Faster R-CNN中的下一个卷积层将3 x 3窗口作为输入,因此我将结果填充为零,因此对于映射到特征图边界像素的锚点框,我们需要填充。
class RoiProjectionLayer(keras.layers.Layer):
def __init__(self,stride):
super(RoiProjectionLayer,self).__init__()
self.stride = stride
def call(self,inputs):
projected_feature_maps = []
batch_size = inputs[0][1].shape[0]
for i in range(batch_size):
# x centre (after padding) of the anchor box location in the feature map
x_val = tf.dtypes.cast(inputs[0][1][i][0]/self.stride,tf.int32)+2
# y centre (after padding) of the anchor box location in the feature map
y_val = tf.dtypes.cast(inputs[0][1][i][1]/self.stride,tf.int32)+2
feature_map = inputs[0][0][0]
padding_values = tf.constant([[2,2],[2,[0,0]])
feature_map = tf.pad(feature_map,padding_values,"CONSTANT")
projected_feature_maps.append(feature_map[x_val-1:x_val+2,y_val-1:y_val+2,:])
return tf.stack([x for x in projected_feature_maps])
基本上,关键是要注意,keras中的图层可以采用张量元组列表。即使在不急于执行的情况下也可以使用,但是我不得不将batch_size设置为RoiProjectionLayer类的固定参数。