实施Keras层,为区域提议网络功能性API采用不同形状的输入

问题描述

我用Keras功能API编写了一个基于Faster R-CNN的区域提议网络的实现,我遇到了一个问题,经过一番搜索我没有找到明确的解决方案。

我有一个自定义层,称为Roi_Projection_Layer,它将是Keras中的一个自定义层。该层应采用:

  • 来自shape = (None,32,19,512)(第一维是批处理大小)图像的卷积特征图,以及
  • shape=(None,1,4)的锚点框,例如sample_anchor_Box = [x_centre,y_centre,Box_width,Box_height]

我希望将这两个明显不同形状的张量传递到Keras层,以便我可以使用锚框的中心和形状作为投影参数,也就是在空间维度上获得特定的3 x 3窗口的特征图,将其传递给模型中的更多层。

我不确定该怎么做。我的一些想法是将锚定框值附加到每个通道的空间尺寸上,即传递空间尺寸(32 * 19 + 4)的特征图,但是我不确定的是,如果您修改输入在严格的Keras层操作之外,一旦模型被编译,模型会缺少该代码吗?任何见解都表示赞赏。

解决方法

由于没有得到答案,因此我将发布尝试/调查信息。

我能够通过子类化keras.layers.Layer来编码ROI投影层,其中输入是单个元组的列表。列表中的第一个元素是一个元组,即该元组的第一个元素是单个图像,第二个元素是[x_min,y_min,width,height]形式的锚框集合。由于在Faster R-CNN中的下一个卷积层将3 x 3窗口作为输入,因此我将结果填充为零,因此对于映射到特征图边界像素的锚点框,我们需要填充。

class RoiProjectionLayer(keras.layers.Layer):
    def __init__(self,stride):
        super(RoiProjectionLayer,self).__init__()
        self.stride = stride
    def call(self,inputs):
        projected_feature_maps = []
        batch_size = inputs[0][1].shape[0]
        for i in range(batch_size):
            # x centre (after padding) of the anchor box location in the feature map
            x_val = tf.dtypes.cast(inputs[0][1][i][0]/self.stride,tf.int32)+2
            # y centre (after padding) of the anchor box location in the feature map
            y_val = tf.dtypes.cast(inputs[0][1][i][1]/self.stride,tf.int32)+2 
            feature_map = inputs[0][0][0]
            padding_values = tf.constant([[2,2],[2,[0,0]])
            feature_map = tf.pad(feature_map,padding_values,"CONSTANT")
            projected_feature_maps.append(feature_map[x_val-1:x_val+2,y_val-1:y_val+2,:])
        return tf.stack([x for x in projected_feature_maps])

基本上,关键是要注意,keras中的图层可以采用张量元组列表。即使在不急于执行的情况下也可以使用,但是我不得不将batch_size设置为RoiProjectionLayer类的固定参数。